订阅云计算RSS CSDN首页> 云计算

周末巨献:100+诡异的数据集,20万Eclipse Bug、死囚遗言等

发表于2014-06-06 16:49| 次阅读| 来源rs.io| 0 条评论| 作者Robert Seaton

摘要:近日,Robert Seaton整理了100多个最有趣的数据集,其中包括Jeopardy真题,死囚的最后一句话,20万个Eclipse Bug,足球比赛相关,柏拉图式的爱情,太阳系以外的行星,11.3万个恐怖事件等。

【编者按】在数据爆发式增长的逼迫下,当下数据分析能力已得到长足的发展,机器学习更成为数据处理中必不可缺少的一环。这里,为大家分享Robert Seaton在其个人博客上整理的100+最有趣的数据集,从柏拉图式的爱情到政治竞选再到死刑囚犯,可谓是应有尽有,旨在给大家的模型训练的过程增加一些乐趣。


免费订阅“CSDN云计算”微信公众号,实时掌握第一手云中消息!

CSDN作为国内最专业的云计算服务平台,提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、Hadoop、Spark、机器学习、智能算法等相关云计算观点,云计算技术,云计算平台,云计算实践,云计算产业资讯等服务。


以下为译文

在寻找数据集?这里给你准备了100多个最有趣的,从柏拉图式的爱情到政治竞选再到死刑囚犯,应有尽有。


个人对“信息时代”这个名词非常不感冒,就好像随便来了个人,往过一坐,然后说:“当下的信息已经非常多了,我们该如何形容?我觉得‘信息时代’这个词不错。”个人认为这是极度不负责的,没有创意,命名者太懒了;其次,如此多的数据带来更多的是处理上的无助和绝望,用“drinking from the firehose” 比喻起来或许更贴切一点。因此,与其叫“信息时代”,我们不妨称之为“饱和时代”,或者是“泛滥时代”。然而,不管称之为什么,毫无疑问的是,我们已经被数据淹没了。这里为大家分享100+最有意思的数据集。无他,在提供数据分析材料的同时,给大家增加一点乐趣。

100+ Most Interesting Data Sets


1. 如果你是智力竞赛节目Jeopardy的参赛选手,你该如何准备?你可以下载这个数据集—— 215930个Jeopardy真题。把这个数据集放到记忆系统中,你就是下一个赢家。

2. 想知道被判死刑是什么样的感受?看看这个数据集—— 德克萨斯州将1984年以来每个死刑犯的最后一句放到了网上。借助这些数据,我们可以进行临刑者的情感分析。

3. 谈到监狱,还有很多关于囚犯的信息,如“犯罪史,家庭背景和个人性格,药物史、酗酒史、治疗方案,枪支所有权和使用史、监狱活动,项目,服务”。

4. 想读他人的邮件么?即使你想,你也没有那个技术,更没有哪个胆量去。来看看安然公司的文集数据库吧。这个数据库包括来自 150多个使用者的100万封邮件,大部分邮件来自Enron公司的管理层,以文件夹的形式呈现。

5. 想了解互联网用户都关心什么?这个问题不好回答,我们可以先回答一个更简单的问题:Reddit(新闻网站)用户都关心什么。有人将 Reddit上250万个帖子进行了分析,公布到了GitHub上。通过这些数据,我们可以了解用户对猫的喜爱程度,一个数据是否支持r/circlejerk。

6. 谈到猫,还有一个数据集上 10000张有注释的猫图片。当我们想训练机器人消灭除了猫以外的所有生物时,这个数据集会非常有用。


7. 如果你对构建金融算法有兴趣,或者只是对预测美国最大经济作物的套利机会感兴趣,那你应该看看 这个数据集,该数据集包含了从2010年9月2日到现在的所有大麻价格数据。

8. 哪些人用了哪些药物?多长时间用一次?

9. 有关象棋比赛的记录最早可追溯到10世纪,产生于巴格达的历史学家和一位学者之间博弈。从那以后,记录象棋比赛中的每一步成为一种传统——尤其是对于那些有重大意义的比赛,比如两个强劲的对手之间的胜负之战。因此,今天的象棋学生们可以借助包含这些比赛记录的丰富数据集进行象棋学习。“Million Base”或许是世界上最大的象棋比赛数据集,声称有220万条比赛记录,你可以通过 此链接下载该数据集。

10. 说起比赛这个主题,少不了足球,我已经找到了 关于足球比赛、足球运动员、球队、得分等信息的数据集。如果这些还不够,你还可以利用S occermetrics API的python包获取更多的数据。我想只要教练们想要战胜对手,这些数据迟早会发挥作用。通常我们说:极客和赌徒区别,就在于极客们通过构建分析模型获得胜利。

11. Google已经开放了所有的Google Book字串数据(n-gram)。每个字串实际上是由n个单词组成的短语,开放的数据集中包括了1-gram到5-gram等不同长度的字串数据。该数据集的建立是“基于1500年到2008年之间出版的520万册书籍”。我们可以通过这一数据集来判断哪些短语被过度使用,哪些短语已经过时,哪些短语面临被淘汰的危险(友情提醒:有些人甚至已经抢先注册了clichealert.com域名)。

12. 亚马逊有大量 开放的数据集(虽说是免费的,但免费只是针对AWS的用户),该数据集包括了从超过280万个网页上抓取的数据。分析抓取的数据,买下有升值空间的网址后,你可以再卖给那些需要做SEO的人,或者你也可以自己用来创建下一个Google。

13. 少数民族的计算机科学跳级考试成绩如何? 你可以自己查一下然后告诉我

14. 有一个百万歌曲(Million Song)数据集,包含了一百多首不同的歌曲,包括“舞曲”。如果配备一个晚会专用的媒体播放机可能会更好,这些数据还适用于聚类算法(比如,自动类型检测),但我不太确定能起到多大的作用。许多人试过基于这些数据构建推荐算法,包括 KagglersCornell的一个团队。一种做法是:按照时间,比如按年分析音乐——70年代、80年代或者90年代(或者找出“模仿-领导“效应,比如一首歌因为风格独特而流行,还会有很多模仿者)。

15. 说道音乐的数据集,last.fm有大量可用的音乐数据。last.fm从它的36万用户那里收集数据,这些数据可能是以“用户,艺术家,以及歌曲的播放信息”这样的形式呈现,这时候用聚类算法自动给音乐分类或者构建推荐系统会更好。

16. 我一想起极客,总会联想到数学和计算机黑客,但是极客远不止这么简单。CescRosselló、Ricardo Alberich和Joe Miro描绘出了一个神奇宇宙的“社交网络图”,使用 Facebook的社交网络图,还可以做一个新的“什么是超级英雄?”测验。

15. Yelp有免费的数据子集,包括餐馆排名和评论数据。通过挖掘Twitter来获取你需要的数据,可以让你拥有可以匹敌Yelp的竞争力。

18.如果你对数据(元数据)中的数据感兴趣,你或许也会对Jürgen Schwärzler感兴趣,Jürgen Schwärzler是Google公共数据团队中的一名统计学家,他整理出一个排名,记录下 常被搜索的数据。前5位分别是学校对比、失业、人口、营业税和工资。

19. 我的读者中无疑有一些邪恶的天才,当然也存在一些想要拯救世界的英雄。这两类人可能都会对超级智能机器人感兴趣,但是要建造这样的一个机器人,你必须教会它事实,然而,手动输入1千万条事实是一件痛苦的事情。还好, Freebase为我们减少了工作量,它为我们免费开放的数据集包含了19亿条事实。

20. 你或许没有打算建造一个超级机器人,只要比一般的数学家聪明一点就行。如果是这种情况的话,那你就需要教你的机器人许多数学知识(定义和定理),因此,你可能需要了解一下 Mizar项目,该项目为我们提供了9400条定义和49000条定理。

21. 那我们假设你建造出了这样的机器“数学家”,它能在证明上为你提供帮助,但那又能怎样?你还需要一个能和你在更深层次交流的人,一个能对某些抽象的主题进行概括的人。这样,你就需要给你的机器人“喂”维基百科的数据了,所有 维基百科的数据都是免费开放的。

22. 当你对数学和维基百科都厌倦时(事实上,这些是挣不到钱的),你会决定成为一名软件工程师。这时,你面临让一个对编程没有基本概念的机器来教你编程的尴尬,在哪能找到相关的数据呢?你可以下载 730万个StackOverflow问题(这些都是免费的),所以你可以从StackOverflow和StackExchange两处得到信息来“喂”你的机器(另外还有来自Cross Validated的数据,等等)。

23. 你想过研究一下正真的友谊吗?(试一下吧,实现你成为社会科学家的愿望)。你了解正真的、柏拉图式的爱情(像海豚之间的那种感情)吗?即使暂时还不了解,你也完全可以做到,这要感谢谦虚的作者本人,当然还得感谢Mark Newman,他构建了一个由6 2只海豚组成的亲密的社区——New Zealand,远离伪装和不信任。

24. 是不是左倾的博客通常会链接到其他左倾的博客,而不是右倾的博客?好吧,其实我也不知道,但是这听起来还是很合理的。要特别感谢LadaAdamic的许可,你可以下 载2005年记录下的美国政治超链接网络

25. 谁更友好一些:是爵士乐音乐家还是海豚?你会发现我们应该将之前提到的海豚数据集和Pablo M. Gleiser、Leon Danon的 爵士乐音乐家网络数据集结合起来分析。

26. 那20世纪30年代的南方妇女和囚犯呢?谁更友好?兄弟会成员和HAM无线电话务员,谁又更友好呢?这些问题都可以用 网络数据集来解决。

27. 海豚与Slashdotters比较,结果又会怎么样呢?

28.Web2.0网站(比如Reddit)有时候会被用“投票环”这种方式作弊,很多人故意互相投票,而不在乎内容质量。我们经常会想在学术界会不会也出现这样的情况。Stanford大学有一个在线 Arxiv’s High Energy Physics文献引用网,你会从中发现类似的现象。

29. 我假设读者们都非常聪明,但也许你们还想变得更加富有,这样你就能创建下一个Bill and Melinda Gates基金会,然后拯救世界。那也许你应该开发一些新奇的交易算法。但是,在这种情况下,依据市场历史数据检验一样你的策略会更好,你可以通过此链接获取市场数据。

30. 公开产品数据( Open Product Data)网站旨在为每个品牌提供免费的条形码数据。经营理念是:建立一个特别的纹身店,只纹条形码,但允许客户选择他们想要的产品,想想看:“你的条形码表达的意义是什么?”“这样的条形码就像是一种信仰。”

31. 做中期天气预测的European Center对收集天气数据情有独钟。如果你要问这和天气有关吗?其实我主要想谈一些我认识到的 关于天气数据的有趣应用:金融行业。我很尊敬金融,主要是因为有些人做了一些疯狂的事情。我听说过中微子的应用实际上是 “因为金融”。你的算法可以解决购买印尼芝麻种子期货问题吗?有了天气数据,也许就可以。

  • CSDN官方微信
  • 扫描二维码,向CSDN吐槽
  • 微信号:CSDNnews
程序员移动端订阅下载

微博关注

相关热门文章