精华内容
下载资源
问答
  • 该存储库包含本文中使用所有分析代码:张LQ,NP Cottaris和DH Brainard(2021)。用于表征早期视力图像重建框架。 对于我们项目10分钟介绍,这是我们。 依存关系 该项目是用MATLAB编写,并且建立在其他两...
  • 数据科学Dojo在其存储库中添加了15个...为方便起见,下面的数据集已按照增加的难度级别进行排序(初级、中级、高级)。建议你使用提供的不同数据集来测试自己。在每个数据集中还提出了一个具有挑战性的问题,你可...

    数据科学Dojo在其存储库中添加了15个数据集,可供数据科学爱好者和AI爱好者免费使用,并根据不同的难度级别进行了分类。它们能够增加使用者的知识储备并实践练习,以提高在各个领域的技能,比如探索性数据分析、数据可视化、数据整理和机器学习。

    为方便起见,下面的数据集已按照增加的难度级别进行排序(初级、中级、高级)。建议你使用提供的不同数据集来测试自己。在每个数据集中还提出了一个具有挑战性的问题,你可以随意使用。

    1. 通过物理测量判断鲍鱼的年龄

    水平:初级

    推荐使用:回归模型

    领域:生物

    这个初级水平数据集有4,177行,9列关于鲍鱼的物理测量值和环数(代表年龄)。鲍鱼的年龄通常由枯燥且耗时的任务决定。因此,这些易于获得的物理测量可用于预测年龄。

    链接:https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Abalone

    零基础自学大数据开发的小伙伴可以根据小编提供的学习路线图进行学习,分阶段的进行,每个阶段自己做个小项目,这样记忆更深刻,不然跳跃式的学习对于零基础自学大数据有一定的难度,如果对于怎么学习大数据你还不太清楚,你可以加入大数据学习qq群:458345782,对你以后自学大数据会有所帮助的。

    2. 预测学生的知识水平

    水平:初级

    推荐使用:分类/聚合

    领域:教育/网页

    该数据集有403行和6列。它是关于学生对于电气直流电机知识的真实数据集。

    链接:

    https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/User%20Knowledge%20Modeling 

    3. 预测房价

    水平:初级

    推荐使用:回归模型

    领域:房地产

    该数据集有414行7列与房屋的各种属性相关,提供了从台湾新北市新店区收集的房地产估价的市场历史数据。

    链接:

    https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Real%20Estate%20Valuation

    4. 从WIFI信号的强弱预测位置

    水平:初级

    推荐使用:分类模型

    领域:移动/定位

    这个初学者级数据集有2,000行和8列。该数据是从在室内空间收集的智能手机上的7个wifi设备观察到的wifi信号强度,其可用于估计位置。

    链接:

    https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Wireless%20Indoor%20Localization

    5. 预测汽车的可接受性

    水平:初级

    推荐使用:分类模型

    领域:汽车

    该数据集有1,728行和7列,其中汽车属性,如价格和技术,在6个变量中描述为“购买价格”,“维护”和“安全”等。每个变量下有多个替代品。汽车的可接受性是第七个属性,属于结果变量。

    链接:

    https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Car%20Evaluation

    6. 预测精子的质量

    水平:初级

    推荐使用:回归/分类模型

    领域:医疗/人寿

    该数据集有10个属性。它包括100名志愿者的精液样本,根据WHO 2010标准进行分析。它可用于确定是否可以在没有实验室方法的情况下进行诊断,其中包括很昂贵的测试。使用问卷调查可以轻松获取该数据集中显示的属性以估计精子浓度。

    链接:

    https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Fertility 

    7. 从专家的定性参数评估破产的可能性

    水平:初级

    推荐使用:分类模型

    领域:金融/银行

    该数据集有250行和7列。它包含专家认为的6个定性参数,可用于预测破产。

    链接:

    https://blog.datasciencedojo.com/30-datasets-to-uplift-your-skills-in-data-science/

     

    8. 预测汽车的燃油效率

    水平:中级

    推荐使用:回归模型

    领域:汽车

    该数据集有398行,9列,并提供汽车的里程数、马力、车产时间和其他技术规格。

    链接:

    https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Auto%20MPG

    9. 胸痛是否是心脏病的一个指标?

    水平:中级

    推荐使用:分类模型

    领域:健康

    该数据集提供了303名患有胸痛且可能患有心脏病的患者的健康检查数据。 该数据集具有14个属性,以确定被诊断患者是否患有心脏病。

    链接:

    https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Heart%20Disease

    10. 预测订单总需求量

    水平:中级

    推荐使用:回归模型

    领域:商业

    该中级水平的数据集具有60行和13列。这些数据是在60天内收集的,是巴西物流公司的真实数据库。有12个预测属性和一个目标,即每日的总订单。

    链接:

    https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Daily%20Demand%20Forecasting%20Orders

    11. 预测捐赠者是否会在2007年3月献血

    水平:中级

    推荐使用:分类模型

    领域:商业

    该数据集有748个实例和5个属性。这些数据来自台湾新竹市的输血服务中心捐献者数据库。该中心将他们的输血服务巴士开往新竹市的一所大学,每三个月收集一次捐献的血液。

    链接:

    https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Blood%20Transfusion%20Service%20Center

    12. 预测城市的污染水平

    水平:中级水平

    推荐使用:回归模型

    领域:环保

    该数据集有43,424行和13列。它包含来自美国驻北京大使馆的PM2.5数据。北京首都国际机场的气象资料也包括在内。该数据集可用于使用提供的空气质量属性进行污染水平预测。它还能实现多变量时间序列预测。

    链接:

    https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Beijing%20PM2.5 

    13. 心脏病发后能否活过一年

    水平:中级

    推荐使用:分类模型

    领域:汽车

    该数据集有132行和12列。可用于辨别患者是否会在心脏病发作后存活至少一年。数据集中列出的所有患者在过去的某些时候都遭受了心脏病发作。有些人还活着,有些则没有。

    链接:

    https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Echocardiogram

    14. 评估混凝土的抗压强度

    水平:中级

    推荐使用:回归模型

    领域:土木工程

    这个集合有1,030行和9列。混凝土是土木工程中最重要的材料。混凝土抗压强度是年龄和成分的高度非线性函数。在特定年限(以“天”为单位)下给定混合物的实际混凝土抗压强度(MPa)由实验室确定。

    链接:

    https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Concrete%20Compressive%20Strength

    15. 肝脏疾病与饮酒的关系

    水平:中级

    推荐使用:分类/回归/聚类模型

    领域:医疗

    该数据集有345行和7列。该数据集不包含表示存在或不存在肝脏疾病的变量。前五列代表各种血液测试的结果,这些测试可用于诊断酒精相关的肝脏疾病。第六个代表受试者每天消耗的酒精饮料数量(自我报告)。

    零基础自学大数据开发的小伙伴可以根据小编提供的学习路线图进行学习,分阶段的进行,每个阶段自己做个小项目,这样记忆更深刻,不然跳跃式的学习对于零基础自学大数据有一定的难度,如果对于怎么学习大数据你还不太清楚,你可以加入大数据学习qq群:458345782,对你以后自学大数据会有所帮助的。

    展开全文
  • 有趣的数据可视化
  • 100+有趣的统计数据集

    万次阅读 2015-02-14 16:21:07
    在寻找数据集?这里给你准备了100多个最有趣的,从柏拉图式的爱情到政治竞选再到死刑囚犯,应有尽有。   个人对“信息时代”这个名词非常不感冒,就好像随便来了个人,往过一坐,然后说:“当下的信息已经...

    在寻找数据集?这里给你准备了100多个最有趣的,从柏拉图式的爱情到政治竞选再到死刑囚犯,应有尽有。

     

    个人对“信息时代”这个名词非常不感冒,就好像随便来了个人,往过一坐,然后说:“当下的信息已经非常多了,我们该如何形容?我觉得‘信息时代’这个词不错。”个人认为这是极度不负责的,没有创意,命名者太懒了;其次,如此多的数据带来更多的是处理上的无助和绝望,用“drinking from the firehose” 比喻起来或许更贴切一点。因此,与其叫“信息时代”,我们不妨称之为“饱和时代”,或者是“泛滥时代”。然而,不管称之为什么,毫无疑问的是,我们已经被数据淹没了。这里为大家分享100+最有意思的数据集。无他,在提供数据分析材料的同时,给大家增加一点乐趣。

    100+ Most Interesting Data Sets

     

    1. 如果你是智力竞赛节目Jeopardy的参赛选手,你该如何准备?你可以下载这个数据集—— 215930个Jeopardy真题。把这个数据集放到记忆系统中,你就是下一个赢家。

    2. 想知道被判死刑是什么样的感受?看看这个数据集—— 德克萨斯州将1984年以来每个死刑犯的最后一句放到了网上。借助这些数据,我们可以进行临刑者的情感分析。

    3. 谈到监狱,还有很多关于囚犯的信息,如“犯罪史,家庭背景和个人性格,药物史、酗酒史、治疗方案,枪支所有权和使用史、监狱活动,项目,服务”。

    4. 想读他人的邮件么?即使你想,你也没有那个技术,更没有哪个胆量去。来看看安然公司的文集数据库吧。这个数据库包括来自 150多个使用者的100万封邮件,大部分邮件来自Enron公司的管理层,以文件夹的形式呈现。

    5. 想了解互联网用户都关心什么?这个问题不好回答,我们可以先回答一个更简单的问题:Reddit(新闻网站)用户都关心什么。有人将 Reddit上250万个帖子进行了分析,公布到了GitHub上。通过这些数据,我们可以了解用户对猫的喜爱程度,一个数据是否支持r/circlejerk。

    6. 谈到猫,还有一个数据集上 10000张有注释的猫图片。当我们想训练机器人消灭除了猫以外的所有生物时,这个数据集会非常有用。

     

    7. 如果你对构建金融算法有兴趣,或者只是对预测美国最大经济作物的套利机会感兴趣,那你应该看看 这个数据集,该数据集包含了从2010年9月2日到现在的所有大麻价格数据。

    8. 哪些人用了哪些药物?多长时间用一次?

    9. 有关象棋比赛的记录最早可追溯到10世纪,产生于巴格达的历史学家和一位学者之间博弈。从那以后,记录象棋比赛中的每一步成为一种传统——尤其是对于那些有重大意义的比赛,比如两个强劲的对手之间的胜负之战。因此,今天的象棋学生们可以借助包含这些比赛记录的丰富数据集进行象棋学习。“Million Base”或许是世界上最大的象棋比赛数据集,声称有220万条比赛记录,你可以通过 此链接下载该数据集。

    10. 说起比赛这个主题,少不了足球,我已经找到了 关于足球比赛、足球运动员、球队、得分等信息的数据集。如果这些还不够,你还可以利用S occermetrics API的python包获取更多的数据。我想只要教练们想要战胜对手,这些数据迟早会发挥作用。通常我们说:极客和赌徒区别,就在于极客们通过构建分析模型获得胜利。

    11. Google已经开放了所有的Google Book字串数据(n-gram)。每个字串实际上是由n个单词组成的短语,开放的数据集中包括了1-gram到5-gram等不同长度的字串数据。该数据集的建立是“基于1500年到2008年之间出版的520万册书籍”。我们可以通过这一数据集来判断哪些短语被过度使用,哪些短语已经过时,哪些短语面临被淘汰的危险(友情提醒:有些人甚至已经抢先注册了clichealert.com域名)。

    12. 亚马逊有大量 开放的数据集(虽说是免费的,但免费只是针对AWS的用户),该数据集包括了从超过280万个网页上抓取的数据。分析抓取的数据,买下有升值空间的网址后,你可以再卖给那些需要做SEO的人,或者你也可以自己用来创建下一个Google。

    13. 少数民族的计算机科学跳级考试成绩如何? 你可以自己查一下然后告诉我

    14. 有一个百万歌曲(Million Song)数据集,包含了一百多首不同的歌曲,包括“舞曲”。如果配备一个晚会专用的媒体播放机可能会更好,这些数据还适用于聚类算法(比如,自动类型检测),但我不太确定能起到多大的作用。许多人试过基于这些数据构建推荐算法,包括 Kagglers和 Cornell的一个团队。一种做法是:按照时间,比如按年分析音乐——70年代、80年代或者90年代(或者找出“模仿-领导“效应,比如一首歌因为风格独特而流行,还会有很多模仿者)。

    15. 说道音乐的数据集,last.fm有大量可用的音乐数据。last.fm从它的36万用户那里收集数据,这些数据可能是以“用户,艺术家,以及歌曲的播放信息”这样的形式呈现,这时候用聚类算法自动给音乐分类或者构建推荐系统会更好。

    16. 我一想起极客,总会联想到数学和计算机黑客,但是极客远不止这么简单。CescRosselló、Ricardo Alberich和Joe Miro描绘出了一个神奇宇宙的“社交网络图”,使用 Facebook的社交网络图,还可以做一个新的“什么是超级英雄?”测验。

    15. Yelp有免费的数据子集,包括餐馆排名和评论数据。通过挖掘Twitter来获取你需要的数据,可以让你拥有可以匹敌Yelp的竞争力。

    18.如果你对数据(元数据)中的数据感兴趣,你或许也会对Jürgen Schwärzler感兴趣,Jürgen Schwärzler是Google公共数据团队中的一名统计学家,他整理出一个排名,记录下 常被搜索的数据。前5位分别是学校对比、失业、人口、营业税和工资。

    19. 我的读者中无疑有一些邪恶的天才,当然也存在一些想要拯救世界的英雄。这两类人可能都会对超级智能机器人感兴趣,但是要建造这样的一个机器人,你必须教会它事实,然而,手动输入1千万条事实是一件痛苦的事情。还好, Freebase为我们减少了工作量,它为我们免费开放的数据集包含了19亿条事实。

    20. 你或许没有打算建造一个超级机器人,只要比一般的数学家聪明一点就行。如果是这种情况的话,那你就需要教你的机器人许多数学知识(定义和定理),因此,你可能需要了解一下 Mizar项目,该项目为我们提供了9400条定义和49000条定理。

    21. 那我们假设你建造出了这样的机器“数学家”,它能在证明上为你提供帮助,但那又能怎样?你还需要一个能和你在更深层次交流的人,一个能对某些抽象的主题进行概括的人。这样,你就需要给你的机器人“喂”维基百科的数据了,所有 维基百科的数据都是免费开放的。

    22. 当你对数学和维基百科都厌倦时(事实上,这些是挣不到钱的),你会决定成为一名软件工程师。这时,你面临让一个对编程没有基本概念的机器来教你编程的尴尬,在哪能找到相关的数据呢?你可以下载 730万个StackOverflow问题(这些都是免费的),所以你可以从StackOverflow和StackExchange两处得到信息来“喂”你的机器(另外还有来自Cross Validated的数据,等等)。

    23. 你想过研究一下正真的友谊吗?(试一下吧,实现你成为社会科学家的愿望)。你了解正真的、柏拉图式的爱情(像海豚之间的那种感情)吗?即使暂时还不了解,你也完全可以做到,这要感谢谦虚的作者本人,当然还得感谢Mark Newman,他构建了一个由6 2只海豚组成的亲密的社区——New Zealand,远离伪装和不信任。

    24. 是不是左倾的博客通常会链接到其他左倾的博客,而不是右倾的博客?好吧,其实我也不知道,但是这听起来还是很合理的。要特别感谢LadaAdamic的许可,你可以下 载2005年记录下的美国政治超链接网络

    25. 谁更友好一些:是爵士乐音乐家还是海豚?你会发现我们应该将之前提到的海豚数据集和Pablo M. Gleiser、Leon Danon的 爵士乐音乐家网络数据集结合起来分析。

    26. 那20世纪30年代的南方妇女和囚犯呢?谁更友好?兄弟会成员和HAM无线电话务员,谁又更友好呢?这些问题都可以用 网络数据集来解决。

    27. 将 海豚与Slashdotters比较,结果又会怎么样呢?

    28.Web2.0网站(比如Reddit)有时候会被用“投票环”这种方式作弊,很多人故意互相投票,而不在乎内容质量。我们经常会想在学术界会不会也出现这样的情况。Stanford大学有一个在线 Arxiv’s High Energy Physics文献引用网,你会从中发现类似的现象。

    29. 我假设读者们都非常聪明,但也许你们还想变得更加富有,这样你就能创建下一个Bill and Melinda Gates基金会,然后拯救世界。那也许你应该开发一些新奇的交易算法。但是,在这种情况下,依据市场历史数据检验一样你的策略会更好,你可以通过此链接获取市场数据。

    30. 公开产品数据( Open Product Data)网站旨在为每个品牌提供免费的条形码数据。经营理念是:建立一个特别的纹身店,只纹条形码,但允许客户选择他们想要的产品,想想看:“你的条形码表达的意义是什么?”“这样的条形码就像是一种信仰。”

    31. 做中期天气预测的European Center对收集天气数据情有独钟。如果你要问这和天气有关吗?其实我主要想谈一些我认识到的 关于天气数据的有趣应用:金融行业。我很尊敬金融,主要是因为有些人做了一些疯狂的事情。我听说过中微子的应用实际上是 “因为金融”。你的算法可以解决购买印尼芝麻种子期货问题吗?有了天气数据,也许就可以。

    32. 如果你想了解 食物的营养数据,美国农业部可以为你提供数据。你可以开发一个判断用户是否类食物过敏的手机APP。然后说服学校给每个学生购买这个APP。

    33. 想精通语言,字典必不可少,但谈到 单词数据,没有什么字典比WordNet更优秀。WordNet侧重于语言的结构,这点其它字典无法比拟。

    34. NASA公布了 太阳系以外的行星数据集。买一个飞船,你可以飞到那里建一个秘密基地。

    35. 联邦铁路管理局有“ 关于铁路事故和意外的安全信息,库存和穿过的高速公路数据”。一些组织(如纽约时报)可以通过这些数据判断贫穷地区的人们是否更容易发生火车事故等。

    36. 如果你需要关于 图书的数据,你可以到Open Library下载免费的数据集。

    37. 美国的无人机杀害了谁?如果你 对巴基斯坦地区感兴趣,你可以查看这个数据集

    38. 如果你想通过自动导入引用数据构建Papers2的竞争对手,你可以使 用CrossRef的元数据查询

    39. Mnemosyne是一个虚拟卡片应用,通过间隔重复辅助记忆。几年来,这个项目一直在搜索用户数据,现在 gwern公司同意将这些数据免费公开若干月。研究者们可以在这些数据上运行机器学习算法,了解更多关于人类记忆的信息。

    40. 婚礼上邀请贾斯丁•比伯要花多少钱? Priceconomics网站列举了雇佣各种明星的价格。你可以借助这些数据计算流行度和价格的比率。

    41. 有些数据集可以更好的预测股市。2011年, 研究员发现他们可以通过分析推特数据预测股市:他们分析与上市 公司相关的推文,然后计算一个“情绪得分”,通过这个得分预测股市。

    42. 2014年,Clifford Winston和Fred Mannering指出,美国在车辆交通上每年花费千亿。我们可以通过数据集提高交通效率。例如,我们可以通过对历史交通数据进行算法分析,预测交通拥挤时段、路段。 data.gov网站提供了相关数据

    43. 如果你想开发一个跟踪实时路况的app,你需要 不同的数据源

    44. 如果你想开发反垃圾软件服务,或者只是分析通常垃圾邮件的内容,你需要数据。 UCIrvine提供这些数据

    45. 如果你想做反垃圾短信服务,你依旧可以找到 相关数据

    46. 有大量的数据可被R操作,你所需的只是安装一个包。 Ecdat是其中的一个包,包括大量的计算数据。我还见到过对数学水平和抽烟量关系的分析。

     
    47. 有没有想过一个人会参加多个公司的董事会,比如:Condoleezza Rice(美国前国务卿赖斯)加上和她密切相关的政府监控,或许这对于Dropbox来说不能算是最好的选择。好吧,有了 这个数据集,你也可以做到,但这只针对挪威——因为该数据集是由挪威的上市公司组成的网络数据。

    48. 有没有看过:地方政府会根据一个人的社会关系来判断某人是不是恐怖分子?实际上, 你也可以得到这些数据,分析出恐怖分子的社交网络。

    49. 围绕维基百科的官僚机构一直存在很大的争论。如何才能成为一个真正的维基百科大人物?谁才是维基百科最理想的管理者?当然,可以通过投票, 数据可以免费下载

    50. 哈佛大学开放了哈佛大学图书馆持有的“ 超过1200万的材料数据记录”数据集,包括了书籍、期刊、电子资源、手稿、档案材料、音频、视频等各种形式的资料。

    51. 如果你需要为学生提供一个小型数据集,可以看一下 DASL。比如解决这样一个问题: 由不孕雄性野马主导野马群体会不会降低野马群体的规模?

    52. GET-Evidence已经提供了可下载的 公共基因组。我怀疑Steven Pinker的个人数据也在其中,或许你也可以克隆一个自己。

    53. 说到基因组,已经有1000个基因组项目提供了大约260TB可供下载的数据。

    54. 在列出的这些数据集中要说什么是最小数据集, 或许就是泰坦尼克号上男性和女性的幸存率,女乘客幸存率是男乘客的四倍。

    55. 你想过对食物进行具体细分吗?如果是,那就恭喜你了,你可以在此处下载 相关数据集(感谢加拿大)。

    57. 有一个与前者类似的数据库,不过记录是 人体内代谢物的相关数据。我不确定你可以用这些数据做什么,但也许有人可以用这个来进行病毒式营销——xxx营养之道。

     

    58. 参考能量解集数据集包括大概 500G关于家庭能量使用的数据。我们可以利用这些数据提高家庭能量效率,或者对家庭能量费用消耗进行可视化展示。

    59. 开发了一个新的图像压缩算法,需要数据进行测试?试试 CSAIL的小图像数据集

    60. 如果觉得这些图像太小了,试试 ImageNet数据集。如果你想训练一个算法识别独角鲸,可以先用这些数据训练。

    61. 还不够?试试 维基百科所有的图片

    62. 假设你在 构建下一代图书阅读器,你希望段落可以自动与相应的维基百科文章相关联。怎么做?斯坦福大学和谷歌研究中心已经搭建了 英文段落映射维基文章的数据库,你可以下载他们的 论文

    63. 俄罗斯搜索引擎Yandex提供了一系列 搜索数据。也就是,如果一个人搜索了关键词,他们会点击哪些内容?不过,提供的都是俄罗斯人的搜索结果。

    64. 人们通常在维基百科上做哪些编辑修订? 也有数据库是关于这一内容的

    65. 谷歌有一个 面向数据集的搜索引擎,你造么?

    66. Pew研究机构有很多免费的数据集,其中包括他们的 “全球态度项目”数据集。通过这个数据集我们可以了解:世界是否变得越来越进步?随着时间的推移,人们对宗教的态度是如何变化的?

    67. 谈到公众态度随时间的变化,你可以下载从 1972年到2012年的综合社会调查数据集,这个数据集也可以回答这两个问题。

    68. 有一个有趣的数学问题叫名人问题,你需要找出一个每个人都认识,但是不认识任何人的人。但生活中真的有名人问题么?试试 雅虎的明星脸集

    69. 需要2009年以来的十亿个网页?需要训练一个从不停止的语言学习者NELL? 是的,你可以做到。

     

    70. 你知不知道你可以 下载Arxiv上所有的PDF?一旦我们可以教会机器自然语言,我们就可以让计算机阅读所有文档为我们提取重点。

    71. 如果你需要任何 产业的经济状况数据,试试census.gov的行业统计信息。如果经济状况不好,你会在数据中找到证据。

    72. 你可以下载大量 Usenet帖子的数据。这些数据对某些文本分析项目或机器学习算法(如拼写检查)很有用。

    73. Nick Bostrom有一篇很有意思的文章 “预防人类灭绝是头等大事”。该文章提出,考虑到人类灭绝的危害,再小的灭绝危险都是需要警惕的。通过分析从 公元前2500年到2012年流星撞击地球记录,我们可以更好的应对这个问题。

    74. 性别和精神疾病对犯罪影响有多大? 有数据集是针对这个问题的。

    75. 谈到精神疾病,如果你想了解精神疾病是如何影响少数民族的, 试试这个数据库

    76. 现在有很多孤男寡女,其中不乏一些具备卓越分析的人。 试试这个数据集“对比传统夫妇和不传统夫妇,美国人是如何遇到他们另一半的”,寻找遇到另一半的最好办法。

     

    77. 你可以通过此链接下载大量所谓的 “青少年健康”的数据,而且还包括了大量关系数据和生物指标数据。

    78. 我有一个问题:现代工作与过去工作相比,哪个更糟糕? 有五组调查调查了关于不同职业群体对该问题的回答,我已经看到了这样一篇文章——“我们可以告诉你:昨天是不是比今天更好?”

    79. 斯坦福大学有 3500万条亚马逊商品评价可供下载。你可以用这个做很多事情:使用它来改善推荐系统的算法,找出评论中是否存在“模仿-领袖”效应(比如:早期的积极评价能否带来更多的积极评价?)

    80. 基于我过去的一些研究,搜索关键字 “关于连环杀手的数据集”时发现两个特点:1)很具体;2)很流行,但我希望这和人的品味没有太大关系。当然,我找到了相关的数据集,在此特别感谢连环杀手信息中心。

    81. 这确实是一个让人有些毛骨悚然的名字,Maryland大学还有个“全球恐怖主义数据库”,这是一组由 11.3万个恐怖事件组成的数据集。你可以在填完表后下载它。可视化这些数据,对一些易受影响的地区进行预测,可以防止恐怖袭击,建立提前预警系统。

    82. MNIST数据库是机器学习领域的一个经典。它是由一组带标签的手写字符组成,这对OCR算法来说是必不可少的。如今,一些算法的判断能力甚至比人类法官还要准确!在将来,我们会要求让机器来做判决。

    83. UCI为我们提供了 扑克牌数据集。我不擅长玩扑克,但我敢肯定关于扑克一定会有一些有趣的分析可做。我听说在扑克界人类仍然比机器更有优势,但我觉得这种说法不太可靠。

    84. UCI的另一个数据集:其中,图像被简单的分为广告和非广告两种。基于该数据集可以自动拦截广告或进行垃圾邮件的检测,也许还能应用到Google Glass中,过滤掉现实生活中的广告,那一定是一件很酷的事情。我们看到的将不再是一个广告牌,而是自然景观的虚拟扩展。

    85. 还记得Star Wars Kid崩溃事件吗?Attack of the Show将它评为了史上第一病毒视屏。Andy Baio策划了这一事件,还杜撰了“Star Wars Kid”这一词,并将他的 服务器日志公开发表

    86. 怎样知道在Wordpress上谁链接到了谁(或者是某物)?可视化网络是件很了不起的事情,但如果它能揭示一些关于“超节点”的信息,或许会更好,“超节点”是指被许多节点连接或者连接到许多节点的节点(也许两者都有)。如果你有兴趣, 也可以利用这些数据将不同的人归类

    87. Obama是更喜欢石油大亨?还是极端环保主义者?或是玉米游说团体?是谁在背后支持Herman Cain?我们已经可以下载到 2012总统竞选的财务数据,用来分析哪些行业偏向于哪位候选人想必是也极好的。

    88. 哪所私立大学最有价值?

    89. 哪所公立大学最有价值?

    90. 按州统计的香烟数据。肯塔基州抽的最多,西弗吉尼亚州第二。 鉴于烟草的巨大社会危害,一个不错的分析也许可以挽救很多人的生命。

     

    91. 在2008年12月5日,从Pirate Bay可以下载到什么?

    92. 想要构建一个Reddit推荐引擎吗?(或换个说法会更好——你觉得把那些愚蠢却流行的意见过滤掉怎么样?)不错,用Redditor完全可以做到这一点,Redditor会是个不错的推荐引擎。

    93. 全球健康数据。用这些数据来确定改善世界健康的方法会很有效,像血吸虫病控制倡议一样,这一项目被GiveWell列为评价最高的慈善机构之一。

    94. 美国从1960年到2012年的犯罪事件。谈论犯罪虽然在道德上令人反感,但在电视上节目开个玩笑还是无伤大雅的。

    95. 发起一项为浴室中的Yelp运动怎么样?

    96. 你知道在加拿大,杂货店的畅销品是卡夫晚餐(aka通心粉和奶酪)吗?我想知道它在比利时或者台湾销售的怎么样,这里为我们提供了 部分超市的数据

    97. 火狐浏览器使用情况的数据。记录比如选项卡的使用数量,活跃状态的时间,隐私标签打开的数目。虽然隐私标签这一词或许会让一些人浮想联翩,但用来比较互联网与实际数据之间准确度还是很不错的。

    98. 非常强大的一个数据:Mozilla将Mozilla和Eclipse中发现的 超过20万个bug放到一个数据集中。我很想看看哪些bug导致的奔溃最常见,以及如何预防这些奔溃,当然也只有参考这些数据,才能设计出更好的编程语言。

    99. 如果你对设计调度算法感兴趣的话,你会对这一消息感兴趣: Google开放了他们在集群上作业排序的数据集。开发针对数据集的算法可能会帮助未来验证你的发现。毕竟,明天的桌面系统很可能会像今天数据中心一样强大。

    100. Techcrunch开放了一个具有超过400 000家公司、投资者和企业家的档案的数据集,此外还有45,000轮投资记录,这或许是一个逆向发现市场需求和投资者的投资倾向的好方法。

    101. 125万个delicious.com书签。

    102. 美国主要的军事设施分布在哪?

    103. 谁是H1-B信用卡的接受者?你可能想知道一些国家是否接受信用卡,或者哪些公司接受大部分的信用卡消费。

    104. Twitter用户很有可能被Hacker News的读者跟踪。

    105. 这里有 1000年到1903年之间的所有地震数据。将这些数据“喂”给一个神经网络,也许能看到一些关于地震的预测。

    106. 我常常想会不会有人做在线人格测试发现比大多数人更神经质?从很多在线性格测试项目中可以得到 大量可用的数据,将性格测试的答案与大众的答案进行比较,就可以找出那些比较神经质的人。

    107. 脏话表

    原文连接: 100+ Interesting Data Sets for Statistics(翻译/蔡仁君、毛梦琪 责编/仲浩)

     

    本文转载自:http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics/1

    展开全文
  • PlayData:练习用于绘图的有趣数据集。 不可发布。 没有同行评审
  • 更大标注数据集和更多可用计算能力是AI革命基石。在本文中,我列出了我们最近为数据科学家发现一些非常好玩的深度学习数据集。1. EMNIST: An Extension of MNIST to Handwritten LettersMNIST is a very ...

    更大的标注数据集和更多可用的计算能力是AI革命的基石。在本文中,我列出了我们最近为数据科学家发现的一些非常好玩的深度学习数据集。

    1. EMNIST: An Extension of MNIST to Handwritten Letters

    MNIST is a very popular dataset for people getting started with Deep Learning in particular and Machine Learning on images in general. MNIST has images of digits which are to be mapped to the digits themselves. EMNIST extends this to images of letters as well. The dataset can be downloaded here . There is an alternative dataset we discovered as well on Reddit. It’s called HASYv2 and can be downloaded here

    2. HICO & HICO-DET

    HICO has images containing multiple objects and these objects have been tagged along with their relationships. The proposed problem is for algorithms to be able to dig out objects in an image and relationship between them after being trained on this dataset. I expect multiple papers to come out of this dataset in future.

    3. CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

    CLEVR is an attempt by Fei-Fei Li’s group, the same scientist who developed the revolutionary ImageNet dataset. It has objects and questions asked about those objects along with their answers specified by humans. The aim of the project is to develop machines with common sense about what they see. So for example, the machine should be able to find “an odd one out” in an image automatically. You can download the dataset here.

    4. HolStep: A Machine Learning Dataset for Higher-order Logic Theorem Proving

    This dataset is tagged in a way so that algorithms trained on it can be used for automatic theorem proving . The download link is here.

    5. The Parallel Meaning Bank: Towards a Multilingual Corpus of Translations Annotated with Compositional Meaning Representations

    The Parallel Meaning Bank (PMB), developed at the University of Groningen, comprises sentences and texts in raw and tokenised format, tags for part of speech, named entities and lexical categories, and formal meaning representations. The download link is here.

    6. JFLEG: A Fluency Corpus and Benchmark for Grammatical Error Correction

    JFLEG dataset is an aim to tag sentences with nominal grammatical corrections and smart grammatical corrections. This dataset aims to build machines that can correct grammar automatically for people making mistakes. The dataset can be downloaded here.

    7. Introducing VQA v2.0: A More Balanced and Bigger VQA Dataset!

    This dataset has images, questions asked on them and their answers tagged. The aim is to train machines to answer questions asked about images (and in continuation about the real world they are seeing). Visual QA is an old dataset but its 2.0 version came out just this december.

    8. Google Cloud & YouTube-8M Video Understanding Challenge

    Probably the largest dataset available for training in the open. This is a dataset of 8 Million Youtube videos tagged with the objects within them. There is also a running Kaggle competition on the dataset with a bounty of 1,00,000 dollars.

    9. Data Science Bowl 2017

    This turns out to be the largest bounty offered to crack a Data Science problem. There are prizes of $1 Million to be grabbed by Data Scientists who can detect lung cancer using this dataset of tagges CT-Scans.

    10. Exoplanets Dataset

    Today, a team that includes MIT and is led by the Carnegie Institution for Science has released the largest collection of observations made with a technique called radial velocity, to be used for hunting exoplanets. The dataset can be downloaded here.

    11. End-to-End Interpretation of the French Street Name Signs Dataset

    This is a huge dataset of French Street signs labeled with what they denote. The dataset is easily readable by everyone’s favorite Tensorflow and can be downloaded here.

    12. A Realistic Dataset for the Smart Home Device Scheduling Problem for DCOPs

    An upcoming dataset for IoT and AI interface. You can download it here.

    13. RepEval 2017 Shared Task

    From Sam Bowman’s team, the creators of the famous SNLI dataset, this dataset about understanding the meaning of the text is going to be out soon as a competition. The dataset is expected by 15th March. You can find it here once it’s live.

    14. Driver Speed Dataset

    A 200 Gb huge dataset, which is aimed to calculate speed of moving vehicles. Can be downloaded here.

    15. NWPU-RESISC45 Remote sensing images dataset

    A huge dataset of remote sensing images covering a wide array of landscapes which can be seen through sattelites. Potential technology that can be developed includes satellite surveys, monitoring, and surveillance. Unfortunately, we are still waiting for the download link here.

    16. Recipe to create your own free datasets from the open web

    This is probably the most interesting of the datasets. This dataset has not been tagged by humans but by machines. Also, the authors make things clear about what is to be done if we want to create a similar dataset from the millions of images which are already available on the web.

    17. The LIP Dataset

    This large-scale data set focuses on the semantic understanding of a person. The download link for the dataset is here.

    18. WikiReading Data

    This dataset is a large-scale natural language understanding task and publicly-available dataset with 18 million instances. The downlaod link is here.

    19. MUSCIMA++

    MUSCIMA++ is a dataset of handwritten music notation for musical symbol detection. Here is the download link.

    20. DeScript (Describing Script Structure)

    DeScript is a crowdsourced corpus of event sequence descriptions (ESDs) for different scenarios crowdsourced via Amazon Mechanical Turk. Here is the download link.


    Reference:

    http://blog.paralleldots.com/data-scientist/new-deep-learning-datasets-data-scientists/


    如果觉得内容有用,帮助多多分享哦 :)

    长按或者扫描如下二维码,关注 “CoderPai” 微信号(coderpai)。添加底部的 coderpai 小助手,添加小助手时,请备注 “算法” 二字,小助手会拉你进算法群。如果你想进入 AI 实战群,那么请备注 “AI”,小助手会拉你进AI实战群。

    展开全文
  • 数据集

    2019-02-21 12:02:39
    1.寻找数据集 根据CMU的说法,寻找一个好用的数据集需要注意一下几点: 数据集不混乱,否则要花费大量时间来清理数据。...Kaggle:爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,...

    1.  寻找数据集

    根据CMU的说法,寻找一个好用的数据集需要注意一下几点:

    数据集不混乱,否则要花费大量时间来清理数据。

    数据集不应包含太多行或列,否则会难以使用。

    数据越干净越好,清理大型数据集可能非常耗时。

    应该预设一个有趣的问题,而这个问题又可以用数据来回答。

     

     

    2.  去哪里找数据集

    Kaggle:爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,拉面评级、篮球数据、甚至西雅图的宠物许可证。

    https://www.kaggle.com/

     

     

    UCI机器学习库:最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。
    http://mlr.cs.umass.edu/ml/

     

    VisualData:分好类的计算机视觉数据集,可以搜索~
    https://www.visualdata.io/

    好了,下面就是那50个数据集了,由于后期加上了一些补充,所以总数已经超过了50。

     

     

    3.  机器学习数

     

    图片

    Labelme:带注释的大型图像数据集。
    http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

     

    ImageNet:大家熟悉的ImageNet,女神李飞飞参与创建,同名比赛影响整个计算机视觉界。

    http://image-net.org/

     

     

    LSUN:场景理解与许多辅助任务(房间布局估计,显着性预测等)
    http://lsun.cs.princeton.edu/2016/

     

    MS COCO:同样也是知名计算机视觉数据集,同名比赛每年都被中国人屠榜。
    http://mscoco.org/

     

     

    COIL 100 :100个不同的物体在360度旋转的每个角度成像。
    http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

     

    视觉基因组:非常详细的视觉知识库。

    http://visualgenome.org/

     

     

    谷歌开放图像:在知识共享下的900万个图像网址集合“已经注释了超过6000个类别的标签”。

    https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

     

     

    野外标记面:13000张人脸标记图像,用于开发涉及面部识别的应用程序。
    http://vis-www.cs.umass.edu/lfw/

     

     

    斯坦福狗子数据集:20580张狗子的图片,包括120个不同品种。
    http://vision.stanford.edu/aditya86/ImageNetDogs/

     

    室内场景识别:包含67个室内类别,15620个图像。
    http://web.mit.edu/torralba/www/indoor.html

     

     

    情绪分析

    多域情绪分析数据集:一个稍老一点的数据集,用到了来自亚马逊的产品评论。
    http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

     

     

    IMDB评论:用于二元情绪分类的数据集,不过也有点老、有点小,有大约25000个电影评论。
    http://ai.stanford.edu/~amaas/data/sentiment/

     

    斯坦福情绪树库:带有情感注释的标准情绪数据集。
    http://nlp.stanford.edu/sentiment/code.html

     

     

    Sentiment140:一个流行的数据集,它使用160,000条预先删除表情符号的推文。
    http://help.sentiment140.com/for-students/

     

     

    Twitter美国航空公司情绪:2015年2月美国航空公司的Twitter数据,分类为正面,负面和中性推文。
    https://www.kaggle.com/crowdflower/twitter-airline-sentiment

     

    自然语言处理

    HotspotQA数据集:具有自然、多跳问题的问答数据集,具有支持事实的强大监督,以实现更易于解释的问答系统。
    https://hotpotqa.github.io/

     

    安然数据集:来自安然高级管理层的电子邮件数据。
    https://www.cs.cmu.edu/~./enron/

     

    亚马逊评论:包含18年来亚马逊上的大约3500万条评论,数据包括产品和用户信息,评级和文本审核。
    https://snap.stanford.edu/data/web-Amazon.html

     

    Google Books Ngrams:Google Books中的一系列文字。
    https://aws.amazon.com/datasets/google-books-ngrams/

     

    Blogger Corpus:收集了来自blogger.com的681,288篇博文,每篇博文至少包含200个常用英语单词。
    http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

     

    维基百科链接数据:维基百科的全文,包含来自400多万篇文章的近19亿个单词,可以按段落、短语或段落本身的一部分进行搜索。
    https://code.google.com/p/wiki-links/downloads/list

     

     

    Gutenberg电子书列表:Gutenberg项目中带注释的电子书书单。
    http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

     

    Hansards加拿大议会文本:来自第36届加拿大议会记录的130万组文本。
    http://www.isi.edu/natural-language/download/hansard/

     

    Jeopardy:来自问答节目Jeopardy的超过200,000个问题的归档。
    http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

     

     

    英文垃圾短信收集:由5574条英文垃圾短信组成的数据集。
    http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

     

     

    Yelp评论:Yelp,就是美国的“大众点评”,这是他们发布的一个开放数据集,包含超过500万条评论。
    https://www.yelp.com/dataset

     

     

    UCI的Spambase:一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。
    https://archive.ics.uci.edu/ml/datasets/Spambase

     

    自动驾驶

    Berkeley DeepDrive BDD100k:目前最大的自动驾驶数据集,包含超过100,000个视频,其中包括一天中不同时段和天气条件下超过1,100小时的驾驶体验。其中带注释的图像来自纽约和旧金山地区。
    http://bdd-data.berkeley.edu/

     

     

    百度Apolloscapes:度娘的大型数据集,定义了26种不同物体,如汽车、自行车、行人、建筑物、路灯等。
    http://apolloscape.auto/

     

    Comma.ai:超过7小时的高速公路驾驶,细节包括汽车的速度、加速度、转向角和GPS坐标。
    https://archive.org/details/comma-dataset

     

    牛津的机器人汽车:这个数据集来自牛津的机器人汽车,它于一年时间内在英国牛津的同一条路上,反反复复跑了超过100次,捕捉了天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。
    http://robotcar-dataset.robots.ox.ac.uk/

     

     

    城市景观数据集:一个大型数据集,记录50个不同城市的城市街景。
    https://www.cityscapes-dataset.com/

     

    CSSAD数据集:此数据集对于自动驾驶车辆的感知和导航非常有用。不过,数据集严重偏向发达国家的道路。
    http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

     

    KUL比利时交通标志数据集:来自比利时法兰德斯地区数以千计的实体交通标志的超过10000条注释。
    http://www.vision.ee.ethz.ch/~timofter/traffic_signs/

     

     

    MIT AGE Lab:在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。
    http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

     

    LISA:UC圣迭戈智能和安全汽车实验室的数据集,包括交通标志、车辆检测、交通信号灯和轨迹模式。
    http://cvrr.ucsd.edu/LISA/datasets.html

     

    博世小交通灯数据集:用于深度学习的小型交通灯的数据集。
    https://hci.iwr.uni-heidelberg.de/node/6132

     

    LaRa交通灯识别:巴黎的交通信号灯数据集。
    http://www.lara.prd.fr/benchmarks/trafficlightsrecognition

     

     

    WPI数据集:交通灯、行人和车道检测的数据集。
    http://computing.wpi.edu/dataset.html

     

     

    临床

    MIMIC-III:MIT计算生理学实验室的公开数据集,标记了约40000名重症监护患者的健康数据,包括人口统计学、生命体征、实验室测试、药物等维度。
    https://mimic.physionet.org/

     

     

    4.  一般

    除了机器学习专用的数据集,还有一些其他的一般数据集,可能很有趣~

     

    公共政府数据集

    Data.gov:该网站可以从多个美国政府机构下载数据,包括各种奇怪的数据,从政府预算到考试分数都有。不过,其中大部分数据需要进一步研究。
    https://www.data.gov/

     

     

    食物环境地图集:本地食材如何影响美国饮食的数据。
    https://catalog.data.gov/dataset/food-environment-atlas-f4a22

     

    学校财务系统:美国学校财务系统的调查。
    https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

     

    慢性病数据:美国各地区慢性病指标数据。
    https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

     

     

    美国国家教育统计中心:教育机构和教育人口统计数据,不仅有美国的数据,也有一些世界上其他地方的数据。
    https://nces.ed.gov/

     

     

    英国数据服务:英国最大的社会、经济和人口数据集。
    https://www.ukdataservice.ac.uk/

     

    数据美国:全面可视化的美国公共数据。
    http://datausa.io/

     

    量子位补充一句,我国国家统计局其实也不错。
    http://www.stats.gov.cn/

     

    金融与经济

    Quandl:经济和金融数据的良好来源,有助于建立预测经济指标或股票价格的模型。
    https://www.quandl.com/

     

    世界银行开放数据:全球人口统计数据,还有大量经济和发展指标的数据集。
    https://data.worldbank.org/

     

     

    国际货币基金组织数据:国际货币基金组织公布的有关国际金融,债务利率,外汇储备,商品价格和投资的数据。
    https://www.imf.org/en/Data

     

     

    金融时报市场数据:来自世界各地的金融市场的最新信息,包括股票价格指数,商品和外汇。
    https://markets.ft.com/data/

     

     

    Google Trends:世界各地的互联网搜索行为和热门新闻报道的数据。
    http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

     

     

    美国经济协会:美国宏观经济数据。
    https://www.aeaweb.org/resources/data/us-macro-regional

    展开全文
  • 最容易上手就是数据可视化, 以下3个数据集可以用于创建一些有意思的的可视化效果并加到你简历中。 1. 新冠病毒可视化 学习如何使用Plotly构建动态可视化数据,展示冠状病毒是如何在全球范围内传播。...
  • Netlix_2019:此数据集包括截至2019年Netflix上可用的电视节目和电影。该数据集来自第三方Netflix搜索引擎Flixable。... 将这个数据集与其他外部数据集(例如IMDB评分)集成在一起,烂番茄也可以提供许多有趣的发现
  • Kaggle-Models:该存储库将充当我发现有趣的Kaggle数据集的展示库,并尝试创建一个健壮且性能良好的Deployment ready模型
  • 一种简单而有趣的数据结构——并查 作者:goal00001111(高粱)   一个秘密生物武器落到某地区,导致当地村民丧失部分记忆,只认得自己最熟悉的人,而忘记自己是哪个村子的人了。...
  • 一种简单而有趣的数据结构——并查 作者:goal00001111(高粱)   一个秘密生物武器落到某地区,导致当地村民丧失部分记忆,只认得自己最熟悉的人,而忘记自己是哪个村子的人了。大家汇集到一个广场,寻找自己...
  • Kaggle:爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,拉面评级、篮球数据、甚至西雅图的宠物许可证。 https://www.kaggle.com/ UCI机器学习库:最古老的数据集源之一,是寻找有趣数据集的第一站。...
  • 在机器学习算法的学习过程中,找到用来适合用来练手的数据集是我们面临的第一道门槛,毕竟俗话说得好,巧妇也难为无米之炊嘛。 为此,我在知乎上写过一篇回答: 机器学习需要的大量数据集从哪里找? 这篇回答主要...
  • 1.寻找数据集の奥义 根据CMU的说法,寻找一个好用的数据集需要注意一下几点: 数据集不混乱,否则要花费大量时间来清理数据。...Kaggle:爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,拉...
  • 我们首先分享一些有趣的数据集,权当练习资源,然后会说一说可以去哪里获得干净的高质量数据集。20个趣味数据集在Medium上有位叫Oliver Cameron的程序猿小哥特地分享了20个有趣的数据集,比如UFO目击报告等。整理...
  • 关于 ... 打开HTML文件,以查看使用ggplot2和支持包和进行的一些有趣的交互式可视化。 HTML文档中提供了代码块-只需单击“代码”按钮即可查看任何部分中发生的情况。 RMD文件也可以在此版本库中下载。
  • 100+诡异的数据集,20万Eclipse Bug、死囚遗言等发表于2014-06-06 16:49|32480次阅读| 来源rs.io|63 条评论| 作者Robert Seaton大数据机器学习数据集摘要:近日,Robert Seaton整理了100多个最有趣的数据集,...
  • :hugging_face:Datasets是一个轻量级的...:hugging_face:Datasets还提供对+15个评估指标的访问,旨在让社区轻松添加和共享新的数据集和评估指标。 :hugging_face:Datasets具有许多其他有趣的功能: 在大型数据集上:h
  • 摘要:近日,Robert Seaton整理了100多个最有趣的数据集,其中包括Jeopardy真题,死囚的最后一句话,20万个Eclipse Bug,足球比赛相关,柏拉图式的爱情,太阳系以外的行星,11.3万个恐怖事件等。 【编者按】在...
  • 统计和数据可视化历史中的数据集 开发人员版本:0.8-8 HistData包提供了一组小的数据集,这些数据集在统计和数据可视化的历史中非常有趣且重要。 该软件包的目标是提供这些内容,以供教学使用和历史研究之用。 其中...
  • 我们的数据集包含108个图像pars和手动放置的地标,用于注册质量评估。 构成CIMA数据集的图像在可用。 请注意,可用的界标大部分是来自单个用户注释的结果。 这是一项正在进行的工作。 将更精确的界标作为多个用户...
  • 在第一部分中,我使用Python可视化库从单个变量的图到多个变量的图来系统地探索选定的数据集。 在第二部分中,我做了一个简短的演示,说明了您在所选数据集中发现的有趣的特性,趋势和关系。 传达发现的主要方法是...
  • 如果您在CRAN上分发的数据包中发现了有趣的数据,请告诉我。我将尝试在计算机上安装该软件包,然后重新运行下载脚本,以查看是否可以将数据添加到此存储库中。请求应在Github问题追踪器上提交。 遗漏的包裹 以下是...
  • 这道题用到了一个有趣的思想:反 就是在原数据的基础上乘2 也就是再作一个集合,多出来的n~~2*n作为辅助答案 #include<iostream> using namespace std; int a[2010]; int n, m; int findd(int x) { // ...
  • 除了自行车共享系统有趣的真实应用外,这些系统生成的数据的特性使其对研究具有吸引力。与其他交通服务(如巴士或地铁)相反,这些系统中明确记录了旅行、出发和到达位置的持续时间。此功能将自行车共享系统转变为一...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,342
精华内容 536
关键字:

有趣的数据集