开放数据集_开放道路数据集 - CSDN
精华内容
参与话题
  • 如题有吗,就是有足够多数据的那种,有的话是免费的吗?叫什么名字?
  • 国内外深度学习开放数据集下载集合(值得收藏,不断更新) 一、Image processing data set 1、MNIST ,是最流行的深度学习数据集之一。这是一个手写数字数据集,包含一个有着 60000 样本的训练集和一个有着 10000 样本...

    国内外深度学习开放数据集下载集合(值得收藏,不断更新)

    一、Image processing data set

    1、MNIST ,是最流行的深度学习数据集之一。这是一个手写数字数据集,包含一个有着 60000 样本的训练集和一个有着 10000 样本的测试集。对于在现实世界数据上尝试学习技术和深度识别模式而言,这是一个非常好的数据库,且无需花费过多时间和精力进行数据预处理。

    大小:约 50 MB

    数量:70000 张图像,共分为 10 个类别。

    Identify the Digits:Identify the Digits下载

    MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges:mnist下载

    2、Fashion-MNIST, 包含 60,000 个训练集图像和 10,000 个测试集图像。它是一个类似 MNIST 的时尚产品数据库。开发人员认为 MNIST 的使用次数太多了,因此他们把这个数据集用作 MNIST 的直接替代品。每张图像都以灰度显示,并具备一个标签(10 个类别之一)。

    大小:30MB

    数量:70,000 张图像,共 10 类

    zalandoresearch/fashion-mnist:下载地址

    3、PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。

    数据集大小:~2GB

    Visual Object Classes Challenge 2012 (VOC2012):下载地址

    4、VQA ,是一个包含图像开放式问题的数据集。这些问题的解答需要视觉和语言的理解。该数据集拥有下列有趣的特征:

    大小:25GB(压缩后)

    数量:265,016 张图像,每张图像至少 3 个问题,每个问题 10 个正确答案

    Announcing the VQA Challenge 2018!:下载地址

    5、COCO, 是一个大型数据集,用于目标检测、分割和标题生成。Announcing the VQA Challenge 2018!2、COCO 是一个大型数据集,用于目标检测、分割和标题生成。

    大小:约 25 GB(压缩后)

    数量:33 万张图像、80 个目标类别、每张图像 5 个标题、25 万张带有关键点的人像

    Common Objects in Context:下载地址

    6、CIFAR-10,该数据集也用于图像分类。它由 10 个类别共计 60,000 张图像组成(每个类在上图中表示为一行)。该数据集共有 50,000 张训练集图像和 10,000 个测试集图像。数据集分为 6 个部分——5 个训练批和 1 个测试批。每批含有 10,000 张图像。

    大小:170MB

    数量:60,000 张图像,共 10 类

    http://www.cs.toronto.edu/~kriz/cifar.html下载地址

    7、ImageNet ,是根据 WordNet 层次来组织的图像数据集。WordNet 包含大约 10 万个短语,而 ImageNet 为每个短语提供平均约 1000 张描述图像。

    大小:约 150 GB

    数量:图像的总数约为 1,500,000;每一张图像都具备多个边界框和各自的类别标签。

    http://www.image-net.org/下载地址

    ImageNet:下载地址

    8、街景门牌号数据集(SVHN),这是一个现实世界数据集,用于开发目标检测算法。它需要最少的数据预处理过程。它与 MNIST 数据集有些类似,但是有着更多的标注数据(超过 600,000 张图像)。这些数据是从谷歌街景中的房屋门牌号中收集而来的。

    大小:2.5GB

    数量:6,30,420 张图像,共 10 类

    The Street View House Numbers (SVHN) Dataset
    下载地址

    9、Open Images ,是一个包含近 900 万个图像 URL 的数据集。这些图像使用包含数千个类别的图像级标签边界框进行了标注。该数据集的训练集包含 9,011,219 张图像,验证集包含 41,260 张图像,测试集包含 125,436 张图像。

    大小:500GB(压缩后)~1.5GB(不包括图片)

    数量:9,011,219 张图像,带有超过 5000 个标签

    openimages/dataset:下载地址

    10、机器标注的一个超大规模数据集,包含2亿图像。

    We address the problem of large-scale annotation of web images. Our approach is based on the concept of visual synset, which is an organization of images which are visually-similar and semantically-related. Each visual synset represents a single prototypical visual concept, and has an associated set of weighted annotations. Linear SVM’s are utilized to predict the visual synset membership for unseen image examples, and a weighted voting rule is used to construct a ranked list of predicted annotations from a set of visual synsets. We demonstrate that visual synsets lead to better performance than standard methods on a new annotation database containing more than 200 million im- ages and 300 thousand annotations, which is the largest ever reported.

    VisualSynset:下载地址

    11、包含13万的图像的数据集。Scene categorization is a fundamental problem in computer vision. However, scene understanding research has been constrained by the limited scope of currently-used databases which do not capture the full variety of scene categories. Whereas standard databases for object categorization contain hundreds of different classes of objects, the largest available dataset of scene categories contains only 15 classes. In this paper we propose the extensive Scene UNderstanding (SUN) database that contains 899 categories and 130,519 images. We use 397 well-sampled categories to evaluate numerous state-of-the-art algorithms for scene recognition and establish new bounds of performance. We measure human scene classification performance on the SUN database and compare this with computational methods.

    http://vision.princeton.edu/projects/2010/SUN/
    ​vision.princeton.edu
    12、包含100万的图像,23000视频;微软亚洲研究院出品,质量应该有保障。

    Microsoft Research – Emerging Technology, Computer, and Software Research
    下载地址

    二、Natural Language Processing data setVisualSynset二、Natural Language Processing data setLarge-scale Scene Recognition from Abbey to Zoo
    二、Natural Language Processing data setVisualSynset二、Natural Language Processing data set

    1、IMDB 电影评论数据集,该数据集对于电影爱好者而言非常赞。它用于二元情感分类,目前所含数据超过该领域其他数据集。除了训练集评论样本和测试集评论样本之外,还有一些未标注数据可供使用。此外,该数据集还包括原始文本和预处理词袋格式。

    大小:80 MB

    数量:训练集和测试集各包含 25,000 个高度两极化的电影评论

    Sentiment Analysis:下载地址

    2、 欧洲语言机器翻译数据集 ,该数据集包含四种欧洲语言的训练数据,旨在改进当前的翻译方法。你可以使用以下任意语言对: 法语 - 英语 西班牙语 - 英语 德语 - 英语 捷克语 - 英语

    大小: 约 15 GB

    数量:约 30,000,000 个句子及对应的译文

    2018 Third Conference on Machine Translation (WMT18)
    ​statmt.org:下载地址

    3、WordNet,WordNet 是一个大型英语 synset 数据库。Synset 也就是同义词组,每组描述的概念不同。WordNet 的结构让它成为 NLP 中非常有用的工具。

    大小:10 MB

    数量:117,000 个同义词集

    A Lexical Database for English:下载地址

    4、Wikipedia Corpus,该数据集是维基百科全文的集合,包含来自超过 400 万篇文章的将近 19 亿单词。你能逐单词、逐短语、逐段地对其进行检索,这使它成为强大的 NLP 数据集。

    大小:20 MB

    数量:4,400,000 篇文章,包含 19 亿单词

    Tagged and Cleaned Wikipedia (TC Wikipedia) and its Ngram:下载地址

    5、Yelp 数据集,这是 Yelp 出于学习目的而发布的开放数据集。它包含数百万个用户评论、商业属性(businesses attribute)和来自多个大都市地区的超过 20 万张照片。该数据集是全球范围内非常常用的 NLP 挑战赛数据集。 ,

    大小:2.66 GB JSON、2.9 GB SQL 和 7.5 GB 的照片(全部压缩后)

    数量:5,200,000 个评论、174,000 份商业属性、200,000 张照片和 11 个大都市地区

    Yelp Dataset:下载地址

    6、Blog Authorship Corpus,该数据集包含从数千名博主那里收集到的博客文章,这些数据从 blogger.com 中收集而来。每篇博客都以一个单独的文件形式提供。每篇博客至少出现 200 个常用的英语单词。

    大小:300 MB

    数量:681,288 篇博文,共计超过 1.4 亿单词。

    下载地址

    7、Twenty Newsgroups 数据集 ,顾名思义,该数据集涵盖新闻组相关信息,包含从 20 个不同新闻组获取的 20000 篇新闻组文档汇编(每个新闻组选取 1000 篇)。这些文章有着典型的特征,例如标题、导语。

    大小:20MB

    数量:来自 20 个新闻组的 20,000 篇报道

    Twenty Newsgroups Data Set:下载地址

    8、Sentiment140,是一个用于情感分析的数据集。这个流行的数据集能让你完美地开启自然语言处理之旅。数据中的情绪已经被预先清空。最终的数据集具备以下六个特征: 推文的情绪极性 推文的 ID 推文的日期 查询 推特的用户名 推文的文本

    大小:80MB(压缩后)

    数量: 1,60,000 篇推文

    For Academics - Sentiment140 - A Twitter Sentiment Analysis Tool:下载地址

    三、Audio / voice dataset

    1、VoxCeleb, 是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的(男性占 55%)。这些名人有不同的口音、职业和年龄。开发集和测试集之间没有重叠。对大明星所说的话进行分类并识别——这是一项有趣的工作。

    大小:150 MB

    数量:1251 位名人的 100,000 条语音

    VoxCeleb dataset
    下载地址

    2、Youtube-8M为谷歌开源的视频数据集,视频来自youtube,共计8百万个视频,总时长50万小时,4800类。为了保证标签视频数据库的稳定性和质量,谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌对视频进行了预处理,并提取了帧级别的特征,提取的特征被压缩到可以放到一个硬盘中(小于1.5T)。

    大小:~1.5TB

    https://research.google.com/youtube8m/
    下载地址

    3、Free Spoken Digit 数据集 ,这是本文又一个受 MNIST 数据集启发而创建的数据集!该数据集旨在解决识别音频样本中口述数字的任务。这是一个公开数据集,所以希望随着人们继续提供数据,它会不断发展。目前,它具备以下特点: 3 种人声 1500 段录音(每个人口述 0- 9 各 50 次) 英语发音

    大小: 10 MB

    数量: 1500 个音频样本 SOTA:《Raw Waveform-based Audio

    Jakobovski/free-spoken-digit-dataset:下载地址
    图标

    4、Million Song 数据集,包含一百万首当代流行音乐的音频特征和元数据,可免费获取。其目的是: 鼓励研究商业规模的算法 为评估研究提供参考数据集 作为使用 API 创建大型数据集的捷径(例如 The Echo Nest API) 帮助入门级研究人员在 MIR 领域展开工作 数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含导出要素。示例音频可通过哥伦比亚大学提供的代码(https://github.com/tb2332/MSongsDB/tree/master/Tasks_Demos/Preview7digital)从 7digital 等服务中获取。

    大小:280 GB

    数量:一百万首歌曲!

    https://labrosa.ee.columbia.edu/millionsong/
    https://labrosa.ee.columbia.edu/millionsong/

    5、FMA 是音乐分析数据集,由整首 HQ 音频、预计算的特征,以及音轨和用户级元数据组成。它是一个公开数据集,用于评估 MIR 中的多项任务。以下是该数据集包含的 csv 文件及其内容: tracks.csv:记录每首歌每个音轨的元数据,例如 ID、歌名、演唱者、流派、标签和播放次数,共计 106,574 首歌。 genres.csv:记录所有 163 种流派的 ID 与名称及上层风格名(用于推断流派层次和上层流派)。 features.csv:记录用 librosa 提取的常见特征。 echonest.csv:由 Echonest(现在的 Spotify)为 13,129 首音轨的子集提供的音频功能。

    大小:约 1000 GB

    数量:约 100,000 个音轨

    下载地址

    6、Ballroom , 该数据集包含舞厅的舞曲音频文件。它以真实音频格式提供了许多舞蹈风格的一些特征片段。以下是该数据集的一些特点: 实例总数:698 单段时长:约 30 秒 总时长:约 20940 秒 大小:14 GB(压缩后) 数量:约 700 个音频样本

    Ballroom:下载地址

    7、LibriSpeech,该数据集是一个包含约 1000 小时英语语音的大型语料库。数据来源为 LibriVox 项目的音频书籍。该数据集已经得到了合理地分割和对齐。如果你还在寻找起始点,那么点击 http://www.kaldi-asr.org/downloads/build/6/trunk/egs/查看在该数据集上训练好的声学模型,点击 http://www.openslr.org/11/查看适合评估的语言模型。

    大小:约 60 GB

    数量:1000 小时的语音

    openslr.org
    http://www.openslr.org/12/
    图标
    四、综合数据集

    1、雅虎发布的超大Flickr数据集,包含1亿多张图片。

    The data collected so far represents the world largest multimedia metadata collection that is available for research on scalable similarity search techniques. CoPhIR consist of 106 million processed images. CoPhIR is now available to the research community to try and compare different indexing technologies for similarity search, with scalability being the key issue. Our use of the Flickr image content is compliant to the Creative Commons license. CoPhIR Test Collection is compliant to the European Recommendation 29/2001 CE, based on WIPO (World Intellectual Property Organization) Copyright Treaty and Performances and Phonograms Treaty, and to the current Italian law 68/2003. In order to access the CoPhIR distribution, the organizations (universities, research labs, etc.) interested in building experimentations on it will have to sign the enclosed CoPhIR Access Agreement and the CoPhIR Access Registration Form, sending the original signed document to us by mail. Please follow the instruction in the section “How to get CoPhIR Test Collection”. You will then receive Login and Password to download the required files.

    CoPhIR - what is

    http://cophir.isti.cnr.it/whatis.html

    2、包含8000万的32x32图像,CIFAR-10和CIFAR-100便是从中挑选的。

    The 79 million images are stored in one giant binary file, 227Gb insize. The metadata accompanying each image is also in a single giantfile, 57Gb in size. To read images/metadata from these files, we haveprovided some Matlab wrapper functions. There are two versions of the functions for reading image data: (i) loadTinyImages.m - plain Matlab function (no MEX), runs under32/64bits. Loads images in by image number. Use this by default. (ii) read_tiny_big_binary.m - Matlab wrapper for 64-bit MEXfunction. A bit faster and more flexible than (i), but requires a 64-bit machine. There are two types of annotation data: (i) Manual annotation data, sorted in annotations.txt, that holds thelabel of images manually inspected to see if image content agrees withnoun used to collect it. Some other information, such as searchengine, is also stored. This data is available for only a very smallportion of images. (ii) Automatic annotation data, stored in tiny_metadata.bin,consisting of information relating the gathering of the image,e.g. search engine, which page, url to thumbnail etc. This data isavailable for all 79 million images.

    http://horatio.cs.nyu.edu/mit/tiny/data/index.html

    3、The MIRFLICKR-25000 open evaluation project consists of 25000 images downloaded from the social photography site Flickr through its public API coupled with complete manual annotations, pre-computed descriptors and software for bag-of-words based similarity and classification and a matlab-like tool for exploring and classifying imagery.

    800谷歌学术引文和3万9000的下载量来自大学(麻省理工学院、剑桥、斯坦福、牛津,哥伦比亚市,美国,新加坡,Tsinghua,东京大学,韩国科学技术院,等)和公司(IBM,微软,谷歌,雅虎!脸谱网、飞利浦、索尼、诺基亚等)

    下载地址

    以上就是一些国内外深度学习开放数据集下载集合。


    更多数据集下载
    参考地址:
    https://zhuanlan.zhihu.com/p/35535460
    https://www.kaggle.com/datasets
    http://www.52ml.net/20458.html


    You got a dream, you gotta protect it.
    如果你有梦想的话,就要去捍卫它 ——《当幸福来敲门》

    展开全文
  • 现在你看到的很多研究论文都使用专有数据集,而这些数据集通常不会向公众发布。如果你想学习并应用你新掌握的技能,数据就成为一个问题。 在本文中,我们列出了一些高质量的数据集,每个深度学习爱好者都可以使用并...

    介绍

    深度学习的关键是训练。无论是从图像处理到语音识别,每个问题都有其独特的细微差别和方法。

    但是,你可以从哪里获得这些数据?现在你看到的很多研究论文都使用专有数据集,而这些数据集通常不会向公众发布。如果你想学习并应用你新掌握的技能,数据就成为一个问题。

    在本文中,我们列出了一些高质量的数据集,每个深度学习爱好者都可以使用并改善改进他们模型的性能。 拥有这些数据集将使你成为一名更好的数据科学家,并且你将从中获得无可估量的价值。我们还收录了具有最新技术(SOTA)结果的论文,供你浏览并改进你的模型。

    如何使用这些数据集?

    首先要做的事——下载这些数据集,这些数据集的规模很大!所以请确保你有一个快速的互联网连接。

    数据集分为三类——图像处理、自然语言处理和音频/语音处理。

    让我们开始我们的数据集之旅吧!

    图像数据集

    1.MNIST

    d232ec9c62087f6060aac961678344187aca3140

    MNIST是最受欢迎的深度学习数据集之一,这是一个手写数字数据集,包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。这是一个很好的数据库,用于在实际数据中尝试学习技术和深度识别模式,同时可以在数据预处理中花费最少的时间和精力。

    大小: 50 MB

    记录数量: 70,000张图片被分成了10个组。

    SOTA Capsules之间的动态路由

    2.MS-COCO

    17c48f5075d912d34d36f716a918876f3993e629

    COCO是一个大型的、丰富的物体检测,分割和字幕数据集。它有几个特点:

    · 对象分割;

    · 在上下文中可识别;

    · 超像素分割;

    · 330K图像(> 200K标记);

    · 150万个对象实例;

    · 80个对象类别;

    · 91个类别;

    · 每张图片5个字幕;

    · 有关键点的250,000人;

    大小:25 GB(压缩)

    记录数量: 330K图像、80个对象类别、每幅图像有5个标签、25万个关键点。

    SOTAMask R-CNN

    3.ImageNet

    aa1b7a49b2af4736d0cadc4bb997498f8820bcaa

    ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个单词,ImageNet平均提供了大约1000个图像来说明每个单词。

    大小:150GB

    记录数量:总图像是大约是1,500,000,每个都有多个边界框和相应的类标签。

    SOTA深度神经网络的聚合残差变换

    4.Open Images数据集

    21b8626be1dccea953d18af1cd1622a145c0bfb3

    该数据集是一个包含近900万个图像URL的数据集,这些图像跨越了数千个类的图​​像级标签边框并且进行了注释。该数据集包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。

    大小:500 GB(压缩)

    记录数量:9,011,219张超过5k标签的图像

    SOTAResnet 101图像分类模型(在V2数据上训练):模型检查点检查点自述文件推理代码

    5.VisualQA

    5d8a664b459fa0c7861de72e185b4e8c0709e215

    VQA是一个包含相关图像的开放式问题的数据集,这些问题需要理解视野和语言。这个数据集的一些有趣的特点是:

    · 265,016张图片(COCO和抽象场景);

    · 每张图片至少有3个问题(平均5.4个问题);

    · 每个问题有10个基本事实答案;

    · 每个问题有3个似乎合理(但可能不正确)的答案;

    · 自动评估指标。

    大小:25 GB(压缩)

    记录数量:265,016张图片,每张图片至少3个问题,每个问题10个基本事实答案。

    SOTA视觉问答的技巧和诀窍:从2017年的挑战中学习

    6.街景房屋号码(SVHN)

    15fc42619e7db1e9b70d41d3dc2fcb6be83d2e0b

    这是用于开发对象检测算法的真实世界的图像数据集,它需要最少的数据预处理。它与本列表中提到的MNIST数据集类似,但具有更多标签数据(超过600,000个图像),这些数据是从谷歌街景中查看的房屋号码中收集的。

    大小:2.5 GB

    记录数量:6,30,420张图片被分布在10个类中。

    SOTA虚拟对抗训练的分布平滑

    7.CIFAR-10

    d3ea65e5cd106dc02dae823d703a4fea8b33ff8e

    该数据集是图像分类的另一个数据集,它由10个类的60,000个图像组成(每个类在上面的图像中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分:5个训练批次和1个测试批次,每批有10,000个图像。

    大小:170 MB

    记录数量:60,000张图片被分为10个类。

    SOTAShakeDrop正则化

    8.Fashion--MNIST

    e36ccb028a0302f3ae4e88bc4cff7b42010250a2

    Fashion-MNIST包含60,000个训练图像和10,000个测试图像,它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。

    大小:30 MB

    记录数量:70,000张图片被分为10个类。

    SOTA随机擦除数据增强

    自然语言处理

    9.IMDB评论

    这是电影爱好者的梦幻数据集,它意味着二元情感分类,并具有比此领域以前的任何数据集更多的数据。除了训练和测试评估示例之外,还有更多未标记的数据供你使用。原始文本和预处理的单词格式包也包括在内。

    大小:80 MB

    记录数量: 25,000个电影评论训练,25,000个测试

    SOTA学习结构化文本表示

    10.二十个新闻组(Twenty Newsgroups)

    顾名思义,该数据集包含有关新闻组的信息。为了管理这个数据集,从20个不同的新闻组中获取了1000Usenet文章。这些文章具有典型特征,如主题行,签名和引号。

    大小:20 MB

    记录数量:来自20个新闻组的20,000条消息。

    SOTA用于文本分类的非常深的卷积网络

    11.Sentiment140

    Sentiment140是一个可用于情感分析的数据集。它是一个流行的数据集,它能让你的NLP旅程更加完美。情绪已经从数据中预先删除,最终的数据集具有以下6个特征:

    · 推文的极性(polarity of the tweet)。

    · 推文的ID

    · 推文的日期。

    · 查询。

    · 推文的文本。

    大小:80 MB(压缩)。

    记录数量:160,000条推文。

    SOTA评估最先进的情感数据集的最新情绪模型

    12.WordNet

    在上面的ImageNet数据集中提到,WordNet是一个包含英文synsets的大型数据库。Synsets是同义词组,每个描述不同的概念。WordNet的结构使其成为NLP非常有用的工具。

    大小:10 MB

    记录数量:通过少量概念关系117,000个同义词集与其他同义词集相关联。

    SOTAWordnet:现状和前景

    13.Yelp评论

    这是Yelp为了学习目的而发布的一个开放数据集。它由数百万用户评论,商业属性和来自多个大都市地区的超过20万张照片组成。这是一个非常常用的全球NLP挑战数据集。

    大小:2.66 GB JSON2.9 GB SQL7.5 GB照片(全部压缩)

    记录数:5,200,000条评论,174,000条商业属性,20万张照片。

    SOTA细心卷积(Attentive Convolution)

    14.维基百科语料库

    该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿字。这个强大的NLP数据集你可以通过单词,短语或段落本身的一部分进行搜索。

    大小:20 MB

    记录数:4,400,000篇文章,19亿字。

    SOTA打破Softmax Bottelneck:高级RNN语言模型

    15.博客作者身份语料库

    此数据集包含从数千名博主收集的博客帖子,并且已从blogger.com收集。每个博客都作为一个单独的文件提供,每个博客至少包含200次常用英语单词。

    大小:300 MB

    记录数:681,288个帖子,超过1.4亿字。

    SOTA用于大规模作者归属的字符级和多通道卷积神经网络

    16.欧洲语言的机器翻译数据集

    该数据集包含四种欧洲语言的训练数据,它存在的任务是改进当前的翻译方法。你训练以下任何语言对:

    · 法语——英语;

    · 西班牙语——英语;

    · 德语——英语;

    · 捷克语——英语。

    大小:15 GB

    记录数量:30,000,000个句子及其翻译。

    SOTAAttention就是你所需要的

    音频/语音数据集

    17.免费口语数字数据集

    此列表中的另一项是由MNIST数据集启发!这是为了解决识别音频样本中的口头数字的任务而创建的。这是一个开放的数据集,所以希望随着人们继续贡献更多样本,它会不断增长。目前,它包含以下特点:

    · 3个扬声器;

    · 1500个录音(每个扬声器每个数字50个);

    · 英语发音;

    大小:10 MB

    记录数量:1500个音频样本。

    SOTA使用采样级CNN架构的基于原始波形的音频分类

    18.免费音乐档案(FMA)

    FMA是音乐分析的数据集,该数据集由full-lengthHQ音频、预先计算的特征以及音轨和用户级元数据组成。它是一个开放数据集,用于评估MIR中的几个任务。以下是数据集连同其包含的csv文件列表:

    · tracks.csv106,574首曲目的每首曲目元数据,如ID,标题,艺术家,流派,标签和播放次数。

    · genres.csv163种风格的ID与他们的名字和父母(用于推断流派层次和顶级流派)。

    · features.csv:用librosa提取的共同特征 

    · echonest.csv:由Echonest (现在的 Spotify)为13,129首音轨的子集提供的音频功能 

    大小:1000 GB

    记录数量:100,000 tracks

    SOTA学习从音频中识别音乐风格

    19.舞厅(Ballroom)

    该数据集包含舞厅跳舞音频文件,以真实音频格式提供了许多舞蹈风格的一些特征摘录。 以下是数据集的一些特征:

    · 实例总数:698

    · 持续时间:约30秒;

    · 总持续时间:约20940秒;

    大小: 14GB(压缩)

    记录数量:700个音频样本

    SOTA考虑到不同类型音乐风格的多模型方法来打败追踪

    20.百万歌曲数据集

    百万歌曲数据集是音频功能和元数据的一百万当代流行音乐曲目可自由可用的集合。 其目的是:

    · 鼓励对扩大到商业规模的算法进行研究;

    · 为评估研究提供参考数据集;

    · 作为使用API​​创建大型数据集的捷径(例如Echo Nest的);

    · 帮助新研究人员在MIR领域开始工作;

    数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含派生的功能。示例音频可以通过使用哥伦比亚大学提供的代码7digital等服务中获取。

    大小: 280 GB

    记录数量:一百万首歌曲!

    SOTA百万歌曲数据集挑战推荐系统的初步研究

    21.LibriSpeech

    该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐,如果你正在寻找一个起点,请查看已准备好的声学模型,这些模型在kaldi-asr.org和语言模型上进行了训练,适合评估,网址为:http://www.openslr.org/11/

    大小:60 GB

    记录数: 1000小时的演讲。

    SOTA基于信件的语音识别与门控通信

    22.VoxCeleb

    VoxCeleb是一个大型的说话人识别数据集。它包含约1,200名来自YouTube视频的约10万个话语,数据大部分是性别平衡的(男性占55%)。名人跨越不同的口音,职业和年龄,开发和测试集之间没有重叠。对于隔离和识别哪个超级巨星来说,这是一个有趣的用例。

    大小: 150 MB

    记录数: 1,251位名人的100,000条话语。

    SOTAVoxCeleb:一个大型说话人识别数据集

    数据集的问题实践

    23.Twitter情绪分析

    仇恨以种族主义和性别歧视为形式的言论已成为麻烦,重要的是将这类推文与其他人分开。在这个实践问题中,我们提供既有正常又有仇恨推文的Twitter数据。你作为数据科学家的任务是确定推文是仇恨推文,哪些不是。

    大小: 3 MB

    记录数量: 31,962条推文。

    24.印度演员的年龄检测

    对于任何深度学习爱好者来说,这是一个令人着迷的挑战。该数据集包含数千个印度演员的图像,你的任务是确定他们的年龄。所有图像都是手动选择的,并从视频帧中剪切,导致尺度,姿势,表情,照度,年龄,分辨率,遮挡和化妆的高度可变性。

    大小: 48 MB(压缩)。

    记录数:训练集中的19,906幅图像和测试集中的6636幅图像。

    SOTA深入学习 - 解决年龄检测问题

    25.城市声音分类

    这个数据集包含超过8000个来自10个不同城市声音摘录。这个实践问题旨在向你介绍常见分类方案中的音频处理。

    大小:训练集 - 3 GB(压缩),测试集 - 2 GB(压缩)

    记录数: 来自10个城市的8732个声音标注的声音片段(<= 4s

    以上就是我们今天介绍的25个深度学习的开放数据集,如果你觉得有用,请及时转发给你身边的人!

    展开全文
  • 16个推荐系统开放公共数据集整理分享

    万次阅读 多人点赞 2018-07-29 20:37:40
    其中,大多数数据集都是免费、开放的,但有些不是,需要获得许可或引用作者的工作才能使用。此外,其中也包含一些预处理数据,可用于学术实验。链接和数据集描述。   Book · 1. Book Crossing BookCrossing...

    (本文由深度学习与NLP编译)

    本文主要整理了一些与推荐系统相关的高质量的数据集。整理自Stack Overflow、一些文章、推荐站点和学术实验。其中,大多数数据集都是免费、开放的,但有些不是,需要获得许可或引用作者的工作才能使用。此外,其中也包含一些预处理数据,可用于学术实验。链接和数据集描述。

     

    Book

    · 1. Book Crossing

    BookCrossing(BX)数据集由Cai-Nicolas花了的4周(2004年8月/ 9月)从Book-Crossing社区中爬取得到的。

    · 下载链接http://www2.informatik.uni-freiburg.de/~cziegler/BX/

     

    电子商务

    · 2. Amazon

    该数据集包括自1996年5月至2014年7月,来自亚马逊上的1.428亿产品的评论和metadata。

    · 下载链接http://jmcauley.ucsd.edu/data/amazon/

     

    · 3. Retailrocket推荐系统数据集

    该数据集由三个文件组成:一个行为数据集(events.csv),一个属性数据集(item_properties.сsv)和一个类目树数据集(category_tree.сsv)。该数据来自现实世界的电子商务网站。

    · 下载链接https://www.kaggle.com/retailrocket/ecommerce-dataset

     

    音乐

    · 4. Amazon Music

    该数字音乐数据集包含来自亚马逊的评论和元数据

    · 下载链接:http://jmcauley.ucsd.edu/data/amazon/

     

    · 5. Yahoo Music

    该数据集是一个快照,收集了音乐社区对各种音乐艺术家的偏好。

    · 下载链接https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

     

    · 6. LastFM(Implicit)

    该数据集收集了Last.fm网站上2千名用户的社交网络、tagging和music artist listening信息。

    · 下载链接https://grouplens.org/datasets/hetrec-2011/

     

    · 7. Milion Song Dataset

    Million Song数据集是一个免费的数据集,提供了一百万条当代流行音乐曲目相关的的audio features和metadata。

    · 下载链接https://labrosa.ee.columbia.edu/millionsong/

     

    电影

    · 8. MovieLens

    GroupLens Research已经从他们的电影网站收集整理的rating数据集。

    · 下载链接https://grouplens.org/datasets/movielens/

     

    · 9. Yahoo Movies

    该数据集包含从两个不同来源收集的歌曲的rating数据集。第一个来源是用户在与Yahoo上使用音乐服务是产生的rating数据。

    · 下载链接https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

     

    · 10. CiaoDVD

    CiaoDVD是2013年12月从http://dvd.ciao.co.uk网站上抓取的DVD类别数据集。

    · 下载链接https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

     

    ·11. FilmTrust

    FilmTrust是2011年6月从整个FilmTrust网站上抓取的一个小型数据集。

    · 下载链接https://www.librec.net/datasets.html

     

    · 12. Netflix

    这是Netflix奖竞赛中使用的官方数据集。

    · 下载链接http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a

     

    游戏

    · 13. Steam Video Games

    这是一个用户行数据集,包含:user-id,game-title,behavior-name,value。包括“purchase”和“play”数据集。购买了,puchase的值为1,而“play”的值表示用户播放音乐的时长。

    · 下载链接https://www.kaggle.com/tamber/steam-video-games/data

     

    Jokes

    · 14. Jester

    该笑话数据集包含来自73,496个用户,关于100个笑话的410万连续rating数据(-10.00到+10.00)

    · 下载链接http://www.ieor.berkeley.edu/~goldberg/jester-data/

     

    餐饮

    ·15. Chicago Entree

    该数据集包含用户与Entree Chicago餐厅推荐系统交互的记录数据。

    · 下载链接:http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data

     

    动漫

    ·16. 动漫推荐数据库

    该数据集包含来自12,294个动漫的73,516个用户的用户偏好数据。每个用户都可以将动画添加到已完成的列表中并为其评分,该数据集把这些评级整理起来。

    · 下载链接https://www.kaggle.com/CooperUnion/anime-recommendations-database

     

    其他数据集

    · GroupLens数据集

    · 下载链接:https://grouplens.org/datasets/

     

    · LibRec数据集

    · 下载链接:https://www.librec.net/datasets.html

     

    · Yahoo Research数据集

    · 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

     

    · 斯坦福大型网络数据集汇编

    · 下载链接:https://snap.stanford.edu/data/

    展开全文
  • 开放数据集

    千次阅读 2016-03-24 09:51:14
    商业敏感数据虽然难以获取,但好在仍有相当多有用数据可公开访问。它们中的不少常用来作为特定机器学习问题的基准测试数据。常见的有以下几个: UCL机器学习知识库 ...包含的通常是大型数据集,可通
    商业敏感数据虽然难以获取,但好在仍有相当多有用数据可公开访问。它们中的不少常用来作为特定机器学习问题的基准测试数据。常见的有以下几个:

    UCL机器学习知识库

    包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/

    Amazon AWS公开数据集

    包含的通常是大型数据集,可通过Amazon S3访问。这些数据集包括人类基因组项目、Common Crawl网页语料库、维基百科数据和Google BooksNgrams。相关信息可参见:http://aws.amazon.com/publicdatasets/

    Kaggle

    这里集合了Kaggle举行的各种机器学习竞赛所用的数据集。它们覆盖分类、回归、排名、推荐系统以及图像分析领域,可从Competitions区域下载,不过其中的许多数据集是收费的:http://www.kaggle.com/competitions

    KDnuggets

    这里包含一个详细的公开数据集列表,其中一些上面提到过的。该列表位于:http://www.kdnuggets.com/datasets/index.html

    美国联邦政府数据集

    这里提供了许多关于气候变化、教育以及海洋方面的数据:http://www.data.gov

    来自infochimps公司的数据集

    来自infochimps公司的数据集,已经开放了超过14000多个数据集,不过遗憾的是很多数据集是要购买的:http://www.infochimps.com/

    百万歌曲数据库

    百万歌曲数据库,来自哥伦比亚大学,默认的百万曲库达到了280GB。就连这个数据库的样本版(10,000首歌)都达到了1.8 GB(已经压缩过):http://labrosa.ee.columbia.edu/millionsong/

    蛋白质信息资源数据集

    提供了基因序列,蛋白质和生物研究的数据集,很多关于DNA的机器学习的论文都用了这个网站的数据源:http://pir.georgetown.edu

    手写数字图像数据集

    训练数据集包含了60,000条手写数字图像,测试数据10,000条。在很多人的论文中都采用了这个数据集,并且用了各种算法比如KNN,SVM,NN等。是图像识别中比较好的数据集:http://yann.lecun.com/exdb/mnist/

    人脸识别数据库

    来自麻省大学:http://vis-www.cs.umass.edu/fddb/

    一些贝叶斯网

    http://bndg.cs.aau.dk/html/

    kdd99数据集

    http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

    数据集索引

    http://dmr.cs.umn.edu/datasets.html

    华盛顿大学

    http://www.cs.washington.edu/dm/vfml/

    搜狗数据资源

    包括了评测集合、语料数据、新闻数据、图片数据以及自然语言处理相关数据:http://www.sogou.com/labs/resources.htm

    展开全文
  • 常见开放数据集

    千次阅读 2017-12-24 10:25:27
    一、科研数据  1.UCI  ... UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有335个数据集,其数目还在不断增加,UCI数据集是一个常用的
  • 机器学习开放数据集网站

    千次阅读 2016-10-24 16:23:30
    世界最大的社会科学文献网站 可以找到大量的数据集 :http://www.icpsr.umich.edu/icpsrweb/ICPSR/ UC Irvine Machine Learning Repositoryhttp://archive.ics.uci.edu/ml/数据堂http://www.datatang.com/ 数据堂...
  • 2020版中国开放数据(Open Data)及政府数据开放平台汇总 北京市 北京市政务数据资源网 http://www.bjdata.gov.cn/jkfb/index.htm 56家单位、1147类数据集、7653万余条数据记录 上海市 上海市政府数据服务网 ...
  • 网络流量数据集

    千次阅读 2018-04-15 20:53:17
    开放数据集:1.CAIDA数据集http://www.caida.org/data(缺乏政府,企业和研究机构的支持,DatCat发展空间不大)2.UNIBS数据集www.ing.unibs.it/ntw/tools/traces/index.php3.WIDE数据集...
  • 自动驾驶(二十)---------Waymo数据集

    万次阅读 2019-08-22 16:13:48
    8月21日,谷歌母公司Alphabet旗下的自动驾驶公司Waymo在其博客公布了数据开放项目(Waymo Open Dataset)。 地址:https://waymo.com/open(需要科学上网)关联google账号 Waymo对数据集做出了详细介绍。 1. ...
  • 推荐系统常用数据集

    万次阅读 2016-08-08 17:47:29
    《推荐系统常用数据集(点击进入)》推荐系统常用数据集推荐系统常用的:1)MovieLensMovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法.小规模...
  • [导读] “大数据时代”,数据为王!无论是数据挖掘还是目前大热的深度学习领域都离不开“大数据”。...本文结合笔者在研究生学习、科研期间使用过以及阅读文献了解到的深度学习视觉领域常用的开源数据集,进行介绍
  • 免费数据集下载(很全面)

    万次阅读 多人点赞 2018-09-13 09:23:21
    “聚数据”平台整理了网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。 以下内容转自https://blog.csdn.net/qq_32447301/article/details/79487335 金融 美国劳工部统计...
  • 70个大数据

    万次阅读 2015-12-07 16:34:48
    最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。 Wikipedia:Data
  • DeepFashion: 服装公开数据集概述

    万次阅读 热门讨论 2017-11-20 10:08:26
    本博记录为卤煮理解,如有疏漏,请指正。...DeepFashion(http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html)是香港中文大学开放的一个large-scale数据集。包含80万张图片,包含不同角度,不同场
  • 史上最全数据集网站汇总

    万次阅读 多人点赞 2018-09-13 22:49:40
    如果你是一个初学者,你每完成一个新项目后自身能力都会有极大的提高,如果你是一个有经验的数据科学专家,你已经知道这里所蕴含的价值。 本文将为您提供一个网站/资源列表,从中你可以使用数据来完成你自己的数据...
  • 免费数据集下载

    万次阅读 多人点赞 2019-04-11 09:04:45
    目前系统整理了一些网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。 金融 美国劳工部统计局官方发布数据 上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支...
  • Pascal VOC 数据集国内下载

    万次阅读 多人点赞 2020-02-15 19:52:40
    自己家的服务器,下载速度约为7M/S 从2007-2012的文件 http://p2341j3301.51mypc.cn:666/share/Pascal VOC/ 文件在对应目录
  • ApolloScape自动驾驶数据集

    千次阅读 2018-08-28 17:26:14
    此次ECCV 2018以解决潜在的计算机视觉为挑战,赛事主要包括基于视觉的细粒度车道标记分割、实时自定位及3D汽车实例了解等3大内容,所有参赛者都将基于ApolloScape提供的数据集进行挑战 目前的自动驾驶开发测试中,....
  • COCO2017数据集国内下载地址

    万次阅读 多人点赞 2020-02-15 19:52:14
    自己家的服务器,下载速度约为1.5M/S 原始地址: http://images.cocodataset.org/zips/train2017.zip http://images.cocodataset.org/annotations/annotations_trainval2017.zip ... http:/...
1 2 3 4 5 ... 20
收藏数 125,473
精华内容 50,189
关键字:

开放数据集