精华内容
下载资源
问答
  • 链接:http://hao.199it.com/aidata.html
    展开全文
  • 人工智能数据集汇总

    千次阅读 2019-07-10 17:03:04
    WIDER FACE 数据集是由香港中文大学发布的大型人脸数据集,含 32,203幅图像和 393,703 个高精度人脸包围框,该库中人脸包含尺度、姿态、表情、遮挡和光照等变化。WIDER FACE 几乎是目前评估人脸检测算法最权威的数据...

    1 人脸数据库

    1.1 Wider Face

    WIDER FACE 数据集是由香港中文大学发布的大型人脸数据集,含 32,203幅图像和 393,703 个高精度人脸包围框,该库中人脸包含尺度、姿态、表情、遮挡和光照等变化。WIDER FACE 几乎是目前评估人脸检测算法最权威的数据集。

    展开全文
  • 人工智能安全帽数据集,可用于yolo框架训练,如需标签文件请点击个人主页自行寻找!!!
  • 下面的数据集,主要是学术界使用的,工业界使用的数据集一般不公开下载不到。 1.CIFAR-10 CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。 数据集分为...

    下面的数据集,主要是学术界使用的,工业界使用的数据集一般不公开下载不到。

    1.CIFAR-10
    CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。
    数据集分为五个训练批次和一个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序包含剩余图像,但一些训练批次可能包含来自一个类别的图像比另一个更多。总体来说,五个训练集之和包含来自每个类的正好5000张图像。
    以下是数据集中的类,以及来自每个类的10个随机图像:
    下载地址:
    http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz

    2.CIFAR-100:
    这个数据集就像CIFAR-10,除了它有100个类,每个类包含600个图像。,每类各有500个训练图像和100个测试图像。CIFAR-100中的100个类被分成20个超类。每个图像都带有一个“精细”标签(它所属的类)和一个“粗糙”标签(它所属的超类)
    下载地址:
    http://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz

    3.MNIST:
    MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员. 测试集(test set) 也是同样比例的手写数字数据.

    MNIST 数据集可在 http://yann.lecun.com/exdb/mnist/ 获取, 它包含了四个部分:

    Training set images: train-images-idx3-ubyte.gz (9.9 MB, 解压后 47 MB, 包含 60,000 个样本)
    Training set labels: train-labels-idx1-ubyte.gz (29 KB, 解压后 60 KB, 包含 60,000 个标签)
    Test set images: t10k-images-idx3-ubyte.gz (1.6 MB, 解压后 7.8 MB, 包含 10,000 个样本)
    Test set labels: t10k-labels-idx1-ubyte.gz (5KB, 解压后 10 KB, 包含 10,000 个标签)

    4.SVHN:
    SVHN数据集是斯坦福大学开发出来的,包含train文件接,test文件夹以及extra文件夹。分别包含33402、13068、202353个标记图片。

    5.Caltech :
    Caltech数据集主要包括2类,一类是Caltech-101;另一类是Caltech-256。

    Caltech-101
    这个数据集包含了101类的图像,每类大约有40~800张图像,大部分是50张/类;
    在2003年由lifeifei收集,每张图像的大小大约是300x200。

    Caltech-256
    此数据集和Caltech-101相似,包含了30,607张图像。

    下载地址:
    http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/datasets/USA/

    6.Imagenet

    Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注,具体信息如下: 1)Total number of non-empty synsets: 21841 2)Total number of images: 14,197,122 3)Number of images with bounding box annotations: 1,034,908 4)Number of synsets with SIFT features: 1000 5)Number of images with SIFT features: 1.2 million
    Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域,关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。

    迅雷打开
    验证集
    http://academictorrents.com/download/5d6d0df7ed81efd49ca99ea4737e0ae5e3a5f2e5.torrent
    训练集
    http://academictorrents.com/download/a306397ccf9c2ead27155983c254227c0fd938e2.torrent

    https://blog.csdn.net/weixin_41043240/article/details/80305311

    展开全文
  • 利用深度学习算法,对UCL机器学习数据库里的一个糖尿病数据集 进行训练学习并预测。主要利用了 python 的 sklearn 神经网络 MLPClassifie 函数包进行糖尿病数据集的训练与预测。内含训练算法MPL.py文件和糖尿病数据...
  • AI数据集

    千次阅读 2017-02-22 14:59:44
    数据集计算机视觉 MNIST CIFAR  ImageNet LSUN PASCAL SVHN MSCOCO Genome ...地理空间数据 【经典】这些是在 AI 领域中非常著名、众所周知的数据集。很少有研究者或工程师没有听说过它们。 【有用

    声明:本篇文章转自新智元【资源】最好用的 AI 开源数据集 Top 39:计算机视觉、NLP、语音等 6 大类 ,略有改动。

    数据集

     【经典】这些是在 AI 领域中非常著名、众所周知的数据集。很少有研究者或工程师没有听说过它们。

      【有用】这些是更加接近现实世界的、精心设计的数据集。而且,这些数据集通常在产品和研发两方面都有用。

      【学术】这些是在机器学习和 AI 的学术研究中通常作为基准或基线使用的数据集。无论好坏,研究人员都使用这些数据集来验证算法。

      【陈旧】这些数据集,无论是否实用,已经有相当长历史了。


    计算机视觉

    CIFAR  

      【经典、陈旧】CIFAR 10 & CIFAR 100:32x32的彩色图像数据集,虽然已经不常用,但也可以用作完整性检查。
      CIFAR 10由60000张32*32的RGB彩色图片组成,其中50000个训练图片,10000个测试图片。共10个类别。

      地址:https://www.cs.toronto.edu/~kriz/cifar.html

    ImageNet

    【有用、学术、经典】ImageNet:新算法实际上使用的图像数据集,很多图像 API 公司从其 REST 接口获取标签,这些标签被怀疑与 ImageNet 的下一级 WordNet 的 1000 个类很相似。

      地址:http://image-net.org/
      ILSVRC2014:
      

    LSUN

      LSUN:是卧室的自然场景数据集,用于场景理解、GAN等。

      地址:http://lsun.cs.princeton.edu/2016/

    PASCAL

      【学术】PASCAL VOC:一个通用的图像分割/分类数据集,对构建真实图像的注释用处不是特别大,但对于基线很有用。

      地址:http://host.robots.ox.ac.uk/pascal/VOC/

    MSCOCO

      MS COCO:一个通用的图像理解/字幕数据集。

      地址:http://mscoco.org/

    Genome

      【有用】Visual Genome:非常详细的视觉知识数据集,包含约100K图像的深字母。

      地址:http://visualgenome.org/


    数字识别

    MNIST

      【学术、经典、陈旧】MNIST:最常用的完整性检查数据集,是28x28的灰度数字图。

      地址:http://pjreddie.com/projects/mnist-in-csv/

    SVHN

      【学术】SVHN:数据来源于 Google 街景视图中的门牌号。

      地址:http://ufldl.stanford.edu/housenumbers/


    人脸数据

    Faces

      【有用、学术、经典、陈旧】Labeled Faces in the Wild:使用名称标识符标记的面部区域数据集,常用于训练面部识别系统。

      地址:http://vis-www.cs.umass.edu/lfw/

    AR Face Dataset

      包括126个人的超过4000张图片,主要变化在表情、光照和遮挡。部分图片给出了特征点标记。

      地址:http://www2.ece.ohio-state.edu/~aleix/ARdatabase.html

    XM2VTS

      https://personalpages.manchester.ac.uk/staff/timothy.f.cootes/data/xm2vts/xm2vts_markup.html
      数据集包含295个人的分四次采集的2360张图片(295*2*4),每次对每个人采集两张图片。
    对于人脸的标注有68个点。
    XM2VTS图像文件的命名方式为:XXX_Y_Z.ppm,其中XXX为000-371中的数,表示哪个人;Y取值1,2,3,4,表示第几次采集的;Z取值1或者2,表示每次采集时的第几张照片。对应的landmark标记文件的命名方式为XXX_Y_Z.pts。
    图像库需要付费下载,但是特征点可以免费获取到。

    BioID

    https://www.bioid.com/About/BioID-Face-Database

    23个人的1521张图片,强调实际背景,包含光照、背景及人脸大小的差异。每个人脸标注了20个特征点。


    视频

    ALOV300++

      视频数据,可用于目标跟踪算法。

      地址:http://alov300pp.joomlafree.it/

    VOT

      目标跟踪比赛
      地址:http://www.votchallenge.net/howto/index.html

      

    自然语言处理

    语言模型 

    • 【有用、学术】WikiText:由 Salesforce MetaMind 设计的大型语言建模语料库,来源于维基百科文章。
        地址:http://t.cn/RJDVSRy/

    • 【有用、学术】Billion Words:一个大型、通用的语言建模数据集,常用于如 word2vec 或 Glove 的分布式词语表征。
        地址:http://www.statmt.org/lm-benchmark/

    • 【有用、学术】Common Crawl:Petabyte 级规模的网络爬行数据集,常用于学习词嵌入。
        地址:http://commoncrawl.org/the-data/

    语义相似性

    文本分类数据集

    • 【有用、学术】Text Classification Datasets:一个文本分类数据集,包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。
        地址:http://t.cn/RJDVxr4

    • 【经典、陈旧】Reuters:一个较旧,完全基于分类的新闻文本数据集,常用于教程。
        地址:http://t.cn/RJDfi7T
        

    • 【经典、陈旧】UCI’s Spambase:这是一个年代较久远的、经典的垃圾电子邮件数据集,来源是著名的 UCI 机器学习库。由于该数据集在设计细节上的独特之处,可以用作学习个性化垃圾邮件过滤的一个有趣的基线。
        地址:https://archive.ics.uci.edu/ml/datasets/Spambase

    • 【经典、陈旧】20 Newsgroups:一个文本分类的经典数据集,通常用于纯分类或作为任何 IR/索引算法的基准。
        地址:http://qwone.com/~jason/20Newsgroups/

    问答

    阅读理解

    • 【有用、学术】SQuAD:斯坦福大学的问答数据集,广泛用于问题回答和阅读理解,其中每个问题和答案都是文本片段的形式。
        地址:https://rajpurkar.github.io/SQuAD-explorer/

    • 【学术、经典】bAbi:来自 FAIR 的阅读理解和问答应答数据集。
        地址:https://research.fb.com/projects/babi/
          

    • 【学术】The Children’s Book Test:从古登堡计划的童书中提取的(问题+上下文,答案)的基线,该数据集对问题回答、阅读理解和模拟陈述有用。
        地址:https://research.fb.com/projects/babi/

    情感分析

    IR

    • 【经典、陈旧】20 Newsgroups:一个文本分类的经典数据集,通常用于纯分类或作为任何 IR/索引算法的基准。

        地址:http://qwone.com/~jason/20Newsgroups/

    Maluuba

      【有用】Maluuba Datasets:用于状态性的自然语言理解研究的人工制作的精细数据集。
      地址:https://datasets.maluuba.com/

      

    语音

    大多数语音识别数据集是专有的,因为这些数据对于创建该数据集的公司来说具有很大价值。因此,这部分的可用公开数据集多数比较陈旧。

    • 【学术、陈旧】2000 HUB5 English:仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。

        地址:https://catalog.ldc.upenn.edu/LDC2002T43

    • 【学术】LibriSpeech:包含文本和语音的有声读物数据集,由近500小时的多人朗读的清晰音频组成,且包含书籍的章节结构。

        地址:http://www.openslr.org/12/

    • 【有用、学术】VoxForge:带口音的语音清洁数据集,对测试模型在不同重音或语调下的鲁棒性非常有用。

        地址:http://www.voxforge.org/

    • 【学术、经典、陈旧】TIMIT:英文语音识别数据集。

        地址:https://catalog.ldc.upenn.edu/LDC93S1

    • 【有用】CHIME:包含环境噪音的语音识别挑战赛数据集。该数据集包含真实、模拟和清洁的语音录音,具体来说,包括4个扬声器在4个有噪音环境下进行的将近9000次录音,模拟数据是将多个环境组合及在无噪音环境下记录的数据。

        地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

    • TED-LIUM:TED Talk 的音频数据集,包含1495个TED演讲的录音及全文的文字稿。

        地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

    推荐和排序系统


    网络和图表 


    地理空间数据 

    展开全文
  • 构建人工智能医疗器械数据集需要遵循哪些国家标准呢,本资源进行了标准参考的探寻,和基本的论文收集,希望能够帮助到大家。详细内容参见博客:https://season.blog.csdn.net/article/details/113741142
  • 32机器之心开放人工智能词库数据集 数据集 作为最早关注人工智能技术的媒体,机器之心在编译国外技术博客、论文、专家观点等内容上已经积累了超过两年多的经验。期间,从无到有,机器之心的编译团队一直在积累专业...
  • 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统 微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的计算机视觉系统,在...
  • Mrpc数据是经典的评判网络模型性能优劣的经典的数据集之一。
  • 分享一个人工智能数据集下载平台 全部都是免费的,刚建站不久。 https://aidown.52msr.cn/
  • UCI数据集整理(附论文常用数据集

    万次阅读 多人点赞 2018-08-30 18:02:32
    摘要:UCI数据集作为标准测试数据集经常出现在许多机器学习的论文中,为了更方便使用这些数据集有必要对其进行整理,这里整理了论文中经常出现的数据集,并详细介绍如何使用MATLAB将数据集文件整理成自己需要的格式...
  • 记录机器学习、计算机视觉、自然语言处理、无人驾驶、医疗、金融、政府领域开源的数据集
  • 垃圾分类图片数据集分享-约10w张数据集

    万次阅读 多人点赞 2020-08-12 11:58:34
    最近在做一个相关项目,从网上整理了许许多多的有关于垃圾图片的数据集,几万张图片应该是有的。种类也比较全,找的时候发现很多在也在找,本着共享的精神把我这段时间收集的数据集分享出来。 3.数据集构成 目前收集...
  • 人工智能数据集描述——SVHN

    万次阅读 2017-06-29 10:49:02
    SVHN数据集包含train文件接,test文件夹以及extra文件夹。分别包含33402、13068、202353个标记图片。每个文件夹中包含 图片,图片以*.png命名; 一个digitStruct.mat文件 文件中的数据的组织结构大概如下: ...
  • 在PolyAI,我们在庞大的对话数据集上训练对话响应模型,然后将这些模型适应对话AI中特定领域的任务。 在庞大的数据集上对大型模型进行预训练的一般方法在图像社区中早已流行,现在在NLP社区中正在兴起。 除了提供...
  • AI Studio 数据集

    千次阅读 2019-12-10 11:06:45
    创建数据集2.1 数据集大厅入口2.2 在创建项目时创建数据集入口2.3 在已有项目中添加数据集3.收藏数据集4.数据集预览参考 1.页面概览 2.创建数据集 如果当前预置的数据集不能满足使用, 可以自行上传数据集. 上传数据...
  • 人工智能公开数据集汇总

    千次阅读 2018-07-12 17:13:34
    经典数据集: MNIST | CIFAR | PASCAL VOC | MS COCO | LSUN | SVHN   人类相关数据: 1)人脸特征点数据 IBUG(intelligent bahaviour understanding group) 2)人体姿态数据 MPII Human Pose Dataset  ...
  • 像git一样使用AI数据集!免费数据托管工具上线,让模型用「活」的数据集训练....pdf
  • 游戏数据集:精选的出色游戏数据集的列表,以及用于游戏中人工智能的工具
  • 摘要:本文对机器学习中的UCI数据集进行介绍,带你从UCI数据集官网出发一步步深入认识数据集,并就下载的原始数据详细讲解了不同类型的数据集整理如何通过程序进行整理。为了方便使用,博文中附上了包括数据集整理及...
  • 人工智能训练汽车自动驾驶数据集
  • 2017年12月天池工业ai比赛的初赛数据集,一共包括训练集、测试集A、测试集B
  • 深度学习入门常用MNIST数据集。外网下载速度太慢且容易失败。
  • 人工智能原理基于Python语言和TensorFlow张明 副教授 第五章MNIST机器学习MNIST数据集简介MNIST数据下载softmax回归模型简介模型的训练与评估TensorFlow模型基本步骤构建softmax回归模型5.1MNIST数据集简介1 MNIST...
  • AI Challenger是一个面向全球人工智能AI)人才的开放数据集和编程竞赛的平台。 要参与,请访问 。 评估 包含AI挑战者比赛的评估脚本。 每个竞赛轨道的脚本分别在单独的文件夹中提供。 基准线 我们还为某些比赛...
  • 用python处理AI数据集

    千次阅读 2019-07-11 20:29:23
    朋友们,我是床长!... 机器学习的核心是处理数据。你的机器学习工具应该与数据的质量一样好。本文涉及清理数据的各个步骤。你的数据需要经过几个步骤才能用于预测。... 将数据集拆分为测试集和训练集。 ...
  • https://storage.googleapis.com/openimages/web/download.html http://cocodataset.org/#download http://www.data.gov/about

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 190,477
精华内容 76,190
关键字:

人工智能数据集的作用