数据集 订阅
数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。 [1] 展开全文
数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。 [1]
信息
定    义
一种由数据所组成的集合
别    名
资料集
中文名
数据集
外文名
Data set
数据集原理与分类
从历史上看,这个术语起源于大型机领域,在那里它有一个明确界定的意义,非常接近现代的计算机档案。这个主题是不包括在这里的。最简单的情况下,只有一个变量,然后在数据集由一列列的数值组成,往往被描述为一个列表。尽管名称,这样一个单数据集不是一套通常的数学意义,因为某一个指定数值,可能会出现多次。通常的顺序并不重要,然后这样数值的集合可能被视为多重集,而不是(顺序)列表。值可能是数字,例如真正的数字或整数,例如代表一个人的身高多少厘米,但也可能是象征性的数据(即不包括数字),例如代表一个人的种族问题。更一般的说,价值可以是任何类型描述为某种程度的测量。对于每一个变量,通常所有的值都是同类。但是也可能是“遗漏值”,其中需要指出的某种方式。数据集可以分成类型化数据集与非类型化数据集。类型化数据集:这种数据集先从基DataSet 类派生,然后,使用XML 架构文件(.xsd 文件)中的信息生成新类。架构中的信息(表、列等)被作为一组第一类对象和属性生成并编译为此新数据集类。可以直接通过名称引用表和列,在VS.NET中可以智能感知元素的类型。非类型化数据集:这种数据集没有相应的内置架构。与类型化数据集一样,非类型化数据集也包含表、列等,但它们只作为集合公开。需要通过Tables集合引用列。
收起全文
精华内容
下载资源
问答
  • 垃圾分类图片数据集分享-约10w张数据集

    千次阅读 多人点赞 2020-08-12 11:58:34
    最近在做一个相关项目,从网上整理了许许多多的有关于垃圾图片的数据集,几万张图片应该是有的。种类也比较全,找的时候发现很多在也在找,本着共享的精神把我这段时间收集的数据集分享出来。 3.数据集构成 目前收集...

    1.获取方式

    点赞本博客+评论区留邮箱,博主在会发送(访问量大,不再提供无偿)。
    访问的人太多了,自03.30后起每份数据集10,需要私信联系。
    截至到2021.03.30评论区所有邮箱已无偿发送
    图片数据集直接留邮箱即可。
    标注好的数据集需私信博主沟通获取,标注的不免费哈,介意勿扰。

    2.问题描述

    最近在做一个相关项目,从网上整理了许许多多的有关于垃圾图片的数据集,十几万张图片应该是有的。种类也比较全四大类近150种,找的时候发现很多在也在找,本着共享的精神把我这段时间收集的数据集分享出来。

    3.数据集构成

    目前收集整理到到五个数据集,其中四个图片数据集,图片共计10w+,垃圾图片库最大最全。
    一个含有标注文件,已经手动标注好的数据集。2w左右数据集

    在这里插入图片描述
    在这里插入图片描述
    以及一个标注好的数据集

    3.1 DATASET

    主要分为两部分 共计2.5w张图片

    3.1.1 食物图片

    其一包含了厨房内各种各样食物的图片,用于训练厨余垃圾,含有图片1.4w张
    在这里插入图片描述

    3.1.2 可回收

    其二主要包含易拉罐,金属,玻璃,餐叉,酒瓶,塑料瓶等近30种可回收垃圾种类,含有图片1.2w张

    在这里插入图片描述
    在这里插入图片描述

    3.2垃圾分类资料

    共五种垃圾
    在这里插入图片描述

    在这里插入图片描述

    3.3 垃圾目录

    文件构成如下,共计约5W张图片
    在这里插入图片描述
    其中可回收垃圾包括

    0 传单
    0 充电宝
    0 包
    0 塑料玩具
    0 塑料碗盆
    0 塑料衣架
    0 快递纸袋
    0 报纸
    0 插头电线
    0 旧书
    0 旧衣服
    0 易拉罐
    0 杂志
    0 枕头
    0 毛绒玩具
    0 泡沫塑料
    0 洗发水瓶
    0 牛奶盒等利乐包装
    0 玻璃
    0 玻璃瓶罐
    0 皮鞋
    0 砧板
    0 纸板箱
    0 调料瓶
    0 酒瓶
    0 金属食品罐
    0 锅
    0 食用油桶
    0 饮料瓶
    

    有害垃圾包括

    1 干电池
    1 废弃水银温度计
    1 废旧灯管灯泡
    1 杀虫剂容器
    1 电池
    1 软膏
    1 过期药物
    1 除草剂容器
    

    厨余垃圾包括

    2 剩菜剩饭
    2 大骨头
    2 果壳瓜皮
    2 残枝落叶
    2 水果果皮
    2 水果果肉
    2 茶叶渣
    2 菜梗菜叶
    2 落叶
    2 蛋壳
    2 西餐糕点
    2 鱼骨
    

    其他垃圾包括

    3 一次性餐具
    3 化妆品瓶
    3 卫生纸
    3 尿片
    3 污损塑料
    3 烟蒂
    3 牙签
    3 破碎花盆及碟碗
    3 竹筷
    3 纸杯
    3 贝壳
    

    3.4 垃圾图片库

    整体图片库构成如下
    在这里插入图片描述

    3.4.1 其他垃圾

    共48种其他垃圾,部分展示
    在这里插入图片描述

    3.4.2 厨余垃圾

    共42种厨余垃圾,部分展示
    在这里插入图片描述

    3.4.3 可回收垃圾

    共50种可回收垃圾,不再展示

    3.4.4 有害垃圾

    共包含14种类型的垃圾。
    在这里插入图片描述

    4 标注好的数据集

    本数据集已经标注完成,如需获取标注数据集请私信联系
    共2w左右图像+标注文件。
    标注文件含文件名+图像类别。
    在这里插入图片描述

    {
        "0": "其他垃圾/一次性快餐盒",
        "1": "其他垃圾/污损塑料",
        "2": "其他垃圾/烟蒂",
        "3": "其他垃圾/牙签",
        "4": "其他垃圾/破碎花盆及碟碗",
        "5": "其他垃圾/竹筷",
        "6": "厨余垃圾/剩饭剩菜",
        "7": "厨余垃圾/大骨头",
        "8": "厨余垃圾/水果果皮",
        "9": "厨余垃圾/水果果肉",
        "10": "厨余垃圾/茶叶渣",
        "11": "厨余垃圾/菜叶菜根",
        "12": "厨余垃圾/蛋壳",
        "13": "厨余垃圾/鱼骨",
        "14": "可回收物/充电宝",
        "15": "可回收物/包",
        "16": "可回收物/化妆品瓶",
        "17": "可回收物/塑料玩具",
        "18": "可回收物/塑料碗盆",
        "19": "可回收物/塑料衣架",
        "20": "可回收物/快递纸袋",
        "21": "可回收物/插头电线",
        "22": "可回收物/旧衣服",
        "23": "可回收物/易拉罐",
        "24": "可回收物/枕头",
        "25": "可回收物/毛绒玩具",
        "26": "可回收物/洗发水瓶",
        "27": "可回收物/玻璃杯",
        "28": "可回收物/皮鞋",
        "29": "可回收物/砧板",
        "30": "可回收物/纸板箱",
        "31": "可回收物/调料瓶",
        "32": "可回收物/酒瓶",
        "33": "可回收物/金属食品罐",
        "34": "可回收物/锅",
        "35": "可回收物/食用油桶",
        "36": "可回收物/饮料瓶",
        "37": "有害垃圾/干电池",
        "38": "有害垃圾/软膏",
        "39": "有害垃圾/过期药物"
    }
    

    5.补充

    展开全文
  • UCI数据集整理(附论文常用数据集

    万次阅读 多人点赞 2018-08-30 18:02:32
    摘要:UCI数据集作为标准测试数据集经常出现在许多机器学习的论文中,为了更方便使用这些数据集有必要对其进行整理,这里整理了论文中经常出现的数据集,并详细介绍如何使用MATLAB将数据集文件整理成自己需要的格式...

    摘要:UCI数据集作为标准测试数据集经常出现在许多机器学习的论文中,为了更方便使用这些数据集有必要对其进行整理,这里整理了论文中经常出现的数据集,并详细介绍如何使用MATLAB将数据集文件整理成自己需要的格式以及如何使用数据集文件。要点如下,博主另一篇博文UCI数据集详解及其数据处理(附148个数据集及处理代码)有更加详细的介绍。

    点击跳转至UCI数据集下载页

    下载链接:博主在面包多网站上的完整资源下载页


    1. 前言

    UCI数据集是一个常用的机器学习标准测试数据集,是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库。机器学习算法的测试大多采用的便是UCI数据集了,其重要之处在于“标准”二字,新编的机器学习程序可以采用UCI数据集进行测试,类似的机器学习算法也可以一较高下。其官网地址如下:
    website: UCI Machine Learning Repository

    尽管从UCI数据集官网可以很容易找到许多想要的数据集,但要将其提供给自己的程序使用还需要了解数据的详细信息。UCI数据集中并非所有数据集都是以相同格式存于文件中的,读取和使用文件方式不一,因此有必要对数据文件稍作整理,特此总结。


    2. UCI数据集介绍

    2.1 简要认识

    要使用数据集中的数据首先需要分清标记和属性值。如点击进入数据集官网:UCI数据集官网选取数据集Iris

    该数据集详情页面如下,从表中数据显示该数据集的数据量为150,属性数为4

    而再往下的Data Set information 中则介绍了该数据集的详细信息,下面的Attribute Information(属性信息)是我们需要关注的,如下图

    其中1-4分别说明了四个属性所代表的实际意义,而5则说明了该数据集分为三类:Iris Setosa、Iris VersicolourIris Virginica。认识到这些,再去看具体的Iris文件中的数据便清楚明了了,点击标题Iris Data Set下方的Data Folder进入文件位置页面,选择iris.data(该文件为Iris数据集数据存放文件)

    进入到数据详情页面,如下图。可以看到文本的排列:每行5个数以逗号分隔,共150行,每行的前4列(红框内的数)分别对应4个属性值,而最后一列(绿色框内)为每个数据所属类别(或称标记)。当前看到的都是“Iris-setosa”一类的数据,往下翻则可看到”Iris-versicolour“和”Iris-virginica

    • 其他的数据集的情况与iris相似,而各个数据集属性数或类别数各有差异。值得注意的是,有些数据集每行数据中间的分隔符并非都是“ ,”(逗号),还有可能是“ ”(空格);有些数据集的标记可能是用数字表示的,如1,2,… 其位置也可能出现在第1列(也可能文件中未给出标记,需自行加上);还有的可能属性值都是英文字符,分别如下所示的wine数据集heart-disease数据集adult数据集。要想以统一的程序使用这样内部格式不一的数据集,就需要在程序使用前根据实际情况对数据集进行调整了。
      总之,各数据集可能各有差异,按照上面的步骤了解了各自的注释信息,找到属性数、分类数、标记等重要信息使用起来便顺利得多。

    2.2 下载数据

    要保存网站上的数据文件,可以进入某个数据集的文件位置页面,如Iris文件位置,选择“iris.data”,右键,链接另存为,即可下载该数据集文件。如下所示,当前保存的文件格式为“.data”文件。

    • 如若想保存文本文件(.txt),可先自行新建一个文本文件,直接点击iris.data进入数据详情页面,直接全选所有数据将数据粘贴到自己新建的文本文件中。至于其他文件格式如.mat,.xls则可借助MATLAB先读取文件数据然后转存为其他格式,在后面章节也会介绍。

    3. 用程序整理数据集

    本节介绍如何使用MATLAB对数据集进行整理,下面以对Iris数据集的整理为例介绍。

    首先从官网下载数据集,例如前面下载的iris.data或者自行复制的txt文件(自命名iris.txt),在文件所在文件夹新建一个.m文件。整理程序的功能是读取原文件数据将最后一列的英文标记按每类改为1-3的数字并将标记放在第一列,重新存储到新的txt文件,顺便另存为.mat以及.xls文件。

    从前面可知,iris文件的最后列为英文字母,如果直接采用MATLABload( )函数将导致最后一列文本未知错误,所以这里采用textscan( )函数。textscan( )函数调用方式如下

    textscan( ): 读取任意格式的文本文件。通过此函数,能够以一次读取一个块的方式读取文件,并且每个块可以具有不同的格式。
    使用方法:首先打开文本文件以进行读取,fopen 返回文件标识符。
    fileID = fopen('test80211.txt','r');
    读取 4 个简介行,这些行是由换行符分隔的字符串。
    Intro = textscan(fileID,'%s',4,'Delimiter','\n')
    Intro = 1x1 cell array{4x1 cell} textscan 返回一个 1x1 元胞数组,其中包含由字符串组成的一个 4×1 元胞数组。
    然后读取每个块的内容即可取出数据了,最后关闭文件。
    fclose(fileID);
    —— 引自 《MATLAB中文文档》

    Iris数据集进行整理的MATLAB程序如下。首先利用textscan()读取数据data为 1 * 5 cell 的元胞数组,每个元素是150*1 double 的数组,存储了一列上的所有数据。明显地,最后一个元素就是全部的标记数组,我们遍历这些标记并把带同一类标记的数据的索引记录下来。根据记录下的每类所有数据的索引便可取出每一类的数据并重新加上数字的标记。

    • textscan()也可以读取txt的文件数据,所以第6行的代码中的文件名同样可以是txt文件,如第5行代码所示。
    clear
    clc
    % 整理iris数据集
    
    % f=fopen('iris.txt');
    f=fopen('iris.data');% 打开文件
    data=textscan(f,'%f,%f,%f,%f,%s'); % 读取数据
    
    D=[];% D中存放属性值
    for i=1:length(data)-1
        D=[D data{1,i}];
    end
    fclose(f);
    
    
    lable=data{1,length(data)};
    n1=0;n2=0;n3=0;
    % 找到每类数据的索引
    for j=1:length(lable)
       if strcmp(lable{j,1},'Iris-setosa')
           n1=n1+1;
           index_1(n1)=j;% 记录下属于“Iris-setosa”类的索引
           
       elseif strcmp(lable{j,1},'Iris-versicolor')
           n2=n2+1;
           index_2(n2)=j;
           
       elseif strcmp(lable{j,1},'Iris-virginica')
           n3=n3+1;
           index_3(n3)=j;
           
       end
    end
    
    % 按照索引取出每类数据,重新组合
    class_1=D(index_1,:);
    class_2=D(index_2,:);
    class_3=D(index_3,:);
    Attributes=[class_1;class_2;class_3];
    
    I=[1*ones(n1,1);2*ones(n2,1);3*ones(n3,1)];
    Iris=[I Attributes];% 为各类添加数字标记
    
    
    save Iris.mat Iris % 保存.mat文件
    save Iris -ascii Iris; % 保存data文件
    
    
    f=fopen('iris1.txt','w');
    [m,n]=size(Iris);
    for i=1:m
        for j=1:n
            if j==n
                fprintf(f,'%g \n',Iris(i,j));
            else
                 fprintf(f,'%g,',Iris(i,j));
            end
        end
    end
    
    fclose(f);
    
    
    % save iris.txt -ascii Iris 
    % dlmwrite('iris.txt',Iris);
    

    经过代码1-42行的操作,原来带有的英文标记的数据便由相应的数字标记代替了并放在了第一列的位置上。这里原来标记为Iris-setosa的数据重新标记为1,Iris-versicolor标记为2,Iris-virginica标记为3。

    代码45行和46行分别将整理好的数据保存为.mat文件和.data文件;第49-61行是通过文件操作的方式利用循环逐行逐列将数据打印到txt文件中,每个数据中间由逗号分隔,每行5个数据打印完则回车至下一行。

    当然也可以采用64行或65行的方式保存txt文件,不过里面数据的格式稍有不同,读者可以自行尝试一下。整理前后的文件对比情况如下图所示。参照以上代码对于其他数据集的整理程序可在此之上根据实际需要稍作修改。

    4. 如何使用数据集文件

    整理好了数据文件,使用起来就比较简单了,其实前面的代码中已经读取过文件中的数据了。经过整理现在文件中的数据都是数字形式,在MATLAB中可以通过load( )函数直接读取了,如下代码

    iris_data=load('iris1.txt');
    lable_iris=iris_data(:,1);
    attributes_iris=iris_data(:,2:end);
    

    iris_data包含了标记和属性值的全部数据,lable_irisiris_data的第一列所有元素,即每个数据的标记,attributes_iris取自其后的所有列上的元素,即所有属性值的数组。具体的使用UCI数据集的机器学习算法实例可参考本人前面一篇博文Kmeans聚类算法详解,后面也会继续介绍。


    • 论文中经常出现的数据集本人已经按照以上方法整理完成,现将其一并分享给大家。整理好的数据集如下表所示,每个数据集文件都保存了.mat、.data、.txt三种文件格式方便大家选择下载,以下是下载链接

    【下载链接】

    下载链接1:论文中常见UCI数据集txt版
    下载链接2:论文中常见UCI数据集mat版
    下载链接3:论文中常见UCI数据集data版

    另外在整理过程中搜集了许多其他的UCI数据集,文件都是mat格式方便使用,下图是压缩包内的文件详情,有需要的可以下载,下载链接如下

    下载链接4:43个mat格式的UCI数据集

        同时本资源已上传至面包多网站,如果您没有积分或C币或者没有会员,可以点击以下链接获取。完整文件下载链接如下:

    下载链接:博主在面包多网站上的完整资源下载页

    公众号获取
        本人微信公众号已创建,扫描以下二维码并关注公众号“AI技术研究与分享”,后台回复“UC20180830”即可获取全部资源文件信息。


    5. 结束语

    由于博主能力有限,博文中提及的方法与代码即使经过测试,也难免会有疏漏之处。希望您能热心指出其中的错误,以便下次修改时能以一个更完美更严谨的样子,呈现在大家面前。同时如果有更好的实现方法也请您不吝赐教。

    展开全文
  • 数据集

    千次阅读 2017-09-25 15:49:56
    数据集

    原文链接:http://blog.csdn.net/qq_14845119/article/details/51913171

    ImageNet

             ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。是美国斯坦福的计算机科学家李飞飞模拟人类的识别系统建立的。能够从图片识别物体。目前已经包含14197122张图像,是已知的最大的图像数据库。每年的ImageNet大赛更是魂萦梦牵着国内外各个名校和大型IT公司以及网络巨头的心。图像如下图所示,需要注册ImageNet帐号才可以下载,下载链接为http://www.image-net.org/


    PASCAL VOC

             PASCALVOC 数据集是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。图像如下图所示,包含VOC2007430M),VOC20121.9G)两个下载版本。下载链接为http://pjreddie.com/projects/pascal-voc-dataset-mirror/



    Labelme

             Labelme是斯坦福一个学生的母亲利用休息时间帮儿子做的标注,后来便发展为一个数据集。该数据集的主要特点包括

    (1)专门为物体分类识别设计,而非仅仅是实例识别

    (2)专门为学习嵌入在一个场景中的对象而设计

    (3)高质量的像素级别标注,包括多边形框(polygons)和背景标注(segmentation masks)

    (4)物体类别多样性大,每种物体的差异性,多样性也大。

    (5)所有图像都是自己通过相机拍摄,而非copy

    (6)公开的,免费的

             图像如下图所示,需要通过matlab来下载,一种奇特的下载方式,下载链接为http://labelme2.csail.mit.edu/Release3.0/index.php

    COCO

           COCO是一种新的图像识别,分割和加字幕标注的数据集。主要由Tsung-Yi Lin(Cornell Tech),Genevieve Patterson (Brown),MatteoRuggero Ronchi (Caltech),Yin Cui (Cornell Tech),Michael Maire (TTI Chicago),Serge Belongie (Cornell Tech),Lubomir Bourdev (UC Berkeley),Ross Girshick (Facebook AI), James Hays (Georgia Tech),PietroPerona (Caltech),Deva Ramanan (CMU),Larry Zitnick (Facebook AI), Piotr Dollár (Facebook AI)等人收集而成。其主要特征如下

    (1)目标分割

    (2)通过上下文进行识别

    (3)每个图像包含多个目标对象

    (4)超过300000个图像

    (5)超过2000000个实例

    (6)80种对象

    (7)每个图像包含5个字幕

    (8)包含100000个人的关键点

             图像如下图所示,支持Matlab和Python两种下载方式,下载链接为http://mscoco.org/

    SUN

             SUN数据集包含131067个图像,由908个场景类别和4479个物体类别组成,其中背景标注的物体有313884个。图像如下图所示,下载链接为http://groups.csail.mit.edu/vision/SUN/

    Caltech

             Caltech是加州理工学院的图像数据库,包含Caltech101和Caltech256两个数据集。该数据集是由Fei-FeiLi, Marco Andreetto, Marc ‘Aurelio Ranzato在2003年9月收集而成的。Caltech101包含101种类别的物体,每种类别大约40到800个图像,大部分的类别有大约50个图像。Caltech256包含256种类别的物体,大约30607张图像。图像如下图所示,下载链接为http://www.vision.caltech.edu/Image_Datasets/Caltech101/

    Corel5k

             这是Corel5K图像集,共包含科雷尔(Corel)公司收集整理的5000幅图片,故名:Corel5K,可以用于科学图像实验:分类、检索等。Corel5k数据集是图像实验的事实标准数据集。请勿用于商业用途。私底下学习交流使用。Corel图像库涵盖多个主题,由若干个CD组成,每个CD包含100张大小相等的图像,可以转换成多种格式。每张CD代表一个语义主题,例如有公共汽车、恐龙、海滩等。Corel5k自从被提出用于图像标注实验后,已经成为图像实验的标准数据集,被广泛应用于标注算法性能的比较。Corel5k由50张CD组成,包含50个语义主题。

             Corel5k图像库通常被分成三个部分:4000张图像作为训练集,500张图像作为验证集用来估计模型参数,其余500张作为测试集评价算法性能。使用验证集寻找到最优模型参数后4000张训练集和500张验证集混合起来组成新的训练集。

             该图像库中的每张图片被标注1~5个标注词,训练集中总共有374个标注词,在测试集中总共使用了263个标注词。图像如下图所示,很遗憾本人也未找到官方下载路径,于是github上传了一份,下载链接为https://github.com/watersink/Corel5K


    CIFARCanada Institude For Advanced Research

          CIFAR是由加拿大先进技术研究院的AlexKrizhevsky, Vinod Nair和Geoffrey Hinton收集而成的80百万小图片数据集。包含CIFAR-10和CIFAR-100两个数据集。 Cifar-10由60000张32*32的RGB彩色图片构成,共10个分类。50000张训练,10000张测试(交叉验证)。这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类。CIFAR-100由60000张图像构成,包含100个类别,每个类别600张图像,其中500张用于训练,100张用于测试。其中这100个类别又组成了20个大的类别,每个图像包含小类别和大类别两个标签。官网提供了Matlab,C,python三个版本的数据格式。图像如下图所示,下载链接为http://www.cs.toronto.edu/~kriz/cifar.html


    人脸数据库:

    AFLWAnnotated Facial Landmarks in the Wild

           AFLW人脸数据库是一个包括多姿态、多视角的大规模人脸数据库,而且每个人脸都被标注了21个特征点。此数据库信息量非常大,包括了各种姿态、表情、光照、种族等因素影响的图片。AFLW人脸数据库大约包括25000万已手工标注的人脸图片,其中59%为女性,41%为男性,大部分的图片都是彩色,只有少部分是灰色图片。该数据库非常适合用于人脸识别、人脸测、人脸对齐等方面的究,具有很高的研究价值。图像如下图所示,需要申请帐号才可以下载,下载链接为http://lrs.icg.tugraz.at/research/aflw/

    LFWLabeled Faces in the Wild

           LFW是一个用于研究无约束的人脸识别的数据库。该数据集包含了从网络收集的13000张人脸图像,每张图像都以被拍摄的人名命名。其中,有1680个人有两个或两个以上不同的照片。这些数据集唯一的限制就是它们可以被经典的Viola-Jones检测器检测到(a hummor)。图像如下图所示,下载链接为http://vis-www.cs.umass.edu/lfw/index.html#download

    AFWAnnotated Faces in the Wild

           AFW数据集是使用Flickr(雅虎旗下图片分享网站)图像建立的人脸图像库,包含205个图像,其中有473个标记的人脸。对于每一个人脸都包含一个长方形边界框,6个地标和相关的姿势角度。数据库虽然不大,额外的好处是作者给出了其2012 CVPR的论文和程序以及训练好的模型。图像如下图所示,下载链接为http://www.ics.uci.edu/~xzhu/face/


    FDDBFace Detection Data Set and Benchmark

           FDDB数据集主要用于约束人脸检测研究,该数据集选取野外环境中拍摄的2845个图像,从中选择5171个人脸图像。是一个被广泛使用的权威的人脸检测平台。图像如下图所示,下载链接为http://vis-www.cs.umass.edu/fddb/

    WIDER FACE

       WIDER FACE是香港中文大学的一个提供更广泛人脸数据的人脸检测基准数据集,由YangShuo, Luo Ping ,Loy ,Chen Change ,Tang Xiaoou收集。它包含32203个图像和393703个人脸图像,在尺度,姿势,闭塞,表达,装扮,关照等方面表现出了大的变化。WIDER FACE是基于61个事件类别组织的,对于每一个事件类别,选取其中的40%作为训练集,10%用于交叉验证(cross validation),50%作为测试集。和PASCAL VOC数据集一样,该数据集也采用相同的指标。和MALF和Caltech数据集一样,对于测试图像并没有提供相应的背景边界框。图像如下图所示,下载链接为http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/

    CMU-MIT

         CMU-MIT是由卡内基梅隆大学和麻省理工学院一起收集的数据集,所有图片都是黑白的gif格式。里面包含511个闭合的人脸图像,其中130个是正面的人脸图像。图像如下图所示,没有找到官方链接,Github下载链接为https://github.com/watersink/CMU-MIT

    GENKI

             GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像,GENKI-4K包含4000个图像,分为“笑”和“不笑”两种,每个图片的人脸的尺度大小,姿势,光照变化,头的转动等都不一样,专门用于做笑脸识别。GENKI-SZSL包含3500个图像,这些图像包括广泛的背景,光照条件,地理位置,个人身份和种族等。图像如下图所示,下载链接为http://mplab.ucsd.edu,如果进不去可以,同样可以去下面的github下载,链接https://github.com/watersink/GENKI

    IJB-A (IARPA JanusBenchmark A)

           IJB-A是一个用于人脸检测和识别的数据库,包含24327个图像和49759个人脸。图像如下图所示,需要邮箱申请相应帐号才可以下载,下载链接为http://www.nist.gov/itl/iad/ig/ijba_request.cfm

    MALF (Multi-Attribute Labelled Faces)

           MALF是为了细粒度的评估野外环境中人脸检测模型而设计的数据库。数据主要来源于Internet,包含5250个图像,11931个人脸。每一幅图像包含正方形边界框,俯仰、蜷缩等姿势等。该数据集忽略了小于20*20的人脸,大约838个人脸,占该数据集的7%。同时,该数据集还提供了性别,是否带眼镜,是否遮挡,是否是夸张的表情等信息。图像如下图所示,需要申请才可以得到官方的下载链接,链接为http://www.cbsr.ia.ac.cn/faceevaluation/

    MegaFace

        MegaFace资料集包含一百万张图片,代表690000个独特的人。所有数据都是华盛顿大学从Flickr(雅虎旗下图片分享网站)组织收集的。这是第一个在一百万规模级别的面部识别算法测试基准。 现有脸部识别系统仍难以准确识别超过百万的数据量。为了比较现有公开脸部识别算法的准确度,华盛顿大学在去年年底开展了一个名为“MegaFace Challenge”的公开竞赛。这个项目旨在研究当数据库规模提升数个量级时,现有的脸部识别系统能否维持可靠的准确率。图像如下图所示,需要邮箱申请才可以下载,下载链接为http://megaface.cs.washington.edu/dataset/download.html

    300W

           300W数据集是由AFLW,AFW,Helen,IBUG,LFPW,LFW等数据集组成的数据库。图像如下图所示,需要邮箱申请才可以下载,下载链接为http://ibug.doc.ic.ac.uk/resources/300-W/

    IMM Data Sets

           IMM人脸数据库包括了240张人脸图片和240asf格式文件(可以用UltraEdit打开,记录了58个点的地标),共40个人(733男),每人6张人脸图片,每张人脸图片被标记了58个特征点。所有人都未戴眼镜,图像如下图所示,下载链接为http://www2.imm.dtu.dk/~aam/datasets/datasets.html

    MUCT Data Sets

             MUCT人脸数据库由3755个人脸图像组成,每个人脸图像有76个点的地标(landmark),图片为jpg格式,地标文件包含csv,rda,shape三种格式。该图像库在种族、关照、年龄等方面表现出更大的多样性。具体图像如下图所示,下载链接为http://www.milbo.org/muct/

    ORL  (AT&T Dataset)

             ORL数据集是剑桥大学AT&T实验室收集的一个人脸数据集。包含了从1992.4到1994.4该实验室的成员。该数据集中图像分为40个不同的主题,每个主题包含10幅图像。对于其中的某些主题,图像是在不同的时间拍摄的。在关照,面部表情(张开眼睛,闭合眼睛,笑,非笑),面部细节(眼镜)等方面都变现出了差异性。所有图像都是以黑色均匀背景,并且从正面向上方向拍摄。

             其中图片都是PGM格式,图像大小为92*102,包含256个灰色通道。具体图像如下图所示,下载链接为http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html


    行人检测数据库

    INRIA Person Dataset

             Inria数据集是最常使用的行人检测数据集。其中正样本(行人)为png格式,负样本为jpg格式。里面的图片分为只有车,只有人,有车有人,无车无人四个类别。图片像素为70*134,96*160,64*128等。具体图像如下图所示,下载链接为http://pascal.inrialpes.fr/data/human/

    CaltechPedestrian Detection Benchmark

             加州理工学院的步行数据集包含大约包含10个小时640x480 30Hz的视频。其主要是在一个在行驶在乡村街道的小车上拍摄。视频大约250000帧(在137个约分钟的长段),共有350000个边界框和2300个独特的行人进行了注释。注释包括包围盒和详细的闭塞标签之间的时间对应关系。更多信息可在其PAMI 2012 CVPR 2009标杆的论文获得。具体图像如下图所示,下载链接为http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/


    MIT cbcl (center for biological and computational learning)Pedestrian Data 

             该数据集主要包含2个部分,一部分为128*64的包含924个图片的ppm格式的图片,另一部分为从打图中分别切割而出的小图,主要包含胳膊,脑袋,脚,腿,头肩,身体等。具体图像如下图所示,下载链接为http://cbcl.mit.edu/software-datasets/PedestrianData.html,需要翻墙才可以。

    年龄,性别数据库

    Adience

             该数据集来源为Flickr相册,由用户使用iPhone5或者其它智能手机设备拍摄,同时具有相应的公众许可。该数据集主要用于进行年龄和性别的未经过滤的面孔估计。同时,里面还进行了相应的landmark的标注。是做性别年龄估计和人脸对齐的一个数据集。图片包含2284个类别和26580张图片。具体图像如下图所示,下载链接为http://www.openu.ac.il/home/hassner/Adience/data.html#agegender

    车辆数据库

    KITTIKarlsruhe Institute ofTechnology and Toyota Technological Institute

             KITTI包含7481个训练图片和7518个测试图片。所有图片都是真彩色png格式。该数据集中标注了车辆的类型,是否截断,遮挡情况,角度值,2维和3维box框,位置,旋转角度,分数等重要的信息,绝对是做车载导航的不可多得的数据集。具体图像如下图所示,下载链接为http://www.cvlibs.net/datasets/kitti/

    字符数据库

    MNISTMixed National Instituteof Standards and Technology

             MNIST是一个大型的手写数字数据库,广泛用于机器学习领域的训练和测试,由纽约大学的Yann LeCun整理。MNIST包含60000个训练集,10000个测试集,每张图都进行了尺度归一化和数字居中处理,固定尺寸大小为28*28。具体图像如下图所示,下载链接为http://yann.lecun.com/exdb/mnist/





    展开全文
  • Dataset之COCO数据集:COCO数据集的简介、安装、使用方法之详细攻略 目录 COCO数据集的简介 0、COCO数据集的80个类别—YoloV3算法采用的数据集 1、COCO数据集的意义 2、COCO数据集的特点 3、数据集的...

    Dataset之COCO数据集:COCO数据集的简介、安装、使用方法之详细攻略

     

     

     

    目录

    COCO数据集的简介

    0、COCO数据集的80个类别—YoloV3算法采用的数据集

    1、COCO数据集的意义

    2、COCO数据集的特点

    3、数据集的大小和版本

    COCO数据集的下载

    1、2014年数据集的下载

    2、2017的数据集的下载

    COCO数据集的使用方法

    1、基础用法


     

     

     

     

     

    COCO数据集的简介

            MS COCO的全称是Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集,与ImageNet竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。 
            COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80 类,有超过33 万张图片,其中20 万张有标注,整个数据集中个体的数目超过150 万个。

     

    官网地址http://cocodataset.org

     

    0、COCO数据集的80个类别—YoloV3算法采用的数据集

    person(人)  
    bicycle(自行车)  car(汽车)  motorbike(摩托车)  aeroplane(飞机)  bus(公共汽车)  train(火车)  truck(卡车)  boat(船)  
    traffic light(信号灯)  fire hydrant(消防栓)  stop sign(停车标志)  parking meter(停车计费器)  bench(长凳)  
    bird(鸟)  cat(猫)  dog(狗)  horse(马)  sheep(羊)  cow(牛)  elephant(大象)  bear(熊)  zebra(斑马)  giraffe(长颈鹿)  
    backpack(背包)  umbrella(雨伞)  handbag(手提包)  tie(领带)  suitcase(手提箱)  
    frisbee(飞盘)  skis(滑雪板双脚)  snowboard(滑雪板)  sports ball(运动球)  kite(风筝) baseball bat(棒球棒)  baseball glove(棒球手套)  skateboard(滑板)  surfboard(冲浪板)  tennis racket(网球拍)  
    bottle(瓶子)  wine glass(高脚杯)  cup(茶杯)  fork(叉子)  knife(刀)
    spoon(勺子)  bowl(碗)  
    banana(香蕉)  apple(苹果)  sandwich(三明治)  orange(橘子)  broccoli(西兰花)  carrot(胡萝卜)  hot dog(热狗)  pizza(披萨)  donut(甜甜圈)  cake(蛋糕)
    chair(椅子)  sofa(沙发)  pottedplant(盆栽植物)  bed(床)  diningtable(餐桌)  toilet(厕所)  tvmonitor(电视机)  
    laptop(笔记本)  mouse(鼠标)  remote(遥控器)  keyboard(键盘)  cell phone(电话)  
    microwave(微波炉)  oven(烤箱)  toaster(烤面包器)  sink(水槽)  refrigerator(冰箱)
    book(书)  clock(闹钟)  vase(花瓶)  scissors(剪刀)  teddy bear(泰迪熊)  hair drier(吹风机)  toothbrush(牙刷)

     

     

     

     

    1、COCO数据集的意义

            MS COCO的全称是Microsoft Common Objects in Context,起源于是微软于2014年出资标注的Microsoft COCO数据集,与ImageNet 竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。
            当在ImageNet竞赛停办后,COCO竞赛就成为是当前目标识别、检测等领域的一个最权威、最重要的标杆,也是目前该领域在国际上唯一能汇集Google、微软、Facebook以及国内外众多顶尖院校和优秀创新企业共同参与的大赛。 
            该数据集主要解决3个问题:目标检测,目标之间的上下文关系,目标的2维上的精确定位。COCO数据集有91类,虽然比ImageNet和SUN类别少,但是每一类的图像多,这有利于获得更多的每类中位于某种特定场景的能力,对比PASCAL VOC,其有更多类和图像。

    1、COCO目标检测挑战 

    • COCO数据集包含20万个图像;
    • 80个类别中有超过50万个目标标注,它是最广泛公开的目标检测数据库;
    • 平均每个图像的目标数为7.2,这些是目标检测挑战的著名数据集。
       

     

     

     

     

    2、COCO数据集的特点

    COCO is a large-scale object detection, segmentation, and captioning dataset. COCO has several features:

    • Object segmentation
    • Recognition in context
    • Superpixel stuff segmentation
    • 330K images (>200K labeled)
    • 1.5 million object instances
    • 80 object categories
    • 91 stuff categories
    • 5 captions per image
    • 250,000 people with keypoints
    1. 对象分割;
    2. 在上下文中可识别;
    3. 超像素分割;
    4. 330K图像(> 200K标记);
    5. 150万个对象实例;
    6. 80个对象类别;
    7.  91个类别;
    8. 每张图片5个字幕;
    9. 有关键点的250,000人;

     

    3、数据集的大小和版本

    大小:25 GB(压缩)
    记录数量: 330K图像、80个对象类别、每幅图像有5个标签、25万个关键点。
             COCO数据集分两部分发布,前部分于2014年发布,后部分于2015年,2014年版本:82,783 training, 40,504 validation, and 40,775 testing images,有270k的segmented people和886k的segmented object;2015年版本:165,482 train, 81,208 val, and 81,434 test images。
    (1)、2014年版本的数据,一共有20G左右的图片和500M左右的标签文件。标签文件标记了每个segmentation的像素精确位置+bounding box的精确坐标,其精度均为小数点后两位。

     

     

     

    COCO数据集的下载

    数据集下载地址

    1、2014年数据集的下载

    http://msvocds.blob.core.windows.net/coco2014/train2014.zip

     

    2、2017的数据集的下载

    http://images.cocodataset.org/zips/train2017.zip
    http://images.cocodataset.org/annotations/annotations_trainval2017.zip

    http://images.cocodataset.org/zips/val2017.zip
    http://images.cocodataset.org/annotations/stuff_annotations_trainval2017.zip

    http://images.cocodataset.org/zips/test2017.zip
    http://images.cocodataset.org/annotations/image_info_test2017.zip

     

     

    COCO数据集的使用方法

    1、基础用法

    (1)、Download Images and Annotations from [MSCOCO] 后期更新……
    (2)、Get the coco code 后期更新……
    (3)、Build the coco code 后期更新……
    (4)、Split the annotation to many files per image and get the image size info 后期更新……
    (5)、 Create the LMDB file 后期更新……

     

     

     

     

    展开全文
  • 摘要:本文对机器学习中的UCI数据集进行介绍,带你从UCI数据集官网出发一步步深入认识数据集,并就下载的原始数据详细讲解了不同类型的数据集整理如何通过程序进行整理。为了方便使用,博文中附上了包括数据集整理及...
  • libsvm 程序集数据集

    千次下载 热门讨论 2012-04-11 07:58:23
    libsvm 数据集 包括 matlab数据集 和 VC数据集
  • Pascal Voc数据集详细分析

    万次阅读 多人点赞 2018-04-24 13:58:29
    也许很少用到整个数据集,但是一般都会按照它的格式准备自己的数据集。所以这里就来详细的记录一下PASCAL VOC的格式,包括目录构成以及各个文件夹的内容格式,方便以后自己按照VOC的标准格式制作自己的数据集。 ...
  • YoLov3训练自己的数据集(小白手册)

    万次阅读 多人点赞 2018-08-02 11:00:12
    1.标注自己的数据集。用labelimg进行标注,保存后会生成与所标注图片文件名相同的xml文件,如图。我们标注的是各种表,名称就简单的按外观大小分了s、m、l、xl、xxl共5类标签名 2.下载yolov3项目工程。按照YoLo官网...
  • 模仿mnist数据集制作自己的数据集

    万次阅读 多人点赞 2017-08-05 20:18:28
    模仿mnist数据集制作自己的数据集 最近看深度学习,用TensorFlow跑教程里的模型,发现教程里大多都是用mnist和cifar这两个数据集来演示的。想测试自己的数据集看看初步效果,于是就想套用现有的模型,将自己的数据集...
  • 用pytorch导入MNIST数据集,然后手写BP神经网络实现对数据集的识别预测。
  • 本篇博客主要是对SVM系列学习的一个实践。手写SVM来简单地对指定数据集进行分类预测。
  • 文章目录交通标志、信号灯相关的数据集1. 国内数据集1. Chinese Traffic Sign Database (好像是长沙理工大学的)2. Tsinghua-Tencent 100K Tutorial(信号标志,没有灯的)3. 一个游戏中的交通标志数据集;4. 滴滴...
  • 【SSD目标检测】3:训练自己的数据集

    万次阅读 多人点赞 2018-07-20 14:22:34
    我也不过是站在前辈的肩膀上,这一章就是讲解如何训练自己的数据集,让SSD框架识别。源码也无偿奉上了哦! –—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-—-—-—-—-—-—-—-—-—-...
  • 文章目录行为分析数据集:疲劳驾驶数据集异常行为监控数据集三维卷积特征提取器:100G异常行为数据集送上:异常行为数据集(图像)公众号来袭 行为分析数据集: oops数据集,近21000个视频的异常行为视频帧,截取...
  • 常用公共数据集

    万次阅读 多人点赞 2018-06-12 16:45:23
    希望对大家有帮助)按主题索引行动数据库属性识别自主驾驶生物/医药相机校准脸和眼/虹膜数据库指纹一般图像一般RGBD和深度数据集一般视频手,掌握,手动和手势数据库图像,视频和形状数据库检索对象数据库人(静),...
  • 详解 MNIST 数据集

    万次阅读 多人点赞 2017-07-17 20:41:35
    MNIST 数据集已经是一个被”嚼烂”了的数据集, 很多教程都会对它”下手”, 几乎成为一个 “典范”. 不过有些人可能对它还不是很了解, 下面来介绍一下.MNIST 数据集可在 http://yann.lecun.com/exdb/mnist/ 获取, 它...
  • 完整实现利用tensorflow训练自己的图片数据集

    万次阅读 多人点赞 2018-07-22 17:04:21
    经过差不多一个礼拜的时间的学习,终于把完整的一个利用自己爬取的图片做训练数据集的卷积神经网络的实现(基于tensorflow) 目录 总体思路 第三部分:预处理 第四部分:网络模型 第五部分:训练 2019.4.22...
  • ImageNet图像数据集介绍

    万次阅读 多人点赞 2019-03-16 21:50:13
    ImageNet图像数据集始于2009年,当时李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,之后就是基于ImageNet数据集的7届ImageNet挑战赛(2010年开始),2017年...
  • 机器学习案例——鸢尾花数据集分析

    万次阅读 多人点赞 2018-05-23 21:22:15
        前几天把python基础知识过了一遍,拿了这个小例子作为练手项目,这个案例也有师兄的帮助,记录完,发现代码贴的很多,文章有点长,为了节省篇幅,有一些说明就去掉了,毕竟鸢尾花数据集比较经典,网上能找到...
  • Mask R-CNN开源项目的设计非常易于扩展,只需做简单的修改就可以训练自己的数据集。 一、标注数据 这里我只是简单从ImageNet2012数据集中选取了两类图像:猫和狗,每一类各五十幅图像,作为训练集。再各另取二十副...
  • Iris数据集免费下载

    万次阅读 多人点赞 2018-07-18 20:00:51
    CSDN下载的iris数据集都需要积分和币,这里我提供百度云链接免费下载 链接:https://pan.baidu.com/s/1ReA5RjAUvph0BYyYIHBlYg 提取码:2grr 恳请下载好的小伙伴点赞留言,蟹蟹 更多AI资源请关注公众号:大胡子的...
  • Mnist数据集和Usps数据集

    千次阅读 2019-07-26 20:23:20
    1. 最近做实验,用到迁移的数据,无奈数据量太少,于是使用公共数据集Mnist和Usps数据集进行对比实验。 数据介绍: Mnist数据集:每张图是28 * 28的大小,同时一共70000万张图片,一共是10类手写数字 Usps数据集...
  • 数据集:Pascal VOC 2007数据集分析

    万次阅读 2017-10-24 16:04:30
    faster-rcnn,yolo -v1, yolo-v2都以此数据集为最为演示样例,因此,有必要了解一下本数据集的组成架构。 VOC数据集共包含:训练集(5011幅),测试集(4952幅),共计9963幅图,共包含20个种类。 aeroplane ...
  • KDD CUP99数据集预处理(Python实现)

    万次阅读 多人点赞 2018-05-29 08:41:30
    KDD CUP99数据集预处理 1、数据集下载 2、KDD99网络入侵检测数据集介绍 3、基于KDD99数据集的入侵检测分析 4、符号型特征数值化 5、KDD CUP99数据集预处理(Python实现) KDD CUP99数据集预处理 1、数据集...
  • 数据集:KITTI数据集分析

    千次阅读 2017-11-03 10:34:17
    The KITTI Vision Benchmark Suite和Vision meets Robotics: The KITTI Dataset两篇论文的内容,主要介绍KITTI数据集概述,数据采集平台,数据集详细描述,评价准则以及具体使用案例。本文对KITTI数据集提供一个...
  • YOLOV5测试及训练自己的数据集

    万次阅读 多人点赞 2020-06-17 17:33:30
    YOLOV5项目复现 一、YOLOv5 实现检测 1.1 下载源码 1.2 下载官方模型(.pt文件) 1.3 配置虚拟环境 1.4 进行测试 二、YOLOV5 实现训练 2.1 首先是准备数据集 2.2 文件修改 2.2.1 修改数据集方面的yaml文件 2.2.2 修改...
  • 本文为KITTI笔记记录,参考链接附在文中 目录 KITTI简介 1.KITTI数据集概述 2.数据采集平台 下载地址 ...1.KITTI数据集概述 ... KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 311,669
精华内容 124,667
关键字:

数据集