精华内容
下载资源
问答
  • UCI数据集整理(附论文常用数据集)

    万次阅读 多人点赞 2018-08-30 18:02:32
    摘要:UCI数据集作为标准测试数据集经常出现在许多机器学习的论文中,为了更方便使用这些数据集有必要对其进行整理,这里整理了论文中经常出现的数据集,并详细介绍如何使用MATLAB将数据集文件整理成自己需要的格式...

    摘要:UCI数据集作为标准测试数据集经常出现在许多机器学习的论文中,为了更方便使用这些数据集有必要对其进行整理,这里整理了论文中经常出现的数据集,并详细介绍如何使用MATLAB将数据集文件整理成自己需要的格式以及如何使用数据集文件。要点如下,博主另一篇博文UCI数据集详解及其数据处理(附148个数据集及处理代码)有更加详细的介绍。

    点击跳转至UCI数据集下载页

    下载链接:博主在面包多网站上的完整资源下载页


    1. 前言

    UCI数据集是一个常用的机器学习标准测试数据集,是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库。机器学习算法的测试大多采用的便是UCI数据集了,其重要之处在于“标准”二字,新编的机器学习程序可以采用UCI数据集进行测试,类似的机器学习算法也可以一较高下。其官网地址如下:
    website: UCI Machine Learning Repository

    尽管从UCI数据集官网可以很容易找到许多想要的数据集,但要将其提供给自己的程序使用还需要了解数据的详细信息。UCI数据集中并非所有数据集都是以相同格式存于文件中的,读取和使用文件方式不一,因此有必要对数据文件稍作整理,特此总结。


    2. UCI数据集介绍

    2.1 简要认识

    要使用数据集中的数据首先需要分清标记和属性值。如点击进入数据集官网:UCI数据集官网选取数据集Iris

    该数据集详情页面如下,从表中数据显示该数据集的数据量为150,属性数为4

    而再往下的Data Set information 中则介绍了该数据集的详细信息,下面的Attribute Information(属性信息)是我们需要关注的,如下图

    其中1-4分别说明了四个属性所代表的实际意义,而5则说明了该数据集分为三类:Iris Setosa、Iris VersicolourIris Virginica。认识到这些,再去看具体的Iris文件中的数据便清楚明了了,点击标题Iris Data Set下方的Data Folder进入文件位置页面,选择iris.data(该文件为Iris数据集数据存放文件)

    进入到数据详情页面,如下图。可以看到文本的排列:每行5个数以逗号分隔,共150行,每行的前4列(红框内的数)分别对应4个属性值,而最后一列(绿色框内)为每个数据所属类别(或称标记)。当前看到的都是“Iris-setosa”一类的数据,往下翻则可看到”Iris-versicolour“和”Iris-virginica

    • 其他的数据集的情况与iris相似,而各个数据集属性数或类别数各有差异。值得注意的是,有些数据集每行数据中间的分隔符并非都是“ ,”(逗号),还有可能是“ ”(空格);有些数据集的标记可能是用数字表示的,如1,2,… 其位置也可能出现在第1列(也可能文件中未给出标记,需自行加上);还有的可能属性值都是英文字符,分别如下所示的wine数据集heart-disease数据集adult数据集。要想以统一的程序使用这样内部格式不一的数据集,就需要在程序使用前根据实际情况对数据集进行调整了。
      总之,各数据集可能各有差异,按照上面的步骤了解了各自的注释信息,找到属性数、分类数、标记等重要信息使用起来便顺利得多。

    2.2 下载数据

    要保存网站上的数据文件,可以进入某个数据集的文件位置页面,如Iris文件位置,选择“iris.data”,右键,链接另存为,即可下载该数据集文件。如下所示,当前保存的文件格式为“.data”文件。

    • 如若想保存文本文件(.txt),可先自行新建一个文本文件,直接点击iris.data进入数据详情页面,直接全选所有数据将数据粘贴到自己新建的文本文件中。至于其他文件格式如.mat,.xls则可借助MATLAB先读取文件数据然后转存为其他格式,在后面章节也会介绍。

    3. 用程序整理数据集

    本节介绍如何使用MATLAB对数据集进行整理,下面以对Iris数据集的整理为例介绍。

    首先从官网下载数据集,例如前面下载的iris.data或者自行复制的txt文件(自命名iris.txt),在文件所在文件夹新建一个.m文件。整理程序的功能是读取原文件数据将最后一列的英文标记按每类改为1-3的数字并将标记放在第一列,重新存储到新的txt文件,顺便另存为.mat以及.xls文件。

    从前面可知,iris文件的最后列为英文字母,如果直接采用MATLABload( )函数将导致最后一列文本未知错误,所以这里采用textscan( )函数。textscan( )函数调用方式如下

    textscan( ): 读取任意格式的文本文件。通过此函数,能够以一次读取一个块的方式读取文件,并且每个块可以具有不同的格式。
    使用方法:首先打开文本文件以进行读取,fopen 返回文件标识符。
    fileID = fopen('test80211.txt','r');
    读取 4 个简介行,这些行是由换行符分隔的字符串。
    Intro = textscan(fileID,'%s',4,'Delimiter','\n')
    Intro = 1x1 cell array{4x1 cell} textscan 返回一个 1x1 元胞数组,其中包含由字符串组成的一个 4×1 元胞数组。
    然后读取每个块的内容即可取出数据了,最后关闭文件。
    fclose(fileID);
    —— 引自 《MATLAB中文文档》

    Iris数据集进行整理的MATLAB程序如下。首先利用textscan()读取数据data为 1 * 5 cell 的元胞数组,每个元素是150*1 double 的数组,存储了一列上的所有数据。明显地,最后一个元素就是全部的标记数组,我们遍历这些标记并把带同一类标记的数据的索引记录下来。根据记录下的每类所有数据的索引便可取出每一类的数据并重新加上数字的标记。

    • textscan()也可以读取txt的文件数据,所以第6行的代码中的文件名同样可以是txt文件,如第5行代码所示。
    clear
    clc
    % 整理iris数据集
    
    % f=fopen('iris.txt');
    f=fopen('iris.data');% 打开文件
    data=textscan(f,'%f,%f,%f,%f,%s'); % 读取数据
    
    D=[];% D中存放属性值
    for i=1:length(data)-1
        D=[D data{1,i}];
    end
    fclose(f);
    
    
    lable=data{1,length(data)};
    n1=0;n2=0;n3=0;
    % 找到每类数据的索引
    for j=1:length(lable)
       if strcmp(lable{j,1},'Iris-setosa')
           n1=n1+1;
           index_1(n1)=j;% 记录下属于“Iris-setosa”类的索引
           
       elseif strcmp(lable{j,1},'Iris-versicolor')
           n2=n2+1;
           index_2(n2)=j;
           
       elseif strcmp(lable{j,1},'Iris-virginica')
           n3=n3+1;
           index_3(n3)=j;
           
       end
    end
    
    % 按照索引取出每类数据,重新组合
    class_1=D(index_1,:);
    class_2=D(index_2,:);
    class_3=D(index_3,:);
    Attributes=[class_1;class_2;class_3];
    
    I=[1*ones(n1,1);2*ones(n2,1);3*ones(n3,1)];
    Iris=[I Attributes];% 为各类添加数字标记
    
    
    save Iris.mat Iris % 保存.mat文件
    save Iris -ascii Iris; % 保存data文件
    
    
    f=fopen('iris1.txt','w');
    [m,n]=size(Iris);
    for i=1:m
        for j=1:n
            if j==n
                fprintf(f,'%g \n',Iris(i,j));
            else
                 fprintf(f,'%g,',Iris(i,j));
            end
        end
    end
    
    fclose(f);
    
    
    % save iris.txt -ascii Iris 
    % dlmwrite('iris.txt',Iris);
    

    经过代码1-42行的操作,原来带有的英文标记的数据便由相应的数字标记代替了并放在了第一列的位置上。这里原来标记为Iris-setosa的数据重新标记为1,Iris-versicolor标记为2,Iris-virginica标记为3。

    代码45行和46行分别将整理好的数据保存为.mat文件和.data文件;第49-61行是通过文件操作的方式利用循环逐行逐列将数据打印到txt文件中,每个数据中间由逗号分隔,每行5个数据打印完则回车至下一行。

    当然也可以采用64行或65行的方式保存txt文件,不过里面数据的格式稍有不同,读者可以自行尝试一下。整理前后的文件对比情况如下图所示。参照以上代码对于其他数据集的整理程序可在此之上根据实际需要稍作修改。

    4. 如何使用数据集文件

    整理好了数据文件,使用起来就比较简单了,其实前面的代码中已经读取过文件中的数据了。经过整理现在文件中的数据都是数字形式,在MATLAB中可以通过load( )函数直接读取了,如下代码

    iris_data=load('iris1.txt');
    lable_iris=iris_data(:,1);
    attributes_iris=iris_data(:,2:end);
    

    iris_data包含了标记和属性值的全部数据,lable_irisiris_data的第一列所有元素,即每个数据的标记,attributes_iris取自其后的所有列上的元素,即所有属性值的数组。具体的使用UCI数据集的机器学习算法实例可参考本人前面一篇博文Kmeans聚类算法详解,后面也会继续介绍。


    • 论文中经常出现的数据集本人已经按照以上方法整理完成,现将其一并分享给大家。整理好的数据集如下表所示,每个数据集文件都保存了.mat、.data、.txt三种文件格式方便大家选择下载,以下是下载链接

    【下载链接】

    下载链接1:论文中常见UCI数据集txt版
    下载链接2:论文中常见UCI数据集mat版
    下载链接3:论文中常见UCI数据集data版

    另外在整理过程中搜集了许多其他的UCI数据集,文件都是mat格式方便使用,下图是压缩包内的文件详情,有需要的可以下载,下载链接如下

    下载链接4:43个mat格式的UCI数据集

        同时本资源已上传至面包多网站,如果您没有积分或C币或者没有会员,可以点击以下链接获取。完整文件下载链接如下:

    下载链接:博主在面包多网站上的完整资源下载页

    公众号获取
        本人微信公众号已创建,扫描以下二维码并关注公众号“AI技术研究与分享”,后台回复“UC20180830”即可获取全部资源文件信息。


    5. 结束语

    由于博主能力有限,博文中提及的方法与代码即使经过测试,也难免会有疏漏之处。希望您能热心指出其中的错误,以便下次修改时能以一个更完美更严谨的样子,呈现在大家面前。同时如果有更好的实现方法也请您不吝赐教。

    展开全文
  • 数据集整理

    千次阅读 2018-11-04 17:48:54
    数据集整理 1.data.gov ( https://www.data.gov/ ) 这是美国政府公开数据的所在地,该站点包含了超过19万的数据点。这些数据集不同于气候、教育、能源、金融和更多领域的数据。 640?wx_fmt=jpeg&wxfrom=5&...
    数据集整理

    1.data.gov

    ( https://www.data.gov/ )

    这是美国政府公开数据的所在地,该站点包含了超过19万的数据点。这些数据集不同于气候、教育、能源、金融和更多领域的数据。

    640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

    2.data.gov.in

    ( https://data.gov.in/ )

    这是印度政府公开数据的所在地,通过各种行业、气候、医疗保健等来寻找数据,你可以在这里找到一些灵感。根据你居住的国家的不同,你也可以从其他一些网站上浏览类似的网站。

    3.World Bank

    ( http://data.worldbank.org/ )

    世界银行的开放数据。该平台提供 Open Data Catalog,世界发展指数,教育指数等几个工具。

    4.RBI

    (https://rbi.org.in/Scripts/Statistics.aspx)

    印度储备银行提供的数据。这包括了货币市场操作、收支平衡、银行使用和一些产品的几个指标。

    5.Five Thirty Eight Datasets

    (https://github.com/fivethirtyeight/data)

    Five Thirty Eight,亦称作 538,专注与民意调查分析,政治,经济与体育的博客。该数据集为 Five Thirty Eight Datasets 使用的数据集。每个数据集包括数据,解释数据的字典和Five Thirty Eight 文章的链接。如果你想学习如何创建数据故事,没有比这个更好。

    三.大型数据集

    1.Amazon Web Services(AWS)datasets

    (https://aws.amazon.com/cn/datasets/)

    Amazon提供了一些大数据集,可以在他们的平台上使用,也可以在本地计算机上使用。您还可以通过EMR使用EC2和Hadoop来分析云中的数据。在亚马逊上流行的数据集包括完整的安然电子邮件数据集,Google Books n-gram,NASA NEX 数据集,百万歌曲数据集等。

    640?wx_fmt=png

    2.Google datasets

    ( https://cloud.google.com/bigquery/public-data/ )

    Google 提供了一些数据集作为其 Big Query 工具的一部分。包括 GitHub 公共资料库的数据,Hacker News 的所有故事和评论。

    3.Youtube labeled Video Dataset

    ( https://research.google.com/youtube8m/ )

    几个月前,谷歌研究小组发布了YouTube上的“数据集”,它由800万个YouTube视频id和4800个视觉实体的相关标签组成。它来自数十亿帧的预先计算的,最先进的视觉特征。

    640?wx_fmt=png

    四.预测建模与机器学习数据集

    1.UCI Machine Learning Repository

    ( https://archive.ics.uci.edu/ml/datasets.html )

    UCI机器学习库显然是最著名的数据存储库。如果您正在寻找与机器学习存储库相关的数据集,通常是首选的地方。这些数据集包括了各种各样的数据集,从像Iris和泰坦尼克这样的流行数据集到最近的贡献,比如空气质量和GPS轨迹。存储库包含超过350个与域名类似的数据集(分类/回归)。您可以使用这些过滤器来确定您需要的数据集。

    640?wx_fmt=png

    2.Kaggle

    ( https://www.kaggle.com/datasets )

    Kaggle提出了一个平台,人们可以贡献数据集,其他社区成员可以投票并运行内核/脚本。他们总共有超过350个数据集——有超过200个特征数据集。虽然一些最初的数据集通常出现在其他地方,但我在平台上看到了一些有趣的数据集,而不是在其他地方出现。与新的数据集一起,界面的另一个好处是,您可以在相同的界面上看到来自社区成员的脚本和问题。

    640?wx_fmt=png

    3.Analytics Vidhya

    (https://datahack.analyticsvidhya.com/contest/all/ )

    您可以从我们的实践问题和黑客马拉松问题中参与和下载数据集。问题数据集基于真实的行业问题,并且相对较小,因为它们意味着2 - 7天的黑客马拉松。

    640?wx_fmt=png

    4.Quandl

    ( https://www.quandl.com/ )

    Quandl 通过起网站、API 或一些工具的直接集成提供了不同来源的财务、经济和替代数据。他们的数据集分为开放和付费。所有开放数据集为免费,但高级数据集需要付费。通过搜索仍然可以在平台上找到优质数据集。例如,来自印度的证券交易所数据是免费的。

    640?wx_fmt=png

    5.Past KDD Cups

    ( http://www.kdd.org/kdd-cup )

    KDD Cup 是 ACM Special Interest Group 组织的年度数据挖掘和知识发现竞赛。

    6.Driven Data

    ( https://www.drivendata.org/ )

    Driven Data 发现运用数据科学带来积极社会影响的现实问题。然后,他们为数据科学家组织在线模拟竞赛,从而开发出最好的模型来解决这些问题。

    五.图像分类数据集

    1.The MNIST Database

    ( http://yann.lecun.com/exdb/mnist/ )

    最流行的图像识别数据集,使用手写数字。它包括6万个示例和1万个示例的测试集。这通常是第一个进行图像识别的数据集。

    2.Chars74K

    (http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )

    这里是下一阶段的进化,如果你已经通过了手写的数字。该数据集包括自然图像中的字符识别。数据集包含74,000个图像,因此数据集的名称。

    3.Frontal Face Images

    (http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )

    如果你已经完成了前两个项目,并且能够识别数字和字符,这是图像识别中的下一个挑战级别——正面人脸图像。这些图像是由CMU & MIT收集的,排列在四个文件夹中。

    4.ImageNet ( http://image-net.org/ ) 现在是时候构建一些通用的东西了。根据WordNet层次结构组织的图像数据库(目前仅为名词)。层次结构的每个节点都由数百个图像描述。目前,该集合平均每个节点有超过500个图像(而且还在增加)。

    六.文本分类数据集

    1.Spam – Non Spam

    (http://www.esp.uem.es/jmgomez/smsspamcorpus/)

    区分短信是否为垃圾邮件是一个有趣的问题。你需要构建一个分类器将短信进行分类。

    2.Twitter Sentiment Analysis (http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/) 该数据集包含 1578627 个分类推文,每行被标记为1的积极情绪,0位负面情绪。数据依次基于 Kaggle 比赛和 Nick Sanders 的分析。

    3.Movie Review Data

    (http://www.cs.cornell.edu/People/pabo/movie-review-data/)

    这个网站提供了一系列的电影评论文件,这些文件标注了他们的总体情绪极性(正面或负面)或主观评价(例如,“两个半明星”)和对其主观性地位(主观或客观)或极性的标签。

    七.推荐引擎数据集

    1.MovieLens

    ( https://grouplens.org/ ) MovieLens

    是一个帮助人们查找电影的网站。它有成千上万的注册用户。他们进行自动内容推荐,推荐界面,基于标签的推荐页面等在线实验。这些数据集可供下载,可用于创建自己的推荐系统。

    2.Jester

    (http://www.ieor.berkeley.edu/~goldberg/jester-data/)

    在线笑话推荐系统。

    八.各种来源的数据集网站

    1.KDNuggets

    (http://www.kdnuggets.com/datasets/index.html)

    KDNuggets 的数据集页面一直是人们搜索数据集的参考。列表全面,但是某些来源不再提供数据集。因此,需要谨慎选择数据集和来源。

    2.Awesome Public Datasets

    (https://github.com/caesar0301/awesome-public-datasets)

    一个GitHub存储库,它包含一个由域分类的完整的数据集列表。数据集被整齐地分类在不同的领域,这是非常有用的。但是,对于存储库本身的数据集没有描述,这可能使它非常有用。

    3.Reddit Datasets Subreddit

    (https://www.reddit.com/r/datasets/)

    由于这是一个社区驱动的论坛,它可能会遇到一些麻烦(与之前的两个来源相比)。但是,您可以通过流行/投票来对数据集进行排序,以查看最流行的数据集。另外,它还有一些有趣的数据集和讨论。

    展开全文
  • 旋转机械故障诊断公开数据集整理

    万次阅读 多人点赞 2019-04-19 10:17:44
    旋转机械故障诊断公开数据集整理 众所周知,当下做机械故障诊断研究最基础的就是数据,再先进的方法也离不开数据的检验。笔者通过文献资料收集到如下几个比较常用的数据集并进行整理。鉴于目前尚未见比较全面的数据...

    旋转机械故障诊断公开数据集整理

    众所周知,当下做机械故障诊断研究最基础的就是数据,再先进的方法也离不开数据的检验。笔者通过文献资料收集到如下几个比较常用的数据集并进行整理。鉴于目前尚未见比较全面的数据集整理介绍。数据来自原始研究方,笔者只整理数据获取途径。如果研究中使用了数据集,请按照版权方要求作出相应说明和引用。在此,公开研究数据的研究者表示感谢和致敬。如涉及侵权,请联系我删除(787452269@qq.com)。欢迎相关领域同仁一起交流。很多优秀的论文都有数据分享,本项目保持更新。星标是比较通用的数据集。个别数据集下载可能比较困难,需要的可以邮件联系我,如版权方有要求,述不提供。本文在github地址为旋转机械故障数据集

    1.☆CWRU(凯斯西储大学轴承数据中心)

    2.☆MFPT(机械故障预防技术学会)

    NRG Systems总工程师Eric Bechhoefer博士代表MFPT组装和准备数据。

    3.☆德国Paderborn大学

    • 链接:https://mb.uni-paderborn.de/kat/forschung/datacenter/bearing-datacenter/
    • 相关说明及论文[3, 4]。
    • Bin Hasan M. Current based condition monitoring of electromechanical systems. Model-free drive system current monitoring: faults detection and diagnosis through statistical features extraction and support vector machines classification.[D]. University of Bradford, 2013.
    • Lessmeier C, Kimotho J K, Zimmer D, et al. Condition monitoring of bearing damage in electromechanical drive systems by using motor current signals of electric motors: a benchmark data set for data-driven classification: Proceedings of the European conference of the prognostics and health management society, 2016[C].

    4.☆FEMTO-ST轴承数据集

    • 由FEMTO-ST研究所建立的PHM IEEE 2012数据挑战期间使用的数据集[5-7]。
    • FEMTO-ST网站:https://www.femto-st.fr/en
    • github链接:https://github.com/wkzs111/phm-ieee-2012-data-challenge-dataset
      http://data-acoustics.com/measurements/bearing-faults/bearing-6/
    • Porotsky S, Bluvband Z. Remaining useful life estimation for systems with non-trendability behaviour: Prognostics & Health Management, 2012[C].
    • Nectoux P, Gouriveau R, Medjaher K, et al. PRONOSTIA: An experimental platform for bearings accelerated degradation tests.: IEEE International Conference on Prognostics and Health Management, PHM’12., 2012[C]. IEEE Catalog Number: CPF12PHM-CDR.
    • E. S, H. O, A. S S V, et al. Estimation of remaining useful life of ball bearings using data driven methodologies: 2012 IEEE Conference on Prognostics and Health Management, 2012[C].2012
      18-21 June 2012.

    5.☆辛辛那提IMS

    • 数据链接https://ti.arc.nasa.gov/tech/dash/groups/pcoe/prognostic-data-repository/
    • 相关论文[8, 9]。
    • Gousseau W, Antoni J, Girardin F, et al. Analysis of the Rolling Element Bearing data set of the Center for Intelligent Maintenance Systems of the University of Cincinnati: CM2016, 2016[C].
    • Qiu H, Lee J, Lin J, et al. Wavelet filter-based weak signature detection method and its application on rolling element bearing prognostics[J]. Journal of Sound and Vibration, 2006,289(4):1066-1090.

    6.University of Connecticut

    • 数据链接:https://figshare.com/articles/Gear_Fault_Data/6127874/1
    • 数据描述:
      Time domain gear fault vibration data (DataForClassification_TimeDomain)
      And Gear fault data after angle-frequency domain synchronous analysis (DataForClassification_Stage0)
      Number of gear fault types=9={‘healthy’,‘missing’,‘crack’,‘spall’,‘chip5a’,‘chip4a’,‘chip3a’,‘chip2a’,‘chip1a’}
      Number of samples per type=104
      Number of total samples=9x104=903
      The data are collected in sequence, the first 104 samples are healthy, 105th ~208th samples are missing, and etc.
    • 相关论文[10]。
    • P. C, S. Z, J. T. Preprocessing-Free Gear Fault Diagnosis Using Small Datasets With Deep Convolutional Neural Network-Based Transfer Learning[J]. IEEE Access, 2018,6:26241-26253.

    7.XJTU-SY Bearing Datasets(西安交通大学 轴承数据集)

    由西安交通大学雷亚国课题组王彪博士整理。

    • 链接:http://biaowang.tech/xjtu-sy-bearing-datasets/
    • 使用数据集的论文[11]。
    • B. W, Y. L, N. L, et al. A Hybrid Prognostics Approach for Estimating Remaining Useful Life of Rolling Element Bearings[J]. IEEE Transactions on Reliability, 2018:1-12.

    8.东南大学

    • github连接:https://github.com/cathysiyu/Mechanical-datasets
      由东南大学严如强团队博士生邵思雨完成[12]。“Highly Accurate Machine Fault Diagnosis Using Deep Transfer Learning”
      Gearbox dataset is from Southeast University, China. These data are collected from Drivetrain Dynamic Simulator. This dataset contains 2 subdatasets, including bearing data and gear data, which are both acquired on Drivetrain Dynamics Simulator (DDS). There are two kinds of working conditions with rotating speed - load configuration set to be 20-0 and 30-2. Within each file, there are 8rows of signals which represent: 1-motor vibration, 2,3,4-vibration of planetary gearbox in three directions: x, y, and z, 5-motor torque, 6,7,8-vibration of parallel gear box in three directions: x, y, and z. Signals of rows 2,3,4 are all effective.

    9.Acoustics and Vibration Database(振动与声学数据库)

    提供一个手机振动故障数据集的公益性网站链接:http://data-acoustics.com/

    10.机械设备故障诊断数据集及技术资料大全

    有比较多的机械设备故障数据资料:https://mekhub.cn/machine-diagnosis

    11.CoE Datasets美国宇航局预测数据存储库

    • 链接:https://ti.arc.nasa.gov/tech/dash/groups/pcoe/prognostic-data-repository/
      [藻类跑道数据集] [CFRP复合材料数据集] [铣削数据集]
      [轴承数据集] [电池数据集] [涡轮风扇发动机退化模拟数据集] [PHM08挑战数据集] [IGBT加速老化Sata集] [投石机]数据集] [FEMTO轴承数据组] [随机电池使用数据组] [电容器电应力数据组] [MOSFET热过载时效数据组] [电容器电应力数据组 - 2] [HIRF电池数据组]

    参考文献

    • [1]mith W A, Randall R B. Rolling element bearing diagnostics using the Case Western Reserve University data: A benchmark study[J]. Mechanical Systems and Signal Processing, 2015,64-65:100-131.
    • [2]rstraete D, Ferrada A, Droguett E L, et al. Deep learning enabled fault diagnosis using time-frequency image analysis of rolling element bearings[J]. Shock and Vibration, 2017,2017.
    • [3] Bin Hasan M. Current based condition monitoring of electromechanical systems. Model-free drive system current monitoring: faults detection and diagnosis through statistical features extraction and support vector machines classification.[D]. University of Bradford, 2013.
    • [4] Lessmeier C, Kimotho J K, Zimmer D, et al. Condition monitoring of bearing damage in electromechanical drive systems by using motor current signals of electric motors: a benchmark data set for data-driven classification: Proceedings of the European conference of the prognostics and health management society, 2016[C].
    • [5] Porotsky S, Bluvband Z. Remaining useful life estimation for systems with non-trendability behaviour: Prognostics & Health Management, 2012[C].
    • [6] Nectoux P, Gouriveau R, Medjaher K, et al. PRONOSTIA: An experimental platform for bearings accelerated degradation tests.: IEEE International Conference on Prognostics and Health Management, PHM’12., 2012[C]. IEEE Catalog Number: CPF12PHM-CDR.
    • [7] E. S, H. O, A. S S V, et al. Estimation of remaining useful life of ball bearings using data driven methodologies: 2012 IEEE Conference on Prognostics and Health Management, 2012[C].2012
      18-21 June 2012.
    • [8] Gousseau W, Antoni J, Girardin F, et al. Analysis of the Rolling Element Bearing data set of the Center for Intelligent Maintenance Systems of the University of Cincinnati: CM2016, 2016[C].
    • [9] Qiu H, Lee J, Lin J, et al. Wavelet filter-based weak signature detection method and its application on rolling element bearing prognostics[J]. Journal of Sound and Vibration, 2006,289(4):1066-1090.
    • [10] P. C, S. Z, J. T. Preprocessing-Free Gear Fault Diagnosis Using Small Datasets With Deep Convolutional Neural Network-Based Transfer Learning[J]. IEEE Access, 2018,6:26241-26253.
    • [11] B. W, Y. L, N. L, et al. A Hybrid Prognostics Approach for Estimating Remaining Useful Life of Rolling Element Bearings[J]. IEEE Transactions on Reliability, 2018:1-12.
    • [12] S. S, S. M, R. Y, et al. Highly Accurate Machine Fault Diagnosis Using Deep Transfer Learning[J]. IEEE Transactions on Industrial Informatics, 2019,15(4):2446-2455.
    展开全文
  • 语音数据集整理

    千次阅读 2019-10-03 21:58:43
    语音数据集整理 目录 1.Mozilla Common Voice. 2 2.翻译和口语音频的大型数据库Tatoeba. 2 3.VOiCES Dataset 3 4. LibriSpeech. 4 5.2000 HUB5 English:... 4 6.VoxForge:... 4 7.人类语音的大规模视听...

    语音数据集整理

    目录

    1.Mozilla Common Voice. 2

    2.翻译和口语音频的大型数据库Tatoeba. 2

    3.VOiCES Dataset 3

    4. LibriSpeech. 4

    5.2000 HUB5 English:... 4

    6.VoxForge:... 4

    7.人类语音的大规模视听数据集 (VoxCeleb)... 5

    7.1 VoxCeleb1. 5

    7.2 VoxCeleb2. 5

    8.TIMIT:英语语音识别数据集... 6

    9.CHIME:... 9

    10.TED-LIUM:... 10

    10.1 TED-LIUM 2. 10

    10.2 TED-LIUM 3. 10

    11.Google AudioSet 11

    12.CCPE数据集... 12

    13.Free ST American English Corpus. 13

    14.CSTR VCTK. 13

    15.LibriTTS corpus. 13

    16. The AMI Corpus. 14

    17.Free ST Chinese Mandarin Corpus. 14

    18.Primewords Chinese Corpus Set 1. 15

    19.爱数智慧中文手机录音音频语料库(Mandarin Chinese Read Speech )... 15

    20.THCHS30. 16

    21.ST-CMDS. 16

    22.MAGICDATA    Mandarin Chinese Read Speech Corpus. 17

    23 AISHELL数据集... 17

    23.1AISHELL开源版1. 17

    23.2 AISHELL-2 开源中文语音数据库... 18

    23.3 AISHELL-翻译机录制语音数据库... 18

    23.4 AISHELL-家居环境近远讲同步语音数据库... 18

    23.5 AISHELL-语音唤醒词数据库... 19

    24.Aidatatang. 19

    24.1 aidatatang_1505zh(完整的1505小时中文普通话语音数据集)... 19

    24.2 Aidatatang_200zh. 20

    25.其他... 21

     

     

     

     

    【多种语言】

    1.Mozilla Common Voice

    1)基本信息

    时长:1965小时(暂时)

    最早2017年发布,持续更新,该基金会表示,通过 Common Voice 网站和移动应用,他们正在积极开展 70 种语言的数据收集工作。

    Mozilla 宣称其拥有可供使用的最大的人类语音数据集,当前数据集有包括 29 种不同的语言,其中包括汉语,从 4万多名贡献者那里收集了近 2454 小时(其中1965小时已验证)的录音语音数据。并且做出了开放的承诺:向初创公司、研究人员以及对语音技术感兴趣的任何人公开我们收集到的高质量语音数据。

    2)数据集特点

    Common Voice数据集不仅在其大小和许可模型(https://github.com/JRMeyer/open-speech-corpora)方面是独一无二的,而且在其多样性上也是独一无二的。它代表了一个由语音贡献者组成的全球社区。贡献者可以选择提供诸如他们的年龄、性别和口音等统计元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。这是一种不同于其他可公开获取的数据集的方法,这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等),要么是语料库与已发现的数据集一样的多样性数据集(例如,TED演讲中的TEDLIUM语料库是男性和女性的3)

    3)链接

    下载地址:https://voice.mozilla.org/data

    参考:https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/88266146

     

     

    2.翻译和口语音频的大型数据库Tatoeba

    1)基本信息

    项目始于2006

    tatoeba是一个用于语言学习的句子、翻译和口语音频的大型数据库。,收集面向外语学习者的例句的网站,用户无须注册便可以搜索任何单词的例句。如果例句含有对应的真人发音,也可以点击收听。注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论。在留言板上,所有的语言都是平等的,注册用户可以使用自己喜欢的语言与其他用户交流。

    3)链接

    下载地址:

    https://tatoeba.org/eng/downloads

     

    【英语】

    3.VOiCES Dataset

    1)基本信息

    发布时间:2018

    时长:总共15小时(3903个音频文件)

    参与人数:300

    这个数据集是在复杂的环境设置(声音)语料库掩盖的声音呈现在声学挑战性条件下的音频记录。录音发生在不同大小的真实房间中,捕捉每个房间的不同背景和混响轮廓。各种类型的干扰器噪声(电视,音乐,或潺潺声)同时播放干净的讲话。在房间内精心布置的12个麦克风在远处录制音频,每个麦克风产生120小时的音频。为了模仿谈话中的人类行为,前景扬声器使用电动平台,在记录期间旋转一系列角度。

    三百个不同的扬声器从LibriSpeech干净的数据子集被选择作为源音频,确保50-50女性男性分组。在准备即将到来的数据挑战时,语音语料库的第一次发布将只包括200个发言者。剩下的100个发言者将被保留用于模型验证;一旦数据挑战赛被关闭,完整的语料库(300个发言者)将被释放。除了完整的数据集之外,我们还提供了一个DEV集合和一个迷你DEV集合。两者都保持了语音语料库的数据结构,但都包含了一小部分数据。DEV集包括四个随机选择的扬声器(50-50个女性男性分组)的音频文件,用于ROM-1中记录的数据。这包括所有12个麦克风的数据。迷你开发套件仅包括一个扬声器、一个房间(1号房间)和录音棚话筒。

    2)语料库特点

    本语料库的目的是促进声学研究,包括但不限于:

    1. 说话人识别,语音识别,说话人检测。
    2. 事件和背景分类,语音/非语音。
    3. 源分离和定位,降噪,一般增强,声学质量度量

    其中音频包含:

    1. 男女声阅读的英语。
    2. 模拟的头部运动:使用电动旋转平台上的扬声器来模拟前景旋转。
    3. 杂散噪声包含大量的电视、音乐、噪音。
    4. 包括大、中、小多个房间的各种混响。

    语料库包含源音频、重传音频、正字法转录和说话人标签,有转录和模拟记录的真实世界的噪音。该语料库的最终目标是通过提供对复杂声学数据的访问来推进声学研究。语料库将以开源的形式发布,免费供商业、学术和政府使用。

    3)链接

    下载地址:

    https://voices18.github.io/downloads/

    文献:

    https://arxiv.org/abs/1804.05053

    See more

    https://voices18.github.io/reading/

     

    4. LibriSpeech

    1)基本信息

    发布时间:2015

    大小:60GB

    时长:1000小时

    采样:16Hz

    LibriSpeech该数据集为包含文本和语音的有声读物数据集,由Vassil Panayotov编写的大约1000小时的16kHz读取英语演讲的语料库。数据来源于LibriVox项目的阅读有声读物,并经过细致的细分和一致。经过切割和整理成每条10秒左右的、经过文本标注的音频文件,非常适合入门使用。

    2)数据集特点

    推荐应用方向:自然语音理解和分析挖掘

    3)链接

    (内含镜像)地址:http://www.openslr.org/12/

     

     

    5.2000 HUB5 English

    1)基本信息

    发布时间:2002

    该数据集由NIST(国家标准与技术研究院)2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成,其仅包含英语的语音数据集。HUB5评估系列集中在电话上的会话语音,将会话语音转录成文本的特定任务。其目标是探索会话语音识别的新领域,开发融合这些思想的先进技术,并测量新技术的性能。

    此版本包含评估中用到的40个源语音数据文件的.txt格式的脚本,即20个未发布的电话交谈,是招募的志愿者根据机器人操作员的每日主题进行对话,和20个来自CALLHOME美国英语演讲中的母语交流者之间的对话。

    2)数据集特点

    推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音识别

    3)链接

    地址:https://catalog.ldc.upenn.edu/LDC2002T43

     

     

    6.VoxForge

    1)基本信息

    带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。VoxForge创建的初衷是为免费和开源的语音识别引擎收集标注录音(在LinuxUnixWindows以及Mac平台上)

    2)特点

        以GPL协议开放所有提交的录音文件,并且制作声学模型。以供开源语音识别引擎使用,如CMUSphinx,ISIP,Julias(github)和HTK(注意:HTK有分发限制)。

    推荐应用方向:语音识别

    3)链接

    下载地址:

    http://www.voxforge.org/home/downloads

     

     

    7.人类语音的大规模视听数据集 (VoxCeleb)

    1)基本信息

    VoxCeleb是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的(男性占 55%)。这些名人有不同的口音、职业和年龄。开发集和测试集之间没有重叠。

    该数据集有2个子集:VoxCeleb1和VoxCeleb2

    7.1 VoxCeleb1

    VoxCeleb1包含超过10万个针对1,251个名人的话语,这些话语是从上传到YouTube的视频短片中提取的。

    发音人数:1251

    视频数量:21245

    音频数量:145265

    下载地址:

    http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html


    7.2 VoxCeleb2

    说话人深度识别数据集 VoxCeleb2包含超过100万个6,112个名人的话语,从上传到YouTube的视频中提取,VoxCeleb2已经与VoxCeleb1或SITW数据集没有重叠的说话人身份。

    发音人数量:训练集:5994,测试集:118

    视频数量:训练集:145569,测试集:4911

    音频数量:训练集:1092009,测试集:36237

    内容时长:2000小时以上

    发布时间:2018

    下载地址:

    http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html

     

    2)数据集特点

    1、音频全部采自YouTube,是从网上视频切除出对应的音轨,再再根据说话人进行切分;

    2、属于完全真实的英文语音;

    3、数据集是文本无关的;

    4、说话人范围广泛,具有多样的种族,口音,职业和年龄;

    5、每句平均时长8.2s,最大时长145s,最短时长4s,短语音较多;

    6、每人平均持有句子116句,最大持有250句,最小持有45句;

    7、数据集男女性别较均衡,男性有690人(55%),女性有561人;

    8、采样率16kHz,16bit,单声道,PCM-WAV音频格式;

    9、语音带有一定真实噪声,非人造白噪声,噪声出现时间点无规律,人声有大有小;

    10、噪声包括:环境突发噪声、背景人声、笑声、回声、室内噪音、录音设备噪音;

    11、视频场景包括:明星红地毯、名人讲台演讲、真人节目访谈、大型体育场解说;

    12、音频无静音段,但不是VAD的效果,而是截取了一个人的完整无静音音频片段;

    13、数据集自身以划分了开发集Dev和测试集Test,可直接用于Speaker Verification(V)


    参考:

    https://www.zhihu.com/question/265820133/answer/356203615

     

     

    8.TIMIT:英语语音识别数据集

    1)基本信息

    发布时间:1993

    采样:16kHz  16bit

    参与人数:630人

    TIMIT(英语:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州仪器、麻省理工学院和坦福研究院SRI International合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割,标记。TIMIT语料库包括时间对齐的正字法,语音和单词转录以及每个话语的16位,16kHz语音波形文件。

    在给定的10个句子,包括:

    • 2个方言句子(SA, dialect sentences),对于每个人这2个方言句子都是相同的;
    • 5个音素紧凑句子(SX, phonetically compact sentences),这5个是从MIT所给的450

    个因素分布平衡的句子中选出,目的是为了尽可能的包含所有的音素对。

    • 3个音素发散句子(SI, phonetically diverse sentences),这3个是由TI从已有的

    Brown 语料库(the Brown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的,目的是为了增加句子类型和音素文本的多样性,使之尽可能的包括所有的音位变体(allophonic contexts)

    TIMIT官方文档建议按照7:3的比例将数据集划分为训练集(70%)和测试集(30%) ,TIMIT的原始录音是基于61个音素的,如下所示:

    由于在实际中61个音素考虑的情况太多,因而在训练时有些研究者整合为48个音素,当评估模型时,李开复在他的成名作(Lee & Hon, 1989)所提出的将61个音素合并为39个音素方法被广为使用。

    2)特点

    推荐应用方向:语音识别

    70%的说话人是男性;大多数说话者是成年白人。

    TIMIT语料库多年来已经成为语音识别社区的一个标准数据库,在今天仍被广为使用。其原因主要有两个方面:

    1数据集中的每一个句子都在音素级别上进行了手动标记,同时提供了说话人的编号,性别,方言种类等多种信息;

    2数据集相对来说比较小,可以在较短的时间内完成整个实验;同时又足以展现系统的性能。

     

    3)细节

    1目录组织形式如下:


    /<语料库>/<用处>/<方言种类>/<性别><说话者ID>/<句子ID>.<文件类型>


    在这里:

    语料库:timit 
    用法:train | test 
    方言种类:dr1 | dr2 | dr3 | dr4 | dr5 | dr6 | dr7 | dr8 
    性别:m | f 
    说话者ID<说话者缩写><0-9任意数字
    句子ID<文本类型><句子编号>,其中,文本类型:sa | si | sx 
    文件类型:wav | txt | wrd | phn

    举例: 
    (1) /timit/train/dr1/fcjf0/sa1.wav 
    (2) /timit/test/df5/mbpm0/sx407.phn

     

    2文件类型

      TIMIT语料库包括一些与话语句子相关的文件,除了语音波形文件(.wav)外,还包括对应的句子内容(.txt),经过时间对齐(time-aligned)的单词内容(.wrd),经过时间对齐(time-aligned)的音素内容(.phn)三种类型的文件。这些文件的格式如下:


    <采样起始点> <采样结束点> <文本内容
      …        …       … 
      …        …       … 
      …        …       … 
    <
    采样起始点> <采样结束点> <文本内容>


    在这里:

    采样起始点:语音段的开始位置(整数)。对于每一个文件,第一个起始位置总是0 
    采样结束点:语音段的结束位置(整数)。由于翻译方法(transcription method)的使用,最后一个采样结束位置的值可能比对应的.wav文件。 
    文本内容:<完整句子> | <单词标签> | <音素标签>

    举例:(/timit/test/dr5/fnlp0/sa1.wav):

    .txt:

    0 61748 She had your dark suit in greasy wash water all year.

    .wrd:

    7470 11362 she 
    11362 16000 had 
    15420 17503 your 
    17503 23360 dark 
    23360 28360 suit 
    28360 30960 in 
    30960 36971 greasy 
    36971 42290 wash 
    43120 47480 water 
    49021 52184 all 
    52184 58840 year

    .phn:(开始和结束的静音区以h#标记,展示部分内容)

    0 7470 h# 
    7470 9840 sh 
    9840 11362 iy 
    11362 12908 hv 
    12908 14760 ae 
    14760 15420 dcl 
    15420 16000 jh 
    16000 17503 axr 
    17503 18540 dcl 
    18540 18950 d 
    18950 21053 aa 
    21053 22200 r 
    22200 22740 kcl 
    22740 23360 k

    参考:

    https://catalog.ldc.upenn.edu/docs/LDC93S1/

    https://blog.csdn.net/qfire/article/details/78711673

    3)链接

    下载地址:

    https://catalog.ldc.upenn.edu/LDC93S1

     

     

    9.CHIME

    1)基本信息

    包含环境噪音的用于语音识别挑战赛(CHiME Speech Separation and Recognition Challenge)数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 speaker 4 个嘈杂位置的近 9000 个录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成。该数据集包含了训练集、验证集、测试集三部分,每份里面包括了多个speaker在不同噪音环境下的数据。

    2)特点

    推荐应用方向:语音识别

    双麦克风录制的立体WAV文件包括左右声道,而阵列麦克风的录音被分解为每个单声通道的WAV文件。

    转录以JSON格式提供。

    3)链接

    地址:

    http://spandh.dcs.shef.ac.uk/chime_challenge/CHiME5/

     

     

    10.TED-LIUM

    1)基本信息

    采样:16Hz

    时长:118小时

    TED-LIUM 语料库由音频讲座及其转录本组成,可在 TED 网站上查阅。

    下载地址:

    http://www.openslr.org/resources/7/TEDLIUM_release1.tar.gz

    国内镜像:

    http://cn-mirror.openslr.org/resources/7/TEDLIUM_release1.tar.gz

     

     

    10.1 TED-LIUM 2

    通道:1

    采样:16Hz  16bit

    比特率:256k

    TED Talk 的音频数据集,包含1495个录音和音频会议、159848条发音词典和部分WMT12公开的语料库以及这些录音的文字转录。

    下载:

    http://www.openslr.org/resources/19/TEDLIUM_release2.tar.gz

    国内镜像:

    http://cn-mirror.openslr.org/resources/19/TEDLIUM_release2.tar.gz

     

     

    10.2 TED-LIUM 3

    通道:1

    采样:16Hz  16bit

    比特率:256k

    新的TED-LIUM版本是由Ubiqus公司与LIUM(法国勒芒大学)合作制作的。包含2351条录音与对齐脚本,452小时的音频,159848条发音词典,从 WMT12 公开可用的 Corpora 中选择语言建模的单语言数据:这些文件来自 TED-LIUM 2 版本,但已修改以获得与英语更相关的标记化

    下载:

    http://www.openslr.org/resources/51/TEDLIUM_release-3.tgz

    国内镜像:

    http://cn-mirror.openslr.org/resources/51/TEDLIUM_release-3.tgz

     

    11.Google AudioSet

    1)基本信息

    AudioSet是谷歌17年开放的大规模的音频数据集。该数据集包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(包括 527 个标签,片段来自YouTube视频)。音频本体 (ontology) 被确定为事件类别的一张层级图,覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音。此项研究论文已发表于IEEE ICASSP 2017 大会上。音频本体类别如下图

    https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq/it/u=3753720671,1001818284&fm=170&s=C018E432199FC0CE5E55E1DA000010B2&w=640&h=522&img.JPEG

    2)特点

    AudioSet提供了两种格式:

    1csv文件,包括音频所在的YouTube视频的ID,开始时间,结束时间 以及标签(可能是多标签) 

    2128维的特征,采样率为1Hz,也就是把音频按秒提取为128维特征。特征是使用VGGish模型来提取的,VGGish下载地址为

    https://github.com/tensorflow/models/tree/master/research/audioset  可以使用该模型提取我们自己的数据。VGGish也是用来提取YouTube-8M的。这些数据被存储为.tfrecord格式。

    128维特征的下载地址(基于所在地)

    storage.googleapis.com/us_audioset/youtube_corpus/v1/features/features.tar.gz

    storage.googleapis.com/eu_audioset/youtube_corpus/v1/features/features.tar.gz

    storage.googleapis.com/asia_audioset/youtube_corpus/v1/features/features.tar.gz

     

    3)链接

    下载地址

    https://github.com/audioset/ontology

    参考:

    https://baijiahao.baidu.com/s?id=1561283095072201&wfr=spider&for=pc

    https://blog.csdn.net/qq_39437746/article/details/80793476(含国内镜像链接)

    https://cloud.tencent.com/developer/article/1451556

     

     

     12.CCPE数据集

    1)基本信息

    发布时间:2019年

    CCPE 全称为 Coached Conversational Preference Elicitation,它是我们提出的一种在对话中获得用户偏好的新方法,即它允许收集自然但结构化的会话偏好。通过研究一个领域的对话,我们对人们如何描述电影偏好进行了简要的定量分析;并且向社区发布了 CCPE-M 数据集,该数据集中有超过 500 个电影偏好对话,表达了 10,000 多个偏好。具体而言,它由 502 个对话框组成的数据集,在用户和助理之间用自然语言讨论电影首选项时有 12,000 个带注释的发音。它通过两个付费人群工作者之间的对话收集,其中一个工作人员扮演「助手」的角色,而另一个工作人员扮演「用户」的角色。「助手」按照 CCPE 方法引出关于电影的「用户」偏好。助理提出的问题旨在尽量减少「用户」用来尽可能多地传达他或她的偏好的术语中的偏见,并以自然语言获得这些偏好。每个对话框都使用实体提及、关于实体表达的首选项、提供的实体描述以及实体的其他语句进行注释。

    在面向电影的 CCPE 数据集中,冒充用户的个人对着麦克风讲话,并且音频直接播放给冒充数字助理的人。「助手」则输出他们的响应,然后通过文本到语音向用户播放。这些双人自然对话包括在使用合成对话难以复制的双方之间自发发生的不流畅和错误。这创建了一系列关于人们电影偏好的自然且有条理的对话。在对这个数据集的观察中,我们发现人们描述他们的偏好的方式非常丰富。该数据集是第一个大规模表征该丰富度的数据集。我们还发现,偏好也称为选项的特征,并不总是与智能助理的方式相匹配,或者与推荐网站的方式相匹配。换言之,你最喜爱的电影网站或服务上的过滤器,可能与你在寻求个人推荐时描述各种电影时使用的语言并不匹配。

    有关 CCPE 数据集的详细信息,参阅具体研究论文https://ai.google/research/pubs/pub48414,该论文将在 2019 年话语与对话特别兴趣小组(https://www.aclweb.org/portal/content/sigdial-2019-annual-meeting-special-interest-group-discourse-and-dialogue-call-special)年会上发布。

    2)链接

    下载相关:

    https://storage.googleapis.com/dialog-data-corpus/CCPE-M-2019/data.json

    13.Free ST American English Corpus

    1)基本信息:

    参与人数:10人

    该数据集源自(www.Surfay.ai)的一个自由的美式英语语料库,包含十个发言者的话语,每个说话者有350个左右的词句。该语料库是在室内环境下用手机录制的,每个词句都由专人仔细抄写与核对,保证转录的准确性。

    2)链接

    下载地址:

    http://www.openslr.org/45/

    国内镜像:

    http://cn-mirror.openslr.org/resources/45/ST-AEDS-20180100_1-OS.tgz

     

     

     

     

    14.CSTR VCTK

    1)基本信息

           参与人数:109人

    这个数据集包括109个以英语为母语、带有不同口音的英语使用者说出的语音数据。每位发言者宣读约400句词句,其中大部分来自报纸,加上rainbow passage和旨在识别说话者口音的引语段落。报纸文章取自《先驱报》(格拉斯哥),并经《先驱报》和《时代》集团许可。每位演讲者阅读一组不同的报纸句子,其中每组句子都是使用贪婪算法选择的,该算法旨在最大化上下文和语音覆盖。rainbow passage和引语段落对所有发言者都是一样的。

    彩虹通道可以在英语档案国际方言中找到:http://web.ku.edu/~idea/readings/rainbow.htm

    引出段落与用于语音重音存档 http://accent.gmu.edu的段落相同。语音重音存档的详细信息可查看http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf

    2)特点

    Google Wavenet用到的数据库。

    See more: http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html

    下载:

    https://datashare.is.ed.ac.uk/handle/10283/2651

     

     

    15.LibriTTS corpus

    1)基本信息

    采样:24Hz

    时长:585小时

    LibriTTS 是一种多语言英语语种,以 24kHz 采样率阅读英语语音约 585 小时,由 Heiga Zen 在 Google 语音和 Google 大脑团队成员的协助下编写。LibriTTS 语料库专为 TTS 研究而设计。它派生自LibriSpeech语料库的原始材料(来自LibriVox的MP3音频文件和古腾堡项目的文本文件)。

    2)特点

    以下是 LibriSpeech 语料库的主要区别:

    1音频文件的采样速率为 24kHz。

        2演讲在句子中断时被分割。

        3包含原始文本和规范化文本。

        4可以提取上下文信息(例如相邻的句子)。

        5排除了具有显著背景噪声的透口。

    3)链接(镜像)

    http://www.openslr.org/60/

     

     

     

    16. The AMI Corpus

    这是最初托管在http://groups.inf.ed.ac.uk/ami/corpus/上的 AMI Corpus 声学数据的镜像。AMI 会议会议记录包含 100 小时的会议录音。录像使用与公共时间线同步的信号范围。其中包括近距离麦克风和远场麦克风、独立和房间视图摄像机,以及从幻灯机和电子白板输出。在会议期间,与会者还可以使用不同步的笔来记录所写内容。会议以英语录制,使用三个不同的房间,具有不同的声学属性,并且包括大多数非母语人士。

    下载:

    http://www.openslr.org/16/

     

    【中文】

    17.Free ST Chinese Mandarin Corpus

    1)基本信息:

           参与者:855人

    这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对。保证转录精度

    语料库包含:

           1音频文件;

           2转录;

           3元数据;   

    2)链接

    下载:(8.2G)

    http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

    国内镜像:

    http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

     

     

     

    18.Primewords Chinese Corpus Set 1

    1)基本信息

           参与人数:296人

        时长:178小时

    这个免费的中文普通话语料库由上海普力信息技术有限公司发布。(www.primewords.cn)包含178个小时的数据。该语料由296名以中文为母语的人的智能手机录制。转录精度大于 98%,置信度为 95%。免费用于学术用途。转述和词句之间的映射以 JSON 格式提供。

    2)链接

    下载:(9.0G)

    http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

    国内镜像:

    http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

     

    19.爱数智慧中文手机录音音频语料库(Mandarin Chinese Read Speech )

    1)基本信息

    时长:755小时

    参与人数:1000人

    音频格式:PCM

    MagicData中文手机录音音频语料库包含755小时的中文普通话朗读语音数据,其中分为训练集712.09小时、开发集14.84小时和测试集28.08小时。本语料库的录制文本覆盖多样化的使用场景,包括互动问答、音乐搜索、口语短信信息、家居命令控制等。采集方式为手机录音,涵盖多种类型的安卓手机;录音输出为PCM格式。1000名来自中国不同口音区域的发言人参与采集。MagicData中文手机录音音频语料库由MagicData有限公司开发,免费发布供非商业使用。

    2)链接

    数据包:

    https://freedata.oss-cn-beijing.aliyuncs.com/MAGICDATA_Mandarin_Chinese_Speech.zip

    下载地址

    http://www.imagicdatatech.com/index.php/home/dataopensource/data_info/id/101

     

    20.THCHS30

    1)基本信息

    时长:40余小时

    THCHS30是一个经典的中文语音数据集,包含了1万余条语音文件,通过单个碳粒麦克风录取,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。它是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。原创录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室监督下进行,原名“TCMSD”,代表“清华连续”普通话语音数据库’。13年后的出版由王东博士发起,并得到了朱晓燕教授的支持。他们希望为语音识别领域的新入门的研究人员提供玩具级别的数据库,因此,数据库对学术用户完全免费。

    2)链接

    国内镜像:

    https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz

    国外镜像:

    https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz

     

    21.ST-CMDS

    1)基本信息:

    时长:100余小时

    参与人数:855人

    ST-CMDS是由一个AI数据公司发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用。

    2)链接

    下载地址:

    国内镜像:

    https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

    国外镜像:

    https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

     

     

    22.MAGICDATA    Mandarin Chinese Read Speech Corpus

    1)基本信息

    时长:755小时

    参与人数:1080

    应用:语音识别,机器翻译,说话人识别和其他语音相关领域

    Magic Data技术有限公司的语料库,语料库包含755小时的语音数据,其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98%。录音在安静的室内环境中进行。数据库分为训练集,验证集和测试集,比例为51:1:2。诸如语音数据编码和说话者信息的细节信息被保存在元数据文件中。录音文本领域多样化,包括互动问答,音乐搜索,SNS信息,家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别,机器翻译,说话人识别和其他语音相关领域的研究人员。因此,语料库完全免费用于学术用途。

    2)链接

    下载地址见参考:

    https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/

           镜像:

           http://www.openslr.org/68/

     

     

    23 AISHELL数据集

    23.1AISHELL开源版1

    1)基本信息

    时长:178小时

    参与人数:400

    采样:44.1kHz & 16kHz   16bit

    AISHELL是由北京希尔公司发布的一个中文语音数据集,其中包含约178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。进行录音,并采样降至16kHz,用于制作AISHELL-ASR0009-OS1。通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。该数据免费供学术使用。他们希望为语音识别领域的新研究人员提供适量的数据。

    2)链接

    下载地址:

    http://www.aishelltech.com/kysjcp

     

    23.2 AISHELL-2 开源中文语音数据库

    1)基本信息

    时长:1000小时

    参与人数:1991人

    希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时,其中718小时来自AISHELL-ASR0009-[ZH-CN],282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在96%以上。(支持学术研究,未经允许禁止商用。)

    2)链接

    下载地址:

    http://www.aishelltech.com/aishell_2

     

    23.3 AISHELL-翻译机录制语音数据库

    1)基本信息

    时长:31.2小时

    参与人数:12人

    采样:    44.1kHz & 16kHz   16bit

    文件:wav

    来自AISHELL的开源语音数据产品:翻译机录制语音数据库

    2)链接

    下载地址:

    http://www.aishelltech.com/aishell_2019C_eval

     

    23.4 AISHELL-家居环境近远讲同步语音数据库

    1)基本信息

    时长:24.3小时

    参与人数:50人

    采样:    44.1kHz & 16kHz   16bit

    文件:wav

    AISHELL-2019A-EVAL 随机抽取 50 个发音人。每人从位置 A(高保真 44.1kHz,16bit)与位置 F(Android 系统手机 16kHz,16bit)中,各选取 232 句到 237 句。
    此数据库经过专业语音校对人员转写标注,并通过严格质量检验,文本正确率 100%。

    AISHELL-2019A-EVAL 是 AISHELL-ASR0010 的子库,共 24.3 小时。

    2)链接

    下载地址:

    http://www.aishelltech.com/aishell_2019A_eval

    23.5 AISHELL-语音唤醒词数据库

    1)基本信息

    时长:437.67小时

    参与人数:86人

    采样:    44.1kHz & 16kHz   16bit

    文件:wav

    来自希尔贝壳的语音唤醒词数据库

    2)链接

    下载地址:

    http://www.aishelltech.com/aishell_2019B_eval

     

     

    24.Aidatatang

    24.1 aidatatang_1505zh(完整的1505小时中文普通话语音数据集)

    1)基本信息

    参与人数:6408人

    时长:1505小时

    包含6408位来自中国不同地区的说话人、总计1505小时时长共3万条语音、经过人工精心标注的中文普通话语料集可以对中文语音识别研究提供良好的数据支持。采集区域覆盖全国34个省级行政区域。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。

    2)使用效果:

    3)链接

    数据申请:

    https://www.datatang.com/webfront/opensource.html

     

     

    24.2 Aidatatang_200zh(基于完整数据集精选的200小时中文普通话语音数据集)

    时长:200小时

    参与人数:600人

    采样:    16kHz   16bit

    Aidatatang_200zh是由北京数据科技有限公司(数据堂)提供的开放式中文普通话电话语音库。语料库长达200小时,由Android系统手机(16kHz,16位)和iOS系统手机(16kHz,16位)记录。邀请来自中国不同重点区域的600名演讲者参加录音,录音是在安静的室内环境或环境中进行,其中包含不影响语音识别的背景噪音。参与者的性别和年龄均匀分布。语料库的语言材料是设计为音素均衡的口语句子。每个句子的手动转录准确率大于98%。数据库按7:1:2的比例分为训练集、验证集和测试集。在元数据文件中保存诸如语音数据编码和扬声器信息等详细信息。还提供分段转录本。

    2)特点

    该语料库旨在为语音识别、机器翻译、声纹识别等语音相关领域的研究人员提供支持。因此,该语料库完全免费供学术使用。

    数据堂精选了200小时中文普通话语音数据在OpenSLR发布,并在Kaldi平台提供了训练代码,对应的训练方法也在github平台发布。

    3)链接

    训练:

    https://github.com/datatang-ailab/aidatatang_200zh/blob/master/README.md

    国内镜像:

    https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/62/aidatatang_200zh.tgz

    国外镜像:https://link.ailemon.me/?target=http://www.openslr.org/resources/62/aidatatang_200zh.tgz

     

     

     

     

     

     

    【其他语言】

    25.其他

    Vystadial

    这些数据是转录的以英语和捷克语交流的电话数据。

    地址:

    http://www.openslr.org/resources/6/data_voip_cs.tgz( Czech speech and transcripts )

    http://www.openslr.org/resources/6/data_voip_en.tgz( English speech and transcripts )

     

     

    ALFFA (African Languages in the Field: speech Fundamentals and Automation)

    这些数据是转录的以阿姆哈拉语和斯瓦希里语和沃洛夫语交流的语音数据。

    地址:

    http://www.openslr.org/resources/25/data_readspeech_am.tar.bz2( Amharic speech and transcripts )

    http://www.openslr.org/resources/25/data_broadcastnews_sw.tar.bz2( Swahili speech and transcripts )

    http://www.openslr.org/resources/25/data_readspeech_wo.tar.bz2 ( Wolof speech and transcripts )

     

    Heroico

    Heroico 语料库 (LDC2006S37) 最初是为了训练西班牙语学习应用中的发音建模声学模型而收集的。

    链接

    http://www.openslr.org/39/

     

     

    Tunisian_MSA

           突尼斯语-MSA 语料库最初是为训练阿拉伯语学习应用中的发音建模声学模型而收集的。数据收集工作于2003年在突尼斯共和国首都突尼斯附近进行。突尼斯语-MSA语料库分为背诵和提示语音子库。背诵的语音存储在录音目录下。提示语音存储在答案目录下。118名线人中的每一个都通过背诵句子和回答提示的问题,为两个子公司做出了贡献。突尼斯语-MSA语种有11.2小时的演讲时间。2017 年收集了一个小语料库进行测试。演讲由4名speaker:3名利比亚男性和1名来自突尼斯的女性组成。

    链接:

    http://www.openslr.org/46/

     

     

    African Accented French

    此语料库包含大约 22 小时的非洲口音法语的语音录音。为所有录音提供成绩单。

    链接:

    http://www.openslr.org/57/

     

     

    Pansori-TEDxKR

    1. 基本信息

    是一种韩语语音识别 (ASR) 语种,由 2010 年至 2014 年在韩国举行的韩语 TEDx 会谈产生。它包含来自 41 个扬声器的大约 3 小时的语音音频脚本对。此语料库是使用称为 Pansori 的新语料库数据引入和处理系统生成的。语料库中包括的语音音频是 16 位 FLAC 文件,采样率为 16 KHz。

    1. 特点

    只包括由社区翻译人员转录的TEDx讲座。

    语种片段在字幕边界处被分割。

    通过手动(工具辅助)语音文本对齐微调分段。

    由最先进的语音识别器(Google 云语音到文本)进行最终验证。

    1. 链接

    https://github.com/yc9701/pansori-tedxkr-corpus

    下载:

    http://www.openslr.org/58/

     

     

    ParlamentParla

    这是加泰罗尼亚语的演讲文,由工人合作社Col_lectivaT出版。音频片段摘自加泰罗尼亚议会加泰罗尼亚议会全体会议的录音。录音与他们的记录一致,并提取了320小时最干净的片段。内容属于加泰罗尼亚议会,发布的数据符合其使用条款。音频文件是PCM 16位单声道,小尾音与采样率16 kHz。自版本 1.0 起,语料库分为 90 小时清洁和 230 小时的其他质量段加泰罗尼亚自治政府文化部支持编写这一语料库。

    下载:

    http://www.openslr.org/59/

     

     

    TEDx Spanish Corpus

    这是一个性别不平衡的西班牙语语料库,期限为 24 小时。它包含 TEDx 事件中多个讲解者的自发语音;他们大多数是男性。转录以小写字母显示,没有标点符号.

    地址:

    http://www.openslr.org/resources/67/tedx_spanish_corpus.tgz

     

     

    以下数据集包含相关语言的转录音频数据,由波形文件和 TSV 文件(line_index.tsv)组成。文件行_index.tsv 包含匿名的 FileID 和文件中的音频转录。数据集已手动检查质量,但可能仍有错误。

    High quality TTS data for Bengali languages

    http://www.openslr.org/37/孟加拉国孟加拉语和印度孟加拉语

    High quality TTS data for Javanese

    http://www.openslr.org/41/爪 哇

    High quality TTS data for Khmer.

    http://www.openslr.org/42/高棉

    High quality TTS data for Nepali.

    http://www.openslr.org/43/尼泊尔

    High quality TTS data for Sundanese.

    http://www.openslr.org/44/桑达尼斯

    Large Sinhala ASR training data set

    http://www.openslr.org/52/僧伽罗

    Large Bengali ASR training data set

    http://www.openslr.org/53/孟加拉语

    Large Nepali ASR training data set

    http://www.openslr.org/54/尼泊尔文

    Crowdsourced high-quality Argentinian Spanish speech data set.

    http://www.openslr.org/61/西班牙语(阿根廷布宜诺斯艾利斯)

    Crowdsourced high-quality Malayalam multi-speaker speech data set.

    http://www.openslr.org/63/马拉雅拉姆语(母语)

    Crowdsourced high-quality Marathi multi-speaker speech data set.

    http://www.openslr.org/64/马拉地语(母语)

    Crowdsourced high-quality Tamil multi-speaker speech data set.

    http://www.openslr.org/65/泰米尔语(母语)

    Crowdsourced high-quality Telugu multi-speaker speech data set.

    http://www.openslr.org/66/泰卢固语(母语)

    Crowdsourced high-quality Catalan speech data set.

    http://www.openslr.org/69/ 加泰隆语。

    Crowdsourced high-quality Nigerian English speech data set.

    http://www.openslr.org/70/尼日利亚英语

    Crowdsourced high-quality Chilean Spanish speech data set.

    http://www.openslr.org/71/智利西班牙语

    Crowdsourced high-quality Columbian Spanish speech data set.

    http://www.openslr.org/72/哥伦比亚西班牙语

    Crowdsourced high-quality Peruvian Spanish speech data set.

    http://www.openslr.org/73/秘鲁西班牙语

    Crowdsourced high-quality Puerto Rico Spanish speech data set.

    http://www.openslr.org/74/波多黎各西班牙语

    Crowdsourced high-quality Venezuelan Spanish speech data set.

    http://www.openslr.org/75/委内瑞拉西班牙语

    Crowdsourced high-quality Basque speech data set.

    http://www.openslr.org/76/巴士克语

    Crowdsourced high-quality Galician speech data set.

    http://www.openslr.org/77/加利西亚语

    Crowdsourced high-quality Gujarati multi-speaker speech data set.

    http://www.openslr.org/78/古吉拉特语(母语)

    Crowdsourced high-quality Kannada multi-speaker speech data set.

    http://www.openslr.org/79/缅甸

    Crowdsourced high-quality Burmese speech data set.

    http://www.openslr.org/80/卡纳达

    展开全文
  • 300W 人脸关键点数据集整理包,里面包括300W 人脸关键点数据集整理的 python 程序,以及整理后的 ndarray 文件。如果,有积分可以选择下载。
  • 表情数据集整理

    2020-03-23 17:03:43
    表情数据集整理: https://blog.csdn.net/liugallup/article/details/51476923 https://blog.csdn.net/hacker_long/article/details/83660400
  • 表情识别数据集整理

    万次阅读 多人点赞 2015-10-28 15:53:24
    国内外表情识别研究领域的相关数据集整理
  • 计算机视觉标准数据集整理—PASCAL VOC数据集 https://blog.csdn.net/xingwei_09/article/details/79142558
  • 公开图像数据集整理

    2021-02-02 15:14:23
    公开图像数据集整理 图像分类 CIFAR http://www.cs.toronto.edu/~kriz/cifar.html
  • SLAM数据集整理

    2018-12-20 01:16:40
    SLAM数据集整理 New College Dataset :: Main / Downloads Autonomous Space Robotics Lab: Devon Island Rover Navigation Dataset Radish Robotic 3D Scan Rep...
  • 人脸数据集整理

    千次阅读 2018-11-15 15:56:07
    人脸数据集整理   Hot Face Databases [1] CAS-PEAL Face Database [Download]   [2] Face Recognition Grand Challenge (FRGC) v2.0 [Download]   [3] Labeled Faces in the Wild (LFW) [Download] ...
  • 步态识别数据集整理

    2021-02-22 19:53:20
    步态识别数据集整理 按照时间顺序,来自论文:https://arxiv.org/abs/2102.09546 数据集 提出时间 数据类型 个体数和序列总数 环境 视角数 变化 CMU MoBo 2001 RGB;轮廓图 25/600 室内 6 3个走路速度;携带...
  • 【数据集】信号灯(红绿灯)数据集整理 数据集 1. Bosch Small Traffic Lights Dataset 官网链接:https://hci.iwr.uni-heidelberg.de/node/6132 申请方式:填写邮箱申请一下,根据邮件收到的链接,就能下载。 ...
  • 人脸关键点数据集整理

    千次阅读 2019-07-31 20:05:08
    人脸关键点数据集整理如下: 常见的几种关键点数据集有5关键点、21关键点、68关键点、98关键点等。还有一些超过100个关键点的数据集,这些数据集具有商业价值等原因,所以一般都不会公开。 1. 数据集下载: 数据...
  • 推荐系统常用数据集整理

    千次阅读 2019-09-29 17:38:30
    推荐系统常用数据集整理 1. MovieLens dataset url: https://grouplens.org/datasets/movielens/ 描述: 推荐系统领域非常非常经典的数据集。MovieLens (https://movielens.org/) 是一家收集用户(user)对电影(movie)...
  • 数据集整理的一些技巧 第一、对于数据集的划分 如果想把数据集划分成 训练集、测试集的话,步骤如下 所用方式为:np.random.randint(start,end,shape)和np.random.shuffle(temp) temp =np.random.randint(1,100,...
  • 一 历史最全-16个推荐系统开放公共数据集整理分享 : https://zhuanlan.zhihu.com/p/40785841
  • 【轨迹数据集】GPS轨迹数据集整理

    万次阅读 多人点赞 2018-08-09 14:05:27
    本文主要是整理了GPS轨迹数据集免费资源库,从这些库中能够免费下载到GPS数据,同时还整理出了这些数据的格式,数据集的简单描述等等。如果你发现更好的相关数据资源,欢迎共享 :) 1. GeoLife GPS Trajectories 该...
  • 目标检测数据集整理

    万次阅读 多人点赞 2018-06-02 22:13:28
    本篇博客主要整理基于深度学习的目标检测所用的数据集, 评价指标见上一篇博客。 参考链接: 1、链接1 2、链接2 3、链接3 1、Pascal VOC 2、COCO

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,731
精华内容 2,292
关键字:

数据集整理