精华内容
下载资源
问答
  • 不仅如此,数据堂基于此开源数据集还精选出了【200小时中文普通话语音数据】同期发布,并提供了基于Kaldi【200小时中文普通话语音数据】训练方法。该训练方法同时得到了广泛的关注及开发者的极度认可,并表示希望...
  • 基于《Kaldi语音识别》技术及开源语音语料库分享(上) 前言: 数据堂自AI开源计划发起,面向高校和科研机构首次开源的【1505小时中文普通话语音数据集】,该数据集句标注准确率达到了98%,得到了很多开发者的认可...

    基于《Kaldi语音识别》技术及开源语音语料库分享(上)

    前言:
    数据堂自AI开源计划发起,面向高校和科研机构首次开源的【1505小时中文普通话语音数据集】,该数据集句标注准确率达到了98%,得到了很多开发者的认可。
    不仅如此,数据堂基于此开源数据集还精选出了【200小时中文普通话语音数据】同期发布,并提供了基于Kaldi【200小时中文普通话语音数据】训练方法。该训练方法同时得到了广泛的关注及开发者的极度认可,并表示希望数据堂持续分享相关技术。

    近日,数据堂AI开放实验室发起基于《Kaldi语音识别》技术的分享会,分享会也一同邀请到了北印和北工商实验室的同学参加。
    分享会上,数据堂AI开放实验室语音识别数据处理技术研究同事详细的讲解了语音识别技术、语音识别引擎框架、其算法归纳、模型训练实战演示、语音识别技术未来的挑战,以及分享了目前开源的数据集中高质量的语音语料库。

    以下为分享会主要内容回顾:
    (因分享内容较多,本期只介绍前三章:语音识别技术、语音识别引擎框架、开源语音语料库。开源语音语料库,给出了数据查找下载的链接,在文章里,大家可以直接查看。)

    一、语音识别技术
    1.1什么是语音识别ASR (Automatic Speech Recognition)
    声波蕴含了更为丰富的信息,比如说话人性别、口音、年龄、情感等,语音识别即让机器把语音信号转变为相应的文本,进而达到机器自动识别和理解语音内容。输入一段随时间播放的信号序列,输出对应的一段文本序列。
    基本流程:
    在这里插入图片描述

    1.2语音识别技术的应用
    语音识别作为一种基础层感知类技术,既可以作为核心技术直接应用于终端产品,也可以仅作为一种感知类辅助技术集成于语音助手、车载系统、智慧医疗、智慧法院等场景的产品中。
    语音识别应用:
    在这里插入图片描述

    1.3语音识别基本流程
    1.3.1信号预处理
    信号预处理包括:滤波与采样、预加重、端点检测、分帧、加窗。
    在这里插入图片描述
    在这里插入图片描述

    1.3.2特征提取
    包括:常用特征(MFCC、Fbank、pitch)、时频转换、共振峰/包络——MFCC、基音周期/精细结构——pitch、 FBank特征 、三角滤波、MFCC特征、特征压缩、一段语音信号、滑动窗口、语谱图等。

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    1.3.3解码
    包含:声学模型(AM)、语言模型(LM)、词典(Lexicon)、解码器(Decoder)、 维特比算法、词图(lattice)。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    1.3.3评价指标
    包含:词错误率(Word Error Rate,WER)、字错误率(Character Error Rate,CER)、音素错误率(Phone Error Rate,PER)、句错误率(Sentence Error Rate,SER)。
    例如:词错误率(Word Error Rate,WER)

    • 将标准答案与识别结果对齐
        - 用插入、删除、替换错误的总数除以 标准答案的长度
      • 标准答案:too young too simple sometimes naïve
      • 识别结果: too young simple some times knife
      • 错误: 删除 替换 插入 替换
      • WER:4 / 6 = 66.7%

    二、语音识别引擎框架
    在这里插入图片描述

    2.1 Hidden Markov Toolkit
    Hidden Markov Toolkit由剑桥大学开发的早期经典的语音识别工具包,最早开发于1989年,使用C语言编写,代码和功能非常稳定,集成了最主流的语音识别技术,具有相对完善的文档手册HTK Book。
    缺点:更新相对缓慢,缺乏易用的脚本系统,不方便上手

    2.2 Microsoft Cognitive Toolkit
    微软公司开发的工具箱,开源于2015年, 强大的神经网络功能,定位于多种问题的组合,比如机器翻译+语音识别,是工具包中对Windows平台支持最好的。
    缺点:不是完全专业的语音识别工具,需要配合Kaldi等工具使用, 在持续的优化和更新中

    2.3 CMU Sphinx
    CMU Sphinx由卡内基梅隆大学开发,在Github和SourceForge平台同步更新,至今也有20多年的历史了, 有C和Java两个版本,文档简单易读,贴近实践操作,适合做开发。
    缺点:在Github上只有一个管理员维护,其他杂项处理程序(如pitch提取)没有kaldi丰富。

    2.4 KAIDI
    有全套的语音识别工具,由Dan Povey博士和捷克的BUT大学联合开发,最早发布于2011年,底层代码使用C++编写,接口采用shell和python,覆盖了统计模型和深度学习方法,灵活代码,易于扩展,开发者更为活跃。
    缺点:由于贡献者比较多,所以会有不稳定或有问题的代码更新

    三、开源语音语料库
    在这里插入图片描述
    3.1 LibriSpeech
    当前衡量语音识别技术的最权威主流的开源数据集
    1000小时英语有声读物
    在这里插入图片描述
    Librispeech: An ASR corpus based on public domain audio books
    http://www.openslr.org/11/

    3.2 牛津大学:VoxCeleb
    在这里插入图片描述
    在这里插入图片描述
    VoxCeleb2: Deep Speaker Recognition 2018 VoxCeleb

    3.3 清华大学:Thchs-30
    时长30多小时,16kHz,16bits;安静室内,单麦克风;
    设计目的:
    - 增广863数据集(2001年,TCMSD)
    - 提供语音识别基准实验
    在这里插入图片描述
    THCHS-30 : A Free Chinese Speech Corpus 2015 THCHS-30

    3.4 数据堂:aidatatang_1505zh
    时长1505小时,16kHz,16bits
    安静室内或低噪室外,手机设备
    采集区域覆盖全国34个省级行政区域
    参与录音人数达6408人
    录音内容超30万条口语化句子
    标注准确率超过98%
    数据堂1505小时中文普通话数据集
    www.datatang.com
    其他数据集:https://www.datatang.com/webfront/datatang_dataset.html

    3.5 数据堂:aidatatang_200zh
    时长200小时,16kHz,16bits
    安静室内或低噪室外,手机设备
    600位来自不同地区的说话人
    标注准确率超过98%
    训练集:验证集:测试集 = 7:1:2
    在这里插入图片描述

    http://www.openslr.org/62/

    https://github.com/datatang-ailab/aidatatang_200zh

    https://github.com/kaldi-asr/kaldi/tree/master/egs/aidatatang_200zh

    以上是此次数据堂 基于《Kaldi语音识别》技术及[开源语音语料库]分享会上的前三章主要内容,后三章内容:算法归纳、模型训练实战演示、语音识别技术未来的挑战将在下一期分享给大家。

    展开全文
  • 一、语音识别语料库

    千次阅读 2019-12-01 16:12:17
    一、语音识别语料库(OpenSLR网站:http://www.openslr.org/) (一)TIMIT语料库 630个说话者的宽带录音,8个主要方言区的美式英语,每人10句。 (二)LibriSpeech语料库 大型英语阅读语料库,没有标记。 (三...

    一、语音识别语料库(OpenSLR网站:http://www.openslr.org/)
    (一)TIMIT语料库
    630个说话者的宽带录音,8个主要方言区的美式英语,每人10句。
    (二)LibriSpeech语料库
    大型英语阅读语料库,没有标记。
    (三)中文语料库

    1. gale_mandarin:中文新闻广播数据集
    2. hkust:中文电话数据集
    3. thchs30:清华大学30小时数据集

    (四)Aishell1语料库

    1. 开源178小时的中文普通话数据库。
    2. 人数:400名,男女比例均衡(男186人,女214人)。
    3. 文本相关数据集:按照设计好的文本,在相对安静环境中使用手机(Android和IOS 系统)录制格式为16kHz、16bit单声道数据和高保真麦克风录制格式为44.1kHz、16bit单声道数据同时采集。
    4. 下载地址
    5. 参考:AISHELL-1 开源中文语音数据库

    (五)Voxceleb1语料库

    1. 100,000个针对1,251个名人的话语,这些话语是从上传到YouTube的视频中提取的。
    2. 文本无关数据集。
    3. 参考:
      大型说话人识别数据集(VoxCeleb1)
      知乎搜索

    (六)CSTR VCTK语料库

    1. 109个以英语为母语的本地人。
    2. 每个演讲者朗读大约400句话,其中大部分是从报纸中选出的。
    3. 音频设置:全向头戴式麦克风(DPA 4035),96 kHz采样频率(24位)和爱丁堡大学的半消声室。将所有记录转换为16位,根据STPK向下采样至48 kHz,并手动进行端点设置。
    4. 参考:SUPERSEDED - CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit
      Noisy speech database for training speech enhancement algorithms and TTS models
    展开全文
  • 数据集用于语音情感分析训练数据库。可以用于机器学习,深度学习。该数据集是CASIA语料库,该数据只用于学习。
  • AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库 文章来源:数据堂 网址:https://www.datatang.com/ 前言: 近年来,深度学习在语音识别领域取得了突破性进展,现在,几乎所有的语音技术研究都直接或间接...

    AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库
    文章来源:数据堂
    网址:https://www.datatang.com/

    前言:
    近年来,深度学习在语音识别领域取得了突破性进展,现在,几乎所有的语音技术研究都直接或间接采用神经网络模型,语音识别准确率得到了明显提升,并推动语音识别技术广泛应用到人们的日常生活中。这得益于算法的持续创新和算力的不断提升。不同于统计学习模型,神经网络模型的训练需要更大规模的数据来驱动。然而,绝大多数中文语音数据集是商用的,其费用之昂贵使许多对中文语音识别感兴趣的研究人员望而却步,导致许多创新的想法得不到很好地验证。

    “数据开源”极大地缓解了因数据集过于昂贵而无法获取的问题,同时吸引了越来越多的人员进行中文语音识别相关方面的研究。

    近日,数据堂发表的一篇,名为“AIDATATANG_1505ZH: A Large-Scale Chinese Speech Corpus for Deep Learning(AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库)”被ACL 2020会议录用,并得到了会议邀请。受到了广大科研人员的一致好评。
    在这里插入图片描述

    语音识别模型的进一步优化需要更大规模标定数据的驱动,然而,目前开源的语音数据集规模仍太小,语料多为偏向书面用语的新闻类长文本。数据堂发表的该篇论文针对人机交互、智能客服等热门语音识别应用,构建并开源了迄今为止最大规模的中文普通话语音数据集 AIDATATANG_1505ZH。

    论文主要介绍了一个新的大规模开源中文语音数据集 AIDATATANG_1505ZH,详细描述了数据集设计及制作的过程。对语料设计(语料采集、语料清洗、语料评分、语料配平) 、录制人员、录制场景、语音标注,以及数据集中含有文件等均进行了详细讲解。最终制作而成的该数据集包含了 6408 位说话人,录音时长达 1505 小时,标注准确率达 98%,覆盖主流移动设备,采集标签信息达 30 项,可广泛用于语音识别、声纹识别、 说话人质量评估、语料库语言学、会话分析、二语习得、语言类型学等研究。

    为了验证 AIDATATANG_1505ZH 数据集的品质,该论文详细介绍了在 Kaldi 上开发了一套语音识别基准实验。并对比了目前与其同规模中文语音数据集的语音识别效果,从而验证了所述数据集的品质。实验结果表明:相较于同规模中文语音数据集,基于此数据集训练的语音识别模型效果更好。

    同时,该篇论文的结尾处,还验证了在该数据集的基础上增加了大量文本语料,进而训练出更通用的中文口语语言模型,进一步上提升了语音识别效果。
    在这里插入图片描述
    (图片来自论文内容)

    该篇论文将有助于研究人员使用AIDATATANG_1505ZH数据集。为了更便于人们研究和使用,该中文语音识别模型也已开源,以推动中文语音识别技术的发展。

    可以查看:《基于《Kaldi语音识别》技术及开源语音语料库分享》
    地址:https://www.datatang.com/news/info/laboratory/203

    完整版论文《AIDATATANG_1505ZH: A Large-Scale Chinese Speech
    Corpus for Deep Learning(AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库)》全文,请私信联系!

    展开全文
  • 语音识别语料库

    2020-03-25 19:09:17
    开源语料库集:http://www.openslr.org/resources.php 1.中文普通话: 1.1aishell 数据: http://www.openslr.org/resources/33/ http://cn-mirror.openslr.org/resources/33/ [镜像](不过在linux上下载时好像没s...

    开源语料库集:http://www.openslr.org/resources.php
    1.中文普通话:

    1.1aishell

    数据:
    http://www.openslr.org/resources/33/
    http://cn-mirror.openslr.org/resources/33/ [镜像](不过在linux上下载时好像没s上面的网址快)

    178小时
    400个说话者(训练集:340,验证集:40,测试集:20)男186,女214
    麦克风(44.1KHZ 16-bit),安卓(16kHZ 16-bit),iOS(16kHZ 16-bit)
    人工文本转写准确率在95%以上
    

    kaldi实例:https://github.com/kaldi-asr/kaldi/tree/master/egs/aishell/s5
    在这里插入图片描述
    SOTA: 4.07% training on 8000 hours data.
    THE SPEECHTRANSFORMER FOR LARGE-SCALE MANDARIN CHINESE SPEECH RECOGNITION

    2.2 AISHELL-2

    数据:
    训练集:
    学术申请:aishell.foundation@gmail.com
    商用申请:bd@aishelldata.com
    验证集&测试集:http://aishell-eval.oss-cn-beijing.aliyuncs.com/TEST%26DEV%20DATA.zip

    训练集:1000小时,全部为iOS系统手机录制16kHZ 16-bit
    1991说话者(845男性,1146女性)
    文本转录正确率96%以上
    验证集:2500 utterances from 5 speakers
    测试集:5000 utterances from 10 speakers
    

    kaldi实例:https://github.com/kaldi-asr/kaldi/tree/master/egs/aishell2
    在这里插入图片描述
    SOTA: 3.71%来自依图科技

    2.多语言混合

    2.1 SEAME(中英混合)

    数据
    需要购买

    66.8小时,来自于自然对话和采访talks。
    包含155个说话者,115个新加坡人和40个马来西亚人。
    男性女性比例分别为55%和45%。
    普通话和英语单语片段比例分别为12%和6%。
    

    分集:
    (参考论文:TOWARDS END-TO-END CODE-SWITCHING SPEECH RECOGNITION
    在这里插入图片描述

    3.其他

    3.1 MUSAN

    数据:
    http://www.openslr.org/resources/17/musan.tar.gz
    16KHz音频
    语音:60h44m,全部来自公共场合背景的语音
    其中:20h21m来自阅读Librivox,一半是英语,其余是11种语言。40h1m来自美国政府部门语音,全部为英语。
    音乐:42h31m,被分为Western art music (e.g., Baroque, Romantic, and Classical)和popular genres (e.g., jazz, bluegrass, hiphop, etc).。 标签有体裁、表演者、有无vocal。对于Western art music,有作曲者标签。
    噪音:6h,929种。包括技术性噪音(如,DTMF音调、拨号声、传真机器噪音等)和环境噪音(如,汽车空转声、雷声、风声、脚步声、纸的沙沙声、雨声、动物噪音等),不包括人的交谈声。但有一些是人群的噪音(有模糊的语音)

    参考:
    [1] 希尔贝壳 [官网]
    [2] AISHELL-2:全球最大中文开源数据库 [语音杂谈]
    [3] AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale [论文]
    [3] 语音识别大战又添明星AI公司:依图联合微软、华为推出两款产品 [新闻]

    展开全文
  • 语音合成语料库管理系统的研究与设计,简述语音合成的原理,设计等
  • 中文语音语料调研

    2021-06-29 16:17:16
    许多开源语音语料库都可以从openslr下载。 一、ST-CMDS 简介:ST-CMDS是由一个AI数据公司发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句...
  • Facebook发布多语种语音-文本翻译语料库CoVoST,包括11种语言(法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语和中文)的语音、文字转录及英文译文。其中数据集和论文如下: ...
  • 保险行业语料库 详细文档 大家怎么说 看了下您的项目,我觉得这份数据可以用于保险领域的中文问答研究,对于较短的问题翻译很准确,长度较长的答案翻译就有些不连贯的问题,大体上关键词信息和一些上下文信息都有...
  • 国内外最好的语料库汇总

    万次阅读 2019-07-18 15:25:57
    今天的主题是语料库包括语料库SSCI期刊访谈,语料库(翻译学)研修,语料库工具、网站集锦。欢迎关注上海语言学通讯 国内外语料库汇总 语料是翻译和做语言研究的基础,如何收集语料在整个过程中就显得十分重要,国内...
  • casia汉语情感语料库

    2016-06-08 17:21:16
    可用于情绪语音识别,中文语料库
  • 中文情感分析语料库

    千次阅读 2017-11-05 10:33:22
    原文:...中文情感分析的语料库非常少,这五个中文语料库是我在网上的搜集的。 数据集1:情感挖掘的酒店评论语料 U
  • 【自然语言处理】浅谈语料库

    千次阅读 多人点赞 2018-11-05 10:19:29
    文章目录【自然语言处理】浅谈语料库前言一、浅谈语料库1、语料和语料库2、语料库语言学3、 建议语料库的意义二、语料库深入了解1、语料库划分与种类2、语料库构建原则3、语料标注的优缺点三、自然语言处理工具包:...
  • 语料库

    千次阅读 2019-09-30 18:02:03
    由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作; 结构: {"english": , "chinese": <chinese>} 其中,english是英文句子,chinese是...
  • CASIA汉语情感语料库

    2018-04-06 21:33:35
    资源名称 CASIA汉语情感语料库 共包括四个专业发音人,六种情绪,共9,600句不同发音,包括300句相同文本和100句不同文本,可供各种分析实验使用 本数据集包含部分数据 用途 为研究情感语音所设计的语料
  • THCHS-30:一个免费的中文语料库

    千次阅读 2018-05-10 20:59:04
    摘要和第一部分是介绍目前语音识别开源语音库的现状,包括英文和中文的,由此引出来THCHS-30语料库。都是一些无关痛痒的介绍,所以不做翻译了。以下是正式翻译:2 THCHS-30的特点这部分我们介绍THCHS-30语音库。这个...
  • 中科院自动化所录制的情感语料库,数据库包括奖金10000条语音。发音为中文数据库包括angry、fear、happy、neutral、sad和surprise六种情绪,四个演员对300句相同文本和100句不同文木进行朗诵。收集的语音信号基本是...
  • 这是非正式互动的中文口语语料库的L1组件的可下载版本-口语L1语料库。 其内容如下。 此下载中的文件 VERSION.txt 口语/未加标签 原始文本文件。 没有标题。 语音/元数据 包含演讲者和录制元数据的文本文件。 中国...
  • 日本语语料库

    千次阅读 2018-08-14 09:40:24
    来自《日语语料库建设的现状综述》上海外国语大学 毛文伟 2009年 (1)EDR语料库(EDRコーパス) 该语料库由日本电子化辞书研究所开发,并于1995年推出。素材选自新闻报道和杂志, 规模为 20 万句, 另有 10 万 句...
  • 国内可外用免费语料库下载资源汇总   (一) 国家语委1.国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载...
  • 本篇文章主旨为整理目前开源的语音语料,便于相关从业者使用。首先,我们需要为这些为开源数据做贡献的个人、公司或者组织表达敬意,有了这些开源的数据,才能促进语音合成的发展。 我把个人搜集的语音合成、语音...
  • 之前找了很久才找到了,...CASIA汉语情感语料库 共包括四个专业发音人,六种情绪,共9,600句不同发音,包括300句相同文本和100句不同文本,可供各种分析实验使用 本数据集包含部分数据 用途 为研究情感语音所设计的语料
  • 1.aishell: AI SHELL公司开源178小时中文语音语料及基本训练脚本,见kaldi-master/egs/aishell 2.gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08) 3.hkust: 中文电话数据集(LDC2005S15, LDC2005T32) ...
  • 1.aishell: AI SHELL公司开源178小时中文语音语料及基本训练脚本,见kaldi-master/egs/aishell 2.gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08) 3.hkust: 中文电话数据集(LDC2005S15, LDC2005T32) 4
  • 如果不想用他人的语料库而使用自己语料库来构建解码器,坑比较多过程也比较复杂,在这里做个笔记。 kaldi的安装比较简单,参照这个的博客:http://blog.topspeedsnail.com/archives/10013 如果安装过程中遇到...
  • 摘要和第一部分是介绍目前语音识别开源语音库的现状,包括英文和中文的,由此引出来THCHS-30语料库。都是一些无关痛痒的介绍,所以不做翻译了。 以下是正式翻译: 2 THCHS-30的特点 这部分我们介绍THCHS-30语音库...
  • 语料库语言学(corpus linguistics):基于语料库进行语言学研究。 研究内容: 语料库的建设与编纂; 语料库的加工和管理技术; 语料库的使用,包括在语言学研究(言语、 词汇和语义研究等)中的应用和在自然...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,924
精华内容 1,569
热门标签
关键字:

中文语音语料库