2019-03-22 09:48:45 king_audio_video 阅读数 1307
  • 智能对话机器人开发实战视频教程

    机器人开发实战教程、该视频课程共涵盖四大方面: 1.案例驱动:三大智能对话机器人需求场景,三个完整案例; 2.源码操作:内含完整程序源码和数据集; 3.实战指引:覆盖智能对话机器人实战案例开发; 4.系统学习:一套完整的智能对话机器人开发方法,三大智能对话框架; 任务作业: 1.写一个闲聊型智能助手,要求支持日常问候,无语料答案时,可以访问搜索引擎;2.写一个基于知识图谱的音乐问答机器人,支持基于歌曲查找歌手,基于歌手查找专辑;3.写一个智能闹钟设置机器人,支持闹钟设置。 (注意: 作业需写在CSDN博客中,请把作业链接贴在评论区,老师会定期逐个批改~~)

    2035 人正在学习 去看看 张子良

                                    语音识别语料收集及语料库制作

目录

                                    语音识别语料收集及语料库制作

数据交易平台:

语料库建立方法:

语料库制作规范和过程:


本内容全原创,因作者才疏学浅,偶有纰漏,望不吝指出。本内容由灵声讯音频-语音算法实验室整理创作,转载和使用请与“灵声讯”联系,联系方式:音频/识别/合成算法QQ群(696554058)


数据交易平台:

1.海天瑞声

http://kingline.speechocean.com/category.php?id=120&pf=0&lang=0&ord=20&page=1&lang_sp=Chinese%20English

2.数据堂.

http://www.datatang.com/detail/69

3.语料库语言学在线

http://www.corpus4u.org/

 

语料库建立方法:

  1. http://cdmd.cnki.com.cn/Article/CDMD-10602-101237769htm
  2. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-ZGZR200310002037.htm
  3. 中国学习者英语语料库(CLEC)
  4. 见附件《语料库》

 

语料库制作规范和过程:

 

                                                                    

 

                                                                            

 

 

附件:语料库资料全集(QQ群696554058文件内)

 

灵声讯

整理于2018-01-02

 

加群和关注公众号请扫二维码:

                                                                                

福利小贴士:

理科只是为自己插上腾飞的翅膀,文科才能让你飞黄腾达,同意的点赞,谢谢!

赠送原创诗歌公众号“天一色”,以飨读者!

2019-03-26 20:13:14 king_audio_video 阅读数 2138
  • 智能对话机器人开发实战视频教程

    机器人开发实战教程、该视频课程共涵盖四大方面: 1.案例驱动:三大智能对话机器人需求场景,三个完整案例; 2.源码操作:内含完整程序源码和数据集; 3.实战指引:覆盖智能对话机器人实战案例开发; 4.系统学习:一套完整的智能对话机器人开发方法,三大智能对话框架; 任务作业: 1.写一个闲聊型智能助手,要求支持日常问候,无语料答案时,可以访问搜索引擎;2.写一个基于知识图谱的音乐问答机器人,支持基于歌曲查找歌手,基于歌手查找专辑;3.写一个智能闹钟设置机器人,支持闹钟设置。 (注意: 作业需写在CSDN博客中,请把作业链接贴在评论区,老师会定期逐个批改~~)

    2035 人正在学习 去看看 张子良

语料库,就是存放语言材料的地方。现代概念中的语料库,是指存储在计算机存储器的原始语音或经过处理后代有语言学信息标注的语料文本。语料库研究涉及自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供客观全面的数据支持语音识别系统的开发。

语音识别领域中,最关键一歩就是选择适合的语料对其进行识别模型训练,对语料的要求就是要尽可能地覆盖所有的语音语言现象,且数据不能太稀疏。同时针对listensin在线学习的多业务场景,就要训练多个模型,因此设计大词汇量多属性特征的语料库至关重要。

在大词汇量连续语音识别系统中,为了训练鲁棒性强的声学模型,收集语料需要满足以下几条。第一就是要保证训练语料库能包括尽可能多的语言和语音现象,以避免出现声学模型训练数据稀疏的问题。第二是音素的覆盖要全,是指在识别系统中的每一个最小识别单元都应该出现在所设计的语音语料中。要保证声学模型训练的精确,也可以要求识别系统中每一个最小的识别单元在语料中出现的次数要大于一定值。第三是音素要均衡,就是指每个音素单元在语料中出现的次数与别的音素单元相比较,不能出现太大偏差。合理的音素平衡能够在确保音素覆盖率的基础上,有效地控制语音语料库的规模。下面给出语料库的设计需求和关键表的属性:

核心需求

1).说话人信息的保存于维护。

2).语料文本,波形文件,标注文件的保存与更新。

3).训练,测试数据的按需抽取与组合。

4).训练模型的生成与保存。

关键表属性

1).说话人信息的保存与维护。这类数据主要通过保存说话人的编号、姓名、性别、年龄、年级、英语水平、地域等信息来区分不同的说话人。

2).语料文本,波形文件,标注文件的保存与更新。语料文本这类数据主要通过语料标号、语料信息等各种方式保存文本语料。不同用户可以通过查询系统访问这类数据。语音波形文件这类数据主要通过语音文件编号、语音录制文本信息、录制人的信息、语音文件存储位置信息等方式进行保存。用户录音完成后,可以上传本次录音的波形文件,也可以通过整理上传已有的波形文件,系统自动对该文件进行保存,用户可以根据模型训练需要抽取,组合不同的波形文件与标注文件完成训练。标注文件这类数据主要通过标注编号、标注文件对应的波形文件信息、标注文件本身等方式来保存,用户可以通过査询找到相应的标注文件的数据。

3).训练,测试数据的按需抽取与组合。主要是针对不同的业务场景训练不同的识别模型,方便快速从数据库中抽取训练,测试数据集。

4).模型文件的生成与保存。将训练以后的模型文件写入数据库保存。

ASR-CDB逻辑结构图

                           

                                                                                       图1 语料库逻辑结构图

维护扩张

随着公司发展,势必会对语音识别的要求更高。为了方便以后很好的维护该数据库,目前的设计提供如下扩展的接口:

1).当前设计时方便内部训练模型使用,后期可以增加管理员信息表做成个完整的管理与用户分开的DB管理系统。

2).随着业务增长,该数据库也可以增加用户认证,语音采集,后台录音,数据保存等C/S架构的语料库管理系统。

 

灵声讯

整理于2019-03-01

加群和关注公众号请戳下面:

 

                                                                                                                  

                                                                                          

福利小贴士:

理科只是为自己插上腾飞的翅膀,文科才能让你飞黄腾达,同意的点赞,谢谢!

赠送原创诗歌公众号“天一色”,以飨读者!
 

2019-12-01 16:12:17 weixin_40680322 阅读数 49
  • 智能对话机器人开发实战视频教程

    机器人开发实战教程、该视频课程共涵盖四大方面: 1.案例驱动:三大智能对话机器人需求场景,三个完整案例; 2.源码操作:内含完整程序源码和数据集; 3.实战指引:覆盖智能对话机器人实战案例开发; 4.系统学习:一套完整的智能对话机器人开发方法,三大智能对话框架; 任务作业: 1.写一个闲聊型智能助手,要求支持日常问候,无语料答案时,可以访问搜索引擎;2.写一个基于知识图谱的音乐问答机器人,支持基于歌曲查找歌手,基于歌手查找专辑;3.写一个智能闹钟设置机器人,支持闹钟设置。 (注意: 作业需写在CSDN博客中,请把作业链接贴在评论区,老师会定期逐个批改~~)

    2035 人正在学习 去看看 张子良

一、语音识别语料库(OpenSLR网站:http://www.openslr.org/)
(一)TIMIT语料库
630个说话者的宽带录音,8个主要方言区的美式英语,每人10句。
(二)LibriSpeech语料库
大型英语阅读语料库,没有标记。
(三)中文语料库
1.gale_mandarin:中文新闻广播数据集
2.hkust:中文电话数据集
3.thchs30:清华大学30小时数据集

2014-04-02 13:45:26 tianshi_1105 阅读数 1845
  • 智能对话机器人开发实战视频教程

    机器人开发实战教程、该视频课程共涵盖四大方面: 1.案例驱动:三大智能对话机器人需求场景,三个完整案例; 2.源码操作:内含完整程序源码和数据集; 3.实战指引:覆盖智能对话机器人实战案例开发; 4.系统学习:一套完整的智能对话机器人开发方法,三大智能对话框架; 任务作业: 1.写一个闲聊型智能助手,要求支持日常问候,无语料答案时,可以访问搜索引擎;2.写一个基于知识图谱的音乐问答机器人,支持基于歌曲查找歌手,基于歌手查找专辑;3.写一个智能闹钟设置机器人,支持闹钟设置。 (注意: 作业需写在CSDN博客中,请把作业链接贴在评论区,老师会定期逐个批改~~)

    2035 人正在学习 去看看 张子良

方言普通话语音识别语料库(单句部分)-600人

 

尽管普通话语音识别系统的开发取得了很大进步,但在面对方言地区普通话时,遇到了挑战。广大方言地区、特别是南方方言区的普通话和标准普通话存在许多差别。因此,要提高方言语音识别率、进行方言语音识别,研究方言地区普通话的语音特点、比较方言地区普通话与方言及标准普通话之间的异同十分重要。需要采集北方方言、吴方言、湘方言、赣方言、客家方言、闽北方言、闽南方言和粤方言在内的八大方言语料。

全部录音人共包括600人,不同录音人的地域分布如表1所示。

                                                                          表1 录音人地域分布

地区

录音人数

比例

北方方言区

250

41.69%

吴方言区

50

8.33%

湘方言区

50

8.33%

赣方言区

50

8.33%

客家方言区

50

8.33%

闽北方言区

50

8.33%

闽南方言区

50

8.33%

粤方言区

50

8.33%

各个地域录音人的基本信息分布情况如表2所示。

                                                                          表2 录音人基本信息分布

年龄

16-30岁(45%)

31-45岁(45%)

46-55岁(10%)

性别

男女比例各占50%

口音

中度二级口音80%,一级乙等5%,三级15%。

文化程度

90%是高中以上学历,10%是高中以下学历

 

本数据集包含了600名发音人在安静环境下分别对上万条单句的录制结果,单句范围包括习惯用语、短信、广告、故事、诗歌、天气、新闻、讲座、散文、邀请函、演讲词、信件、通知等13个主题。下面列出了部分短信语料文本示例:

 

61. 亲爱的:如果你不答应嫁给我,按照我的惯例——我会立刻去自杀!
62. 让嘴唇的游荡,刻下你的模样,我想再过一千万秒,能否相见在教堂?
63. 常洗手,多通风,不抠鼻子不揉眼,不凑热闹不传谣,健康快乐度五一!
64. 包包,她去找潘了,还蹭了人家一顿饭,不要说是我说的啊!
65. 别太苦自己,别给自己压力过大,放松自己,保重自己都会拥有其他一切。
66. 差不多了,肚子还好,不算太疼了,明天我再和你联系。
67. 当天上午采访,下午两点到三点开会,现在不好说。
68. 对了,用手机时一定用那个钮,让手机自己开盖,别用手翻盖。
69. 对了,怎么上网听歌啊,今天弄了半天也没弄明白。
70. 改天再说吧。我今天要出去逛街,不知道几点回来。
71. 好冷啊,在车站等车浑身都冻透了,还是你幸福埃
72. 环境还满意给人一种清新感觉。屋里都是隔断好的,电脑桌都有。
73. 今天大跌,请不要慌张,留在手上看看,等几天再说!
74. 今晚七点七套由我的节目,大家有空就看一眼吧,欢迎多提宝贵意见。
75. 据说每天吃一瓣新鲜蒜头,脸上可保不再见粉刺。
76. 快看看车厢有没有老幼病残给让个座,你得体现雷锋精神埃
77. 那就好,看啥小说啊,我躺着呢,所以就跟你聊聊呀。
78. 你骂我们男人我不吭声还不行,是不是想让我反抗阿。
79. 你问明白到什么地方买,着不着急,我明天去行不?
80. 什么事情不要强求,俗话说的好水到渠成,有缘自会相见。
81. 我今早又看见那群喜鹊了,还有一只离我可近了。
82. 我现在主要上外面跑手续,虽然累但挺有意思的。
83. 吸烟以示潇洒的观念已经老土了。为了健康,你就少吸两支吧!
84. 下午我们要去沙河给爷爷奶奶扫墓可能没时间了.
85. 下载一个MSN软件,安装,然后用你的邮件帐户作为msn的帐号。
86. 辛苦了,顺便帮我带回来一卷双面胶回来,谢了。要是没有就算了,也不急。
87. 我在上班不要老骚扰我呀。我今天挨批啦,我怎么这么笨啊
88. 也不一定自己,这不是打了八五折么,就出两趟车。


数据下载:http://www.datatang.com/data/39323

数据堂-数据共享服务平台


2014-03-18 09:47:34 tianshi_1105 阅读数 2373
  • 智能对话机器人开发实战视频教程

    机器人开发实战教程、该视频课程共涵盖四大方面: 1.案例驱动:三大智能对话机器人需求场景,三个完整案例; 2.源码操作:内含完整程序源码和数据集; 3.实战指引:覆盖智能对话机器人实战案例开发; 4.系统学习:一套完整的智能对话机器人开发方法,三大智能对话框架; 任务作业: 1.写一个闲聊型智能助手,要求支持日常问候,无语料答案时,可以访问搜索引擎;2.写一个基于知识图谱的音乐问答机器人,支持基于歌曲查找歌手,基于歌手查找专辑;3.写一个智能闹钟设置机器人,支持闹钟设置。 (注意: 作业需写在CSDN博客中,请把作业链接贴在评论区,老师会定期逐个批改~~)

    2035 人正在学习 去看看 张子良

简介:本数据是600人方言普通话语音识别语料库的样例,包括4个发音人(两男两女)录制的少量数据。完整语料库包括600名发音人,发音人覆盖全国不同地区、年龄、性别及文化程度,录音环境覆盖安静、座机、手机、车载、背景音乐及嘈杂声等场景,录音语料覆盖单字、词汇、语句、自然对话及语篇,采样率分8K和44K两种,采用16比特量化,标注粒度包括文字、拼音、韵律及音频标注。


用途:语音识别



数据堂-数据共享服务平台

没有更多推荐了,返回首页