2019-05-13 20:13:41 yibuerbusanbu 阅读数 478
  • 蜂鸣器-第1季第11部分

    本课程是《朱有鹏老师单片机完全学习系列课程》第1季第11个课程,主要讲解了无源和有源蜂鸣器的概念和区别,蜂鸣器的发声原理、定时器控制蜂鸣器的编程技巧。本节的学习目标是学会使用蜂鸣器,同时提升程序的编写和调试能力。

    1900 人正在学习 去看看 朱有鹏

1. 概念:

语音识别中的字典也被称为发音字典,顾名思义就是用来描述各个词的发音或者说给出各个词和音素之间的关系;

2.作用:

语音识别系统中所有词的结果均出自于字典,也就是说他是识别系统处理词和音素的集合;通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作;

3.制作:

以中文识别为例:
step 1:
首先需要确定的是拼音到音素的转换规则/映射关系。
可以有不同的映射关系,如汉字一的拼音 “yi1”可以对应 “ii i1”,也可以对应 “y i1”(前者是清华语音识别使用的规则)。
不同的映射关系会产生不同的识别效果。
step 2:
需要列出尽可能多的中文词及其对应的拼音,有多音字的可列出其不同组合。
step 3:
通过以上两个步骤即可实现中文词-音素的转换,也就是G2P(Grapheme-to-Phoneme Conversion)。
通过脚本可实现输入中文词,输出对应音素的功能。

4.参考文献:
What is G2P? http://www.voxforge.org/home/docs/faq/faq/what-is-g2p

内容转自

2020-03-06 16:46:58 weixin_44532659 阅读数 110
  • 蜂鸣器-第1季第11部分

    本课程是《朱有鹏老师单片机完全学习系列课程》第1季第11个课程,主要讲解了无源和有源蜂鸣器的概念和区别,蜂鸣器的发声原理、定时器控制蜂鸣器的编程技巧。本节的学习目标是学会使用蜂鸣器,同时提升程序的编写和调试能力。

    1900 人正在学习 去看看 朱有鹏

多语种发音词典制作方法分享

本文分享者:数据堂 AI-Lab & 数据产品中心 王丽媛
在这里插入图片描述
一、为什么制作发音词典
(一)、因为发音词典使用广泛
语音识别、语音合成。在语音合成数据制作中,文本标注环节需着重处理音素标注问题。
在这里插入图片描述

(二)、独立数据资产
数据产品市场的热门数据资源产品
发音词典和语种一一对应:一个语种只需要一个发音词典
发音词典里包含的词汇尽可能全,至少包含语音数据里的所有词
可以一直添加新词汇及对应的音标,不断扩充词典规模

二、什么是发音词典
(一)、标音系统
IPA、 SAMPA、X-SAMPA、 Kirshenbaum、 K.K.音标、 CMU音标 …

1、IPA
每一个可分辨的读音使用一个符号来表示
107个单独字母用于表示辅音和元音;
31个变音符号用于修饰辅音和元音;
19个用于表示超音段成分(包括音长、声调、重 音、语调等)的特殊符号;
举例:马来语单词:pʰə̆ŋə̆mbaɾɐ
在这里插入图片描述在这里插入图片描述
每种语言都有专门的音位系统
在这里插入图片描述
在这里插入图片描述

怎么打印音标符号?
- 选择合适字体:包含标音系统中的所有符号
- 下载IPA输入法:将EN键盘模式转换成IPA模式

  • 转换标音系统:使用ASCII符号标音系统

支持IPA音标的可用字体
在这里插入图片描述
在这里插入图片描述

下载IPA输入法
在这里插入图片描述
在这里插入图片描述

2、SAMPA
以IPA为基础,只使用 ASCII值在 [32,126] 区间的可打印的符号。
解释:在邮件、博客、论坛等网站上支持的字体非常有限,且在跨平台、跨语言传输时许多符号不可以被正确接收。比如,从英国键盘传送过来的英镑符号(£,ASCII 156)在其他国家可能被接收为!、#等符号。

符号
包括大小写字母A-Za-z、数字0-9、标点符号! “ ‘ ( ) , - . / : ; ? [ ] { }、其他符号# $ % & * + < = > @ \ ^ _ ` | ~、空格。

与IPA的映射

  • 小写字母a-z保持不变
  • 其他字符由上述符号
    重新编码
    在这里插入图片描述
    大多数欧洲语言都已发展了SAMPA表,每张表中都包含了该语言里的所有语音

3、X-SAMPA & Kirshenbaum
SAMPA
SAMPA表有多种语言版本,每种版本设计时都只针对该语言所用到的音标,因此不同版本的SAMPA表互不相容。
X-SAMPA
X-SAMPA是为了统一各种SAMPA字母表而产生的,并且扩展至包含所有国际音标符号,能够把所有音标转写成可打印符号。
Kirshenbaum
也称作ASCII-IPA,是另一种ASCII标音系统

4、多样性
K.K.音标
CMU音标

在这里插入图片描述

  • 很多语言学家把国际音标做局部修改以标记他们所研究的语言,所以国际音标也有很多种。
  • K.K.音标是将国际音标中符合美式英语的符号截取出来,再加上美音特有的儿音组成的音标符号。
  • 可以把国际音标当作英式音标,把K.K.音标当作美式音标,但注意, K.K.音标也是国际音标的一种。
  • CMU音标更便于语音识别的训练和解码。

(二)、标音方法
国际音标【音标】只有一种,但用法【标音法】有两种
根据语音标示的严谨程度,可分为严式标音和宽式标音
1、严式标音
[方括号]
通常包括较多的语音细节,即使那些细节在该语言中并不被用于区分语义。
2、宽式标音
/斜线/
通常仅记录能区分语义的语音特征,而忽略无关的细节。
在这里插入图片描述
在这里插入图片描述

小结
严式标音法在标注时较不会有模棱两可的情况
严式标音法过于追求细节而导致过于复杂
在通常使用中,使用宽式标音法比较合适
为什么宽式标音法也正确?

【音位系统】
音位并不是一种实际的语音,一种音位可以有数种不同的发音,但人们在心理上认为它们是相同的。
比如在现代汉语中,音位/a/可以表示[ɛ]、[ʌ]、[a]、[ɑ]、[œ]、[æ]等
比如在英语中,音位/p/可以表示[p]、[pʰ]等
在宽式标音中,同一音位内的音素变化,在一门语言中是自然而然发生的。
在这里插入图片描述

三、怎么制作发音词典
(一)、流程
在这里插入图片描述

1、语料搜集
自有语料
开源语料
以韩语为例:
自有语料 —> 444372条词汇
zeroth_korean 开源项目 —> 486727条词汇
维基词条 —> 63745条词汇
||
总语料 —> 883724条词汇

2、文本处理
在这里插入图片描述

3、发音规则整理
请教专家、调研论文、维基查询
在这里插入图片描述

4、字形-音标转换
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5、发音词典
以韩语为例:
两个文件:姓名词汇.xlsx 非姓名词汇.xlsx
三列数据:韩语词汇 IPA音标 罗马音标
在这里插入图片描述
在这里插入图片描述

四、思考
清晰的发音规则
干净的语料
程序的开发

五、总结
关键点:
在开始之前,必须了解该语言的字形结构、音韵结构
为达到98%以上的准确率,必须充分理解专家意见、确保发音规则的准确性

2018-05-31 16:20:00 nsh119 阅读数 2363
  • 蜂鸣器-第1季第11部分

    本课程是《朱有鹏老师单片机完全学习系列课程》第1季第11个课程,主要讲解了无源和有源蜂鸣器的概念和区别,蜂鸣器的发声原理、定时器控制蜂鸣器的编程技巧。本节的学习目标是学会使用蜂鸣器,同时提升程序的编写和调试能力。

    1900 人正在学习 去看看 朱有鹏

所谓字典,就是发音字典的意思,中文中就是拼音与汉字的对应,英文中就是音标与单词的对应,其目的是根据声学模型识别出来的音素,来找到对应的汉字(词)或者单词,用来在声学模型和语言模型建立桥梁,将两者联系起来。

字典形式:

                    

字典的大小:

字典的大小一般根据自己识别的方向,尽可能多的覆盖所有的字词,但也要尽可能多的抛弃不需要的字词,以提高检索效率和识别性能。

字典的获得:

现在许多公司都有卖字典的,当然一般公司在做语音识别项目的时候也会去买字典或者去下载一些现用的开源字典进行开发。还有使用工具来生成字典。可以参考一下这边文章:https://blog.csdn.net/sparkexpert/article/details/51732786





2011-04-24 23:46:00 caisenchuan 阅读数 820
  • 蜂鸣器-第1季第11部分

    本课程是《朱有鹏老师单片机完全学习系列课程》第1季第11个课程,主要讲解了无源和有源蜂鸣器的概念和区别,蜂鸣器的发声原理、定时器控制蜂鸣器的编程技巧。本节的学习目标是学会使用蜂鸣器,同时提升程序的编写和调试能力。

    1900 人正在学习 去看看 朱有鹏

     今天主要是学习一些基本知识,上网逛了一圈,发现一些有价值的资料,其中包括这些内容:

     1、语音识别系统的基本任务就是将输入的语音信号,识别成文字符号输出,基本流程如下图所示,基本上分成两个部分:前端处理(Front End Processing, FE)、搜索和解码(Search and Decoding)。其中,搜索和解码需要利用训练好的声学模型(Acoustic Model,AM)、语言模型(Language Model, LM),以及联系这两个模型的发音词典(Lexicon)。(摘自:《语音识别入门(V1.0)》)

 

     2、语音识别技术研究目前以CUED最为开放和活跃,其工具包HTK和相关研究组的网址如下,通过这些网址可以链接到上述语音识别相关的网站。

     http://htk.eng.cam.ac.uk/
     http://mi.eng.cam.ac.uk/research/speech/

 

     3、HTK是由剑桥大学电机系研发的隐藏式马尔可夫模型(HMM)分析工具,使用它可以快速的开发出一套基于HMM的语音识别系统。

 

     参考的资料是:

    《语音识别入门(V1.0)》(中科院自动化所)

    《Using HTK》(台湾国立清华大学,Chi-Yueh Lin)

 

    这么看HTK是一组语音识别的套件,用这个开发可能比较方便,于是学习HTK的用户手册。

 

---------------------------------------------------------------------

 

=2011-04-25=

 

今天继续学习HTK相关的基础知识,参考资料是HTK Book。

 

 

 

jieba分词详解

阅读数 45487

关于ASR

阅读数 1085

基于WFST解码器

阅读数 491

没有更多推荐了,返回首页