2019-12-07 10:20:36 qq_23128065 阅读数 37
  • CSDN Markdown简明教程

    Markdown把作者从繁杂的排版工作中解放出来,实现易读易写的文章写作,已经逐渐成为事实上的行业标准。CSDN博客支持Markdown可以让广大博友更加专注于博客内容,大赞。但是,不少博友可能对Markdown比较生疏,系列文章《Markdown简明教程》扼要介绍CSDN Markdown,本视频为系列教程的配套教程,希望可以对大家有所帮助。

    29377 人正在学习 去看看 王海庆

如果要自己开发一个语音识别系统,首先需要一个声音的录音程序。这个录音程序主要干的事就是将我们人说话的模拟信号转换成数字信号,也就是语音编码中的量化。

语音编码主要有4个步骤的过程:

参考  https://blog.csdn.net/miaokoko/article/details/79183975

模拟信号------采样------量化--------数字信号

模拟信号也就是我们人发出的声音信号,模拟信号是连续的,没有办法用计算机存储,所以为了能让计算机存储模拟信号必须对其进行采样。

采样也就是每隔一段时间采一个点,让人说话的模拟信号变成离散信号,可以让计算机处理。

但是这时候计算机还是不能存储,因为没有计算机里面都是使用二进制存储,必须将每一个模拟信号的直转换为一个量值,让计算机能够表达并存储,所以就需要对采样的值进行量化

量化也就是我们编程中遇到的16位PCM编码中的16位,每16位表达一个量化的值,也可以选择8位。

PCM编码就是对模拟信号进行四个过程转换后得到的数字信号,但是此使如果我们要播放音频,还需要将信号转换为可以播放的格式,一般选择无损的话会选择wav格式,wav只是简单的在PCM数据上加了自己的头,数据部分不变。具体格式很多,可以参考:https://blog.csdn.net/houxiaoni01/article/details/78810674  作者写的很全。

 

然后拿到数字信号就可以进行语音识别了。

语音识别主要过程有:

一段音频------分帧(分成若干小段音频)------特侦提取(一般是MFCC特征)--------识别(声学模型)-------组合(语言模型)

首先一段音频,也就是上面我们的录音程序录到的一段音频文件,比如A.wav/A.mp3......

分帧也就是将我们录到的这一段音频隔一段时间切割一下,比如我们录了1分钟的声音,现在我们每1秒分割一下,会得到60个样本。

特征提取一般是提取MFCC特征,使用的主要是傅里叶变化的原理,有一些现成的工具(librosa http://librosa.github.io/librosa/),有兴趣也可以看看源码。

然后就是通过两个模型来识别。这里主要的两个模型,声学模型和语言模型,最好使用已经训练好的,因为已有的模型是在大量数据样本下训练的,有更好的棒性。如果要自己完成整个过程,需要自己对数据进行标注。

声学模型主要干的事是将我们分帧后的数据获取到对应的因素。

语言模型也就是根据不同语言的结构,前后关系的一些句子,匹配到和声学模型识别到的最相似的句子,给出一个人类可以读懂的句子。

语音识别大致就是这样几个过程。

还需要了解一些最常用的算法:比如EM算法,HMM(隐马尔可夫),LSTM,RNN,基本的神经网络等。

学习语音识别也可以多在GitHub上看一些项目。多看源码,了解具体的过程。

 

 

2016-11-21 16:04:53 sheshou199 阅读数 2318
  • CSDN Markdown简明教程

    Markdown把作者从繁杂的排版工作中解放出来,实现易读易写的文章写作,已经逐渐成为事实上的行业标准。CSDN博客支持Markdown可以让广大博友更加专注于博客内容,大赞。但是,不少博友可能对Markdown比较生疏,系列文章《Markdown简明教程》扼要介绍CSDN Markdown,本视频为系列教程的配套教程,希望可以对大家有所帮助。

    29377 人正在学习 去看看 王海庆
最近在看kaldi,搜集了一些资料,列下来以供后续参考。
语音识别原理部分:
1、https://www.zhihu.com/question/20398418
知乎上比较火的原理解释。
2、http://blog.csdn.net/abcjennifer/article/details/27346787?utm_source=tuicool
GMM-HMM语音识别模型 原理篇

3、http://blog.csdn.net/wbgxx333/article/details/39006885

语音识别基本原理介绍--gmm-hmm中训练的完整版

关于kaldi部分的:

1、https://github.com/kaldi-asr/kaldi 一个开源的kaldi资料

2、http://blog.csdn.net/xiaoding133/article/details/8842945 上面是别人总结的语音识别方向比较全面的资料来源,非常全面

3、http://blog.csdn.net/lijin6249/article/details/51838936  基于kaldi的在线中文识别,online的操作介绍

4、http://blog.csdn.net/wbgxx333  一个研究语音的大神博客。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2017-11-08 20:58:33 u010212101 阅读数 492
  • CSDN Markdown简明教程

    Markdown把作者从繁杂的排版工作中解放出来,实现易读易写的文章写作,已经逐渐成为事实上的行业标准。CSDN博客支持Markdown可以让广大博友更加专注于博客内容,大赞。但是,不少博友可能对Markdown比较生疏,系列文章《Markdown简明教程》扼要介绍CSDN Markdown,本视频为系列教程的配套教程,希望可以对大家有所帮助。

    29377 人正在学习 去看看 王海庆

识别过程很重要的理论知识:
1、MFCC、GMM、NN
2、HMM、decision tree、viterbi

参考资料:
1)Speech and Language Processing 2nd edition (第四章、第六章、第九章)(中文翻译,博客参见:http://blog.csdn.net/quhediegooo/article/details/56677147系列)(强推)
2)Speech and Language Processing 3nd edition(官网:http://web.stanford.edu/~jurafsky/slp3/
3)语音信号处理–赵力
4)htk-book
5)语音识别系列课件(IACAS)

2019-04-11 21:38:09 qq_37385726 阅读数 1936
  • CSDN Markdown简明教程

    Markdown把作者从繁杂的排版工作中解放出来,实现易读易写的文章写作,已经逐渐成为事实上的行业标准。CSDN博客支持Markdown可以让广大博友更加专注于博客内容,大赞。但是,不少博友可能对Markdown比较生疏,系列文章《Markdown简明教程》扼要介绍CSDN Markdown,本视频为系列教程的配套教程,希望可以对大家有所帮助。

    29377 人正在学习 去看看 王海庆

写在前面

都知道语音识别有GMM-HMM模型,也分别了解了什么是:

GMM(混合高斯模型) https://blog.csdn.net/qq_37385726/article/details/89198387

MMC(马尔可夫链) https://blog.csdn.net/qq_37385726/article/details/89219056

HMM(隐马尔可夫模型) https://blog.csdn.net/qq_37385726/article/details/89219695

但是却发现不清楚GMM与HMM与语音识别有什么关系,更不知道GMM-HMM模型究竟是什么

好像没有看到有系统讲解很清楚的博客

于是我根据这些零散的学习,整理出了一套比较方便适于理解的系列博客。

由于文章的主要内容均为借鉴,故标为转载。  

原始整理为:qq_37385726

转载请注明出处

系列博客

  1. 语音识别之GMM-HMM模型(一):语音识别简介与混合高斯模型-GMM
  2. 语音识别之GMM-HMM模型(二):隐马尔科夫模型-HMM
  3. 语音识别之GMM-HMM模型(三):GMM-HMM模型应用于语音识别任务原理详解

 

目录

GMM-HMM模型应用于语音识别任务步骤及原理

一、训练GMM-HMM模型

1. 对原始语音信号预处理

2. 对原始语音提取声学特征(Acoustic Feature)

3. GMM利用EM算法建模声学特征

4. 利用声学特征训练HMM

二、应用GMM-HMM模型识别语音



 

GMM-HMM模型应用于语音识别任务步骤及原理

一、训练GMM-HMM模型

1. 对原始语音信号预处理

  • 信号预处理

通过消除噪声和信道失真对语音进行增强。

  • 分帧

分帧就涉及到帧长,对于帧长要满足的条件有两点:

  1. 正常语速下,音素的持续时间大约是 50~200 毫秒,所以帧长一般取为小于 50 毫秒。
  2. 语音的基频,男声在 100 赫兹左右,女声在 200 赫兹左右,换算成周期就是 10 毫秒和 5 毫秒。既然一帧要包含多个周期,所以一般取至少 20 毫秒。

综上帧长一般取为 20 ~ 50 毫秒,20、25、30、40、50 都是比较常用的数值,以上摘自知乎逻辑上很合理的解释,我通常听见的是(10-30ms)

一帧的数据长度 N=帧时间长度/T=帧时间长度(单位秒)*fs(单位Hz) 

 

可以理解为若干帧对应一个音素,若干音素对应一个单词,如果我们想要识别对应的单词状态,我们只要知道对应的帧状态就行

 

2. 对原始语音提取声学特征(Acoustic Feature)

在过去,最流行的语音识别系统采用MFCC或RASTA-PLP作为特征向量。

 

3. GMM利用EM算法建模声学特征

GMM被整合进HMM中,用来拟合基于状态的输出分布。

原始的语音数据经过短时傅立叶变换或取倒谱后会成为特征序列,在忽略时序信息的条件下,GMM就非常适合拟合这样的语音特征。

用GMM建模声学特征(Acoustic Feature)O1,O2,...,On,可以理解成:

每一个特征是由一个音素确定的,即不同特征可以按音素来聚类。由于在HMM中音素被表示为隐变量(状态),故等价于:
每一个特征是由某几个状态确定的,即不同特征可以按状态来聚类。

则设P(O|Si)符合正态分布,则根据GMM的知识,O1,O2,...,On实际上就是一个混合高斯模型下的采样值。

因此,GMM被整合进HMM中,用来拟合基于状态的输出分布。

 

 

4. 利用声学特征训练HMM

确定状态转移矩阵,是执行解码问题的基础。

而状态转移矩阵的确定即等价于HMM的训练问题(即状态转移矩阵u=max(P(u|O))),从语音特征序列中利用EM算法学习得到状态转移矩阵。

 

 

二、应用GMM-HMM模型识别语音

è¿éåå¾çæè¿°

  • 对待识别语音做信号预处理
  • 对待识别语音提取声学特征
  • 对声学特征利用Viterbi算法解码

对声学特征解码后得到的是状态序列,即音素序列。如果把声学模型的结果表示为句子,往往效果不尽如意,所以还需要用语言模型把识别出的各个音素纠正为正确的句子。

HMM一开始是在信息论中应用的,后来才被应用到自然语言处理还有其他图像识别等各个方面。下面举两个例子说明他的应用,一个是输入法的整句解码,一个是语音识别。有图为证:

将上图中的拼音换成语音,就成了语音识别问题,转移概率仍然是二元语言模型,其输出概率则是语音模型,即语音和汉字的对应模型。

 

  • 利用语言模型优化

对声学特征解码后得到的是状态序列,即音素序列。如果把声学模型的结果表示为句子,往往效果不尽如意,所以还需要用语言模型把识别出的各个音素纠正为正确的句子。

 

2015-09-10 21:46:07 strive_zhou 阅读数 471
  • CSDN Markdown简明教程

    Markdown把作者从繁杂的排版工作中解放出来,实现易读易写的文章写作,已经逐渐成为事实上的行业标准。CSDN博客支持Markdown可以让广大博友更加专注于博客内容,大赞。但是,不少博友可能对Markdown比较生疏,系列文章《Markdown简明教程》扼要介绍CSDN Markdown,本视频为系列教程的配套教程,希望可以对大家有所帮助。

    29377 人正在学习 去看看 王海庆


GMM-HMM语音识别模型原理篇(主要)http://blog.csdn.net/abcjennifer/article/details/27346787

GMM的EM算法实现 http://blog.csdn.net/abcjennifer/article/details/8198352

隐马尔科夫模型HMM自学联系实际例子的HMM解释)http://blog.csdn.net/meijia_tts/article/details/7183201

GMM-HMM语音识别简单理解 (语音识别大体框架) http://www.cnblogs.com/tornadomeet/p/3276753.html

Forward、Viterbi、Forward-Backward

http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/summary/s1_pg1.html
http://www.inf.ed.ac.uk/teaching/courses/asr/2012-13/asr03-hmmgmm-4up.pdf





语音识别入门

阅读数 103

没有更多推荐了,返回首页