2013-04-24 09:26:09 xiaoding133 阅读数 4634
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5921 人正在学习 去看看 杨波

          研究生期间收集了一些有关语音识别方面的网址,感觉非常有用,保留一下,留到以后用。

国际最顶尖会议:
ICASSP:International Conference on Acoustics, Speech and Signal Processing
ICSLP:International Conference on Semiconductor Laser and Photonics
EUROSPEECH:European Conference on Speech Communication and Technology
其他
ICSMC:Int l Conference on Systems, Man & Cybernetics
NAECON:National Aerospace and Electronics Conference
ICTTA:International Conference on Telecommunication Technology and Applications
ISSPA: Information Sciences, Signal Processing and their Applications
ISPACS:International Symposium on Intelligent Signal Processing and Communications Systems
SBEC:Southern Biomedical Engineering Conference
ICAPR:International Conference on Advances in Pattern Recognition
ICOSP: International Conference on Signal Processing Proceedings
ICSLP: International Conference on Spoken Language Processing
ICICIC:International Conference on Innovative Computing, Information and Control
IEMBS:Institute of Electrical and Electronics Engineers
NLPKE: Natural Language Processing and Knowledge Engineering
IECON:Conference of the IEEE Industrial Electronics Society
ICCT:International Council on Clean Transportation
ASRU:Automatic Speech Recognition and Understanding
ISCAS:International Symposium on Circuits and Systems
ISPACS:International Symposium on Intelligent Signal Processing and Communications Systems
ICDSP:International Conference on Digital Signal Processing
SPAWC:signal processing advances in wireless communications
ICCSIT: International Conference on Computer Science and Information Technology
ICSE: International Conference on Software Engineering
ICIAS:International Conference on Intelligent and Advanced Systems
TENCON:Technical Environmental Consulting
ICFCC:International Conference on Future Computer and Communication
WCICA:World Congress on Intelligent Control and Automation
MMSP:international workshop on multimedia signal processing
IROS: Intelligent Robots and Systems
ICSDA: INTERNATIONAL COMBATIVES SELF DEFENSE ASSOCIATION
ICCCE:International Conference on Computer and Communication Engineering
其他的会议还有:ISPA,ASPAA,INDICO,NetCom等

期刊方面:
国内:信号处理,电子学报、声学学报,应用声学,声学工程
国外:最著名的:IEEE Signal Processing Magazine (IF:2.655),一年6期,是双月刊)
            还有IEEE Transactions on Signal Processing (TSP)-- (IF:1.57)
                IEEE Transactions on Circuits and Systems-I: Regular Papers (CAS-I)---(IF:1.139)
                Signal Processing: Image Communication (IF: 1.109)
                IEE Electronics Letters (IF:1.063)
                IEEE Transactions on Circuits and Systems-II: Express Briefs (CAS-II)---(IF:0.922)
                Digital Signal Processing(IF: 0.889)
                IEEE Signal Processing Letters (SPL)---(IF: 0.722)
                Signal Processing (IF: 0.669)
                IET Signal Processing
其中IF为影响因子


1.1 国际语音识别技术研究机构
AT&T 
http://www.research.att.com/editions/201304_home.html
ATR    http://www.slt.atr.co.jp/index.html
BBN    http://www.bbn.com/technology/speech_recognition/
Cambridge University Engineering Department (CUED) http://mi.eng.cam.ac.uk/
Carnegie Mellon University (CMU)
HP Labs  
http://www.hpl.hp.com/
Columbia University
Centre for Speech Technology Research at Edinburgh University
ESAT - PSI Speech Group at K.U.Leuven
International Computer Science Institute (ICSI)
IBM Human Language Technologies    
http://www.research.ibm.com/hlt/
IDIAP Research Institute
INESC-ID Lisboa, Spoken Language Systems Lab
IRST
ISIP
Johns Hopkins University (CLSP)
Speech, Music and Hearing at KTH
LIMSI
Alcatel Lucent (Bell Labs) 
http://www.alcatel-lucent.com/wps/portal/BellLabs
Microsoft    http://research.microsoft.com/en-us/groups/speech/
MIT Spoken Language Systems
Oregon Graduate Institute (OGI) Center for Spoken Language Understanding
Speech and Language Processing Laboratory at Rutgers University
RWTH Aachen
University of Colorado, Boulder (CLEAR)
University of Sheffield
SRI
Furui Laboratory, Tokyo Institute of Technology
University of Illinois at Urbana and Champaign
University of Washington
Universitaet Erlangen-Nürnberg

剑桥大学
http://htk.eng.cam.ac.uk/

CMU大学
http://www.speech.cs.cmu.edu/

张智星 语音识别,机器学习
http://mirlab.org/jang/
安徽科大讯飞
http://www.iflytek.com/

1.2 国际语音识别技术期刊
(1)Speech Communication
(2)Computer Speech and Language (CSL)
(3)IEEE Transactions on Speech and Audio Processing

1.3 国际语音识别技术会议
(1)ICASSP(International Conference on Acoustic, Speech and Signal Processing)
每年一届,10月截稿,次年5月开会。
(2)ICSLP(International Conference on Spoken Language Processing)
偶数年举办,4月截稿,9月开会。
(3)EuroSpeech:奇数年举办,4月截稿,9月开会。

1.4 国际语音识别技术评测
 NIST Spoken Language Technology Evaluations Benchmark Tests
(
http://www.nist.gov/speech/tests/index.htm)

1.5 语音识别技术工具包
 AT&T FSM Library
 CMU-Cambridge Statistical LM Toolkit
 CMU Sphinx
 CSLU toolkit
 CUED HTK
 Edinburgh Speech Tools Library
 KTH WaveSurfer
 MSState ASR Toolkit
 NIST Utility Software
 SPRACHcore software package
 SRI Language Modelling Toolkit
 SoX -- Sound eXchange
 Transcriber
 UCL Speech Filing System
 FBVIEW multi-channel audio file viewer

1.6语音识别网站及相关论坛

http://www.voxforge.org/home/forums/message-boards/acoustic-model-discussions
http://bbs.matwav.com
http://www.yuyinshibie.com/
http://www.ctiforum.com/voice.html
http://liceu.uab.es/~joaquim/phonetics/fon_anal_acus/herram_anal_acus.html
http://www.phon.ucl.ac.uk/resource/scribe/

2011-12-11 15:12:11 txdb 阅读数 4937
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5921 人正在学习 去看看 杨波

    siri的出现让语音识别一下子很热门啊。下午有空,找几篇语音识别的论文看看。发现语音识别的研究圈子好像比计算机视觉封闭。

   像opencv这样的开源库,以及mnist, pascal voc等很容易找到的研究库,语音识别也一时google不出来。

   语音识别的英文翻译:speech recognition

另一方面,IBM的viavoice ,微软的语音识别sdk 倒是很容易下载到,似乎是说语音识别是一个商业化程度比较高的研究领域。

比较简单的文章。

   1.小词汇量语音识别系统的实现 这个来自pudn网。一个简单的语音识别系统,分端点检测,特征提取和量化,然后由HMM识别。

   2.基于MFC 平台下的语音识别系统的设计 百度文档下的。这个文章演示了用ms speech sdk 5.1 创建一个语音识别程序的大致过程。google了下,这个sdk 似乎是2009年以前的

   微软现在搞了个tellme。http://www.microsoft.com/en-us/Tellme/developers/default.aspx   这里有个Microsoft Speech Platform 以及更新到10.2了。应该比speech sdk 5.1 先进。

   还有一个选择是https://studio.tellme.com/  tellme studio 提供云端服务。用起来,可能很方便。

  网站有tellme 和siri的对比试验,看了下siri确实很好用。tellme没有对程序控制做深入的控制,识别率也不差。

  曾经用过win7的 tellme 实在是不咋地。

 

3.汉语大词汇量连续语音识别系统研究进展  汉语的,来自中科院自动化研究所。对语音识别的历史和现状介绍的比较相信。这里提到了NIST ,

 http://nist.gov/itl/iad/mig/  可以申请得到一个测试数据库。。不过要传真申请。一般人估计也不会给。

 这里的几个项目都很有趣,比如基于视频检测的超市防偷盗系统。说话人识别,基于多摄像头的特定人跟踪(有数据库可以下载)等等。

 

这样看下来,还是先了解下微软的tellme studio。今年9月份 ,微软还有一篇整句识别能力大幅度提高的论文。可能到明年,tellme 真会有大进展。

可是tellme studio 已经关闭了free access

 

  

2017-02-18 15:30:32 oyangyang 阅读数 5002
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5921 人正在学习 去看看 杨波

语音识别系统的发展现状

语言是人类之间交流的最基本、最重要、最有效和最方便的信息形式。语言信息传递最重要的媒介是语音,它承载着语言的特征信息这种人机交流方式,成为现在很多门学科研究领域的热门课题。人机语音交流的关键之处是语音识别,它作为计算机科技应用领域的研究热点,经过科研工作者们的多年努力,逐步从实验室的理论研究走向产品开发应用,并已在应用方面取得了很大进步。
在语言应用领域,通过计算机实现从语音语言到文本语言,再到语音语言的转换。例如,从语音语言到文本语言的产品,听写朗读机,语音文字笔,语音查询软件、语音专家知识库系统等;从语音到文本再到语音语言的产品,如多国语言翻译机。在安全应用领域,为保证某些场所或信息的安全,通过语音某些特征的唯一性,确认和识别身份的应用。例如,出入境身份确认,银行账户密码输入及操作等。但目前,无论从开发难度,还是应用前景来讲,小词汇量语音识别系统具有难度小、成本低、识别率高、应用广、实用性强等诸多优点,将具体应用在手机语音拨号、语控轮椅、语控玩具、路也被应用到语音识别的研究中。当今基于 HMM 和 NN 相结合的方法正得到广泛的重视。
小词汇量语音识别系统已逐渐开始在手持终端、家电等领域得到应用,但总的来说很多产品使用效果仍不尽如人意,如识别率低,识别速度慢等。为了使语音识别技术具有很好的实用性和得到更广泛的普及,除了提高硬件性能和降低硬件成本外,还必须要在算法上做更多的工作,使得识别速度和识别率能得到进一步提高。本文研究的目标是设计具有良好稳健性、识别率高、抗噪能力强的小词汇量语音识别系统。本文着重研究几个关键技术,如语音信号处理技术、语音信号特征提取技术、抗噪处理技术等。通过对这些技术的深入研究并应用到系统设计中,实现了小词汇量的语音识别系统。

相关工作:

     一个小词汇量的语音识别系统可大致分为2部分:(1)语音特征提取其目的是从语音波形中提取随时间变化的语音特征序列。(2)声学模型与模式匹配(识别算法)声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征与声学模型(模式)进行匹配与比较,得到最佳的识别结果。
     本文所采用的语音特征是mfcc参数,mfcc 是Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的缩写,Mel(美尔)是主观音高的单位,而Hz(赫兹)则是客观音高的单位。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。
     而获取mfcc时,端点检测是十分重要的,因为越精确的语音段检测会得到越精确的相关信息,本文介绍了一种基于能量检测和过零率检测的改进算法,即设置一个时间阈值,不是判断都一个时刻的能量和过零率而是判断这个时间阈值期间的能量和过零率是否满足要求。具体可以见后边的程序。
相比于其它语音特征它的优点有很多:
     语音信号是易受外界干扰的随机信号,在进行语音信号处理(语音编码、语音合成、语音识别)时,必须经过特征提取处理才能有效地降低信号的冗余度.对于语音识别系统而言,提取的特征参数应尽可能地反映人的声纹信息.语音特征参数有能量、基因频谱、共振峰值、短时过零率等,相比之下比较常用的是线性预测倒谱LPCC与Mel倒谱系数.这是因为MFCC和LPCC在实际应用中最为成熟,特别是在真实信道噪声和频谱失真的情况下,也就是在噪声干扰较强状态下,特征参数MFCC相对于LPCC语音特征参数,能更好地反映人耳的听觉感知情况,故应用更多.
与LPCC相比,MFCC具有以下优点:

  1. 因为语音信息多集中在低频部分,而高频部分易受环境噪声干扰,MFCC将线性频标转化为Mel频标,强调语音的低频信息,从而突出了有利于识别的信息,屏蔽了噪声的干扰.LPCC是基于线性频标的,所以没有这一特点.
  2. MFCC无前提假设,在各种情况下均可使用.而LPCC假定所处理的信息为自回归(AR)信号,对于动态特性较强的辅音,这个假设不严格成立.另外,当噪声存在时,AR信号会变为自回归滑动平均(AR-MA)信号,因此MFCC的抗噪声能力也优于LPCC.

理论上MFCC参数的提取包括以下几个步骤:
这里写图片描述

特征参数MFCC提取原理

     人耳对不同频率的语音感知能力不同,听觉系统是一个非线性系统,具体在1 000 Hz以下时与频率成线性关系,而1 000 Hz以上时,感知能力则与频率成对数关系.在实际中采用Mel频率概念、美尔频率和线性频率换算关系:fmel=2 595 lg[1+f/700].MFCC参数是按照语音帧来计算的,因为不同的说话人其声道具有区别他人的特异声纹特征,所以在实际信号中采用预加重处理技术.即在对信号取样后,插入1个一阶的高通滤波器,这样就加强了声道部分的特征,便于对声道参数进行分析,预加重处理后的结果为:y(n)=x(n)-0·95x(n-1).语音具有短时平稳的特点,分帧后一般帧长为30 ms,这是因为超过30 ms,人就能感知语音的不连续性;帧移一般为帧长的1/3或1/2.Mel滤波是利用与人耳听觉相似的三角滤波器组对语音信号的幅度平方谱进行平滑,对数操作的至少有2点:其一是压缩语音谱的动态范围;其二是将频域中的乘性成分变成对数谱域中的加性成分,以便滤除乘性噪声.离散余弦变换(DCT)主要用来对不同频段的频谱成分进行相关处理,使各向量之间相互独立,一般实际处理时不采用第一个系数。
1. 对输入语音帧进行预加重和加Hamming窗后,平滑语音帧,然后做FFT得到其频谱,将时域信号转化为频域信号
2. 求出频谱平方,即能量谱,并用1组三角Mel带通滤波器对能量谱进行带通滤波.这组带通滤波器的频率可以按照中心频率选取.每个滤波器的三角形2个底点的频率分别等于相邻的2个滤波器的中心频率.由于每一个频带中的分量作用在人耳中是叠加的,因此将每个滤波器频带内的能量叠加.
3. 将每个滤波器的输出取对数,得到相应的对数功率谱,并进行反离散余弦变化,得到L个MFCC.由于在实际的语音识别应用中,并不是取全部维数的MFCC,一般取前13维的MFCC.cn=∑Mk=1lnx′(k)cos[π(k-0·5)n/m],其中,n=1,2,…L.
4. 上述直接得到的MFCC特征参数称为静态特征参数.由于MFCC主要反映语音的静态特征,因此,要得到语音信号的动态特征,则需要将静态特征进行一阶和二阶差分,这样效果更好.
  语音信号经过采集板采样形成PCM样本,在主控制器的作用下,以512点为1帧输入运算单元,帧长30 ms,帧移取15 ms,对复数数据分别进行实部和虚部定点处理的计算,以保证精度16位的数据要求.数据通过Mel滤波器的能量输出送到对数单元和DCT单元模块中,最后计算出参数MFCC.同时,引入数据流水线设计,以保证数据处理的实时性和较高的吞吐率.
而对于模式匹配本文的方法是基于隐含马尔科夫模型HMM(Hidden MarkovModel)的识别算法。这是Rabiner等人在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较64匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突发情况。因此,HMM算法具有良好的识别性能和抗噪性能。基于HMM技术的识别系统可用于非特定人,不需要用户事先训练。他的缺点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM的DSP才能完成。
HMM隐马尔可夫模型
隐马尔可夫模型(HiddneMarkovMdeels,简称为HMM),是语音信号的一种统计模型,广泛应用于语音信号处理的各个领域中。有关它的理论基础,是在1970年左右由B~等人建立起来的,随后由Bkaer和Jelinek等人将其应用到语音识别之中,并且取得了很大的成果。80年代中期成为公认的研究热点,其基本理论和各种实用算法是现代语音识别的重要基础之一。对于一个平稳的、非时变的信号来说,用传统的线性模型来描述即可。但语音信号是非平稳、时变信号,我们只能在短时间内对语音信号作线性处理,这样,在一段时间内,语音信号的线性模型参数是时变的,但在很短的时间内它可以被看作是平稳、非时变的。在这种前提下,处理语音信号的简单解决思想是:将这些线性模型参数串起来,来记录整个语音信号,这就是马尔可夫链。但其中存在的问题是,选择多长一段时间作为一个线性处理的单元。由于语音信号的复杂性,要想准确地选择这个时间段是很难的,所以这种方法虽然可行但却不是最有效的方式。隐马尔可夫模型就解决了这个问题,它既能够用短时模型来描述平稳信号,又可解决短时平稳段过渡的问题,即什么时间过渡,怎么过渡的问题。隐马尔可夫模型是利用概率论和数理统计学理论为基础,辨识具有不同参数的短时平稳过程,而且还可跟踪它们的转换。

隐马尔可夫(HMM)基本思想
由于HMM是在Markov链的基础上发展而来的,为了更好的理解HMM,首先应该了解Makrov链的基本概念。
从HMM模型的定义可以看出,HMM实际上是分为两个部分的,一是Markov链,利用一组与概率分布相联系的状态转移的统计对应关系,来描述每个短时平稳段是如何转变到下一个短时平稳段的,由二,A描述,输出为状态序列;二是一个随机过程,描述状态与观察值之间的统计模型,它解决了用短时模型描述平稳段的信号的问题,由B描述,输出为观察值序列。
与HMM概念类似,语音信号本身是一个可观察序列,但它是由大脑中的(不可观察序列)、根据言语需要和语法知识(状态选择)所发出的音素(词、句)参数流,所以,可以用HMM模型来描述语音信号。例如语音识别中的孤立词识别,对每个孤立词建立一个HMM模型,当输入一个孤立词时,先对它进行特征值的提取,利用某种规范化方式将它转换为一组符号,然后计算这组符号和每个HMM上的输出概率,概率最大值所对应的孤立词就是识别结果。这时还不能简单的将HMM代入语音信号的表示中,这是由于,实际的语音信号的这些参数并不是显而易见的,还需要进一步分析和研究才能确定.
HMM增加了参数来建立状态和观察值序列的关系,它的定义可由下列5个参数描述:
这里写图片描述
由于N和M在模型中比较容易确定,并且不是模型研究的重点, 、A和B的取值直接影响到语音识别系统的识别率,是决定模型的主要因素,它们所以HMM也可简记为: =( ,A,B),从HMM模型的定义可以看出,HMM实际上是分为两个部分的,一是Markov链,利用一组与概率分布相联系的状态转移的统计对应关系,来描述每个短时平稳段是如何转变到下一个短时平稳段的,由二,A描述,输出为状态序列;二是一个随机过程,描述状态与观察值之间的统计模型,它解决了用短时模型描述平稳段的信号的问题,由B描述,输出为观察值序列。
HMM基本算法有前向一后向算法,Viterbi算法,当HMM应用于语音识别时,根据语音识别的类型不同,HMM模型要解决的主要问题也是不同的,所以有必要了解基于HMM的不同类型的语音识别系统都有哪些。
DHMM识别流程如图所示
这里写图片描述
算法描述:
由于训练样本的原因,本文设计以识别非特定人0-9语音的识别。
程序流程:
1、对语音的WAV文件和LAB文件进行处理,产生十个文件,每个文件对应于一个数字,存贮着该数字的波形文件。(shujuzhengli.m)
2、分别利用上面十个文件训练出十个HMM模板,具体方法是:首先将语音的波形文件分帧,以128个点为一帧,帧移为64,每一帧通过mfcc.m计算出13个系数,随着波形的长度不同,一个语音文件可以计算得到13*N个系数,截取13*15的矩阵(mfcc系数)用作训练数据。一般一个HMM模板用20组mfcc系数训练,得到初始状态分布、状态转移矩阵、高斯正态分布的均值和方差以及混合矩阵,这就是该语音的特征,存贮下来,识别的时候使用。(trainmfcc.m)
3、识别过程:识别的前面部分与训练相似,都是要计算得到mfcc系数,不同在于,识别时,将计算得到的mfcc 参数分别代入训练得到的HMM模板求出概率,比较出最大概率者,则该模板对应的数字就是识别的数字。(shibiesb.m)
4、用大量语音文件做测试,结果正确率为90%以上。
实验结果和分析讨论:
本文用了matlab gui设计了人机交互界面。因为时间和设备的原因而没有获取到足够大的训练样本,而且有一些样本都是单个录音复制很多个文件来进行训练的,故而得到的模板很大程度上都只能识别训练样本,也即它的整体非特定人的语音识别正确率不是很高。由于hmm语音识别是基于统计模型的语音识别方式,故而打得训练样本会产生好的识别正确率。
1,读取样本本件,并且进行端点检测后取3000个点存取于文件用于后边训练提取mfcc参数:
这里写图片描述
所用到的端点检测处理为下:
这里写图片描述
训练求出并存取mfcc参数:
这里写图片描述

识别程序如下:
这里写图片描述

Matlab gui界面如下:
这里写图片描述
点击choose file to recognize以选择需要进行识别的wav文件,再点击start按键在下边的静态窗口将会出现识别的结果是多少,如下所示:
这里写图片描述

2017-09-01 16:52:06 jianyuchen23 阅读数 1030
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5921 人正在学习 去看看 杨波

语音识别的研究和发展情况基本分为三个主要时期:

2011年之前
没什么进展
2011年—2014年
第一个基于深度学习的语音识别系统。此后有了更多的数据,云计算后,一些公司均采用深度学习技术。
2015年至今
递归神经网络与注意力模型、记忆网络以及其他技术一起,掀起了第三次发展的浪潮。

机器所识别的语音可能包括一部分噪声,所以要求其能够从噪声中提取出与对话相关的部分并将其转化为有意义的文字。

语音识别系统的基本构造块

语音识别基本分为三个部分:

  • 信号位准:信号位准的目的是提取语音信号并增强信号(如果有必要的的话),或是进行适当预处理、清理和特征提取。
  • 噪声位准:噪音位准的目的在于将不同的特征划分成不同的声音。换句话说,声音本身并不能提供一个足够精准的标准,而有时我们将次于原声的声音称为声学标准。
  • 语言位准:因为我们假设这些声音都是人类所产生而且是有意义的,因此我们可以把这些声音组合成词语,然后把这些词语组合成句子。

评级标准

人们对语音识别系统的评价都基于一个名为配电盘(SWBD)的行业标准。(SWBD)是一个语音语料库,整合了电话中的即兴对话,包含音频和人声的副本。
语音识别系统的评价标准主要基于其误字率(WER),误字率是指语音识别系统识别错误的单词有多少。

从2008年得到2011年,误字率一直处于一个稳定的状态,位于23%到24%之间;深度学习从2011年开始出现时,误字率从23%降低至5.5%。

在信号位准中,有着不同的基于神经模型从信号中提取和增强语音本身的技术。同时,还有能够用更加复杂高效的基于神经模型的方法取代经典特征提取方法的技术。
声音和语言位准也包含有各种各样不同的深度学习技术,无论是声音等级分类还是语言等级分类,都采用了不同类型基于神经模型的架构。

2012-09-28 23:54:35 safrans 阅读数 4388
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5921 人正在学习 去看看 杨波
1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研究成功了第一个计算机语音识别系统。 

大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展*。 

进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路*。 

进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展*。 

DARPA(Defense Advanced Research Projects Agency)是在70年代由美国国防部远景研究计划局资助的一项10年计划,其旨在支持语言理解系统的研究开发工作*。 

到了80年代,美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划,其中包括噪声下的语音识别和会话(口语)识别系统,识别任务设定为“(1000单词)连续语音数据库管理”。到了90年代,这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 

日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标,虽然没能实现预期目标,但是有关语音识别技术的研究有了大幅度的加强和进展。1987年起,日本又拟出新的国家项目---高级人机口语接口和自动电话翻译系统。 

我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制,我国的语音识别研究工作一直处于缓慢发展的阶段。 
进入80年代以后,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点,发展迅速。就在这种形式下,国内许多单位纷纷投入到这项研究工作中去*。 
1986年3月我国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下,我国开始了有组织的语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。从此我国的语音识别技术进入了一个前所未有的发展阶段。 

这一时期的语音识别方法基本上是采用传统的模式识别策略。其中以苏联的Velichko和Zagoruyko、日本的迫江和千叶,以及当时在美国的板仓等人的研究工作最具有代表性。 
- 苏联的研究为模式识别应用于语音识别这一领域奠定了基础; 
- 日本的研究则展示了如何利用动态规划技术在待识语音模式与标准语音模式之间进行非线性时间匹配的方法; 
- 板仓的研究提出了如何将线性预测分析技术(LPC)加以扩展,使之用于语音信号的特征抽取的方法。 

目前在大词汇语音识别方面处于领先地位的IBM语音研究小组,就是在70年代开始了它的大词汇语音识别研究工作的。AT&A的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究历经10年,其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。 

这一时期所取得的重大进展有: 
(1)隐码尔柯夫模型(HMM)技术的成熟和不断完善成为语音识别的主流方法。 
(2)以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解。同时在语音识别研究领域,还产生了基于统计概率的语言模型。 
(3)人工神经网络在语音识别中的应用研究的兴起。在这些研究中,大部分采用基于反向传播法(BP算法)的多层感知网络。人工神经网络具有区分复杂的分类边界的能力,显然它十分有助于模式划分。 

特别是在电话语音识别方面,由于其有着广泛的应用前景,成了当前语音识别应用的一个热点。 

另外,面向个人用途的连续语音听写机技术也日趋完善。这方面, 最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练,便可在使用中不断提高识别率。 


我国的语音识别技术的发展 

(1)在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外,还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。 
(2)现在,国内有不少语音识别系统已研制成功。这些系统的性能各具特色。 
- 在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。 
- 在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。 
- 在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。 

Renference:上海交通大学计算机系 吴亚栋 《语音识别基础》
没有更多推荐了,返回首页