2018-07-31 17:08:50 yibuerbusanbu 阅读数 3914
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    6094 人正在学习 去看看 杨波

1.前言:
本科毕业之后,开始了北漂,一直想从事一些偏上层方面的工作,开始找工作期间各种碰壁。可能自己c语言的基础还可以的原因,被现在的单位的引擎组招了过来,起初只是被用来干一些引擎的支持和测试,慢慢的开始接触到了语音识别等引擎的开发,所以利用自己在工作中所了解得在这里班门弄斧地谈谈语音识别,也是想工作进行总结。也欢迎大家指出错误和不足。
1.语音识别简介:
语音识别技术即AutomaticSpeechRecognition(简称ASR),是指将人说话的语音信号转换为可被计算机程序所识别的信息,从而识别说话人的语音指令及文字内容的技术。目前语音识别被广泛的应用于客服质检,导航,智能家居等领域。
2.语音识别过程:
在这里插入图片描述
语音识别大体上包含前端处理,特征提取,模型训练,解码四个模块。其中前端处理包括了,语音转码,高通滤波,端点检测等。
上图目前语音识别的基本流程,输入的语音数据流经过前端处理(语音格式转码,高通,端点检测),语音格式转码是将输入的语音数据转成pcm或者wav格式的语音,端点检测是检测出转码后语音中的有效语音,这样对解码速度和识别率上都会改善。经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取。最后解码模块对提取的特征数据进行解码,解码过程中利用发音字典,声学模型,语言模型等信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,便得到最优的识别结果。
在其他章节中会详细介绍以上四个模块。
3.语音识别的学习:
由于语音识别本事就是一个非常大并且繁琐的工程,设计到知识面很广,目前我也在想如何把这个学习过程更加系统化,简单化。希望这一块能得到前辈的指点。
目前我再看这些书籍:
1).数学之美,这本书对整个语音识别过程以及各个模块讲的很详细,也很通俗易懂,是一本不错的语音识别入门的书。
2).语音信号处理,这本书对前端处理模块的学习有很大的帮助,由于是一本教材书籍,自己在有些地方看起来也很晦涩,目前也想在网上找一些相关网课看看,这样更加深理解,找到的话也会第一时间分享。
3).关于特征提起模块,网上有很多帖子写的都很详细,后面我也会整理一下。
4).解码和模型训练…未完!!!

2018-04-22 23:57:26 xm1076709179 阅读数 2200
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    6094 人正在学习 去看看 杨波

语音识别就是将包含文字信息的语音通过计算机转化成文字的过程,也叫语音转写,英文叫automatic speech recognition(ASR)或者 speech to text(STT),语音识别框架一般如图所示:
这里写图片描述
从上图中可以看出,语音识别技术是一个复杂的多学科交叉技术,涉及到信号处理、统计、机器学习、语言学、数据挖掘、生理学等知识。一个完整的语音识别系统声学方面和语言学方面。声学方面包括从最初的语音信号获取(这其中包括将语音转化成电信号)到语音信号处理(包括模数转换,降噪、增强、端点检测(VAD)等),再到特征提取(MFCC、FB、PLP、BN等),最后到声学模型建模;语言学方面包括字典(词典)构造,语言模型建模等。通过建立的声学模型和语言模型就可以对输入的测试语音进行解码,得到相对应的文字。

解码原理(基于最大后验概率MAP)

假设我们有一段语音X(通常是提取的特征),要得到对应的文本W,就是求使得概率p(W|X)最大的W的过程,即求

W¯=argmaxWp(W|X)

利用条件概率公式和贝叶斯公式将上述公式转化为
W¯=argmaxWp(W,X)p(X)=argmaxWp(X|W)p(W)p(X)

p(X)表示声学观测序列的概率,不管选择解码空间中的哪一条路径,一段语音发出来后p(X)就确定了,是一个未知的常数,虽然这个概率很难估计,但是并不会影响到W¯的取值,因此,上式可以简化为
W¯=argmaxWp(X|W)p(W)

该公式就是解码的核心公式了,下面对该公式做一个简单解读
其中第一项p(X|W)就是我们的声学模型,准确的说,这个概率可以通过声学模型和词典(Lexicon)计算得到,第二项就是我们的语言模型,该怎么理解呢?
从概率上看,p(X|W)表示在给定文本W的情况下,求“生成”语音X的概率,就是说,我们之所以说某一句话而不会说其他话,是因为在说这句话之前,脑海里肯定有我们想表达的内容(这里内容就可以理解成文本W),然后,调动发声器官发出语音X,因此,语音识别的目标就是通过发出的语音X去猜测说这句话到底表达什么内容W
p(W)就是我们的先验概率,为什么这么说,因为它不依赖于我们给定的语音X,而是由经验得出的,具体的,可以理解为人类发展到现在所总结出来的语法知识,更通俗一点就是人类的表达习惯。举个例子,我们通常会说“上床睡觉”而不会说“上床上班”。这个概率可以由语言模型得到。
要使得p(X|W)p(W)最大,一方面需要文字表达尽量符合语法习惯(即p(W)尽量大),另一方面需要识别出来的文字尽量和发出的语音相符(即p(X|W)尽量大),就是说,在解码空间里(解码空间后续会说,简单理解为不同词之间有多种组合方式,不同的组合方式构成不同的W),可能有很多种组合都符合语法习惯,但是有些就和发出的语音不太吻合,例如,我们说一句话“我下班坐地铁回家”,其中有三个不同的识别结果:
1.我下班坐公交回家
2.我坐地铁回家
3.我下班坐地铁回家
显然,上述三种识别结果都符合语法习惯,但是前两种识别结果都存在误识(替换错误,后续会讲)或信息丢失(删除错误,后续会讲),即语音中所表达的信息没有被完全识别出来,因此声学模型的得分p(X|W)就没有第3种识别结果得分高。
好了,语音识别的介绍就到这里,具体如何对声学模型和语言模型进行建模,以及解码等内容在后续进行介绍。

ps:哪位大神能教我怎样用LaTexW写到argmax下面去吗,这样看着好别扭

2019-11-08 10:49:05 qq_37820249 阅读数 35
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    6094 人正在学习 去看看 杨波

转载自
https://blog.csdn.net/tbl1234567/article/details/70173330
https://blog.csdn.net/xiaoding133/article/details/8842945
https://blog.csdn.net/fzyjsy/article/details/83041149

一.会议

1.1国际最顶尖会议

ICASSP:International Conference on Acoustics, Speech and Signal Processing 每年一届,10月截稿,次年5月开会。国际声学语言和信号处理的旗舰会议,ICASSP是信号处理领域最权威的会议之一,是声学、语音信号处理方面最顶级的学术会议,也是图像、视频信号处理领域的权威会议之一,每年举办一次。其学术水平和影响力在语音信号处理领域属于最重要的国际会议。
ICSLP:International Conference on Semiconductor Laser and Photonics 偶数年举办,4月截稿,9月开会
EuroSpeech:European Conference on Speech Communication and Technology 奇数年举办,4月截稿,9月开会
附上2019年Interspeech会议的论文集:
https://www.isca-speech.org/archive/Interspeech_2019/

1.2其他

ICSMC:Int l Conference on Systems, Man & Cybernetics
NAECON:National Aerospace and Electronics Conference
ICTTA:International Conference on Telecommunication Technology and Applications
ISSPA: Information Sciences, Signal Processing and their Applications
ISPACS:International Symposium on Intelligent Signal Processing and Communications Systems
SBEC:Southern Biomedical Engineering Conference
ICAPR:International Conference on Advances in Pattern Recognition
ICOSP: International Conference on Signal Processing Proceedings
ICSLP: International Conference on Spoken Language Processing
ICICIC:International Conference on Innovative Computing, Information and Control
IEMBS:Institute of Electrical and Electronics Engineers
NLPKE: Natural Language Processing and Knowledge Engineering
IECON:Conference of the IEEE Industrial Electronics Society
ICCT:International Council on Clean Transportation
ASRU:Automatic Speech Recognition and Understanding
ISCAS:International Symposium on Circuits and Systems
ISPACS:International Symposium on Intelligent Signal Processing and Communications Systems
ICDSP:International Conference on Digital Signal Processing
SPAWC:signal processing advances in wireless communications
ICCSIT: International Conference on Computer Science and Information Technology
ICSE: International Conference on Software Engineering
ICIAS:International Conference on Intelligent and Advanced Systems
TENCON:Technical Environmental Consulting
ICFCC:International Conference on Future Computer and Communication
WCICA:World Congress on Intelligent Control and Automation
MMSP:international workshop on multimedia signal processing
IROS: Intelligent Robots and Systems
ICSDA: INTERNATIONAL COMBATIVES SELF DEFENSE ASSOCIATION
ICCCE:International Conference on Computer and Communication Engineering
其他的会议还有:ISPA,ASPAA,INDICO,NetCom等

二. 期刊

2.1国内

声学学报
应用声学
声学工程
信号处理
电子学报

2.2国外:

IEEE Signal Processing Magazine (IF:2.655),一年6期,是双月刊)
Computer Speech and Language (CSL)(IF:1.776)
Digital Signal Processing(IF: 0.889)
IEE Electronics Letters (IF:1.063)
IEEE Signal Processing Letters (SPL)---(IF: 0.722)
IEEE Transactions on Audio, Speech and Language Processing (IF:2.950)
IEEE Transactions on Circuits and Systems-II: Express Briefs (CAS-II)---(IF:0.922)
IEEE Transactions on Signal Processing (TSP)-- (IF:1.57)
IEEE Transactions on Circuits and Systems-I: Regular Papers (CAS-I)---(IF:1.139)
IET Signal Processing(IF:1.250)
Signal Processing (IF: 0.669)
Signal Processing: Image Communication (IF: 1.109)
Speech Communication(IF:1.585)其中IF为影响因子

三.国际语音识别技术研究机构

AT&T  http://www.research.att.com/editions/201304_home.html
ATR    http://www.slt.atr.co.jp/index.html
BBN    http://www.bbn.com/technology/speech_recognition/
Cambridge University Engineering Department (CUED) http://mi.eng.cam.ac.uk/
Carnegie Mellon University (CMU) 
HP Labs   http://www.hpl.hp.com/
Columbia University 
Centre for Speech Technology Research at Edinburgh University 
ESAT - PSI Speech Group at K.U.Leuven 
International Computer Science Institute (ICSI) 
IBM Human Language Technologies     http://www.research.ibm.com/hlt/
IDIAP Research Institute 
INESC-ID Lisboa, Spoken Language Systems Lab 
IRST 
ISIP 
Johns Hopkins University (CLSP) 
Speech, Music and Hearing at KTH 
LIMSI 
Alcatel Lucent (Bell Labs)  http://www.alcatel-lucent.com/wps/portal/BellLabs
Microsoft    http://research.microsoft.com/en-us/groups/speech/
MIT Spoken Language Systems 
Oregon Graduate Institute (OGI) Center for Spoken Language Understanding 
Speech and Language Processing Laboratory at Rutgers University 
RWTH Aachen 
University of Colorado, Boulder (CLEAR) 
University of Sheffield 
SRI 
Furui Laboratory, Tokyo Institute of Technology 
University of Illinois at Urbana and Champaign 
University of Washington 
Universitaet Erlangen-Nürnberg
剑桥大学 http://htk.eng.cam.ac.uk/
CMU大学 http://www.speech.cs.cmu.edu/
张智星 语音识别,机器学习 http://mirlab.org/jang/
安徽科大讯飞 http://www.iflytek.com/

四.国际语音识别技术评测

NIST Spoken Language Technology Evaluations Benchmark Tests
(http://www.nist.gov/speech/tests/index.htm)

五. 语音识别技术工具包

AT&T FSM Library
CMU-Cambridge Statistical LM Toolkit
CMU Sphinx
CSLU toolkit
CUED HTK
Edinburgh Speech Tools Library
KTH WaveSurfer
MSState ASR Toolkit
NIST Utility Software
SPRACHcore software package
SRI Language Modelling Toolkit
SoX – Sound eXchange
Transcriber
UCL Speech Filing System
FBVIEW multi-channel audio file viewer

1.6语音识别网站及相关论坛

http://www.voxforge.org/home/forums/message-boards/acoustic-model-discussions
http://bbs.matwav.com
http://www.yuyinshibie.com/
http://www.ctiforum.com/voice.html
http://liceu.uab.es/~joaquim/phonetics/fon_anal_acus/herram_anal_acus.html
http://www.phon.ucl.ac.uk/resource/scribe/

六.主页和博客

 1.bill  xia 的博客:http://ibillxia.github.io/blog/categories/assp/            这个大神的博客有深度学习的一些东西,有用。

  2.zouxy09的博客:http://blog.csdn.net/zouxy09/article/category/1218766   zouxy09大神对深度学习和机器学习都有研究,博客质量很高的

  3.台湾张智星教授的主页:http://mirlab.org/jang/    里面有一个语音课:音频信号处理和识别

  4.cmu大学的语音组:http://www.speech.cs.cmu.edu/   里面有很多链接

  5. dan ellis教授的主页:  http://www.ee.columbia.edu/~dpwe/    里面有很多工具箱

  6.dan povey大神的主页:http://www.danielpovey.com/index.html  kaldi的资料很多

  7.微软邓力老师的主页:http://research.microsoft.com/en-us/people/deng/  关于深度学习的语音识别资料

  8.王德江老师的主页:http://www.cse.ohio-state.edu/~dwang/pnl/software.html 关于语音识别 语音分离,音乐分离

  9.国外大神SnippyHolloW的github主页:https://github.com/SnippyHolloW

 10.自然语言处理的论坛:http://www.threedweb.cn/portal.php    非常多的资源

语音识别与合成
Speech at Carnegie Mellon University
鼎鼎大名的CMU语音组。著名的Sphinx系统的诞生地,李开复当年作研究的地方
http://fife.speech.cs.cmu.edu/
The Center for Language and Speech Processing (CLSP) at The Johns Hopkins University
著名的Jelinek教授领导的语言与语音处理组
http://www.clsp.jhu.edu/
Speech Research-----确是非常全的一个网站
国外比较全的一个语音技术研究的链接
http://mambo.ucsc.edu/psl/speech.html
Signal Compression Lab, Department of Electrical and Computer Engineering
著名的Allen Gersho教授所在的实验室-University of California, Santa Babra。该实验室包括好几位杰出的教授,像K.Rose, V. Cuperman等等。该校非常令人尊敬的地方是从这里毕业的学生有很多后来都成为了学术科研上的佼佼者
http://scl.ece.ucsb.edu/index.htm
The Speech Recognition Group
Rutgers大学CAPI中心下的语音识别组。论文集Modern Methods of Speech Processing中的R.P. Ramachandran就是该中心的教授
http://www.caip.rutgers.edu/ARPA-SLT
Speech Processing Laboratory at at Michigan State University
著名的Deller教授所领导的语音处理研究组
http://www.egr.msu.edu/~deller/speechlab_people.html
Purdue University Speech and Language Processing Research Group
Purdue大学语音处理研究组
http://wavelet.ecn.purdue.edu/~speechg
还有一个比较有名的做语音的科研机构, 日本名古屋工业大学的Keiichi TOKUDA教授,
他们在基于参数的语音合成领域非常有名气的, 他们开发的HTS平台目前的应用也非常广泛.
对于研究语音合成和语音识别的人会有帮助.地址如下:
http://www.sp.nitech.ac.jp/
HTS的主页为:
http://hts.sp.nitech.ac.jp/

语音识别工具箱:

1.kaldi:http://kaldi.sourceforge.net/

2.htk:http://htk.eng.cam.ac.uk/

3.RWTH:http://www-i6.informatik.rwth-aachen.de/rwth-asr/

4.sphinx:http://cmusphinx.sourceforge.net/

5.julius:http://julius.sourceforge.jp/en_index.php

说话人识别:

1.微软的开源库MSR Identity Toolkit v1.0:http://research.microsoft.com/en-us/downloads/a6262fec-03a7-4060-a08c-0b0d037a3f5b/

2.王德江老师的主页也有说话人识别的资料:http://www.cse.ohio-state.edu/~dwang/pnl/software.html

2018-10-10 19:01:28 m0_37605956 阅读数 473
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    6094 人正在学习 去看看 杨波

摘要: 百度语音识别demo接入至vr设备:
项目所需,要测试百度语音识别对某些特定指令语言在vr设备上的识别正确率,需要首先研究百度语音识别的demo使用,特将整个学习过程记录:

一:百度语音android sdk下载地址
http://ai.baidu.com/sdk#asr
我下载了“离在线融合SDK”的android版本
上述链接的页面点击"使用说明"链接,进入SDK说明页面:
http://ai.baidu.com/docs#/ASR-Android-SDK/top

SDK下载后,参考了两个重要的文档,
第一个是目录下的readme_README_IMPORTANT
第二个是doc_integration_DOCUMENT目录下的"ASR-INTEGRATION-helloworld-V2.0",

二:根据上述文档集成百度asr至helloworld工程
由于下载下来的sdk直接导入到android studio中没有编译通过,所以直接新建项目集成语音识别功能,依据ASR-INTEGRATION-helloworld-V2.0文档,

首先新建一个android helloworld工程:
为了节约时间,没有在官网中注册应用。使用百度demo的各个参数。在工程新建过程中,完全按文档中的进行,包括company domain, appId,appkey,secretkey以及applicationId。在选择activity模板时候,选择了"Empty activity",android的版本号选择了默认的15

其次:工程建好编译通过后,按文档导入原demo的core模块并设置app依赖core,编译时候出现以下错误:
Android dependency ‘com.android.support:appcompat-v7’ has different version for the compile (26.1.0) and runtime (27.1.1) classpath. You should manually set the same version via DependencyResolution

网上搜索原因发现:
是由于app和core两个模块使用的依赖库(appcompat-v7)的版本号不同导致,
app的gradle:
dependencies {
implementation fileTree(include: [’
.jar’], dir: ‘libs’)
implementation ‘com.android.support:appcompat-v7:26.1.0’
implementation ‘com.android.support.constraint:constraint-layout:1.1.3’
testImplementation ‘junit:junit:4.12’
androidTestImplementation ‘com.android.support.test?1.0.2’
androidTestImplementation ‘com.android.support.test.espresso:espresso-core:3.0.2’
implementation project(’:core’)
}*
core的gradle:
dependencies {
api fileTree(include: [’
.jar’], dir: ‘libs’)
implementation ‘com.android.support:appcompat-v7:27.1.1’
}*

于是修改了app模块的库版本至:27.1.1,与core保持一致。
同时修改app模块build.gradle里的compileSdkVersion 27,targetSdkVersion 27,之后编译通过。

之后修改mainactivity如下:
public class MainActivity extends ActivityMiniRecog {

}

编译后安装到android手机可以进行语音识别

三: 将该demo移植至vr设备:
需要修改manifest,在MainActivity的intent-filter下增加:
category android:name=“com.***.intent.category.VRAPP”
这样安装后可以看到该AP

四: vr设备如何测试:
由于不能直接点击,所以在使用controller打开AP后,需要一个辅助软件vysor进行投屏,然后在电脑上面进行点击测试操作。

2016-08-08 06:37:38 happytofly 阅读数 1490
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    6094 人正在学习 去看看 杨波

在俞栋接受CSDN专访解读基于深度学习的语音识别技术及CNTK开源软件的同时,《解析深度学习-语音识别实践》一书的另一位作者、微软人工智能首席科学家邓力也接受CSDN专访,以另外的视角诠释了语音识别领域的最新技术进展,以及他的团队的一些不同的工作。

着眼于端到端建模和训练,邓力介绍了输出端和输入端的进展,迁移学习、增强学习、非监督学习在语音识别领域的应用现状和前景,并解释了他对非监督学习的独特理解,重点总结了词嵌入的利用和改善。他还展望了类脑机器智能突破现有的深度神经网络局限的方法。

有感于有监督学习的局限,邓力目前将很大部分的精力用到了非监督学习上,并且与微软目前的自然语言理解、对话系统、聊天机器人等核心工作相结合。看好非监督学习语音识别,是由于语音识别领域“先验”知识的逐渐成熟,包括输出端非常强的语言模型和多年积累的从输出端到输入端映射的生成式知识。邓力认为,将各种先验知识整合到一个完整而能快速计算和优化的非监督深度学习框架,语音识别的问题将可以彻底解决。当然,这需要新的深度非监督学习算法和理论。邓力也将作为2016中国人工智能大会(CCAI 2016)主题报告嘉宾更深入地解析包括非监督学习在内的深度学习与大数据技术,欢迎点击这里报名与他交流。

邓力认为,词嵌入或音素嵌入用到语音识别领域,一项有意思的工作是把乔姆斯基的生成式音韵结构(phonological structure)整合到深度学习讲的嵌入(embedding)方法里。对抗式网络的思路可以用来整合语音生成知识。不过,词嵌入的本质是利用邻近词的预测特性,只是所应该用的先验知识的一小部分。更重要的先验知识应该是关于输出序列变量的更强并比现有词嵌入具有更长距离的统计特性,以及从输出到输入的生成特性。


图片描述

微软人工智能首席科学家 邓力

邓力,现任微软人工智能首席科学家和深度学习技术中心研究经理。他在美国威斯康星大学先后获硕士和博士学位,然后在加拿大滑铁卢大学任教获得终身正教授。其间,他还任麻省理工学院研究职位。1999 年加入微软研究院历任数职,并在2014 年初创办深度学习技术中心,主持微软公司和研究院的人工智能和深度学习领域的技术创新。研究方向包括自动语音与说话者识别、口语识别与理解、语音–语音翻译、机器翻译、语言模式、自然语言处理、统计方法与机器学习、神经科学,听觉和其他生物信息处理、深层结构学习、类脑机器智能、图像语言多模态深度学习,商业大数据深度分析预测等。


以下为采访实录:

非监督学习语音识别将来会成功,但需要大量创新工作来铺路

CSDN:能否介绍当前语音识别领域最让您兴奋的一些进展,以及您目前所做的一些有趣的工作?

邓力:从整个语音识别业界来讲(包括中国和美国几家主要大公司的工作),令人兴奋的进展涵盖了输出端和输入端全方位的端到端训练::

  1. 端到端建模和训练大规模神经网络语音识别系统近期继续降低识别错误率,特别是成功用上CTC训练准则使得端到端训练行之有效。CTC训练准则最忠实地代表了语音识别系统的训练目标,比我们在DNN时代之前用的MCE、MPE、MWE、MMI更合理,尽管CTC的优化需要不少工程技巧。我在研究院的同事在这方面做了很多工作,包括对CTC的延伸并将CTC与传统的MMI序列训练方法相结合。

  2. 行之有效的端到端训练在输入端已经扩张到多麦克风阵列的语音波形。这使得抗噪音的语音识别系统部分也整合进入端到端学习。

我自己目前将不少时间用在关于让非监督学习用到离散序列输出(比如自然语言)的应用,包括语音识别、机器翻译、看图说话,等等。为什么注重像自然语言这样的离散序列输出?这是因为自然语言模型包含了非常丰富的“先验”知识,使得不需输入输出匹配的学习的成功机会大于其他在输出端缺乏丰富“先验”知识的应用和任务。

靠输入输出匹配的学习是要花高代价准备大训练数据的。这是目前很成功的有监督深度学习的局限之一。相反,无需输入输出匹配的大数据成本要低得多,它遍地皆是,有取之不尽用之不竭的潜力。

要有效地利用比现有输入输出相匹配的训练数据高出几个数量级的无输入输出匹配的大数据来训练深度学习系统,有待于开创全新的深度非监督学习算法和理论。一旦成功,这会给深度学习建立一个新的里程碑。比如用在语音识别,任何人们之间的对话和个人演讲都可以成为非监督学习语音识别机的语料,而我们并不需要去标注这些自然的到处都有的语料。

为什么我认为非监督学习语音识别会成功? 因为我们在输出端有丰富的“先验”知识,就是非常强的语言模型,可以是嵌入式的, 也可以是非嵌入式的。同时我们也有非常丰富的从输出端到输入端映射的生成式的“先验”知识。这就是语音科学家几十年积累下来的人类从概念到波形的语音motor control和语音生成的知识。语音生成的motor control要比机械人对手指的精细运动控制还复杂。

我当年在MIT、ATR和在加拿大滑铁卢大学任教时做了很多这方面的研究。当时用的是动态深度贝叶斯网络来表达和实现这些知识,模型中的一部分也用上multilayer perception。我和我的学生们在1997-2003年发表了一系列论文。到微软之后还写了两本关于这方面的书。记得当年Geoff Hinton教授同我就如何将这些动态语音生成知识和模型用到有监督深度学习讨论了很长时间。当时得到的识别率结果跟丢开这些生成知识的DNN-HMM差不多,但计算上却难以得益于用GPU训练,而且解码要用很多近似,也很慢。所以我把动态语音生成模型放弃了很长时间专攻DNN,后者没有这些弱点。见文末一些文献,回顾了以上讲的这些古老的工作。

现在到了大家开始注重非监督深度学习的时代。过去积累的研究经验和有计算价值的语音生成知识真是可以派上用场。将多种类(输入输出端统计特性以及它们的关联性)的先验知识整合到一个崭新的非监督深度学习框架,我相信语音识别的问题可以彻底解决。

深度神经网络应为主干

CSDN:概括地说,除了特征提取,深度学习在语音识别领域主要还发挥哪些作用?

邓力:端到端训练高层动态网络是有监督深度学习在语音识别领域应用的精华。特征提取只是它的自然结果之一。

直到现在,单靠特征提取在非监督深度学习上从未成功过。

CSDN:您与俞栋博士合著的新书《解析深度学习-语音识别实践》系统地介绍了基于DNN的语音识别技术,哪些人应该读这本书?他们会收获些什么?这本书适合入门吗?需要读者具备什么知识基础?

邓力:我们在序言里讲到这本书的对象主要是语音处理及机器学习领域的在读研究生、研究者、实践者、工程师以及科学家的学习研究工作。但注意由于我们写书时间紧迫,有些内容没有加上,包括CNN、CTC、麦克风阵列、语音分离,等等。

阅读本书的知识基础包括微积分、矩阵代数和基本的概率统计等。

对于入门读者,我们同年出版的英文版《深度学习: 方法和应用》(由谢磊教授翻译成中文)可能更适合。只是材料有点过时了。

CSDN:您介绍了很多鲁棒性的方法,有哪一种是您最喜欢的吗?

邓力:对speaker鲁棒性的方法,我很喜欢KL-divergence regularization,不但管用,而且方法巧妙,实现起来也简单。是subspace方法中的一种。

对抗环境噪音的鲁棒性的方法,我在全力攻DNN之前很喜欢 VTS的方法,也发明了整合语音-噪音相位(phase-sensitive)的VTS方法,不但方法巧妙,在某些条件下也挺管用。但因为它用的是生成式的概念,几年前很难用DNN方法来实现。现在我们知道怎样整合生成式模型和神经网络 (见书中第6章和文末一些文献),大家做这方面的研究可能就有成功希望了。

CSDN:书中专门谈到了迁移学习,举了一些例子,如欧洲语言到中文普通话的成功迁移,那么哪些因素决定共享DNN隐层架构在当前语音识别领域的边界和局限?迁移学习在语音识别领域推广应用的挑战是什么?

邓力:我们在第12章讲了迁移学习,并举了用其他语言的语料帮助一个特定语言的语音识别的例子。跨语言能共享DNN隐层架构有很强的物理和认知的基础。不论什么语言,其发音器官(主要包括声道和声门)大体相似。人类语音感知机制是同生成机制紧密相连的。所以DNN作为语音感知层的模型在高层上共享隐层是很自然的思想。

12章讲的所有例子都是基于音素及其左右context作为基本语音单元。我觉得如果能把乔姆斯基的生成式音韵结构用上来定义基本语音单元做迁移学习,至少理论意义会更大。共享隐层的基础会更扎实些,因为用音韵结构定义的语音感知单元(叫做phonetic或phonological features)就是按照人类发音器官跨语言共享的总体特性来决定的。

从更广阔的意义上讲,迁移学习可以成为完成非监督学习的重要“知识源”之一,特别当数据和问题本身有组合(composition)特性的时候。上月开完的CVPR有一篇很好的关于“Deep Composition Net”的论文,用到的迁移学习很巧妙很有趣。语音领域里的这种组合特性更丰富,特别在于怎样将音素(类比为分子)分解为phonological features(类比为原子)。而且这种分解组合与“features”之间非同步的时程演化有关。这是语音很有趣的特性。

CSDN:当前热门的LSTM RNN被高估了吗?

邓力:热门而古老的LSTM RNN确实很有效。GRU简化了LSTM不少,也类似有效。但要注意,把它们用到语音识别时必须用HMM的动态规划或者CTC来处理LSTM RNN的输出。手写体字的识别也一样。但用到自然语言处理就不需要这样多此一举,因为输入输出的序列没有像语音和手写体识别那样的segmental特性。

LSTM RNN的发明者之一Schmidhuber教授近日正好来到西雅图。我们又一次在一起讨论,也谈起LSTM RNN在语音识别和其他领域(包括增强学习方面)的重要应用。我不觉得有被高估。

CSDN:书中介绍了一系列的未来技术方向,其中哪些是您的团队所关注的?您如何确定一个技术研究的方向?

邓力:英文版的书是在2014年中完稿的。近两年来深度学习发展很快。15章最后一节提到的一系列的未来技术方向,不少方面至今已经有很大的进展。书完稿之后又很快出现新的技术研究的方向。

我领导的团队现在主要聚焦在自然语言语义理解及其在对话系统(包括聊天机器人)上的应用。语音的进一步进展目前相对是次要,因为识别率已经高到在对话系统上可以使用的地步了。

确定技术研究的方向有几个因素要结合,包括其潜在的对工业界和学术界的影响力, 实际应用的可能性和广泛性,创新价值和新颖性,能否利用现有技术积累比较快速地实现,等等。当然也包括团队有无激情和能力把它做成。所以团队的质量最重要。我领导的团队近年来靠公司内部最富有激情和高度能力的强手队员做了几项很有影响力的深度学习大项目,但因涉及商业应用尚未对外发表,这在一定程度上对吸引公司外部的强手起了负面作用。我们正在设法改变这种状况,使我们的团队更加强壮。

CSDN:训练关键的发音特征并泛化,目前有什么样的进展?您认为技术成熟还需要什么条件?

邓力:刚才提到我们目前的精力主要在自然语言理解,我近来没有跟踪这方面的进展。但我认为有效利用语音composition特性来做基于迁移学习的泛化是一个方向,因为发音特征的变化往往是源于个别发音器工作的微小变化,并非某个音素整体的变化。

CSDN:未来三五年的ASR领域,是否还有一些非深度学习方法具有挖掘的潜力(或者可以和深度学习进行结合实现更好的效果)?

邓力:像英文和普通话中文已有比较大量的有标注的训练数据,深度神经网络应为主干以达到极佳识别效果。整合深度生成模型有助于进一步提高识别效果。

对于低资源的语言或中文的很多方言,有标注的训练数据不多。基于贝叶斯网络的生成模型可能更有效。同时,Kernel非线性方法(非深度模型)也就不受大数据scalability的限制。

在所有以上情形里,在非监督深度学习成功之后,它们的识别效果都会有很大的提升,因为更多无标注的语音数据可以被有效地加以应用。

增强学习的作用

CSDN:AlphaGo的进展让世界注意到了增强学习,您认为(深度)增强学习在语音识别领域能发挥什么样的作用?

邓力:增强学习的本质是阶段性的优化过程,同时增强信号或有“标注”的信号(reward signal)只是到终点阶段才清楚(好比AlphaGo下的围棋最后谁赢谁输),或者对在每阶段都有的增强信号不值得过于介意(不像有监督学习的标注那样介意到把它直接当作目标去优化逼近)因为这种增强信号只起局部性的参考估值(evaluative)作用。这些例子是我们团队正在做的不同类型的聊天和对话机器人的场景。

对语音识别,每个句子标注的信号价值都很高,而且我们真把它当作目标去优化逼近来训练系统参数。所以这是一个典型的有监督学习问题(或者在不久将来会成为非监督学习问题),并不是增强学习问题。但如果把语音识别作为整个语音对话系统的一部分,而且用端到端深度增强学习方法来优化整个系统,那么语音识别器的参数会跟有监督学习得到的结果略有不同,因为语音识别器的参数会受端到端深度增强学习影响,尽管增强学习主要是用到整个语音对话系统系统优化的后端。

所以,初看起来好像以序列结构为输出的语音识别和增强学习都用到动态规划来做训练和测试,但它们的目的是很不一样的。

非监督学习语音识别的关键

CSDN:您多次表示看好语音的非监督学习,并且书中还谈到了词嵌入,未来词嵌入的引入会是语音领域非监督学习的大杀器吗?

邓力:两年前我们在写这本书最后一章最后一节时,我们将词嵌入的利用和改善作为一个未来方向。之后我对这个问题有更多的思考。下面利用这个采访机会小结一下。

非监督深度学习的本质是在无标注数据的条件下要能够有效地将各类相关的“先验”知识整合到一个完整而能快速计算和优化的深度学习框架。我的这个观念同其他说非监督深度学习的专家很不同。可能他们还没想得那么清楚和深入。我常对新加入我团队和做机器学习理论的同事说,我的这个观念可以又称为“有无限实际价值的非监督深度学习”,而不是大家在机器学习书本、wikipedia和文献上看到的几乎是没多少实际价值的非监督学习。

说到先验知识,我们就看到贝叶斯方法很重要,不能单用神经网络。一定要做到有原则性的整合。

词嵌入的本质是利用了词在句子中分配特性 (the distributional property, different from distributed representations per se), 也就是邻近词的预测特性(最近见到一些深度学习专家谈到用类似的预测特性做有关视频的非监督深度学习)。但这只是所应该用的先验知识的一小部分。更重要的先验知识应该是关于输出序列变量的强统计特性,也就是如何把大型且高质量的语言模型用到全系统学习,并且同时有效地用上极大量无标注的语音数据。

说到词嵌入或音素嵌入用到语音识别领域,我觉得更有意思的是把乔姆斯基的生成式音韵结构(phonological structure)整合到深度学习讲的嵌入(embedding)方法里。我在MIT时(1992-1993)同我的学生孙晓东把乔姆斯基的生成式音韵结构用到GMM-HMM的输出层上得到很有意思的结果,1994年在JASA发表了很长的论文。记得当年Hinton教授从多伦多到MIT访问我时,讨论到是否能把这种生成式音韵结构知识用到神经网络架构上。当时没继续进展,也许现在可以在这方面开展一些工作。

同样重要的是关于语音生成的先验知识加上从其他任务中学来的知识。对抗式网络的思路是可以用来整合语音生成知识到动态深度神经网络的方法之一。这里有很多好的研究可以做。

当然关于输入变量的统计特性对非监督深度学习也很重要,比如在传统意义上讲的非监督学习的自动分类。我同伯克利大学的Bin Yu教授有很多这方面的讨论。但对语音领域这后者不是那么容易用得好,因为语音有很特殊的动态特性。

很多这些想法都还没写到我们的书里。在第2、3、6和15章里,只是略提了一些。

类脑机器智能突破现有神经网络的局限

CSDN:您关注的类脑机器智能是否局限于神经网络?如果不是,能否介绍您在这方面的最新研究及其在语音方面的应用?

邓力:类脑机器智能同神经网络关系最大。直接有关的是如何利用神经脉冲特性,包括用STDP(spiking-time dependent plasticity)来改善现有的神经网络和算法。早在2013年温哥华的ICASSP大会期间,Hinton教授是我请来做主题演讲的,我们当时开会期间就谈了很多关于STDP的问题, 包括STDP同BackProp的紧密关系以及可能的BackProp改善使它更相符人脑的运行机制。还有很多相似的类脑机制很可能将来会对现有的深度神经网络算法和机器智能产生显著的影响。

至于神经网络以外的,这要看你怎样定义神经网络——深层生成式模型可以属于神经网络,也可以属于非神经网络的图模型或贝叶斯网络。后者着重于将应用领域的知识(比如语音识别中的从发音器官的控制到发音器官的运动再到声音的产生的一系列因果关系)用疏散的矩阵把随机变量“节点”连接起来。并着重于用统计分布来描述非确定性(uncertainty),因为现实应用领域的知识很少是确定无暇的。这类深层生成式模型比较难用类脑的机制和算法来改善。如果能用GPU加速运算就不错了。事实上就连这也没那么简单。

对可以当成神经网络看待的深层生成式模型,类脑机器智能的潜力很大。这种模型(包括DBN、DBM、GAN、variational autoencoders和90年代的sigmoid belief networks、wake-sleep networks,等等)撇开应用领域的知识而用统一的密集矩阵来参数化整个模型。不但用GPU加速运算就像DNN一样容易,不少类脑机制和认知科学理论也可以比较直接用上。

说到认知科学理论用于类脑机器智能,我领导的团队正在同美国一所著名大学的教授合作开发一个新型的基于高维张量的结构表征和知识库。这个项目由我亲手抓,它直接受启发于人脑对纯符号树状或图状结构的表征。这对于自然语言和知识的组织利用和增长都非常关键。

长远看来,类脑机器智能一定会突破现有的深度神经网络存在的许多局限。我的团队在以上方面的工作目前大部分用在自然语言语义理解、对话系统和知识整合诸方面的利用。语音识别方面的问题相对简单一点。

关注arXiv新论文

CSDN:这本书的参考文献数量达到了450多份,包括很多论文,这可能得益于您的IEEE的工作,但目前各个大会/期刊收的论文非常多,能否介绍一些快速选择和研读论文的通用方法?

邓力:确实在过去两三年内,由IEEE发表出来的论文时间拖延远远大于深度学习、机器学习、计算机视觉和自然语言处理等社群发表的论文。这些社群通常在投会议(NIPS、ICML、ICLR、CVPR、ACL、EMNLP、NAACL等)或期刊杂志(JMLR、TACL、CL等)论文的同时也把论文放到arXiv上。所以现在我自己看arXiv的论文也远多于IEEE发表出来的论文。几年前当我还在IEEE担任两个期刊杂志的主编时,Yann LeCun就建议我要让IEEE完全文献开源并不让arXiv阻碍向IEEE会议投稿。IEEE方面有进展但不快,有多种原因。

所以我建议大家多关注arXiv出来的新论文,特别选择从好团队出来的新论文。另外,最近NIPS、ICML、ICLR等会议接受的文章常把审稿的评论也公开。这有助于把这些文章理解得更全面。

近几个月来,我用微信多了,见到CSDN和一些关注人工智能的垂直公众号(像新智元和机器之心)很及时翻译出的很好的关于机器学习和人工智能的文章,以及采访报道。比如CSDN几天前发的《揭秘深度强化学习》对入门者就很有用。我建议大家也多关注这些很有价值的材料。

关于邓力的更多观点:


CCAI 2016中国人工智能大会将于8月26-27日在京举行,AAAI主席,国内外众多院士,MIT、微软、大疆、百度、微信、滴滴专家领衔全球技术领袖和产业先锋打造国内人工智能前沿平台,8个重磅主题报告,4大专题论坛,1000+高质量参会嘉宾,探讨人机交互、机器学习、模式识别及产业实战。八折特惠门票截止8月12日24时

图片描述


References:

·  Deep Reinforcement Learning with a Natural Language Action Space , ACL, 2016

·  End-to-End Memory Networks with Knowledge Carryover for Multi-Turn Spoken Language Understanding Interspeech,2016

·Industrial Technology Advances: Deep learning — from speech recognition to language and multimodal processing, APSIPA Transactions on Signal and Information Processing (Cambridge University Press),February 2016,

·  Book: Robust Automatic Speech Recognition — A Bridge to Practical Applications (1st Edition), 306 pages, Jinyu Li, Li Deng, R. Haeb-Umbach, Y. gong,Elsevier, October 2015,

·  Ensemble Deep Learning for Speech Recognition , Li Deng, John Platt, Interspeech, 2014

·  Deep Learning: Methods and Applications Li Deng, Dong Yu,NOW Publishers,May, 2014,

·  A Tutorial Survey of Architectures, Algorithms, and Applications for Deep Learning , APSIPA Transactions on Signal and Information Processing, Cambridge University Press,January, 2014

·  Recent Advances in Deep Learning for Speech Research at Microsoft , ICASSP, 2013

·  New types of deep neural network learning for speech recognition and related applications: An overview , Li Deng, Geoffrey Hinton, Brian Kingsbury, ICASSP 2013

·  Machine Learning Paradigms for Speech Recognition: An Overview Li Deng, Xiao Li,in IEEE Transactions on Audio, Speech, and Language Processing,May, 2013,

·  Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding . Li Deng, Gokhan Tur, Xiaodong He, Dilek Hakkani-Tür,IEEE Workshop on Spoken Language Technologies,December 2012,

·  Learning with Recursive Perceptual Representations , Oriol Vinyals, Yangqing Jia, Li Deng, Trevor Darrell,in Neural Information Processing Systems (NIPS),December 2012

·  Deep Neural Networks for Acoustic Modeling in Speech Recognition , Geoffrey Hinton, Li Deng, Dong Yu, et al, IEEE Signal Processing Magazine, Nov 2012

·  Discriminative Learning in Speech Recognition Xiaodong He, Li Deng, IEEE Signal Processing Magazine, October, 2007.

·  Speech Analysis: The Production-Perception Perspective, Li Deng, Jianwu Dang,in Advances in Chinese Spoken Language Processing,World Scientific Publishing,2007.

·Book: Dynamic Speech Models — Theory, Algorithm, and Application; (book review in IEEE Trans. Neural Networks, Vol. March 2009) Li Deng,Morgan & Claypool,December, 2006.

·  A Bidirectional Target Filtering Model of Speech Coarticulation: two-stage Implementation for Phonetic Recognition , Li Deng, Dong Yu, Alex Acero,in IEEE Transactions on Audio and Speech Processing, 2006,

·  A Multimodal Variational Approach to Learning and Inference in Switching State Space Models , ICASSP, 2004

·  Deep Sentence Embedding Using Long Short-Term Memory Networks: Analysis and Application to Information Retrieval, IEEE/ACM Transactions on Audio, Speech, and Language Processing,March 2016,
·  Deep Convex Network: A Scalable Architecture for Speech Pattern Classification Li Deng, Dong Yu,Interspeech  2011.
·  Binary Coding of Speech Spectrograms Using a Deep Auto-encoder Li Deng, Mike Seltzer, Dong Yu, Alex Acero, Abdel-rahman Mohamed, Geoff Hinton,Interspeech 2010.
·  Challenges in Adopting Speech Recognition Li Deng, Xuedong Huang,in Communications of the ACM,January  2004
·  Book: SPEECH PROCESSING — A Dynamic and Optimization-Oriented Approach, Li Deng, Doug O’Shaughnessy,Marcel Dekker Inc.,June  2003
·  Variational Inference and Learning for Segmental Switching State Space Models of Hidden Speech Dynamics, ICASSP, 2003.
·  Switching Dynamic System Models for Speech Articulation and Acoustics, Li Deng,in Mathematical Foundations of Speech and Language Processing,Springer Verlag, 2003
·  Parameter estimation of a target-directed dynamic system model with switching states, R. Togneri, J. Ma, Li Deng, IEEE Transactions on Signal Processing,  2001
·  Spontaneous Speech Recognition Using a Statistical Coarticulatory Model for the Vocal Tract Resonance Dynamics, Li Deng and Jeff Ma,in Journal of the Acoustical Society of America, 2000.
·  Computational Models for Speech Production , Li Deng,in Computational Models of Speech Pattern Processing, (NATO ASI Series),Springer Verlag, 1999
·  A layered neural network interfaced with a cochlear model for the study of speech encoding in the auditory system , H. Sheikhzadeh, Li Deng,in Computer Speech and Language, 1999
·  A dynamic, feature-based approach to the interface between phonology and phonetics for speech modeling and recognition, Li Deng,in Speech Communication,January 1998.
·  Production models as a structural basis for automatic speech recognition,” Speech Communication (special issue on speech production modeling)Li Deng, G. Ramsay, D. Sun,in Speech Communication,August 1997
·  Integrated-multilingual speech recognition using universal phonological features in a functional speech production model, Li Deng, ICASSP 1997
·  A statistical approach to automatic speech recognition using the atomic speech units constructed from overlapping articulatory featuresLi Deng, D. Sun,in Journal of the Acoustical Society of America, 1994
·  Analysis of correlation structure for a neural predictive model with application to speech recognition, Li Deng, K. Hassanein, M. Elmasry,in Neural Networks, 1994,


语音识别学习篇

阅读数 38

没有更多推荐了,返回首页