2019-03-25 19:45:49 qq_40273862 阅读数 329
  • 深度学习入门及如何转型AI领域

    深度学习入门转型视频教程,该课程主要告诉开发者如何快速入门深度学习。讲师是在机器学习,深度学习神经网络领域多年开发研究经验,精通算法原理与编程实践。曾完成过多项图像识别,目标识别,语音识别的实际项目,经验丰富。关注深度学习领域各种开源项目,如TensorFlow,Caffe,Torch等。喜欢理论与实践相结合的教学风格,课程编排由浅入深,体系清晰完整。

    2776 人正在学习 去看看 CSDN讲师

**

基于深度学习的语音识别备忘录(1)

作为超级萌新在配置框架TensorFlow和Keras时所遇到的问题的记录

**

写在前面

       也许对于那些已入门的人来说,看到我最开始的操作时会觉得不可理喻,甚至会有些愠怒。但请见谅,这是一个光知道些理论和术语,却对自己要做什么和怎么做毫无规划、一窍不通的人的真实记录。

GitHub:从下载到迷茫

       最开始在了解到Kaldi在语音识别领域的地位后,果断下载了GitHub。将Kaldi下载好后,我发现我并不知道如何打开它,于是搜索“如何使用Kaldi”。显然,大多数帖子讲的都是基础的模型训练,而横亘在我面前的问题是——依据以往的经验,C有Workspace;C#有.sln;Java也有Project打开选项——而到了Kaldi这,不仅没有看到任何一个文件类似工程头文件,选择打开整个文件夹也因为不是工程而无法显示(顺带一提,一开始用的是自带的Spyder,我连创好的新工程都无法打开)。我不断地搜索各种“如何使用“或者是“如何打开”工程,但一无所获(估计别人也没想到有人会无知到这份上 ),于是越来越烦躁(无能狂怒 )。

重缕头绪,粗拟大纲

       在这里,我要感谢实验室的师哥师姐们,他们热心地询问我的情况,得知了我的问题后也没有厌烦,而是认真又耐心地协助解决。
  首先,他在查看了Kaldi内的文件列表后,告诉我用Python跑就行,接着问我这是工具包(Toolkit)还是框架(Framework),正是这句话点醒了我,我虽然记得Kaldi是工具包,但压根没意识到只有工具包是跑不起来的。于是接下来我便开始寻找合适的框架和语言了。当时还正儿八经地在想是用Python(小学期溜了,没学 )还是用C#;是用Keras还是用TensorFlow;用Windows还是Linux。稍一调查就发现:用Python;Keras不仅适合新手,而且两者并不冲突;倒是Linux没装,先用着Windows,毕竟牵扯到一些程序以外的事情,如果是自己配的电脑的话,估计直接就上Linux了。
既然已经有了大致的方向,接下来需要做的事情就是一步一步来做即可。
  结合师哥姐的建议,我把Spyder换成了Pycharm,又下载了Anaconda。与此同时,我还私下买了《TensorFlow+Keras:深度学习人工智实践应用》和《Python:从零基础到项目实战》两本书。(但说真的,买回来总感觉像是F1帮助手册汉化版,好多都是网上随便查查都找得到的
       初步的准备工作已就绪,接下来就慢慢开始做吧。

环境配置

       由于实验室配备的电脑并不是全新的,其上一任主人已经安装好了各种基础的软件,所以我就省去了这份功夫。因此第一步转变为,利用Anaconda配置TensorFlow和Keras。
参考文章:
Anaconda环境安装指导
在Windows中安装Tensorflow和Kears深度学习框架【虽然是百家号,实用就行】

**安装步骤:**
Anaconda的安装

自行选择对应版本


测试并安装环境
1、打开cmd,查看Anaconda是否安装成功

conda --version

2、检查已有的环境变量

conda info --envs

说明尚未安装环境,很“干净”

3、建立Anaconda虚拟环境

conda create --name tensorflow python=3.6(3.5 or 3.6,3.7在此时尚未支持)

y:安装


4、根据提示,激活虚拟环境

activate tensorflow

出现这个就是对的了

5、安装TensorFlow

pip install tensorflow

安装完成

6、安装Keras

pip install keras

同理
同理可得

安装失败好几次后,终于成功

6.5检查环境安装结果
环境安装已完成

7、使用Pycharm设置编译器,初步调试

在右上角的齿轮处寻找已安装的Anaconde/TensorFlow/Python.exe作为编译器(Interpreter)

选择Conda Environment(毕竟是用Anaconda装的)

打开在GitHub下载好的Keras框架
选择入门级的mnist_cnn作为例子运行

在这里插入图片描述

可以看到Pycharm开始跑程序了

至此,环境的初步建立大功告成,接下来就是熟悉框架,试着调调参,为最后的语音识别做好准备

blog撰写备注
【 】空格
<center>居中</center>
2016-08-05 06:16:06 happytofly 阅读数 2689
  • 深度学习入门及如何转型AI领域

    深度学习入门转型视频教程,该课程主要告诉开发者如何快速入门深度学习。讲师是在机器学习,深度学习神经网络领域多年开发研究经验,精通算法原理与编程实践。曾完成过多项图像识别,目标识别,语音识别的实际项目,经验丰富。关注深度学习领域各种开源项目,如TensorFlow,Caffe,Torch等。喜欢理论与实践相结合的教学风格,课程编排由浅入深,体系清晰完整。

    2776 人正在学习 去看看 CSDN讲师

作为人工智能领域的一个重要方向,语音识别近年来在深度学习(Deep Learning)的推动下取得了重大的突破,为人机语音交互应用的开发奠定了技术基础。语音识别技术演进及实现方法、效果,既是语音识别从业者需要系统掌握的知识,也是智能化应用开发者应当了解的内容。日前,微软研究院首席研究员、《解析深度学习-语音识别实践》第一作者俞栋接受CSDN专访,深入解析了基于深度学习的语音识别的最新技术方向,和微软团队的实践心得,并对微软开源的深度学习工具CNTK的迭代思路做了介绍。

俞栋介绍了deep CNN、LFMMI、深度聚类、PIT和RNN生成模型等最新的用于语音识别的深度学习模型,以及《解析深度学习-语音识别实践》中提到的迁移学习、计算型网络(CN)等技术。他表示,更困难环境下的识别(如远场、高噪音、或带口音的语音识别)会是下一个需要解决的问题,目前他的团队就专注于研发对各种场景都具有更强识别能力的模型,如deep CNN以及能提升远场识别率的模型(如PIT)。

作为研究人员,俞栋同样注重工程方面的实用性。问题的重要性、研究方向的潜力、解决方案的普适性和工程上的便利性,是他选择研究方向的四个重要考量因素。从工程的角度,他认为,计算型网络在语音识别中的应用,需要考虑训练的难易程度、模型的大小、以及运行时的速度、时延和能耗。这其实也是CNTK未来迭代的核心诉求。

此外,他表示,深度学习只是众多人工智能技术中的一种,主要擅长非线性特征提取和端到端的基于梯度的优化,无法单独用来解决许多实际问题,把多种技术有机地结合起来才是最佳方案。

微软研究院首席研究员俞栋

俞栋,1998年加入微软公司,现任微软研究院首席研究员,兼任浙江大学兼职教授和中科大客座教授。语音识别和深度学习方向的资深专家,出版了两本专著,发表了160多篇论文,是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。曾获2013年IEEE信号处理协会最佳论文奖。现担任IEEE语音语言处理专业委员会委员,曾担任IEEE/ACM音频、语音及语言处理汇刊、IEEE信号处理杂志等期刊的编委。

以下为采访实录:

语音识别的最新进展

CSDN:能否介绍当前语音识别领域最让您兴奋的一些进展,以及您目前所做的一些有趣的工作?

俞栋:自从2010年我们在大词汇量语音识别系统里成功引入深层神经网络后,语音识别研究和应用就进入了深度学习时代。最近这几年语音识别领域的发展速度大大超出了我们的预期,每年都有新的更有效的模型和方法被提出来。

在最近的这一年里,有几项工作让我觉得很有意思。

  • 第一项工作是包括IBM、微软、讯飞、上海交大等研究机构报告的深层卷积网络(deep CNN)在大词汇量语音识别中的成功应用。之前我们一般仅在底层使用卷积网络,在那样的框架下卷积网络大大增加工作量但识别上的性能优势并不明显,所以在书中我们没有花很大的篇幅介绍这方面的工作。但当我们应用类似于图像识别中所用的诸如VGG、GoogleNet、和ResNet那样的深层卷积网络时,识别率有了很大的提升,甚至超过了之前表现最佳的深层双向LSTM。由于时延(latency)的原因,双向LSTM不能用于实时系统,而深层卷积网络的时延比较小而且可控,所以可以用于实时语音识别系统中。

  • 第二项工作是约翰霍普金斯大学Dan Povey博士主导的lattice free MMI(LFMMI)。为了提高语音识别系统构建过程的鲁棒性,传统语音识别系统的构建需要经过很多步骤。最近几年里,许多研究人员都在尝试通过端到端(end-to-end)优化直接构建识别系统以省去其他步骤,最有影响力的工作是基于LSTM的Connectionist Temporal Classification(CTC)模型。Google和百度都报告说成功应用了该技术,但据我们所知,直接使用CTC需要大量的调参工作因而总的建模时间反而更长,否者效果很差。或者说这一方法在新任务上的可重复性较差。而LFMMI从传统的MMI序列训练方法发展而来,引入了CTC的一些概念,也可以实现端到端的训练,但构建过程更容易重复,鲁棒性更高。

  • 第三和第四项工作是对鸡尾酒会问题的解决方案。鸡尾酒会是语音识别里一个很难但很重要的问题。最近有两项工作使我们看到了解决这一问题的曙光。

    • 一项是MERL的John Hershey博士为主提出的深度聚类(Deep Clustering)方法。他们的方法通过把混合语音的每个time-frequency bin结合它的context映射到一个新的空间,使得在这一空间中属于同一说话人的bin距离较小因而可以聚类到一起。
    • 另一项是我们和Aalborg大学合作提出的具有置换不变性的训练方法(permutation invariant training,PIT)。PIT通过自动寻找分离出的信号和标注的语源之间的最佳匹配来优化语音分离这一目标。这两种方法各有千秋,我个人的观点是PIT更有潜力一些,最终解决问题的有可能是PIT的某种改进或这两种方法的某种组合。
  • 另外在基于RNN生成模型的识别方法(例如sequence-to-sequence模型)上最近也有一些进展,但总的来说,这一方面的研究还在初步阶段。

我最近在做三项工作:

  • 一项是deep CNN,我们差不多与其他几个研究组同时发现了deep CNN在大词汇量语音识别中的优越性能;
  • 一项是基于 PIT的语音分离,我是这项工作的主导者和主要贡献者;
  • 第三项是基于RNN生成模型的识别方法,我们有一些新的想法,但这项工作还在初级阶段。

深度学习与语音识别

CSDN:概括地说,除了特征提取,深度学习在语音识别领域主要还发挥哪些作用?

俞栋:深度学习目前最主要的作用仍然在特征提取上。即使deep CNN也可以看成是一个更复杂的特征提取器。但正如你可以想见的,深度学习的作用不仅仅是特征提取。比如我们两年前提出的prediction-adaptation-correction(PAC)模型可以把一些识别上的行为特征比如预测、自适应、和纠偏直接建在模型里。又比如,我们在书中提到的noise-aware和speaker-aware自适应方法可以通过网络结构直接实现自适应建模。再比如,PIT模型可以直接由深度学习模型分离语音,而基于CTC和RNN生成模型的识别方法更是直接由深度学习模型产生识别结果。

CSDN:您与邓力博士合著的《解析深度学习-语音识别实践》系统地介绍了基于DNN的语音识别技术,哪些人应该读这本书?他们会收获些什么?这本书适合入门吗?需要读者具备什么知识基础?

俞栋:对于正在或将来想从事语音识别研究或工程实践的学者、学生、和工程师,这本书都会对他们有所助益。而这也正是我们写这本书的初衷。在这本书里,我们试图描绘基于深度学习的语音识别技术的整个框架和主要技术。因为我本人一直奋斗在科研的第一线,所以在书中我们能够提供各种方法提出的基本思路、具体的数学推导、以及实现上的细节和经验。我们希望这本书可以成为大家的reference book。不同的读者可以在书中找到他们想要了解的东西。对于非语音识别领域的研究人员,这本书中提到的方法和思想对他们解决自己的问题也会有所帮助,因为这些都是通用的。

这本书同样适合入门。事实上北美和日本都有大学把本书作为本科或研究生语音处理课程的教材或参考书之一。要读懂这本书,读者只需要基本的微积分、概率论、和矩阵分析的知识。当然,学过机器学习会对里面提到的一些基本概念有更好的认识,而有传统语音识别系统的知识有助于理解识别系统的整个框架以及序列层面上的区分度训练(sequence-level discriminative training)。

CSDN:您介绍了很多提高鲁棒性的方法,有哪一种是您最喜欢的吗?

俞栋:从实用的角度看,基于辅助信息(auxiliary information)的方法例如noise-aware和speaker-aware模型、以及基于SVD和KLD regularization的自适应方法目前最简单有效。

CSDN:书中专门谈到了迁移学习,举了一些例子,如欧洲语言到中文普通话的成功迁移,那么哪些因素决定共享DNN隐层架构在当前语音识别领域的边界和局限?迁移学习在语音识别领域推广应用的挑战是什么?

俞栋:理论上来讲基于共享DNN隐层架构的多语言迁移学习没有本质上的局限,这是因为你总能找到某个层面,在这个层面上语音特征非常类似,即使是非常不同的语言,比如西语与中文。从工程实践的角度来讲,会有权衡。一般来讲,迁移学习想要实现两个目标,一个是快速学习新任务(在这里是新语言),一个是减少学习新任务所需的数据。所以如果一个新语言有足够的数据而运算工具不是问题,那么直接训练可能更好,这是因为一个已经收敛的模型比较难调整到新语言上,就好像一个成年人学新语言比幼儿会难一些。但是如果数据和运算工具有一个不足,那么基于共享DNN隐层架构的多语言迁移学习就会对你的最终系统有帮助。

值得指出的是,基于共享DNN隐层架构的迁移学习也可以用于唤醒词识别(hot-word detection)中以支持用户自选唤醒词。图像识别中也有类似的应用,比如,用ImageNet训练出来的分类器的隐层可以用于image captioning或其他图像分类任务。另外,我们这里提到的是特征层面的迁移,其他层面的迁移也有可能但会困难很多。

CSDN:书中还强调了计算型网络(CN)在新语音识别系统中的作用,考虑CN需要注意哪些问题?热门的LSTM RNN被高估了吗?

俞栋:从学术研究的角度来讲最重要的是分析模型各变量之间的关系,然后用计算型网络来实现这些关系。从工程的角度来讲,还要考虑训练的难易程度、模型的大小、以及运行时的速度、时延和能耗。

LSTM 在许多模型中仍然有重要的作用。不过我们发现一些其他模型在某些问题上可以和LSTM表现接近甚至超过它,比如前面提到的deep CNN在非特定人语音识别上能超过LSTM,而GRU和基于Rectified Linear Unit 的RNN在很多时序问题上和LSTM表现接近但更简单。

图片描述

未来技术趋势

CSDN:语音识别的未来技术方向,其中哪些是您的团队所关注的?您如何确定一个技术研究的方向?

俞栋:我们认为更困难环境下的识别比如远场、高噪音、或带口音的语音识别会是下一个需要解决的问题,我们的研究也侧重在这些方面。我们目前专注于研发对各种场景都具有更强识别能力的模型比如 deep CNN 以及能提升远场识别率的模型比如PIT。我们也关注可能引发技术革新的其他新想法比如基于RNN生成模型的识别系统。

对于研究方向,我个人主要基于如下四个方面来决定:

  1. 问题的重要性。我们侧重解决重要的问题而不管问题本身是简单还是困难。
  2. 研究方向或方法的潜力而不仅仅是目前的表现。如果一个方法目前表现不够佳,但是具有很大的可扩展性和想象空间,那么我们会在这个方向上推进。
  3. 解决方案的普适性。我们更喜欢能解决一类问题或多个场景的方法而不是某个特定问题或场景的方法。
  4. 工程上的便利性。我们更喜欢简洁的方法,简洁的方法更便于工程实现和快速迭代。

CSDN:训练关键的发音特征并泛化,目前有什么样的进展?您认为技术成熟还需要什么条件?

俞栋:我们现在的所有模型都不对关键的发音特征做任何预设,模型参数完全是从数据中学出来的。

在机器学习中,有个著名的bias and variance dilemma。拟合能力弱的模型一般有较小的方差引起的错误率,比较不容易过拟合,但有较大的由偏差引起的错误率。而拟合能力强的模型则反之。由偏差引起的错误率不容易减小,但是由方差引起的错误率却可以通过增加训练数据来减小。深度学习模型其实就是拟合能力较强的一类模型,目前解决泛化能力(或由方差引起的错误率)的主要方法就是增加训练数据。

但是人可以用少得多的训练数据达到在不同场合下的较高的识别率,尤其是对未见场合的泛化能力人远远超过深度学习。我个人做过一些这方面的探索,比如让每个音素学习一个在多种环境下都适用的模板(或mask),但遗憾的是这些尝试并不成功。目前我们还没有发现具有这种强泛化能力的模型。要解决这个问题,机器学习算法必须能够自动识别各层次低维流型上不同sample的相同点和不同点,并知道对哪个问题用哪个层次上的特征。

CSDN:未来三五年的语音识别领域,是否还有一些非深度学习方法具有挖掘的潜力(或者可以和深度学习进行结合实现更好的效果)?

俞栋:其实目前的主流语音识别技术仍然集成了传统方法和深度学习方法。如果把深度学习定义为任何具有多级非线性处理的系统,那么任何含有深度学习模块的系统都是深度学习系统。但这并不表示深度学习就是全部。

从更广泛的范围来看,深度学习只是众多人工智能技术中的一种,它的主要长处还是在于非线性特征提取和端到端的基于梯度的优化。许多问题都不能仅仅使用深度学习技术来完成。比如AlphaGo 其实就是集成了深度学习、强化学习、和蒙特卡洛树搜索技术。我个人认为应该让每个技术做它擅长的事,把多种技术有机地结合起来会是解决很多实际问题的最佳方案。

新技术学习方法

CSDN:这本书的参考文献数量达到了450多份,包括很多论文,这可能得益于您的IEEE的工作,但目前各个大会/期刊收的论文非常多,能否介绍一些快速选择和研读论文的通用方法?

俞栋:你会发现,虽然论文很多,但主要的进展仍然是由几个主要的研究机构和个人推动的。如果你没有足够的时间,那么跟踪这些研究机构和个人会是一个比较有效的方法。如果你能与他们建立良好的关系,你甚至可以在他们的工作正式出版之前就了解他们的进展或得到文章的预印本。如果你还有时间,我建议你去参加相关的学术会议。学术会议是信息交流的场所,你可以了解到大家都在讨论什么问题和方法,推荐阅读哪一篇文章,注意哪一项工作。

当然,并不是每篇文章都值得仔细研读。我会阅读概要、简介、和总结以对一篇文章有个大致的了解,而只花更多时间在有新思想、新方法、新视角或者新结论的具有潜力的工作上。

CNTK加速模型训练速度

CSDN:您认为CNTK在语音识别算法开发中的优势如何体现?

俞栋:就我个人所知,许多新的语音识别模型都是基于CNTK开发的。我们一开始开发CNTK主要就是为语音识别的研究服务的。即使今天CNTK能方便地支持图像、视频、文本、以及其他信息的处理,它对于语音识别模型的支持仍然比较好。CNTK非常灵活,它支持各种主流模型,比如 DNN、CNN、LSTM,同时可以自定义各种新模型,比如PIT模型和PAC模型就都是完全由CNTK构建的。另外,因为CNTK也是我们产品线上的主要工具,所以我们开发了许多高效率高性能的并行算法。这些算法极大地提升了像语音识别这样需要大量训练数据的任务的训练速度。

CSDN:能否介绍CNTK的Python支持的进展?未来对于其他语言如Matlab、R、Java、Lua、Julia的支持是如何规划的?

俞栋:我们在已经发布的1.5和1.6版本中已经有对Python的支持。在将要发布的2.0版本中我们会提供更完善的支持,另外2.0版的API也会更完整、更灵活。在新的API框架下,加入对其他语言的支持会变得很容易。

CSDN:CNTK可扩展GPU的能力值得称道,但大规模部署GPU能耗同样不小,现在有不少FPGA、ASIC加速方案的尝试,CNTK会做类似扩展的考虑吗?

俞栋:事实上,感谢我们工程师的优化工作,我们目前的所有语音识别系统都可以在单CPU上实现实时识别。所以在serving端,GPU能耗还不是问题。 但我们预见到单CPU的瓶颈,所以在CNTK上也在部署低精度低能耗的CPU/GPU架构。当然,我们也有同事在做FPGA的工作。

CSDN:深度学习用于语音识别的形式往往是混合模型,您认为是否有必要考虑CNTK与非深度机器学习系统的整合,比如Yahoo!的Caffe-On-Spark

俞栋:在运行环境上的集成方面,黄学东博士(1993年被微软从卡内基梅隆大学聘请来主导语音识别项目)主导的Philly项目有做类似的工作。

CSDN:在未来半年CNTK会有哪些重要的更新?

俞栋:我们会有更好更灵活的API层,会提供更全面的Python支持,会进一步提升训练的效率,对稀疏矩阵会做更好的支持,会支持低精度计算。当然,更多种类的更复杂的计算节点(比如LFMMI)也会加入到工具中。

CSDN:除了CNTK,还有哪些深度学习开源技术是您喜欢的?

俞栋:TensorFlow、Torch、MxNet、Theano等都是不错的深度学习开源工具。每种工具都有自己的特点和长处。

《解析深度学习-语音识别实践》的另外一位作者邓力也已经同意接受CSDN的专访,文章将于近期发布,敬请期待。


CCAI 2016中国人工智能大会将于8月26-27日在京举行,AAAI主席,国内外众多院士,MIT、微软、大疆、百度、微信、滴滴专家领衔全球技术领袖和产业先锋打造国内人工智能前沿平台,8个重磅主题报告,4大专题论坛,1000+高质量参会嘉宾,探讨人机交互、机器学习、模式识别及产业实战。八折特惠门票截止8月12日24时

图片描述

2018-01-24 19:00:25 cpongo10 阅读数 16
  • 深度学习入门及如何转型AI领域

    深度学习入门转型视频教程,该课程主要告诉开发者如何快速入门深度学习。讲师是在机器学习,深度学习神经网络领域多年开发研究经验,精通算法原理与编程实践。曾完成过多项图像识别,目标识别,语音识别的实际项目,经验丰富。关注深度学习领域各种开源项目,如TensorFlow,Caffe,Torch等。喜欢理论与实践相结合的教学风格,课程编排由浅入深,体系清晰完整。

    2776 人正在学习 去看看 CSDN讲师

640?wx_fmt=gif

语音已经逐步成为人们与人工智能互动的重要界面,人工智能落地的新篇章正在书写,而语音争夺的焦土战则早已全面爆发。

语音识别(语音转文字)是语音文本类深度学习应用类别之一,包括语音命令,语音听写和语音转录。语音命令往往比较短,例如“我要王菲的听歌”等等。语音听写则是对近场清晰语音的人对机听写,需要有一定的实时性。

各大硅谷巨头都在争相发展语音入口

苹果Siri依托于iPhone,以苹果手机的数量不难得出Siri拥有比任何人工智能语音助手都更加庞大的基础平台这个结论。

640?wx_fmt=jpeg

亚马逊Alex则依托于Echo设备。2017年的节日促销, Echo智能音箱家族整体表现亮眼,成了购物季的“明星礼物”,一举拿下全球亚马逊销量最高的商品。这两家都已经在消费普及方面取得了明显的领先优势。而谷歌在搜索方面依然占据领先优势,人们渐渐用语音搜索来代指谷歌的语音技术,整合语音功能的新款软件有Assistant,语音工具有Voice Search。

任何一家硅谷巨头都认定:不能在这个即将到来的生态系统大战中失败。

BAT人工智能的棋局纷纷落子语音入口:

  • 百度语音交互平台Duer OS全面进行开源,百度有基于语言识别和自然语言处理的度秘 DuerOS,所有技术驱动力来自百度大脑,无论是算法还是模型、架构。

  • 阿里智能语音助手AliGenie,阿里人工智能实验室认为AliGenie的优势之处在于语义理解,仅一项关于天气的询问就可以理解700多种中文问法。

  • 腾讯叮当,不仅在于语音交互,更希望以语音为基础,结合视觉与听觉,在原有的“手机助手式”的语音交互上进行叠加配合,真正实现场景化下的高效互动。

另外,to C语音战场的还有搜狗。搜狗建立以语言为核心的人工智能技术,通过问答、语音和翻译更形态应用于搜索和输入法等产品中,把语音输入集成到手机输入法中。

尽管棋局输赢未定,BAT巨头语音领域落子,毫不犹豫。

640?wx_fmt=jpeg

术业专攻,有人主打语音技术

凭借语音输入、语音识别等NLP方面的功底,科大讯飞家的“网红输入法”,6年囊获了5亿用户。自此,便凭着便利性和可靠性改写了语音输入的普及率。同时,以语音引擎为核心,讯飞拥有一套产业合作的方案。比如在教育和医疗领域,都是讯飞重点“AI+”的应用。同时,还开放了讯飞语音云平台。

语音领域的创业企业思必驰的高性能可定制智能语音交互服务平台产业化项目和科大讯飞,高灵敏度语音识别系统产业化及应用项目均是《国家发展改革委办公厅关于组织实施2018年“互联网+”、人工智能创新发展和数字经济试点重大工程的通知》中公示的AI创新发展和数字经济试点重大工程。

大多数人认为,语音识别和自然语言理解及处理是目前人工智能最成熟、进展最快的两大领域,是中国人工智能公司全球领先的领域。语音识别准确率方面,从腾讯、阿里、百度、科大讯飞到搜狗,都已经在大语料数据库的基础上,将语音识别的准确率提升到了97%以上,这在国际公认的标准参数中都已然处于领先。但是面对场景的困难,识别率依然是考验技术的重点。有种说法是,现在语音识别技术字词方面识别率,到句子的识别率,再到段落的识别率逐级下滑的坡度非常陡峭。

语音识别、自然语言理解等技术不断进阶

焦土之战岂止于单一战场。语音入口的上层应用包括智能家居、智能金融、智能交通、智能医疗等;中层是算法层,包括语音识别、语音处理、声纹识别、定向降噪、声场采集等;在基础支撑层是计算平台、数据平台、数据存储与数据挖掘。

随着各个公司对人工智能的投入,带来了语音识别、自然语言理解等 AI技术的不断进阶;一方面,以智能手机为代表的智能硬件就被剧透的最彻底,各种智能手机在发布会会反反复复的宣贯其语音助手的强大能力。现今,智能手机已经实现了语音识别+地图,形成了语音为核心交互的地图导航。你总不能还像 N年前指望汽车还只能理解你的手写输入法吧。

除了智能手机之外,众多设备在搭载了人工智能之力之后,焕发出新一轮科技的魅力感。之前处于听音乐必备的音箱,可能成为家庭日常生活场景的中心,成为智能家庭的标配。智能的视野显然不仅限于音箱,音箱也不会是语音交互的唯一入口。通过语音引擎,车载相关产品将被重新定义。语音车载电子设备曾经因为其差劲的体验一度日薄西山,有了语音技术的加持,现在可能要重新夺回车载场景的中心地位,同时在自动驾驶的场景中也备受期待。以上充分诠释了语音技术应用多而广的特点。

即使语音技术有诸多优点,但是如果想要充分发展语音技术,并借此创造经济收益,必须克服许多障碍,不断创新使用场景。微信家的技术路线则是将语音技术用于自家场景,并赋能自身业务。抛开腾讯进军无人车的雄心壮志不谈,微信智聆将人工智能的语音识别技术更加深入的应用到手机操作的体验中道是可圈可点。在微信的使用过程中,语音转换文字对微信用户来讲是很刚需的场景。不仅如此,这个场景巧妙的回避了语音识别的一大难点,也是远场识别的难点——抗噪。当然速度和精度也是难点,现在很难在很小型的设备上任意的去做语音识别,但是随着智能物联网的发展挑战也会逐步的被克服。

困难一:来自语音数据本身的难点

重要的是:相比模型而言,数据更重要。语音识别需要依赖庞大的数据才能更加完善,一般的开源数据集都会按计算机视觉、自然语言处理、语音识别、地理空间数据等人工智能的子领域分类。阿里AliGenie的语料来自于淘宝天猫等阿里生态系统内的数据分享,除此之外也有通过众包方式获得的数据。微信智聆的语音数据通过从网络爬取公开数据、从正规渠道购买合法的第三方数据,以及请人来录制生成数据。与此同时,微信智聆的技术团队更关注数据的覆盖度,包括人群年龄覆盖度(从儿童到老人),噪声场景覆盖度(马路,商场等环境),语言领域覆盖度,口音覆盖度(南北各主要城市口音),中式英文覆盖度(中国人中英混合语言现象)。

更加重要的是,语音识别技术的目标是将人类语音中的词汇内容转换为计算机可读的输入。其中,计算机可读成为重点。语音数据没有人工标注很难用于算法和模型的训练。语音数据的标注又分为多语种标注、噪音标注甚至角色标注。微信智聆的技术团队目前通常的情况是采用有监督学习的方法,也就是说,数据都是有标注结果的。同时,也在尝试一些半监督的方式,比如使用包含字幕的视频文件提取音频来自动训练,以及一些无监督说话人自适应的方法。

640?wx_fmt=jpeg

语音识别是感知技术这一类里面前沿的技术,有不少观点认为,语音识别技术成熟了,技术难题似乎已经基本被解决了有趣的是,微信智聆技术团队并不这样认为。他们认为,语音识别并不是已经解决的问题,语音识别的最终目标是任何人,在任何环境,用任何风格,无论大声还是小声,无论是正式还是随意,说任何领域的话,都可以被准确的识别出来才算。然而,这个目标目前并没有做到。业内比较普遍,比较成熟的还是环境基本安静,偏朗读方式的语音,这种情况下可达到较高的识别率,基本达到实用。但是,在碰到以下情况的时候,解决的还不够好:

(1) 环境嘈杂

(2) 远距离

(3) 重口音或纯方言

(4) 口语现象,说的很快,很随意

(5) 领域很相关,比如涉及到某个专业领域大量专有名词。

当然,困难是语音识别赋能社会的机遇。在解决这些问题后,语音识别可走入千家万户与千行万业,真正成为提升社会效率的一个有力工具。

640?wx_fmt=jpeg

困难二:取得革命性突破的深度学习框架不能解决所有问题

深度学习的研究方法在自然语言处理领域占主导地位,2017年阿里巴巴人工智能实验室的进展是:经机器翻译,深度学习的方法比传统研究方法有很大提高;语言生成模型及其应用(写诗、写歌);语义理解——用深度学习来有效理解用户意图和实体抽取。技术团队用递归神经网络去进行语义编码,再加上一层卷积层来看到更多的全局信息。在这方面,微信智聆的进展是:核心技术采用了深度学习神经网络LDNN结构,在解码空间,技术团队使用了大数据量训练的语言模型来尽可能覆盖更多的语言现象,同时使用了GPU进行推理,大大提升了效率。在提高正确率方面,通过统计模型在语音识别结果上做一些文本顺滑类的工作,尽可能去保证句子的主干是识别正确的。

尽管采用了深度学习的技术,但语音识别技术仍然避免不了错误,偶尔的会有一些语音识别的错误出现,而开发者的任务就是使得它能够像人一样,在有错误的时候去进行人机交互,修正错误,这需要感知技术和认知技术相互的帮助来实现。

640?wx_fmt=jpeg

更为有趣的是,在速度方面,思必驰之前提到过一个统计数据,语音识别会分成搜索的速度和做神经网络前向传递的速度,这两个速度的比例,在传统系统里面前向传递的速度约占30%-40%,后面在各种各样的语言空间搜索的速度大体占60%-70%。而在这方面,微信智聆采用的是静态解码网络结构,前向传递在运算过程中占比较大,70%-80%,因此技术团队采用了CPU+GPU异构计算,将大头运算量放到GPU上完成,可显著提升效率。

通常情况下,相比键盘为代表的文字输入,语音要高效很多。这也是目前最被看好的新一代人机交互技术,通用语音识别技术在多种场合都能适用:会场同传或者是电话客服质检、音频关键字检索,甚至英文口语发音评估等。腾讯首先是结合自己的产品发挥作用,赋能了腾讯翻译君、甚至是鼎鼎大名的王者农药。大厂商都在积极推动语音识别为核心的交互平台的运用,希望自己的语音交互平台,会成为下一个iOS、下一个安卓。语音领域的创业公司思必驰、出门问问、Rokid等也正在积极的投入到开放平台的竞争中来。

语音识别技术的混战已成焦土。

640?wx_fmt=jpeg

领域实力企业

丨出门问问

出门问问成立于 2012 年,拥有自主研发的语音交互、智能推荐、计算机视觉及机器人 SLAM 等技术,主营业务为 AI 消费电子产品、跨平台语音交互技术提供方。出门问问发布了问问手表 Ticwatch、问问音箱 Tichome、小问音箱 Tichome Mini、与大众汽车集团合资成立的问众智能的问问魔镜 Ticmirror、问问魔眼 Ticeye 等产品。2017 年 4 月出门问问与大众汽车集团成立合资公司问众智能,同年成为 Google Android Wear 中国官方运营伙伴。截至 2017 年 4 月,出门问问共完成六轮融资,累计融资额超 2.55 亿美元。

丨思必驰

成立于 2007 年,是国内领先的语音交互人工智能公司,为物联网及相关垂直领域提供自然语言交互解决方案,包括 DUI 全链路智能对话定制平台、人机对话操作系统、人工智能芯片模组等,并在赋能智能硬件终端后,丰富后端服务资源,满足用户的产品体验和任务型需求。2017 年,思必驰与公安部第三研究所在智能语音产品符合性测试技术研究上达成合作,与深圳市沃特沃德股份有限公司共同打造基于智能语音交互的智能硬件产品综合解决方案。知识产权方面,截至 2017 年年底,思必驰共拥有专利 231 项。

丨科大讯飞

成立于 1999 年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。科大讯飞的语音合成、语音识别、口语评测、机器翻译等智能语音与人工智能核心技术代表了世界最高水平。2017 年,哈工大讯飞实验室 (HFL) 获得斯坦福大学发起的 SQuAD(Stanford Question Answering Dataset) 机器阅读理解挑战赛全球第一名,这是中国本土研究机构首次取得赛事榜首;8 月,在国际医学影像领域的权威评测 LUNA 上,科大讯飞获得平均召回率 92.3% 的检测效果,以显著优势刷新世界记录。10 月,在国际自动驾驶领域权威评测集 Cityscapes 中,科大讯飞获得平均 81.4% 的精度,刷新了世界纪录。

丨搜狗

在搜索、输入法和浏览器之后,人工智能将是搜狗下一阶段的重要战略。语音交互和知识计算是搜狗的发展重心和技术长项,在 2017 年,搜狗机器翻译团队获得 WMT 2017 中英机器翻译冠军。在人工智能技术战略上有两大产品,知音 OS 和深智引擎(指知识计算)。知音 OS 是构架于知音引擎核心技术上的完整产品解决方案。深智引擎是知识计算平台,集成了包括智能问答、对话服务、机器翻译、图像识别与 OCR、语音识别与合成、智能客服等在内一系列以语言为核心的知识计算技术。

640?wx_fmt=gif

2016-08-08 06:37:38 happytofly 阅读数 1493
  • 深度学习入门及如何转型AI领域

    深度学习入门转型视频教程,该课程主要告诉开发者如何快速入门深度学习。讲师是在机器学习,深度学习神经网络领域多年开发研究经验,精通算法原理与编程实践。曾完成过多项图像识别,目标识别,语音识别的实际项目,经验丰富。关注深度学习领域各种开源项目,如TensorFlow,Caffe,Torch等。喜欢理论与实践相结合的教学风格,课程编排由浅入深,体系清晰完整。

    2776 人正在学习 去看看 CSDN讲师

在俞栋接受CSDN专访解读基于深度学习的语音识别技术及CNTK开源软件的同时,《解析深度学习-语音识别实践》一书的另一位作者、微软人工智能首席科学家邓力也接受CSDN专访,以另外的视角诠释了语音识别领域的最新技术进展,以及他的团队的一些不同的工作。

着眼于端到端建模和训练,邓力介绍了输出端和输入端的进展,迁移学习、增强学习、非监督学习在语音识别领域的应用现状和前景,并解释了他对非监督学习的独特理解,重点总结了词嵌入的利用和改善。他还展望了类脑机器智能突破现有的深度神经网络局限的方法。

有感于有监督学习的局限,邓力目前将很大部分的精力用到了非监督学习上,并且与微软目前的自然语言理解、对话系统、聊天机器人等核心工作相结合。看好非监督学习语音识别,是由于语音识别领域“先验”知识的逐渐成熟,包括输出端非常强的语言模型和多年积累的从输出端到输入端映射的生成式知识。邓力认为,将各种先验知识整合到一个完整而能快速计算和优化的非监督深度学习框架,语音识别的问题将可以彻底解决。当然,这需要新的深度非监督学习算法和理论。邓力也将作为2016中国人工智能大会(CCAI 2016)主题报告嘉宾更深入地解析包括非监督学习在内的深度学习与大数据技术,欢迎点击这里报名与他交流。

邓力认为,词嵌入或音素嵌入用到语音识别领域,一项有意思的工作是把乔姆斯基的生成式音韵结构(phonological structure)整合到深度学习讲的嵌入(embedding)方法里。对抗式网络的思路可以用来整合语音生成知识。不过,词嵌入的本质是利用邻近词的预测特性,只是所应该用的先验知识的一小部分。更重要的先验知识应该是关于输出序列变量的更强并比现有词嵌入具有更长距离的统计特性,以及从输出到输入的生成特性。


图片描述

微软人工智能首席科学家 邓力

邓力,现任微软人工智能首席科学家和深度学习技术中心研究经理。他在美国威斯康星大学先后获硕士和博士学位,然后在加拿大滑铁卢大学任教获得终身正教授。其间,他还任麻省理工学院研究职位。1999 年加入微软研究院历任数职,并在2014 年初创办深度学习技术中心,主持微软公司和研究院的人工智能和深度学习领域的技术创新。研究方向包括自动语音与说话者识别、口语识别与理解、语音–语音翻译、机器翻译、语言模式、自然语言处理、统计方法与机器学习、神经科学,听觉和其他生物信息处理、深层结构学习、类脑机器智能、图像语言多模态深度学习,商业大数据深度分析预测等。


以下为采访实录:

非监督学习语音识别将来会成功,但需要大量创新工作来铺路

CSDN:能否介绍当前语音识别领域最让您兴奋的一些进展,以及您目前所做的一些有趣的工作?

邓力:从整个语音识别业界来讲(包括中国和美国几家主要大公司的工作),令人兴奋的进展涵盖了输出端和输入端全方位的端到端训练::

  1. 端到端建模和训练大规模神经网络语音识别系统近期继续降低识别错误率,特别是成功用上CTC训练准则使得端到端训练行之有效。CTC训练准则最忠实地代表了语音识别系统的训练目标,比我们在DNN时代之前用的MCE、MPE、MWE、MMI更合理,尽管CTC的优化需要不少工程技巧。我在研究院的同事在这方面做了很多工作,包括对CTC的延伸并将CTC与传统的MMI序列训练方法相结合。

  2. 行之有效的端到端训练在输入端已经扩张到多麦克风阵列的语音波形。这使得抗噪音的语音识别系统部分也整合进入端到端学习。

我自己目前将不少时间用在关于让非监督学习用到离散序列输出(比如自然语言)的应用,包括语音识别、机器翻译、看图说话,等等。为什么注重像自然语言这样的离散序列输出?这是因为自然语言模型包含了非常丰富的“先验”知识,使得不需输入输出匹配的学习的成功机会大于其他在输出端缺乏丰富“先验”知识的应用和任务。

靠输入输出匹配的学习是要花高代价准备大训练数据的。这是目前很成功的有监督深度学习的局限之一。相反,无需输入输出匹配的大数据成本要低得多,它遍地皆是,有取之不尽用之不竭的潜力。

要有效地利用比现有输入输出相匹配的训练数据高出几个数量级的无输入输出匹配的大数据来训练深度学习系统,有待于开创全新的深度非监督学习算法和理论。一旦成功,这会给深度学习建立一个新的里程碑。比如用在语音识别,任何人们之间的对话和个人演讲都可以成为非监督学习语音识别机的语料,而我们并不需要去标注这些自然的到处都有的语料。

为什么我认为非监督学习语音识别会成功? 因为我们在输出端有丰富的“先验”知识,就是非常强的语言模型,可以是嵌入式的, 也可以是非嵌入式的。同时我们也有非常丰富的从输出端到输入端映射的生成式的“先验”知识。这就是语音科学家几十年积累下来的人类从概念到波形的语音motor control和语音生成的知识。语音生成的motor control要比机械人对手指的精细运动控制还复杂。

我当年在MIT、ATR和在加拿大滑铁卢大学任教时做了很多这方面的研究。当时用的是动态深度贝叶斯网络来表达和实现这些知识,模型中的一部分也用上multilayer perception。我和我的学生们在1997-2003年发表了一系列论文。到微软之后还写了两本关于这方面的书。记得当年Geoff Hinton教授同我就如何将这些动态语音生成知识和模型用到有监督深度学习讨论了很长时间。当时得到的识别率结果跟丢开这些生成知识的DNN-HMM差不多,但计算上却难以得益于用GPU训练,而且解码要用很多近似,也很慢。所以我把动态语音生成模型放弃了很长时间专攻DNN,后者没有这些弱点。见文末一些文献,回顾了以上讲的这些古老的工作。

现在到了大家开始注重非监督深度学习的时代。过去积累的研究经验和有计算价值的语音生成知识真是可以派上用场。将多种类(输入输出端统计特性以及它们的关联性)的先验知识整合到一个崭新的非监督深度学习框架,我相信语音识别的问题可以彻底解决。

深度神经网络应为主干

CSDN:概括地说,除了特征提取,深度学习在语音识别领域主要还发挥哪些作用?

邓力:端到端训练高层动态网络是有监督深度学习在语音识别领域应用的精华。特征提取只是它的自然结果之一。

直到现在,单靠特征提取在非监督深度学习上从未成功过。

CSDN:您与俞栋博士合著的新书《解析深度学习-语音识别实践》系统地介绍了基于DNN的语音识别技术,哪些人应该读这本书?他们会收获些什么?这本书适合入门吗?需要读者具备什么知识基础?

邓力:我们在序言里讲到这本书的对象主要是语音处理及机器学习领域的在读研究生、研究者、实践者、工程师以及科学家的学习研究工作。但注意由于我们写书时间紧迫,有些内容没有加上,包括CNN、CTC、麦克风阵列、语音分离,等等。

阅读本书的知识基础包括微积分、矩阵代数和基本的概率统计等。

对于入门读者,我们同年出版的英文版《深度学习: 方法和应用》(由谢磊教授翻译成中文)可能更适合。只是材料有点过时了。

CSDN:您介绍了很多鲁棒性的方法,有哪一种是您最喜欢的吗?

邓力:对speaker鲁棒性的方法,我很喜欢KL-divergence regularization,不但管用,而且方法巧妙,实现起来也简单。是subspace方法中的一种。

对抗环境噪音的鲁棒性的方法,我在全力攻DNN之前很喜欢 VTS的方法,也发明了整合语音-噪音相位(phase-sensitive)的VTS方法,不但方法巧妙,在某些条件下也挺管用。但因为它用的是生成式的概念,几年前很难用DNN方法来实现。现在我们知道怎样整合生成式模型和神经网络 (见书中第6章和文末一些文献),大家做这方面的研究可能就有成功希望了。

CSDN:书中专门谈到了迁移学习,举了一些例子,如欧洲语言到中文普通话的成功迁移,那么哪些因素决定共享DNN隐层架构在当前语音识别领域的边界和局限?迁移学习在语音识别领域推广应用的挑战是什么?

邓力:我们在第12章讲了迁移学习,并举了用其他语言的语料帮助一个特定语言的语音识别的例子。跨语言能共享DNN隐层架构有很强的物理和认知的基础。不论什么语言,其发音器官(主要包括声道和声门)大体相似。人类语音感知机制是同生成机制紧密相连的。所以DNN作为语音感知层的模型在高层上共享隐层是很自然的思想。

12章讲的所有例子都是基于音素及其左右context作为基本语音单元。我觉得如果能把乔姆斯基的生成式音韵结构用上来定义基本语音单元做迁移学习,至少理论意义会更大。共享隐层的基础会更扎实些,因为用音韵结构定义的语音感知单元(叫做phonetic或phonological features)就是按照人类发音器官跨语言共享的总体特性来决定的。

从更广阔的意义上讲,迁移学习可以成为完成非监督学习的重要“知识源”之一,特别当数据和问题本身有组合(composition)特性的时候。上月开完的CVPR有一篇很好的关于“Deep Composition Net”的论文,用到的迁移学习很巧妙很有趣。语音领域里的这种组合特性更丰富,特别在于怎样将音素(类比为分子)分解为phonological features(类比为原子)。而且这种分解组合与“features”之间非同步的时程演化有关。这是语音很有趣的特性。

CSDN:当前热门的LSTM RNN被高估了吗?

邓力:热门而古老的LSTM RNN确实很有效。GRU简化了LSTM不少,也类似有效。但要注意,把它们用到语音识别时必须用HMM的动态规划或者CTC来处理LSTM RNN的输出。手写体字的识别也一样。但用到自然语言处理就不需要这样多此一举,因为输入输出的序列没有像语音和手写体识别那样的segmental特性。

LSTM RNN的发明者之一Schmidhuber教授近日正好来到西雅图。我们又一次在一起讨论,也谈起LSTM RNN在语音识别和其他领域(包括增强学习方面)的重要应用。我不觉得有被高估。

CSDN:书中介绍了一系列的未来技术方向,其中哪些是您的团队所关注的?您如何确定一个技术研究的方向?

邓力:英文版的书是在2014年中完稿的。近两年来深度学习发展很快。15章最后一节提到的一系列的未来技术方向,不少方面至今已经有很大的进展。书完稿之后又很快出现新的技术研究的方向。

我领导的团队现在主要聚焦在自然语言语义理解及其在对话系统(包括聊天机器人)上的应用。语音的进一步进展目前相对是次要,因为识别率已经高到在对话系统上可以使用的地步了。

确定技术研究的方向有几个因素要结合,包括其潜在的对工业界和学术界的影响力, 实际应用的可能性和广泛性,创新价值和新颖性,能否利用现有技术积累比较快速地实现,等等。当然也包括团队有无激情和能力把它做成。所以团队的质量最重要。我领导的团队近年来靠公司内部最富有激情和高度能力的强手队员做了几项很有影响力的深度学习大项目,但因涉及商业应用尚未对外发表,这在一定程度上对吸引公司外部的强手起了负面作用。我们正在设法改变这种状况,使我们的团队更加强壮。

CSDN:训练关键的发音特征并泛化,目前有什么样的进展?您认为技术成熟还需要什么条件?

邓力:刚才提到我们目前的精力主要在自然语言理解,我近来没有跟踪这方面的进展。但我认为有效利用语音composition特性来做基于迁移学习的泛化是一个方向,因为发音特征的变化往往是源于个别发音器工作的微小变化,并非某个音素整体的变化。

CSDN:未来三五年的ASR领域,是否还有一些非深度学习方法具有挖掘的潜力(或者可以和深度学习进行结合实现更好的效果)?

邓力:像英文和普通话中文已有比较大量的有标注的训练数据,深度神经网络应为主干以达到极佳识别效果。整合深度生成模型有助于进一步提高识别效果。

对于低资源的语言或中文的很多方言,有标注的训练数据不多。基于贝叶斯网络的生成模型可能更有效。同时,Kernel非线性方法(非深度模型)也就不受大数据scalability的限制。

在所有以上情形里,在非监督深度学习成功之后,它们的识别效果都会有很大的提升,因为更多无标注的语音数据可以被有效地加以应用。

增强学习的作用

CSDN:AlphaGo的进展让世界注意到了增强学习,您认为(深度)增强学习在语音识别领域能发挥什么样的作用?

邓力:增强学习的本质是阶段性的优化过程,同时增强信号或有“标注”的信号(reward signal)只是到终点阶段才清楚(好比AlphaGo下的围棋最后谁赢谁输),或者对在每阶段都有的增强信号不值得过于介意(不像有监督学习的标注那样介意到把它直接当作目标去优化逼近)因为这种增强信号只起局部性的参考估值(evaluative)作用。这些例子是我们团队正在做的不同类型的聊天和对话机器人的场景。

对语音识别,每个句子标注的信号价值都很高,而且我们真把它当作目标去优化逼近来训练系统参数。所以这是一个典型的有监督学习问题(或者在不久将来会成为非监督学习问题),并不是增强学习问题。但如果把语音识别作为整个语音对话系统的一部分,而且用端到端深度增强学习方法来优化整个系统,那么语音识别器的参数会跟有监督学习得到的结果略有不同,因为语音识别器的参数会受端到端深度增强学习影响,尽管增强学习主要是用到整个语音对话系统系统优化的后端。

所以,初看起来好像以序列结构为输出的语音识别和增强学习都用到动态规划来做训练和测试,但它们的目的是很不一样的。

非监督学习语音识别的关键

CSDN:您多次表示看好语音的非监督学习,并且书中还谈到了词嵌入,未来词嵌入的引入会是语音领域非监督学习的大杀器吗?

邓力:两年前我们在写这本书最后一章最后一节时,我们将词嵌入的利用和改善作为一个未来方向。之后我对这个问题有更多的思考。下面利用这个采访机会小结一下。

非监督深度学习的本质是在无标注数据的条件下要能够有效地将各类相关的“先验”知识整合到一个完整而能快速计算和优化的深度学习框架。我的这个观念同其他说非监督深度学习的专家很不同。可能他们还没想得那么清楚和深入。我常对新加入我团队和做机器学习理论的同事说,我的这个观念可以又称为“有无限实际价值的非监督深度学习”,而不是大家在机器学习书本、wikipedia和文献上看到的几乎是没多少实际价值的非监督学习。

说到先验知识,我们就看到贝叶斯方法很重要,不能单用神经网络。一定要做到有原则性的整合。

词嵌入的本质是利用了词在句子中分配特性 (the distributional property, different from distributed representations per se), 也就是邻近词的预测特性(最近见到一些深度学习专家谈到用类似的预测特性做有关视频的非监督深度学习)。但这只是所应该用的先验知识的一小部分。更重要的先验知识应该是关于输出序列变量的强统计特性,也就是如何把大型且高质量的语言模型用到全系统学习,并且同时有效地用上极大量无标注的语音数据。

说到词嵌入或音素嵌入用到语音识别领域,我觉得更有意思的是把乔姆斯基的生成式音韵结构(phonological structure)整合到深度学习讲的嵌入(embedding)方法里。我在MIT时(1992-1993)同我的学生孙晓东把乔姆斯基的生成式音韵结构用到GMM-HMM的输出层上得到很有意思的结果,1994年在JASA发表了很长的论文。记得当年Hinton教授从多伦多到MIT访问我时,讨论到是否能把这种生成式音韵结构知识用到神经网络架构上。当时没继续进展,也许现在可以在这方面开展一些工作。

同样重要的是关于语音生成的先验知识加上从其他任务中学来的知识。对抗式网络的思路是可以用来整合语音生成知识到动态深度神经网络的方法之一。这里有很多好的研究可以做。

当然关于输入变量的统计特性对非监督深度学习也很重要,比如在传统意义上讲的非监督学习的自动分类。我同伯克利大学的Bin Yu教授有很多这方面的讨论。但对语音领域这后者不是那么容易用得好,因为语音有很特殊的动态特性。

很多这些想法都还没写到我们的书里。在第2、3、6和15章里,只是略提了一些。

类脑机器智能突破现有神经网络的局限

CSDN:您关注的类脑机器智能是否局限于神经网络?如果不是,能否介绍您在这方面的最新研究及其在语音方面的应用?

邓力:类脑机器智能同神经网络关系最大。直接有关的是如何利用神经脉冲特性,包括用STDP(spiking-time dependent plasticity)来改善现有的神经网络和算法。早在2013年温哥华的ICASSP大会期间,Hinton教授是我请来做主题演讲的,我们当时开会期间就谈了很多关于STDP的问题, 包括STDP同BackProp的紧密关系以及可能的BackProp改善使它更相符人脑的运行机制。还有很多相似的类脑机制很可能将来会对现有的深度神经网络算法和机器智能产生显著的影响。

至于神经网络以外的,这要看你怎样定义神经网络——深层生成式模型可以属于神经网络,也可以属于非神经网络的图模型或贝叶斯网络。后者着重于将应用领域的知识(比如语音识别中的从发音器官的控制到发音器官的运动再到声音的产生的一系列因果关系)用疏散的矩阵把随机变量“节点”连接起来。并着重于用统计分布来描述非确定性(uncertainty),因为现实应用领域的知识很少是确定无暇的。这类深层生成式模型比较难用类脑的机制和算法来改善。如果能用GPU加速运算就不错了。事实上就连这也没那么简单。

对可以当成神经网络看待的深层生成式模型,类脑机器智能的潜力很大。这种模型(包括DBN、DBM、GAN、variational autoencoders和90年代的sigmoid belief networks、wake-sleep networks,等等)撇开应用领域的知识而用统一的密集矩阵来参数化整个模型。不但用GPU加速运算就像DNN一样容易,不少类脑机制和认知科学理论也可以比较直接用上。

说到认知科学理论用于类脑机器智能,我领导的团队正在同美国一所著名大学的教授合作开发一个新型的基于高维张量的结构表征和知识库。这个项目由我亲手抓,它直接受启发于人脑对纯符号树状或图状结构的表征。这对于自然语言和知识的组织利用和增长都非常关键。

长远看来,类脑机器智能一定会突破现有的深度神经网络存在的许多局限。我的团队在以上方面的工作目前大部分用在自然语言语义理解、对话系统和知识整合诸方面的利用。语音识别方面的问题相对简单一点。

关注arXiv新论文

CSDN:这本书的参考文献数量达到了450多份,包括很多论文,这可能得益于您的IEEE的工作,但目前各个大会/期刊收的论文非常多,能否介绍一些快速选择和研读论文的通用方法?

邓力:确实在过去两三年内,由IEEE发表出来的论文时间拖延远远大于深度学习、机器学习、计算机视觉和自然语言处理等社群发表的论文。这些社群通常在投会议(NIPS、ICML、ICLR、CVPR、ACL、EMNLP、NAACL等)或期刊杂志(JMLR、TACL、CL等)论文的同时也把论文放到arXiv上。所以现在我自己看arXiv的论文也远多于IEEE发表出来的论文。几年前当我还在IEEE担任两个期刊杂志的主编时,Yann LeCun就建议我要让IEEE完全文献开源并不让arXiv阻碍向IEEE会议投稿。IEEE方面有进展但不快,有多种原因。

所以我建议大家多关注arXiv出来的新论文,特别选择从好团队出来的新论文。另外,最近NIPS、ICML、ICLR等会议接受的文章常把审稿的评论也公开。这有助于把这些文章理解得更全面。

近几个月来,我用微信多了,见到CSDN和一些关注人工智能的垂直公众号(像新智元和机器之心)很及时翻译出的很好的关于机器学习和人工智能的文章,以及采访报道。比如CSDN几天前发的《揭秘深度强化学习》对入门者就很有用。我建议大家也多关注这些很有价值的材料。

关于邓力的更多观点:


CCAI 2016中国人工智能大会将于8月26-27日在京举行,AAAI主席,国内外众多院士,MIT、微软、大疆、百度、微信、滴滴专家领衔全球技术领袖和产业先锋打造国内人工智能前沿平台,8个重磅主题报告,4大专题论坛,1000+高质量参会嘉宾,探讨人机交互、机器学习、模式识别及产业实战。八折特惠门票截止8月12日24时

图片描述


References:

·  Deep Reinforcement Learning with a Natural Language Action Space , ACL, 2016

·  End-to-End Memory Networks with Knowledge Carryover for Multi-Turn Spoken Language Understanding Interspeech,2016

·Industrial Technology Advances: Deep learning — from speech recognition to language and multimodal processing, APSIPA Transactions on Signal and Information Processing (Cambridge University Press),February 2016,

·  Book: Robust Automatic Speech Recognition — A Bridge to Practical Applications (1st Edition), 306 pages, Jinyu Li, Li Deng, R. Haeb-Umbach, Y. gong,Elsevier, October 2015,

·  Ensemble Deep Learning for Speech Recognition , Li Deng, John Platt, Interspeech, 2014

·  Deep Learning: Methods and Applications Li Deng, Dong Yu,NOW Publishers,May, 2014,

·  A Tutorial Survey of Architectures, Algorithms, and Applications for Deep Learning , APSIPA Transactions on Signal and Information Processing, Cambridge University Press,January, 2014

·  Recent Advances in Deep Learning for Speech Research at Microsoft , ICASSP, 2013

·  New types of deep neural network learning for speech recognition and related applications: An overview , Li Deng, Geoffrey Hinton, Brian Kingsbury, ICASSP 2013

·  Machine Learning Paradigms for Speech Recognition: An Overview Li Deng, Xiao Li,in IEEE Transactions on Audio, Speech, and Language Processing,May, 2013,

·  Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding . Li Deng, Gokhan Tur, Xiaodong He, Dilek Hakkani-Tür,IEEE Workshop on Spoken Language Technologies,December 2012,

·  Learning with Recursive Perceptual Representations , Oriol Vinyals, Yangqing Jia, Li Deng, Trevor Darrell,in Neural Information Processing Systems (NIPS),December 2012

·  Deep Neural Networks for Acoustic Modeling in Speech Recognition , Geoffrey Hinton, Li Deng, Dong Yu, et al, IEEE Signal Processing Magazine, Nov 2012

·  Discriminative Learning in Speech Recognition Xiaodong He, Li Deng, IEEE Signal Processing Magazine, October, 2007.

·  Speech Analysis: The Production-Perception Perspective, Li Deng, Jianwu Dang,in Advances in Chinese Spoken Language Processing,World Scientific Publishing,2007.

·Book: Dynamic Speech Models — Theory, Algorithm, and Application; (book review in IEEE Trans. Neural Networks, Vol. March 2009) Li Deng,Morgan & Claypool,December, 2006.

·  A Bidirectional Target Filtering Model of Speech Coarticulation: two-stage Implementation for Phonetic Recognition , Li Deng, Dong Yu, Alex Acero,in IEEE Transactions on Audio and Speech Processing, 2006,

·  A Multimodal Variational Approach to Learning and Inference in Switching State Space Models , ICASSP, 2004

·  Deep Sentence Embedding Using Long Short-Term Memory Networks: Analysis and Application to Information Retrieval, IEEE/ACM Transactions on Audio, Speech, and Language Processing,March 2016,
·  Deep Convex Network: A Scalable Architecture for Speech Pattern Classification Li Deng, Dong Yu,Interspeech  2011.
·  Binary Coding of Speech Spectrograms Using a Deep Auto-encoder Li Deng, Mike Seltzer, Dong Yu, Alex Acero, Abdel-rahman Mohamed, Geoff Hinton,Interspeech 2010.
·  Challenges in Adopting Speech Recognition Li Deng, Xuedong Huang,in Communications of the ACM,January  2004
·  Book: SPEECH PROCESSING — A Dynamic and Optimization-Oriented Approach, Li Deng, Doug O’Shaughnessy,Marcel Dekker Inc.,June  2003
·  Variational Inference and Learning for Segmental Switching State Space Models of Hidden Speech Dynamics, ICASSP, 2003.
·  Switching Dynamic System Models for Speech Articulation and Acoustics, Li Deng,in Mathematical Foundations of Speech and Language Processing,Springer Verlag, 2003
·  Parameter estimation of a target-directed dynamic system model with switching states, R. Togneri, J. Ma, Li Deng, IEEE Transactions on Signal Processing,  2001
·  Spontaneous Speech Recognition Using a Statistical Coarticulatory Model for the Vocal Tract Resonance Dynamics, Li Deng and Jeff Ma,in Journal of the Acoustical Society of America, 2000.
·  Computational Models for Speech Production , Li Deng,in Computational Models of Speech Pattern Processing, (NATO ASI Series),Springer Verlag, 1999
·  A layered neural network interfaced with a cochlear model for the study of speech encoding in the auditory system , H. Sheikhzadeh, Li Deng,in Computer Speech and Language, 1999
·  A dynamic, feature-based approach to the interface between phonology and phonetics for speech modeling and recognition, Li Deng,in Speech Communication,January 1998.
·  Production models as a structural basis for automatic speech recognition,” Speech Communication (special issue on speech production modeling)Li Deng, G. Ramsay, D. Sun,in Speech Communication,August 1997
·  Integrated-multilingual speech recognition using universal phonological features in a functional speech production model, Li Deng, ICASSP 1997
·  A statistical approach to automatic speech recognition using the atomic speech units constructed from overlapping articulatory featuresLi Deng, D. Sun,in Journal of the Acoustical Society of America, 1994
·  Analysis of correlation structure for a neural predictive model with application to speech recognition, Li Deng, K. Hassanein, M. Elmasry,in Neural Networks, 1994,


2018-07-02 22:17:24 Xwei1226 阅读数 3170
  • 深度学习入门及如何转型AI领域

    深度学习入门转型视频教程,该课程主要告诉开发者如何快速入门深度学习。讲师是在机器学习,深度学习神经网络领域多年开发研究经验,精通算法原理与编程实践。曾完成过多项图像识别,目标识别,语音识别的实际项目,经验丰富。关注深度学习领域各种开源项目,如TensorFlow,Caffe,Torch等。喜欢理论与实践相结合的教学风格,课程编排由浅入深,体系清晰完整。

    2776 人正在学习 去看看 CSDN讲师

  有时候学习真的得循序渐进,并没有速成的方法,本小白在经历了大约一个月终于把CTC的从头到尾大致看完了,下面讲一下我的理解,欢迎各位朋友批评指正。

  首先,我们得知道为什么要引入CTC,前面博客讲到,之前在做语音的声学模型的时候,我们的数据形式是帧与标签的分别对齐,以Thchs30为例,训练集大约25小时的数据集,经过kaldi的GMM-HMM对齐之后,大约分为917w多帧的语音数据,标签经过后处理成one-hot形式的标签,具体可以看本人前面的文章,由于文章大多数是笔记的形式记录,还望各位体谅,以后有时间再做总结。

   CTC(connectionist temporal classification)从字面的意思是连接时序分类,个人认为没必要纠结于中文的含义,只要知道他是干什么的就行了,以往我们做DL-HMM训练声学模型的时候,我们都需要把帧与标签进行对齐之后才能进行训练神经网络,但是此方法多了一步采用传统方法GMM-HMM对语音的数据进行对齐的操作,采用对齐的缺点是:对齐效果不好,以Thchs30为例,在kaldi中10000句语料也仅仅对齐了9999句,集这么多人的力量仍然有对齐的漏洞,由此可知改方法是不太友好的,有没有一种方法无需对齐就可以实现语音识别声学模型的构建呢?答案是肯定的,下面就引入了端对端语音识别模型,端对端现阶段有三种,一种是DL-CTC,另一种是Attention-DL,还有最后一种是二者的组合,有论文数据显示,二者混合系统可能有着更好的效果。

  下面来简单说明一下CTC的作用,说白了CTC就是构建在神经网络顶层的损失函数,以往我们比较喜欢用交叉熵等损失函数来刻画我们的模型,采用最小化损失函数来提高我们模型的准确率,在之后我会详细的讲解CTC的损失函数。下面由一幅图来引出CTC是如何进行“对齐(alignment)”的。




  此图来源于CTC模型的提出者Graves教授,第一行是我们真正的语音波形图,第二行是我们采用HMM-GMM方法将语音分帧结果和语音的标签进行对齐,但是CTC不一样,他是采用的spike来对齐几帧连续的语音。实际上他的意思就是一段相同的分帧语音对应一个spike。这样就会减少很多对齐操作,个人是这样理解的。

  下面以论文里面的CAT英文单词为例,来推导CTC的推导过程.首先,先简述一下CTC中需要使用的符号:

  1:ykt:代表输出序列在第t步的输出为k的概率。举个简单的例子:当输出的序列为(a-ab-)时,y3aya3 代表了在第3步输出的字母为a的概率;
  2:p(π∣x)p(π∣x):代表了给定输入x,输出路径为 ππ 的概率;
  由于假设在每一个时间步输出的label的概率都是相互独立的,那么 p(π∣x)p(π∣x) 用公式来表示为 p(π∣x)=∏Tt=1(ytk)p(π∣x)=∏t=1T(ykt),可以理解为每一个时间步输出路径 ππ 的相应label的概率的乘积。
  3:F:代表一种多对一的映射,将输出路径 ππ 映射到 标签序列 ll 的一种变换。
  举个简单的例子 F(a−ab−)=F(−aa−−abb)=aabF(a−ab−)=F(−aa−−abb)=aab (其中-代表了空格)
  4: p(l∣x) :代表给定输入x,输出为序列 ll 的概率。

因此输出的序列为 ll 的概率可以表示为所有输出的路径 ππ 映射后的序列为 ll 的概率之和,用公式表示为 p(l∣x)=∑π∈F−1(l)p(π∣x)。

  CTC的创新之处在于他引入了Blank这个概念,以音素级别的语音识别为例,空格的作用就是把语音的音素分开。但是空格有两个显而易见的缺点:(1)空格无法预测出两个连续的相同的音素,因为在论文中,Graves明确指出空格会栓除连续相同的第一个字母;(2)无法预测出一整句话,意思就是最后CTC在去除空格的时候,无法表示单词与单词之间的停顿的部分。

  由于我公式不太好打,下面我自己手动推导了CTC的前向、后向的计算流程,如下图所示:

 

  CTC的前推和后退跟HMM中的前向-后向算法很类似,实际上个人认为深度学习方法都是很类似的,大家可以自己想一想。

  下面就是定义CTC的损失函数:


  关于上面的公式有说明:不论是在计算前向变量还是反向变量时,都涉及到了大量的概率的乘积。由于这些乘积都是小于1的,在大量的小数相乘时,最后得到的结果往往都会趋向于0,更严重的是产生underflow。因此在计算时对其做了取对数的处理,这样乘法就会转化为加法了,不仅避免了underflow,还简化了计算。但是,原来的加法计算就不是太方便了。不过这里有一个数学的trick。

  关于前向、后向的公式乘积我有一些自己的见解:


  假设路径必须讲过红色画圈的位置,那么前向到这里有3条路径,后向到这里也有三条路径,一共就是9条路径到达,这就是前向、后向算法的精髓!

  下面就是采用BP算法的思想进行调参,同样我还是以自己推导为例,如下图所示:



  之后就是采用TF实现CTC是否真正如论文所说的那样效果是state-of-art!


参考文献:https://blog.csdn.net/left_Think/article/details/76370453 





没有更多推荐了,返回首页