2007-12-02 16:50:36 csd3176 阅读数 5
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5905 人正在学习 去看看 杨波
语音识别技术面临的问题 (转)[@more@]

语音识别技术面临的问题

高皓 2000/12/19


  凭心而论,语音识别是一项复杂的技术,特别对于汉语语音识别尤其如此。因此,尽管多年前就有众多公司和研究机构开始了语音技术,包括语音识别和语音合成技术的研究,但直到最近一两年,在国内应该说是今年,才开始有规模的商用。

  国外已经有了不少较大规模的语音识别IVR系统或者呼叫中心的应用,然而在国内,虽然有将语音识别和呼叫中心结合起来的趋势,但仍没有多少应用。这其中虽然有诸多影响因素,但重要的一点就是汉语语音识别技术还不够完善。那么,语音识别技术要进入大规模商用,还要跨越哪些障碍呢?

  用户的独立性
  所谓用户的独立性,就是语音识别软件能够识别有不同嗓音和口音的用户,而无需通过训练软件来使其识别一个特殊用户的声音。目前的许多语音识别软件,是基于标准的发音来进行识别的。而实际上,人们说话千差万别,发音也各不相同,特别对于有口音的语音来说,更是对语音识别软件提出了严峻的挑战。目前的语音识别软件大部分是通过自学习功能,不断的训练来达到软件对于特定用户语音的识别。

  将来,语音识别软件的一个发展趋势就是加强处理性,可以识别在一定范围内的各种发音。而实际上,现在有许多语音软件公司在从事这方面的工作,尽量将所有可能的方言发音收入语音库。这样,无需经过专门的特殊训练,软件就能识别用户的发音。

  ■自然的语言能力
  许多语音识别系统还具有自然的语言能力,这就是软件理解讲话者的能力。这种能力不仅表现在特定的单词上,甚至还表现在短语和完整的句子上。自然的语言意味着两点:第一,它可让用户用句子来表达意思。例如,为表达checking account,用户可使用有更多单词的自然句子,如I'd like my checking account balance。 第二指用户可使用包含多义词的句子。例如,我们可说I want to transfer $500 dollars from my savings account to my checking account。这是自然语言的一个主要准则,用户可在一个单句中使用多个多义词。

  有少数复杂的语音识别系统使用提示性对话。在这里,语音识别系统提示用户用一个单词或记号来回答。根据专门机构的调查,多数人更喜欢用约定俗成的自然语言,而不喜欢使用提示性对话。人们讨厌的是不完善的自然语言,当能使用完善的自然语言时,人们当然不可抗拒地选择了它。

  ■处理插入的能力
  新增的插入的能力是语音识别软件的另一个主要进步。插入的能力允许用户在系统提示时中断系统,但系统依然能知道用户的请求。

  这点对于实际的应用来说是有相当意义的。因为人们在说话时,总是在自觉不自觉地思考,经常会在打断语言的连续性,而插入一些补充性的语言。这样的语言,在语法上来说经常不正确的,常规的语音识别系统会很难处理这些语音。

  ■软件身份验证的能力
  语音识别销售商最近还介绍了软件身份验证的能力,即根据用户的嗓音和语言特点,来达到识别用户的能力。这在实际中是一个非常有价值的特点,如可用于人事管理上。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/10752043/viewspace-987501/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/10752043/viewspace-987501/

2000-12-20 16:56:00 tchaikov 阅读数 4087
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5905 人正在学习 去看看 杨波

语音识别技术面临的问题

高皓 2000/12/19


  凭心而论,语音识别是一项复杂的技术,特别对于汉语语音识别尤其如此。因此,尽管多年前就有众多公司和研究机构开始了语音技术,包括语音识别和语音合成技术的研究,但直到最近一两年,在国内应该说是今年,才开始有规模的商用。

  国外已经有了不少较大规模的语音识别IVR系统或者呼叫中心的应用,然而在国内,虽然有将语音识别和呼叫中心结合起来的趋势,但仍没有多少应用。这其中虽然有诸多影响因素,但重要的一点就是汉语语音识别技术还不够完善。那么,语音识别技术要进入大规模商用,还要跨越哪些障碍呢?

  ■用户的独立性
  所谓用户的独立性,就是语音识别软件能够识别有不同嗓音和口音的用户,而无需通过训练软件来使其识别一个特殊用户的声音。目前的许多语音识别软件,是基于标准的发音来进行识别的。而实际上,人们说话千差万别,发音也各不相同,特别对于有口音的语音来说,更是对语音识别软件提出了严峻的挑战。目前的语音识别软件大部分是通过自学习功能,不断的训练来达到软件对于特定用户语音的识别。

  将来,语音识别软件的一个发展趋势就是加强处理性,可以识别在一定范围内的各种发音。而实际上,现在有许多语音软件公司在从事这方面的工作,尽量将所有可能的方言发音收入语音库。这样,无需经过专门的特殊训练,软件就能识别用户的发音。

  ■自然的语言能力
  许多语音识别系统还具有自然的语言能力,这就是软件理解讲话者的能力。这种能力不仅表现在特定的单词上,甚至还表现在短语和完整的句子上。自然的语言意味着两点:第一,它可让用户用句子来表达意思。例如,为表达checking account,用户可使用有更多单词的自然句子,如I'd like my checking account balance。 第二指用户可使用包含多义词的句子。例如,我们可说I want to transfer $500 dollars from my savings account to my checking account。这是自然语言的一个主要准则,用户可在一个单句中使用多个多义词。

  有少数复杂的语音识别系统使用提示性对话。在这里,语音识别系统提示用户用一个单词或记号来回答。根据专门机构的调查,多数人更喜欢用约定俗成的自然语言,而不喜欢使用提示性对话。人们讨厌的是不完善的自然语言,当能使用完善的自然语言时,人们当然不可抗拒地选择了它。

  ■处理插入的能力
  新增的插入的能力是语音识别软件的另一个主要进步。插入的能力允许用户在系统提示时中断系统,但系统依然能知道用户的请求。

  这点对于实际的应用来说是有相当意义的。因为人们在说话时,总是在自觉不自觉地思考,经常会在打断语言的连续性,而插入一些补充性的语言。这样的语言,在语法上来说经常不正确的,常规的语音识别系统会很难处理这些语音。

  ■软件身份验证的能力
  语音识别销售商最近还介绍了软件身份验证的能力,即根据用户的嗓音和语言特点,来达到识别用户的能力。这在实际中是一个非常有价值的特点,如可用于人事管理上。

2014-03-25 13:58:11 tianshi_1105 阅读数 976
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5905 人正在学习 去看看 杨波

数据下载:http://www.datatang.com/data/39322

数据堂-数据共享服务平台




2014-04-02 13:45:26 tianshi_1105 阅读数 1840
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5905 人正在学习 去看看 杨波

方言普通话语音识别语料库(单句部分)-600人

 

尽管普通话语音识别系统的开发取得了很大进步,但在面对方言地区普通话时,遇到了挑战。广大方言地区、特别是南方方言区的普通话和标准普通话存在许多差别。因此,要提高方言语音识别率、进行方言语音识别,研究方言地区普通话的语音特点、比较方言地区普通话与方言及标准普通话之间的异同十分重要。需要采集北方方言、吴方言、湘方言、赣方言、客家方言、闽北方言、闽南方言和粤方言在内的八大方言语料。

全部录音人共包括600人,不同录音人的地域分布如表1所示。

                                                                          表1 录音人地域分布

地区

录音人数

比例

北方方言区

250

41.69%

吴方言区

50

8.33%

湘方言区

50

8.33%

赣方言区

50

8.33%

客家方言区

50

8.33%

闽北方言区

50

8.33%

闽南方言区

50

8.33%

粤方言区

50

8.33%

各个地域录音人的基本信息分布情况如表2所示。

                                                                          表2 录音人基本信息分布

年龄

16-30岁(45%)

31-45岁(45%)

46-55岁(10%)

性别

男女比例各占50%

口音

中度二级口音80%,一级乙等5%,三级15%。

文化程度

90%是高中以上学历,10%是高中以下学历

 

本数据集包含了600名发音人在安静环境下分别对上万条单句的录制结果,单句范围包括习惯用语、短信、广告、故事、诗歌、天气、新闻、讲座、散文、邀请函、演讲词、信件、通知等13个主题。下面列出了部分短信语料文本示例:

 

61. 亲爱的:如果你不答应嫁给我,按照我的惯例——我会立刻去自杀!
62. 让嘴唇的游荡,刻下你的模样,我想再过一千万秒,能否相见在教堂?
63. 常洗手,多通风,不抠鼻子不揉眼,不凑热闹不传谣,健康快乐度五一!
64. 包包,她去找潘了,还蹭了人家一顿饭,不要说是我说的啊!
65. 别太苦自己,别给自己压力过大,放松自己,保重自己都会拥有其他一切。
66. 差不多了,肚子还好,不算太疼了,明天我再和你联系。
67. 当天上午采访,下午两点到三点开会,现在不好说。
68. 对了,用手机时一定用那个钮,让手机自己开盖,别用手翻盖。
69. 对了,怎么上网听歌啊,今天弄了半天也没弄明白。
70. 改天再说吧。我今天要出去逛街,不知道几点回来。
71. 好冷啊,在车站等车浑身都冻透了,还是你幸福埃
72. 环境还满意给人一种清新感觉。屋里都是隔断好的,电脑桌都有。
73. 今天大跌,请不要慌张,留在手上看看,等几天再说!
74. 今晚七点七套由我的节目,大家有空就看一眼吧,欢迎多提宝贵意见。
75. 据说每天吃一瓣新鲜蒜头,脸上可保不再见粉刺。
76. 快看看车厢有没有老幼病残给让个座,你得体现雷锋精神埃
77. 那就好,看啥小说啊,我躺着呢,所以就跟你聊聊呀。
78. 你骂我们男人我不吭声还不行,是不是想让我反抗阿。
79. 你问明白到什么地方买,着不着急,我明天去行不?
80. 什么事情不要强求,俗话说的好水到渠成,有缘自会相见。
81. 我今早又看见那群喜鹊了,还有一只离我可近了。
82. 我现在主要上外面跑手续,虽然累但挺有意思的。
83. 吸烟以示潇洒的观念已经老土了。为了健康,你就少吸两支吧!
84. 下午我们要去沙河给爷爷奶奶扫墓可能没时间了.
85. 下载一个MSN软件,安装,然后用你的邮件帐户作为msn的帐号。
86. 辛苦了,顺便帮我带回来一卷双面胶回来,谢了。要是没有就算了,也不急。
87. 我在上班不要老骚扰我呀。我今天挨批啦,我怎么这么笨啊
88. 也不一定自己,这不是打了八五折么,就出两趟车。


数据下载:http://www.datatang.com/data/39323

数据堂-数据共享服务平台


2015-11-12 19:23:17 u014437511 阅读数 3982
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5905 人正在学习 去看看 杨波

2015年语音识别文献阅读报告

@sprt

摘要

    本文回顾了语音识别技术从开创至今的发展历程,总结了2015年国际上在内容语音识别领域所取得的最新成果和面临的主要问题,并重点关注了深度学习在自动语音识别领域的应用情况。

DL AND ASR

    深度学习的框架,尤其是人工神经网络基础上的深度学习,可以追溯到邦彦福岛1980提出一个学习机。1989,Yann LeCun应用标准的反向传播算法的深度神经网络。虽然该算法可以被成功地执行,但这是不实际的。深层神经网络真正的崛起的是由Geoffrey Hinton 2007提出的前置培训方法。这个方法初始化的每层深度神经网络使用受限玻尔兹曼机(RBM)。这种方法的功能是类似的k-均值聚类用于训练高斯混合模型(GMM)[1]。

    运用深度神经网络语音识别的思想起源于微软Redmond实验室的Dong Yu 和 Li Deng。对信号与信息处理的深入学习,为深层神经网络的语音识别系统的框架提供了一个详细的解释[2]。深层神经网络的使用和发展之间有着紧密的联系。国内一些公司,如科大讯飞等语音技术几乎在同一时间在中国迅速发展。

    2010 年以前,最先进的语音识别系统通常采用基于HMM的高斯模型混合模型(HMM-GMM模型)技术。这些模型采用的特征通常是梅尔频率倒谱系数 (MFCC)。尽管人们开展了许多工作建立模仿人类听觉过程的特征,但我们要强调通过引入深度神经网络 (DNN) 提供习得特征表示这一重要发展。DNN解决了用高斯混合模型进行数据表示的低效问题,能够直接取代高斯混合模型。深度学习还能用于为传统HMM语音识别系统学习强大的判别性特征。该混合系统的优势是,能够直接使用语音识别研究人员几十年来研发的各种语音识别技术。相较于早期的一些工作,DNN和HMM相结合大大减少了错误。在新系统中,DNN的语音类通常由捆绑HMM状态表示—这是一种直接继承了早期语音系统的技术[3]。

最新成果

    语音识别系统主要有四部分组成,预处理系统,特征提取系统,声学模型和语言模型。一些文章只用声学模型和语言模型来定义一个语音识别系统,但我认为预处理系统和特征提取的步骤同样重要。

 

    对语音素材进行预处理是语音识别系统中经常采用的措施,但是大多数情况下人们将其视为优化实验结果的辅助措施来采用。近年来,随着语音识别在高精度(90%以上)识别以及鲁棒性上面临瓶颈,开始有越来越多的人将关注点放在优化预处理方式上面。F Gemmeke等人利用耦合词典作为DNN的预处理阶段,对5和15 dB的信噪比之间的不同添加餐厅和机场噪声的语音识别错误率仅为11.9%[4]。

 

    语音识别的特征提取是通过分析频域和倒谱域。传统的方法包括Mel频率倒谱系数(MFCC)和滤波器组。特征提取步骤的目的是模仿人的耳朵一样提取频率成分。深层神经网络在特征提取中起到重要作用。约翰霍普金斯大学语言和语音处理研究中心(CLSP)和芝加哥丰田技术学院(TTIC)应用瓶颈的功能训练方法提高声学特征[5]。Quoc Bao Nguyen等人在DNN基础上使用混合特征进行英文语音识别,错误率比MFCC基线系统降低了33%[6]。Yongbin You等提出了一种节点剪枝方法重构DNN生成一个新的深层瓶颈特征类型,经过节点修建之后的拓扑结构减少了冗余,得到新的DNN派生特征,其对干净语音的最优识别错误率为7.3%,对带噪语音识别错误率为23.8%[7]。Yanmin Qian等人证明,这种节点重构方法处理的DNN网络比原有的网络大小减少了85%,训练速度提高了4.2倍[8]。Yuan Liu以DNN和DBN作为GMM-UBM说话人确认系统中的特征提取器,将DNN或DBN的隐藏层输出的大量的语音识别数据作为深层特征, 实验结果显示当采用4个隐层的DBN进行测试时识别错误率仅为9.75%[9]。Ying-Wei Tan等人将DNN和HMM汉语语音识别的节点信息和声音特征整合,在中文大词汇语音识别任务实现CER相对减少22.75%[10]。Lukas Mateju 等人讨论了各种语音特征对捷克语识别的影响,实验结果显示FBANK特征各方面表现均优于MFCC,对Dictate数据集的最小识别错误率为11.52%[11],他们下一步准备研究期望值更高的TRAPs特征。

 

    深度学习应用于声学建模也很常见。事实上,语音识别的深层学习应用的一般意义就是它在声学建模的应用。许多算法都是适用于这方面,包括基本的DNN和更强大的递归神经网络(RNN)。也有一些研究使用卷积神经网络(CNN)进行语音识别[12]。

    与其它分类器相比,DNNs最主要的优点是其合理使用了语音帧之间的关系。Andrew L. Maas等人提供了一个关于“在语音识别系统中DNN声学模型设计的哪一方面最重要”的实证调查,讨论了DNN分类器的性能对最终的语音识别的词错误率的影响,并用几个指标来比较不同的DNN从而量化影响性能的因素。实验中发现,整个网络的大小是最重要的因素。到了某个点,增加DNN的层数不仅对性能没有提高,还会降低性能,3个隐层到5个隐层的DNN架构是足够的[13]。Dong Yu(开创在ASR中使用DL的大牛)用一个单独的DNN估计较强和较弱的说话人语音每一帧的语素后验概率,并用一个加权有限状态的传感器(WFST)为基础的解码器来估计分析相关的说话人和语音,在不同的信噪比下系统的最佳设置平均词错误率为18.8%,比现在最先进的IBM系统降低2.8%[14]。

    目前DNN网络面临的主要问题,首先,培训通常需要解决一个高度非线性优化问题,这个过程中会产生许多局部极小。其次,如果训练时间过长会使结果倾向于过度拟合。Shi-Xiong Zhang等人提出了一种新型的DNN模型,在顶层使用支持向量机(SVM),在帧水平上的训练中,新模型表现出与携带DNN特征的多类SVM有关;在序列水平的训练中,新模型表现出与携带DNN特征和HMM状态转移特征的结构性SVM有关,新模型比传统DNN模型误差率降低8%以上[15]。Meixu Song等人针对在大数据训练时容易导致训练算法收敛到局部最优的问题,提出了一种重采样技术,在传统DNN模型上添加这种技术比不添加错误率降低了4.9%[16]。

    卷积神经网络(CNN)是人工神经网络的一种,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。在最新的研究中,将CNNs应用到大词汇量连续语音识别(LCVSR),实验结果表明CNN比DNN WER降低了1.8%[17]。对于远距离语音识别,CNN也比DNN更有效。测试结果显示CNN比传统DNN的错误率降低了6.5% [18]。Jui-Ting Huang等人从鲁棒性及远距离语音识别等方面将DNN与CNN做了对比,实验结果CNN均优于DNN,对带噪语音识别错误率达到20.1%[19]。但是在Dimitri Palaz等人和William Chan等人进行的带噪语音识别中,CNN表现并不好[20,21]。

    递归神经网络(RNN)此前在语音识别领域的表现一直令人失望。最新研究深递归神经网络结合了多层次表征,经证明,这些表征使RNNs在大范围灵活使用的深度网络中非常有效。Ebru Arisoy等人采用双向递归神经网络,对2007 IBM GALE识别错误率仅为12.6%[22]。RNNs在TIMIT音素识别基准上的测试错误率达到17.7,这是该数据库识别记录中最好的成绩[23]。

 

    语言模型是用来使语言的安排满足语法规则和发生概率。DNNs在这一领域的应用也很普遍。一组在新加坡国立大学(NUS)的应用和产品网络语言建模[24]。

热点解析

    在2014-2015年关于语音识别的文献中,使用深度学习技术的研究越来越多,在2015年目前查阅到的文献中占70%以上,可以看出深度学习已经是目前研究内容语音识别的主流技术,其中DNN及其改进型网络在其中的作用尤为明显。

    另一方面,虽然目前的语音识别系统的精度可以达到90%以上,为工业用途提供了强有力的支持,然而在某些情况下,训练数据很小或有很多不可预知的噪声时,当前识别的精度不能令人满意。现在对这2个主题的研究非常热门。针对使用小型语料库的语音识别任务,美国国家标准与技术研究所(NIST)举行了名为开放的关键字搜索评价(openkws)比赛,这些年大多数优秀的解决方案是基于DNN。

    语音识别在噪声环境下的语音识别方面,也被称为语音识别的鲁棒性,大多数语音研究小组也把它作为其主要的研究重点[25]。在现实条件下,声学数据是夹杂着各种噪声和信道的变化,大多数传统的ASR系统为了提高系统的鲁棒性,利用一些语音特征增强机制作为预处理阶段[26]。在最新的研究中,Arun Narayanan等人首先提出了一个监督式的语音分离系统,使用语音分离作为前端并利用分离得到的结果替代原特征,通过联合自适应训练法将分离系统和声学建模结合。声学模型和语音分离模块分别使用了DNNs,通过引入额外的隐藏层固定权值的和适当的网络体系结构完成联合。实验得到的最低错误率为15.4%,比实验所用语料库中次之的结果降低了4.6%[27]。Shi Yin等人开创性的特意的在训练数据中注入适度的噪声,实验证明,噪声训练法可以很好地运用于DNN模型,并且在噪声环境下基于DNN的语音识别中有实质性的提高[28]。

总结

    不难看出,利用深度神经网络解决鲁棒性问题是语音识别领域时下最热门的话题,至今仍没有一个稳定、高效、普适的系统可以对带噪语音的识别率达到90%以上,而在实际应用中的带噪语音识别率仅为60%-70%。另外,训练数据的不平衡是大多数机器学习算法的一个问题。

    而对于未来语音识别的方向,仿脑和类脑计算无疑是最好的发展方向,只有逐步贴近人脑语音识别的特性才能将正确率提高到令人满意的程度,现有的深度学习技术是远远达不到这一点的。

参考文献

[1]Automatic Speech Recognition (ASR) History,

www.icsi.berkeley.edu/eecs225d/spr95/lecture05.ps.gz

[2] Li Deng, Dong Yu, “Deep Learning forSignal and Information Processing,” Microsoft Research, 2013.

[3] A historical perspective of speechrecognition. 2014

[4] Exemplar-based speech enhancement fordeep neural network based automatic speech recognition 2015

[5] RamanArora and Karen Livescu, “Multi-view learning with supervision for transformedbottleneck features,” in Proc. ICASSP, 2014.

[6] Improving acoustic model for English ASR System using deep neuralnetwork 2015

[7] An investigation on DNN-derived bottleneck features for GMM-HMMbased robust speech recognition 2015.

[8] Automatic model redundancy reductionfor fast back-propagation for deep neural networks in speech recognition 2015.

[9] Yuan Liu ;Tianfan Fu ;Yuchen Fan;Yanmin Qian ;Kai Yu, Speaker verification with deep features[J], 2014.

[10] Integration of articulatory knowledgeand voicing features based on DNN HMM for Mandarin speech recognition 2015.

[11] Investigation into the use of deep neural networks for LVCSR ofCzech 2015.

[12] P.Swietojanski, A. Ghoshal, and S. Renals, “Convolutional Neural Networks forDistant Speech Recognition,” IEEE Signal Processing Letters,21(9):1120-1124, September 2014.

[13] Building DNN Acoustic Models for Large Vocabulary Speech Recognition2015.

[14] Deep Neural Networks forSingle-Channel Multi-Talker Speech Recognition 2015.

[15] Deep neural support vector machinesfor speech recognition 2015.

[16] Improving HMM/DNN in ASR ofunder-resourced languages using probabilistic sampling 2015.

[17].ZHANG Qingqing,LIU Yong,WANGZhichao,PAN Jielin,YAN Yonghong, The Application of Convolutional NeuralNetwork in Speech Recognition[J],2014.

[18].T.Sainath et al,DEEP CONVOLUTIONAL NEURAL NETWORKS FOR LVCSR[J],ICASSP, 2015.

[19] An analysis of convolutional neuralnetworks for speech recognition 2015

[20] Convolutional Neural Networks-basedcontinuous speech recognition using raw speech signal 2015.

[21] Deep convolutional neural networks foracoustic modeling in low resource languages 2015.

[22] Bidirectionalrecurrent neural network language models for automatic speech recognition 2015.

[23] Pawel Swietojanski, Student Member,IEEE, Arnab Ghoshal, Member, IEEE, and Steve Renals, Fellow, IEEE, ConvolutionalNeural Networks for Distant Speech Recognition[J],2014.

[24] Wei-Chen Cheng, Stanley Kok, Hoai Vu Pham,Hai Leong Chieu, and Kian Ming A. Chai, “Language Modeling with Sum-ProductNetworks,” in Proc. INTERSPEECH, 2014.

[25] Yong Xu, Jun Du, Li-Rong Dai, andChin-Hui Lee, “An Experimental Study on Speech Enhancement Based on Deep NeuralNetworks,” IEEE Signal Processing Letters, vol. 21, no. 1, January 2014.

[26] Exemplar-based speech enhancement fordeep neural network based automatic speech recognition 2015.

[27] Improving Robustness of Deep NeuralNetwork Acoustic Models via Speech Separation and Joint Adaptive Training 2015.

[28] Noisy training for deep neuralnetworks in speech recognition 2015.

没有更多推荐了,返回首页