订阅移动开发RSS CSDN首页> 移动开发

专访贾磊:百度语音实现技术创新,打破汉语语音识别领域壁垒

发表于2015-11-03 14:58| 次阅读| 来源CSDN| 0 条评论| 作者闫佳明

摘要:语音识别技术正处于大规模爆发边缘,更多终端会进入语音操作时代。近日百度在汉语语音识别方面获得重大理论和产品突破,CSDN对百度语音技术部负责人贾磊进行了专访,他分享了这次技术突破的理论基础和学术意义。

据悉,近日百度在汉语语音识别方面获得重大理论和产品突破, 成功研发出基于多层单向LSTM的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到传统的语音识别建模框架中,结合语音识别领域传统的区分度训练技术,大幅度提升线上语音识别产品性能。该技术能使语音识别相对错误率比现有技术降低15%以上,使汉语安静环境普通话语音识别的识别率接近97%。此项技术将很快在百度语音搜索产品上上线。

CSDN对百度语音技术部负责人贾磊进行了专访,他向我们分享了目前全球语音识别技术领域过去的发展、现状和本次百度语音在这一领域实现技术突破的理论基础与难点,以及这次技术突破对于未来互联网产品应用的深远影响。

百度语音技术部负责人 贾磊

语音识别技术的这些年

互联网发展多年,人们已经成功借助互联网技术,将自己的活动范围和视野得到了无限度的延伸。而应用场景越来越广泛的语音识别技术,在未来无疑是充当人机交互的首选介质。

国内外多家互联网科技公司也致力于语音识别技术研究多年,在2011年之前,语音识别技术主要是采用混合高斯模型。2011年深度学习技术引入语音识别领域,并推进了整个工业界的人工智能技术应用进入深度学习时代。在随后的几年里,CNN(卷积神经网络)、LSTM(长短时记忆模型)、CNN混合LSTM的建模技术在语音识别工业产品中不停涌现,并持续提升语音识别产品效果。

虽然语音识别效果不断提升,但如何在进一步提升语音识别准确率、识别速度同时,有效控制成本,使语音技术未来能够大规划产业化应用,仍是一个很大的难题。“如果线上50%的搜索都由语音完成,而机器耗费还和过去一样,那么没有公司能承担起这样的机器耗费。”贾磊表示。

百度创新语音技术,突破十年困局

面对这样的产业困局,百度进行了一次又一次的技术探索和研究,并于近日成功实现了重大的理论和产品突破。

这项理论与技术研究开始于2015年6月初。贾磊带着他的技术团队经过4个月的努力,研发出基于多层单向LSTM的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到传统的语音识别建模框架中,将语音识别相对错误率降低15%以上,同时,成本也得到有效控制。“用了这个技术可以显著降低解码器部分的计算量,机器耗费量问题有可能在未来得到解决”。贾磊告诉记者。



LSTM和CTC建模技术,很早就已经存在了。这两项技术结合在一起,十多年来都没有在语音识别产品上获得成功应用,其核心难度就在于海量数据下的深度学习需要海量的计算能力,这两项技术的计算量比传统的基于DNN和CNN深度学习的计算量大一个数量级。而直接按照数学公式去实现的上述算法,LSTM和CTC训练就需要采用单帧递推模式,这样的训练速度在将近1万小时训练样本下,几乎是不可能的。


本次科技进展是语音技术框架性的改变,是一次技术的革新。百度在世界范围内率先克服了在汉语领域使用CTC技术训练单向LSTM的高精度建模难题,探求了工业情况下CTC技术在语音识别领域能够发挥巨大作用的本质。这个不是单单是学术上的研究成果,而是可以直接应用在产品上的。据悉,应用新语音技术的百度各项产品将上线。

该项技术成果也获得行业的认可,并受邀在全国人机语音通讯学术会议(National Conference on Man-Machine Speech CommunicationNCMMSC2015,注:NCMMSC是中国人机语音领域最权威的学术会议)上发表演讲。

从用户、企业、研究者角度看,百度语音实现了四点突破:

1.语音识别率较以往技术大大提高。

2.语音识别速度提升。

3.有效降低语音服务提供者的投入成本。

4.语音技术领域研究人员可参考百度技术模型,改善自己的研究,从而在语音领域获得更大突破。

据了解,百度基于新技术的语音识别能力也将开放给各行各业使用,未来,开发者可以在百度开发者中心直接调用这一先进的语音识别能力。

语音识别技术突破靠什么?

1、算法创新

百度研发出的全新训练算法,更接近工业大数据的产品实践,是可以推广到10万小时训练的全新技术。

2、大数据平台计算优势

百度结合自身大数据领域优势,为此项技术突破提供可支撑LSTM和CTC建模技术结合应用下的海量计算需求。

3、大数据机器学习和语音识别传统理论结合

仅凭上述深度学习技术的创新,要想推动汉语识别技术的产品重大突破是远远不够的。深度学习技术必须和行业专业理论结合才能以质变的方式提升工业产品技术。过去,有很多机器学习技术应用于语音识别领域取得了不错的效果,但是在解决产品上线的计算量和用户等待时间方面总是差强人意。百度根据自己在语音产品实践中的长期积累和经验,经过大量实验详细的比较,在尝试了音节、声韵母和状态等不同长度的建模单元之后,最后探索出最适合汉语的声韵母整体建模。最终,把上述成果一起应用到语音识别的传统技术框架中,结合决策树聚类、跨词解码技术和区分度训练等一系列传统技术,实现了汉语语音识别工业产品技术的实质性提升。

语音技术的未来

从短期来看,人们往往倾向于高估一项技术的价值,而从长期看,人们却又倾向于低估技术的价值。

                              ——百度语音技术部负责人贾磊

语音识别等人工智能技术何时才能够发挥巨大的产业价值?也许很多人存着这样的疑惑。但贾磊的内心是坚定的。

“从短期来看,人们往往倾向于高估一项技术的价值,而从长期看,人们却又倾向于低估技术的价值。“这是什么意思呢?贾磊解释到,“现今,人们可能倾向于觉得这些技术很牛,认为它们能够解决一切问题。但是在短期内,它没有解决,于是,人就会产生一个心理,觉得这个技术没用。其实,你忽视了技术的长期进展和作用。”

纵观语音技术发展,五年前和今天相比,识别率的提升是相当惊人的,相对错误率降低60%左右。“那么,再来第二个五年,我相信这个技术可以变得更好、被更大范围地使用。“贾磊相信人工智能技术、相信语音技术的强大潜力,希望学术界、产业界等够有耐心地持续投入研究。

的确,技术研究永无止境,语音技术的发展还有很长的路要走。未来,语音识别技术发展将很快进入10万小时训练阶段,甚至训练语料量可能会突破100万小时。在训练数据量继续增加的情况下,如何实现大规模LSTM建模和CTC的有效训练,会成为一个核心的技术难题。语音识别的深度学习,也将进入数百GPU并行训练的状态,计算能力和算法创新将围绕数据量展开。

与此同时,CTC建模技术进一步降低了语音识别应用的解码成本,随着适合深度模型计算的专业硬件的大量涌现,语音识别云服务的成本将大量降低,从而推动语音交互技术的更大范围的普及。

在汉语中,多种多样的口音是识别上的一大难题。为了克服口音等因素带来的识别上的困难,百度的语音识别产品,还将朝个性化语音识别方向做努力。

语音识别技术现在正处于大规模爆发的边缘,未来更多的终端会逐步进入语音操作时代。在此背景下,语音识别技术的研发方法,相对于现在必将发生深刻的变革。这次的技术提升,更大程度上是百度对计算能力极限挖掘的一次尝试。百度本着学术开放、技术分享的精神将一直致力于语音识别技术领域的研究,基于自身大数据极致运算的优势,在这一领域继续取得突破。

0
0
  • CSDN官方微信
  • 扫描二维码,向CSDN吐槽
  • 微信号:CSDNnews
程序员移动端订阅下载

微博关注

相关热门文章