订阅移动开发RSS CSDN首页> 移动开发

吴义坚:创业去!我用深度神经网络,处理语音识别

发表于2013-05-20 09:47| 次阅读| 来源CSDN| 0 条评论| 作者翟方庆

摘要:前盛大语音创新院院长吴义坚,从事语音技术研发近12年。15岁考入中科大少年班。曾在科大讯飞、微软亚洲研究院、名古屋工业大学等国内外顶尖语音机构就职,期间主导科大讯飞和微软的多款语音产品的核心技术的研发。

提到语音技术,移动开发者第一反应肯定是Siri这样的语音助手。在国内,也有一批靠自主研发起家的语音技术公司,近年来还涌现出一批垂直的创业公司,上海灵声信息科技就是其中之一。

去年11月,盛大集团进行业务调整,拆分无线业务,成立掌门科技,专注于移动互联网孵化项目,而由吴义坚创办的灵声科技,就是从掌门科技毕业的第一支创业团队。吴义坚15岁便考入中国科学技术大学少年班,25岁取得博士学位。在攻读博士学位期间,在当时作为中国科学技术大学电子工程与信息科学系教授、博士生导师的王仁华先生的带领下,负责讯飞语音技术的研发工作。随后,两度加入微软,并在2012年加入盛大,任语音创新院院长。近日CSDN对他进行了专访,请他分享12年来在语音技术领域的感悟。


灵声科技创始人 吴义坚博士

灵声科技这支十几人的团队拥有的语音核心技术包括语音识别、语音合成、语义理解技术和声纹认证,完全自主研发,并已申请60多项语音相关专利。由灵声科技推出的“听听中心”已有500万激活用户,并成功接入近二十款应用,提供上亿次的播报服务。今年年初,灵声科技推出百灵语音助手,面向广大Android用户。目前推出了语音识别平台语音合成平台和声纹认证平台,并面向开发者提供API。

少年班,与语音技术的不期而遇

CSDN:请讲一讲您在少年班的经历。

吴义坚:考入少年班也算是机遇,或者说算是偶然。我出生在江西的一个小城镇,我们高中每年都有人报考少年班,但我是有史以来第一个考上的。少年班提供了一个独特的学习成长环境。首先在少年班,数学、物理等基础学科都是按照各系的标准要求教学的,所以少年班的学生在这方面的基础非常牢固。而且,我们在大一到大三期间不固定专业,可以选学任何专业的课程。我认为在这一点上,比国内普遍的教育制度要好。学生可以选修任何专业的课程,在这个过程中,认识到自己的专长和兴趣所在。

在印象里,少年班有不少同学尝试了两个甚至三个专业。而我对人工智能非常感兴趣,所以选修了与计算机相关的专业课程。其实,最初我选择的是信息相关的专业,但是在电子工程和计算机之间犹豫不定。直到大三,我最终选择了电子工程,信号与信息处理方向。

CSDN:什么时候对语音技术产生兴趣的?

吴义坚:当时选择了信息方向的专业,不过进入这个实验室还是比较偶然的。因为当时有很多实验室,都是涉及人工智能领域。直到在语音实验室看到他们进行演示,发现能够让一台机器听懂人在说什么,或者让机器开口说话,这些实验非常有意思。后来就决定进入这个实验室,也从此与语音技术结下不解之缘了。

进入实验室之后,就拜读于王仁华老师门下进行语音技术方面的研究。我非常敬佩王仁华老师,他作为国内语音技术研发的先驱者之一,在1999年产业化方向还不明朗的情况下,创立科大讯飞,坚持了近十年后成功上市;与此同时,王仁华老师在学术和培养学生上也颇有建树,目前在国内语音研发机构的技术骨干和负责人中,有不少都是王老师培养出来的。

CSDN:您最初在讯飞负责研发工作,怎么加入讯飞的?

吴义坚:讯飞创立之初,科大语音实验室就相当于讯飞初创时的研发部,所以我在读博士的同时负责讯飞的研发工作,主要是语音合成的研发工作。不过我们不进行产品研发,而是进行语音技术研发。后来随着讯飞慢慢成长发展,实验室与公司也逐渐分开了。

当时也有几家与讯飞类似的公司,比如捷通华声,它也是国内早期专注于语音技术的公司。由于语音技术的基础研发需要有较长时间的积累,所以最早的几家语音公司都是从学校或研究所独立出来的。以前在日本也有一些大公司,包括SONY、东芝、松下,都做过语音技术研发。由于每个公司在语音技术方面投入少,而产品带来的利润也不高,在几年后纷纷停止了这项工作。导致这种结果的原因有两点,一是每个公司各行其是,技术研发力量分散;二是时机不成熟。而且在这之前,语音产业的规模一直不大,很难赚到钱。从这个角度来看,讯飞从99年创立,到08年上市,能发展到现在的规模实属不易。

CSDN:您在离开讯飞之后,两度加入微软,期间还以博士后研究员的身份进入名古屋工业大学,请谈谈期间的经历。

吴义坚:在我读博的那个时期,微软亚洲研究院颇有声望,如果可以加入研究院,就意味着有机会与世界级一流的研究员共事,所以选择了离开讯飞,加入微软研究院。当时考虑到讯飞的不少语音核心技术是我在的时候研发出来的,为了避免产生直接竞争和一些不必要的麻烦,我在加入微软后的一段期间内没有从事与语音技术相关的研究,更多的是进行手写体识别和歌曲合成等方面的研究。歌曲合成也好,手写体识别也罢,和语音技术的原理都是相通的,都离不开统计建模和机器学习等的核心技术,所以差别并不大。

在微软工作一年后,我选择了去海外继续深造,进入了名古屋工业大学,它是基于统计建模的语音合成技术的发源地。当时参与了一个与欧盟合作的项目(EMIME),目标是研发一个基于手机端的智能同声翻译系统,我在这个项目中是负责跨语种语音合成的实现和说话人变换。举个简单的例子,我讲一句中文,机器经过分析后翻译成英文,进行语音合成并朗读出来,而且还需要让机器朗读的声音与我的相同。

日本的工作经历给我的感觉是,日本的学术研究、开发等方面非常严谨,一板一眼,完全按照定制的计划进行,甚至可以说“不知变通”。看似个人的工作效率不高,但是从整体看非常高效。当然,有时候这种“死板”也会阻碍创新,这就仁者见仁,智者见智了。

在日本工作两年后,于2009年我又回到微软,加入语音产品部。当时微软语音产品部门需要一位技术架构师,我认为这是一个很好的机会,也是一个可以施展和发挥的舞台。随着语音技术的持续发展,我也希望能将一些研发成果转化为产品,让更多的人体验到技术所能带来的便利,对我个人而言也能有很大的成就感。

0
0
  • CSDN官方微信
  • 扫描二维码,向CSDN吐槽
  • 微信号:CSDNnews
程序员移动端订阅下载

微博关注

相关热门文章