订阅云计算RSS CSDN首页> 云计算

科大讯飞董事长刘庆峰:语音交互的三个关键技术

发表于2015-07-31 07:14| 次阅读| 来源CSDN| 0 条评论| 作者周建丁

摘要:刘庆峰表示,提高自然语言理解水平有三个关键技术: 对知识本身的表达方式, 推理和学习,以及深度学习技术的应用。其中文本语言的表达和学习是关键。

为了更好地引导和推动我国人工智能领域的发展,由中国人工智能学会发起主办,CSDN承办的2015中国人工智能大会(CCAI 2015)于7月26-27日在北京友谊宾馆召开。本次会议的主旨是创办国内人工智能领域规模最大、规格最高的高水平学术和技术盛会,汇聚国内外顶级的专家学者及产业界人士,围绕当前最新热点和发展趋势的话题进行交流与探讨,并针对“机器学习与模式识别”“大数据的机遇与挑战”“人工智能与认知科学”“智能机器人的未来”四个主题进行专题研讨,努力打造国内人工智能前沿技术和学术交流的平台。

27日上午的最后一个主题报告来自科大讯飞董事长刘庆峰,他介绍了科大讯飞在语音交互领域(包括语音合成、语音识别和自然语言理解三个方向)的最新研究成果,以及科大讯飞对中国人工智能技术和应用趋势的理解。


科大讯飞董事长刘庆峰

刘庆峰认为,IT产业发展的浪潮,从计算机到PC再到因特网再到移动互联网,后期发展推动力其实就是人机交互。而未来是万物互联的时代,包括穿戴式设备、智能家居设备,都要走向互联互通,这个过程将会是以语音交互为主、触摸手势为辅的时代,也就是说,移动互联网浪潮下,语音交互一定是刚性需求,未来机器人一定需要语音理解。

通过合成新闻联播报道中国人工智能大会等一系列的视频,刘庆峰现场演示了科大讯飞在语音交互技术方面的进展,包括语音合成、语音识别和自然语音理解三个方面。科大讯飞专注于语音交互技术的研究,不断取得进步,现在在应用现状、应用前景及国际地位上都有不俗的表现。科大讯飞不是拿第三方开源代码,从头到尾都是自己做的。

刘庆峰介绍了机器口语评测、语音助手、讯飞输入法、智能机器人领域已有的成果或者当前的规划。其中,机器口语评测技术已经应用在北京、天津、广州教育部考试中心。

科大讯飞认为,人工智能演进的三个层次,为计算智能(能存会算)、感知智能(能听会说、能看会认)和认知智能(能理解会思考),而且只有实现认知智能的突破,AI才能部分取代脑力劳动。所以,除了语音交互,科大讯飞也在研究人脸识别技术,其特色是可以将人脸识别加上声纹识别结合在一起,特别是用声音、图片混合,来做活性检测。

挑战认知智能,科大讯飞的目标之一,希望实现首先能够考上一本的高考机器人。基于深度学习方法的中英文翻译,现在可以说已经达到一本的水平。科大讯飞测试了将机器人用于评分,通过这样的系统构建完整的知识体系,可以指导学生有针对地提升薄弱的知识点。科大讯飞要再融资25亿做这方面的突破,其中物理推理相对简单,最难的是语文语义的理解。

刘庆峰最后提到了对创新的理解。他表示,创新应该为大波浪+小波浪,也就是核心源头技术突破+用户体验微创新。换言之,中国人工智能的发展,一定要用核心技术的突破。如果掌握不了主导权,产业越大风险越大。具体提高自然语言理解的水平,刘庆峰表示,三个关键技术包括: 对知识本身的表达方式, 推理和学习,以及深度学习技术的应用。其中文本语言的表达和学习是关键。

以下为刘庆峰演讲速记整理:


今天非常高兴也很荣幸能够有机会给大家做一个分享,上午李院士的报告从两个非常清晰的角度分析我们将来怎么做人工智能。吴博士非常精彩的报告,对图像和神经网络做了非常深度的解析。但我跟他讲解的一个观点略有不同,他说未来最重要的是图像,但是今天的报告,我们90%的时间是通过语音沟通,我们认为语音始终是人类最便捷的沟通方式。

我们再看IT发展趋势,从计算机到PC再到因特网再到移动互联网,现在半个小时不看手机,很多人都会焦虑。下一个发展阶段,大家认为一定是万物互联,包括穿戴式设备都是互联互通的,但现在绝大部分设备都还没有互联互通。比如灯光调暗、开关,电视机音量调整等等。我们认为这个过程中一定是以语音为主,以触摸手势为辅。其实从过去IT产业发展五次浪潮,后期发展推动力其实就是人机交互。这是全世界为什么那么关注语音非常重要的原因。

在语音上面,科大讯飞今年3月份做了2500个抽样分析,发现语音交互日益成为趋势。我们1999年创业的时候,中国市场都是国外路子,我们提出口号是中国语音,做中国语音的市场。今天全球60%的份额是我们,多种技术科大讯飞都是第一。现在给大家看看技术效果,首先是语音技术。我们说语音交互,包括三个部分:一个叫语音合成;一个是听懂别人说话,叫语音识别;再一个是自然语音理解,刚刚李院士讲到了自然语言对脑认知是非常基础的研究。

语音合成的水平,国家863定时做比赛,如果好用,像新闻联播一样,5分,如果能用,3分、4分。先看一下1995年国家863的语音,很难听,是机器人的声音。但是当时是我们前身中国科大去做的。到1998年在业界首次达到使用的我们,这个系统听起来也很难听,是我当年带做的,不过它当时引起很大的轰动,第一个达到4.0系统。我们看1999年,还是很清晰很流畅,如果播音员5分,正常人是4分,模式是4.5,林志玲和郭德刚的声音我们都做了,跟普通人一样的。我们现在语音和合成可以有男声也可以有女声,大家听一下。还是不错的。粤语其实我们也是做的最好的。2003年我们做英语,多语种。2009年我们第一次去参加大赛,结果没想到成为黑马,连续7年都是全球第一名。我们看一下现在英国效果到底是什么水平。还是很地道的美式英语。大家看到这个表格,这是2012年比赛结果,全球2012年结果达到4.1,也就是我们达到4.2。在新加坡创新国际论坛我们给大家秀了一下,很多人来试,试完以后大家很多人服了,尤其是日本人,真的比普通人说话都还好。这是2014年没列,因为到了2014年国际说不比英语,英语到了4.0以上。印度是黑语,但是我们照样是科大讯飞第一。我们的黑语是3.8分,全世界第二名是3.4分。汉语4.5,英语4.2,黑语3.8。

语音识别呢?国际上没有专门对语音听写,但是美国有一个研究院组织全球说话语种比赛,每两年比赛一次,声音是跟子模一样,对国家安全来讲非常,当年飞机一上天美国人就知道,他们有升空系统。2008年科大讯飞首次参加我们综合指标拿到全球第一。现在我们连续三届指标越来越接近综合市场,我们指标每一个都接近前三名,综合指标是最好的。所以国家著名语音研究机构都放在科大讯飞。最近有一个产业界特别关注的是汽车里面的语音,车联网,在2014年宝马和奔驰做了测试,一百公里和一百四十公里三种场景和语音在汽车里面将来使用的情况,当年宝马汽车中文语音评测,我们第一。后来再做评测,科大讯飞也是第一。85%到95%之间是基本上快速使用的基本门槛,现在全球达到的只有科大讯飞,现在汽车宝马、奔驰、沃尔沃都是我们做。所以李院士说的汽车驾驶,我们就跟它语音说快一点或者慢一点。

还有机器口语评测技术。大家知道语音技术国家语委鉴定达到实用水平的成果,大学公务员当老师,必须得达到普通话一级测试,现在全世界准的就是科大讯飞技术。在这两年高考改革中广东是全国的第一个,在高考中英语口语占15分,原来是录到后台,一千多个学生,老师十几天听完,都崩溃了。北京、天津、广州教育部考试中心已经使用科大讯飞。他要做到科学公正,去年14个音乐考级,计算机带领都是科大讯飞。我们告诉你,你唱的哪一句改进,假如说你想提高,都可以唱到你的语音一样,让每个人都会成为明星。

围绕最近的人脸识别,真正的人脸识别在金融里面还没有达到安全问题,我们国家委员汤晓鸥教授做到全球第一名,他现在是把人脸加上声音合在一起,特别是用图片混合,用声音活性检测,看是数字还是图片。所以现在很多年开始应用,这样将来真正可以在生物使用。另外是讯飞输入法,从文字和语音输入都特别好,带方言口音基本上达到95%的准确,如果纯方言现在95%。

刚刚微软提到小冰助手,我们的语音助手大家也可以看下一下。我们去年14个主要应用商店统计,科大讯飞一个语音系统超过另外五家的总合,我们自己的品牌是他们的总合,活跃用户量超过3亿。我们讯飞在应该说移动互联时代的到来,智能硬件时代到来,我们核心技术通过语音开放平台开放给开发者,各种终端系统调用我们的语音,识别、搜索都可以调用。去年3亿用户,今年6亿用户,翻了一番,但是在线使用量去年3700万人次,今年1700以人次。增长300%。然后还有离线,告诉大家几十兆存储条件下我们可以把整个语音听写做到第一。第三方围绕科大讯飞语音的创新项目是6、7万。今年3月1号我们做的统计,刚刚7月17号李克强总理做的座谈会我们刚刚给他们报告的,3月1号我们当天新增的项目是104个,过了一个礼拜超过197个。上半年创新新增9万,如果这样,可能一百个创业项目有两到三个我们有关。再看智能硬件,增长300%。所以下一个移动互联网浪潮时代语音一定是刚性需求。

我们分析看到智能家居占比最多,还有智能机器人,包括其他的,可穿戴设备,我们科大讯飞从西班牙和俄罗斯给抢回来,这是我们中国玩具市场做的。机器人一定要语音理解,科大讯飞不是拿第三方开源代码,是我们从头到尾自己做的,最近的IM我们也是业界第一个做出来的,这个实际上科大讯飞很多好的想法实现,当然我们也有前端的带的科学家,所以我们看到对人工智能未来是极其的好。刚刚李院士给我们全新打开视角,全新的维度进步更快,包括专业知识有了以后,专业大脑集成在一起就是人工大脑。我们2015年机器人挑战赛,机器人在国际上已经越来越普遍。然后再今年机器人和日本剑术大赛巅峰对决中机器人已经占了上风。但是今年世界机器人大会大家可以看到各种报道之后一个最显著传播的标题报道是我可以救你,但是你先扶我一下。你打一个机器狗,你踹它一脚,它就会往前跑。李院士说陪伴机器人,现在陪伴老人唱歌,而且老年用户已经上千万了,目前还没有实体,我们用实体跟它对音乐。这些核心就是后台分析,使它的机械动作能够连贯串联起来,就像李院士说的人工智能大巴能够在车上,前提就是我倒下之前你可以扶我一下,真正实现人工智能。奥巴马这个计划提升到跟美国人类机组计划一样,认为未来会带来几万亿美金以上的市场,我们国家李院士他们为国家作出非常有效的呼吁,所以国家愿意重视。我在座谈会上跟总理和各个部长在提,人工智能一定要高度关注,因为未来在万物互联网时代一定是人机交互和后台预测,你给他带很多东西,你还可以交互选择。可是现在没有后台,你根本无法做不到。所以语音涉及到单个产品跟国际竞争的问题。如果我们不抓住新的机会,互联网那么多人将来又沦为给国际人打工。

讯飞内部讨论,人工智能演进的三个层面,第一个就是计算智能,就算当年的IBM国际象棋,变成全球变量。第二个就是感知智能,能听会说,能看会认。最难的就是认知智能,能理解会思考,这也是今天李院士讲的脑认知。我们再看看非常有趣的评价,全世界对机器人的评价水平到底怎么评价,大家都把它放在不同的考试上,比如说中国高考,高考这个点看看智能,还有看表达和技能。所以我们看图灵机考上目标考试。而日本东京大学7月20号到科大讯飞来,跟我们一起讨论,现在日本高考机器人是300分,它的高考人900分,大概2017年考上东京大学。刚刚李院士把开车大脑把整个自主学习维度做了非常精确,要拿到那个表他很谦虚50万,我觉得是500万以上。今天高考一本概念,跟大家说一下,机器人考及格很强,考上三本比50%的同学强,就很难了。日本人2017、2018年能够达到考生的一本,这就是达到80%的,这就是任务。我们科大讯飞有很多相关的领域优秀团队加入进来。这个跟其他的863最大项目不同在什么?不光是企业不同,863计划我们有更好的产业机制让大家更紧密结合,所以我们沿途下蛋,就是阶段性成果实现。

现在有什么成果?给大家介绍一下。第一个就是语音翻译。1991年在中国科技大学,翻译语音,当年最早的梦想就是我说话一句话翻译一句话,现在翻译到什么水平?在去年非常有名的国际翻译大赛,抽取的演讲,2014年之前国际这个比赛都是汉语翻译到英语日本第一,英语翻译到汉语美国人第一,但是我们去年用深度学习方法拿到全世界第一,而且讯飞技术遥遥领先竞争对手。而且我们跟人做对比的时候已经完全跟人基本上差不多。所以我们有汉译英和英译汉的功能。2015年2月底又有一次NIST机器翻译评测大赛,在中英文翻译任务中获得人工评价可用性我们是全球第一,然后在机器评价,这也是我觉得将来人工智能要研究的。它只是看你完全理解,关键字你理解错了,在机器评价中当然它更近,当然在人工上我们是第一。达到人工水平相当于高考一本,已经达到六级翻译水平。所以我们现在跟很多研究机构在合作。刚刚7月19号在举行第九届机器人世界杯开幕式上我们用一个翻译软件和国内厂商组委会市场做在线翻译。

大家看一下这个视频。声音比较小,但是基本上告诉大家刚刚是语音合成是机器现场的声音,翻译也是现场做的翻译对比。现在专业领域同传还做不到,但是出国给你一个助手,吃饭,问路,基本可以做到。所以大家可以下载我们的语音。我们后台已经达到6级以上水平。广东高考我们看到,广东高考题是先放一段美国大片的几句话你听,放完以后把声音抠出来,你练。第二选择用语音来说,我们判断你发音准不准。第三个原来做不到的给你一个主题你随便说。原来大家认为机器做不到,但是成功的。今年我们广东高考之前机器人超过人工,所以今年机器人口语作文是机器代替人工打分,那是完全开放式的。所以我觉得这是真正非常大的突破性的显著成果。这个进一步在开放评测中,不光是口语作文,对我们英语作文和汉语作文,包括开放式问答题目机器都可以带领人工问答。但是一部分在手写,手机上用笔划一个词相对简单,但是OCR扫描,如果考卷非常匆忙情况下难度非常大,在讯飞做之前全行业不到89%,现在我们能达到95%。现在这个语言做直接打分,这个图中今年在合肥安庆几万考生同时打分,机器人打完分最大的差距拿出来,由专家联合评论,不告诉他哪个是机器人哪个人工,然后80%机器是超过了人工。刚刚我们说75年驾龄一样,我们500个专家马上打500份卷子就可以。比如人工智能作用怎么发展,每个人回答不一样。几十万考过以后,第一份卷子老师改,机器人学,机器人就可以自动评估。现在高考评分是图圈里面的评分。这里面我没有提数学和物理,数学和物理反而相对简单,在日本第一个超过平均分的是数学,因为他物理推理相对简单,最难的是语文语义的理解。比如哪的同学你做错了,你应该学习哪个知识点,包括二元二次方程,你没学好,这个整个构建知识全部出来。这个是我们科大讯飞在做,我马上再融资25亿就是做这方面的突破。马上跟李克强总理做了演示之后,希望我们这个成果赶快用上医疗行业。现在机器人不能马上自主看病,但是普通医生后台病人说各种症状自动判断,根据后台传染流行病流行情况来判断,这是未来相关领域会非常非常之多。也就是说我们讯飞将来在哪些领域?考试、教育、客服,现在移动运营商代表25%的人工,健康,等等相关领域。我就说讯飞已经不仅仅是语音技术,我们主要是从会说到会听到整个人工智能。我觉得未来25年当中人类一定会进入人工智能,未来25年之后在现场一定会有机器人到现场端茶到水。就像孙正义在阿里巴巴美国上市的时候问马云,马云说一定会带领全世界技术。

其实真正的核心创新我们感觉关键掌握主导权,如果掌握不了主导权,产业越大风险越大。我们讲大众创业万众创新,不能所有的都聚集到一起,未来产业一定是大波浪加小波浪结合。今天移动互联网时代,3G、4G通讯技术,芯片技术,以及安卓、iOS那是大波浪,咱们做的APP是小波浪。中国移动跟iPhone说了科大讯飞可以做语音,但是它就是不开放。未来只有形成大波浪和小波浪联合发展,国家整个产业才会起来。而我们国家从感知到语音、交互和翻译,我们一点都不比国外逊色。而且在以考试这个点切入。我们认为在未来时代,完全有可能,只要产学研结合,我们一定能够把主导权抓住。最后让世界聆听我们的声音,谢谢大家!

更多嘉宾观点,请关注大会直播专题(持续更新中):http://special.csdncms.csdn.net/ccai2015/

0
0