智能语音_智能语音识别 - CSDN
精华内容
参与话题
  • 智能语音与人工智能

    千次阅读 2019-01-20 18:08:30
    2018年智能语音爆发了,BATJM等为代表的互联网大企业纷纷入局,同时中小企业也紧跟其后都为抓住智能语音这个浪潮。在这个浪潮中诞生了很多跟智能语音相关的产品,其中音箱和儿童机器人最具有代表性。天猫精灵、小度...

    https://www.toutiao.com/a6644327209865576964/

     

    2019-01-09 11:03:00

    2018年智能语音爆发了,BATJM等为代表的互联网大企业纷纷入局,同时中小企业也紧跟其后都为抓住智能语音这个浪潮。在这个浪潮中诞生了很多跟智能语音相关的产品,其中音箱和儿童机器人最具有代表性。天猫精灵、小度在家、小爱mini、叮咚Play等等智能音箱纷纷推出,与此同时长相非常卡通可爱的胡巴儿童机器人深受消费者喜欢。

    智能语音与人工智能

     

    语音交互算是人与机器进行交互方式的第三代,第一代通过按键来实现交互(想起了曾经的霸主诺基亚手机),第二代通过触摸屏来交互,到现在的第三代的语音交互,一代比一代更加智能和便利。智能语音之所以会爆发,是智能语音技术越来越成熟以及整个产业链通力合作的结果,产业链包括语音算法公司、芯片原厂、内容提供商、渠道商。语音算法公司有:科大讯飞、思必驰、云知声、声智等;芯片原厂包括:全志科技、MTK、RK、Amlogic等;内容提供商包括:QQ音乐、喜马拉雅、虾米音乐,渠道包括:天猫、京东、小米等互联网平台和线下渠道。

    智能语音与人工智能

     

    智能语音属于人工智能的一个领域,把人工智能的终极产物看成一个类似人类的高仿真机器人的话,智能语音相当于给机器人加上了耳朵和嘴巴,如果再加上图像处理技术和行动控制系统,相当于给机器人加上了眼睛和能行走奔跑的能力,一个初步类似人类的机器人就已经诞生了,如果再给机器人加上深度学习能力的的大脑以及一个高仿的皮肤以及精细的打扮一个,男人们梦寐以求的“性伴侣”来了,不一个高仿真的机器人就诞生了。

     

    智能语音与人工智能

     

    展望一下在人工智能非常成熟的时候的景象,去餐馆接待你的就是机器人,完成接待上菜等行为(现在出现的接待机器人还是初级阶段,看起来比较傻);去问询台询问有关信息,此时对答的是机器人,以后不是遛狗,而是遛机器人,这个时代离我们会越来越近,值得期待。

    智能语音与人工智能

     

    展开全文
  • 智能语音技术的深度解析

    千次阅读 2018-11-05 13:10:20
    广义上来讲智能语音技术有各种各样的定义,以上是常见的一些热门的场景。语音识别,刚才罗老师也分享了部分内容。语音合成是文字变成语音,这部分我们后面会详细展开。再往后看,声纹识别,在智能车里面有很多的功能...

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~

    本文由腾讯云AI中心发表于云+社区专栏

    img

    广义上来讲智能语音技术有各种各样的定义,以上是常见的一些热门的场景。语音识别,刚才罗老师也分享了部分内容。语音合成是文字变成语音,这部分我们后面会详细展开。再往后看,声纹识别,在智能车里面有很多的功能需要人的发音媒介来控制命令的时候声纹就很重要。开一个车门,车上有一个小孩,突然哭闹,下一个不合适的指令,你区别不出来这个人,对语音控制来说不合适的。或者有一些不当的操作,可以通过声纹来做,通过声音来做对人的识别和认证的过程。声纹识别其实在未来的应用场景比较热门,实际应用当中遇到大的挑战点是什么?很多其他的生物识别靠人脸或指纹这类比较稳定的特征,可是声纹不稳定,人高兴的时候,第一天晚上唱了卡拉OK,第二天声音哑了,怎么能够在变化比较明显的生物特征上做识别是一个很大的挑战。

    声学事件监测,在家里有音响或者有监控的系统,监控里面有没有婴儿啼哭的声音,或者有什么不当的声音发生,这就是声学事件监测的应用。现在这些难点不算难,有更多场景接进来的时候这一块有很快的发展。

    自然语音处理,本质来看是在语义层面上做了一些工作。

    img

    我们继续往下展开,语音识别刚才罗老师提了很多了,我们就不多讲了,这些技术和环节串起来就是语音识别的框架和结构。

    语音识别面临的挑战,在实际应用当中我们遇到的一些难点,我们需要怎么解决呢?也像之前提到的,语音识别的准确率达到多少?你们这个场景能够达到90%左右,就会被人家说,别的厂商反馈95%到97%,你们怎么只有90%。其实有一个前提,你提供的语音材料质量怎么样?如果声音很清晰,没有杂音可以达到97%。

    img

    语音识别遇到的挑战,首先就是口语化的问题,很多时候你的发言并不像你的演讲这么理智这么逻辑,有很多口语化的表达。比如说在会议的场景,有很多人同时说话,会抢着说话。本身你听录音的时候都感觉很嘈杂,这个时候指望语音识别有特别高的准确率比较难。离话筒比较远,麦克风技术等等,在这里面需要做一些提高。

    还有就是方言的问题,本身带口音的,我们日常做语音识别训练的语料本身不太标准,本身对带口音的普通话的识别,我们在训练语料的时候就灌输进去,口音不是特别严重的情况下,轻度的口音没有什么问题。口音严重的,除非你是当地人,否则你都听不清,这就对语音识别有很大的挑战。所以我们投入应用的时候要考虑场景和录音材料,这样才能达到好的效果。要在线下和线上给客户一个好的体验,我们尽量提高语音识别的能力,在其他这方面的素材层面也一样的,是要有一定的配合度效果才能比较好。

    img

    因为语音识别讲的比较多,后面我们转到其他的主题,下一个阶段我讲一下语音合成。语音合成更大程度上是一门艺术。语音识别对它转写的好坏有客观衡量标准,你说一句话,转成文字的结果,跟正常说的话做比对准确率是多少?但是语音合成的难点就是难有客观统一标准。语音合成最后的目的是达到什么?希望机器的发音跟人正常的发音接近,对语音合成这项技术的判定的好坏是比较艺术的,你这个声音好听好不好听,像不像真人,是比较偏主观的感受。

    语音合成,如果只有识别没有合成,你只能听不能说,这样的话交互体验不是完整的,语音合成的技术当下越来越热,也有很多的场景需要语音合成,后面会具体展开多讲这一块。

    img

    语音识别合成这项技术很明确的,那它有什么难点呢?你看到人在说话的时候,人的声音是否准确,说话是否流畅,人的发言在不同场景下是阴阳顿挫的,很多时候你会发现这是一个机器人在说话,对于语音合成这项技术就不成功,因为语音合成最后的目标就是以假乱真,听到机器人说话,不认真听听不出来,这也是在做技术突破的点。

    技术难点的主观性,有时候很难有一个客观指标,有人说这个语音合成不好,我说哪儿不好?他说我听着不舒服,在不同场合下人的要求,你的声音是否满足,你的声音是否适合做语音助手,我会有一些例子给大家听,展现我们现在做的技术的突破。

    还有一部分提到很多客户的需求,希望有语音的定制化,为什么?对大型公司来说,如果我做一个智能冰箱或者智能硬件,这个声音的要求高,这个声音对于他们来说,跟品牌的logo一样,希望我的用户听到的声音,是我这个品牌的音响,或者我这个品牌的应用。我不希望跟别人共享。也有这种类似的需求,也是很常见的,这一块对语音合成的技术也有挑战。有的厂商比较有钱,可以请到一些明星来录音棚录音,录音的质量决定了合成的效果,之前做合成要求来录音棚录8个小时才能有比较好的效果,现在这个门槛不断在降低。

    今年腾讯内部,由马化腾在微信里面给大家发红包,有一段语音,这段语音就是用语音合成做出来的,我们搜集马化腾在大会上比较有质的发音,以这些优质的发音做组合训练,依然可以达到很好的合成效果。

    img

    简单讲一下语音合成技术的引进。最早是波形拼接,从每个人的发音,你的发音是什么样子,然后把这个波形拼接,然后是HMM+GMM的合成,然后再到神经网络的参数合成,然后WaveNet合成。WaveNet合成的效果非常接近真人录音的效果,MOS是一个对语音合成的指标,产生的声码器能够做到4.2已经很好了,真人的录音效果普遍在4.5,如果做的好在4.5以上,WaveNet合成我看到比较好的效果是在4.52,非常接近真人的录音效果。谷歌在今年AI大会上发布了人和机器人对话的效果,那个效果就是WaveNet合成的效果。这些是WaveNet合成的声音,比以前一听就是很明显的机器人的声音,现在的合成技术效果相比以前有一个质的提升。

    img

    简单讲一下WaveNet,因为我是做产品的,可能讲的不够深,后续可以继续探讨。WaveNet是端到端的合成技术,是谷歌提出来的,最早WaveNet的合成速度比较慢,对资源消耗比较大,2017年底的时候谷歌又出了一个WaveNet的技术,比之前加速1000倍。

    前面主要是讲了技术方面的储备,后面我们切换到更多的场景层面。

    img

    讲到数字化这个主题,为什么说语音在数字化的时代很重要?数字化时代,很多时候对用户的服务和追求是更好的人机交互体验,有更多的人机交互渠道,比如说你的客户是机器人,你只能给别人打字聊天,跟客服做反馈,现在越来越多的希望基于人的交流,如果自己特别大量的去做,这对人工成本消耗比较高,这是一个场景。需要售后服务的方式,人机交互的模式有一个更好的效果。

    img

    手机端的应用,发布的这些例子都可以看到。首先是语音输入法,按住这个键,然后是语音提醒,5分钟以后我要打一个电话,帮我记录一下,或者提醒我喝口水,用简单的输入做语音的提醒功能,相信很多人用到。微信里面说话,比如说我收到大一段语音以后,我在开会,长按语音键上面有一个按纽,上面有一个转文字,就会把你刚才收到的语音材料转成文字的形式,在不方便听语音的情况下一样实时接受信息的效果。

    这里有一段语音,这也是我们之前的一个项目做的一个东西,这是嵌入在银行APP里面的一个应用。我们当时因为是内部在做测试,测试人知道下一步的效果。感觉就不太连贯,这个应用里面看到的,除了刚才讲到的很多信息对话的场景以外,很多功能性的产品上面把语音技术嵌进去。语音技术识别的成熟度,很多业务场景,需要办理业务的场景一样可以用语音交互的方式来做接入。

    img

    刚才讲的是手机端的情况,跳出手机端我们讲硬件。智能硬件也火了很久,语音识别合成,语义理解就是很重要的功能。智能穿戴、手表等等一些场景,更常见的是智能的音箱,还有车载的语音技术。尤其在车载环境下语音是很重要的,在车上的时候驾驶员没有时间按手机的,如果持续按手机比较危险,这个时候语音交互是很好的切入点,来实现控制,比如说简单的开空调,比如说帮我放一张碟,比用手按不仅方便而且增加了安全性。

    img

    这是智能硬件的几个方案,在酒店应用的一个场景。我们在北京一家酒店做了一些样板间,把语音交互的平台,放在客房,通过跟他的交互,类似帮我拉一下窗帘,帮我放一下音乐,帮我关灯,很多人比较懒,在酒店里面不想关灯,都可以帮你实现。包括天气、交通、新闻等等,在酒店客房可以实现语音助手的效果,也方便了很多酒店的住客。

    img

    前面讲了手机端的应用,然后是智能硬件的应用,还有一个很大的应用场景,是客服机器人,其实在线下遇到的这些问题,这些问题大家都有了解,一个是你需要24小时的反馈,如果你需要同时在线,客户问你的问题80%都是重复的,没有困难到需要人查的地步。比如说运营商查询话费等等。如果80%的问题重复,我们设法用机器人来解决,讲到全渠道的观念,最早机器人客服用一些公众号、服务号,还有一些网页的客服等等。电话坐席还是用人工来覆盖,因为电话坐席前面放一层语音识别,还有就是语音合成,如果这两个做不好,客户体验就很差,不知道有没有这样的电话,你发现是机器人,语音识别很差,我一听是机器人,就很没有耐心。然后是语义,有的合成效果不错,没有以为是机器人,当我说了两句话给我反馈一样的时候,我知道是机器人,了语音识别失败,或者语义没有解析。电话客服是一个很综合,又比较有挑战的产品。需要我们继续摸索,如果这个效果做的好,很大程度上能够解决需要克服的,也解决很多客户等待的问题,未来这些都需要进一步优化。

    img

    前面讲了一些场景化的问题,后面落实到我们腾讯云,包括线下场景的一些解决方案,我们在做的一些方向。这部分先回顾一下,之前罗老师也讲到腾讯云语音类能力,包括语音识别,语音合成等等,在这些技术上面打包一些解决方案,这些解决方案能够解决什么实际的问题?

    img

    首先是直播安全的解决方案。在互联网领域内容的安全审定,一直是监管部门很重视的话题。对相应的直播平台,它的内容不可控的。如果主播在直播间里面有不当的行为,一样会受到很多的举报,会给这些平台带来很多麻烦。最早的这些内容鉴别,基于图像这个层面来做,有的时候解决不了问题。可能图像里面没有出现什么越界的问题,但是说的话是不对的,或者整个直播过程中间发出来的声音不正常,就图上来看没有什么,下面的这些字有点小,但是被鉴别出来了。在直播过程当中,说的话是违规的,直播平台会受到下线或者告警,需要结合图片,包括语音,甚至音频声音识别的能力来做内容审核。

    img

    客服质检,也是线下很多电话客服的场景。话务员跟客户的对话质量不可控,成熟平台还好,现在一些互联网金融公司,他们的业务发展比较快,又遇到催款等等,工作人员话术不规范,甚至是骂人的场景。这样的情况就会受到很多的投诉,某某平台的客服特别不文明。能不能基于这些客服的录音做质检,靠人去检,比如说20个坐席,一天靠人来质检检查不了几通电话,语音识别这么好,我整个电话录音的情况记录下来,然后转成文字,在文字层面基于关键词或者特定业务逻辑做评分,来评价我的客服是否符合我的管理规范,这也是基于语音识别这个基础做的方案。

    img

    智慧法庭解决方案,它也是比较有趣的。书记员需要做记录,某某人说了什么,一样的在庭审的场景下,速记员的个人习惯不同,或者这里漏了一点什么,那里多了什么,庭审的记录可读性不强。我们在这个场景下,把语音识别技术放进去以后:法官前面有一个麦克风,被告和原告都有麦克风,通过麦克风把这句话是谁说的记录下来,语音转成文字,变成文字以后,结合这两个层面形成记录:公诉人说了什么,法官说了什么,还有被告人说了什么。基于这个记录后续再做档案的检索。

    语音识别技术,在之前谈到的几个场景中,就描述了语音识别技术怎么帮助线下的很多传统行业或者是政府机关。

    小微是谁?我们打包了一个人机交互的操作平台,在海外比较成熟的是亚马逊,一样的基于这个平台,你通过简单的对话能,比如说帮我查一下天气,对于整个小微平台后台的技术,基于语音识别,语音合成,以及对话的处理,多种能力综合起来达到一种人机交互的效果。

    除了有这些语音的能力以外,这种平台是否好用?这也是我们腾讯自己本身的优势,腾讯音乐等等自有的能力打包,我们把这些能力放到小微平台当中去,小微的用户可以很方便的使用。

    语音交互的平台一定程度上对应一些硬件,包括机器人等等。基于这些硬件合作伙伴,最后形成整个人机交互的终端生态圈。哈曼卡顿音乐也是很高端的音响,跟腾小微合作,低中音效果都是非常好的,你的音响只是一个人机交互,如果想听音乐,对这方面有比较好的要求都可以达到。

    Q&A:

    Q:现在有部分的小语种或语料不够,导致识别率不高,识别率怎么统计的?

    A:语音识别的结果跟正常文本的结果一个字一个字的比对,业内也有提到句错率。

    Q:我想问一个问题,小微,类似其他的产品都已经出来了。比如说微软的,还有亚马逊的,谷歌也有相应的生态圈,也有相应的开发工具,应用场景以及特点,SKD或者是开发平台的使用方便有没有做过比较,比较结果能不能跟大家做一个分享?

    A:比较结果,说实话各家的进展都比较快,很难说有一个精确的,国外真的成熟度比较高的是亚马逊和谷歌的产品。因为生态比较完整,有大量的开发和底层应用平台,国内还是属于起步阶段。腾讯小微,这方面的优势,包括对开发者的友好程度,包括底层硬件的能力,我们本身腾讯的原生的能力比较强的。我们有QQ音乐等有非常好的内容,我们帮助开发者在这方面提升,硬件平台的开发也很高,很难说有一个准确的数字,因为高内市场比较早,还都是齐头并进的状态。

    相关阅读
    【每日课程推荐】机器学习实战!快速入门在线广告业务及CTR相应知识

    此文已由作者授权腾讯云+社区发布,更多原文请点击

    搜索关注公众号「云加社区」,第一时间获取技术干货,关注后回复1024 送你一份技术课程大礼包!

    海量技术实践经验,尽在云加社区!

    展开全文
  • 智能语音方案比对介绍

    万次阅读 2017-07-05 11:18:04
    语音方案比对介绍语音交互是现今应用最多的智能交互方式,在人工智能越来越火的当下应用十分广泛,所以特别针对车内环境,在驾驶员安心驾驶的时候,用语音可以安全的进行操控,所以针对公司的车联网的业务需求,我做...

    语音方案比对介绍

    语音交互是现今应用最多的智能交互方式,在人工智能越来越火的当下应用十分广泛,所以特别针对车内环境,在驾驶员安心驾驶的时候,用语音可以安全的进行操控,所以针对公司的车联网的业务需求,我做了一个语音方案的研究和比对。

    语音需求

    整体来说语音需求,选择的语音方案至少要满足语音唤醒,语音合成,语义解析三大基础功能
    1. 语音唤醒: 能够通过唤醒词,唤醒语音助手,进行后续用户语义的识别,免去手动点击唤醒的操作
    2. 语音合成: 俗称TTS(Text To Speech),支持将文本转换成语音播报出来
    3. 语义解析: 支持将用户输入的语音,转换成文本,并进行相应的分析,定位到相应的场景,关键字 返回结果帮助我们定位到用户需求。
    例如:“导航到深圳北站”,除了解析语音返回整句文本之外,还需要定位到这是地图场景,关键字是POI点深圳北站


    语音方案

    现今市面上比较常用的语音方案有:腾讯云语音讯飞语音百度语音思必驰云知声同行者,搜狗语音云
    - 同行者并不同于其他只做语音方案,它提供的更多的是智能设备的整套系统方案,有对外开放SDK,但需要走商务渠道才能试用
    - 思必驰 主要针对场景进行制定化开发,无对外开放平台进行试用,需要走商务合作

    所以暂时着重比对介绍一下腾讯云语音讯飞语音百度语音, 云知声搜狗语音云

    讯飞语音

    讯飞语音开发平台 云知声语音开发平台

    优点:
    - 支持的语义场景广泛,包括家居,地图,应用,音乐等等27个场景,8个聊天对话类型
    - 语义解析除了整个语句文本外,还提供详细的域名,操作,类型,关键字等Json数据,便于开发
    - 在线功能 语义解析,语音合成,命令词识别审核通过后,可以无限制免费使用
    - 讯飞平台可以对接微信公众号,在微信公众账号中增加智能问答的功能。
    - 讯飞和云知声 成熟的车载案例很多

    缺点:
    - 语音唤醒功能需要收费,最高五万套装机量授权需要 25000,更大的装机量需要定制化开发
    - 唤醒词只支持4-6个汉字,无法更少
    - 有些个别语义关键字,无法正确解析到,但是整句文本都能准确返回
    - 免费的语音合成只支持在线,会耗费很多流量

    备注: 云知声的对外开放平台,主要功能和使用形式同讯飞基本一致,唤醒和离线语音合成都需要收费定制化开发

    讯飞语音开发平台 云知声语音开发平台


    讯飞语义场景
    讯飞语音识别

    讯飞语音服务

    腾讯云语音

    腾讯云语音

    使用腾讯云语音需要注册腾讯云账号,添加项目和服务,云语音只是整个腾讯云中的一个产品,不收费

    特点:
    - 没有提供语音唤醒服务
    - 提供实时流式识别,离线语音识别,语音合成功能
    - 离线语音识别功能 不是离线语音合成或者离线识别语音, 只是支持将录制好的音频上传 RESTful API 进行语音识别,还是需要访问在线API
    - 语音识别和语音合成不是同一个SDK,语音识别是独立的Android SDK,语音合成是一个独立的 RESTful API接口
    - 语音识别成熟的客户案例少,只有五个 没有车载行业,语音合成有一个腾讯地图
    - 语音识别需要自己提供关键字,进行识别检索,关键字最多200个

    腾讯云产品总览

    腾讯云语音识别功能

    腾讯云语音合成功能-场景

    腾讯云语音合成架构


    百度语音

    百度语音

    特点:
    - 语音唤醒,语音识别,语音合成三大功能基础服务永久免费
    - 语音识别,语音合成支持离线在线混合SDK,根据网络情况和指令进行自动切换,以及全平台的RESTful API
    - 语音识别的离线SDK支持自定义语义,在线SDK可以设置识别场景
    - 支持开发者上传词库,用以训练识别模型
    - 语音合成 支持多语言多音色选择,可调节语速、音调、音量、音频码率
    - 语音唤醒最多支持十个唤醒词,包括最多三个自定义唤醒词,也叫做基础唤醒词(“小畅你好”),剩下可选百度提供的命令唤醒词(“上一首,下一首”)

    自定义语义
    语义数据结构
    导出唤醒词

    搜狗语音云

    搜狗语音云

    特点:
    - 无语音唤醒功能,提供三大核心功能,语音识别(离线/在线),音乐检索,语音合成
    - 语音识别免费提供,搜狗着重在语音识别的准确性,对于语义支持的不是很广泛,支持十个以内的语义场景,离线识别能通过离线的语音包,准确识别到语音
    - 语音合成,只提供离线版,但是需要走商务渠道进行合作,不免费对外开放
    - 音乐检索,可以根据音乐片段检索出整个音乐的歌曲名

    总结

    经过比对和试用SDK Demo,总体来说,百度语音最适合,,不仅能够满足我们的语音需求,还支持自定义深度优化,相比较其他语音方案,百度语音具有以下三大优势:
    1. 免费支持语音唤醒,相对比其他方案,唤醒都是收费的,而且还能够支持最多三个自定义唤醒词
    2. 提供离线语音识别和语音合成,其他语音方案只提供在线语音合成和识别,离线都需要收费,百度语音免费提供,能够减少很大的流量消耗
    3. 能够自定义语义,我们可以根据自己的业务需求定义一些语义加入到离线识别中,做到深度化定制,给用户更好的体验,
    例如:”我要点肯德基”,”打开行车记录仪”

    展开全文
  • 智能语音产业现状

    千次阅读 2018-01-31 00:57:33
    国内继科大讯飞、捷通华声之后,阿里,百度,腾讯等巨头都在智能语音领域发力,行业内也涌现出新的佼佼者:思必驰、云知声、出门问问等后起之秀,在教育、客服、电信等传统行业之外,开辟出了车载、家居、医疗、
    语音交互设计与运营的这两年里,事情比较多一直没空静下来总结一下做过的事情。我们先从语音产品的现状总结一下吧。
    最近几年来随着深度学习技术的突破,大数据技术以及自然语言理解能力的提升,带动了一波产业热潮。国内继科大讯飞、捷通华声之后,阿里,百度,腾讯等巨头都在智能语音领域发力,行业内也涌现出新的佼佼者:思必驰、云知声、出门问问等后起之秀,在教育、客服、电信等传统行业之外,开辟出了车载、家居、医疗、智能硬件等语音技术应用新天地。
    如果找一个产品来代表现在国内智能语音产品的现状,我会选择智能语音音响。它听上去很酷,产品价格也适中应该推广很好。但事与愿违,国内智能音箱虽然是重要语音交互体验产品,但销量并不乐观。仅阿里的天猫精灵在双十一以99元火了一把,双十一销售达到上百万台。其他产品销量真的惨不忍睹,比如:小米音响国内排名第一平均每月销售4766台(数据来源淘宝)。在国外智能语音音响已经被广泛的推广,Amazon的echo,谷歌的GoogleHome,苹果的 HomePod等纷纷上市抢占市场。以下为Amazon的echo销售成绩单
    所以国内的智能音箱还需继续努力,而语音技术上在近一年的确得到十足的长进。在Gartner的技术成熟度曲线面前,跌宕起伏又迎来了的转折点。

    智能语音现在的不足在哪?无论在C端还是在B端带来的仅是交互的便捷,体验的提升吗?带着这些问题,我们先看看现在只能语音的不足
    技术还不够成熟:语音识别还需提升,NLP技术还有待成熟
    语音识别主要包括以下步骤:语音信号处理、静音切除、声学特征提取、模式匹配等环节。由于语音信号的多样性和复杂性,系统只能在一定限制条件下才能获得满意效果。在真实使用场景中,考虑到远场、方言、噪音、断句等问题,准确率会大打折扣。目前业内对于16K采样率的语音识别普遍宣称的97%识别准确率,更多的是人工测评结果,只在安静室内的进场识别中才能实现。
    我以前做过的智能语音产品:智能客服,语音信箱为例,基于通讯网络下的产品。在GSM网络下仅有8k,16bit的采样率,识别率最高也只能在90%左右,国外据说IBM能做到94.9%。制约因素主要有数据:语音识别除了算法以外更多的是需要大量的语音标注数据去训练去优化,去通过对该业务的定制升学模型,语音模型去提升,如果没有数据你何来提升。还有另外一个问题就是噪音,噪音分为人生与非人声。电话中的场景是复杂的,背景音很多,降噪技术能做到的非常有限。很多智能硬件通过麦克风阵列的确能大幅的减低了背景音的干扰,但没有呢?比如:手机用的最多智能语音的硬件。
    NLP技术主要分为三层:词法分析、句法分析、语义分析,三者之间关系是递进又相互包含。而中国文化的多样性,一词多意,所以语义消岐是NLP技术突破的重大难点。机器在切词、标注词性、并识别完后,需要对各个词语进行理解。由于语言中往往一词多义,人在理解时会基于已有知识储备和上下文环境,但机器很难做到。现有手段更多的是通过根据业务,场景定制语言模型,热词等方式去对该应用场景的消岐,还是会面对很多问题。
    由于近几年的大数据技术的快速提升使人工智能技术得到快速发展,但一领域的技术进步和产业化推进是一种协同关系。只有通过工程化把技术落地,在产品运营过程提升效果与体验,才能促进产品广泛推广,再根据实际应用中的数据和反馈,反过来推动技术实现突破。
    对于未来的机遇在哪?
    个人了解的行业信息有限,但从我获取到信息说一下个人的理解。C端智能语音正在改变着我们的生活习惯,主要应用在移动设备、汽车、家居三大场景,用来变革原有人机交互方式;B端则针对垂直行业需求,提升人工效率,比如智能客服,通过智能应答解决了80%以上的用户问题,大量的降低了人力成本和用户解决问题的销量。在政企方面比如法院的记录,医院的记录等。


    整体的发展中移动互联网、智能家居、汽车、医疗、教育等领域的应用带动智能语音 产业规模持续快速增长。2015 年全球智能语音市场规模达 62.1 亿美元,同比增长 34.2%。中国智能语音产业市场规模也逐步扩大,2015 年 40.3 亿元产业规模约占全球市场份额 10%,且增速显 著高于全球市场,预计至 2017 年份额占比将提升到 14%(数据来源于:中国产业信息网)。
    对于快速发展智能语音产业,谁能占领更大的蛋糕。对于底层算法虽然还是很大壁垒,但我跟认可谁有数据谁说了算,谁在该领域获得最多的数据,这个领域就由谁主导。从这个逻辑BAT无疑最大的蛋糕获益者,那其他的创业者还有机遇,我只能说起跑线还在画,不用担忧到终点的问题。


    下一篇我们聊聊语音交互设计。欢迎有兴趣探讨的朋友加我微信:emcreater
    展开全文
  • 树莓派打造智能语音控制系统

    万次阅读 多人点赞 2019-08-17 21:36:58
    近几年,随着科技迅速发展,智能语音在现实生活中的普及率越来越高,特别是语音识别、语音合成、语音对话、语音控制等方面。树莓派的智能语音控制系统,该系统使用麦克风对语音进行采集,通过调用语音识别云服务对...
  • 智能语音,即智能语音技术,以语音识别技术为开端,是实现人机语言的通信,包括语音识别技术(ASR)和语音合成技术(TTS)。智能语音技术是最早落地的人工智能技术,也是市场上众多人工智能产品中应用最为广泛的。 ...
  • 智能语音)对话系统架构研究

    千次阅读 2018-05-30 10:51:24
    本文所谈及的架构主要指使用已有的智能对话服务来搭建一个应用系统,而不会深入的探讨智能对话服务内部的架构。智能对话系统的需求目标 智能对话系统可以提供回答问题的能力,即在理解自然语言的基础上,解答用户...
  • 浅谈人工智能 | 语音识别面面观

    千次阅读 2018-09-30 13:46:22
    随着人工智能智能助手(如亚马逊的Alexa,Apple的Siri和微软的Cortana)的崛起,语音识别已经得到了广泛应用。 语音识别系统使消费者只需通过与之交谈即可与技术进行交互,从而实现免提请求、提醒和其他简单任务。...
  • 2017年智能语音应用专题分析

    千次阅读 2017-06-04 23:37:20
    定义:什么是智能语音智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。 范畴:研究对象是什么? 研究对象为智能语音技术在智能家居、智能车载和智能可穿戴设备的应用...
  • 快速打造一套可以语音控制的智能家居系统   随着智能家居产业的蓬勃发展,照明、安防、工控等主要制造商已经推出多款智能家居产品,通过无线传感技术来增加使用舒适度。但因消费端需求逐渐成熟,集中控制和语音...
  • 智能音箱(手机人人必备,不接受反驳)作为接触智能语音入门首选。什么样的表现才称得上智能呢,就跟着测评君的专业测评一起看吧。使用智能语音音箱的第一步就是用语音唤醒它!跟人交流一样,想与某人沟通...
  • 0 语音识别概述 1 1 语音识别的算法 2 1.1.1 DNN-HMM 2 1.1.2 RNN-CTC 3 1.1.4FSMN 3 1.1.5 LSTM-DNN电话交谈语音识别 3 1.1.6Android科大讯飞语音识别...2.1语音识别的智能家居框架 4 2.2移动端的使用 5 2.3
  • 智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括...
  • 智能音箱”技术详解

    万次阅读 2018-05-31 20:44:14
    如今智能语音控制特别火热,智能音箱、汽车、手机……君子动口不动手,下面讲讲如何实现“动口不动手”?语音控制的流程声音采集—>降噪—>语音唤醒—>语音转文字—>语义理解—>...
  • 自己目前没有做过自然语言处理,语音语义识别测试,本文为听一场语音语义识别测试分享学习所得,以及网上学习资料整理。 语音识别测试 主要考虑距离、噪声、不同手机机型或硬件、不同网络 噪音干扰识别...
  • 智能语音助手的工作原理是?先了解自然语言处理(NLP)与自然语言生成(NLG) 语音助手越来越像人类了,与人类之间的交流不再是简单的你问我答,不少语音助手甚至能和人类进行深度交谈。在交流的背后,离不开自然语言...
  • MT7628实现Amazon alexa语音控制

    万次阅读 2017-07-04 18:12:07
    最近随着语音智能化的迅速发展,亚马逊Echo的推出进一步掀起语音控制热潮,苹果也着力重视发力完善siri语音助手并开发一款类似于亚马逊Echo的智能家居设备。但不论是Amazon Echo还是Apple Siri所推出的硬件产品都是...
  • 智能聊天对话机器人的对比

    万次阅读 2018-12-19 10:17:10
    陪聊机器人哪家强?小冰、小娜、小度,小i还是sir. 小冰、小娜Cortana、Siri、腾讯小鲸、出门问问、科大讯飞、度秘、QQ群qq机器人……哪家...天猫精灵方糖/小度智能音箱/小爱/小米音箱mini对比,你更爱哪款?_ZNDS...
  • 本文首发在——easyAI——人工智能知识库 小白版本 语音合成就是让机器模仿人类说话。即输入一段文字,最终输出一段语音。 做个比较,当机器的“脑子”里想到了一段内容时,或者是看到了一段话时,知道哪些字应该...
  • 人工智能语音如何实现?

    万次阅读 2017-09-19 19:32:02
    语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的...
1 2 3 4 5 ... 20
收藏数 93,785
精华内容 37,514
关键字:

智能语音