精华内容
下载资源
问答
  • 语音 AI 技术简介
    千次阅读
    2021-07-18 13:01:55

    语音 AI 技术(e.g. 语音识别、语音合成)是人工智能重要的研究和应用方向。但是,不同于 CV、NLP 等“显学”,语音相关的从业人员(学界和业界)相对较少,语音领域的学术会议和期刊影响力也比较有限。

    语音 AI 是一个多学科交叉的技术方向,涉及到信号处理、语言学、语音学(e.g. 发音规律)、心理学(e.g. 听觉感知)、传统机器学习以及深度学习等。近几年,随着深度学习的快速发展,语音也大量借鉴 CV、NLP 等领域的方法和成果。

    鉴于此,我们简要梳理了语音 AI 的主要技术及应用场景。一方面,希望能够吸引更多不同专业背景的同侪投身语音AI领域;另一方面,希望能对有志于学习语音技术的同学提供一些帮助。欢迎有兴趣的同行或同学私信交流。

    1. 技术方向

    语音 AI 包括了一系统相关的技术,下面对其中的若干重要方向进行简要介绍。(一篇旧文,介绍了语音算法在智能音箱中的应用,感兴趣的读者也可以参考。)

    1.1 语音识别

    1.1.1 ASR

    语音识别(Automatic Speech Recognition, ASR)是将语音信号转换成对应文本的 AI 技术。大词汇连续语音识别(LVCSR)的技术突破开始于 20 世纪 80 年代,此时隐马尔可夫模型(HMM)被用于建模语音信号。早期使用高斯混合模型(GMM)对发音分布进行建模,这种方案称为 GMM-HMM 系统。
    基于 HMM-GMM 的技术方案在 20 多年前已经发展成熟,其中 HTK 为集大成者。Kaldi 后来居上,基本终结了这方面的学术研究和工程开发(欧洲、日本有团队使用其他类似但比较小众的工具)。
    基于人工神经网络(ANN)的 ASR 研究几乎与 GMM 方案同时开展,但由于早期各方面条件不成熟,没有能够成功应用。2009 年前后,深度神经网络(DNN)被重新引入声学建模,并取得了突破性的进展。相关成果在 12 年被 Google、微软等 5 家主流研究机构共同报告,ASR 进入深度学习时代。使用深度神经网络做为声学模型的方案称为 DNN-HMM 系统,通常也称为 hybrid 系统(建模过程中混合使用了 GMM-HMM 相关技术)。

    GMM-HMM 和 DNN-HMM 都属于传统的语音识别系统(conventional ASR),它们由若干独立模块组成:前端模块、声学模型、发音辞典、语言模型和解码器。端到端(End-to-End)语音识别方案则希望将各个模块统一起来,由单独的神经网络进行联合建模与优化。

    端到端建模是也深度学习领域的圣杯。目前主流 CV 和 NLP 任务,以及声纹认证、声学场景分析等较简单的语音任务目前基本都是以端到端方案为主。语音识别、语音合成、语音信号处理由于问题本身的复杂性,目前还处于传统方案和端到端并存的阶段。虽然端到端未来能否完全取代传统方案,目前仍存在较大的争议,但一个基本的实事是,端到端是当下研究的主流,在很多场景也展现了显著的性能优势。

    早在 2014 年之前,学界和业界就开始了端到端 ASR 方案的探索。从识别效果上, 18 年前后离线端到端系统基本达到可用水平。19 年后,端到端成为学术研究的主流。目前学术会议上已经很少能看到传统语音识别的相关工作了。
    目前,端到端 ASR 有三种主要的实现方案——CTCTransducerAED(Attention-base Encoder-Decoder)

    1.1.2 关键词检索

    关键词检索(keyword search),可以看作是语音识别的特例。不同的是,在检索任务中,我们关注特定的关键词的检出效果,因此在技术手段上和语音识别有比较显著的差异。
    随着智能音箱以及手机语音助理的普通,语音唤醒(wakup)技术日渐为人熟知。唤醒在有些文献中也称了 keyword spot 或 hotword spot。对设备呼喊相应的唤醒(如百度音箱的“小度小度”),设备即能被激活并响应用户的需求。

    因此,识别相关技术的应用中,通常都会需要 VAD(Voice Activity Detection)模块进行配合。VAD 也称静音检测,其作用是检测出音频中的非语音片断并进行过滤。一方面可以减少后续识别等模块的计算量,另一方面也可以减少引入大量非语音而造成的误识别。

    1.2 语音合成

    语音合成,即 TTS(Text-To-Speech),是语音识别的反向任务。TTS 将给定的文本转换成相应的音频,以供播放。

    1.2.1 基本技术

    TTS 主要有三类方法:参数、拼接以有端到端。

    参数方法合成的语音自然度比较低,机械感明显。但参数方案的资源占用可以做到非常小,因此,在设备端依然存在大量的需求。

    拼接方法顾名思义,是将音库中的语音片断拼接起来,生成目标语音。基于拼接可以合成高质量的语音,但缺点是开发流程复杂,对音库质量要求较高。目前拼接方法基本被端到端方法所取代。

    端到端方法是将 TTS 传统的前端(TN、时长模型、声学模型)和后端(声码器)分别用神经网络建模。

    前端主流的方案包括 tacotron 系统 和 fastspeech 系统等。后端(神经声码器)觉的方法用 WavNet、WavRNN、LPCNet、MelGAN、HifiGAN 等。

    1.2.2 应用方向

    随着技术的发展,TTS 已经不限于简单的播放语音,而是有了越来越多样的场景需求。
    例如,在电子书阅读、虚拟助手等场景,对合成语音的情感表达愈发重视。
    另外,用户对于个性化语音合成的需求也越来越强烈。这就涉及如何利用小样本、低音质的数据进行模型建模的技术问题。

    此外,歌曲合成也是语音合成的一个应用方向。

    1.3 声纹技术

    笼统而言,声纹技术(voiceprint)是一门分析语音/音频中特定属性的技术。

    1.3.1 说话人识别

    说话人识别是一项最常用的声纹技术。在说话人识别任务中,算法需要对比录入语音与注册的语音的相似度,从而判断说话人的身份。典型的应用是微信的数据声纹锁。

    1.3.2 声纹检索

    声纹检索是说话人识别的扩展。上述说话人识别是 1:1 的认证任务,即只需要判断目标语音是否是给定的注册语音属于相同的说话人。而声纹检索是 1:N 的认证任务,即需要从大小为 N 的注册声纹库中挑选出最相似的说话人或都判断不在声纹库中(即集外)。
    声纹检索可以应用在刑侦领域,用于大规模的嫌犯筛查。

    1.3.3 属性识别

    语音中往往包含了说话人的一些生理属性,如性别、年龄等。这些属于可以通过声纹技术来进行识别。

    1.3.4 声学场景分析

    对于非纯语音的音频内容(例如短视频),有时需要对涉及的具体场景进行分析,以便分门别类进行处理(例如,语音片断转发给 ASR 进行转写;涉黄内容进行屏蔽)。这就涉及声学场景分析(acoustic scene ananlysis)。简单而言,通过声学场景分析,我们需要确认在何时发生了何种声学事件。

    1.4 语音前端处理(语音信号处理)

    人们的工作和生活都是处于极其复杂的声学环境中,人与人之间的交流以及人与机器之间的交互都会受到噪声、干扰等多种因素的影响。语音作为各种语音类应用的入口,通过各种算法对音频信号进行处理,消除录音设备和环境等带来的影响,使得处理后的信号更能反映语音的本质特征,为语音类应用的效率和用户体验提供保证。

    1.4.1 主要问题

    语音前端处理面临的问题,大致可以分为四类:
    (1)回声:扬声器播放的声音又被麦克风拾取了。相应的处理方法有回声消除、回声抑制和回声控制等。
    (2)混响:声音除了从声源直线传播到麦克风之外,还会经过各种反射到达麦克风。响应的处理方法有混响消除和混响抑制等。
    (3)干扰:通常指非目标的其他人声。相应的处理方法有波束形成、盲源分离和声源定位等。
    (4)噪声:除回声/混响/干扰之外的非目标声音,多数情况下指代的是各种各样的环境噪声。相应的方法有降噪/增强、噪声控制和有源噪声控制等。

    1.4.2 应用场景

    实时音频通话

    包括传统电话、视频通话、电话会议等。在音频通话场景,信号处理主要是用于提升语音的可懂度和听感。音频通话相关的语音前端,最重要的要数经典的3A算法,即:
    AEC——声学回声消除,解决通话过程中扬声器播放的声音又被麦克风采集到,导致远端说话人听到自己声音的问题;
    ANS——自适应噪声抑制,解决通话过程中声音被环境噪声所污染的问题;
    AGC——自适应增益控制,解决声音忽大忽小的问题。

    语音交互

    包括语音助手、智能客服和各种类型的语音控制系统等,主要服务于语音识别/唤醒/说话人识别/情感识别等。相对于通话,语音交互通常会面临更为复杂的声学环境,为了提升语音质量,很多产品采用麦克风阵列作为音频输入硬件,相应的就需要有麦克风阵列相关的语音前端处理算法,典型的有波束形成/盲源分离/声源定位等。

    录音
    包括集中式的会议录音器、分布式会议系统、录音笔、监控系统的录音部分、以及一些特制的录音器件等,这部分应用一般是后期对语音做处理分析,所以对实时性要求比较低,甚至一部分可以做纯离线的处理

    其他
    对实时性要求绝高的场景,像助听器的信号处理,对处理延迟的要求极高,需要达到10毫秒或者更小。扩音系统的音频前端处理,需要处理啸叫等问题。多模态处理,包括音视频结合、麦克风+骨传导传感器、声学麦克风+光学麦克风等。

    2. 专业技能

    下面介绍语音算法研发过程的用到的一些专业技能。虽然列了很多点,但依然不太全面。具体到某个特定方面(如说话人识别),可以并不需要所有这些技能,而且不同技能的熟悉度要求也不尽相同(有些可能仅仅要求能看懂)。

    2.0 CS 基础

    基础知识:计算机组成(体系结构)、算法设计与分析、设计模式
    编程语言:c/c++、python、cuda、perl(目前用的非常少了)
    Linux 系统基础操作:shell、vim 以及 awk、sed 等
    基础工具:gcc、cmake(bazel)、git

    2.1 机器学习相关

    基本的机器学习知识,详见下面的阅读清单。
    训练框架:pytorch、tensorflow
    推理库:libtorch、onnx-runtime、tf-serving、tensorrt、mkl、mkl-dnn(one-dnn)

    2.2 语音相关

    语音信号处理:特征提取(fbank、mfcc、LPC)、3A 算法,以及下面的阅读清单。
    工具:kaldi、openfst、srilm、sox、ffmpeg

    2.3 工程相关

    深度学习的发展,端到端方法在语音 AI 的各个方向都成为不可忽略的力量,在特定方向上甚至完全取代了传统的方法。方法的革新必然带来研发范式的变化。
    高效的训练工具是处理海量语音数据的基础,因此大规模分布式系统(CPU 集群、GPU 集群)的使用,训练速度的优化(分布式优化、算子实现优化,乃至算法和硬件的协同设计 ),是工业界语音 AI 开发的前提条件。而高效的部署(模型压缩、计算图优化、跨平台支持)对于实际落地也非常重要。

    因此,强悍的工程能力是未来在语音 AI 取得成功的越来越重要的因素。

    3. 阅读清单

    3.1 领域会议

    3.1.1 旗舰会议

    • ICASSP (International Conference on Acoustics, Speech and Signal Processing) 是 IEEE Signal Processing Society 组织的年度盛会。今年的会议于 21 年 6 月在加拿大多伦多举办(因疫情改为线上)。值得注意的是,ICASSP 有相当数据的论文是与语音无关的。
    • INTERSPEECH()是由 International Speech Communication Association(ISCA) 组织的年度学术会议。21 年的会议将在 8 月底在 捷克布尔诺举行。

    语音相关的重要进展也散见通用的 AI 会议(e.g. ICML、NeuriPS)。另外,语音能从研究更加活跃的 CV、NLP 领域汲取宝贵经验,因此,这些领域的重要会议也可以积极关注。

    3.1.2 其他会议

    • ASRU (Automatic Speech Recognition and Understanding Workshop) 是 IEEE Speech and Language Processing Technical Committee 组织的研讨会,每两年一次(和 SLT 交替举办)。最近一次会议会将在 21 年 12 月哥伦比亚卡塔赫纳市举办。
    • SLT (Spoken Language Technology Workshop) 是 IEEE Speech and Language Processing Technical Committee 组织的研讨会,每两年一次(和 ASRU 交替举办)。最近一次是 21 年 1 月(举办地为深圳,因疫情改为线上)。

    3.2 旗舰期刊

    • TASLP (IEEE/ACM Transactions on Audio, Speech, and Language Processing)

    和大多数 AI 领域一样,期刊由于时效性不高,因此相对而言参考性不是太大。

    3.3 书籍

    3.3.1 ML基础

    1. Andrew Ng. Machine Learning (公开课).
    2. 李航(12). 统计学习方法(第一版).
    3. 李航(19). 统计学习方法(第二版).
    4. 周志华(16). 机器学习.
    5. Chris Bishop. (06). Pattern Recognition and Machine Learning.
    6. Goodfellow et al. (16). Deep Learning.
    7. Simon Haykin et al. (09) Neural Network and Learning Machine.

    3.3.2 语音相关

    1. Dan Jurafsky & James H. Martin (07, 17). Speech and Language Processing.
    2. 陈果果 et al. (20). Kaldi语音识别实战.
    3. Young et al. (06). HTK Handbook.
    4. Kaldi Tutorial.
    5. 俞栋 & 邓力. (16). 解析深度学习:语音识别实践.
    6. Huang et al. (01). Spoken Language Processing: A Guide to Theory, Algorithm and System Development.
    7. 王泉. (20). 声纹技术.
    8. Benesty et al. Microphone Array Signal Processing.
    9. Benesty et al. Design of Circular Differential Microphone Arrays.
    10. Naylor et al. (Eds.) Speech Dereverberation.
    11. Hänsler et al. (Eds.) Topics in Acoustic Echo and Noise Control.
    更多相关内容
  • 同行者语音助手.apk

    2021-05-26 12:00:36
    同行者语音助手适用于掌讯方案
  • 同行者语音助手(三个都要安装) 全局唤醒,没有语音唤醒的朋友可以安装,使用方便,解放双手,语音识别率高!
  • 同行者语音安装包.zip

    2020-03-30 21:59:04
    同行者语音助手,适合鼎微方案
  • 刷入后可增加同行语音3.6版,以及所需要的内置文件。 刷入同行会自动删除自带思必驰语音。 可微信定位和查看车辆行驶轨迹,车辆启动可微信通知 此版本已经解决偶尔开机同行都不随系统启动问题。 作者:一...
  • 同行者4.1.2.rar

    2020-06-12 18:01:20
    同行者语音助手最新4.1.2车机版,掌讯全兼容,按要求安装压缩包内4个文件,4个文件都要安装,安装完毕重开机
  • 刷入后可增加同行语音3.6版,以及所需要的内置文件。 刷入同时会自动删除自带思必驰语音。 可微信定位和查看车辆行驶轨迹,车辆启动可微信通知 此版本已经解决偶尔开机同行都不随系统启动问题。 作者:一...
  • 安卓语音控制,同行者语音安装包。含APK以及安装说明。
  • 同行者语音助手(全部都要安装) 全局唤醒,没有语音唤醒的朋友可以安装,使用方便,解放双手,语音识别率高!
  • txz语音主题包,可以切换自己喜欢的主题,很实用,车载导航必备,。切记一定要安装同行者APK
  • 直接安装版。语音助手
  • 掌讯3560全系语音助手增量包,此增量包在上一版3.6基础上更新主程序为3.6.3 全部应用提取odex预加载,启动更快运行更稳定。 直接刷入即可。把zip卡刷增量包放U盘根目录,车载设置-系统信息-安卓升级-即可。
  • 用TWRP刷入 修改自 一梦千年的增量rom
  • 车载语音助手

    2018-12-27 09:19:04
    t3车载语音助手,Android通用,包含设置及软件,激活词汇:你好,魔方
  • 加入高工智能汽车行业群(自动驾驶5群,车联网智能座舱3群,智能商用车群),加微信:...以语音交互为例,截止7月底,目前国内市场在售车型搭载语音识别功能的车型比例高达78.91%,近三年搭载率呈现快速上升趋势。不过...

    19f782d3a4cd1fa2710b46aa37e44c9e.png

    加入高工智能汽车行业群(自动驾驶5群,车联网智能座舱3群,智能商用车群),加微信:17157613659,并出示名片,仅限汽车零部件及OEM厂商。

    44078338798f19e80959a83fd0d9b573.png

    全球车载座舱交互领域又将迎来一轮新的变革。 尽管汽车自动驾驶仍处于“争议中”,但它很可能提前带动增强驾驶体验的市场需求。 以语音交互为例,截止7月底,目前国内市场在售车型搭载语音识别功能的车型比例高达78.91%,近三年搭载率呈现快速上升趋势。 不过,车载语音交互市场并非格局已定。一方面,不同厂家的识别率及用户体验参差不齐(不少车型只是为了弥补功能短板而简单粗糙地植入语音交互功能),另一方面,厂家的价格战已经打得火热。 去年,科大讯飞前装车载语音年出货量超过450万套(同比增长73.08%),营收2.67亿元(同比仅增长7.36%,远低于出货量增速),占公司整体业务营收比重3.38%(较上一年下滑)。 按照每台套价格测算,2018年车载语音前装价格约59.33元/台,较上一年价格同比下滑超过60%。 另一家全球车载语音供应商Nuance,去年(2018财年)车载业务营收2.79亿美元,每台套价格更是低至不到6美元。 激烈的市场竞争,也使得国内车载语音市场的玩家所剩无几,科大讯飞、Nuance、DuerOS、同行者、思必驰等等屈指可数。 但传统车载语音的粗放式发展已经走到尽头,两年前一些汽车制造商开始布局基于语音等多模态交互的智能虚拟助手,这对于语音厂商来说,既是机会也是挑战。 腾讯去年和梅赛德斯·奔驰等几家企业合计1亿美元投资了AI语音助手SoundHound,目前这家公司的汽车行业客户包括梅赛德斯·奔驰、本田、现代以及PSA集团。 SoundHound打造的下一代语音人工智能,将自动语音识别(ASR)和自然语言理解(NLU)结合到一个引擎中,使用DMU(深层语义理解),用户可以同时提出复杂的、多部分的问题并过滤结果。 刚刚上个月,SoundHound宣布与HERE合作,开发人员将能够通过利用全球地图数据和精心策划的位置内容,结合随时可用的位置服务(包括呈现、搜索、路由、传输和定位),提供精确、端到端跟踪和精确、实时和历史位置。 而在梅赛德斯-奔驰最新一代信息娱乐系统MBUX上就集成了基于云+车端混合技术的SoundHound的语音人工智能,能够学习和适应个人用户。此外,服务器上的软件模型学习新的流行词汇,并适应语言使用的不断变化。 这代表未来语音交互与车载更多感知数据的融合,从而提升用户体验并延伸语音产品的附加值。 在今年初的CES展上,全球车载语音龙头Nuance发布了新的Dragon Drive平台,不仅可以完成传统的语音识别、交互功能,同时还可以理解语音、眼睛和头部的动作和情绪。 语音和视线跟踪的使用也扩展到车辆之外。在模拟驾驶测试车的过程中,司机看着经过的一座建筑问:“那是什么建筑?”然后,建筑的细节信息通过透明屏幕显示在智能挡风玻璃上。 此外,系统还是提供一套类人的对话功能。例如,驱动程序可以在不重复初始命令的情况下说“打开窗口一半”,然后说“再打开一点”。 按照Nuance的官方说法,这些应用将很快出现在量产车上,而非“遥远的未来”。 对于车载业务的持续“纵深”作战,也意味着Nuance的整体架构需要作出相应的“应对调整”。 宝马即将于2021年推出的iNext电动SUV量产车首次搭载的多模态自然交互功能(搭载Nuance技术)允许驾驶员在不同的组合方式下,同时使用语音、手势和眼神与车辆进行交互。 从去年开始,Nuance筹备汽车业务分拆,近日正式宣布分拆成立汽车子公司Cerence Inc.,并将于2019年10月1日完成分拆,届时,沃达丰前首席执行官阿伦•萨林将出任首任董事长。 而首席执行官职位则有Sanjay Dhawan担任,其在2015年以来一直担任哈曼互联服务部门总裁和首席技术官。 随着分拆完成,Cerence未来将围绕声音、触觉、手势、情感和视觉的创新结合在一起(也就是行业内通常所称的“多模态交互”)。 从2011年开始,Nuance通过一系列的收购做大汽车行业业务,包括斥资1.025亿美元收购了文本输入公司Swype、2013年收购车载语音软件初创公司Tweddle以及自动化消息开发公司Varolii。 去年4月,Nuance以8,200万美元现金收购了一家专注汽车语音连接技术的Voicebox,其提供了用于各种应用程序和设备的后台语音技术。 收购Voicebox,意味着人工智能对话助手市场正在真正升温,而不再仅仅是传统的语音识别单一功能。Voicebox此前的汽车行业客户包括丰田、TomTom和菲亚特克莱斯勒。 市场希望有完整的对话功能,能够对用户所说的话进行语义分析,能够代表用户采取行动,能够进行多回合的上下文响应。 Nuance去年还宣布与人工情感智能方案初创公司Affectiva合作进一步实现汽车助手和车内体验的人性化。 作为首个多模态舱内人工智能传感解决方案,Affectiva的Emotion AI平台将与Nuance的Dragon Drive汽车助手平台集成,提供能够从面部和声音理解司机和乘客复杂的认知和情感状态,并相应地提供个性化语音交互的方案。 Emotion AI平台可以实时检测面部表情(包括打哈欠、闭眼和眨眼频率等)和情绪,扩大语音交互所需的上下文、情感和认知数据的广度和深度。 而这个趋势也是未来ADAS、自动驾驶与座舱交互的深度融合,在未来,上述解决方案有望解决与安全相关的应用场景。 在《高工智能汽车》看来,多模态融合是必然的发展趋势,未来的人机交互系统会更加智能化、理解用户的交互意图。 通过眼动跟踪和情绪识别,人机交互系统可提前感知用户的交互意图,叠加语音识别等交互模式,最终可以为用户提供一个高效、便捷、舒适的人机交互系统。 这也将间接改变未来智能交互软硬件供应商的市场格局,单一交互技术供应商将逐步被多模态融合方案商“卡位”,而OEM厂商对于融合交互方案的需求也会陆续显现。

    266a32f7314f210f1279707e79326bf7.png

    677a2446ec8367b02c01945a31c10127.gif

    b26ff2544b054895747c972a0da19b4d.png

    a9c69eaa21c5e5137cc83c1947be35f7.png

    c6180c30cef99ee2cfdbafa97b20d3df.png

    f42ba70c88cbb24178c7fd254bd8058b.gif

    展开全文
  • 在过去的20年时间里,车载语音交互被寄予厚望。从简单代替实体按钮和开关来控制车内其他功能,到为驾驶员及乘客提供更多交互服务,技术上的现实却是,语音交互并没有完全按照大家的期望表现出好的体验。到底是哪里出...

    5ff12ae9-381f-eb11-8da9-e4434bdf6706.png

    60f12ae9-381f-eb11-8da9-e4434bdf6706.gif

    加入高工智能汽车专业行业群(自动驾驶5群,车联网智能座舱3群,智能网联商用车2群),加微信:17157613659,出示名片,仅限智能网联汽车软硬件供应商及OEM厂商。

    61f12ae9-381f-eb11-8da9-e4434bdf6706.jpeg

    在过去的20年时间里,车载语音交互被寄予厚望。 从简单代替实体按钮和开关来控制车内其他功能,到为驾驶员及乘客提供更多交互服务,技术上的现实却是,语音交互并没有完全按照大家的期望表现出好的体验。 到底是哪里出了错? 开启第一个车载语音的真正大规模应用是2001年推出的宝马7系iDrive。除了中央旋转控制器,语音识别第一次成为人机界面的一个关键元素。 不过,iDrive和随后的其他汽车制造商推出的系统所面临的挑战是,语音识别不仅不能减少驾驶员的注意力分散,反而会使情况变得更糟,因为它的效果并不好。 众所周知,汽车座舱似乎是一个使用语音识别的好地方,但它实际上是最难实现语音识别的地方之一。任何一个在嘈杂的环境中进行过交谈的人都知道有多难。驾驶汽车时周围的噪音水平使准确记录驾驶员和乘客所说的话变得很有挑战性,如果系统听不到这些话,就无法解释其含义。 然而,在解决了和语音识别相关的硬件及软件问题,即使系统能听到,理解人类的语言变成了另一件更困难的事情。同时,汽车开发周期长、苛刻的环境条件,过去车规级处理器的处理能力也并不强大,直接的结果就是离线语音识别处理的难度大。

    63f12ae9-381f-eb11-8da9-e4434bdf6706.png

    直到2014年,当亚马逊推出一款名为Echo的全新概念智能音箱后,情况发生了一些变化。 作为一种家庭连接设备,Echo的特点除了是将智能语音交互技术植入到传统音箱中,最关键的是采用了过去类似iDrive和其他系统缺乏的关键功能或者说基础设施,就是云。 基于云端的语音服务,利用大型数据中心和几乎无处不在的宽带连接的强大功能,提供了比设备侧/车载计算更准确的单词识别功能。 同时,通过利用用户过去的查询历史、在线服务的链接、车辆的位置和方向、导航路线等数据,数字助理现在可以获得用户可能想要的关键上下文信息。 更重要的是,数据中心服务可以越来越多地从多单词语句中获得语义。基于云的系统现在可以识别几乎所有的单词,而不是识别几十个特定的单词或短语,从单词的上下文更接近于理解用户的意图。 尽管,目前绝大多数的语音公司都还没有能力进行真正的自然语言处理,但距离越来越近。所有这一切之所以成为可能,是因为汽车内置的更快的无线通信、更强大高效的计算和更好的麦克风等硬件配置。 类似阵列麦克风,现在也被越多越多应用到汽车中,并与改进的噪音处理(比如降噪)相结合,以更好地捕捉司机和乘客的声音。阵列麦克风甚至可以区分谁在说话,并根据需要区分优先次序。 不过,尽管无线运营商喜欢“吹嘘”自己的通讯能力覆盖范围,但它远未达到100%的完美,尤其是在偏远地区以及人群密集地区。 因此,仍然需要车载系统提供一些本地处理算法作为备份。 随着大多数新车的配置越来越高,制造商要想让自己与众不同变得越来越迫切。目前,车载离线语音识别市场也越来越饱和,销售增长将放缓。 而基于云端的数字语音助手为制造商提供了一种改善用户体验的方式,这仍然可以成为未来车载语音产品的一大特色,并根据需求的变化为新的服务和收入机会提供了一个平台。 这样的变化,也可以从一些汽车语音供应商身上看到。以全球车载语音厂商 Cerence(Nuance拆分独立)为例,去年四季度软件许可收入4080万美元(下降7.4%); 连接服务收入2300万美元(上升33.4%)。 从软件许可收入的下滑,到连接服务收入的增长,背后是汽车变得越来越像智能手机。传统离线语音识别的用户体验,正在被得到逐步改善。按照 Cerence的预测,云服务将汽车真正成为“轮子上的智能手机”。 目前,该公司每年的汽车语音收入在3亿美元左右。 比如,今年初,Cerence宣布正在与微软合作,将Cerence产品与微软连接车辆平台(MCVP)集成,通过语音平台和操作系统的互操作性在汽车上提供无缝连接的体验。 同时,各种形式的语音助手也为供应商提供了更多的获利机会。 Cerence在年初宣布推出ARK (AI参考工具包),这是一种全新的全钥匙解决方案,可以使汽车制造商快速开发、部署和管理语音助手。 通过ARK,Cerence 捆绑了核心语音助手功能,包括唤醒词、语音生物识别、自动语音识别、自然语言理解和文本到语音,并以一种开放、灵活和快速的架构交付。 按照计划,Cerence ARK将于今年晚些时候向中国市场客户进行交付,提供了三个版本级别—精简版、标准版和高级版,并附带三个关键组件—ARK Edge、ARK Client和ARK Cloud。 64f12ae9-381f-eb11-8da9-e4434bdf6706.jpeg 而云端能力对于车载语音的助推作用在于,可以非常容易地扩展处理能力。对于汽车制造商来说,车端计算能力的部署会有一定的限制。短期来说,一旦用户购买了一辆带有语音交互功能的车,基本上大多数车型的硬件能力是不太会升级的。 云计算的一个关键优势就是,可以随时满足各种新增的需求。而 5G的商业化,无疑可以将语音识别安全体验提升到一个全新的水平,从而改变目前4G通信存在的一些弊端。 事实上,下一代语音助手将成为车载交互的下一个战场,提供云处理(尤其是混合云)的新一代互联语音助手方案正迅速被各大汽车制造商采用。 比如,混合解决方案就是将本地芯片处理和云处理结合起来的解决方案,将把车载处理的安全性、速度和稳定性与云解决方案近乎无限的使用可能性结合起来,低延迟、高性能的5G移动网络很可能成为连接的主干。 车内语音技术在过去几年里已经取得了巨大的进步,但它还只是刚刚起步。 一些行业人士表示,同时具备在线和离线车载语音功能将成为未来几年的趋势。此外, OTA渗透率的提升,也进一步强化了嵌入式语音识别技术的能力迭代。 《高工智能汽车》认为,下一代语音助手将在影响市场竞争格局方面发挥关键作用。而作为语音交互方案提供商,也将面临商业模式的变革,从过去的单一软件许可收费转型在线服务提供,比如服务的按次收费模式。 毫无疑问,连通性是汽车行业数字化转型的核心推动者,驱动汽车即服务模式落地。当涉及到互联车辆和更广泛的互联应用时,任何对未来的低估都会成为遗憾。 65f12ae9-381f-eb11-8da9-e4434bdf6706.gif

    66f12ae9-381f-eb11-8da9-e4434bdf6706.png

    67f12ae9-381f-eb11-8da9-e4434bdf6706.png

    68f12ae9-381f-eb11-8da9-e4434bdf6706.png

    展开全文
  • 此包为掌讯9218C和9217C的同行者语音增量单刷包,3.6最新版。 刷入方法:将ZIP压缩包内的9218C-TXZ-3.6-ZL-ota-ymqn.zip放在U盘根目录,掌讯车机打开车载设置-系统信息-点安卓升级即可 U盘要求FAT32格式 本资源...
  • 汽车车机第三方语音助手 百度语音 车助理小芳 高德语音助手 高德语音助手(第3方) 思必驰声控20170918 同行者语音助手 语音魔方
  • 3560同行者3.6.3.zip

    2020-06-09 18:41:08
    更新主程序为3.6.3 启动更快运行更稳定 把zip卡刷增量包放U盘根目录,车载设置-系统信息-安卓升级-即可
  • 随着亚马逊推出了Echo智能音箱,率先让语音技术走进了消费的家庭,如今国内各大厂商也纷纷推出了自己的语音硬件产品,掀起了AI语音硬件的新风潮。其中,语音翻译机满足了境外旅游、商贸、教育等领域翻译场景需求而...

    随着亚马逊推出了Echo智能音箱,率先让语音技术走进了消费者的家庭,如今国内各大厂商也纷纷推出了自己的语音硬件产品,掀起了AI语音硬件的新风潮。其中,语音翻译机满足了境外旅游、商贸、教育等领域翻译场景需求而备受用户青睐。作为A.I.语音翻译品类的先行者,讯飞翻译机3.0“一手做基础、一手做差异”,旨在为用户提供极致的A.I.语音翻译体验。

      深耕智能语音技术领域长达20年的科大讯飞,积累了强悍的语音实力。语音翻译机的核心功能是语音翻译,此次讯飞翻译机3.0新版本采用全新四驱智能翻译系统,从语音识别、语义理解、语音翻译和语音合成四方面齐发力,大幅提升了复杂场景翻译的可靠性。

    cb477dd52ecf475b38c2d55458608b6e.png

      讯飞翻译机3.0在语音数量和口音翻译两方面都做了进一步优化,语音识别的适用性更高。讯飞翻译机3.0在支持中文与58种外语实时在线互译的基础上,还能识别更多国内方言和口音。讯飞翻译机3.0不仅支持粤语、东北话、河南话、四川话、山东话等五种中文方言翻译,还可以识别出7种外语口音,无论是普通话不标准还是遇到“不地道”的外国话,也能“说的清、听得懂”,大大降低了语音翻译机的使用门槛。

    3c20220356297368bb56a1afbd8152a6.png

      讯飞翻译机3.0拥有独家的“端到端”翻译模式和行业A.I.翻译官功能,使得语音理解的专业度更高。一方面,“端到端”翻译模式能够根据语义理解正确的翻译多音词和多义词,智能理解语义。另一方面,基于多年的行业翻译数据积累和专家知识,讯飞翻译机3.0新增电力行业翻译官功能,覆盖了医疗、法律、金融、能源、计算机、外贸、体育及电力等八大行业,专业词汇翻译更准确。

      讯飞翻译机3.0在语音翻译的可靠性方面也进一步优化,讯飞翻译机3.0搭载八核CPU科大讯飞自研INMT离线引擎,离线翻译更准确。目前支持中英、中韩、中日、中法、中俄、中西离线翻译,其中,中英离线翻译效果达到大学六级水平,即使在网络不行的环境中也能让你快速准确翻译。同时,讯飞翻译机3.0语音合成的自然度更高,语感自然、语速流程,实现更优播报听感,持续提升自然度。

    0992b9c907c214a7c2cba17a527c3ac9.png

      当然,好的产品不仅需要超越自己,更要领先同行。讯飞翻译机3.0的翻译速度最快能达到0.5秒的快速翻译,采用高性能的八核处理器和讯飞智能翻译内核,无缝式响应使得翻译速度更快,轻松实现“即说即译”。

    3f813f8157d822788255e0188947c5db.png

      更值得一提的就是,讯飞翻译机3.0支持WIFI、手机热点、蓝牙共享、SIM卡数据网络和机内直购全球上网流量卡5种方式轻松联网,即使在网络环境复杂多变的国外,也能让你轻松联网,实时在线。

      语音翻译机架起了不同语种间人们便利沟通的桥梁,已经成为日常交流、出国旅游、外语学习等方面不可或缺的助手。讯飞翻译机3.0在智能翻译领域持续发力,不断在差异功能上打造用户认识,带给用户“听得清、听得懂、译得准、表达美”的用户体验。

    展开全文
  • 智能语音方案比对介绍

    万次阅读 2017-07-05 11:16:34
    语音方案比对介绍语音交互是现今应用最多的智能交互方式,在人工智能越来越火的当下应用十分广泛,所以特别针对车内环境,在驾驶员安心...1. 语音唤醒: 能够通过唤醒词,唤醒语音助手,进行后续用户语义的识别,免去
  • 语音智能交互系统

    千次阅读 2020-10-27 16:46:19
    继科大讯飞、捷通华声之后,BAT、搜狗、思必驰、云知声、同行者等都纷纷入局,现在大多智能语音产品的语音方案不会超出以上范围,不过各家的语音方案都有不同的侧重,因此在对比横评开始前,我们还是先了解一下四款...
  • 同行者大会中,刘湘雯作为阿里巴巴云智能事业群战略与合作部总经理、阿里巴巴达摩院院长助理,为新一期阿里云MVP人工智能领域的5位MVP颁证。阿里云 MVP王瑞宾是人工智能方面的老兵,深耕企业信息化和司法领域的信息...
  • 与其它同类产品一样,有道的语音助手也会有智能问答、生活查询、智能翻译、日常闲聊、多语言理解,以及自然语言指令控制等功能。 7、雄安新区将优先布局新一代信息技术产业,2020年基本形成起步区产业布局框架 按...
  • 语音人工智能的征途,我在车载行业的这些年一.江湖浪子 今个,咱们来聊聊IoT领域的故事,因为我在车载行业也做了挺久,一直负责语音模块的开发,所以想分享一下,我的一些感想! 大学小毕业之后就一直漂流在魔都...
  • 语音识别双十一优惠活动

    千次阅读 2020-10-27 18:41:57
    产品体验 客户端 接入实时语音识别技术指引上线 了解更多 功能发布语音识别产品已开始支持上海话方言 了解更多 功能发布语音识别产品已开始支持上海话方言 了解更多 十年筑梦 伴你同行语音识别产品感恩回馈活动正在...
  • 概述灵犀云智能语音能力平台(下称“灵犀云”)是中国移动面向互联网开发者推出的智能语音应用开发交互平台,采用亚太地区最大的语音上市公司——科大讯飞研制的全球领先中文智能语音技术,免费向开发者提供语音合成...
  • 汽车智能网联的快速发展以及消费个性化需求增加,使得车载语音交互在车上的配置率越来越高,更是成为各大厂商智能化的重要卖点。与此同时,高度识别率及人工智能的发展令车载语音系统的开发者们早已不满足于语音...
  • 来源:AI科技评论AI 科技评论按:上一次你和你的电脑进行有意义的对话,并感受到它能真正地理解你,是什么时候?如果微软技术研究员、微软的语言语音小组组长黄学东博士做到了的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,012
精华内容 404
关键字:

同行者语音助手

友情链接: tcp_ip.rar