精华内容
下载资源
问答
  • 只好改用百度语音,百度语音所有功能免费,功能也比较简单实用,包括语音识别,语音合成和语音唤醒,正好可以组成一套完整的语音交互功能。 效果图: 首先是语音唤醒功能,说出关键词即可叫语音识别,唤醒成功会有...
  • 采用百度AI平台进行语音识别与合成,里面有我打包好的exe文件,附赠图灵机器人的一组api账号,有问题可以加我QQ咨询
  • 国家标准起草资料 国家标准 信息技术 智能语音交互测试 第1部分语音识别 征求意见稿编制说明 一工作简况 根据国家标准化管理委员会2020年下达的国家标准制修订计划国家标准 信息技术 智能语音交互测试 第 1 部分语音...
  • 基于人工智能语音交互的养老服务平台要求.pdf
  • 通过国内外车载导航系统的功能对比可知,支持语音交互是车载导航系统的一个发展趋势。另外,市场信息服务公司J.D Power and Associates的调研数据也表明,56%的消费者更倾向于选择声控的导航系统。因此,开发车载...
  • VUI语音交互设计 Voice User Interface Design: Moving from GUI to Mixed Modal Interaction Authors: Dasgupta, Ritwik Presents real-world applications to teach you the principles of VUI design and ...
  • GB∕T 36464.1-2020 信息技术 智能语音交互系统 第1部分:通用规范.pdf
  • 物联网( IoT ,Internet of things )即“万物相连的互联网”,基于语音交互、文字识别、人脸识别、人体识别、AR等多项AI技术,赋能软硬件教学产品,实现更好的人机交互的教学体验,用更低的师资成本获得高质量的...
  • 智慧家庭全屋分布式语音交互规范标准解读.pdf
  • 语音唤醒后,即可进行自由对话,但每次必须重新唤醒。注册科大讯飞账户后,下载语音唤醒,语义等服务,按txt文档所说导入必要文件并且修改appid,即可实现上述效果。
  • GB∕T 36464.4-2018 信息技术 智能语音交互系统 第4部分:移动终端.pdf
  • 百度语音交互体验蓝皮书,里面讲了很多关于语音交互体验的原则和案例,是难得的语音交互学习资料。
  • 基于科大讯飞的语音识别,实现对麦克风输入的语音实时录音识别为汉字,对应回答问题并合成为音频输出声音。
  • GB∕T 36464.2-2018 信息技术 智能语音交互系统 第2部分:智能家居.pdf
  • 20210118-国信证券-智能驾驶系列专题——全球车载语音交互龙头cerence(crnc).pdf
  • 科技行业先锋系列报告21:出门问问,深耕语音交互,布局智能硬件-20190318-中信证券-14页.pdf
  • 语音交互蓝皮书

    2018-08-13 11:35:39
    目前业界对手机端语音交互体验的研究还处在探索当中,没有系统梳理出 交互体验的规范。这份蓝皮书意在探索手机语音交互设计的规范,和更多的语音从业者(无论是产品设计者还是技术人员,抑或单纯对语音感兴趣的人士...
  • 小米,小爱语音识别和nlp在语音交互中的实践-王刚.pdf
  • GB/T XXXXX.2XXXX 附 录 A 资料性 主观体验测试 A.1 概述 根据不同场景/业务需求和不同使用者感受语义理解相关功能的效果会产生差异本附录给出了 人工主观体验测试的测试项和测试方法 A.2 测试项 A.2.1 平均对话轮数...
  • 人工智能语音交互技术在电力调控领域的应用.pdf
  • 再看语音交互设计

    千次阅读 2019-08-20 22:02:00
    声音一直是人与人沟通的核心,而今也成为了人机交互的核心——智能语音交互。早在2016年,google声称其搜素请求中有20%是通过语音完成的。但是,语音交互设计并不是新兴的技术,在20多年前老码农刚刚参加工作的时候...

    行动是最好的思维方式。

    赋能是人工智能对人类最重要的事情,而智能语音(例如DuerOS)正在为人机交互的方式赋能。声音一直是人与人沟通的核心,而今也成为了人机交互的核心——智能语音交互。早在2016年,google声称其搜素请求中有20%是通过语音完成的。但是,语音交互设计并不是新兴的技术,在20多年前老码农刚刚参加工作的时候就可能已经存在多年了。

    从IVR 系统看起

    交互式语音问答(interactive vocie response,IVR)系统的出现,代表了语音交互设计的第一个重要时期。它可以通过电话线路来理解人们的话,并执行相应的任务。早期的IVR系统中,需要为对话中的每个状态指定完整的语法规则。

    在设计IVR系统时,会确保每个状态都包含一组通用组件:重复、主菜单、帮助、操作和再见。除了允许用户的请求帮助,一个全局的“退出“机制也很重要。如果没有足够的上下文信息来帮助判断,系统就需要让用户来进行确认。如果系统存在一定的局限性,那么这时候就需要让用户来缩小范围。

    "提示"是指IVR系统对用户说的话,可以是一个或一些完整的句子,也可以是短语,比如数字、日期或产品。提示列表一般有以下几种用途:

    • 从配音者提供需要录制的文案列表

    • 从用户哪里得到确认

    • 为TTS引擎提供输入

    在IVR系统设计的时候,我们已经了解到了将已经收集到的信息传递给用户、通过恰当的提示以获得特定回应、通过日志信息分析和改进系统,以及设计人物模型。这些方法对于如今的智能语音交互同样有着借鉴的意义。

    从人们的交谈看语音人机界面(VUI)

    当人们愉快地交谈时,交谈中通常包含一些关键要素:情境感知(关注你和周围的环境)、关于之前交流的记忆,以及相关问题的交流。人们对计算机和其他技术的反馈所使用的社会规则和期望,等同于与人类交往时所使用的社会规则和期望。

    VUI 思考的是在系统和终端用户间,从开始到结束的整个对话过程,思考正在解决的问题以及用户需要什么来达成他们的目的。VUI需要进行用户研究来了解用户(对方)是谁,进而通过设计、产品原型和产品定义来描述系统和用户之间的交互行为。

    VUI 通常用于单轮任务。不用强迫用户展开新一轮对话,而是去尝试了解用户的意图并允许用户继续交互。一般来说,让用户来决定对话要持续多久。如果你不能理解答案,就不要提问。如何你设置了可以完成某项任务的预期,请务必考虑与之相关(对称)的任务。

    VUI有着独特的优点:

    • 速度

    • 释放双手

    • 直觉性,每个人都知道如何说话

    • 同理心,语音中包含了语气、音量、语调和语速,这些特征传达了大量的信息

    凡事有两面性,VUI同样有着不适用的场景,例如:

    • 公众场所

    • 某些人不适应与计算机对话

    • 一些人更喜欢文字沟通

    • 隐私性的内容

    VUI往往是线性的,无法跳过。由于功能是不可见的,难以让用户通过视觉的方式来探索功能, VUI设计的主要挑战之一就是教育用户,告诉他们能做什么。

    VUI 可能的设计输出

    对于一个VUI项目而言,例如基于DuerOS的技能,其设计的交付内容可能包括:

    • 示例对话(可能包括真实的录音,特别是使用配音演员时)

    • 流程图

    • 提示列表(如果使用了配音演员或语录的语音合成片段)

    • 界面原型(如果这是一个多模态的应用)

    示例对话是第一要素,一般可以挑选5个最常见的使用场景,然后为每一个场景写一些最优路径的示例对话。

    流程图是用于展示VUI系统所有可能发生路径的图示,详细程度取决于所设计的系统类型。

    对于有屏设备而言,例如小度在家,线框图和原型在早期设计流程中也是非常重要的。

    VUI 的原型工具和传统的产品设计工具例如Azure 有些不同,国外的工具有wit.ai,dialogflow.com等,我们可以是百度UNIT平台作为对话的原型工具,当然,DBP平台的自定义回复功能,同样可以作为一个简单的原型工具。

    语音交互设计的原则

    保持用户参与度是最高原则,VUI设计应该围绕如何让用户进入下一步来进行,如果某些信息当前还用不到,就不要问用户。

    Paul Grice 于1975就提出了4个关于交互的合作准则:

    准则名称 内涵 错误用法 
    质的准则 所说的话需是自己相信的真实信息 宣传一件你做不到的事。例如,对用户说“有什么可以帮助您的”,而实际上整个VUI系统仅仅能够提供酒店预定服务
    量的准则 所说的话需满足交际中所需的信息量,但不应超出交际所需的信息量 多余的措辞。比如“请您注意听,应为我们的选项可能已经变了”(谁会想“啊,太棒啦!谢谢你告诉我”?) 
    相关准则 所说的话需与当前对话相关 给用户一些用不到的指示。比如在用户还没有下单的时候就开始解释退换政策 
    方式准则 说话需清晰,明了 使用用户难以理解的专业术语 

    对于无屏设备而言,DBP平台也给出了一些设计原则,例如:

    1. 保持简短,语音是短暂的、瞬变的、线性的。

    2. 保持自然

    3. 提供反馈

    4. 为解决歧义而设计

    5. 支持修正

    6. 注意时间的重要性

    7. 注意列表的困难性

    8. 注意文本转语音的局限性

    VUI设计中的确认策略

    在VUI设计中,最重要的是对用户问话的意图确认,也就是说,系统要向用户确认是否真正理解的是用户的意图。在决定VUI的确认策略时,要利用好能利用的一切感知通道,还要考虑:

    • 错误的后果是什么?(会预定错误的航班么?钱会被转移到错误的账户么?旅行者会听到错误城市的天气预报么?等等)

    • 系统将以什么形式进行反馈?(会有音频提示么?会有非文本的视觉反馈么?)

    • 会有一个小屏幕的显示反馈么?如智能手表或者手机中的弹窗

    • 以什么形式来确认是最合适的?(明确的确认还是隐性的确认,或者混合式的确认?)

    在确认用户的意图的时候,一般有以下几种策略:

    策略一:三级置信度

    系统在一定的阈值内(例如,45%~80%),以明确的形式确认信息,拒绝较低置信度的信息,并以隐性确认来确认超过80%阈值的信息。

    策略二:隐性确认

    连同原始问题的一部分一同回复,让用户知道系统识别到了用户的问题。

    策略三:非语言式确认

    仅使用行动进行反馈,尤其对智能家居的技能。

    策略四:通用确认

    通常应用于与用户进行开放式聊天的对话系统。

    策略五:视觉确认

    人类的记忆能力是有限的,通常用户一次性不能记住超过大约7个听觉项目。语音交互界面稍纵即逝的特征,明显为用户提出了很高的认知要求,所以使用视觉确认在很多情况下利大于弊。

    在隐性确认的情况下,可能需要允许用户取消或者后退一步。

    VUI中的语境

    语境意味着系统需要知道对话相关的信息是什么,并且知道之前发生过的对话内容。离开了语境,就不可能理解话语背后的意义,对于语音交互设计而言,最重要的一点就是能利用已知的对话,可以针对以下情况结合人工智能和情感分析进行反馈:

    • 用户的行为

    • 用户的无行为(迟钝)

    • 用户过去的行为

    • 用户的一系列行为

    • 用户所处的实际时间和空间

    • 不同使用者所处情境与行为的比较

    运用情感分析可以使VUI更智能,更具有同理心。在一段文本中对表达的观点进行定义和归类,可以用于确定用户对某一特定主题、产品以及其他内容的态度是肯定的、否定的还是中性的。情感分析的关键原则:宁求稳健,不愿冒险。

    关于多轮对话

    多轮对话,是VUI设计中的一个难点,因为用户的语音输入往往是不可控的。最简单和最自然的话术转换技巧就是“问一个问题”,当然,不要问那些你都无法理解对应答案的反问句。

    对话式中的某些关键词是让用户了解交谈进展以及进展情况的重要方式,包括以下三个方面:

    • 时间线(首先,完成一半了,最后等)

    • 接收回执(谢谢,知道了,好的,以及 很抱歉等)

    • 积极反馈(不错,干得好,很高兴听到这个消息等)

    在多轮对话中允许用户打断系统非常重要,但需要注意:

    • 最好不要使用系统打断功能

    • VUI说完后,需要进入“倾听”模式

    • 轮到用户说话时,最好有视觉指示器

    • 一个明显的提示,提示用户轮到他说话了(问一个问题或指令,如“能详细说一说么”)

    对话管理就是系统对既往会话中已产生的信息,以及在后续对话中所需要的信息进行管理的行为,在DuerOS中的对话管理由Dialog 和Session表示。只要问题与问题之间看起来是相关的,并且用户觉得问题能一步一步得到解决,用户可以容忍很多问题。

    关于可视化反馈

    交互方式正在从单纯的视觉、硬件交互转化为多感官综合的交互,这种交互模式的本质是“关系”。VUI无疑是最重要也是最自然的交互通道之一,但不要为了使用语音交互而使用语音交互。

    在某些对话系统中,显示用户所说的内容反而会分散用户的注意力,有时甚至留下负面印象。

    在某些情况下,让用户看到自己在说话可以提升参与感,可以考虑让用户控制是否开启这个功能。在DuerOS的有屏设备中设计多模态技能时,一般的VUI超时设置就不再适用,但还是需要记下app中用户长时间未应答的位置,因为在那里很可能有一个潜藏的问题,会造成用户困惑或让用户不愿意进行回复。

    VUI可以不使用虚拟形象,而使用抽象的可视化图像进行反馈。

    多通道、全链路、多角色,以及去中心化成为了设计的主旋律。允许用户同时使用语音和屏幕进行交互,是一种多模态界面(multimodal interface)。可视化组件可以让用户更从容地进行交互,视觉和语音的协同设计非常重要。

    关于容错处理

    任何时候都不要责怪用户,将错误归咎于系统是设计原则。下面在VUI可能出错的几种情况:

    • 未检测到语音

    • 检测到语音,但没有识别

    • 语音被正确识别,但系统无法处理

    • 部分语音识别错误

    人有许多方法来表明他们还不理解对方所说的话,最常见的(有效的)方式之一就是什么都不说。对于ASR工具识别错误的问题你并做不了什么,但可以通过N-Best列表和真实用户响应的数据分析来构建这类问题的解决方案。N-Best 列表 是一系列用户可能说的内容,并根据(通常是前5个或前10种可能)或按置信度排序。

    如果用户会定期使用你的系统,那么在设计中就需要包含一个不同的策略。VUI系统的目标不是简单地“训练”用户,而是应当适应用户的行为。当用户给出的答复对下一段对话内容并不重要时,可以设置一个通用的答案,也可以让用户知道,其他人也讲听取他们的答案。当发生歧义时,设立一个公用的列表,并通过进一步的询问来确认用户的真实意图。

    对于儿童类语音应用,整个交互流程不需要系统100%完美理解用户说的话就可以继续执行下去,最好能够提供图形化的选择。

    虽然处理否定词需要做些额外的工作,但一旦忽略它们就可能要付出高昂的代价。

    再看虚拟角色

    当人们知道他们是在和一个“机器人”说话时,会更加宽容。VUI系统的目标可能不是让人们误以为它是一个人,而是以高效、易用的形式,解决用户的问题。但是,没有人格的语音用户界面是不存在的。用户会通过应用的语音以及语言选择,推断出的人格或角色的标准化心理形象。

    因此,在考虑一个虚拟角色的时候,思考其背后的人格更加重要。在人格设计时,可能需要考虑:

    • 会让用户问虚拟角色自身相关的问题么?(例如:你最喜欢什么颜色?)

    • 如何处理粗鲁和粗俗的行为?决定如何对待辱骂性语言,对任何一支正在处理此问题的团队而言都是非常重要的。

    • 是否介意打破用户把VUI看作人类?

    一般的, 用文本列出药物时很好的选择,动画图解用于设备的使用说明非常有效,虚拟角色则有利于建立亲密关系。建立用户对虚拟角色信任感的方法是,适时遵循人类对话的惯例,保持用户意识错觉的建议:

    • 使用传达亲密感的对话

    • 确保虚拟角色在与不同用户交互式行为恰当

    • 确保对话看起来永不重复

    • 注意同时在线的用户数量

    • 注意用户的性别

    • 确保对话的表现是天衣无缝的

    • 当用户输入不能被识别时,避免虚拟角色的出现

    讲故事和参与式活动是使用虚拟形象的绝佳场景,使用真实的面孔是一种极好的吸引用户参与的方式,但成本也非常高。

    对一个成功的语音交互来说,虚拟形象并不是一个必要条件。但是,如果应用需要处理更敏感的话题(比如情绪或健康)时,务必识别出这些场景并妥善处理。人物模型的一致性使人们能在与它们沟通时得以预测接下来会发生什么,理想情况下,与其提高不同的声音或不同的虚拟形象,不如提高不同的人物模型,并且这些人物模型包含了不同的视觉和音频组件。

    凡事有两面性,人物模型的个性越鲜明,用户反应也会越极端。

    VUI的调研与评估

    VUI是持续演进和迭代的,可用性专家Jakob Nielson 推荐选择5名用户进行测试,他的研究发现,5人以上的测试并没有额外的益处,随着测试人数的增加,ROI会一落千丈。

    调查问卷的问题一般包含7个不同的维度:准确性,概念,建议提供(内容),易用性,会话的真实性,用户的好感度和视频流。受试者倾向于给出正面的回答,特别是在面对面的访谈中,大多数人会表现的更加友善,有时会对提供消极的反馈犹豫不决,也可能会夸大事物的积极面。受试者自己通常不会意识到这一点,但一个优秀的访谈者可以处理这些问题。在访谈过程中,用户应该可以从举行测试的人那里得到大量的线索。

    VUI测试有5个关键的衡量指标:准确性与响应速度,认知程度,清晰/混乱,友好度和声音。效果评估的指标可能包括:

    1. 任务完成率

    2. 流失率

    3. VUI的使用时长

    4. 语音打断

    5. 观察交互模式的占比:语音与GUI

    6. 高频次超时无应答和无内容匹配

    7. 延迟

    8. 完整的呼叫记录

    VUI的关键测试之一在交易式语音应答系统(IVR)中被称作“对话遍历测试”(Dialog Traversal Testing, DTT), 坚持完成,用户会感激你的细致和周全。大量的无语音超时式是提示语混乱的标志,当重现多模态App的对话是,展示屏幕交互也是非常必要的。

    其中性能在VUI项目的用户体验中占有重要的地位,一般地,延迟产生的原因有糟糕的连接性能 、系统处理进程和数据库访问等。关于智能语音系统的性能优化,可以参考智能音箱场景下的性能优化

    总之,语音交互设计的结果使得交互是省时、高效的,能够使用上下文语境,优先考虑的是个性化,而不是所谓的“个性”。

    参考资料

    • Cathy Peral(2018),Designing Voice User Interfaces:Principles of Conversational Experiences

    • Neilson,J(2012),“How Many Test Users in a Usability Study?”,https://www.nngroup.com

    • https://dueros.baidu.com/dbp

    • https://developer.amazon.com

    关联阅读

    展开全文
  • 解构语音交互产品--认知篇

    千次阅读 2019-10-22 16:20:52
    什么是机器人bot2.GUI、VUI与CUI二、语音交互产品主要应用场景1.家居场景2.车载场景3.随身/移动场景4.办公场景/企业应用三、VUI设计的相关问题1.为什么使用VUI2.不适合使用VUI的场景有哪些四、VUI设计的挑战1.“无...

    一、基本概念

    1.什么是机器人bot

    机器人是一个对话式界面,这种新的用户界面允许用户通过移动应用或设备与服务商互动,以获得产品和服务。
    关于机器人的一个常见的错误观点是“机器人就是一种服务”,而其实它只是服务的一个界面

    2.GUI、VUI与CUI

    1)GUI, Graphical User Interface, 图形化交互,自从80年代苹果推出第一款搭载GUI的电脑后,至今为止GUI一直是人机交互的代表。它为用户提供可视化的界面,将内容信息通过视窗、菜单、标签、按钮等控件以图形方式显示给用户。

    2)VUI,Voice User Interface,语音交互/语音用户界面。语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。
    VUI的发展有两个重要时期:

    • VUI第一时期:交互式语音应答IVR系统代表了VUI的第一个发展时期,它诞生于70年代并在2000年普及。主要是通过电话线路理解人们的话并执行相应任务。
    • VUI第二时期:我们正在处在的时期是VUI的第二时期,人们通过自然语言与计算机进行交互,主流的语音产品有结合视觉和语音的app,例如苹果Siri、微软Cortana等,除了这类手机语音助手,还有很多APP(例如搜索、地图、购物、输入法、视频游戏等)和设备(例如汽车、智能手表、手环等)都可以应用语音交互。还有以语音为主的设备,例如Amazon Echo、Google Home这类家庭助理。下文会有关智能交互产品的一些案例介绍。

    3)CUI,Conversational User Interface,对话式交互。跟语音交互相比,CUI的范畴更宽泛。但是没有语音过程、只有文字的对话交互流程,可以称为CUI,但是不能称为“语音”交互。一些不适合使用语音作为交互方式的场景,比如开放的办公场景,通常采用基于文本或其他非音频的富交互/富控件来进行对话。

    4)多模态交互(VUI+GUI)
    将视觉和语音结合已经不是新鲜事,比如手机语音助手类产品,而智能音箱类设备也是从开始的没有屏幕到推出屏幕版。使用屏幕的优点在于可以将一些可视化列表在屏幕中展示,能降低用户的认知难度; 二来可以用来确认用户的选择。

    二、语音交互产品主要应用场景

    有哪些适合使用语音交互的场景呢?下图是KPCB 2016年互联网报告中,美国使用语音助手的主要原因和场景。在场景方面,家居场景占比最高43%,其次是车载场景36%,随身场景19%以及办公场景3%。

    下面是对主要应用场景的简要分析和举例。

    1.家居场景

    家居场景的语音产品主要集中在家庭娱乐、家居控制、医疗健康和陪伴教育。典型的设备有智能音箱、智能电视、空调、机器人等。

    1)智能音箱
    智能音箱是智能家居的核心入口,近年来产品发布如下图:

    图中列举了主要智能家居语音助手的产品发布,在2018年3月美国语音助手市场中,Amazon Echo的市场份额依然达到61.9%(相较之前的70.6%有所下降),Google Home 占26.6%,其他厂家包括苹果、Sonos等占剩下的11.5%。

    根据Voicebot的调查报告显示,用户使用智能音箱使用最多前三个技能是:听音乐、提问题和查询天气。

    2)医疗健康-老人陪伴机器人
    主要用途:陪伴老年人聊天,解决孤单问题。与智能音箱不同的是,它更多关注在老人健康方面。同时也有讲故事听音乐,日程提醒等这类智能音箱类家庭助手的功能。
    以色列公司Intuition Robotic 2017年推出的老年陪伴机器人Elli Q

    3)儿童教育机器人
    儿童教育和陪伴机器人结合了语音交互功能,市场目标用户是K12阶段的人群(3-18岁),主要用途是儿童娱乐、互动和教育启蒙。目前已经是一片红海。部分产品如下图:

    其中在这个领域市场估值第一梯度的优必选,从2014年到2018年获得了4次投资。它的机器人悟空是与腾讯合作,通过腾讯云小微"叮当"开放平台构建的语音对话机器人。

    2.车载场景

    车载场景的语音产品主要用途在路线导航、周边搜索和目的地推荐。典型的设备是整车系统、后视镜、行车记录仪等设备。通过车载语音交互,释放驾驶员的手和眼,让司机专注于路况。
    下图是“出门问问”推出的车载机器人:问问魔镜

    3.随身/移动场景

    1)APP移动应用类
    随身场景中最典型的智能手机上的语音助理,像Siri、Google Now、Hound和Cortana等。现在还有很多APP中都有语音交互功能,如搜索、地图、购物、输入法、视频游戏等。

    百度地图

    今年10月1日,百度地图公布其语音助手用户量累计突破3亿。最大变化是来自语音请求的大幅增长。百度地图可以为用户提供智能推荐交通搭配、预测拥堵、调整出行时间及路线等服务,可查询天气、事故,热门景点和停车场推荐等。这些场景都能与语音交互很好的结合。

    浦发银行信用卡APP-“浦大喜奔”
    今年“浦大喜奔”APP接入了智能语音助手,用“小浦小浦”唤醒词,能为用户的高频操作提供服务,例如还款、查账、查额度、查积分、每日签到等。

    2)设备类
    除了APP类,还有典型的硬件设备智能耳机、手表、手环等。主要应用在户外运动、路线导航和周边搜索。

    4.办公场景/企业应用

    语音/聊天机器人在企业运营方面,特别是帮助改善客户和员工体验方面也是强需求的。对于解决客户问询、指引、信息录入等重复性工作,由语音交互产品或者服务类机器人代劳,可以释放人力资源。
    目前常见的有智能客服机器人,如这领域深耕多年的是智臻智能–小i机器人,创新企业有智齿客服,BAT类互联网巨头的有阿里小蜜、百度夜莺、网易七鱼等。

    三、VUI设计的相关问题

    1.为什么使用VUI

    1)解放双手和眼睛。双手被占用,或者眼睛盯着其他地方无法集中在屏幕时,通过语音与计算机交互是最好的方式。例如驾车场景就具有强需求,双手固定在方向盘,双眼需要看路况,利用语音交互可以获得司机想要的信息/服务。除了日常生活,也可以为特殊人群服务。

    2)更快得到结果。用语音听写文本消息比打字、操作鼠标更快。

    3)贴近本能。每个人都知道如何说话,不论对技术是否熟悉。比如小孩只要会说话,就能用自然语言向语音产品进行提问。根据数据统计,Siri类手机语音助手的用户群体中粘性是最高的小孩子。

    4)无界面限制,避免混乱的菜单。语音产品的任务处理是单一线性的,没有产品架构的限制,与GUI产品相比,免去了二维界面下的信息架构复杂性问题。能极大简化用户的操作流程,为生活提供更多的便捷性。

    5)亲切人性化。自然语言中包含了语气、音量、语调和语速等特征,这些特征传达了大量的信息,能让你知道对方的情绪,从而更好的进行对话。而这些特征通过文字是很难理解的。

    在KPCB 2016互联网报告中,使用语音交互的原因中“有趣/酷”占比22%,但在语音产品在现在越来越常见,很多人在新鲜感过去后,会对语音交互失去兴趣,回归到触控为主的交互方式中。有趣已经无法成为语音类产品的核心价值,而用途不明确和缺少实用性,是用户弃用或不怎么使用产品的首要原因

    2.不适合使用VUI的场景有哪些

    1)公共场所。首先在多人开放的空间,这种情况下由于背景噪音,或是有多个用户一起说话,造成语音识别率低。且出于隐私和信息安全考虑(比如助理提醒你吃药,或者APP让你输入身份证信息等),也不适合在公共场所使用语音。

    2)用户不适应对计算机讲话。由于习惯问题,用户不一定习惯对计算机大声说话,如果是此类用户则不适合用VUI。

    3)一些人更喜欢打字。打字输入的惯性强大,在手机端语音的使用一定程度上要考虑打字和输入的配合。

    四、VUI设计的挑战

    1.“无边界”设计
    VUI的最大挑战之一是告诉用户可以让语音产品做什么。
    在GUI设计中用户所有可能的操作都能展示在屏幕上,你能看到哪些按钮可以点击那些菜单可以打开,而对于语音界面来说,功能都是不可见的,不可能让用户通过视觉的方式来探索功能。用户的输入信息是无法穷举且没有边界的。

    2.“多场”交互的设计
    语音交互涵盖了近场识别、中场识别和远场识别三种情况。远场交互产品与GUI设计的差异大,而且设计难度大。目前的VUI设计主要在中场和远场交互中发力,中场包括车载语音系统,远场交互有智能音箱等智能家居产品。

    3.语音识别准确率
    各家公司宣传的语音识别率达97%一般是需要用户安静环境下,近距离、清晰发音条条件下才能达到的。而在真实使用场景中,因为空间距离、背景噪音、人声干扰、回声等问题,目前远场识别的错误率是近场识别的2倍左右。
    一些语音识别率不够好的场景有:

    • 车载场景,存在很大的噪音、多人说话干扰等问题,语音识别效果并不理想;
    • 家庭场景中的远场交互,对远场语音识别技术有较高要求;
    • 一些语料数据少的场景,比如儿童教育机器人,因为儿童的音调高,加上低龄儿童说话的一些口吃、长时间停顿等现象会造成识别困难;
    • 中文和字母数字混合的字符串,目前处理起来也比较困难。

    4.语义理解
    语音交互设计涉及到自然语言处理技术,目前技术还不完善。无法充分理解用户的输入,就可能造成沟通障碍,降低使用体验,且无法根据用户的上下文和情境去提供个性化服务。

    5.多轮对话
    目前还有很多语音产品只是做单轮的搜索,没有做到多轮对话。在谷歌的对话交互设计指导中,提到对话基本原则之一:对话中所有元素都应该被连贯的串联在一起。要注意上下文相关性,并对每个对话回合进行理解。VUI要理解上下文和情境,具备多轮对话能力,否则产品实用性方面会停止不前。

    6.与用户持续互动的能力
    正如前面所说,如果产品只靠语音识别的“有趣/酷”,而没有实用性是无法形成用户粘性的,VUI设计要找到核心场景,持续挖掘用户需求,并为用户创造价值。

    参考材料
    《语音用户界面设计》by Cathy Pearl
    百度2017语音交互体验蓝皮书
    2017年亚马逊Echo研究报告
    格视智库-中国智能业务与应用白皮书

    展开全文
  • 阿里巴巴达摩院-机器智能技术(MIT)实验室研究员付强 在2018云栖大会·深圳峰会中做了题为《复杂声学环境下的语音交互:技术与实践》的分享,就语音交互的意义、复杂的声学环境、前端处理技术和方案以及落地案例等...
  • 基于硬件的本地化语音交互技术在智能家居系统中的应用.pdf
  • HaaS云端一体智能语音交互方案

    千次阅读 2021-10-28 16:54:56
    智能语音交互作为物联网领域的一个重要生态成员,是一种全新的交互方式,它能够解放双手,随时提供服务,无须借助任何按键。近年来智能家居逐渐走入千家万户,产业市场规模不断增长。智能家居产品种类繁多,很多家庭...

    1、方案背景

    智能语音交互作为物联网领域的一个重要生态成员,是一种全新的交互方式,它能够解放双手,随时提供服务,无须借助任何按键。近年来智能家居逐渐走入千家万户,产业市场规模不断增长。智能家居产品种类繁多,很多家庭有着智能门锁、扫地机器人、智能电视、智能洗衣机、智能电冰箱等不同类型的智能家居产品,这些产品需要一个交互性好的控制中心,基于智能语音交互技术的智能音箱脱颖而出。想必很多开发者都有玩过天猫精灵、小爱同学或者小度吧,看到这些炫酷的人工智能产品,是不是也很想搞清楚它到底怎么工作的冲动,是不是也想自己打造一台专属智能语音交互产品。仅仅通过说出“HaaS HaaS”、“天猫精灵”、或“小爱同学”,就可以唤醒它进行语音交互。在商业领域的人工智能产品要么是C或者C++开发,工作量巨大。本方案以HaaS EDU K1为硬件载体,基于HaaS云端一体智能语音交互框架,通过数100行Python代码帮助你轻松打造一款智能音箱。

    2、案例展示

    基于本方案实现的智能语音交互助手案例如下:

    HaaS智能语音助手!

    详细请参考文章《爆肝一周,用Python在物联网设备上写了个智能语音助手》

    3、智能语音交互技术

    智能语音交互涉及语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验。通过语音识别将语音转为句子,通过NLP自然语音处理让机器理解句子并回答,再将句子转为语音。

    3.1 智能语音交互全链路

    智能语音交互的全链路较长,从语音输入到语音合成输出通常包括端点检测、信号处理、语音唤醒、语音识别、自然语言处理、语音合成、语音播放等步骤,如下图所示:

    其中语音交互包含的内容如下图所示,按照算法流程分成以下四项:

    1)识别是否唤醒设备 (KWS,语音唤醒)

    2)识别说的话(ASR ,Automatic Speech Recognition 自动语音识别技术)

    3)对识别的内容提取信息并处理(NLP,Natural Language Processing自然语言处理 )

    4)把处理结果发出声音给人(TTS,TextToSpeech 从文本到语音技术)

    3.1.1 语音唤醒技术

    语音唤醒在学术上被称为keyword spotting(简称KWS),需要在连续语流中实时地检测出说话人的特定片段。这里要注意,检测的“实时性”是一个关键点,语音唤醒的目的就是将设备从休眠状态激活至运行状态,所以唤醒词说出之后,需要立刻被检测出来。那么,该怎样评价语音唤醒的效果呢?通行的指标有四个方面,即唤醒率、虚警率、响应时间和功耗水平:

    • 唤醒率,指用户交互的成功率,专业术语为召回率(被唤醒次数中正确唤醒的比例)。
    • 虚警率,用户未进行交互而设备被唤醒的概率(被唤醒次数中被误唤醒的比例)。
    • 响应时间,指从用户说完唤醒词后,到设备给出反馈的时间差。
    • 功耗水平,即唤醒系统的耗电情况。很多智能设备是通过电池供电,需要满足长时续航,对功耗水平就比较在意。

    语音唤醒能力主要依赖于语音唤醒模型(下称“唤醒模型”),是整个语音唤醒核心。唤醒模型主要负责在听到唤醒词后马上切换为工作状态,所以必须要实时监测,才能做到听到后及时反馈。一是需要实时响应,二是唤醒模型对算力的要求不高,一般唤醒模型是做在本地的(区别于云端的ASR识别)。这就是我们即使没有联网,你叫“HaaS HaaS”,她也会答应你的原因。


    3.1.2 语音识别技术

    语音识别技术即Automatic Speech Recognition(简称ASR),是指将人说话的语音信号转换为可被计算机程序所识别的信息,从而识别说话人的语音指令及文字内容的技术。语音识别主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,也有可能是二进制编码或者字符序列。但是,我们一般理解的语音识别其实都是狭义的语音转文字的过程,简称语音转文本识别(Speech To Text,STT)更合适,这样就能与语音合成(Text To Speech,TTS)对应起来。

    语音技术在近年来开始改变我们的生活和工作方式。对于某些嵌入式设备来说,语音成为了人机交互的主要方式。出现这种趋势的原因,首先是计算能力的不断提升,通用GPU等高计算能力设备的发展,使得训练更复杂、更强大的声学模型(Acoustic Model, AM)变得可能,高性能的嵌入式处理器的出现,使得语音识别的终端应用变得可能;其次,借助近乎无处不在的互联网和不断发展的云计算,我们可以得到海量的语音数据资源,真实场景的数据使得语音识别系统变得更加鲁棒;最后,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来越流行,在这些设备上,语音交互变成了一个无法避免的交互方式。目前,基于近场信号的、受控环境(低噪声、低混响)下的标准音语音识别能够达到很高的水平。然而在智能音箱开放性的真实环境,语音识别依然是一个不小的挑战,需要结合前端信号处理一起来优化。

    3.1.3 自然语言处理技术

    NLP: 自然语言处理(Natural Language Processing) 是研究人与计算机交互的语言问题的一门学科,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。在人工智能领域或者是语音信息处理领域中,学者们普遍认为采用图灵试验可以判断计算机是否理解了某种自然语言,具体的判别标准有以下几条:

      • 第一,问答,机器人能正确回答输入文本中的有关问题;
      • 第二,文摘生成,机器有能力生成输入文本的摘要;
      • 第三,释义,机器能用不同的词语和句型来复述其输入的文本;
      • 第四,翻译,机器具有把一种语言翻译成另一种语言的能力。

    3.1.4 语音合成技术

    语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

    语音合成的系统可分为前端和后端,如下图所示:

    基于深度学习的语音合成:随着AI技术不断发展,基于深度学习的语音合成技术逐渐被人们所知道,DNN/CNN/RNN等各种神经网络构型都可以用来做语音合成系统的训练,深度学习的算法可以更好地模拟人声变化规律。

    3.1.4.1 语音合成步骤

    文本处理
    这一步做的事情是把文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息。
    作为一个预处理步骤,它的重要性经常被忽视,但是它涉及到很多值得研究的问题,比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定等等。

    语音合成  
    狭义上这一步专指根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音,广义上它也可以包括文本处理的步骤。

    4、HaaS云端一体智能语音交互方案

    云端一体涉及端、云,设备端以HaaS EDU K1为硬件载体,集成AliOS Things

    4.1 硬件组成

    4.1.1 HaaS语音扩展板

    HaaS语音扩展板是专门为HaaS EDU K1教育神器打造的,无缝对接,即插即用。

    4.1.2 麦克风和喇叭

    如果没有HaaS语音扩展板也没有关系,请按照如下步骤接入麦克风和喇叭:

    4.2 系统框架

    整个框架及交互流程如下:

    从框架可以看到,它是一个完整的云端一体智能语音全链路交互流程,包括了本地语音唤醒、回声消除、降噪、ASR、NLP、TTS等。基于它可以实现智能语音交互产品的开发。

    接下来看一下基于HaaS AI框架的云端一体开发流程,左侧是HaaS EDU K1设备端通过麦克风进行语音采样,经过回声消除和降噪后进行唤醒识别,再通过阿里云智能语音交互的一句话识别能力进行后续的语音对话识别。然后通过阿里云对话机器人对识别的结果进行语义的理解,再进行回答。最后再通过阿里云智能语音交互平台的语音合成功能将回答文字结果转换成语音下载到设备端进行语音播放。开发者可以通过阿里云智能语音交互平台提供的丰富定制化能力定制语音类型、比如杭州话,并且可以通过个性化人声定制将语音助手定制为老婆或女友的声色。通过这个流程帮助开发者快速打造定制化程度很高的智能语音交互产品。

    4.1.1 阿里云智能语音交互平台

    4.1.1.1 语音识别(ASR)

    阿里云智能语音交互平台的语音识别包含不同的识别服务:

    • 实时语音识别服务:对长时间的语音数据流进行识别,适用于会议演讲、视频直播等长时间不间断识别的场景。
    • 一句话识别服务:对一分钟内的短语音进行识别,适用于对话聊天,控制口令等较短的语音识别场景。
    • 录音文件识别服务:对上传的音频文件进行识别,适用于非实时识别场景。

    在本方案中运用了一句话识别功能,用于识别语音指令。

    4.1.1.2 语音合成(TTS)

    阿里云智能语音交互平台的语音合成服务包括:

    • 语音合成服务:将文本转化为接近真人的语音服务,包含男女童音、多语言/方言。适用于智能客服、电话外呼等虚拟对话场景。
    • 长文本语音合成服务:将超长文本(十万字)合成为接近真人的语音服务,包含男女童音、多语言/方言(且拥有音频重复使用权)。适用于文学伴读、新闻阅读等场景。
    • 离线语音合成:在弱网或无网状态下,通过设备本地的语音合成模型,将文本转换成自然流畅的语音。

    在本方案中运用了它的第一个语音合成服务,对短文本进行合成。

    4.1.2 阿里云智能对话机器人平台

    阿里云智能对话机器人依托阿里云AI技术,提供一体化对话机器人服务,精准理解用户意图,支持界面化流程配置、自定义三方业务集成等功能。本方案中运用它来构建问答、多轮对话流、闲聊等功能。

    4.3 系统架构

    HaaS EDU K1主控设备中集成AliOS Things物联网操作系统,它构建了智能语音交互相关的应用组件,可以通过Python语言很方便的进行功能调用。

    • AI Agent组件:是AliOS Things上的AI引擎核心模块,后端接入不同的推理引擎,本案例中使用了TFLite-Micro推理引擎,结合ARM CMSIS NN算子库适配在HaaS EDU K1上,用于本地离线唤醒词或快捷词识别。
    • uCloud AI组件:集成了阿里云智能语音交互及对话机器人接口,与云端进行交互。
    • uVoice组件:是AliOS Things上智能语音解决方案的核心组件,提供了本地音频,URL音频,TTS合成等基础功能,音频格式支持mp3, m4a, wav, opus等主流格式,本案例中使用它来进行本地mp3语料的响应播报。

    5、总结

    近年来,智能语音交互技术在当今很多领域已经得到充分应用,比如智能家居、可穿戴设备、智能车载等领域,智能语音作为交互入口发挥着巨大作用。但是很多开发者想要学习运用智能语音技术门槛高,没有一个比较完整的方案或途径进行学习。而HaaS云端一体智能语音交互方案以HaaS EDU K1物联网教育开发板为硬件载体,让开发者能够学习如何开发云端一体智能语音交互产品,纯Python的开发方式也将大大缩短开发时间,得以快速场景化应用。

    开发者支持

    如需更多技术支持,可加入钉钉开发者群,或者关注微信公众号。

    GITHUB: GitHub - alibaba/AliOS-Things at rel_3.3.0

    GITEE: AliOS Things - Gitee.com

    CODECHINA: https://codechina.csdn.net/alios-things/AliOS-Things/-/tree/rel_3.3.0

    更多技术与解决方案介绍,请访问HaaS官方网站https://haas.iot.aliyun.com

    展开全文
  • 第二期《如何打造智能语音交互爆款产品?》特邀阿里云资深算法专家鄢志杰,与志杰老师带领的机器智能技术实验室团队共同为大家带来干货分享。 本节课程《IoT时代的语音交互智能》,是由鄢志杰(智捷)专家带来的关于...
  • 国家标准起草资料 国家标准 信息技术 智能语音交互测试 第2部分语义理解 征求意见稿编制说明 一工作简况 根据国家标准化管理委员会2020年下达的国家标准制修订计划国家标准 信息技术 智能语音交互测试 第 2 部分语义...
  • 使用了qt制作界面,基于百度api的语音识别软件,可以进行交互,回答你简单的问题,还可以语音翻译,查询天气,询问时间等。是人机交互课的作业,比较简单。
  • 基于深度学习的LED车载语音交互氛围灯设计.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 67,964
精华内容 27,185
关键字:

语音交互