精华内容
下载资源
问答
  • VUI设计方法

    2019-07-22 18:09:14
    在目前的AI产品体系中,主要是三大方向,分别是:图像(即人脸识别)、智能推荐(类似于各种推荐引擎产品,如今日头条等)以及语音交互。
  • 解构语音交互产品--VUI设计原则

    千次阅读 2019-10-23 21:22:19
    语音交互作为对话式交互的一种,目前相对权威的VUI设计原则来自Google的对话式交互规范指南。阅读了《语音用户界面设计》和Slack公司的Amir Shevat写的《聊天机器人:对话式体验产品设计》两本书,其提及对话设计...

    语音交互作为对话式交互的一种,目前相对权威的VUI设计原则来自Google的对话式交互规范指南。阅读了《语音用户界面设计》和Slack公司的Amir Shevat写的《聊天机器人:对话式体验产品设计》两本书,其提及对话设计要点与该指南的大部分原则是一致的。本文主要讲对话交互的相关设计原则和一些策略。

    一、VUI对话设计核心要点

    对话设计的5个核心要点:

    1.创建虚拟角色画像
    2.突破框架去思考
    3.考虑用户场景
    4.对话不存在“出错”的概念
    5.站在更高角度去思考

    1.创建虚拟角色画像

    品牌宣传
    品牌宣传,就是让用户记住并喜欢上你的产品,愿意回来使用你的服务。品牌宣传内容包括:机器人(虚拟角色)的名字,使用的语言,标识和配色,提供服务的方式,以及出错时机器人如何处理。

    首先要构思好你的产品品牌理念。如果你的产品品牌期望给用户传达快速、高效的意向,那么在设计对话UI时,就需要突出直观、高效、简洁、数据驱动的特点。如果是更轻松、娱乐化的品牌,那么就可以传达适应性、贴近、亲切的特点。

    定义人物角色
    人物角色包含:名字、面向的用户群体、首要任务、公众的接受度、品牌理念、价值、个性。

    确定个性
    在开始撰写对话脚本之前,你需要确定你的机器人是什么类型的性格,这应该与你的目标受众,你需要完成的任务类型以及你想要宣传的品牌相匹配。

    创建角色画像的几个关键点

    1)要记住,无论你是否打算创建用户画像(即为你的对话UI注入“人格”),用户在对话交互时都终将会感知到一个角色,而这一点对你的品牌至关重要。所以尽快创建反映你的品牌和特色的人物角色。

    2)把你的对话UI当成一个真实的人去构思,确保你的用户记住并喜欢上你的产品,并回来使用你的服务。(这就是品牌宣传的目的)

    3)对话的整个过程保持人物个性的一致性。在正常对话和错误处理流程中,对话的语气和品牌风格都要一致。一个在出错流程中表现一致性的例子:

    @travel-bot:很高兴为您预订航班。您想去哪里?(友好的对话代理)
    @user:我想去gera
    @travel-bot:找不到gera,请重新输入。(冷漠的机器人)

    2.突破框架去思考

    在定义好对话的品牌理念和基本属性后,不要马上开动设计逻辑和撰写对话草稿。

    对话草稿(或称对话脚本、示例对话),包含用户和对话代理两个角色之间来回往复的对话。

    首先应该考虑核心场景,然后列举出诸多可能存在场景和一些“出错”状况,再梳理一个总体的逻辑。逻辑不需要细化到每个细节、每句对白,重点是要围绕用户的意图展开,最后才草拟撰写对话草稿。

    总得来说,需要考虑的场景有:

    • 几个最常见的使用场景,并为每个场景写一个最优路径的对话。
    • 异常情况的修复对话,比如系统没有听到或者没有理解用户的话的示例。
    • 新手引导示例对话,如问候语,介绍语。
    • 帮助流程的对话。
    • 反馈流程的对话。

    google交互规范指南中,以一个猜数字的小游戏作说明。下图中将业务逻辑和对话的台词串在一起,这是不建议的做法。

    建议做法是把逻辑流程做总体说明(下图),再撰写各个流程的对话脚本。

    下图是一个主要场景的最优路径的对话脚本,用户顺利完成游戏。

    3.考虑用户场景

    设计对话UI需要考虑以下几个场景相关的问题:

    • 用户在哪里?所处的环境是怎样的?
    • 用户正在做什么?
    • 用户使用的是什么设备?
    • 用户的交互体验是怎样的?
    • 用户要完成什么任务?目标是什么?
    • 用户的期望和意图是什么?
      试着去满足用户的意图,而不是仅仅考虑满足功能。

    4.对话不存在“出错”的概念

    人的表达会存在各种各样的情况,所以不管用户说什么,不要把它当成是一个错误来处理,而是要考虑如何把这转变为一个机会,去推进更顺畅自然的沟通。

    要点分析:“出错”情况的应对
    在决定如何处理异常流程前,来看下几种VUI可能出错的情况:

    • 未检测到语音。可能是因为用户确实没有说话,也可能是系统没有检测到,结果就是造成系统获取信息超明。
    • 检测到语音,但没有识别。这种情况可能是因为背景噪音,或者多人一起说话等。
    • 语音被正确识别,但系统无法处理。可能是系统回复类型中没有用户所说的用例情况或者系统无法提供的功能服务,也可能是系统无法理解用户同一意图下的其他替代表述。
    • 部分语音识别错误。ASR工具返回了错误的识别结果,这种情况可能会导致匹配上错误的行为,向错误方向继续。

    处理错误的策略
    1.增强错误策略,这是一种常见策略,具体如下:

    • 提醒用户系统需要什么样的信息(即重复提示/询问)例如“抱歉,没有听清,请说出你想要看的电影?”
    • 提示更为详细,并提供更多的帮助。例如“无法识别您的号码,您的航班号应该是3个数字,在UA的后面”

    2.过程矫正。将用户拉回正确对话的能力

    • 将用户限制在正确流程中。例如点餐场景,用户点了没有供应的咖啡,点餐机器人“我们今天没有你要的咖啡,我们有普通咖啡和意式咖啡,您今天想喝哪个?”
    • 目前无法处理,但可以收集信息。同样上面例子,点餐机器人可以回复“我们目前没有卡布奇诺,等我们开始供应卡布奇诺时,我会通知您”
    • 当用户的回答偏离任务时,为保持上下文顺畅,提供两条信息将用户转回目标。Wordhopwcng(一家构建CRM工具包的公司)的CEO一个有趣观点:“如果在对话中,机器人与用户之间的沟通出现障碍,为了维护上下文的通畅,你可以连续提供两条信息: 第一条是回滚信息,表示此处出现了误解。例如“I’ve never heard that before” 第二条用于提示上下文。将焦点重新转回你的目标,不要误解影响用户体验。” 例如用户与航班机器人flighter-bot的对话:

    @user:You sound like Trump
    @flighter-bot:I’ve never heard that before.Not sure how to respond to that.
    @flighter-bot:Ready to book your flight?

    3.及时提供帮助
    修复问题很重要的一点,就是要准备好去帮助用户,当他们出现困惑、没有听懂问题,或是不知道该说什么的时候。为了应对这些问题,采用预防机制,例如设定好一些提示。

    需要理解用户提出“帮助”的表达。以下几种表述都是需要帮助:

    • 用户直接说“帮助”命令、或者“我不知道”之类的话,都是在请求帮助,系统要给予预设的回复。
    • 用户说“能再说一遍吗?”可能是想要重复听某些内容
    • 用户不说话。这种情况会导致超时未检测语音,也要帮助。例如触摸Siri后不说话,几秒后Siri会提示“你可以这样问我” ,这是展示语音产品功能的方式。如下图:

    4.人工干预
    如果是真人辅助的业务型对话系统,可以为错误数据设置一个阀值,当达到阀值时,转人工助手处理

    5.知道合适的退出时机
    防止用户受挫的策略之一,就是提供一种让用户可以轻松结束对话的方式。为用户离开做准备也是非常关键而且正确的技巧。也需要让用户知道如何再回来,接着上次的服务继续。

    6.转到另一个机器人
    当前对话UI无法处理用户的意图,可能是因为系统无法提供这项服务。可以将用户转向其他机器人。可以解决对话中发生的错误,还能为其他机器人带来流量,通过互通消息或者能带来潜在收入。
    下图的左边是Mica机器人,任务是帮助用户发现世界上好玩的地方。当用户问“weather”天气时,Mica无法处理时,它给用户推荐了Poncho天气机器人。下图右边是Poncho机器人,当用户问“where should I go ”(我应该去哪里)时,Poncho推荐了Mica机器人。

    5.站在更高角度去思考

    对话UI的使用不仅仅为了好玩,不应只停留在为娱乐类产品提供更多游戏化方式的截断,应该更多的思考如何让它真正的帮助人们创造价值。

    二、对话设计技巧与策略

    除了上面的几个核心设计要点,还有一些设计原则和对话设计的技巧。

    1.通过确认和应答给予用户信息

    在决定VUI的确认策略时,可以参考一下几点:

    • 错误的后果是什么。用来决定采用何种确认策略(隐性确认 or 显性确认)
    • 系统将以什么形式进行反馈。(语音确认 or 非语言形式确认)
    • 会有一个小屏幕吗?可以通过屏幕显示信息,或让用户确认信息。
    • 以什么形式来确认最合适。不同场景使用不同的策略。

    信息接收与确认的几个设计原则
    1)显性确认与隐性确认
    显性确认:通常要与用户核实其需提供的输入是否被正确的处理或者请求用户允许操作,采用显示确认识机器人在得到确认之前将不会执行操作。
    适用场景:高风险的请求(例如消费付款的确认)或者难以撤销的操作时适合使用显性确认。

    隐性确认:它会直接确认输入已收到,或在不请求用户批准的情况下进行操作。隐性确认时,可以将答案和连同原始的问题的一部分,一同回复给用户。让用户知道系统识别到了他的问题。如果置信度很高,为了看起来更自然流畅,也可以直接简单的回答。
    适用场景:系统对获取信息的识别准确度较高,出错可能性较低的场景。

    还有一种根据信息的识别率来选择确认策略的方法,称为“三级置信度法”(系统设置识别率阀值,例如45%~80%)

    • 在45%~80%置信度区间时,使用明确的形式确认信息。
    • 置信度80%以上时,使用隐性确认来确认信息。
    • 置信度45%以下的,走修复流程,可以回复“对不起,没有听清您讲的话”。

    2)非语言式确认

    • 一些能感知到结果的操作,只需要执行就行,而不需要口头响应。比如“找开灯”,执行结果是可以直接“看”到的。如果无法通过“看”来确认,需要使用音频确认。
    • 使用一个“声音标识”来确认。用一个有简短且有识别度的声音,比如Siri会用一个声音来表示结束聆听。

    3)屏幕确认
    如果语音产品是有屏幕的设备、移动应用APP或者电脑程序,通过屏幕确认信息或者向用户显示结果更为有效。屏幕可以来显示一些结果是列表类的信息,还可以通过屏幕让用户来确认选项。
    关于是否在设备屏幕上显示用户所说的话,可以分以下情况:

    • 显示的情况:手机助手类产品,很多情况用户的响应只是简单转化为一个搜索请求,让用户看到系统识别到的信息是有好处的,如果虚拟助理出错了,用户可以尽快知道。
    • 不显示的情况:对话性更强的系统,用户与系统要进行一系列的对话。这类系统不需要精准识别到每个词,只要能映射到真实意图就可以了。这种情况不适合显示用户说的每句话。

    4)响应度
    系统后端在响应用户的请求时,可能存在响应时间长而造成的延迟现象。响应延迟产生的原因一般是系统连接性能差、系统正在处理进程、数据库访问以及处理语音识别响应时间长。

    响应延迟的处理方法:

    • 如果用户的请求需要很长的时间来处理,那么机器人应该告知用户他正在处理请求。如“正在处理”、“请稍等,正在查询相关记录”等消息,或者告诉用户何时能得到结果。
    • 用非语音的方式提示用户。例如一段短的提示音,或者“加载中”的动态可视化效果。
    • 由于语音识别的响应时间长造成的延迟,目前智能音箱类采用的方式是“一级本地识别,二级云端识别”,即先在本地唤醒,唤醒后再上传到云端进行识别。

    以上都是关于响应时间长的,但有些情况,系统没有延迟,也最好插入1、2秒延迟。因为机器人太快回复会给用户带来不安,适当延迟才是自然的对话方式。

    总之,不管是显性、隐性、或者是非语言形式的确认方式,对于用户输入的信息,都应该给予回应。

    5)避免重复
    采用随机性的措辞与用户确认其输入和操作让对话显得自然一些。

    6)要能理解用户回复的各种确认信息
    确保你的机器人能理解用户表示确认的所有形式,比如:是、已确认、OK、对、没错…. 这个可以通过对词条维护或用NLP技术都可以实现。

    2.引导用户提供正确的信息

    对话界面的挑战之一是处理用户的输入。设计要点中提到一种“出错”情况:识别到了语音,但系统无法处理。主要原因有两种:
    1.系统无法理解用户的表达。因为用户可以使用许多不尽相同的方式来传达同一个意思,且这种表达是不能穷举的。
    这种情况下,可以使用“AI技术+人工语料维护”来解决。使用NLP的同义词、词向量和计算文本相似度技术等来理解用户的语义表述,可以将用户相同意思不同表述的语句映射到同一意图上来处理。人工语料维护,即对无法识别/错误识别的数据重新打标签,将其映射到同一意图或者词条上,并让机器不断学习来训练和优化模型。

    2.用户输入的请求是系统没有的技能或服务。这种情况可以在VUI中引导用户提供正确的信息。VUI设计存在“无边界”的特点,即让用户知道“能让产品做什么”是设计的难点。

    以下是引导用户输入正确信息的方法:
    1)设定用户的期望。比如你的产品如何介绍语音功能?可以在用户首次使用时为用户提供新手引导,或者在使用过程中提供帮助。机器人能否得到想要的正确答案,取决于怎么提问题。要把用户的问题引导到产品能提供的服务上。例如你的产品不应该问:“请问能为你做什么?”,而应该问:“我可以为您预订航班,请问您想去哪里?”

    2)限制用户的选择范围,提高系统理解用户意图的概率。例如使用手机语音助手发送短信,语音助手:“给小jo发送短信为“好的,一会见”,请问发送还是取消?” 这样可用户的选择限定在发送和取消上。

    3)用预设回复的快捷回复按钮引导用户到正常对话流。例如下图中,是一个辅助心理辅导机器人Woebot,它用按钮预设回复,限制了对话只能向“我需要帮助解决一个问题”和“记录”情绪两个流程上。用户只能二选一。

    这个对话bot的场景中要求用户输入的是情感类的隐私信息,所以没有使用语音识别服务,其采用了大量的按钮来引导对话,将对话严格地限制在流程内,从而完成任务,这是个典型使用预设回复的例子。

    4)使用示例而不是说明。当向用户询问信息时,可以给出示例。让用户参照示例写入信息比理解通用指令更加容易。

    3.对话中的问候语和结束语

    1)新用户和专家用户的提示语
    根据你的产品和用户的熟悉程度,应该提供不同的问候语

    • 对于新用户要用简单的话语让用户知道你能提供什么服务,并引导用户操作。
    • 对于专家用户,不需要冗长的指令或者教学细节,可以缩短解释性的提示语。

    2)采用“对话式标识”提示
    无论新手还是专家用户,都要采取“对话式标识”来提示,让用户知道他们的答案已被系统接收,以及当前提问的进度,这使VUI更人性化。对话式标识包含三个部分:

    • 时间线(首先,完成一半了,最后)
    • 接收回执(好的,知道了,谢谢)
    • 积极反馈(很高兴听到这个消息,非常好)

    三、吸引用户与机器人互动的方法

    目前多数语音产品缺乏用户与机器人互动性,使产品弃用或者少用,无法为用户创造价值。

    1.确定性
    在梁宁老师的《产品思维30讲》中提到的一个让我印象最深刻的概念是:确定性。
    一个能给用户提供确定性的产品,是可以让人留恋和持续依赖的,而所有的铁粉都是对产品的确定性有依赖。比如一台ATM机,给用户的确定性是稳定的出钞。比如地图APP,当我查询路线时,能高效地给我提供最优导航方案。再有一个例子是荷包金融APP(虽然因为P2P行业问题,它现在已经不能正常兑付了,但不能否认它是个非常优秀的产品),这也许是业内第一家每日收益到账的产品,打开APP后会有金币的声音,点击金币即可将收益直接复投。无论是从用户操作上,视觉上,还是听觉上都给用户带来了愉悦感,且让用户知道自己的资金每天都获得收益,其实这就是一种确定性。
    确定性其实就是稳定持续地实现用户的价值。

    《对话式体验产品设计》书中提到Greenshpan关于优秀的应用与用户之间的一些建议:
    1)创造一个完美的第一印象
    2)持续增加价值
    3)持续改进设计
    这些建议在对话交互产品同样适用。首先要给用户好感,然后让用户保持对产品的好感并形成习惯。

    2.习惯形成模型–Hook模型

    Hook模型也称上瘾模型,模型中描述了习惯形成的四个步骤:
    1)触发:这是一个内部触发器,由外部触发器引发,并驱使用户使用该产品采取行动。
    2)行动:一个能产生奖励的简单行动。
    3)奖励:实现价值。即找到痛点或者实现用户意图。
    4)投资:一种行为,通过机器人使服务更好,而且产生未来触发的机会。

    3.小雅智能音箱
    根据QuestMobile发布的《2018中国移动互联网春季报告》,小雅AI音箱是目前用户粘性最高的智能音箱,其月人均使用时长近600分钟,人均使用次数240次,使用频次是天猫精灵及小米的7-8倍。喜马拉雅副总裁说“在有小雅之前,用户每天收听喜马拉雅也就128分钟,而有了小雅之后,他们每天停留在喜马拉雅里的时间超过了3个小时。”
    Voicebot 报告中显示智能音箱的最高频应用是听音乐、电台、新闻等内容。听内容是用户的高频的需求,这也是为什么市面上的智能音箱投入大量精力来做有声内容的原因之一。而小雅智能音箱有先天优势,喜马拉雅FM采用独家版权模式,定位是一个在线听书电台,有市场上70%畅销书的有声版权,85%网络文学的有声改编权,6600+英文原版畅销有声书。

    综上,关于产品的“确定性”以及Hook模型都是以实现用户价值为前提的,而小雅智能音箱的例子也表明,要促进用户与智能对话产品互动,关键点在于你的语音产品是否实用,能否解决用户的问题。只有为用户持续带来价值的产品才会使用户依赖。

    参考材料:
    Google对话式交互规范指南
    《语音用户界面设计》by Cathy Pearl
    《聊天机器人:对话式体验产品设计》by Amir Shevat
    Voicebot-2018年美国智能音箱用户调查报告

    相关链接:
    解构语音交互产品—认知篇
    解构语音交互产品–人工智能AI技术

    展开全文
  •   2019-01-03 10:19:06 摘要:本文内容一部分来源于阿里设计师王一行翻译的...VUI的第一个时期20世纪50年代,贝尔实验室建立了一个单人语音... 本文内容一部分来源于阿里设计师王一行翻译的《语音用户界面设计...

    https://www.toutiao.com/a6642089383191118350/

     

    2019-01-03 10:19:06

    摘要:本文内容一部分来源于阿里设计师王一行翻译的《语音用户界面设计》一书,一部分为工作中所学习的。感兴趣的可以去买书看看。VUI的第一个时期20世纪50年代,贝尔实验室建立了一个单人语音...

    本文内容一部分来源于阿里设计师王一行翻译的《语音用户界面设计》一书,一部分为工作中所学习的。感兴趣的可以去买书看看。

    VUI的第一个时期

    20世纪50年代,贝尔实验室建立了一个单人语音数字识别系统。这些早期系统的词汇量非常少,在实验室之外并没有什么用户。20世纪六七十年代,关于语音数字系统的这项研究仍在不断拓展可识别的词汇,并且至力于实现“连续语音”的识别(不需要在词与词之间暂停)。

    20世纪90年代,IVR交互式语音应答系统出现(我们打10086客服出现的语音服务系统)。它可以通过电话线路理解人们的话,并执行相应任务。在21世纪初期,IVR系统成为了主流,任何人都可以通过一个普通的电话和语音进行股票的询价、机票预定、银行转账、处方药品预定、本地电影排片查询以及收听交通信息等。

    人工智能浪潮下的语音交互——VUI设计(基础篇)

     

    VUI的第二个时期

    我们现在所处的时期被称为VUI的第二个时期。像Siri、Google new、和Cortana这类集成了视觉和语音信息的app,以及Amazon Echo、Google Home这类纯语音的设备逐渐成为主流。Google报告称其搜索请求中有20%是通过语音完成。

    当下百度退出新的产品简单搜索,干脆将语音作为搜索入口,有兴趣的同学可以去试试。

    人工智能浪潮下的语音交互——VUI设计(基础篇)

     

    下面会给大家介绍一些VUI的基本术语

    唤醒词设定

    国内的四大音箱品牌,如小爱同学(小米)、小度小度(百度)、天猫精灵(阿里)、小艺小艺(华为)

    那么为什么要设定唤醒词呢?

    一个原因是遵从现实的人际交往关系,比如在学校宿舍,我让你帮我带东西,我会说小明,回来时帮我带桶泡面。而小明同学识别到“小明”,就知道你在呼唤他,是对他在说话。也会针对性地进行回答。

    第二个原因你的设备在工作中是一直处于倾听状态的,如果音箱在用户非使用时间记录用户的话,还将听到的语音传到云端,这样就侵犯了用户的隐私。所以音箱需要一个唤醒词来唤醒音箱。(音箱在通电状态下,唤醒词是做本地处理的,不管是否连接网络都能响应,响应速度也更及时。)

    至于怎么命名唤醒词,此处不做说明。

    人工智能浪潮下的语音交互——VUI设计(基础篇)

     

    超时

    一般唤醒音箱后,音箱的倾听时间为7~10秒,各个厂家的都不同。当用户的输入超出限定世界,一般采取的做法是识别时限内的内容,进行相应的回答。

    延迟

    延迟发生的场景很难去预估,通常由以下几个原因产生的,但实际上未知的更多

    1. 糟糕的连接性能

    2. 系统处理进程

    3. 数据库访问

    当你去查询一个球队的比赛时,并且想知道他现在的积分,下一轮的对手是谁,你应该就会知道这需要进行云端数据查询,需要一定的时间,这个时候音箱上的呼吸灯就会告诉你他正在为你工作中。

    但有时候,延迟会比较长(一般在0~10秒内),如果延迟会达到一个节点,比如说7秒,这个时候音箱如果给一个响应,说:请稍等,正在为您查询,那么用户的耐心是否会变长,消除焦虑呢?

    人工智能浪潮下的语音交互——VUI设计(基础篇)

     

    消歧

    很多时候用户只会提供执行命令所需要的部分信息,而没有提供所有细节。比如对音箱说,“打电话”,但这个时候音箱并不知道打给谁。但如果你说打电话给张三丰,这个时候音箱会发起呼叫来执行当前指令。

    再举个例子,比如说查询天气,这个时候音箱是不知道你查询的是什么地方的天气,但可以根据当前的地理位置来判断,告诉你当地的天气。

    消歧就是明确各种指令,然后让音箱能顺利的理解并执行命令。一般消歧会涉及到多轮对话,此处不做具体说明。

    人工智能浪潮下的语音交互——VUI设计(基础篇)

     

    下面从一段对话来说明显性确认、置信度、N-Best列表、多轮对话

    1. 你问:Hey google 勇⼠队获胜了吗?

    2. 助手:是的 上周⽇对阵鹈鹕,勇⼠队赢了118:92

    3. 你问:很好,他们下⼀场⽐赛是什么时候

    4. 助手:勇⼠的下⼀场⽐赛是今天下午7:30,他们将再打鹈鹕队

    5. 你问:当我回家时 提醒我找到我的凯⽂杜兰特球⾐

    6. 助手:当然 当你回家时我会提醒你

    隐性确认

    隐性确认策略就是将答案连同原始问题的一部分一同回复给用户,让用户知道知道他的话接收到了,但不需要他们确认。

    示例:

    1. 你问:他们的下一场比赛是什么时候吗?

    2. 助手:勇⼠的下⼀场⽐赛是今天下午7:30,他们将再打鹈鹕队 。

    从这,可以看出它知道“他们”指的是勇⼠,能根据上下⽂理解这些代词的意思。且在答复中从将勇士反馈给用户,让用户知道“他”知道“他们”指的是勇士。

    置信度低的显现确认

    如果置信度不高,Google可能这样回复:你是问勇士的下一场比赛是什么时候吗?

    1. 你问:他们的下一场比赛是什么时候吗?

    2. 助手:你是问勇士的下一场比赛是什么时候吗?

    置信度高

    1. 你问:他们的下一场比赛是什么时候吗?

    2. 助手:他们下⼀场⽐赛是今天下午7:30,将再打鹈鹕队 。

    这种对话更加自然没有痕迹,但对置信度的要求也更高,当前只能对简单的对话进行这种回答。对于场景的要求较高,最好是单一的,变量小的。

    多轮对话

    很显然,当前对话示例是多轮对话。多轮对话很明显的一个特征就是无须重复唤醒助手,能够持续的对话。助手也能根据上下文来理解并给出相应的回答,就像人一样,更加自然的对话。(当前各大厂商的助手只能在某单一场景进行多轮对话)

    N-Best列表

    其实助手每一次回复都会从用户说的话返回个N-Best列表,然后从中选取一个置信度最高的进行回复,而持续性对话,在于N-Best列表关联着向下文而生成,形成了一个对话场景。(VUI设计师在设计的时候,每个对话都会提供多个TTS对助手进行训练)

    对话式标识(对话礼仪,如:谢谢、好的、⼲得好等)

    当⽤户在对话中使⽤了⼀些基本的礼仪后,系统也会给予相应的回复,显的更加人性化,⽤户的参与度也会更⾼。

    比如你对助手说谢谢,助手会回答不客气。很有意思的对话。

    TTS

    TTS简单的来说就是语音播报,即助手说出来的话。

    声纹识别

    现在一些厂商已经加入了声纹识别技术,根据声音来识别用户,从而根据用户的习惯进行不同的回答,而不是千篇一律的回答。

    ASR

    ASR(自动语音识别引擎),ASR就是能将用户语音转换成文本的技术。

    语音打断

    和字面的意思一样,就是在助手播报过程中,用户可以打断,根据自己的意愿进行选择。可以想象一下我们在打10086客服是,是不是经常打断,提前选择自己需要的服务。

    语料泛化

    语料泛化指,设计师提供一些语料后(3-5个),再进行细化。直到覆盖到全部场景。比如查询天气就有多种预料,可以是查看天气、看看天气、天气咋样,进一步还可以指定时间与地点。

    垂类

    垂类可以理解为类别,举例说明:比如闹钟和天气就是两个垂类,用户在设定闹钟的路径中,突然对助手说查询天气。这个就是跨垂类的场景,需要设计师考虑让不让跨垂类。

    意图

    意图一样是字面上的意思,简单点来说就是给助手一个明确的指令。意图可以往下拆分成多个子意图。比如查询天气就是主意图,查询深圳的天气就是子意图。很多主意图助手是无法直接回答,需要进行进一步的确认才能回答。当然天气不在此列,毕竟我们可以根据地理位置,来回答你。

    中文环境下的特殊要求,多音字、同音字

    在语音设计中,我们不得不考虑多音字、同音字的设计,比如说打电话给王行,如果只有一个叫“王行”的,不管“一行”还是“行走”,我们都指定同一个路径就行了,但是如果有两个、三个的同音字呢?而且可能同音不同字,比如说“张”与“章”。这个时候音箱该怎么处理?音箱没有屏幕来呈现一个列表,让你进行区分,音箱只能通过语音来告诉你。可能已经有人想到这么处理了,此处就不做具体讨论,欢迎大家的发言。

    小结

    关于音箱还有非常多的细节可以写,比如在语音识别下,可以分为识别到声音但没有语义(无效的声音);没有识别到任何声音;识别到了声音有语义但没有理解。此类还可以继续去拆分距离等因素。

    当前音箱产品对于大部分指令都能及时且正确的响应,但距离与人相似的交流还有很长的路要走。我们需要更快的响应速度,更贴近自然的声音,更丰富的多轮对话场景,以及更鲜明的“人格”,更加聪明的“ta”。

    展开全文
  • 做的过程中,首先向业务同事请教了业务内容和对话流程,设计了话术,算是做了一点产品和交互;其次,一个简单的数据结构做了对话管理。似乎和NLP都没关,确实,NLU模块比较简单,另外一个同事一个人就能搞定。最近...

    本职程序员兼职NLP,开发了一款外呼机器人,主要是在不暴露自己是机器的情况下向用户确定是否有意愿购买本公司服务。做的过程中,首先向业务同事请教了业务内容和对话流程,设计了话术,算是做了一点产品和交互;其次,一个简单的数据结构做了对话管理。似乎和NLP都没关,确实,NLU模块比较简单,另外一个同事一个人就能搞定。最近恰好女友做VUI的分享,梳理了一下工作就如下这篇。

    按照以往惯例,先总后分写作风格。才疏学浅,忽悠路上野生忽悠小白一只,多多斧正。

    1.VUI的起源和特点

    1.1.交互

    这章节,纯属个人理解。可能说的很宏大,但是仔细一想,又有“这废话嘛!”之感,可以跳过去。

    VUI应该是人机交互的一种。我们先脑暴下人机交互的本质。人从出生起就在不停与外界互动和交流,如:呼吸、吃饭、哭闹、说话、睁眼观察、感受冷热、学习理解等等,交互的另一方包罗:人、其他生命体及无生命体,人机交互也属于其中一种。种种交互中,呼吸应该是最成功的方式之一,有效、简单。有效和快速就不说了。操作简单,就是:平时慢悠悠、运动多呼吸、鼻子不够张嘴来凑。所以,有效和简单,应该是两个最好的

    但目的一定是交流。好的交互应该准确、简洁、快速和其他因人而异的喜好(即,私人定制化)。
    人活着就是为了和,人是一个精密而复杂的系统,

    展开全文
  • VUI提升用户体验

    2020-05-20 09:18:57
    VUI简史 谈VUi前,得先说GUI。 图像用户界面GUI(Graphical User Interface)是60年代「人机交互」奇才道格·恩格尔巴特提出的概念,自从80年代苹果推出第一款应用GUI的电脑后,GUI一直是人机交互的典型代表。...

     

    VUI简史

     

    谈VUi前,得先说GUI。

     

    图像用户界面GUI(Graphical User Interface)是60年代「人机交互」奇才道格·恩格尔巴特提出的概念,自从80年代苹果推出第一款应用GUI的电脑后,GUI一直是人机交互的典型代表。

     

    随着越来越多的语音控制设备,VUI开始帮助改进各种不同的用户体验。VUI是用户通过语音与计算机进行人机交互来启动自动化服务或流程的工具,是直接面向用户的界面,所以是否能满足用户需求是判断其成功与否的决定性因素之一。

     

    VUI的发展过程主要可以分为以下两个时期:

     

    • 诞生——纯语音交互

     

    语音交互界面VUI (Voice User Interface) 并不是全新的概念,它的前身是交互式语音应答IVR(Interractive Voice Response) 。二十世纪九十年代,交互模式的语音应答IVR正式诞生,代表了VUI发展的第一个重要时期。用户可直接通过电话进入服务中心,利用数字对内部系统进行命令操作。

     

    IVR存在的主要缺点有:

     

    通常用于单轮任务

    交互方式较为单一

    不能进行中途打断

     

    在与系统的交互过程中,如果出现了失误,用户只能挂断重来,这使得整个交互过程极不流畅,而用户也一直处于相当拘谨的状态下,与如今语音交互轻松自然的氛围相去甚远。

     

    • 普及——语音和屏幕结合交互

     

    新一代的VUI更多指的是人通过自然语言与计算机进行交互,所以可认为VUI是人工智能时代下的人机交互代表。

     

    各大公司都推出了自己的语音助手,例如微软的cortana,谷歌的Google OK和苹果的Siri。这些语音助手结合视觉和听觉,同时使用语音和屏幕进行人机交互。发展到这个阶段,就打破了原先IVR仅能用于单轮任务的局限性,使得语音交互有了多轮对话的可能性。

     

     

    VUI是什么?

     

    作为新一代的交互模式,通俗的说,VUI(语音用户界面)就是用人类最自然的语言(开口说话)给机器下达指令,达成自己的目的的过程,这一过程包括三个环节:

     

    • 能听

    • 会说

    • 懂你

     

    VUI是用户通过语音或者语音平台与计算机进行人机交互,来启动自动化服务或流程。VUI设计,即用户与语音应用系统的交互设计。VUI是直接面向用户的界面,所以是否能满足用户需求是系统成功与否的决定性因素之一。

     

    最典型的应用就是语音助手,当下最热门的产品就是智能音箱了。


     

    什么场景适合使用语音交互?

     

    1.智能家居:在家庭“相对封闭与安全”(特指针对语音信号采集的干扰程度),通过语音交互指令控制家居开关是很好的切入点。相信在不久的将来,搭载了语音交互系统的智能家居,都可以听你的话,你说所说的每个指令,都会直接影响/控制到当前家居的运行状态。“你可能越来越惬意,也可能越来越懒......”

     

    2.出行车载语音交互系统:释放了驾驶员的手和眼,让司机专注于前方的路况,如接听电话、开关车窗、播放广播音乐、路线导航等语音交互指令。

     

    3.企业应用:未来会有各种各样专业的知识工作者会在或大或小的程度被简化或者被替代,比如文本、数据的录入工作,比如客服机器人。但,极不太可能的是直接对着一个设备吼两嗓子做一个PPT的方式。

     

    4.医疗&教育:如语音记录病历,不管对医生来说还是患者来说,都是提高看病效率的很好的辅助手段之一。

     

     

    语音用户界面(VUI)的设计原则

     

     

    • 不要让用户有认知负荷

    声音对于人类来说是短暂的记忆,人们不可能一下子记住很多新信息。所以不要挑战人类短暂的记忆能力。

     

    • 准确、高效

    抓住用户的主要需求,准确、快速的让用户达到自己的目标。

     

    • 消除歧义

    当系统问用户,你的主要症状是什么?而用户说的是发烧和感冒,系统就要理解用户说的是两个症状,针对这个事情,系统需要进行回复两种不同的症状解决方式。

     

    • 对话唤起

    信息和用户界面组件必须以可感知的方式呈现给用户。

     

    • 无障碍设计

    创建可用不同方式呈现的内容(例如简单的布局),而不会丢失信息或结构。

     

    • 不要责怪用户

    提供帮助用户导航、查找内容、并确定其位置的方法。

     

     

    语音交互涉及那些技术

     

    VUI(语音用户界面)所涉及的技术模块有 4 个部分,分别为:

     

    自动语音识别:Automatic Speech Recognition, ASR

     

    自然语言理解:Natural Language Understanding, NLU

     

    自然语言生成:Natural Language Generation, NLG

     

    文字转语音:Text to Speech, TTS

     

     

     

    语音交互技术包括的识别、理解和对话三个部分。也就是通过麦克风让机器能听到用户说的话,然后听懂用户想要表达的意思,并把反馈的结果“说给用户听”。

     

     

     

    VUI 设计师的工作内容

     

    VUI 设计和普通的互联网的设计没有太多的不一样,如果非要说区别的话,我个人认为 VUI 设计所接触和涉及的范围更广。主要有下面几个工作内容:

     

    进行用户研究,了解用户是谁,哪里的用户(环境),以及在系统和终端之间从开始到结束的整个对话过程;

     

    负责产品的原型设计(原型设计工具Mockplus)和产品描述,描述系统与用户之间的交互行为。

     

    描述系统与用户之间的交互行为并考虑需要处理的请求,通过分析数据来了解系统在什么地方发生了问题,最后进行系统问题的排查和改进。

     

     

    如何更好的理解用户想做什么

     

     

    动手设计之前,有经验的 VUI 设计师会先解构该预设行为。通常,用户的一个语音指令会包含三个关键因素:意图、表达方式、特殊要求。

     

     

    • 意图

     

    a. 明确意图:语音指令是一个具体的要求,如 “开/关灯,放音乐,查天气,等等。

     

    b. 模糊意图:语音指令比较模糊,可能指向多结果。如用户直接说 “好妹妹”,结果可能导向1)好妹妹乐队的音乐 2)好妹妹电台 3)通讯录联系人 4)设备昵称(误)。在还没有用户使用习惯的数据时,就需要补问用户,从而更好地理解和反馈。

     

     

    • 表达方式

     

    比如用户想要播放音乐,他可能会说“Hey Cortana, Play chill music on Spotify" 也可能会说 “Hey Cortana, I wannahear chill music"

     

    VUI设计需要考虑到指令的各种表达方式,这会帮助人工智能有效的反馈正确的结果。

     

     

    • 特殊要求

     

    “Hey Cortana, play (chill) music on (Spotify)"

     

    “Uber me to home at (6 p.m)"

     

    上边例句中,括号内均为该指令的特殊要求。(放松)或(激情)的音乐;

     

    (Spotify)或(iHeatradio)作音乐提供商;(下午6点)或(下午7点)打车。

     

     

    展开全文
  • VUI(语音界面技术)设计这是一本全面权威的VUI设计指南。书籍介绍了VUI的一些基本常识,所采用方法的主要阶段,用例子的方式详细讲解了设计阶段的各个问题,最后讲了系统的测试和查找解决问题的方法。: Detail:...
  • 从GUI(图形交互界面)到VUI(语音交互界面),是人工智能应用的...小i机器人项目实施服务中心交互场景设计部高级VUI设计师Miss KK亲自告诉你自己的心得。Miss KK有着和工作能力成正比的“令人羡慕到发指”的发量...
  • Visio设计产品流程图

    千次阅读 2018-08-25 15:41:26
    Author: LiChong0309 Label: : Basis of Computer 产品流程图: 流程图元素定义: 分类 业务流程图(梳理战略) 任务流程图(梳理操作方式... 产品中设计的流程图主要有三种:  业务流程图  任务流程图 ...
  • 【转】浅说语音用户界面:VUI+GUI

    千次阅读 2018-01-12 11:05:13
    语音用户界面(VUI)A voice-user interface (VUI) makes human interaction with computers possible through a voice/speech platform in order to initiate an automated service or process
  • 再看语音交互设计

    千次阅读 2019-08-20 22:02:00
    行动是最好的思维方式。 赋能是人工智能对人类最重要的事情,而智能语音...但是,语音交互设计并不是新兴的技术,在20多年前老码农刚刚参加工作的时候就可能已经存在多年了。 从IVR 系统看起 交互式语音问...
  • 小友VUI SDK 初探

    2018-11-02 10:46:59
    小友VUI SDK 初探一、什么是VUI二、GUI的局限三、VUI的典型应用场景四、小友VUI SDK4.1 小友VUI SDK解决方案4.2 小友VUI SDK能力形态五、示例5.1基础功能5.2 高级功能六、传送门 一、什么是VUI VUI是Voice User ...
  • 视觉设计 基于 Vue.js 的高质量 UI 工具包
  • 对话脚本的撰写可以帮助我们挖掘一些容易被忽略的细节,而如何反馈和引导对话的进行也是VUI设计的重点和难点,后文中会详细说明反馈设计的原则和方法。 2.5 建立交互框架与流程 要建立VUI的框架与逻辑,首先...
  • 解构语音交互产品--认知篇

    千次阅读 2019-10-22 16:20:52
    办公场景/企业应用三、VUI设计的相关问题1.为什么使用VUI2.不适合使用VUI的场景有哪些四、VUI设计的挑战1.“无边界”设计2.“多场”交互的设计3.语音识别准确率4.语义理解5.多轮对话问题6.核心场景和与用户持续互动...
  • UI设计起源及发展

    2020-11-03 15:38:29
     用户界面是应用程序,网页或设备上的人机交互(或在VUI中是口头-听觉交互)的点。这可以包括键盘,显示屏和桌面外观。  用户界面元素通常属于以下四个类别之一:  输入控件,允许用户向系统中输入信息,例如,使...
  • 前面几篇文章中讲了语音产品的一些认知,技术实现原理和VUI设计原理。本篇梳理设计对话产品的流程。 目录一、VUI设计流程二、业务需求分析1.目标与功能2.定义机器人角色Persona3.早期测试:Wizard of Oz(绿野仙踪...
  • 语音用户界面(或VUI)是一种交互模型,在该模型中,人与机器进行交互,并至少部分通过使用语音来执行一组任务。 实际上,这种方式的交互式语音应答(IVR)系统在银行业和旅游业中已经得到了广泛的应用。这些系统...
  • 本文由作者Sabaku_no_Gaara于社区发布本章为读者创建一个 VUI 系统打下了基础。以专题形式,阐述设计工具、会话信息确认、错误行为处理,以及如何处理新手用户和专家用户等基...
  • 控件可以有自己的属性和方法,其中属性是控件数据的简单访问者,方法则是控件的一些简单而可见的功能、控件创建过程包括设计、开发、调试(就是所谓的3Ds开发流程,即Design、Develop、Debug)工作, 然后是控件的...
  • 本系列文字是一位创业者的投稿《面向NLP的AI产品方法论》,老曹尽量不做变动和评价,尽量保持系列文章的原貌,这是第2篇。设计语音技能跟软件开发一样集体协作完成,本文主要讨论,产品经理在业...
  • VUI语音交互设计 Voice User Interface Design: Moving from GUI to Mixed Modal Interaction Authors: Dasgupta, Ritwik Presents real-world applications to teach you the principles of VUI design and ...
  • 设计系统简史

    2021-07-08 16:33:15
    我第一次听说“设计系统”这个概念是在2016年初,契机是在某设计师招聘要求的栏目中看到了“熟悉至少一种设计系统,例如 HIG 或者 Material Design”。 然后我就认认真真把 Material Design Guideline 看了一遍,记...
  • 在这里,您将找到我们的VUI设计人员用来绘制所有场景的情节提要和用于使用构建自己的情节提要的模板。 我们在周三和周五@太平洋时间在频道上直播此技能。 您可以在时按需查看以前的剧集。 Alexa技能使用说明 该...
  • VUI设计原则 在讨论设计原则之前,对VUI的设计,有几个前提:第一,语音交互过程通常要短,并保持最少的来回对话次数;第二,即使正处于忙时,并且没办法集中注意力时,用户仍然能够通过对话来完成任务;第三,完成...
  • 语音交互设计的一点认知

    千次阅读 2020-01-12 21:21:00
    语音用户界面(或VUI)是一种交互模型,在该模型中,人与机器进行交互,并至少部分通过使用语音来执行一组任务。实际上,这种方式的交互式语音应答(IVR)系统在银行业和旅游业中已经得到了广泛...
  • 长语音识别体验 重点 (Top highlight)“Voice User Interface (VUI) Designer” is an increasingly prominent job title in the tech world. A VUI designer typically writes the conversation and designs the ...
  • 我第一次听说“设计系统”这个概念是在2016年初,契机是在某设计师招聘要求的栏目中看到了“熟悉至少一种设计系统,例如 HIG 或者 Material Design”。 然后我就认认真真把 Material Design Guideline 看了一遍,记...
  • 半木zxy:O’Reilly最近发布的2017年设计岗工资调查显示,不仅在UX中工作的设计师工资最高(89,000美元),而且采用Sketch等新工具和敏捷的迭代工作方式能吸引最高的薪酬。在本文中,我们将探讨更广泛行业中UX设计的...

空空如也

空空如也

1 2 3 4 5 ... 19
收藏数 371
精华内容 148
关键字:

vui设计