精华内容
下载资源
问答
  • 语音交互蓝皮书

    2018-08-13 11:35:39
    目前业界对手机端语音交互体验的研究还处在探索当中,没有系统梳理出 交互体验的规范。这份蓝皮书意在探索手机语音交互设计的规范,和更多的语音从业者(无论是产品设计者还是技术人员,抑或单纯对语音感兴趣的人士...
  • 百度语音交互体验蓝皮书,里面讲了很多关于语音交互体验的原则和案例,是难得的语音交互学习资料。
  • 只好改用百度语音,百度语音所有功能免费,功能也比较简单实用,包括语音识别,语音合成和语音唤醒,正好可以组成一套完整的语音交互功能。 效果图: 首先是语音唤醒功能,说出关键词即可叫语音识别,唤醒成功会有...
  • 这一章将进入机器人语音交互的学习,让机器人能跟人进行语音对话交流。这是一件很酷的事情,本章将涉及到语音识别、语音合成、自然语言处理方面的知识。本章内容: 1.语音交互相关技术 2.机器人语音交互实现 3....
  • 尤其是近几年来,语音交互一直是研究的热点,从天猫精灵,小爱音箱到『理解万岁』的TNT,都用到了语音交互。VUI(语音交互方式)不再依赖固定的路径完成操作指令,而且是每个人都可以有自己的方式和特色。1、什么是...

    从功能机时代到智能机时代,人与机器的交互方式一直在变化。尤其是近几年来,语音交互一直是研究的热点,从天猫精灵,小爱音箱到『理解万岁』的TNT,都用到了语音交互。

    01eb82c259670ea74a9f1c38c88d6453.png

    VUI(语音交互方式)不再依赖固定的路径完成操作指令,而且是每个人都可以有自己的方式和特色。

    894fbb3eb5a78707f5f7f3fc2e9ea14c.png

    1、什么是语音交互

    语音交互作为新一代的交互模式,通俗的讲,就是用人类最自然的语言(开口说话)给机器下达指令,达成自己的目的的过程,这一过程包括三个环节:能听、会说、懂你。

    e58a16a755a8fffd8a3e474f4a42ed81.png

    自动语音识别:Automatic Speech Recognition, ASR

    自然语言处理:Natural Language Processing, NLP

    文字转语音:Text to Speech, TTS

    2、交互方式强在哪里?

    在这里,小原引用TXD设计原则对语音交互方式进行优势分析(该方法可用在日常交互设计评判中)

    15d7e106d8d776a78a2ef7401d422759.png

    TXD设计原则

    784f1a91e3a99b12e81c63802acaf857.png

    faea1bbbe07189e4b821ad2ab63864cb.png

    GUI与VUI交互方式横向优势对比图

    总结来说,语音交互具备以下四点优势:

    ①输入更高效。研究结果表明,语音输入比键盘输入快3倍。如果你从解锁手机到设置闹钟需要两分钟,直接说一句话设置闹钟,可能只需要10秒钟;

    ②表达更自然。人类是先有语音再有文字,每个人都会说话但有一部分人不会写字,语音交互比界面交互更自然,学习成本更低;

    ③感官占用更少。一张嘴,将人的双手、眼睛从图形界面交互中解放出来,想象一下当你手握方向盘时,说一句话就直接接听电话、播放音乐,是不是更方便也更安全。腾出来的感官,意味着可以并行处理其他任务,理论上有更高的效率。

    ④信息容量更大。语音中包含了语气、音量、语调和语速这些特征,交流的双方可以传达大量的信息,特别是情绪的表达,其表达的方式也更带有个人特色和场景特色。当见不着面,听不到声音的时候,人与人之间的真实感就会下降很多。

    2、劣势

    语音交互走到今天,已经付出了非常大的努力,但依然是有多少人工,就有多少智能。

    2bcd8f2f639a4e505797e32a53598105.png

    033a939ca47c3ff324d91742c7240f02.png

    GUI与VUI交互方式横向劣势对比图

    总结来说,语音交互具备以下三点劣势:

    ①注意力障碍

    语音交互是非可视化的,带来的问题就是增加人的记忆负担。你打过银行的客户电话就知道,你必须集中精力听完语音播报之后才能做下一步动作,如果你比较着急的话,那你就会非常的难受。

    事实上,人在获取信息的适合,视觉要强过听觉。对于语音的效率问题,可以说是单方面的输入更高效,而双向互动反而效率不高。或者说,获取信息的时候,视觉有很大的优势,而声音的效率并不高(现实中为什么总会出现“打断”对话的现象,就是因为语音的表达效率不高,听者等不及)。

    ②心理障碍

    从心理感受出发,没有多少人愿意对着冰冷的机器说话,然后得到毫无感情的甚至是错误的回应。语音交互存在的另一个心理障碍是,语音交互的不可预设和预判性。

    不同的人,在同样的情境下都可能产生完全不同的行为和预期。这给设计者带来很大困扰,也为用户带来不确定性的担忧。在面对不可预知的状况下,设计者和使用者互相难以领会彼此的意图,就会形成一种博弈消耗。

    为了应对这种不确定性,可能导致系统必须通过更多的场景理解和上下文关系,去解析用户的意图来做出可能合理的信息反馈,这将进一步带来技术的复杂度。

    ③技术障碍

    语音交互为什么如此受到期待,是因为太富有想象空间了,能够让我们尽可能的释放被占用的感官。想象一下,你只说一句“订一箱牛奶”,快递就会在约定好的时间送过来,多美好的生活。现实生活中,人与人的交流,甚至一个眼神一个动作就可以引起对方的注意和反馈。

    而现阶段的智能音箱需要定义一个将助手从待机状态切换到工作状态的词语,即所谓的“唤醒词”,这是一个不得已而为之的蹩脚设计,你想做什么之前都要先来一句“小明小明”,这种叠词的对话方式特别让人反感。

    3、交互方式用在哪里?

    语音交互同互联网诞生以来用户就习惯的GUI界面交互相比,主要是输入方式不同导致的,最显著特性就是“解放了双手”——你在使用语音请求时,眼睛和手可以同时忙于其他的事情。

    b4c3bc44f48b84e41fe84247ba6baef9.png

    ①家居:在家庭“相对封闭与安全”(特指针对语音信号采集的干扰程度),通过语音交互指令控制家居开关是很好的切入点。相信在不久的将来,搭载了语音交互系统的智能家居,都可以听你的话,你说所说的每个指令,都会直接影响/控制到当前家居的运行状态。“你可能越来越惬意,也可能越来越懒……”

    fea8dd7d4b791c789bb54fae8770c056.png

    ②车载出行语音交互系统:释放了驾驶员的手和眼,让司机专注于前方的路况,如接听电话、开关车窗、播放广播音乐、路线导航等语音交互指令。

    53fa01b486f937fb453793e7f3f6528d.png

    ③企业应用:未来会有各种各样专业的知识工作者会在或大或小的程度被简化或者被替代,比如文本、数据的录入工作,比如客服机器人。但,极不太可能的是直接对着一个设备吼两嗓子做一个PPT的方式。

    3f7f5c6310e69809ae79b93cd8fb2ac3.png

    ④医疗&教育:如语音记录病历,不管对医生来说还是患者来说,都是提高看病效率的很好的辅助手段之一。以目前的技术条件而言,单向的指令性动作是最适合语音来表达的,因为它足够清晰和直接。

    5d063d4712d8bba106474ad00bd91968.png

    4、语音交互涉及技术

    43ea3a7d0c1dd52a36ee9839601e779e.png

    语音所涉及的技术模块有 4 个部分,分别为:

    自动语音识别:Automatic Speech Recognition, ASR

    自然语言理解:Natural Language Understanding, NLU

    自然语言生成:Natural Language Generation, NLG

    文字转语音:Text to Speech, TTS

    118184695b33c825c2e0d989cdc83b29.png

    上图即为语音交互技术包括的识别、理解和对话三个部分。

    整个过程通俗的说,就是通过麦克风让机器能听到用户说的话,然后听懂用户想要表达的意思,并把反馈的结果“说给用户听”。

    a002c3847a8c761af2ab6f877f6444be.png

    小明:明天什么天气?

    助手:晴,37摄氏度。

    整个过程分解之后,就变成这样一个过程:

    a.小明对着机器说一句话后,机器内置的麦克风识别到小明说的话,把口语化的文本归一、纠错,并书面化(ASR相当于耳朵);

    b.机器根据文本理解小明的意图并进入对话管理(DM相当于人脑)(当意图不明确时,还需要机器发起确认对话,继续补充相关内容,这就是多轮对话)

    c.在明确小明意图后,去获取相关的数据,或者执行相关的命令;

    d.最后通过TTS将文本信息合成为声音,通过扬声器播放给小明听(TTS相当于嘴)

    至此完成一个完成对话过程。

    好了,今天的分享就到这里了

    大家有任何疑惑可以随时联系小原

    下期再见,一同学习设计相关知识吧~

    展开全文
  • 为了实现煤矿灾害救援过程中指挥中心与伤员或者现场救灾人员的语音交互,设计了煤矿救援机器人的语音交互单元,并通过实验证明了方案的可行性、实用性。该单元主要由光纤传输装置、语音控制电路、语音存储与录放电路和...
  • 再看语音交互设计

    千次阅读 2019-08-20 22:02:00
    声音一直是人与人沟通的核心,而今也成为了人机交互的核心——智能语音交互。早在2016年,google声称其搜素请求中有20%是通过语音完成的。但是,语音交互设计并不是新兴的技术,在20多年前老码农刚刚参加工作的时候...

    行动是最好的思维方式。

    赋能是人工智能对人类最重要的事情,而智能语音(例如DuerOS)正在为人机交互的方式赋能。声音一直是人与人沟通的核心,而今也成为了人机交互的核心——智能语音交互。早在2016年,google声称其搜素请求中有20%是通过语音完成的。但是,语音交互设计并不是新兴的技术,在20多年前老码农刚刚参加工作的时候就可能已经存在多年了。

    从IVR 系统看起

    交互式语音问答(interactive vocie response,IVR)系统的出现,代表了语音交互设计的第一个重要时期。它可以通过电话线路来理解人们的话,并执行相应的任务。早期的IVR系统中,需要为对话中的每个状态指定完整的语法规则。

    在设计IVR系统时,会确保每个状态都包含一组通用组件:重复、主菜单、帮助、操作和再见。除了允许用户的请求帮助,一个全局的“退出“机制也很重要。如果没有足够的上下文信息来帮助判断,系统就需要让用户来进行确认。如果系统存在一定的局限性,那么这时候就需要让用户来缩小范围。

    "提示"是指IVR系统对用户说的话,可以是一个或一些完整的句子,也可以是短语,比如数字、日期或产品。提示列表一般有以下几种用途:

    • 从配音者提供需要录制的文案列表

    • 从用户哪里得到确认

    • 为TTS引擎提供输入

    在IVR系统设计的时候,我们已经了解到了将已经收集到的信息传递给用户、通过恰当的提示以获得特定回应、通过日志信息分析和改进系统,以及设计人物模型。这些方法对于如今的智能语音交互同样有着借鉴的意义。

    从人们的交谈看语音人机界面(VUI)

    当人们愉快地交谈时,交谈中通常包含一些关键要素:情境感知(关注你和周围的环境)、关于之前交流的记忆,以及相关问题的交流。人们对计算机和其他技术的反馈所使用的社会规则和期望,等同于与人类交往时所使用的社会规则和期望。

    VUI 思考的是在系统和终端用户间,从开始到结束的整个对话过程,思考正在解决的问题以及用户需要什么来达成他们的目的。VUI需要进行用户研究来了解用户(对方)是谁,进而通过设计、产品原型和产品定义来描述系统和用户之间的交互行为。

    VUI 通常用于单轮任务。不用强迫用户展开新一轮对话,而是去尝试了解用户的意图并允许用户继续交互。一般来说,让用户来决定对话要持续多久。如果你不能理解答案,就不要提问。如何你设置了可以完成某项任务的预期,请务必考虑与之相关(对称)的任务。

    VUI有着独特的优点:

    • 速度

    • 释放双手

    • 直觉性,每个人都知道如何说话

    • 同理心,语音中包含了语气、音量、语调和语速,这些特征传达了大量的信息

    凡事有两面性,VUI同样有着不适用的场景,例如:

    • 公众场所

    • 某些人不适应与计算机对话

    • 一些人更喜欢文字沟通

    • 隐私性的内容

    VUI往往是线性的,无法跳过。由于功能是不可见的,难以让用户通过视觉的方式来探索功能, VUI设计的主要挑战之一就是教育用户,告诉他们能做什么。

    VUI 可能的设计输出

    对于一个VUI项目而言,例如基于DuerOS的技能,其设计的交付内容可能包括:

    • 示例对话(可能包括真实的录音,特别是使用配音演员时)

    • 流程图

    • 提示列表(如果使用了配音演员或语录的语音合成片段)

    • 界面原型(如果这是一个多模态的应用)

    示例对话是第一要素,一般可以挑选5个最常见的使用场景,然后为每一个场景写一些最优路径的示例对话。

    流程图是用于展示VUI系统所有可能发生路径的图示,详细程度取决于所设计的系统类型。

    对于有屏设备而言,例如小度在家,线框图和原型在早期设计流程中也是非常重要的。

    VUI 的原型工具和传统的产品设计工具例如Azure 有些不同,国外的工具有wit.ai,dialogflow.com等,我们可以是百度UNIT平台作为对话的原型工具,当然,DBP平台的自定义回复功能,同样可以作为一个简单的原型工具。

    语音交互设计的原则

    保持用户参与度是最高原则,VUI设计应该围绕如何让用户进入下一步来进行,如果某些信息当前还用不到,就不要问用户。

    Paul Grice 于1975就提出了4个关于交互的合作准则:

    准则名称  内涵  错误用法 
    质的准则  所说的话需是自己相信的真实信息  宣传一件你做不到的事。例如,对用户说“有什么可以帮助您的”,而实际上整个VUI系统仅仅能够提供酒店预定服务
    量的准则  所说的话需满足交际中所需的信息量,但不应超出交际所需的信息量  多余的措辞。比如“请您注意听,应为我们的选项可能已经变了”(谁会想“啊,太棒啦!谢谢你告诉我”?) 
    相关准则  所说的话需与当前对话相关  给用户一些用不到的指示。比如在用户还没有下单的时候就开始解释退换政策 
    方式准则  说话需清晰,明了  使用用户难以理解的专业术语 

    对于无屏设备而言,DBP平台也给出了一些设计原则,例如:

    1. 保持简短,语音是短暂的、瞬变的、线性的。

    2. 保持自然

    3. 提供反馈

    4. 为解决歧义而设计

    5. 支持修正

    6. 注意时间的重要性

    7. 注意列表的困难性

    8. 注意文本转语音的局限性

    VUI设计中的确认策略

    在VUI设计中,最重要的是对用户问话的意图确认,也就是说,系统要向用户确认是否真正理解的是用户的意图。在决定VUI的确认策略时,要利用好能利用的一切感知通道,还要考虑:

    • 错误的后果是什么?(会预定错误的航班么?钱会被转移到错误的账户么?旅行者会听到错误城市的天气预报么?等等)

    • 系统将以什么形式进行反馈?(会有音频提示么?会有非文本的视觉反馈么?)

    • 会有一个小屏幕的显示反馈么?如智能手表或者手机中的弹窗

    • 以什么形式来确认是最合适的?(明确的确认还是隐性的确认,或者混合式的确认?)

    在确认用户的意图的时候,一般有以下几种策略:

    策略一:三级置信度

    系统在一定的阈值内(例如,45%~80%),以明确的形式确认信息,拒绝较低置信度的信息,并以隐性确认来确认超过80%阈值的信息。

    策略二:隐性确认

    连同原始问题的一部分一同回复,让用户知道系统识别到了用户的问题。

    策略三:非语言式确认

    仅使用行动进行反馈,尤其对智能家居的技能。

    策略四:通用确认

    通常应用于与用户进行开放式聊天的对话系统。

    策略五:视觉确认

    人类的记忆能力是有限的,通常用户一次性不能记住超过大约7个听觉项目。语音交互界面稍纵即逝的特征,明显为用户提出了很高的认知要求,所以使用视觉确认在很多情况下利大于弊。

    在隐性确认的情况下,可能需要允许用户取消或者后退一步。

    VUI中的语境

    语境意味着系统需要知道对话相关的信息是什么,并且知道之前发生过的对话内容。离开了语境,就不可能理解话语背后的意义,对于语音交互设计而言,最重要的一点就是能利用已知的对话,可以针对以下情况结合人工智能和情感分析进行反馈:

    • 用户的行为

    • 用户的无行为(迟钝)

    • 用户过去的行为

    • 用户的一系列行为

    • 用户所处的实际时间和空间

    • 不同使用者所处情境与行为的比较

    运用情感分析可以使VUI更智能,更具有同理心。在一段文本中对表达的观点进行定义和归类,可以用于确定用户对某一特定主题、产品以及其他内容的态度是肯定的、否定的还是中性的。情感分析的关键原则:宁求稳健,不愿冒险。

    关于多轮对话

    多轮对话,是VUI设计中的一个难点,因为用户的语音输入往往是不可控的。最简单和最自然的话术转换技巧就是“问一个问题”,当然,不要问那些你都无法理解对应答案的反问句。

    对话式中的某些关键词是让用户了解交谈进展以及进展情况的重要方式,包括以下三个方面:

    • 时间线(首先,完成一半了,最后等)

    • 接收回执(谢谢,知道了,好的,以及 很抱歉等)

    • 积极反馈(不错,干得好,很高兴听到这个消息等)

    在多轮对话中允许用户打断系统非常重要,但需要注意:

    • 最好不要使用系统打断功能

    • VUI说完后,需要进入“倾听”模式

    • 轮到用户说话时,最好有视觉指示器

    • 一个明显的提示,提示用户轮到他说话了(问一个问题或指令,如“能详细说一说么”)

    对话管理就是系统对既往会话中已产生的信息,以及在后续对话中所需要的信息进行管理的行为,在DuerOS中的对话管理由Dialog 和Session表示。只要问题与问题之间看起来是相关的,并且用户觉得问题能一步一步得到解决,用户可以容忍很多问题。

    关于可视化反馈

    交互方式正在从单纯的视觉、硬件交互转化为多感官综合的交互,这种交互模式的本质是“关系”。VUI无疑是最重要也是最自然的交互通道之一,但不要为了使用语音交互而使用语音交互。

    在某些对话系统中,显示用户所说的内容反而会分散用户的注意力,有时甚至留下负面印象。

    在某些情况下,让用户看到自己在说话可以提升参与感,可以考虑让用户控制是否开启这个功能。在DuerOS的有屏设备中设计多模态技能时,一般的VUI超时设置就不再适用,但还是需要记下app中用户长时间未应答的位置,因为在那里很可能有一个潜藏的问题,会造成用户困惑或让用户不愿意进行回复。

    VUI可以不使用虚拟形象,而使用抽象的可视化图像进行反馈。

    多通道、全链路、多角色,以及去中心化成为了设计的主旋律。允许用户同时使用语音和屏幕进行交互,是一种多模态界面(multimodal interface)。可视化组件可以让用户更从容地进行交互,视觉和语音的协同设计非常重要。

    关于容错处理

    任何时候都不要责怪用户,将错误归咎于系统是设计原则。下面在VUI可能出错的几种情况:

    • 未检测到语音

    • 检测到语音,但没有识别

    • 语音被正确识别,但系统无法处理

    • 部分语音识别错误

    人有许多方法来表明他们还不理解对方所说的话,最常见的(有效的)方式之一就是什么都不说。对于ASR工具识别错误的问题你并做不了什么,但可以通过N-Best列表和真实用户响应的数据分析来构建这类问题的解决方案。N-Best 列表 是一系列用户可能说的内容,并根据(通常是前5个或前10种可能)或按置信度排序。

    如果用户会定期使用你的系统,那么在设计中就需要包含一个不同的策略。VUI系统的目标不是简单地“训练”用户,而是应当适应用户的行为。当用户给出的答复对下一段对话内容并不重要时,可以设置一个通用的答案,也可以让用户知道,其他人也讲听取他们的答案。当发生歧义时,设立一个公用的列表,并通过进一步的询问来确认用户的真实意图。

    对于儿童类语音应用,整个交互流程不需要系统100%完美理解用户说的话就可以继续执行下去,最好能够提供图形化的选择。

    虽然处理否定词需要做些额外的工作,但一旦忽略它们就可能要付出高昂的代价。

    再看虚拟角色

    当人们知道他们是在和一个“机器人”说话时,会更加宽容。VUI系统的目标可能不是让人们误以为它是一个人,而是以高效、易用的形式,解决用户的问题。但是,没有人格的语音用户界面是不存在的。用户会通过应用的语音以及语言选择,推断出的人格或角色的标准化心理形象。

    因此,在考虑一个虚拟角色的时候,思考其背后的人格更加重要。在人格设计时,可能需要考虑:

    • 会让用户问虚拟角色自身相关的问题么?(例如:你最喜欢什么颜色?)

    • 如何处理粗鲁和粗俗的行为?决定如何对待辱骂性语言,对任何一支正在处理此问题的团队而言都是非常重要的。

    • 是否介意打破用户把VUI看作人类?

    一般的, 用文本列出药物时很好的选择,动画图解用于设备的使用说明非常有效,虚拟角色则有利于建立亲密关系。建立用户对虚拟角色信任感的方法是,适时遵循人类对话的惯例,保持用户意识错觉的建议:

    • 使用传达亲密感的对话

    • 确保虚拟角色在与不同用户交互式行为恰当

    • 确保对话看起来永不重复

    • 注意同时在线的用户数量

    • 注意用户的性别

    • 确保对话的表现是天衣无缝的

    • 当用户输入不能被识别时,避免虚拟角色的出现

    讲故事和参与式活动是使用虚拟形象的绝佳场景,使用真实的面孔是一种极好的吸引用户参与的方式,但成本也非常高。

    对一个成功的语音交互来说,虚拟形象并不是一个必要条件。但是,如果应用需要处理更敏感的话题(比如情绪或健康)时,务必识别出这些场景并妥善处理。人物模型的一致性使人们能在与它们沟通时得以预测接下来会发生什么,理想情况下,与其提高不同的声音或不同的虚拟形象,不如提高不同的人物模型,并且这些人物模型包含了不同的视觉和音频组件。

    凡事有两面性,人物模型的个性越鲜明,用户反应也会越极端。

    VUI的调研与评估

    VUI是持续演进和迭代的,可用性专家Jakob Nielson 推荐选择5名用户进行测试,他的研究发现,5人以上的测试并没有额外的益处,随着测试人数的增加,ROI会一落千丈。

    调查问卷的问题一般包含7个不同的维度:准确性,概念,建议提供(内容),易用性,会话的真实性,用户的好感度和视频流。受试者倾向于给出正面的回答,特别是在面对面的访谈中,大多数人会表现的更加友善,有时会对提供消极的反馈犹豫不决,也可能会夸大事物的积极面。受试者自己通常不会意识到这一点,但一个优秀的访谈者可以处理这些问题。在访谈过程中,用户应该可以从举行测试的人那里得到大量的线索。

    VUI测试有5个关键的衡量指标:准确性与响应速度,认知程度,清晰/混乱,友好度和声音。效果评估的指标可能包括:

    1. 任务完成率

    2. 流失率

    3. VUI的使用时长

    4. 语音打断

    5. 观察交互模式的占比:语音与GUI

    6. 高频次超时无应答和无内容匹配

    7. 延迟

    8. 完整的呼叫记录

    VUI的关键测试之一在交易式语音应答系统(IVR)中被称作“对话遍历测试”(Dialog Traversal Testing, DTT), 坚持完成,用户会感激你的细致和周全。大量的无语音超时式是提示语混乱的标志,当重现多模态App的对话是,展示屏幕交互也是非常必要的。

    其中性能在VUI项目的用户体验中占有重要的地位,一般地,延迟产生的原因有糟糕的连接性能 、系统处理进程和数据库访问等。关于智能语音系统的性能优化,可以参考智能音箱场景下的性能优化

    总之,语音交互设计的结果使得交互是省时、高效的,能够使用上下文语境,优先考虑的是个性化,而不是所谓的“个性”。

    参考资料

    • Cathy Peral(2018),Designing Voice User Interfaces:Principles of Conversational Experiences

    • Neilson,J(2012),“How Many Test Users in a Usability Study?”,https://www.nngroup.com

    • https://dueros.baidu.com/dbp

    • https://developer.amazon.com

    关联阅读

    展开全文
  • 课程传送门:【人工智能】智能语音交互技术与应用 - 阿里云大 如果说AlphaGo与世界冠军的巅峰较量给大家普及了人工智能的知识,那么苹果的Siri,则让所有人都见识了智能语音交互技术的强大。 国内,阿里巴巴在人工...

    课程传送门:【人工智能】智能语音交互技术与应用 - 阿里云大

    如果说AlphaGo与世界冠军的巅峰较量给大家普及了人工智能的知识,那么苹果的Siri,则让所有人都见识了智能语音交互技术的强大。

    国内,阿里巴巴在人工智能领域也有一些重要的成果,如果你关注阿里云的人工智能ET,那么你一定听说过ET模仿马云说话、在双11晚会上和观众互动变魔术、写春联等等,这背后就是阿里巴巴iDST技术团队研发的智能语音交互(Intelligent Speech Interaction)系统,其中包含了语音识别、语音合成、自然语言理解等多项技术。

    除了和用户进行互动外,阿里云的智能语音交互技术目前还应用在多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等。

    阿里云大学联合阿里巴巴iDST智能语音交互团队,为你讲解ET背后的技术。

    免费观看课程:【人工智能】智能语音交互技术与应用 - 阿里云大学

    课程介绍:

    第1讲:智能化从语音交互开始(主讲:初敏博士 iDST智能语音交互团队负责人)

    数据智能时代正在来临,语音交互是第一个爆发点,本课程主要讲解智能语音交互的应用场景、真实案例以及背后的核心技术。

    第2讲:语音识别技术及应用(主讲:雷鸣 iDST高级算法专家)

    本课程主要讲解语音识别技术的应用场景、技术路线、基本框架、典型的声学模型、工业应用的考虑、语言模型和解码器等,以及阿里云在语音识别领域的核心技术等。

    第3讲:人机自然交互平台技术及应用(主讲:千诀 iDST资深算法专家)

    本课程主要讲解人机自然交互技术的概览、自然语言理解的挑战、四大引擎(理解引擎、对话引擎、问答引擎、聊天引擎)、交互定制能力以及人机交互技术的应用等。

    第4讲:语音合成技术及应用(主讲:萧言 阿里云iDST高级算法专家)

    本课程主要讲解语音合成技术及应用,包括语音合成简介、基于HMM的语音合成技术、基于HMM波形拼接的语音合成技术、 深度学习在语音合成中的应用等。

    第5讲:智能语音交互产品介绍(敬请期待)

    第6讲:将应用接入阿里云智能语音服务(敬请期待)

    转载于:https://my.oschina.net/u/3579120/blog/1533172

    展开全文
  • 离线语音唤醒引擎SnowBoy可以实现离线语音热词的检测,可发起一个安全、完整的语音交互界面。 百度云语音识别API可实现在线的语音识别和语音合成功能。结合离线语音唤醒和语音识别技术可以实现完整、安全的语音交互...
     

    离线语音唤醒引擎SnowBoy可以实现离线语音热词的检测,可发起一个安全、完整的语音交互界面。
    百度云语音识别API可实现在线的语音识别和语音合成功能。结合离线语音唤醒和语音识别技术可以实现完整、安全的语音交互,实现语音机器人、语音控制等功能。
    获取更多信息请查看:https://github.com/dalinzhangzdl/AI_Car_Raspberry-pi
    一、snowboy介绍、安装与测试
    Snowboy 是一款高度可定制的唤醒词检测引擎,可以用于实时嵌入式系统,并且始终监听(即使离线)。当前,它可以运行在 Raspberry Pi、(Ubuntu)Linux 和 Mac OS X 系统上。唤醒词用于,发起一个完整的语音交互界面。除了此,唤醒词还可以用于其他用途,比如执行简单的命令和控制动作。在一个棘手的解决方案中,它可以运行完整的自动语音识别(ASR,Automatic Speech Recognition)来执行热词检测。在这种情况下,设备将在自动语音识别转录中观察特定的触发词。转录中观察特定的触发词。 另外,当使用基于云的解决方案时,它也不会保护您的隐私。幸运的是,Snowboy 被创造出来,解决这些问题。

    SnowBoy参考官网英文文档 http://docs.kitt.ai/snowboy/
    Snowboy 具有以下的特性:

    1. 高度可定制。允许自行修改和定义唤醒词。
    2. 一直监听,但是保护您的隐私。 Snowboy 不连接到网络,离线唤醒。
    3. 轻巧的、可嵌入,可以让您在 Raspberry Pi 上运行。轻巧的、可嵌入,可以让您在 Raspberry Pi 上运行。

    下面动手实践安装和使用snowboy,为我们的语音交互添加隐私保护功能。

    1. 电脑端下载snowboy的二进制文件

    https://s3-us-west-2.amazonaws.com/snowboy/snowboy-releases/rpi-arm-raspbian-8.0-1.2.0.tar.bz2

    1. 电脑解压下载的文件到snowboy,并上传至树莓派

    2. 确保树莓派安装好 ‘swig’,’sox’, ‘portaudio’, ‘atlas’。
      安装指令如下:

      sudo apt-get install swig3.0 python-pyaudio sox
      pip install pyaudio
      sudo apt-get install libatlas-base-dev

    3. 测试录音: rec temp.wav

    4. 测试没有问题后进入SnowBoy文件夹测试官方demo,测试时最好接上音频输出装置:
      命令:

      sudo python demo.py resources/snowboy.umdl
      说出唤醒词 “snowboy” 会触发唤醒系统,树莓派的音频会输出ding ding ding声
      测试界面

    二、离线语音唤醒控制LED灯
    本小节我们采用snowboy实现一个智能家居的一个小项目,实现语音唤醒控制LED灯。
    下面我们分析一下snowboy实现离线唤醒的代码:

    #_*_ coding:UTF-8 _*_
    # @author: zdl 
    # snowboy demo代码分析
    # 使用snowboy离线唤醒实现控制LED灯
    # reference: http://docs.kitt.ai/snowboy/#my-trained-model-works-well-on-laptops-but-not-on-pi-s
    
    # 导入SDK包
    import snowboydecoder
    import sys
    import signal
    
    interrupted = False
    
    def signal_handler(signal, frame):
        global interrupted
        interrupted = True
    
    def interrupt_callback():
        global interrupted
        return interrupted
    
    # 判断命令行执行指令是否传入唤醒词模型,无则退出程序
    if len(sys.argv) == 1: 
        print("Error: need to specify model name")
        print("Usage: python demo.py your.model")
        sys.exit(-1)
    # 唤醒词模型为输入的参数,这里可以进行修改
    #model = sys.argv[1]
    model = 'resources/snowboy.umdl'  # 修改model,指定其文件名
    
    # capture SIGINT signal, e.g., Ctrl+C
    signal.signal(signal.SIGINT, signal_handler)
    
    # 唤醒词检测函数,调整sensitivity参数可修改唤醒词检测的准确性
    detector = snowboydecoder.HotwordDetector(model, sensitivity=0.5)
    print('Listening... Press Ctrl+C to exit')
    
    # main loop
    # 回调函数 detected_callback=snowboydecoder.play_audio_file 
    # 修改回调函数可实现我们想要的功能
    detector.start(detected_callback=snowboydecoder.play_audio_file,
                   interrupt_check=interrupt_callback,
                   sleep_time=0.03)
    
    # 释放资源
    detector.terminate()
    
    

    结合demo函数的分析,实现属于自己的语音唤醒平台,我们只需要修改三个参数:
    1、修改model model = ‘resources/snowboy.umdl’ # 修改model,指定model文件名
    2、修改热词检测灵敏度,detector = snowboydecoder.HotwordDetector(model, sensitivity=0.5) # 修改sensitivity的值
    3、修改回调函数 detected_callback= own_callbacks

    下面实现离线唤醒触发点亮LED灯:这里我们依然采用snowboy官方的唤醒词模型snowboy.umdl,只是修改回调函数,程序如下:
    1、定义own_callback

    def own_callback():
    LED.lighton()  # 点亮LED灯
    

    2、修改detected_callback

    detected_callback = own_callback    # 注意回调函数后面不在加括号
    

    三、语音控制及语音机器人
    结合语音识别和离线语音唤醒的知识,实现一个语音唤醒和语音控制的综合性实验控制LED灯的开关,本实验的LED灯不是220V家用的,如果需要扩展,添加一个继电器即可。下面我们需要将语音唤醒和语音识别结合起来,并采用我们自己个性唤醒词。上一节探讨过使用语音唤醒实现LED灯的控制,我们只是简单的修改了回调函数就实现了功能。那么如何实现语音唤醒和语音识别的结合呢?下面可以分析一下。
    语音唤醒的流程如下图:
    语音唤醒流程

    有了这个图是不是比较直观,我们把语音识别放在回调函数中即可实现语音唤醒和语音识别的功能,snowboy和语音识别都是采用pyaudio录音,如果同时使用会出现设备冲突,所以在使用语音识别之前需要关闭snowboy功能,语音识别完毕打开snowboy功能即可。所以回调函数的编写就比较清晰,程序流程图如下:
    语音唤醒+语音识别交互控制
    结合上述的流程图,可以很清晰的实现语音交互控制,所以我们基于上面的流程图实现一个语音交互机器人,可以实现简单的语音对话,语音控制,天气查询等功能。下面附上主程序的源码:

    #_*_ coding:UTF-8 _*_
    # @author: zdl 
    # 实现离线语音唤醒和语音识别,实现一些语音交互控制
    
    # 导入包
    import snowboydecoder
    import sys
    import signal
    import record_monitor as recordMonitor    # pyaudio语音监测程序
    
    interrupted = False
    
    def signal_handler(signal, frame):
        global interrupted
        interrupted = True
    
    
    def interrupt_callback():
        global interrupted
        return interrupted
    
    #  回调函数,语音识别在这里实现
    def callbacks():
        global detector
    
        # 语音唤醒后,提示ding两声
        snowboydecoder.play_audio_file()
        snowboydecoder.play_audio_file()
    
        #  关闭snowboy功能
        detector.terminate()
        #  开启语音识别
        recordMonitor.monitor()
        # 打开snowboy功能
        wake_up()    # wake_up —> monitor —> wake_up  递归调用
    
    # 热词唤醒    
    def wake_up():
    
        global detector
        model = 'snowboy.pmdl'  #  唤醒词为 SnowBoy
        # capture SIGINT signal, e.g., Ctrl+C
        signal.signal(signal.SIGINT, signal_handler)
    
        # 唤醒词检测函数,调整sensitivity参数可修改唤醒词检测的准确性
        detector = snowboydecoder.HotwordDetector(model, sensitivity=0.5)
        print('Listening... please say wake-up word:SnowBoy')
        # main loop
        # 回调函数 detected_callback=snowboydecoder.play_audio_file 
        # 修改回调函数可实现我们想要的功能
        detector.start(detected_callback=callbacks,      # 自定义回调函数
                       interrupt_check=interrupt_callback,
                       sleep_time=0.03)
        # 释放资源
        detector.terminate()
    
    if __name__ == '__main__':
    
    wake_up()
    
    
    

    这几句代码实现了重复语音唤醒的功能,snowBoy和语音识别都采用pyaudio实现录音,一起使用时会抛出IO异常,所以需要先关闭snowboy功能然后开启语音识别功能,语音识别完毕需要释放pyaudio,然后开启snowboy功能。语音识别和语音控制的都封装在monitor()函数中。

    四 语音控制小车
    程序实现思路

    展开全文
  • 重庆大学硕士学位论文 中文摘要 摘 要 仿人...人的语音交互系统 论文首先分析语音交互系统的需求确定仿人机器人语音交互系统需要实现 的功能和满足的要求然后根据功能将硬件平台分为几个子系统主要包括语音硬 件上
  • YODAOS - 面向下一代交互设备的开源语音交互操作系统
  • ROS语音交互

    2019-09-10 09:47:56
    语音交互功能: 根据https://code.corvin.cn/corvin_zhang/ros_voice_system开源代码进行改编; (1)准备工作:申请科大讯飞帐号,下载SDK 注意选对sdk版本,以及选择好对应的功能 (2)准备工作:申请图灵...
  • 通过国内外车载导航系统的功能对比可知,支持语音交互是车载导航系统的一个发展趋势。另外,市场信息服务公司J.D Power and Associates的调研数据也表明,56%的消费者更倾向于选择声控的导航系统。因此,开发车载...
  • 语音交互行业报告(34页),资源名称:语音交互行业报告(34页)语音开启全新交互时代.zip...
  • Android添加语音交互

    千次阅读 2017-09-07 10:28:37
    Android添加语音交互
  • 上图展示了智能语音的界面架构,从中可以看出,语音交互所涉及的技术模块有 4 个部分,如下图所示: 首先,通过应用自动语音识别技术听到用户说的话,然后应用自然语言理解来分析语句的含义,随后用自然语言生成...
  • SLAM+语音机器人DIY系列:(七)语音交互与自然语言处理——2.机器人语音交互实现 摘要 这一章将进入机器人语音交互的学习,让机器人能跟人进行语音对话交流。这是一件很酷的事情,本章将涉及到语音识别、语音...
  • 前言 虽然说目前语音识别,合成这块技术已经很成熟了,没什么可以拓展的地方了,但是还是想自己...ros下的语音交互系统,原生态的主要是支持的一个叫cmu sphinx, 支持多种语言,英语和德语都是支持的。 比如...
  • SLAM+语音机器人DIY系列:(七)语音交互与自然语言处理——1.语音交互相关技术 摘要 这一章将进入机器人语音交互的学习,让机器人能跟人进行语音对话交流。这是一件很酷的事情,本章将涉及到语音识别、语音合成...
  • 语音交互的用户体验

    2020-07-06 15:52:33
    这个问题对于语音技术开发人员可能想的很少,尤其是当前语音技术处于一个时代的风口浪尖的年代,作为从业者,每天面对者五花八门的技术需求,我们缺乏时间思考什么才是好的,合适的语音交互体验,我们疲于应对客户...
  • 语音交互程序预览一、简介二、构成说明(一)语音识别与语音输出(二)命令读取模块三、功能说明四、模块下载五、示例完整版本六、补充:实现交互等待即唤醒 预览 测试预览,这是完整版本的4倍速度(加速是一件比较...
  • 近年来,由于深度学习技术、大数据、移动互联网、云计算等技术...智能语音技术在移动智能终端、车载语音交互、可穿戴产品、智能家居领域均有了迅猛发展,进一步推动了语音交互技术的发展和应用。智能语音发展情况...
  • 一般语音交互类产品中会涉及到语音唤醒、语音识别、语义识别、对话理解、语音合成等相关技术,对于这些技术细节博主不是这方面的专业人员了解的不多,但这并不影响应用开发人员去设计一个语音交互框架。 一个完整的...
  • 针对有限元分析过程的建模复杂的问题,提出一种智能语音交互的参数化有限元专家系统。通过对有限元分析过程的参数化、智能语音交互和知识重用的研究,描述了专家系统的功能和流程。将语音识别技术、专家系统技术、参数...
  • 国家标准起草资料 国家标准 信息技术 智能语音交互测试 第1部分语音识别 征求意见稿编制说明 一工作简况 根据国家标准化管理委员会2020年下达的国家标准制修订计划国家标准 信息技术 智能语音交互测试 第 1 部分语音...
  • 基于人工智能语音交互的养老服务平台要求.pdf
  • AI智能音箱语音交互性能测评报告,将详细阐述了发展现状、评测内容、问题情况以及国内发展趋势和改进建议
  • 云知声语音交互说明书_V1.4.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,328
精华内容 1,731
关键字:

语音交互