利用灵活的音频技术实现人与人之间的通信
发表于 2021-10-12 14:34:39

在本公司的音频技术系列中,DSP Concepts公司提供了一篇关于为家庭音频构建语音助手的博客,接着又发布了语音用户界面基础:第一部分构建模块以及语音用户界面基础第二部分设计最佳波束形成器。对于Qualcomm technologies的音频产品而言音频技术在为各种产品提供清脆、清晰的听觉体验方面具有重要作用。我们很高兴DSP Concepts公司能够成为本公司生态系统一部分,该公司是一家领先的音频开发工具供应商。

在后续的客座博客中,DSP Concepts公司的团队解释了人与人之间通信和人机之间通信的区别,以及在选择音频前端时如何应对噪音抑制的挑战 – 进行数字信号处理时需要清除麦克风信号,以确保可能的最佳传输效果。

人机之间,人与人之间

语音助手设备在许多方面不同于语音通信设备,因此需要特别注意对音频前端的开发。

语音助手在本质上属于一种机器听众,这种设备可以理解语音命令,并利用合成声音、音频提示或视觉反馈做出回应,从而促进人机通信。机器必须捕获到命令的意图,以便对用户做出准确响应。虽然环境噪声抑制对于在将传入音频传递到本地或云命令处理引擎之前清除传入音频是必要的,但为语音呼叫提供可理解唤醒词和命令所需的处理可能比为人类听者提供可理解语音传输所需的处理选择性更低。

另一方面,语音通信设备支持人与人之间的通信,同时期望两端的人类听众需要听到可识别的清晰声音,同时没有伪影或干扰的背景噪音。对于人类听众而言,听众疲劳是一个值得关注的问题,用户可能会感到不适,对特定的声音或频率范围过度敏感或失去敏感性。虽然机器听力不需要消除失真和回声等语音伪影,但这些伪影会显著增加语音通话中的听众疲劳。因此,用于语音通信的音频前端必须能够传送可识别的语音,以尽量减少各种干扰,同时获得听起来很自然的声音。

在下文附表1中显示了人机通信和人与人通信之间的比较情况。 

Factor

Voice User Interface / Voice assistant (Human to Machine)

Voice Communication (Human to Human)

仅传输人类声音。仅接收机器回应。

目标为实现机器可识别性,而不是语音质量。 

全双工通信,由所有各方共同传输和接收人类声音。

语音质量至关重要。

Audio Quality

在机器上,麦克风(输入)处理应当优先于扬声器或回放(输出)处理。

麦克风(输入)和扬声器(输出)处理均都需要一次可以识别的双向对话。

重要性不高,不需要消除

需要减少到最低限度

需要抵消30- 35分贝的音乐干扰回声

需要抵消50+分贝的回声

不存在

需要双重对话支持,以进行自然、简洁的双向通信 

需要使用自适应干扰对消器(AIC)等技术,以抵消背景中的大声播放或客厅噪音

需要复杂的算法来抑制环境噪音以及瞬态噪音,例如键盘点击,打字等。

通常不需要自动增益控制

需要补偿语音水平的变化

主要为半客观指标,如错误拒绝率(FRR)和响应准确率(RAR)

需要满足严格的主观和客观基准。

必须满足Alexa语音服务(AVS0和谷歌语音助手(GVA)规范

取决于产业垂直

智能家庭用Alexa呼叫消息和公告(ACM)

微软团队会议认证

国际电信联盟汽车认证

显著提高测试时间,以调整客观指标。

由于测试设备较为复杂并且难以调整指标,因此较高

附表1。人机通信和人与人通信的比较 

语音通信使用实例

作为虚拟通信方面的最新趋势,语音通信方面的使用实例不断增加,从而提高了个人和工作效率,并促进了与家人和朋友之间的远程通信。根据用户和设备之间的标准距离,可以将使用实例分类如下:

  • 近距离交谈:用户的口部与设备麦克风极为贴近,例如耳戴设备和耳机。
  • 近场:用户距离设备不足1米,例如,内置在笔记本电脑中的麦克风阵列,或来访者对前门安全摄像头或对讲机讲话。
  • 中场:用户距离设备不足3米,例如坐在会议室对着电视摄像头讲话。
  • 远场:用户距离设备5米或更远,例如,用户在房间的角落与壁挂式会议室会议系统通话。

下文说明了各种语音通信使用实例的范围:

个人通信

如图1所示,利用个人通信设备可以进行近距离交谈和免提场景下的宽带语音通话。室内设备必须消除典型的平稳和非平稳噪音,才能确保最为有效。相比之下,室外设备则具有抑制风力和交通噪音等干扰的额外要求。

图1  个人通信实例

以下为个人通信设备的某些实例:

可穿戴设备和耳戴设备:可以在室内和室外环境下用于全双工语音通话的耳机和耳戴设备属于近距离交谈设备,必须能够抑制各种噪音情况。建议使用带有固定波束形成器的双麦克风阵列;当使用该类设备时,通过消除声学回声可以确保清晰的语音。佩戴在手腕上的耳戴设备只需要一个麦克风。

智能家居和家居安全:智能显示器和安全面板可以提供视频通话功能,并利用摄像头的平移和缩放功能,甚至机动底座(例如在亚马逊Echo Show 10上提供)提供用户跟踪功能。当用户从不同位置和距离讲话时,集成麦克风阵列应当在近场和中场范围内可靠地工作,并具有固定或自适应波束成形器。

智能电视和条形音箱:智能电视可以作为监控安全摄像头和利用视频通话设备的枢纽。类似Facebook Portal这样的产品可以与各种视频会议服务相连接,而且其使用距离可以超出智能手机或平板电脑的使用距离。该使用实例需要集成麦克风阵列支持客厅和家庭办公室中的中远场范围语音通信。

健康与健身:通过在家中使用的智能健身设备,例如Peloton自行车,可以灵活地打电话给朋友或参加集体培训课程。这些新一代的健康与健身设备需要强大的音频前端进行近场和中场操作,以消除声学回声并抑制噪音,从而确保用户可以根据需要远离设备。

工作场所通信

工作场所和家庭办公室的协同增加了对清晰语音交流的需求。如图2所示,随着家庭办公设备(例如:USB扬声器和其他设备)的发展,远程会议已呈指数级增长。可以预期家庭办公设备将会不断发展,以应对混合工作环境的全新使用实例。

在工作场所通信中,语音质量最为重要。因此,Zoom和微软等主要厂商已经对设备供应商提出了认证要求。关于认证要求的更多细节将在下文中介绍。

图2  工作场所中个人通信实例

以下为工作场所设备的某些实例:

家庭办公室:会议设备包括通过USB、蓝牙或无线网络连接到笔记本电脑上的免提电话产品,带有内置麦克风阵列的笔记本电脑,带有集成麦克风的USB网络摄像头;所有操作都在近场环境中进行。诸如耳机之类近距离交谈设备也很常见。对于该类设备的关键要求在于,在全双工对话中保持自然的语音质量,同时没有键盘击噪音。

小型会议室:2-3人使用VoIP桌面电话、或桌面或壁挂式会议扬声器(有时连接到智能电视显示器)在小房间内举行的视频会议,需要清晰自然的语音通话。该类通话必须具有良好的双重对话性能,以便所有人都能在电话会议中同样清楚地彼此聆听。

董事会议室:在配备壁挂式会议系统或中央设置桌面会议扬声器的中型至大型会议室中,可以将音频系统整合到主单元中,或从主单元延伸到均匀分布在整个桌面或房间周围的额外麦克风上。该类系统的其他形式因素包括影吧,安装在天花板上的嵌入式或悬挂式麦克风,以及安装在其他地方的边界麦克风。

该类高端会议系统需要提供具有最高声音清晰度的全双工通话,以及自适应波束形成和扬声器处理等附加功能。此外,当用户位于房间的任何角落时,该类会议系统应该能够在远场可靠地运行。

游戏通信

使用有线或无线耳机进行游戏语音聊天为多人游戏交流提供了灵活性,但听众疲劳是主要问题所在。如图3所示,解决听众疲劳的可能方法包括具有集成麦克风阵列和处理功能的条形音箱、或配备了计算机监控器的扬声器。该类产品提供了近场和中场全双工通信功能,同时不需要耳机或头戴式耳机确保更高的游戏灵活性。通过有效的消除声学回声,即使连接的两端都具有音效并播放音乐,用户之间也可以进行清晰的语音聊天。

图3  游戏通信实例

公共通信

除了个人和工作场所通信使用实例外,面向公众的各种应用情况(例如零售亭和医疗设备)也可以从语音通信技术的改进中受益。

图4  公共通信实例

以下为公共通信设备的某些实例:

小亭:零售亭和客户服务亭通常指定用于近场范围,但根据位置情况可以有多种要求。室内亭需要消除典型的室内环境,如风扇噪音或干扰性扬声器,而室外亭也需要消除风力噪音。

医疗设备:远程医疗成为日益增长的一种趋势,而语音通信则是其核心,可用于住院病人护理或随访后的通信。从用于医院通信的近场可穿戴设备到用于与患者进行视频预约的护理呼叫站,全双工、高质量的语音呼叫是卫生保健提供者与患者之间有效沟通的关键。

语音通信处理

在设计语音通信产品时,首先要认真选择硬件和软件组件,以便在成本限制、形式因素、和使用实例范围内达到所需要的音频质量。

一个成功的产品设计应该有效地减轻声学回声、扬声器失真、和环境噪音,以提供自然、清晰和全双工的语音质量。为了避免使用多个软件解决方案来覆盖所需要的所有功能,在大多数设备中,语音通信的处理也应该与语音助手和回放处理共存。

在语音通信产品中,有多种不同的算法可以帮助实现无失真的全双工体验,包括DSP Concept公司的TalkTogetherTalk Together通过Audio Weaver系统(一种低代码、采用独立处理器的开发平台)对自然、全双工、人对人的语音通信进行处理,在设计和部署针对个人、工作场所、游戏和公共通信设备的语音通信处理时,可以消除复杂性和风险。

图5  DSP Concepts公司提供的Audio Weaver和Talk Together 

您可以在本公司的博客帖子《为家庭音频构建语音助手》中了解更多关于Talk Together和Audio Weaver及其组件的信息。

在此篇博客中没有提及、但是对音频前端非常重要的另外三个构建模块包括:

1. 即使双方的扬声器同时通话,全双工通信也可以提供清晰的语音质量。否则,您必须等到对方停止说话,您才能插话。

在存在近端信号(本地用户的声音)的情况下,如果远端信号(来自远程呼叫者)引起回声,则负责自动回声消除的自适应滤波器无法准确预测回声路径。这种干扰不仅会导致预期的回声被抵消,还会影响到对话的可识别性。系统延迟和环境噪音状况会加剧双重交谈情况,从而进一步影响通信质量。

带有双重交谈检测的自动回声消除常用于办公环境中的会议解决方案。但是,智能健身设备等应用需要先进的回声消除方法,以便在播放背景音乐的情况下,消除小组会议通话中的双重交谈情况,这种情况在公共区域经常发生。

2. 噪音抑制通过消除固定的环境噪音(例如:暖通空调或风扇噪音)、瞬态噪音(例如:键盘击)、和非固定的背景噪音(例如:吵闹的干扰音乐),以保持语音通话中的语音质量。单麦克风解决方案包括单通道降噪(SCNR),可以抑制最高10分贝的稳态噪音。相比之下,多麦克风解决方案包括波束形成器、单通道降噪、以及其他基于机器学习的噪音处理,可以消除难以清除非稳态和瞬态噪音,从而传送无噪音信号。

Multiple noise suppression modules are available in TalkTogether, including:

Talk Together提供了多种噪声抑制模块,包括:

1. 去混响模块可以消除紧密封闭空间中的混响效应,例如具有反射墙的办公室或客厅。Talk Together的去混响模块扩展了回声消除器在小型会议室会议和游戏场景中的性能,以提供可靠的语音质量。

2. 风力噪音抑制模块能够在极端风力噪音状况下传送清晰的语音,将语音通信能力扩展到户外应用,例如安全摄像头、视频门铃、和耳戴/可穿戴设备。

  1. Keyclick Removal eliminates annoying keyboard and mouse clicks from the participants in a conference call.

3. 键盘声消除模块可以消除与会者在电话会议中烦人的键盘和鼠标点击声。

4. 输出和输入信号的自动增益控制(AGC)模块可以确保动态调整电平的快速变化,从而实现更加一致的语音电平。自动增益控制模块在与会者与设备之间存在不同距离的会议应用中特别有用。

主动调优噪声抑制模块和自动增益控制模块可能会降低语音质量,导致从而产生静音效果。因此,必须仔细调整这一处理功能,同时满足响度和失真要求。此外,会议服务(例如:谷歌Meet)也可能应用噪声抑制模块。这种级联信号处理功能可以导致对已经清晰的信号进行额外的降噪,最终降低语音质量。

3. 扬声器处理包括均衡器(EQ)、动态范围压缩(DRC)和自动增益控制,可以对远程呼叫者的信号进行动态均衡,并为本地用户提供清晰、无失真的语音。可以利用Audio Weaver中提供的500+音频处理模块进一步扩展Talk Together扬声器的处理功能,以提高应用情况所需要的语音质量。

如要将上述语音通信处理功能整合到最终产品中,需要认真选择和调优硬件和软件组件,以减少实施风险和上市时间。语音通信、语音用户界面和播放功能的无缝整合需要开发人员做出明智的选择,从选择音频开发系统到确定调优和调试策略,以满足行业标准的要求。以下部分说明了设计具有低风险和复杂性的高质量语音通信产品的工作流程,从而可以加快实现商业化的进度。

设计工作流程

在设计您的音频前端时,需要考虑以下几点。如要了解更多细节,请查看本公司的博客《为家庭音频构建语音助手》。但是,先让我们快速浏览一下与上文涉及的使用实例相关的若干注意事项:

部件选择:任何语音产品的设计规范均由其形式因素确定。从微型TWS耳机到大型会议室会议扬声器和公共通信亭,处理器、麦克风、扬声器部件和软件算法的设计选择决定了最终的音频质量。该类部件包括:

麦克风阵列的选择 – 麦克风阵列几何形状和麦克风的选择取决于产品的形式因素和性能要求。一个单麦克风或双麦克风线性阵列应该足以满足消费者的会议产品需要,即处理径直坐在设备前面的用户所输入的语音。同样,壁挂式设备的用户可能位于中场至远场范围内,因此该产品的线性麦克风阵列可以提供所需要180度操作区域。

桌面扬声器一般适用于360°的操作区域。但是,麦克风阵列的几何形状可以根据产品是否用于近场和远场范围而有所改变。在该类产品中,麦克风的数量和选择的阵列几何形状取决于预期的距离。一个双麦克风阵列可以满足近场范围的要求,而对于中场至远场范围内所期望的有源性能等级,则必须提供具有DoA和自适应波束形成的4麦克风延龄草形阵列或圆形阵列。

处理器选择 – 设计性能取决于算法的选择,而算法可以根据所选平台上可用中央处理器时钟速度和内存的约束条件进行定制。利用一个或两个麦克风和固定波束形成器、回波消除器等基本模块进行语音通信的设计可以在单片机(MCU)上运行。整合了高级自动回声消除算法或支持语音激活与Talk Together的设计需要在片上系统(SoC)或数字信号处理器(DSP)上运行。对于所构建的产品具有多种形式因素的原始设备制造商而言,与处理器无关的音频开发平台可以避免延迟,并确保快速迭代和评估。

此外,产品设计可以受益于使用集成音频数字信号处理器和高音频接口通道计数的片上系统。Qualcomm® QCS400系列智能音频片上系统配备了具有双数字信号处理器的高性能、低功耗架构,无线网络和蓝牙连接,支持多达32个通道的强大音频功能,以及单一芯片上的Qualcomm® 人工智能引擎。

附图1:Talk Together方框图

快速原型开发:设计任何音频产品都是一项具有挑战性的任务,需要很长的设计周期和多次迭代的原型开发、设计验证测试(DVT)、工程验证测试(EVT)、和生产验证测试(PVT)阶段。但是,利用Audio Weaver这样的灵活平台,可以在原型开发阶段尽早降低风险。快速原型开发可以实现设计的快速开发、测试和迭代,而这正是根据所需设计规范或形式因素构建语音通信产品的关键。

设计小型会议电话的一个主要困难在于减轻设计中使用的小型扬声器所造成的失真。在早期阶段进行严格的原型开发有助于优化失真指标,降低后期更改设计部件所涉及到的风险。同样,麦克风和扬声器部件在产品上的位置,麦克风的几何形状,等等,应该在原型开发阶段确定,以减少潜在的障碍。

设备认证:设备原始设备制造商必须通过多项行业认证,以强调其产品已经满足Alexa 通话、信息发送和公告(ACM)以及微软Teams认证。音频开发环境应该确保设计人员能够轻松进行设计调试和调优计,以通过多种认证。

Audio Weaver的实时图形界面有助于开发人员以最小的成本和开发时间创建音频产品,从而通过多项行业标准认证,例如ACM和微软Team认证。此外,Audio Weaver提供了一个平台,设计从单麦克风到多麦克风架构的所有关键设计方面。Audio Weaver确保开发人员能够针对麦克风阵列选择、部件设置位置和算法定义快速进行原型开发和硬件设计验证。

附图2:Audio Weaver设计人员

调试和调优:就成本和时间而言,音频系统调优是开发团队的一项重要投资。语音通信设计必须满足声学性能指标,并优化目标硬件平台上的中央处理器和内存使用设计。音频系统整合了多个硬件部件,例如片上系统/数字信号处理器、麦克风、扬声器等,因此在最终形式因素阶段的调试问题更具有挑战性。

音频系统开发人员还应该考虑采用灵活的工具和方法进行音频产品的设计、测试、调优和部署,以避免生产延迟。音频开发环境应该具有内置的调试功能,以验证硬件目标上的功能和系统问题。其中包括排除机械设计方面的挑战,例如麦克风隔离、麦克风之间的灵敏度匹配、中央处理器时钟同步、音频延迟等问题,而这些问题可能会增加产品开发周期每个阶段的生产延迟风险。

参考设计

您是否准备好构建自己的语音通讯产品?参考设计是构建具有较短产品周期的语音通信产品的重要第一步。参考设计有助于对目标硬件进行概念验证,在将其整合到最终产品之前评估其声学性能。DSP Concepts公司在高性能平台上拥有多项Talk Together参考设计,例如Qualcomm® QCS405片系统SoC。关于此类参考设计的实例,请参看本公司Qualcomm® 智能音频400平台的产品简介。DSP Concepts公司的技术可以在ARM Cortex-A53处理器上运行,也可以在Qualcomm® Hexagon™ 数字信号处理器上运行。如将Hexagon 数字信号处理器用于Audio Weaver设计,则可以解放A53处理器,将其用于其他任务。

结论

尽管技术进步缓慢,但是语音通话技术已经存在了几十年。最近,使用实例的急剧增加为跨越个人、工作场所、游戏和公共通信部门的语音通信创新应用创造了有利的趋势。此外,消费者对通信设备音频质量的期望越来越高,要求提供具有一致用户体验和卓越音频质量的优质产品。因此,随着我们向混合型环境迈进,我们可以期待看到可用语音通信产品的发展。

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】