在科技日新月异的今天,人机交互的智能化与开放性已成为衡量技术先进性的重要标尺,人机交互方式正经历着革命性的变革。当前,视频云市场呈现出蓬勃发展的态势。随着5G、物联网、大数据等技术的不断成熟,视频应用场景日益丰富,从传统的娱乐、教育到新兴的智能制造、智慧城市等领域,视频云已成为连接物理世界与数字世界的桥梁。在这一背景下,人机交互的智能化需求愈发迫切,百度视频云互动大模型SDK应运而生,满足了市场对于高效、智能、开放的人机交互解决方案的需求。百度视频云互动大模型SDK作为这一领域的先锋产品,以其智能性和开放性为特点,为众多行业提供了全新的解决方案。
百度宣布其视频云互动大模型SDK成功适配鸿蒙操作系统,这一里程碑式的合作不仅标志着人机交互体验的全面升级,更开启了智能设备应用生态的新篇章。
一、互动大模型能力一览全
互动大模型是一种结合RTC(实时通信技术)、语音技术和大模型(如人工智能模型)的技术方案,旨在提供稳定、低延迟的大模型互动体验。大模型综合采用文字、语音、语气、姿态、表情、动作、环境等因素,构建了丰富的沟通语境,实现了接近真人般面对面的人机交互体验。
• 3个框架服务,即音视频增强服务、多模态大模型服务、云渲染流化服务。为大模型和智能体提供实时互动能力,提供3A处理、VAD增强、声纹识别、云渲染等实时互动服务。这样轻终端,重智能的部署方式,让大模型互动更流畅、更自然、更多维。
• 4个交互形态,即语音交互、视觉交互、数字人交互、任务交互。可针对各类场景,提供语音交互、视觉理解、数字人互动、复杂任务、内容资源、垂类应用等端到端的解决方案。并且满足超低延时、快速接入、开放可扩展等特点。
二、任务交互与全周期的多模态实时互动
在客户端,提供大模型互动的接口,支持多模态交互能力,如文本、语音、视频、图片等。SDK类型多样,以满足不同平台的需求。采用RTC协议,实现数据的低延迟传输。无论是采集或数据输入的各类媒体(文本、音频流、视频流、图片文件等),还是云端返送的文本、音频流、视频流、卡片多媒体内容,都能通过RTN网络高效传输。
云上承接,智能体互动引擎来处理大模型的交互逻辑和响应。它接收来自SDK的请求,通过任务交互让复杂的任务交给云,让我们的终端更轻便。
• 云上大算力:计算量大、复杂、耗时长的任务云上计算,作为终端的云端计算“伴侣”。
• 内容渲染:对接音乐、视频、页面、文档、图片等不同类型资源在云端渲染+流化;还可以直接操作屏幕。
• 轻端方案:新业务、新能力部署在云上,扩展性强,设备上无需升级,既是“超级入口”。
在链路中,多模态互动方案对全链路音频进行了优化,有效提升互动体验性。
• AI降噪:通过端侧和服务端的AI降噪算法,有效识别并消除常见的尖锐声、键盘声等非人声噪声,有效提升ASR识别准确率,避免噪音误打断。
• 声音增益:智能识别人声,对人声做自动增益,人声更清晰。
• 回声消除:有效杜绝回声、啸叫问题。
• 声纹识别:通过声纹识别用户身份,智能体只响应特定用户,消除周围人声干扰。
• VAD检测:检测到用户停止说话后,快速将ASR转出的文本发送给大模型,有效降低端到端延时。
• 智能打断:可以通过语音快速打断智能体的语音播报,实现贴近真人的自然交互体验。
• 全景声音效:基于行业领先的WANOS全景声技术,实现3D空间音效、大场景混音等语音技术,打造身临其境的全真声场。
三、接入Agent- 智能体编排
多模态实时互动服务框架,满足组件及模型的灵活替换。并且,在下方控制台,用户配置时即可一键选择已经内置好的模型。
• 多模输入输出:支持消息、语音、视频流、文件多模态的输入与输出;不同模态转换。
• 云音视频增强:在云端提供AI降噪、人声分离、声纹提取等功能;提供智能抽帧、模糊帧检测、图片降采样等。
• 统一LLM接口:支持业内主流的OpenAI LLM模型HTTP接口、Realtime Websocket接口;最少1个HTTP接口对接模型。
用户与智能体互动的过程中,可以说出特定指令以使用特定功能,如控制设备,播放音乐,拨打电话等,智能体识别到指令意图时,结合Function Call补齐必要参数,然后将指令参数发送给客户的端侧或服务侧,客户来实现特定功能的调用。
自主编排专属智能体,拓展能力边界,只需要简单配置便可无缝接入多模态互动方案。
四、接入块、平台全、适配全
互动大模型接入块、平台全、适配全”这三个方面共同构成了互动大模型接入的完整体系,确保了互动大模型能够高效、稳定、安全地与用户进行实时互动。
• 接入快:SDK接口少,最快1天接入、OpenAI LLM接口、Josn定义Function、界面配置流程&功能、大模型/TTS等均可选择替换
• 平台全:Android SDK、IOS SDK、H5 SDK、WX 小程序SDK、Linux SDK、RTOS SDK
• 适配全:视频编码支持h264/h263、适配常见芯片 乐鑫/展锐/全志/ASR等、最小包体<300K,CPU最低运算速度<300MHz,主体程序运行内存<2M
HarmonyOS NEXT SDK
互动大模型SDK接入鸿蒙系统需要遵循一定的步骤和注意事项,通过仔细阅读文档、配置项目依赖、实现功能接口以及进行调试与测试等步骤,可以成功将互动大模型功能集成到鸿蒙系统的应用中。
• 可以参考互动大模型SDK提供的示例代码和教程,了解如何在鸿蒙系统中实现具体功能。
• 访问鸿蒙系统的开发者社区或论坛,获取更多关于鸿蒙系统应用开发的资源和信息。
