视觉+语音能力加持，火山引擎打造更有“人感”的AI交互体验-CSDN.NET

CSDN首页> 业界

订阅业界RSS

视觉+语音能力加持，火山引擎打造更有“人感”的AI交互体验

发表于 2025-06-18 10:29:00

在6月11日举办的FORCE原动力大会上，火山引擎正式发布豆包大模型1.6、豆包·视频生成模型Seedance 1.0 pro、豆包·语音博客模型，同时豆包·实时语音模型在火山引擎全量上线。至此，豆包大模型家族已形成全模态、全尺寸、高性价比的领先模型矩阵。

随着大模型技术的迭代演进，新一轮科技革命与产业变革正蓬勃兴起，同时也重塑着新一代生活方式。在此进程中，AI多模态交互大模型的加速发展，正推动人机交互迈入全新时代。火山引擎助力智能终端厂商通过AI多模态交互大模型实现更具拟人化的互动体验，使其能够通过视觉、听觉等多通道响应交互需求，充分还原人与人之间的交互模式，让沟通更沉浸、让交流更自然。

多模态交互，让AI助理“人味儿”十足

人类通过视觉、嗅觉、听觉、触觉等多元感官认知世界，因此文字、照片、视频、音乐等多元载体，成为日常记录与交流的媒介。过去，用户与AI助理的互动仅限于通过语音识别匹配指令，是基于“指令”进行的机械交互，无法理解和感知用户的真实需求。这些真实需求有些是包含在上下文中，冗长的上下文带有大量的近义表达方式；有些文字无法描述的，需要配合图片、音乐旋律、视频等多种方式让终端感知并反馈。如今，随着豆包大模型能力的持续进化与落地应用，火山引擎为智能终端注入全新交互动能，推动用户体验实现质的跃升。

当手机成为生活的全能助手，深刻融入并重塑着日常生活与工作方式，OPPO 与火山引擎携手合作，引入豆包语音大模型，为用户开启了一段全新的智能交互之旅。在豆包语音大模型的支持下，即使用户身处嘈杂环境或面对口音多样化情形时，小布助手也能识别用户语音并转化为文本，确保语音输入的准确性。同时，还能通过模拟多样化的音色、语气和语调，使用户在接收信息时仿佛与真人交流。

新潮智能手机品牌努比亚在全场景接入多款豆包大模型后，成功打造了全链路多模态智能助手「小星」。借助豆包大模型的深度语义理解能力，「小星」能够实现高效的交互体验，用户可以直接对屏幕上的图片、地址、文字等信息进行语音提问，也可以通过“画圈”方式圈选关键内容进行交互，真正做到“指哪搜哪”“即圈即用”。

AI技术升维，全场景交互使用更便捷

在互联网、5G+及软硬件技术的协同驱动下，手机正作为智慧终端成为工作生活中不可或缺的“智能伙伴”。依托豆包大模型的AI多模态交互能力，端内AI助理能在多种复杂交互场景中，实现精准响应，为用户带来更顺畅的AI交互体验，推动生活方式向高效便捷升级。

借助豆包大模型的理解能力，OPPO手机端侧可实现精准信息召回。当用户想要搜索信息时，AI意图搜索将统一入口，支持模糊搜索与全局搜索，打破文档、便签、照片等界限，汇总并精炼相关内容。同时，利用火山引擎大模型联网Agent，在小布助手内实现图文并茂全新体验，告别纯文本回复。

借助豆包大模型及火山方舟平台提供的内容插件，在三星 Galaxy Z 系列手机上，当用户通过Bixby语音助手搜索旅行相关时，三星 Galaxy AI会搜索并结合优质内容源，为用户提供优质且准确的联网信息，并以短视频内容卡片的形式展现给用户，实现与用户高质量的问答互动。

从早期的图像识别、语音识别，到后续的自然语言处理技术突破，人机交互方式始终在迭代进化的轨道上持续前行。目前，全球Top10手机厂商中，有9家与火山引擎深度合作，豆包大模型已覆盖4亿终端设备。当AI与生活深度相融，火山引擎将以云+AI技术为核心，持续为智能终端市场注入创新动能，让交互更有温度，让智能终端更“懂”用户。

CSDN官方微信

扫描二维码,向CSDN吐槽

微信号：CSDNnews

程序员移动端【订阅下载】

微博关注

【免责声明：CSDN本栏目发布信息，目的在于传播更多信息，丰富网络文化，稿件仅代表作者个人观点，与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺，请读者仅作参考，并请自行核实相关内容。您若对该稿件有任何怀疑或质疑，请立即与CSDN联系，我们将迅速给您回应并做处理。】