在6月11日举办的FORCE原动力大会上,火山引擎正式发布豆包大模型1.6、豆包·视频生成模型Seedance 1.0 pro、豆包·语音博客模型,同时豆包·实时语音模型在火山引擎全量上线。至此,豆包大模型家族已形成全模态、全尺寸、高性价比的领先模型矩阵。
随着大模型技术的迭代演进,新一轮科技革命与产业变革正蓬勃兴起,同时也重塑着新一代生活方式。在此进程中,AI多模态交互大模型的加速发展,正推动人机交互迈入全新时代。火山引擎助力智能终端厂商通过AI多模态交互大模型实现更具拟人化的互动体验,使其能够通过视觉、听觉等多通道响应交互需求,充分还原人与人之间的交互模式,让沟通更沉浸、让交流更自然。
多模态交互,让AI助理“人味儿”十足
人类通过视觉、嗅觉、听觉、触觉等多元感官认知世界,因此文字、照片、视频、音乐等多元载体,成为日常记录与交流的媒介。过去,用户与AI助理的互动仅限于通过语音识别匹配指令,是基于“指令”进行的机械交互,无法理解和感知用户的真实需求。这些真实需求有些是包含在上下文中,冗长的上下文带有大量的近义表达方式;有些文字无法描述的,需要配合图片、音乐旋律、视频等多种方式让终端感知并反馈。如今,随着豆包大模型能力的持续进化与落地应用,火山引擎为智能终端注入全新交互动能,推动用户体验实现质的跃升。
当手机成为生活的全能助手,深刻融入并重塑着日常生活与工作方式,OPPO 与火山引擎携手合作,引入豆包语音大模型,为用户开启了一段全新的智能交互之旅。在豆包语音大模型的支持下,即使用户身处嘈杂环境或面对口音多样化情形时,小布助手也能识别用户语音并转化为文本,确保语音输入的准确性。同时,还能通过模拟多样化的音色、语气和语调,使用户在接收信息时仿佛与真人交流。
新潮智能手机品牌努比亚在全场景接入多款豆包大模型后,成功打造了全链路多模态智能助手「小星」。借助豆包大模型的深度语义理解能力,「小星」能够实现高效的交互体验,用户可以直接对屏幕上的图片、地址、文字等信息进行语音提问,也可以通过“画圈”方式圈选关键内容进行交互,真正做到“指哪搜哪”“即圈即用”。
AI技术升维,全场景交互使用更便捷
在互联网、5G+及软硬件技术的协同驱动下,手机正作为智慧终端成为工作生活中不可或缺的“智能伙伴”。依托豆包大模型的AI多模态交互能力,端内AI助理能在多种复杂交互场景中,实现精准响应,为用户带来更顺畅的AI交互体验,推动生活方式向高效便捷升级。
借助豆包大模型的理解能力,OPPO手机端侧可实现精准信息召回。当用户想要搜索信息时,AI意图搜索将统一入口,支持模糊搜索与全局搜索,打破文档、便签、照片等界限,汇总并精炼相关内容。同时,利用火山引擎大模型联网Agent,在小布助手内实现图文并茂全新体验,告别纯文本回复。
借助豆包大模型及火山方舟平台提供的内容插件,在三星 Galaxy Z 系列手机上,当用户通过Bixby语音助手搜索旅行相关时,三星 Galaxy AI会搜索并结合优质内容源,为用户提供优质且准确的联网信息,并以短视频内容卡片的形式展现给用户,实现与用户高质量的问答互动。
从早期的图像识别、语音识别,到后续的自然语言处理技术突破,人机交互方式始终在迭代进化的轨道上持续前行。目前,全球Top10手机厂商中,有9家与火山引擎深度合作,豆包大模型已覆盖4亿终端设备。当AI与生活深度相融,火山引擎将以云+AI技术为核心,持续为智能终端市场注入创新动能,让交互更有温度,让智能终端更“懂”用户。
