音视频AI多模态融合，华为云五大引擎开启媒体产业“智变”时代-CSDN.NET

CSDN首页> 业界

订阅业界RSS

音视频AI多模态融合，华为云五大引擎开启媒体产业“智变”时代

发表于 2025-06-21 18:48:39

【中国，东莞，2025年6月21日】今日，在华为开发者大会期间，华为云举办了《音视频AI多模态融合，媒体重塑行业数字化新价值》高峰论坛，华为云媒体服务产品部部长吕阳明在高峰论坛上描绘了AI与音视频技术深度融合所开启的产业新图景。他指出，人工智能走向多模态融合，从感知理解迈向深度思考与生成创造，推动音视频产业进入“智能化、个性化、互动化”的新阶段。

图片1.png

华为云媒体服务产品部部长吕阳明解读AI for Media, Media for AI

双轮驱动，定义媒体新范式

华为云围绕媒体核心能力，构建了音视频、传输、建模、推理、渲染五大能力引擎，同时将AI与媒体能力深度融合，重新定义AI时代的媒体生产力。

AI赋能媒体：编解码+AI（AI MPC）显著提升画质，加速超高清普及；渲染+AI实现“In-Scene”个性化广告；3DGS+AI高效重建毫米级精度的3D数字空间；CG+AI（AIG-3D）突破数据泛化瓶颈，赋能具身智能训练效率飞跃。

媒体赋能AI： AI+RTC（SparkRTC）升级实时互动体验；AI+数字人+云会议推动交互从功能迈向情感共生。

技术落地，重塑行业体验

华为云展示了多项引领性技术应用场景：

视听升级： AI MPC技术在同等码率下大幅提升视觉体验，HDR Vivid与Audio Vivid技术组合带来沉浸式音画享受。

广告革命：智能广告替换服务通过AI识别广告位并实时替换，实现“千人千面”的精准投放，重构直播产业链价值。

3D空间普及： 3DGS+AI技术大幅降低数字孪生门槛。用户仅需手机扫描，即可快速生成毫米级精度的3D物体与空间，推动企业展厅、文旅导览、个人Vlog进入沉浸式3D时代。

具身智能加速：面对机器人训练数据匮乏的挑战，AIG-3D技术可分钟级生成高精度3D场景，并快速生成海量场景数据，结合物理级仿真引擎，实现训练数据指数级增长与多技能连贯训练，突破泛化能力瓶颈。

实时互动无界： SparkRTC重磅升级，实现以不足20Mbps码率传输4K 60帧画面，支持<70ms超低时延的云游戏、云桌面及智能车联应用（如远程泊车）。

智能体进化：融合数字人与云会议能力，华为云智能交互AI Agent具备精准环境感知、超95%准确率的语义识别及<2秒响应能力，已在酒店管家、会议助手等场景落地，开发者仅需5行代码即可快速集成。

突破边界，共同跨越产业临界点

吕阳明强调，AI与媒体的深度互赋能正推动各行业经历“物种进化”式跃迁。“我们对外开放五大实时API，将华为在AI与媒体的技术积累赋能伙伴。”吕阳明呼吁业界携手，“把华为的技术积累与创新，与客户和伙伴在行业深耕多年的经验结合起来，创造出媒体产业的更多可能，共赴山海，顶峰相见！”

华为云正以坚实的技术底座与清晰的生态路径，引领媒体产业在智能化浪潮中重塑价值，开启一个体验与效能全面跃升的新时代。

CSDN官方微信

扫描二维码,向CSDN吐槽

微信号：CSDNnews

程序员移动端【订阅下载】

微博关注

【免责声明：CSDN本栏目发布信息，目的在于传播更多信息，丰富网络文化，稿件仅代表作者个人观点，与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺，请读者仅作参考，并请自行核实相关内容。您若对该稿件有任何怀疑或质疑，请立即与CSDN联系，我们将迅速给您回应并做处理。】