2000亿参数+三大智能体落地：智象未来加速“原生全模态”AGI路径-CSDN.NET

CSDN首页> 业界

订阅业界RSS

2000亿参数+三大智能体落地：智象未来加速“原生全模态”AGI路径

发表于 2026-05-21 18:03:36

5月19日，智象未来在北京以“Imaging the World”为主题举办首届技术开放日，正式发布基于原生全模态架构Unified Transformer（UiT）打造的图像大模型HiDream-O1-Image-Pro。该模型参数规模超过2000亿，在多个基准测试中刷新SOTA纪录，标志着智象未来在图像、视频、文本、音频等多模态统一建模方向上迈出关键一步。

与此同时，智象未来宣布完成新一轮亿级融资，深创投、金浦投资、财鑫资本、复聚资本等机构参与。这是公司半个月内再次完成融资，资本市场对其原生全模态大模型方向及世界模型布局持续看好。

架构革新：从“单模态拼接”到“原生融合”

当前图像生成模型正从U-Net向扩散Transformer（DiT）演进，但主流的潜在扩散模型（LDM）仍存在图像与文本分离编码带来的语义理解、细节还原、文字渲染等瓶颈。智象未来此次发布的HiDream-O1-Image-Pro，将原始图像像素、离散文本标记和任务条件统一纳入连续共享标记空间，实现图像、文本与多任务条件在底层表征上的深度融合。

智象未来创始人兼CEO梅涛表示：“很多‘多模态大模型’本质仍是单模态拼接。原生多模态从一开始就把世界的规则刻进模型里——它知道物理定律、空间关系、因果逻辑，能真正理解、推理并重构世界，这是实现AGI的关键路径。”

智象未来联合创始人兼CTO姚霆介绍，此前采用同一架构的HiDream-O1-Image开源版本（8B参数）已在Artificial Analysis文生图榜单上登顶开源模型全球第一，超越Z-Image Turbo、Qwen-Image等主流模型，成为前20名中参数量最小的版本。此次发布的闭源Pro版本拥有超2000亿参数，在复杂文本渲染、指令编辑、多主体个性化等任务上全面树立新SOTA，验证了原生全模态架构的可扩展性。

行业共识：视觉生成是通往世界模型的关键阶梯

开放日圆桌论坛上，来自东方富海、微软亚洲研究院、阿里云等嘉宾围绕“从多模态到全模态，构建世界模型，走向AGI”展开对话。嘉宾认为，AI正从“生成视觉”走向“生成世界”，视觉生成、具身智能、Agent等方向的汇合，核心在于模型能否形成统一的跨模态世界表征。

原生全模态架构的价值，正是为图像、视频、文本、音频乃至动作和具身数据提供统一建模框架，使模型从单点能力走向完整的世界建模能力。这也是智象未来强调“Imaging the World”的深意——不只是生成视觉内容，而是让AI逐步具备理解、生成、构建世界的能力。

资本加速入场：半月内完成多轮融资，阵容日趋多元

不久前，智象未来宣布完成超5亿元融资，投资方包括安徽省产投、合肥产投、东方富海等。开放日上，公司透露融资持续提速，半月内再度完成新一轮亿级融资，深创投、金浦投资、财鑫资本、复聚资本加入。

至此，智象未来已形成由安徽、上海、湖南、杭州等多地产业基金持续跟进，深创投、东方富海、峰华资本、敦鸿资本等头部市场化VC参与的多元化资本阵容。

智象未来采用“模型+智能体”双轮驱动战略，形成“1+1+3”业务架构：底层HiDream系列大模型，中间HiHarness企业服务平台，上层覆盖商业营销、影视创作、社媒创作三大场景的智能体应用。

商业营销智能体HiBurst：覆盖跨境电商、内容营销等场景，已成为TikTok官方TOP5服务商，年生产电商营销视频超百万条。

影视创作智能体帧赞：支持电影级画质生成与“创意-分镜-成片”全流程，已累计制作短漫剧超5000分钟，入驻专业团队超千家。

社媒创作智能体vivago：近日完成升级，支持分钟级故事视频生成，登顶Product Hunt日榜第一，覆盖100多个国家及地区，服务超4000万用户。

开放日现场，智象未来还与上海电影集团上影新视野基金、蓝色光标、北京捷成世纪、倍尔健康等达成战略合作，推动大模型在影视、营销、跨境电商、医疗等行业的产业化落地。

CSDN官方微信

扫描二维码,向CSDN吐槽

微信号：CSDNnews

程序员移动端【订阅下载】

微博关注

【免责声明：CSDN本栏目发布信息，目的在于传播更多信息，丰富网络文化，稿件仅代表作者个人观点，与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺，请读者仅作参考，并请自行核实相关内容。您若对该稿件有任何怀疑或质疑，请立即与CSDN联系，我们将迅速给您回应并做处理。】