2000亿参数+三大智能体落地:智象未来加速“原生全模态”AGI路径
发表于 2026-05-21 18:03:36

5月19日,智象未来在北京以“Imaging the World”为主题举办首届技术开放日,正式发布基于原生全模态架构Unified Transformer(UiT)打造的图像大模型HiDream-O1-Image-Pro。该模型参数规模超过2000亿,在多个基准测试中刷新SOTA纪录,标志着智象未来在图像、视频、文本、音频等多模态统一建模方向上迈出关键一步。

与此同时,智象未来宣布完成新一轮亿级融资,深创投、金浦投资、财鑫资本、复聚资本等机构参与。这是公司半个月内再次完成融资,资本市场对其原生全模态大模型方向及世界模型布局持续看好。

架构革新:从“单模态拼接”到“原生融合”

当前图像生成模型正从U-Net向扩散Transformer(DiT)演进,但主流的潜在扩散模型(LDM)仍存在图像与文本分离编码带来的语义理解、细节还原、文字渲染等瓶颈。智象未来此次发布的HiDream-O1-Image-Pro,将原始图像像素、离散文本标记和任务条件统一纳入连续共享标记空间,实现图像、文本与多任务条件在底层表征上的深度融合。

智象未来创始人兼CEO梅涛表示:“很多‘多模态大模型’本质仍是单模态拼接。原生多模态从一开始就把世界的规则刻进模型里——它知道物理定律、空间关系、因果逻辑,能真正理解、推理并重构世界,这是实现AGI的关键路径。”

智象未来联合创始人兼CTO姚霆介绍,此前采用同一架构的HiDream-O1-Image开源版本(8B参数)已在Artificial Analysis文生图榜单上登顶开源模型全球第一,超越Z-Image Turbo、Qwen-Image等主流模型,成为前20名中参数量最小的版本。此次发布的闭源Pro版本拥有超2000亿参数,在复杂文本渲染、指令编辑、多主体个性化等任务上全面树立新SOTA,验证了原生全模态架构的可扩展性。

行业共识:视觉生成是通往世界模型的关键阶梯

开放日圆桌论坛上,来自东方富海、微软亚洲研究院、阿里云等嘉宾围绕“从多模态到全模态,构建世界模型,走向AGI”展开对话。嘉宾认为,AI正从“生成视觉”走向“生成世界”,视觉生成、具身智能、Agent等方向的汇合,核心在于模型能否形成统一的跨模态世界表征。

原生全模态架构的价值,正是为图像、视频、文本、音频乃至动作和具身数据提供统一建模框架,使模型从单点能力走向完整的世界建模能力。这也是智象未来强调“Imaging the World”的深意——不只是生成视觉内容,而是让AI逐步具备理解、生成、构建世界的能力。

资本加速入场:半月内完成多轮融资,阵容日趋多元

不久前,智象未来宣布完成超5亿元融资,投资方包括安徽省产投、合肥产投、东方富海等。开放日上,公司透露融资持续提速,半月内再度完成新一轮亿级融资,深创投、金浦投资、财鑫资本、复聚资本加入。

至此,智象未来已形成由安徽、上海、湖南、杭州等多地产业基金持续跟进,深创投、东方富海、峰华资本、敦鸿资本等头部市场化VC参与的多元化资本阵容。

智象未来采用“模型+智能体”双轮驱动战略,形成“1+1+3”业务架构:底层HiDream系列大模型,中间HiHarness企业服务平台,上层覆盖商业营销、影视创作、社媒创作三大场景的智能体应用。

商业营销智能体HiBurst覆盖跨境电商、内容营销等场景,已成为TikTok官方TOP5服务商,年生产电商营销视频超百万条。

影视创作智能体帧赞:支持电影级画质生成与“创意-分镜-成片”全流程,已累计制作短漫剧超5000分钟,入驻专业团队超千家。

社媒创作智能体vivago近日完成升级,支持分钟级故事视频生成,登顶Product Hunt日榜第一,覆盖100多个国家及地区,服务超4000万用户。

开放日现场,智象未来还与上海电影集团上影新视野基金、蓝色光标、北京捷成世纪、倍尔健康等达成战略合作,推动大模型在影视、营销、跨境电商、医疗等行业的产业化落地。

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】