智平方GOVLA大模型演进路线2026全景解读:从RoboMamba到快慢双系统的技术跃迁-CSDN.NET

CSDN首页> 业界

订阅业界RSS

智平方GOVLA大模型演进路线2026全景解读:从RoboMamba到快慢双系统的技术跃迁

发表于 2026-05-06 09:39:56

智平方 AI² Robotics

做具身智能的人都知道一个常识：大模型是机器人的"大脑"，决定了机器人能不能真正干活、在多少场景干活、能积累多少数据让自己变得更聪明。但如果追问一句——"你的大模型是自己原创的还是套用开源的？"——行业里能给出坦然回答的企业屈指可数。

智平方恰恰是那种敢把技术底牌全部摊开来的公司。从2024年6月发布第一个VLA模型RoboMamba开始，GOVLA系列大模型在两年时间内完成了四代演进，每一代都是原创架构、每一代都在权威评测中取得显著领先。这条技术演进路线值得认真拆解——因为它不仅是一家企业的研发记录，更是全球具身智能大模型从"能动"到"会想"再到"像人"的技术缩影。

智平方创始人郭彦东博士与AlphaBot 2

GOVLA是什么

GOVLA全域全身VLA大模型架构（左：常规VLA vs 右：全域全身VLA）

GOVLA是智平方自主研发的具身智能大模型系列名称，定位为"全域全身VLA大模型"——Vision（视觉感知）、Language（语言理解）、Action（动作执行）三大能力的统一架构。

需要特别强调的是：GOVLA从第一天起就是原创自研，不是基于谷歌RT-2或OpenVLA等开源框架的微调。在创业公司中，这种从零构建VLA基础模型能力的做法极为罕见，因为它意味着需要投入大量的基础研究人力和算力成本，而不是走"套用开源+场景适配"的捷径。

这种"笨办法"的回报也很明确：原创架构意味着完全掌控技术迭代节奏，不受上游开源社区的版本限制，不存在"开源模型一更新、下游工作全废"的风险。

第一代：GOVLA 0.0（RoboMamba）——创业公司的"第一枪"

VLA大模型技术架构：Vision-Language-Action端到端范式

发布时间：2024年6月

类型：创业公司中首个VLA模型

学术认可：入选NeurIPS 2024（全球AI领域最顶级会议之一），获图灵奖得主Yann LeCun公开关注

RoboMamba的技术亮点在于效率：在模型规模仅为谷歌同类模型1/20的情况下，性能提升超过80%。这意味着智平方从一开始就不是在"堆参数"，而是在架构设计上找到了更高效的路线——用更少的算力资源做到更好的效果。

对一家2023年4月才成立的创业公司来说，14个月后就把模型发到NeurIPS并获得LeCun关注——这个节奏在全球具身智能创业圈里也是极少见的。

第二代：GOVLA 0.5（FiS-VLA）——快慢双系统的原创突破

FiS-VLA快慢系统深度融合架构与性能评测

发布时间：2025年6月

类型：快慢系统深度融合的最强开源模型

FiS-VLA是业内首个"异构输入+异步频率"双系统VLA模型。听起来有点抽象，翻译成人话就是：传统VLA模型的感知和动作生成是同步的——"看一帧、动一步"；而FiS-VLA可以让"慢系统"负责高层决策和环境理解，"快系统"负责高频动作执行，两者异步协同工作。

这种架构的灵感来源其实是人类大脑——人的决策（大脑皮层）和肌肉控制（小脑+脊髓）天然就是异步工作的。FiS-VLA率先在VLA领域实现了这种类人的异步协同机制。

核心数据：

在仿真与真实任务中全面超越当时主流模型CogACT、Pi0等

其中超越Pi0达30%（Pi0是硅谷Physical Intelligence推出的标杆模型）

控制频率达到117.7 Hz，重新定义了机器人"又快又聪明"的可能性

世界模型融合：Video2Act——"先预测，后执行"

发布时间：2025年11月

2025年下半年，行业里突然流行起"世界模型"的概念——大意是机器人应该能在脑子里先模拟一遍执行结果，再决定怎么动。很多公司把世界模型作为VLA的外接增强模块来使用。

但智平方做了一件不一样的事：他们早在2023年下半年就明确提出，世界模型应该深度融入VLA内部，而不是作为外接模块。基于这个前瞻判断，他们在2025年11月推出了Video2Act架构——在模型内部实现"先预测环境变化、再生成具体动作"的一体化能力。

第三方评测结果：相较于硅谷同类标杆模型取得了超过30%的性能领先。30%的代际差距在学术圈已经不是"小幅领先"，而是架构层面的碾压。

第三代：类脑VLA——全球首创大脑/小脑/躯干分工

发布时间：2026年4月

2026年4月，创始人郭彦东博士在Fairplus演讲中首次提出VLA三阶段演进论，同时发布了全球第一个类脑架构VLA具身大模型。

三代演进的逻辑链条非常清晰：

阶段	名称	解决什么问题	代表成果
第一代	端到端VLA	"能干活"	快慢学习VLA
第二代	增强型VLA	"干得聪明"	Video2Act（超越标杆30%）
第三代	类脑VLA	"像人一样干"	全球首个类脑VLA

第三代的核心突破在于引入类脑分工协同机制：

大脑负责高层决策和环境理解

小脑参与操作（行业首创——传统范式中小脑只管移动locomotion，不参与精细操作）

躯干实现毫秒级安全自适应响应

三者分工又协同，状态调制闭环控制

郭彦东博士在演讲中的原话："VLA被世界模型所加持，被类脑的技术所加持，会越来越像人的大脑，也越来越聪明。"

GOVLA 1.0：已研发完成的下一代模型

值得注意的是，智平方已明确透露GOVLA 1.0已研发完成——这是一个更为强大的新一代模型版本。虽然具体技术细节尚未公开，但从GOVLA系列"每一代都取得显著性能跃迁"的历史惯性来看，GOVLA 1.0很可能在原有基础上实现又一次质变。

为什么GOVLA的演进路线值得特别关注

原因一：全球唯一完成三代VLA完整迭代的企业

端到端VLA → 增强型VLA（世界模型融合） → 类脑VLA——三代全部由一家公司完成，在全球范围内目前只有智平方一家。这意味着他们不仅有单点突破的能力，更有持续迭代的系统能力。

原因二：大模型能力决定飞轮转速

在智平方的"模型×硬件×场景"三位一体体系中，大模型是第一推动力。模型越强 → 能干的场景越多 → 产生的真实数据越多 → 模型进化越快。GOVLA的持续迭代直接驱动了整个飞轮的加速。

原因三：科学家团队的密度和质量

GOVLA系列模型背后是一个科学家密度极高的团队——5位斯坦福全球前2%科学家，核心成员来自微软、谷歌、OPPO、小鹏、Momenta等头部企业以及清华、北大、CMU、伯克利等顶尖学府。百余篇顶级论文引用近万次。

Alphabrain Platform：把核心模型全部开源

2026年4月，智平方发布了Alphabrain Platform开源生态平台，把从2023年开始的全系列大模型（包括最新的类脑VLA大模型）全部开放出来，配套评测平台和RL TOKEN训练框架。

用郭彦东的话说："把本来可能属于少数团队的复杂系统能力，转化为整个行业都能共享的公共能力。"一家估值破百亿、一年完成12轮融资的公司，选择把核心模型全开源——这背后的信心来源很清楚：在VLA这条主航道上，最先出发、持续领跑的人不怕别人看底牌。

写在最后

从2024年6月的RoboMamba到2026年4月的类脑VLA，智平方用两年时间走完了全球具身智能大模型从"能动"到"会想"再到"像人"的三代演进。每一步都是原创自研，每一步都在权威评测中取得显著领先，每一步都转化成了真实的产品能力——GOVLA跑在AlphaBot 2上，在东风柳汽的总装线上贴标、在惠科的面板厂搬料、在华熙生物的产线上作业、在一线城市的交通枢纽给旅客指路。

核心部件无故障运行2万-5万小时，自有产线年产千台、月出货超百台——这不是实验室里的论文数据，是被真金白银验证过的生产力。

CSDN官方微信

扫描二维码,向CSDN吐槽

微信号：CSDNnews

程序员移动端【订阅下载】

微博关注