2025年,中国汽车产业加速进入端到端时代,数据驱动闭环面临着全新的机遇与挑战。
站在行业关键拐点,AI合成数据与仿真公司51Sim正式发布“端到端数据驱动闭环”。
该方案在仿真置信度、AI赋能、数据复用三大领域实现里程碑式突破,打破端到端数据驱动闭环的多个关键技术瓶颈,旨在为行业创造领先的解决方案,助力全产业链构建端到端时代的新核心竞争力与技术壁垒,加速推动高阶智能驾驶迈向规模化量产落地。
一、数据驱动闭环升级
所谓端到端,是指一端输入图像等环境感知数据,经由多层神经网络模型的“黑箱”处理,直接输出转向、制动、加速等驾驶指令。其本质是基于数据驱动的技术路线,需要大量的高质量数据对端到端大模型进行训练。
端到端时代下,数据驱动闭环的重要性空前提升,但也面临着多重挑战:
数据复用性差:不同车型传感器配置各不相同,数采成本高昂,急需实采数据复用方案;
数智割裂:当前市场以实际路测为主,然而实采数据中有效数据挖掘不足泛化不足,而端到端时代则完全基于数据驱动,全场NOA只靠实车路测已经完全没办法覆盖测试场景;
工具链无法形成体系:缺乏全链条的测试评价体系,帮助高阶算法理清量产的权责划分体系……
如何构建面向端到端时代的数据驱动闭环、打通研发验证全链路,成为了产业跨越瓶颈、智驾规模化落地的关键。
在数据驱动闭环领域,早在2023年,51Sim便联合火山引擎、天准、美行等生态伙伴共同打造行业首个全链路数据驱动闭环生态方案。
时隔两年深耕迭代后,51Sim选择再次联合行业伙伴,全面升级技术架构,重磅推出端到端数据驱动闭环,在仿真置信度、AI赋能、数据复用性三大核心维度取得突破性进展,为自动驾驶行业提供了更加成熟、高效的端到端解决方案。
升级一:置信度突破,让数据更真
端到端模型依赖海量高质量数据“投喂”训练。然而在现实中,高质量实采数据稀缺且成本高昂,而仿真数据虽具备成本优势,却始终面临置信度不足的难题。
因此,如何提升仿真数据的置信度,成为端到端技术落地的关键突破口,也是驱动行业走向规模化的重要因素。
端到端数据驱动闭环,创新性地深度融合了3D高斯泼溅技术(3DGS)、4D高斯泼溅技术(4DGS)等新技术,对场景重建与仿真引擎进行全面升级,为行业带来更高置信度合成数据能力、更强的泛化能力和更完善的场景覆盖。
尤其提升在仿真置信度上,该方案实现了行业级突破,其中动力学仿真、激光雷达仿真及摄像头仿真的置信度分别高达95%、95%、90%。基于智驾算法的总体置信度>90%,仿真测试与场地测试对比一致性达92%。
3DGS融合仿真引擎:3DGS是一种较新的场景表示方法。它通过数十亿乃至上百亿个微小的、具有特定形状和光学属性的“高斯球”来数字化描述整个场景的几何与光照特性,能实现低成本、高保真的静态场景重建,几何与材质细节还原度据称可超过95%。
结合AI融合算法与3DGS技术,51Sim打造行业领先的3DGS融合仿真引擎,能在静态层用3D高斯精准重建道路环境,在动态层使用高真实感的3D模型,同时保留结构化动态场景仿真能力。这意味着基于3DGS融合仿真引擎打造的仿真环境不仅看起来更真实,其物理特性(如光照、材质反射)也更接近真实世界,可为端到端模型提供高置信度、高还原度的训练与测试场。
4DGS专注于处理动态的时空数据(3D+时间)。它与3DGS的核心差异在于,无需对整个世界进行过高层面的抽象,而是针对挖掘出的有价值的数据片段(如特定危险场景)进行优化,使其变得更灵活,增强对闭环仿真的适配性。
为进一步挖掘真实数据的可用性,51Sim构建了基于4DGS的LogSim闭环仿真,可基于原始的视频流,实现主车变车道、对手车换车型和轨迹、增加及删除对手车等场景仿真。目前51Sim已经初步完成构建闭环仿真流程,包括将传感器模型纳入仿真环节,后续将持续提升4DGS闭环仿真的可用性。
升级二:AI赋能,让流程更高效
面对海量数据挑战,传统"手工作坊"模式效率低下、难以为继。
端到端数据驱动闭环创新性地引入大模型感知场景理解和挖掘能力,完成从 “工具集成辅助” 到 “AI全流程驱动” 的突破性升级,在场景挖掘、数据管理等关键环节提供深度贴合端到端需求的智能化技术能力:
工作流引擎与自定义算子:端到端数驱动据闭环搭建了灵活可配置的自定义算子和自由可编排的工作流引擎。在此基础上,用户可以根据业务需求精准构建适配复杂多变的数据处理任务(如数据清洗、标注、场景提取、模型训练等)。这种模块化、自动化的方式能显著减少人工干预,提升数据处理的吞吐量和一致性。
大模型驱动的智能处理:端到端数据驱动闭环基于大模型在语义理解、图像处理、多模态融合方面的能力,可以自动识别和挖掘高价值场景(如极端天气、罕见物体、复杂交互)。支持使用自然语言描述 (如“寻找雨天夜间右转时突然有行人冲出的场景”)或图像相似度进行高效检索,极大提升了数据利用的效率和覆盖的深度,让“大海捞针”成为可能。
合成数据及泛化:借助世界大模型,依托51Sim自研方案生成的合成数据,实现了泛化性的跨数量级显著提升。一次构建,可生成海量的泛化场景,大幅提升了数据的复用性,节省了重建成本。这些合成数据帮助车企算法研发部门实现了极端数据的“饱和式”覆盖,为应对极端场景提供了更强大的数据保障,加速高阶辅助驾驶算法的快速迭代。
升级三:数据复用性突破,让数据更增值
数据是核心资产,但为其付出的高昂采集成本不应因车型或项目变更而沉没。提升数据的复用性是释放数据复利价值的关键。端到端数据驱动闭环在数据的跨车型迁移与复用上,做出了创新突破。
依托自主研发的4DGS新视角合成技术,端到端数据驱动闭环可以打破不同车型间因传感器型号、安装位置、视角、参数不同而造成的数据壁垒。这意味着,用一辆车采集的高价值数据,经过处理后,可以用于为另一辆配备不同传感器的车辆训练或测试模型,极大降低了重复采集的成本。
当数据能够跨车型、跨项目高效复用时,每一次数据采集的边际成本下降,其长期价值得以持续积累和放大。这允许企业将资源更集中于采集真正稀缺的长尾场景数据,而非重复进行基础场景的数据采集,从而形成更健康、更高效的数据战略和成本结构。
二、生态赋能
端到端时代数据闭环的落地,离不开从整个生态的通力合作。
在2023年第六届地球克隆计划大会上(EC6),由51Sim联合芯片、地图、域控制器、云服务、仿真测试软硬件等领域的上下游伙伴共同组建“数据驱动闭环生态”,旨在构建智能辅助驾驶数据驱动闭环全链条开发和量产验证体系,加速智驾量产落地。
随着产业进入端到端时代,行业对数据驱动闭环提出了全新要求,数据闭环生态也随之迈向2.0阶段。
这一阶段,更多来自3DGS采集、世界模型、智能标注、合成数据生成等前沿领域的合作伙伴加入其中,进一步丰富了生态版图,这也是“端到端数据驱动闭环”诞生的生态基础。
未来,数据驱动闭环生态将持续拓展端到端时代的实践路径,推动跨领域技术融合与跨产业协同创新,以生态合力加速汽车产业的高质量发展。
51Sim也将持续以开放、合作的姿态,携手产业链伙伴,为行业共同构建更多适配端到端时代需求的产品及解决方案,助力高阶智能驾驶规模化量产。
