2025年7月22日,在第八届智能辅助驾驶大会上,上汽集团创新研究开发总院,智驾部仿真与数据开发专家周鹏介绍到,上汽集团在智能辅助驾驶开发中将算法、算力与数据视为核心要素,尤其强调数据闭环能力的重要性。随着业务扩展及端到端大模型的应用,数据模态与来源的多元化对原有闭环体系提出挑战,导致新业务上线周期长、服务复用率低及系统耦合度高等问题。

为应对挑战,上汽集团重新解构数据闭环业务,将服务划分为同场景模态转换与新场景生成两类,并基于统一标签语言与强类型数据规范重构体系。通过解耦原有平台服务为独立微服务单元,采用分布式架构压缩业务平台数据规模,实现数据标准化管理与高效调用。此举提升了数据复用率与服务稳定性,降低了底层基础设施变动对上层业务的影响。最后展示了新体系下一些数据闭环服务的特点和运行情况。

周鹏|上汽集团创新研究开发总院,智驾部仿真与数据开发专家

以下为演讲内容整理:

算法、算力、数据是人工智能发展的三大核心要素,数据闭环能力是智能辅助驾驶团队的核心能力,所以上汽智驾部门在成立之初便组建了一支专注于仿真数据相关工具链开发的团队。

图源:演讲嘉宾素材

尽管数据采集车、量产车及功能测试车的数据闭环链路在具体细节上存在差异,但整体流程大致相同。数据在车端生成后,需经过脱敏、清洗、质检、标注及场景标签标注等一系列预处理流程,随后被划分为两部分,一部分用于新算法的训练与迭代,另一部分则用于新算法的测评。

图源:演讲嘉宾素材

最初,基于数据闭环的需求,我们对云端数据工厂规划并定义了四个核心数据闭环平台,即数据管理平台、标注平台、训练平台及仿真平台。每个平台内部均配置了若干算子或子服务,以确保车端回传的数据能够在这四个平台之间及其内部高效流转。

图源:演讲嘉宾素材

随着业务的推进和智能辅助驾驶算法的迭代,真正的数据闭环远不止局限于这四个平台内部,而是可能包含多个小闭环。例如,感知算法的迭代闭环、实车场景的挖掘闭环,以及感知算法评测闭环等。这些闭环中,许多服务产生的中间数据,可能会被下游的多个节点或业务所使用。这说明随着数据闭环业务深入,数据的表征方式、来源和应用方式都在不断发展和扩充,从而也导致我们原有的业务体系出现了一些瓶颈,比如新业务上线周期较长且推广难度较大,数据复用率偏低等。

图源:演讲嘉宾素材

因此,我们对原有认知进行了重新解构。我们发现,所有数据服务大致可划分为两类。第一类服务主要实现同场景下不同模态数据的转换。例如,人工标注、自动标注及仿真回灌等过程,均是通过原始数据生成结构化数据,其核心在于保持场景不变的前提下改变数据表达方式或模态。类似地,3D高斯重建技术将原始数据转换为高斯点云表征形式;算法评测服务本质上也是对场景数据的评价,均属于此类模态转换范畴。第二类服务聚焦于新场景的生成。当前主流的场景生成方法,如世界模型等,均基于基础场景构建新场景。例如,闭环仿真中因车辆行为变化导致整体场景改变,或通过修改标签参数生成新场景,均属于新场景生成的应用实例。

图源:演讲嘉宾素材

基于上述理解,我们对整个数据闭环业务进行了系统性重构。首先对数据进行了明确定义,数据是同一场景在不同模态下的表达形式,且采用统一的标签语言体系。服务则被定义为实现数据模态间相互转换,或生成新数据片段的功能模块。围绕这一定义,我们将原有四大核心平台中的服务进行解耦,拆分为独立的微服务单元。这些服务所产生的数据,不再局限于临时数据或中间数据形态,而是作为场景数据的完整组成部分,与原始数据处于同等层级。每个服务在完成计算后,仅是在现有数据表达体系中新增一种模态或生成全新数据。例如,云端自动化标注服务通过原始点云和图像生成结构化数据;仿真算法回灌服务则通过感知模块生成推理结果,这些结构化数据均可进一步用于自动化评测。所有服务均以场景或CLIP为核心,实现模态间的转换与交互。

重构完成后,新数据工厂2.0采用了更独立的纯云原生体系。原有业务平台仍为用户保留访问入口,但其底层服务已全面解耦为独立模块。通过解耦,业务平台自身数据规模被显著压缩,大部分原业务平台数据下沉至场景数据层进行统一管理。这一调整使得其他服务在调用相关数据及其运算结果时更为便捷高效。

图源:演讲嘉宾素材

下面介绍一些新体系下的服务平台。标注平台方面,我们同时支持人工标注与自动化标注两种模式。其中自动化标注涵盖多类型标注任务,包括BEV标注、车道线标注及OCC标注等。通过将SLAM点云拼接等微服务模块进行解耦重构,显著提升了各功能组件的复用性,为标注效率与质量的提升奠定了技术基础。

图源:演讲嘉宾素材

仿真平台方面,得益于新体系的整合能力,仿真平台很快与我们问题管理平台、集成发布平台等其他业务平台进行了互通。这些外部平台的操作均可能触发仿真工作流的执行。例如问题管理平台可直接跳转至可视化界面查看相关数据,同时可视化平台提供一键生成仿真场景的功能按钮,用户可将指定数据转化为仿真场景并纳入场景库进行后续仿真验证。

图源:演讲嘉宾素材

此外是场景挖掘平台,该平台当前采用视觉语言模型对视频或图像进行向量化处理。针对测试数据中暴露的问题,系统会在全局场景库中开展相似场景挖掘,挖掘结果按比例分配至训练集与测试集。当相似场景数量不足时,平台将自动触发数据采集流程。该平台支持基于图像或文本的检索功能,包括以图搜图、以文搜图等多样化查询模式。

图源:演讲嘉宾素材

我们的仿真数据合成服务采用多种方法生成数据以满足不同需求。例如,针对地面标线生成、泊车鱼眼数据生成以及天气转换等场景,我们较早便开展了相关研究,并应用了包括Diffusion方法和纯仿真渲染在内的多种技术手段。

图源:演讲嘉宾素材

我们还提供了基于3D高斯场景重建的新视角生成和闭环仿真服务。视频中原场景下自车沿道路中间车道行驶,周围存在障碍物。我们对场景进行了高斯点云重建,移除了原有障碍物并插入一辆静止车辆,随后接入智能辅助驾驶算法开展闭环仿真测试。测试过程中,系统成功实现了对静止车辆的绕行操作。过程中,我们也引入了一些特别的优化技巧以保障仿真画面的可用性。基本做到了自车在车道级的轨迹和姿态改变下,仍能维持仿真画面的清晰度与可用性。

图源:演讲嘉宾素材

(以上内容来自上汽集团创新研究开发总院,智驾部仿真与数据开发专家周鹏于2025年7月22日在第八届智能辅助驾驶大会发表的《智能辅助驾驶的数据驱动开发体系建设与实践》主题演讲。)