12月28日,小鹏汽车与北京大学合作的论文《FastDriveVLA:基于即插即用重构的端到端高效驾驶》已被AAAI 2026接收。AAAI 2026是全球顶尖的人工智能会议之一。

图片来源:小鹏

该论文介绍了一种名为FastDriveVLA的高效视觉标记剪枝框架( efficient visual token pruning framework),专为端到端自动驾驶的视觉-语言-动作(VLA)模型而设计。这项工作提供了一种全新的视觉标记剪枝方法,使人工智能能够“像人一样驾驶”,仅关注关键的视觉信息,同时过滤掉无关数据。

随着人工智能大型模型的快速发展,VLA模型因其在复杂场景理解和动作推理方面的强大能力,正被广泛应用于端到端自动驾驶系统中。这些模型将图像编码成大量的视觉标记,作为模型“感知”世界并做出驾驶决策的基础。然而,处理大量的标记会增加车载计算负载,从而影响推理速度和实时性能。

虽然视觉标记剪枝已被公认为加速VLA推理的有效方法,但现有的方法,无论是基于文本-视觉注意力还是标记相似性,在实际驾驶场景中都存在局限性。为了解决这个问题,小鹏汽车和北京大学联合开发出FastDriveVLA,这是一种基于重构的新型标记剪枝框架,其灵感来源于人类驾驶员如何专注于相关的前景信息(例如车道、车辆、行人),而忽略非关键的背景区域。

图片来源:小鹏

该方法引入了一种对抗性的前景-背景重构策略,增强了模型识别和保留有价值标记的能力。在nuScenes自动驾驶基准测试中,FastDriveVLA在各种剪枝比例下均取得了最先进的性能。当视觉标记的数量从3249个减少到812个时,该框架在保持高规划精度的同时,计算量降低了近7.5倍。

这是小鹏汽车今年第二次在全球顶级人工智能会议上获得认可。今年6月,小鹏汽车在CVPR WAD大会上分享了其在自动驾驶基础模型方面的最新进展。在11月的技术日上,小鹏汽车发布了VLA 2.0架构,该架构取消了“语言翻译”步骤,实现了直接的视觉到动作生成,这一突破重新定义了传统的V-L-A流程。

展望未来,小鹏汽车将继续致力于实现L4级自动驾驶,加大对人工智能大模型技术的投入,加速将物理人工智能系统集成到车辆中,旨在为全球用户提供安全、高效、舒适的智能驾驶体验。