法雷奥推出端到端自动驾驶架构DrivoR
打造真正意义上的自动驾驶汽车,需要更高效、更精准的复杂视觉数据处理方法。据外媒报道,法雷奥全球首家人工智能和深度学习研究中心(Valeo.ai)的Ellington Kirby、Alexandre Boulch和Yihong Xu,以及Yuan Yin、Gilles Puy、Éloi Zablocki及其同事基于Transformer推出新型端到端自动驾驶架构DrivoR系统,满足了上述需求。

图片来源:ArXiv
该系统利用预训练的视觉Transformer模型和一种新颖的“注册令牌”机制,将来自多个摄像头的信息压缩成简洁的场景表示。这项创新显著降低了计算需求,同时保持了驾驶精度,更重要的是,它使系统能够根据安全性和舒适性等所需特性调整自身行为。
DrivoR在NAVSIM和HUGSIM等权威基准测试中展现出卓越的性能,证明了基于令牌的专注方法能够为构建稳健且适应性强的自动驾驶系统提供切实可行的途径。
这显著减少了下游计算量,同时又不牺牲准确性,从而能够更高效地处理视觉数据。这些标记驱动两个轻量级Transformer解码器,它们生成候选轨迹并对其进行评分,为路径规划提供框架。评分解码器学习模拟预言机,并预测代表安全性、舒适性和效率等方面的可解释子分数,从而在推理阶段实现基于行为条件的驾驶。
面向高效驾驶模型的摄像头感知令牌研究
研究团队开发出的DrivoR旨在兼顾效率和精度。这项工作的核心是实现了摄像头感知注册令牌,它将多摄像头视觉特征压缩成紧凑的场景表示,直接解决了处理高分辨率或多摄像头传感器设置时固有的计算瓶颈。通过缩短视觉表示的长度,DrivoR能够在不影响性能的前提下实现更快的处理速度。科学家们设计了一个系统,其中这些注册令牌驱动两个轻量级Transformer解码器,一个用于生成候选轨迹,另一个用于对其进行评分。
轨迹解码器生成潜在路径,而评分解码器则学习模拟“预言机”,并分配反映安全性、舒适性和效率的可解释子分数。这种评分机制支持行为条件驾驶,使车辆能够根据所需的驾驶特性调整其行为。评分模块和生成模块相互分离,从而提高了稳定性和性能。实验采用纯Transformer架构,避免使用鸟瞰图(BEV)等中间表示。感知Transformer编码器处理原始图像标记,将其压缩成固定的注册标记集,在保持与规划相关的上下文的同时,显著缩短输入到下游解码器的序列长度。
这提供了一个精简的流程,将原始传感器数据和自我状态直接映射到驾驶决策,从而减少了成本高昂且耗时的中间标注工作。该研究率先将视觉变换器(ViT)寄存器标记重新用于端到端规划中的视觉标记缩减。研究人员在NAVSIM-v1、NAVSIM-v2和逼真的闭环HUGSIM环境中对性能进行了严格评估。DrivoR的性能始终优于或与现有的优秀基线模型持平,这表明纯Transformer架构结合针对性的标记压缩足以实现精确、高效且自适应的自动驾驶。这为端到端规划树立了新的标杆,为未来的自动驾驶车辆提供了一种计算高效且易于解释的解决方案。
摄像头感知注册令牌能够将多摄像头特征压缩成紧凑的场景表示,显著降低计算需求,同时又不影响精度。这种压缩方式在缩短的视觉表示长度内保留了关键的规划相关上下文信息。DrivoR的核心在于其两个轻量级解码器模块:一个模块生成候选轨迹,另一个模块则根据学习到的标准对候选轨迹进行评分。

图片来源:ArXiv
该评分解码器有效地模拟了一个理想化的“预言机”,预测出安全、舒适和效率的可解释子分数,从而实现行为适应性驾驶。研究团队在NAVSIM-v1、NAVSIM-v2和HUGSIM上测试了系统性能,结果始终优于或与强大的现有基准系统持平。纯粹的Transformer架构,结合针对性的标记压缩,足以实现准确、高效且自适应的端到端驾驶。具体而言,该系统仅依赖于评分标注,无需显式的3D监督,却依然在所有测试基准上取得了最先进的结果。
该架构包含一个感知编码器和两个解码器(轨迹解码器和评分解码器),所有模块均基于标准Transformer模块构建。感知编码器将感知信息压缩成与摄像头相关的寄存器,形成场景标记以供后续处理。技术亮点包括通过将解码后的轨迹重新嵌入并从梯度计算图中分离出来,实现了评分和轨迹生成路径的解耦,从而提高了性能并增强了可控性。科学家们利用LoRa技术对ViT进行了微调,引入了每个摄像头特有的传感器寄存器,并将这些寄存器分组以形成场景标记。
研究人员引入了摄像头感知注册令牌,能够有效地将多摄像头输入压缩成简洁的场景表示,从而在不影响轨迹预测精度的前提下降低计算需求。这项创新使得创建轻量级解码器成为可能,该解码器能够生成和评估潜在的驾驶路径,其中评分解码器专门用于预测与安全性、舒适性和驾驶效率相关的可解释子分数。
通过在包括NAVSIM-v1、NAVSIM-v2和HUGSIM在内的基准测试中,DrivoR的性能始终与现有系统持平或更优。消融实验表明,采用LoRA微调、使用最佳数量的摄像头令牌(16到32个之间)以及为轨迹生成和评分维护独立的分支至关重要。研究人员也承认学习率调度方面的局限性,并指出进一步的改进有望缩小完全微调和LoRA之间的性能差距。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。





