据外媒报道,由同济大学(Tongji University)牵头的国际合作团队推出知识增强轨迹预测系统(Knowledge-Enhanced Prediction of Trajectories,KEPT),这是一个创新的AI驱动系统,它通过使车辆能够回忆并学习大量先前遇到的驾驶场景,从而增强短期轨迹预测能力。这项突破性技术利用了前沿的视觉语言模型和先进的记忆检索机制,标志着从传统的端到端规划向更加透明和数据增强的方法的重大转变。

该研究项目是自动驾驶汽车技术领域的突破性进展,预示着自动驾驶汽车安全性和效率的新时代即将到来。

图片来源:期刊《Communications in Transportation Research》

KEPT创新的核心在于一种新型视频编码技术,旨在捕捉驾驶环境的空间和时间细微差别。该模块被称为时频空间融合(TFSF)编码器,它集成了基于快速傅里叶(Fourier)变换的频率注意力机制、多尺度Swin Transformer以及轻量级时域变换器,用于分析采样频率为2Hz的序列。这种复杂的架构使系统能够识别细微的运动变化以及对近期运动规划至关重要的复杂空间布局。该编码器采用自监督方式,无需人工标注即可训练,它使用对比损失框架动态地增强相似片段的嵌入,同时拉开不相似片段的距离。这种创新的训练范式能够生成稳健且语义丰富的表示,从而实现精准检索。

检索机制对KEPT的性能至关重要。通过将大量的历史驾驶视频片段嵌入到矢量数据库中,该系统能够实时嵌入当前的驾驶序列,并高效地查询上下文最相似的先前场景。KEPT采用两层匹配策略——首先通过k均值聚类进行初始聚类路由,然后通过分层可导航小世界(HNSW)索引进行细粒度的邻域识别——检索多个相关的示例及其真实轨迹。这些历史轨迹并非被动的数据点;相反,它们被整合到精心设计的思维链提示中,从而积极地影响模型的推理过程。这些提示引导视觉语言模型对当前场景和过往案例进行细致的比较,批判性地评估相似性和差异性,最终生成一条可行、安全且流畅的3秒自我轨迹。

KEPT旨在解决自动驾驶领域的一项重大挑战——短时轨迹预测问题。该问题因其需要在动态复杂场景中快速做出决策而备受诟病。许多现有的自动驾驶系统由于无法根据有限的当前输入推断未来状态,因此在类似场景下表现不佳。KEPT利用庞大且多样化的历史事件记忆库,使其能够有效地“记住”并应用类似情境中的经验教训,从而减少错误并降低这些关键时刻的碰撞风险。

研究人员通过创新的三阶段微调方案增强了视觉语言骨干架构,旨在提高模型的环境理解能力和预测精度。首先,模型在视觉问答数据集上进行微调,该数据集侧重于与物体类别、尺寸和距离相关的空间推理。在接下来的阶段,模型学习从多视角图像中结合基本运动学参数直接回归未来轨迹,同时对诸如过度弯曲或突然加速等不安全操作进行惩罚。最后,模型进一步专精,学习仅基于前视连续帧预测轨迹,使其语言推理能力与短期时间动态相匹配。重要的是,这种自适应采用了轻量级的低秩自适应(Low-Rank Adaptation,LoRA)模块,在不影响性能的前提下保持了计算效率。

KEPT在nuScenes数据集上的评估表明,其性能不仅优于传统的轨迹预测基线方法,也优于近期基于视觉语言的规划器。KEPT持续降低位置预测误差,并将碰撞概率保持在与竞争对手方法相当甚至更低的水平,为安全感知型自主导航树立了新的标杆。全面的消融研究进一步证实了每个架构元素的重要性——从自监督的TFSF编码和精心构建的检索流程,到三方微调和包含多个检索样本——这些都对提升系统的整体有效性和鲁棒性至关重要。

视觉语言模型虽然功能强大,但容易出现幻觉,且难以充分考虑物理约束。因此,研究团队创新性地将AI的推理建立在具体的、真实世界的轨迹之上。通过将物理可行性和碰撞风险的考量明确地融入训练目标,KEPT将一个功能强大但往往晦涩难懂的推理引擎转化为一个实用、可工程化的模块,使其能够应用于实际场景。

这项研究的意义远不止于直接的性能指标和开环仿真结果。它为自动驾驶汽车AI系统的设计引入了一种范式转变:将大规模预训练模型与检索增强认知以及结构化的、基于物理信息的提示相结合。这种设计提高了透明度,减少了对过度数据标注的依赖,并将主动安全理念融入决策模型的核心。虽然目前的研究主要集中于使用单目前置摄像头拍摄的视频进行短期预测,但它为未来的扩展奠定了必要的基础,包括闭环测试、集成更丰富的传感器套件以及更广泛的地理和环境泛化。

KEPT的潜在应用远不止于完全自动驾驶汽车,它预示着高级驾驶辅助系统(ADAS)将取得变革性进展,不仅能辅助驾驶,还能用自然语言解释其建议,从而增强驾驶员的信任和理解。KEPT通过协调检索能力、视觉感知和语言推理,朝着自动驾驶系统迈出了坚实的一步,这些系统不仅能胜任驾驶任务,还能成为沟通顺畅、易于理解的出行伙伴。

随着自动驾驶汽车技术加速普及,KEPT系统完美融合了AI创新、严谨的工程技术和切实可行的安全考量。这项研究展示了如何通过周密的系统设计,充分利用现代机器学习的优势——大型Transformer模型、自监督学习和高效检索架构——同时融入特定领域的约束,从而保障人类生命安全,并增强人们对智能交通系统的信任。