看得清还不够,汽车开始“理解”世界
过去十年,智能驾驶的发展始终围绕“感知”展开。车内摄像头分辨率不断提高,激光雷达数量持续增加,算法对目标的识别精度被反复推高到接近极限。但现实已经反复验证:看得更清楚,并不能等同于驾驶更安全。
真正制约高阶辅助驾驶能力上限的,并非单点感知精度,而是系统是否具备对真实世界进行整体理解与推演的能力。
进入 2025 年,一个清晰的变化正在行业内部显现:视觉系统不再只是感知链路中的前端模块,而是开始承载更高层级的认知任务,逐步成为世界模型、端到端决策与推理能力连接现实世界的关键入口。这一变化,正在重塑智能驾驶的技术底座。

图片来源: notateslaap
拐点初现:视觉系统从“感知输入”走向“认知基础”
在传统自动驾驶架构中,视觉系统承担的角色相对清晰:采集图像、完成目标检测与语义分割,然后将结构化结果交给后续模块。整个系统强调模块解耦,感知、预测、规划各自独立优化。这种模式在 L2 阶段行之有效,却在更复杂的城市场景中逐渐显露出瓶颈。
问题并不在于“是否看得清”,而在于系统是否始终看得见。在雨雾、强逆光、夜间或复杂气候条件下,传统视觉、雷达和激光雷达各自存在失效区间,感知的不连续性,直接限制了系统对现实世界状态的稳定理解。
也正是在这一背景下,新的视觉感知形态开始进入智能驾驶体系。
Teradar在CES 2026上发布的太赫兹视觉传感器Summit,正是这一趋势的缩影。太赫兹波段位于雷达与激光雷达之间,兼具较高分辨率与全天候穿透能力,使车辆在雾、雨、雪和强眩光条件下仍能获取稳定的环境信息。

图片来源: Terada
从工程基础看,这种升级并非偶然。2024–2025年,多摄像头方案成为主流,8颗甚至更多摄像头进入量产车型;高带宽传输方案(如基于GMSL2的多摄像头系统)与更精确的时序同步能力,使跨视角、跨时间的特征融合成为现实。视觉数据不再是孤立帧图像,而是构成一个高频、全域、时间一致的连续信息流。
真正的变化发生在模型层面。
随着端到端架构成为行业共识,感知、预测、规划不再通过规则化接口串联,而是在统一网络中协同优化。在这种结构下,视觉不再只是“提供目标框”,而是直接参与环境状态的隐空间建模。模型从图像中学习到的不只是物体类别,而是空间几何关系、动态演化趋势以及行为先验。
换句话说,视觉正在承担三项新的“认知职责”:
第一,是构建连续空间表达。通过多视角融合与BEV建模,视觉输出的不再是离散检测结果,而是统一的三维场景表示,为后续预测提供稳定基础。
第二,是提供时间一致的状态演化信息。时序建模让系统能够理解“变化趋势”,而不仅是当前画面。视觉开始成为时间建模的核心信号源。
第三,是参与隐式行为理解。在大模型与世界模型框架下,视觉特征被映射到高维语义空间,成为推理与反事实预测的输入。这意味着视觉不仅回答“这里有什么”,还参与回答“接下来可能发生什么”。
至此,视觉系统完成了角色转变。
它不再是传感器层的输入模块,而成为认知体系的现实锚点——世界模型与端到端决策之所以能够成立,是因为视觉提供了稳定、连续、可泛化的环境表达。模型的“理解能力”并非凭空产生,而是建立在视觉连续性和信息密度之上。
这一拐点的真正含义在于:当视觉具备跨场景稳定性、跨时间连续性以及高维语义表达能力时,它不再只是看见世界,而是成为系统理解世界的起点。
从感知连续性到行为推演:世界模型如何补上“下一步”的空缺
当视觉系统完成从“感知输入”到“认知基础”的转变后,一个更核心的问题随之浮现:如果系统已经能够稳定、连续地理解环境状态,那么它是否具备推演环境演化的能力?
这正是世界模型登场的逻辑起点。
如果说端到端解决的是系统结构问题,那么世界模型要解决的,则是智能驾驶长期存在的“预测盲区”。
在真实道路中,许多风险并非来自目标识别错误,而是源于系统无法合理判断环境的演化趋势。例如,系统可以识别行人,却难以判断其是否即将横穿马路;可以识别前车,却难以预测其是否会突然变道。这类问题,本质上源于对世界状态缺乏连续、可推演的内部表达。
传统规则驱动或模块化的系统,本质上依赖人工设计的逻辑与先验假设。一旦场景超出预设边界,系统便难以应对。而世界模型的核心是通过对真实世界的高维建模,使系统具备理解、预测与内部模拟能力,从而在决策前“先在脑中跑一遍未来”。
从技术角度看,世界模型至少具备三层价值。
首先是时间连续性建模。真实世界并非离散帧的拼接,而是连续演化的系统。世界模型强调在时间维度上保持状态一致性,使车辆能够理解行为趋势,而不仅理解当前状态。
更进一步的是因果推理能力。世界模型不再简单回答“这是什么”,而是尝试回答“如果我这样做,会发生什么”。这种反事实推演能力,是复杂城市场景中实现类人决策的关键。
最终是可训练性与数据闭环。世界模型可以在云端仿真环境中训练,通过大规模合成数据弥补真实世界长尾场景不足,再将能力蒸馏至车端执行。这一点,直接影响高阶辅助驾驶的工程可行性。
正因如此,世界模型不再停留在学术概念层面,而是开始成为主机厂和头部智驾供应商的重点投入方向。
Nextbase在CES 2026上发布的InSight全球街景视觉平台,提供了一种不同于传统“单车采集”的路径。通过覆盖数十亿英里道路的行车记录仪网络,平台能够持续生成低延迟、匿名化、带有精确时空标注的真实世界影像。这些数据并非用于即时驾驶决策,而是用于构建更接近真实道路运行状态的世界模型,为系统理解“世界如何变化”提供长期、规模化的样本。

图片来源: Nextbase
这种从群体视角获取世界数据的方式,使世界模型不再局限于单一车辆的感知闭环,而开始具备更宏观的环境理解能力。对世界模型而言,这类高保真、强时间关联的数据,正是进行行为推演和因果学习的关键资源。
端到端、VLA与世界模型的融合演进
如果说世界模型解决的是“系统如何理解未来”,那么一个更现实的问题是——今天的量产体系,是建立在什么基础之上?
答案已经很清晰:端到端。
端到端自动驾驶(End-to-End Autonomous Driving, E2E)并不只是“单一神经网络”的技术概念,而是一整套围绕数据驱动构建的工程体系。它将多传感器输入(摄像头、毫米波雷达、激光雷达、定位信息与车辆状态)到驾驶输出(轨迹规划、转向/加速/制动控制)的全流程,纳入统一训练框架,并通过“数据闭环 持续训练迭代 回归验证 OTA升级交付”的机制替代传统模块化规则开发。
从产业实践来看,端到端已经成为当前智能驾驶的“地基”。根据某行业调研数据显示,全球端到端自动驾驶市场未来几年将保持19.0%的年复合增长率(CAGR)。
这一数据背后有一个更关键的信号:端到端正在从“技术探索”转向“规模化商业体系”。
在应用层面,乘用车量产搭载页已成为核心场景。根据盖世汽车研究院的数据,截至2025年11月,国内乘用车L2及以上辅助驾驶渗透率已达64%,高速NOA渗透率29%,城市NOA也达到 8.5%。端到端架构的加速上车,是这一进展的重要推动力。
也就是说,今天绝大多数高阶辅助驾驶系统,已经运行在端到端体系之上。
但问题随之出现。
端到端解决的是结构问题——减少模块边界损耗、压缩延迟、提升泛化能力。但它并未天然解决“理解世界”的深层挑战。尤其在低频极端场景、复杂博弈行为和长尾分布下,纯端到端模型仍面临数据稀缺与推理能力受限的问题。
这正是VLA与世界模型开始进入体系内部的原因。
VLA通过引入语言模态,将视觉信息转化为可推理的语言token,使系统具备一定的解释和推演能力;而世界模型则更强调对物理与行为规律的整体建模,侧重“理解世界如何运转”。从当前趋势看,这两种路线并非对立,而是互补。
主机厂的选择已体现出这一融合趋势。盖世汽车观察得出,新势力中,理想、小鹏更偏向VLA路线,蔚来则押注世界模型;传统车企则多通过供应商实现端到端量产,并同步预研世界模型能力,例如华为的WEWA世界行为模型、Momenta 的强化学习大模型、卓驭的世界模型端到端方案等。

这些路径差异,并不代表技术路线分歧,而更多反映了各家在数据形态、算力布局和工程节奏上的不同选择。
可以预见,未来高阶智驾系统并不会在“端到端、VLA或世界模型”中三选一,而是以端到端为基底,融合语言推理与世界建模能力,形成统一的认知系统。
现实约束与落地路径:视觉世界模型如何“先上车”
需要明确的是,世界模型并不会以“完整形态”一步到位登上量产车。算力成本、数据分布偏差、功能安全与法规验证,仍然是必须跨越的现实门槛。
从算力趋势看,随着大模型能力上车,车端计算平台正向500 TOPS乃至千TOPS演进,云端算力规模也同步扩张。这意味着,世界模型在短期内更可能以增强模块的形式存在,而非完全替代现有系统。
在落地路径上,更可行的方式是先在云端完成世界模型训练与验证,通过仿真补齐长尾场景能力,再将核心能力蒸馏至车端,用于提升预测、规划或异常处理能力。这种“云端理解 车端执行”的模式,正在成为行业共识。
从功能层级看,世界模型最先服务的并非L4,而是L2 /L3阶段的安全冗余与体验提升。它解决的不是“自动驾驶是否可用”,而是“在复杂、不确定环境中,自动驾驶系统是否更稳健”。
总的来看,世界模型并非一项孤立技术,而是视觉系统、端到端架构与大模型能力共同演进的结果。它的成熟,将决定智能驾驶能否真正跨过“规则边界”,迈向更接近人类的决策方式。
如果说过去十年自动驾驶比拼侧重于“看见世界”,那么接下来,竞赛的核心将是——如何让自动驾驶系统更懂这个世界。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。





