2026年1月21日
Last updated on

VLA能在自动驾驶落地吗?


我的立场很简单:VLA 是自动驾驶绕不开的方向,但现在离真正量产还远。尤其是国内很多文章把 VLA 写得像已经明天上车,我是不太信的。

我自己的偏见也放前面。我做感知和工程落地更多,所以天然不喜欢只讲概念、不讲闭环验证的东西。如果一年后我被打脸,大概率是因为特斯拉或英伟达把数据和仿真闭环突然跑通了。

VLA 架构示意

VLA当前是否有开源稳定的模型可以跑吗?

如果说具身智能领域,答案是有一些能玩的。比如 OpenVLA,7B 参数,主要面向机器人操作,输入图像和指令,输出机器人动作。它能跑,也有不少人基于它微调。

但如果问题限定在自动驾驶,我的答案会保守很多:没有一个我愿意称为”开源稳定、可直接拿来跑车”的模型。

现在最接近的应该是 NVIDIA Alpamayo。英伟达把它定位成面向自动驾驶的 open VLA family,包含模型、仿真和数据集,Alpamayo 1.5 也开放了 GitHub / Hugging Face 入口。这个很重要,说明自动驾驶 VLA 不再只是论文图。

但它仍然更像研究工具,不是量产方案。能在数据集和仿真里跑,不等于能在城市道路上替你兜底。自动驾驶最麻烦的地方从来不是 demo,而是出错之后谁负责,以及怎么证明它不会在极低概率场景里犯蠢。

VLA当前依赖什么?

先说一句不好听的:VLA 当前最依赖的不是模型结构,而是数据。

自动驾驶的 VLA 要学的不是”图片里有什么”,而是”这个场景下一秒该不该动、该怎么动、为什么这么动”。这需要大量真实驾驶数据、驾驶员接管数据、长尾危险场景、地图和交通规则,也需要闭环仿真把模型放回环境里反复折腾。

World model 能不能帮忙?能,但我不认为它能凭空变出驾驶能力。DriveVLA-W0 这类工作已经在尝试用 world model 预测未来图像,给 VLA 提供更密的训练信号。这个方向是对的,因为只用稀疏的方向盘、油门、轨迹点去监督一个大模型,太浪费模型容量。

但 world model 更像数据放大器,不是数据替代品。它可以生成未来、补充监督、做仿真压力测试,可是它自己也要从真实世界学。如果真实数据里没有足够多的中国式电瓶车、加塞、临停、施工围挡、奇怪标线,world model 也很难自己悟出来。

特斯拉这块最有意思。2025 年 FSD 在中国开始放出部分能力后,马斯克在 X 上说过,他们用了中国道路和标志的公开视频,在仿真里训练。这个说法挺关键,它说明 Tesla 确实在绕开”中国训练数据不能出境”这个问题。

但我没有看到可信公开信息能证明:FSD 是通过某个 world model 把北美能力完整迁移到中国。更合理的说法是,北美训练出来的底座能力可以迁移一部分,中国场景再靠公开视频、仿真和后续本地数据继续补。这里不是魔法迁移,还是数据、仿真、规则和工程优化的混合体。

我们离VLA可能还有一定距离

我现在对 VLA 的判断是:方向成立,量产困难,短期会被包装成各种”端到端大模型”卖给市场。

难点有几个。

第一是闭环安全。开环 benchmark 再好看,也不能证明车在真实交通里不会越跑越偏。车是动态系统,模型一个小错会改变下一帧输入,错误会滚起来。

第二是长尾数据。自动驾驶不是刷常规路况,真正要命的是小概率场景。突然横穿的人、逆行电动车、夜间施工、警察手势、临时交通管制,这些很难靠普通数据均匀覆盖。

第三是实时性。VLA 要看图、读导航、理解规则、输出动作,还要给出可解释理由。车端芯片和控制频率不会因为模型很酷就迁就它,最后大概率还是要分层:大模型做意图和语义,小模型或传统控制做底层稳定。

第四是验证。传统模块虽然笨,但边界相对清楚。VLA 的问题是能力很强,边界很糊。它能解释,不代表解释就是真的;它能规划,不代表每次规划都可控。

所以我不反对 VLA,相反我觉得它大概率会进入自动驾驶主链路。但它不会以”一个大模型端到端接管车辆”的浪漫方式落地。更现实的路径,是先进入数据挖掘、仿真生成、corner case 理解、驾驶策略候选生成,再慢慢往在线决策里渗透。

如果你现在问我 VLA 能不能落地,我会说能。但不是现在宣传稿里那种落地。

参考