VLA能在自动驾驶落地吗？

我的立场很简单：VLA 是自动驾驶绕不开的方向，但现在离真正量产还远。尤其是国内很多文章把 VLA 写得像已经明天上车，我是不太信的。

我自己的偏见也放前面。我做感知和工程落地更多，所以天然不喜欢只讲概念、不讲闭环验证的东西。如果一年后我被打脸，大概率是因为特斯拉或英伟达把数据和仿真闭环突然跑通了。

VLA 架构示意

VLA当前是否有开源稳定的模型可以跑吗？

如果说具身智能领域，答案是有一些能玩的。比如 OpenVLA，7B 参数，主要面向机器人操作，输入图像和指令，输出机器人动作。它能跑，也有不少人基于它微调。

但如果问题限定在自动驾驶，我的答案会保守很多：没有一个我愿意称为”开源稳定、可直接拿来跑车”的模型。

现在最接近的应该是 NVIDIA Alpamayo。英伟达把它定位成面向自动驾驶的 open VLA family，包含模型、仿真和数据集，Alpamayo 1.5 也开放了 GitHub / Hugging Face 入口。这个很重要，说明自动驾驶 VLA 不再只是论文图。

但它仍然更像研究工具，不是量产方案。能在数据集和仿真里跑，不等于能在城市道路上替你兜底。自动驾驶最麻烦的地方从来不是 demo，而是出错之后谁负责，以及怎么证明它不会在极低概率场景里犯蠢。

先说一句不好听的：VLA 当前最依赖的不是模型结构，而是数据。

自动驾驶的 VLA 要学的不是”图片里有什么”，而是”这个场景下一秒该不该动、该怎么动、为什么这么动”。这需要大量真实驾驶数据、驾驶员接管数据、长尾危险场景、地图和交通规则，也需要闭环仿真把模型放回环境里反复折腾。

World model 能不能帮忙？能，但我不认为它能凭空变出驾驶能力。DriveVLA-W0 这类工作已经在尝试用 world model 预测未来图像，给 VLA 提供更密的训练信号。这个方向是对的，因为只用稀疏的方向盘、油门、轨迹点去监督一个大模型，太浪费模型容量。

但 world model 更像数据放大器，不是数据替代品。它可以生成未来、补充监督、做仿真压力测试，可是它自己也要从真实世界学。如果真实数据里没有足够多的中国式电瓶车、加塞、临停、施工围挡、奇怪标线，world model 也很难自己悟出来。

特斯拉这块最有意思。2025 年 FSD 在中国开始放出部分能力后，马斯克在 X 上说过，他们用了中国道路和标志的公开视频，在仿真里训练。这个说法挺关键，它说明 Tesla 确实在绕开”中国训练数据不能出境”这个问题。

但我没有看到可信公开信息能证明：FSD 是通过某个 world model 把北美能力完整迁移到中国。更合理的说法是，北美训练出来的底座能力可以迁移一部分，中国场景再靠公开视频、仿真和后续本地数据继续补。这里不是魔法迁移，还是数据、仿真、规则和工程优化的混合体。

我现在对 VLA 的判断是：方向成立，量产困难，短期会被包装成各种”端到端大模型”卖给市场。

难点有几个。

第一是闭环安全。开环 benchmark 再好看，也不能证明车在真实交通里不会越跑越偏。车是动态系统，模型一个小错会改变下一帧输入，错误会滚起来。

第二是长尾数据。自动驾驶不是刷常规路况，真正要命的是小概率场景。突然横穿的人、逆行电动车、夜间施工、警察手势、临时交通管制，这些很难靠普通数据均匀覆盖。

第三是实时性。VLA 要看图、读导航、理解规则、输出动作，还要给出可解释理由。车端芯片和控制频率不会因为模型很酷就迁就它，最后大概率还是要分层：大模型做意图和语义，小模型或传统控制做底层稳定。

第四是验证。传统模块虽然笨，但边界相对清楚。VLA 的问题是能力很强，边界很糊。它能解释，不代表解释就是真的；它能规划，不代表每次规划都可控。

所以我不反对 VLA，相反我觉得它大概率会进入自动驾驶主链路。但它不会以”一个大模型端到端接管车辆”的浪漫方式落地。更现实的路径，是先进入数据挖掘、仿真生成、corner case 理解、驾驶策略候选生成，再慢慢往在线决策里渗透。

如果你现在问我 VLA 能不能落地，我会说能。但不是现在宣传稿里那种落地。