自动驾驶的认知重构:VLA 架构的工程真相

自动驾驶的认知重构:VLA 架构的工程真相
当前行业内对 VLA(Vision-Language-Action)的讨论存在严重的泛化倾向,很多人误以为把多模态大模型接入座舱就能解决自动驾驶的问题。这种理解停留在交互层面,而 VLA 的真正价值在于它重构了自动驾驶的决策逻辑。它将传统的模块化算法或单一的端到端网络,升级为具备语义理解能力的认知系统。这不仅仅是算法的迭代,更是对物理世界进行编码与解码的全新工程链路。
在工程落地中,我们首先要面对一个基础事实:大语言模型(LLM)无法直接处理原始图像数据。Transformer 架构的核心优势在于处理序列化的 Token,而图像是高维的像素矩阵。若将 6 到 8 路摄像头的原始 RGB 数据直接输入模型,仅注意力机制(Attention)带来的计算量就会随着输入长度呈平方级增长,导致车端算力瞬间崩溃。此外,像素本身缺乏语义,直接输入会迫使 LLM 浪费大量参数去重新学习基础的边缘检测和纹理识别,这在工程上是极低效的。
因此,构建 VLA 的第一步是建立高效的视觉编码链路。我们引入 Vision Encoder(视觉编码器),如 CLIP 或 SigLIP,其核心任务不是传统的目标检测,而是特征压缩。编码器将图像切分为固定大小的网格(Patches),例如 16x16 的切片。每一个切片被映射为一个高维向量。这种处理方式与传统感知算法有本质区别,它不输出“这是一辆车”或“那是一个人”的标签,而是保留该区域内的纹理、颜色和空间信息。这种 Patch-based 的设计保证了信息的完整性,即使路面上出现从未见过的异形障碍物,模型也能获得其视觉特征,从而避免了传统算法因类别缺失而导致的漏检。
视觉特征被提取后,依然属于视觉空间的数学表示,LLM 所在的文本空间无法直接理解。这时需要引入 Projector(投影层/适配器)进行对齐。Projector 本质上是一个多层感知机(MLP)或轻量级 Transformer,它的作用是将视觉空间的特征向量,线性映射到 LLM 的文本嵌入空间(Embedding Space)。经过这一层处理,视觉特征变成了 LLM 可以读取的“伪词向量”(Soft Tokens)。对于 LLM 而言,这些输入的向量虽然在人类词表中没有对应的单词,但在数学分布上,它们与“红色”、“圆形”、“障碍物”等语义向量高度接近。通过这种方式,物理世界的视觉信息被无损地转化为大模型可处理的语义数据。
当 LLM 接收到这些对齐后的视觉 Token,结合导航指令和系统提示词,便开始了推理过程。与传统端到端模型直接回归轨迹不同,VLA 能够引入思维链(Chain of Thought, CoT)。模型会先生成一段对场景的描述和分析,例如识别出前方车辆的意图或路面湿滑的风险,这种显式的推理过程极大地提升了系统的可解释性。这也是解决 Corner Case 的关键,模型不再是依赖数据拟合的条件反射,而是基于常识进行逻辑判断。
决策生成后的输出环节,是 VLA 真正落地的工程难点。LLM 的原生输出是文本 Token,无法直接控制底盘。为了解决这个问题,我们在模型的词表(Vocabulary)中进行了特殊扩充,增加了代表动作的控制 Token。通过分箱(Binning)技术,将连续的物理量(如坐标、曲率)离散化为数千个区间,每个区间对应一个专用 Token。例如,模型输出 <BIN_X_105> 和 <BIN_Y_302>,实际上是在指定未来轨迹点的坐标。
但这产生了一个频率失配的问题。LLM 的推理频率通常在 10Hz 左右,而线控底盘的控制需要 100Hz 以上的信号才能保证平顺性。因此,LLM 输出的轨迹点(Waypoints)只作为粗粒度的“意图”输入给下游的 MPC(模型预测控制)模块。MPC 负责在动力学约束下,将这些稀疏的轨迹点平滑插值,计算出每一毫秒电机需要的扭矩和方向盘转角。
在实际部署中,尤其是对于量产车,我们无法完全信任概率模型的输出。VLA 生成的指令在下发到底盘之前,必须经过一层确定性的 Safety Filter(安全过滤器)。这层逻辑不含任何 AI 成分,仅基于超声波雷达和毫米波雷达的原始数据进行碰撞校验。一旦检测到物理层面的碰撞风险,系统会强制屏蔽 LLM 的指令并触发 AEB。这种“双保险”机制,是当前中国车企在推进 VLA 方案时普遍采用的务实策略。
待补充:
- Vision Encoder 切片策略(Patch Size)对小目标检测精度的具体影响数据。
- LLM 词表扩充(Tokenization)的具体方案对比,如不同分箱粒度对控制精度的影响。
- 主流车规芯片(Orin-X / Thor)上部署 Projector 层的算力消耗占比分析。
关键字
- VLA (Vision-Language-Action)
- Vision Encoder & Projector
- Patchify
- Soft Tokens
- Token Binning