Skip to main content

1. 视觉-语言-动作模型(VLA)系列导读

先修建议

  • 具备 Transformer 与自回归建模基础。
  • 熟悉视觉编码器的基本概念(如 ViT、对比学习)。
  • 了解机器人控制中的状态、动作与控制频率。

本节目标

  • 建立 VLA 系列的总体学习地图与章节关系。
  • 明确本系列围绕的核心技术问题与演进主线。
  • 给出按目标导向的阅读顺序,降低后续章节切入成本。

视觉-语言-动作模型(Vision-Language-Action, VLA)把图像观测、语言指令与连续控制统一到同一条策略建模链路中。本章作为导读,先说明“为什么出现 VLA、这一系列覆盖什么、应如何阅读”,为后续各章的模型与工程细节提供统一上下文。

1. 本系列关注什么

核心关注四个问题:

  • VLA 为什么出现,它相对传统 BC/RL 解决了什么问题
  • 动作表征为什么会分化为 token 化与连续生成两条路线
  • 数据规模、模型结构、部署系统如何共同决定效果上限
  • 从"会做"到"可控、可学、可泛化",下一代 VLA 的关键约束是什么

2. 适用读者与前置知识

适合希望系统阅读 VLA 论文与工程实现的读者,尤其是需要理解 RT-1、RT-2、OpenVLA、ACT、Diffusion Policy、pi0/pi0.5/pi0.6/pi0.7 技术链路的场景。

前置建议:

  • Transformer / 自回归建模基础
  • 基本视觉编码器概念(ViT、对比学习)
  • 机器人控制中的状态、动作、控制频率基本概念

3. 知识地图

图像观测 + 语言指令
-> 视觉编码与语义对齐
-> VLM / LLM 主干
-> 动作建模(token / diffusion / flow matching)
-> 实时执行系统(chunking / async control)
-> 在线数据回流与策略更新

4. 章节安排

章节核心主题主要问题
2VLA 全景与演化脉络为什么 VLA 会成为具身智能主线
3RT-1 架构决策3 Hz 与 256 bin 背后的工程权衡
4RT-2 语义迁移为什么 VLM 语义会在机器人上涌现
5Open X-Embodiment跨机体数据如何标准化与混合
6OpenVLA 工程化闭源范式如何被开源复现
7ACT 动作分块如何压制长时序误差累积
8Diffusion Policy连续多模态动作分布如何建模
9pi0 基础模型VLM + 动作专家如何分工协同
10pi0.5 开放世界跨场景泛化为何需要层级语义
11RTC 实时执行慢推理如何嵌入硬实时控制
12pi0.6 在线学习部署经验如何反向驱动策略提升
13pi0.7 可引导性语言引导与组合泛化如何落地

5. 阅读建议

  • 推荐顺序:1 -> 2 -> 3 -> ... -> 13
  • 若偏工程部署:优先读 6 -> 11 -> 12
  • 若偏动作建模:优先读 7 -> 8 -> 9 -> 10
  • 若偏前沿趋势:优先读 2 -> 10 -> 12 -> 13

6. 章节目录