Skip to main content

1. 视觉-语言-动作模型（VLA）系列导读

先修建议

具备 Transformer 与自回归建模基础。
熟悉视觉编码器的基本概念（如 ViT、对比学习）。
了解机器人控制中的状态、动作与控制频率。

本节目标

建立 VLA 系列的总体学习地图与章节关系。
明确本系列围绕的核心技术问题与演进主线。
给出按目标导向的阅读顺序，降低后续章节切入成本。

视觉-语言-动作模型（Vision-Language-Action, VLA）把图像观测、语言指令与连续控制统一到同一条策略建模链路中。本章作为导读，先说明“为什么出现 VLA、这一系列覆盖什么、应如何阅读”，为后续各章的模型与工程细节提供统一上下文。

1. 本系列关注什么

核心关注四个问题：

VLA 为什么出现，它相对传统 BC/RL 解决了什么问题
动作表征为什么会分化为 token 化与连续生成两条路线
数据规模、模型结构、部署系统如何共同决定效果上限
从"会做"到"可控、可学、可泛化"，下一代 VLA 的关键约束是什么

2. 适用读者与前置知识

适合希望系统阅读 VLA 论文与工程实现的读者，尤其是需要理解 RT-1、RT-2、OpenVLA、ACT、Diffusion Policy、pi0/pi0.5/pi0.6/pi0.7 技术链路的场景。

前置建议：

Transformer / 自回归建模基础
基本视觉编码器概念（ViT、对比学习）
机器人控制中的状态、动作、控制频率基本概念

3. 知识地图

图像观测 + 语言指令
  -> 视觉编码与语义对齐
  -> VLM / LLM 主干
  -> 动作建模（token / diffusion / flow matching）
  -> 实时执行系统（chunking / async control）
  -> 在线数据回流与策略更新

4. 章节安排

章节	核心主题	主要问题
2	VLA 全景与演化脉络	为什么 VLA 会成为具身智能主线
3	RT-1 架构决策	3 Hz 与 256 bin 背后的工程权衡
4	RT-2 语义迁移	为什么 VLM 语义会在机器人上涌现
5	Open X-Embodiment	跨机体数据如何标准化与混合
6	OpenVLA 工程化	闭源范式如何被开源复现
7	ACT 动作分块	如何压制长时序误差累积
8	Diffusion Policy	连续多模态动作分布如何建模
9	pi0 基础模型	VLM + 动作专家如何分工协同
10	pi0.5 开放世界	跨场景泛化为何需要层级语义
11	RTC 实时执行	慢推理如何嵌入硬实时控制
12	pi0.6 在线学习	部署经验如何反向驱动策略提升
13	pi0.7 可引导性	语言引导与组合泛化如何落地

5. 阅读建议

推荐顺序：1 -> 2 -> 3 -> ... -> 13
若偏工程部署：优先读 6 -> 11 -> 12
若偏动作建模：优先读 7 -> 8 -> 9 -> 10
若偏前沿趋势：优先读 2 -> 10 -> 12 -> 13

6. 章节目录

1. 本系列关注什么
2. 适用读者与前置知识
3. 知识地图
4. 章节安排
5. 阅读建议
6. 章节目录