10. pi0.5：开放世界与分层执行

先修建议

已完成第 9 讲 π₀，理解 VLM + Action Expert + Flow Matching 的基础骨架。
熟悉 action chunking、交叉熵训练与 flow matching 基本概念。
对“训练配方影响泛化”有基本直觉。

本节目标

理解 π₀.5 为什么采用“先生成子任务文本，再生成低层动作”的两层分解。
看懂 MM/ME/CE/HL/WD/VI 六类数据如何在两阶段训练中协同。
对齐论文中的关键训练与评测口径，避免把演示效果误读为普适结论。
建立与后续第 11 讲 RTC、第 12 讲 π₀.6 的连续认知链路。

读图重点：这张 teaser 要看的是“训练外家庭 + 长程任务”这两个条件同时成立。

1. 为什么 pi0.5 要“先说再做”

承接句：π₀ 把跨机体动作建模做成了可复用基础骨架，但核心评测仍以实验室及近分布场景为主；π₀.5 把目标前移到训练外真实家庭中的多阶段任务。

π₀.5 针对的是一个更现实的问题：当机器人进入陌生家庭时，任务难点不只来自动作执行，还来自语义决策。

同一个“clean the kitchen”高层指令，系统需要先回答三类问题：

当前场景下下一步应做哪一个子任务。
这个子任务对应的对象与空间关系是什么。
低层动作如何在当前机体约束下稳定完成。

论文给出的整体策略是三件事协同：

用层级子任务推理把“做什么”与“怎么做”分离。
用异构数据共训扩充视觉语义与任务先验来源。
用信息单向流动降低连续动作损失对语言语义路径的干扰。

需要区分两个时长口径：

开篇强调的是可达 10-15 分钟级别的长程行为能力。
主体量化评测里，多数标准任务段落在 2-5 分钟区间。

这两组数字对应不同实验语境，不应混写成单一结论。

2. 两层策略分解：先预测子任务，再解码动作块

承接句：π₀ 的主形式是“任务文本 -> 动作块”；π₀.5 在中间显式插入了可解释的子任务文本层。

论文把联合分布写为：

关键约束是：低层动作分布不直接条件于原始高层指令，而条件于模型产生的子任务文本。

符号	含义
	当前观测（多相机图像 + 本体状态）
	高层任务指令（如“整理厨房”）
	子任务文本（如“pick up the plate”）
	连续动作块
	动作 horizon（附录给出，即 50 步动作块）

把中间变量设计成离散文本 token而非连续 latent，有两个直接收益：

与 VLM 预训练词表与交叉熵监督天然兼容。
子任务可读、可控，便于调试与人类指令介入。

这一步构成了本章最关键的“先说再做”：先生成可解释子任务，再进入连续控制。

3. 五路数据如何共训成一个策略

承接句：π₀ 主要扩展了跨机体动作覆盖；π₀.5 在此基础上把高层语义监督与 Web 知识显式纳入训练配方。

读图重点：这张图要看“同一模型、两阶段训练、数据源角色变化”。

π₀.5 的 pre-training / post-training 数据任务构成

3.1 预训练阶段（pre-training）

预训练同时使用以下数据源：

MM：移动操作数据（约 400 小时，约 100 个家庭环境）。
ME：多环境非移动操作数据。
CE：实验室跨机体数据（含 OXE）。
HL：高层子任务文本与相关标注。
WD：Web 多模态数据（captioning / VQA / detection）。

论文主文给出关键比例：第一阶段中约 97.6% 的样本并非来自移动操作本体数据，而来自其他来源（其他机器人、Web 等）。

3.2 后训练阶段（post-training）

后训练聚焦移动场景，保留 MM/ME/HL/WD，并加入：

VI：verbal instruction 语言示教数据。

同时移除 CE，将训练重心从“广覆盖适配”转向“移动操作专精”。

3.3 数据对齐细节

为保证多源机器人数据可拼接训练，论文明确了动作侧的统一处理：

各数据集动作维度按分位数归一化到 [-1, 1]。
维度不足的机体使用 zero-padding 对齐。
控制模态通过文本标记显式写入 prompt。

这也是“异构数据能否真正共训”的工程基础。

4. FAST+Flow 双通道：离散语义与连续动作并存

承接句：主骨架仍延续 π₀，但 π₀.5 把离散 token 路径与连续动作路径的协作关系写得更完整。

读图重点：这张系统图主要看传感器与动作空间规模，不只看外观形态。

架构层可以概括为三层：

共享 VLM 主干负责多模态语义表示与文本输出。
文本输出路径负责生成高层子任务与其他离散 token 目标。
Action Expert 路径负责 flow matching 连续动作生成。

论文附录给出两项关键结构口径：

主干为 PaliGemma 系列初始化（2B 级别设置）。
Action Expert 为较小独立专家（约 300M 量级配置）。

读图重点：mask 图要看“谁能看谁”，尤其是动作专家与 FAST token 的隔离关系。

论文附录的核心规则是：

动作专家可 attend 到 prefix 与自身动作专家 token。
动作专家不 attend FAST 动作 token（避免两种动作表示互相泄漏）。
VLM token 不 attend 动作专家。

这使连续动作梯度对语言语义主路径的干扰被显式限制。

5. 两阶段训练：先对齐语义，再专精控制

承接句：π₀.5 沿用 π₀ 的 flow matching 控制路线，但把训练目标扩展为离散与连续联合优化。

论文给出的联合目标可写为：

其中第一项是文本/离散 token 路径交叉熵，第二项是连续动作 flow matching 损失。

5.1 阶段切换口径

pre-training：α=0，以离散 token 学习为主。
post-training：α=10.0，加入连续动作专家训练。

训练步数口径：

pre-training：280k steps
post-training：80k steps

动作专家在 post 阶段以随机初始化接入，同时保留 next-token 训练以维持文本能力。

5.2 与推理接口的对应

论文主文给出的推理描述是：

先做文本自回归解码得到子任务文本。
再做 10 次 denoising 得到连续动作块。

这构成了“训练目标分解”与“推理执行分解”的一一对应。

6. 从子任务文本到 50Hz 控制闭环

承接句：π₀.5 在能力上向开放世界推进，但系统层仍然受到动作块推理与执行时延约束；这正是第 11 讲 RTC 要继续解决的问题。

运行时闭环可以按四步理解：

输入观测与高层指令，生成子任务文本。
以子任务文本为条件，生成动作块。
控制器按底层频率执行目标。
新观测到来后重复上述过程。

与部署强相关的论文口径：

平台使用四路相机做高层推理。
低层推理使用腕部与前视等关键视角。
控制目标以 50Hz 由 PD 控制器跟踪。
动作块 horizon 为 50 步（附录写为 H=49 token 索引）。

关于“高层更新频率”，论文主文未给统一固定值；更稳妥的写法是“按任务阶段切换动态重采样”，避免硬编码成某个单一频率口径。

7. 开放世界证据链：新家庭、扩场景、看消融

承接句：相较 π₀ 的实验室与近分布泛化证据，π₀.5 的核心推进是把评测主战场放到训练外真实家庭。

7.1 新家庭量化评测

读图重点：先看三类任务在不同真实家庭中的一致性，再看是否与 mock 评测趋势一致。

论文设置要点：

评测在训练未出现的真实家庭进行。
任务覆盖厨房与卧室清理子任务。
标准量化任务多为 2-5 分钟多阶段流程。

7.2 场景数量 scaling

论文把训练位置数分为 3 / 12 / 22 / 53 / 82 / 104 桶进行对比。

读图重点：重点看“训练位置增加 -> 语言跟随与成功率同步上升”，尤其是 OOD 对象趋势。

主文还给出一个关键语境：104-location 模型在部分设定下可接近“直接在测试家庭训练”的对照表现，但该结论应限定在文中指定协议与任务集合下解读。

7.3 训练配方与高层推理消融

高层相关消融显示：

完整 π₀.5 表现最好。
implicit HL（训练有 HL、推理不显式 HL）通常显著优于 no HL。
去掉 VI 或 WD 都会明显退化高层表现。

读图重点：比较 full / implicit HL / no HL / no VI / no WD / GPT-4 / human HL 的相对差距，而不是只看单个柱。

论文同时指出：VI 仅占高层移动操作样本约 11%，但对最终高层策略质量有关键影响。

8. 失败模式、能力边界与下一讲入口

承接句：π₀.5 的核心贡献是“能在训练外家庭泛化执行”；但它仍然不是“可实时无损闭环 + 可在线持续学习”的终点形态。

论文 Discussion 明确给出的边界包括：

某些物理结构（如陌生把手）仍易失败。
部分可观测性导致关键状态被遮挡。
高层子任务推理可能出现分心或重复行为。

这意味着 π₀.5 的下一步不应只理解为“再加数据”，还包括两条系统路线：

实时执行路线：如何在高延迟与复杂控制条件下保持稳定闭环（第 11 讲 RTC）。
在线学习路线：如何把部署期经验回流为策略更新，而非仅靠离线再训练（第 12 讲 π₀.6）。

把 π 系列压缩成一条主线可写成： π₀（跨机体基座） -> π₀.5（跨场景泛化） -> RTC（实时执行优化） -> π₀.6（在线经验学习）。

路径选择

背景迁移

落地执行

系统主线

算法主线

组队学习课程

仿真训练项目

真机部署入门

开源数据与工具

开源项目

科普专题

继续学习

10. pi0.5：开放世界与分层执行

1. 为什么 pi0.5 要“先说再做”

2. 两层策略分解：先预测子任务，再解码动作块