13. pi0.7：可引导与组合泛化

先修建议

已完成第 9 讲 π₀，理解 VLM + 动作专家骨架。
已完成第 12 讲 π₀.6，理解 Recap 的在线迭代闭环。
熟悉“动作能力提升”和“语义引导能力”是两条不同改进路径。

本节目标

明确 π₀.7 的新增能力接口：可引导（steerability）与组合泛化（compositional generalization）。
用统一控制接口抽象本章机制，不依赖未公开论文公式。
看懂多模态提示（language / metadata / control modality / subgoal image）如何支持异构数据融合。
建立 π₀.6 -> π₀.7 的连续能力阶梯，区分已验证能力与未验证结论。

1. pi0.7 定位

π₀.6 已证明“部署后可持续改进”，π₀.7 在此基础上新增的是“部署时可被语言在线引导”。

先看能力接力关系：

上一讲（π₀.6）	本讲（π₀.7）	承接关系
在线闭环：采集 -> 估值 -> 提取	在线引导：指令 -> 子任务 -> 子目标 -> 执行	都是部署后继续改进，只是控制变量从“权重更新”扩展到“推理条件调节”
优势条件策略与 metadata 信号	多模态提示（language/metadata/control/subgoal）	条件化接口从训练期扩展到推理期可调
与 specialist 对比提升	单模型匹配或超过 specialist	评测目标延续，问题重心转到“能否组合与指挥”

官方 blog 的核心主张是：π₀.7 出现了早期的组合泛化迹象，能在未见任务上通过语言引导完成更复杂行为（A 级证据）。

读图重点：这一页不是“结构图”，而是“能力声明页”，先记住关键词 steerable 与 emergent capabilities。

2. 任务定义与控制接口

相对 π₀.6 主要通过“再训练”改进策略，本讲讨论的是“在权重不变时，如何通过条件输入改变行为”。

由于论文公式尚未公开，这里使用教程抽象接口（非论文原式）：

其中：

变量	含义
	当前观测（视觉、本体状态、历史上下文）
	语言指令（任务描述或分步指导）
	元数据条件（如 speed、quality）
	视觉子目标（subgoal image）
	控制模态标签（如 joint / end-effector）
	训练后固定的策略参数

这一定义的关键点是：在线可调的是条件变量，不是参数本身。
也就是说，本章重点不是“再训出更好权重”，而是“更精细地给同一权重提供控制条件”。

3. 数据与多模态提示体系

π₀.6 已验证 metadata 可以帮助策略学习；π₀.7 进一步把 metadata 和更多模态统一进同一提示框架。

官方 blog 明确给出四类提示条件（A 级证据）：

任务与子步骤语言。
过程元数据（例如速度、质量）。
控制模态标签（joint 或 end-effector）。
视觉子目标图（可由 world model 在测试时生成）。

这套设计的工程价值不在“提示花样更多”，而在“异构数据可共训”：

不同机器人、不同策略风格、不同质量等级的数据可以在统一接口下并入。
次优自主数据不会被简单当作噪声丢弃，而是通过 metadata 标注其策略属性后再利用。
同一个任务目标可以通过“怎么做”的条件差异形成可控策略分布。

因此，π₀.7 的数据逻辑可以概括为：先扩展数据来源，再用提示条件化做行为消歧。

4. 系统结构与运行链路

π₀.6 的核心是“策略 + 价值”双分支；π₀.7 的公开描述更接近“VLA 主体 + 高层策略 + 世界模型”的协同链路。

根据官方 blog 可确认的运行角色，推理流程可概括为：

官方可确认结论（A 级）：

world model 在链路中的角色是生成视觉子目标，帮助语义消歧。
高层策略可在多次语言 coaching 后微调，用于自动生成子任务语言。
language + subgoal image 会一起条件化到执行策略。

外部口径（C 级，待论文公开后再核对）：

常见媒体描述为 ~5B 总规模，拆分为 4B + 860M + 14B。
组件命名常见写法是 Gemma3 backbone 与 BAGEL-initialized world model。

本章后续默认：凡涉及参数拆分与具体初始化来源，均按 C 级处理，不作为官方硬结论。

5. 可引导机制（Steerability）

π₀.6 的典型改进路径是“采集新数据再训练”；π₀.7 的新增亮点是“通过语言改写直接在线改变行为”。

官方流程可以整理为三段（A 级 + C 级混合）：

零样本任务指令：模型尝试执行未见任务（如 air fryer 场景）。
分步语言 coaching：把高层指令拆成可执行子步骤。
高层策略自治：将反复 coaching 过的子步骤模式迁移到高层策略生成。

其中“5% -> 95%、约 30 分钟提示词改进”来自媒体采访转述（C 级）。
它可以作为现象级证据，但不能替代官方论文实验表。

读图重点：每一对图都在比较“当前观测”与“子目标图”，核心是看子目标如何把下一步空间意图显式化。

6. 组合泛化与跨机体迁移

π₀.6 强在任务内迭代提升；π₀.7 的主要观察点是跨任务组合与跨机体外推。

6.1 组合泛化（Compositional Generalization）

官方叙述中，air fryer 完整任务并未被直接示教。能检索到的近邻样本是：

两条“关闭空气炸锅”相关 home 轨迹。
来自 DROID 的 Franka 相关片段。

这说明可见数据与目标任务之间存在明显结构差距。
π₀.7 的亮点不在“记住一条任务模板”，而在“把已有原子技能按语言目标重组”。

6.2 跨机体迁移（Cross-Embodiment）

官方案例给出：UR5e 双臂系统没有对应折衣训练数据，但模型仍可完成相关任务。
此外，blog 给出“与专家操作员首次上 UR5e 的零样本表现相当”的描述，并提供了“平均 375 小时遥操经验”背景。

本节可得的稳健结论是：在官方示例中，π₀.7 显示出比前代更强的跨机体行为迁移迹象。
但在缺乏统一公开 benchmark 的前提下，不应将其直接写成“普适跨机体 SOTA”。

6.3 与 pi0.6 的连接点

官方同时强调：单一 π₀.7 模型在 Recap 相关任务上可达到或超过 specialist（A 级方向性结论）。
这使得两代关系更清晰：

π₀.6：证明“在线学习闭环”有效。
π₀.7：在保持任务性能的同时，新增“可引导与组合泛化”接口。

7. 证据强度与能力边界

本节将“继承能力 / 新增观察 / 尚不能断言”分开列示，避免混写。

类别	结论	证据等级	说明
继承自 π₀.6 的能力	在 Recap 相关任务上保持高性能并对比 specialist	A	来自官方 blog 任务对比描述；精确数值受图表可得性限制
π₀.7 新增观察能力	语言 coaching 可显著改善未见任务执行流程	A + C	流程本身为 A；`5%/95%/30 分钟`为 C 级采访转述
π₀.7 新增观察能力	视觉子目标可作为执行消歧条件	A	官方明确描述 world model 生成 subgoal 并与语言共同条件化策略
π₀.7 新增观察能力	在 UR5e 无该任务训练数据时出现迁移能力	A	官方案例结论；尚缺统一外部基准复核
尚不能断言	具体参数拆分与组件初始化细节已定版	C	需等待论文/代码公开后核对
尚不能断言	对任意机器人、任意任务都稳定等幅提升	-	当前证据为案例与受控任务集合，不可外推为普适保证

附注：

本地资料包还记录了一个重要边界：官方页面中的主架构图和柱状图为客户端渲染，无法直接提取原始静态图与数值表（B 级）。
因此，本章应优先写“机制方向”和“证据等级”，避免写“看似精确但不可复核”的数值细节。

8. 终篇收束与研究空白

到 π₀.7 为止，这条路线可以压缩成一句话：
VLA 从“可训练”走到“可部署”，再走到“可引导”。

如果把十二讲放在同一张演进图里，可看到三组长期张力：

离线训练 vs 在线适配。
权重更新改进 vs 条件化引导改进。
专项高性能 vs 通用可组合。

π₀.6 是“在线学习拐点”，π₀.7 是“在线可引导拐点”。
但终篇仍需保留四个研究空白：

完整自治仍未闭环验证（尤其是高层规划稳定性）。
安全约束如何系统注入策略分布仍不清晰。
多机器人协同下的语言分发与冲突消解尚未展开。
统一 benchmark 缺失导致横向比较困难。

因此，本章最终定位是：
它不是“终极机器人通解”，而是把问题从“模型会不会做”推进到“模型能否被稳定指挥地去做”。

路径选择

背景迁移

落地执行

系统主线

算法主线

组队学习课程

仿真训练项目

真机部署入门

开源数据与工具

开源项目

科普专题

继续学习

13. pi0.7：可引导与组合泛化

1. pi0.7 定位

2. 任务定义与控制接口

3. 数据与多模态提示体系

4. 系统结构与运行链路

5. 可引导机制（Steerability）

6. 组合泛化与跨机体迁移

6.1 组合泛化（Compositional Generalization）

6.2 跨机体迁移（Cross-Embodiment）

6.3 与 pi0.6 的连接点

7. 证据强度与能力边界

8. 终篇收束与研究空白

1. pi0.7 定位​

2. 任务定义与控制接口​

3. 数据与多模态提示体系​

4. 系统结构与运行链路​

5. 可引导机制（Steerability）​

6. 组合泛化与跨机体迁移​

6.1 组合泛化（Compositional Generalization）​

6.2 跨机体迁移（Cross-Embodiment）​

6.3 与 pi0.6 的连接点​

7. 证据强度与能力边界​

8. 终篇收束与研究空白​

1. pi0.7 定位

2. 任务定义与控制接口

3. 数据与多模态提示体系

4. 系统结构与运行链路

5. 可引导机制（Steerability）

6. 组合泛化与跨机体迁移

6.1 组合泛化（Compositional Generalization）

6.2 跨机体迁移（Cross-Embodiment）

6.3 与 pi0.6 的连接点

7. 证据强度与能力边界

8. 终篇收束与研究空白