13. pi0.7:可引导与组合泛化
先修建议
- 已完成第 9 讲
π₀,理解 VLM + 动作专家骨架。 - 已完成第 12 讲
π₀.6,理解Recap的在线迭代闭环。 - 熟悉“动作能力提升”和“语义引导能力”是两条不同改进路径。
本节目标
- 明确
π₀.7的新增能力接口:可引导(steerability)与组合泛化(compositional generalization)。 - 用统一控制接口抽象本章机制,不依赖未公开论文公式。
- 看懂多模态提示(language / metadata / control modality / subgoal image)如何支持异构数据融合。
- 建立
π₀.6 -> π₀.7的连续能力阶梯,区分已验证能力与未验证结论。
1. pi0.7 定位
π₀.6 已证明“部署后可持续改进”,π₀.7 在此基础上新增的是“部署时可被语言在线引导”。
先看能力接力关系:
| 上一讲(π₀.6) | 本讲(π₀.7) | 承接关系 |
|---|---|---|
| 在线闭环:采集 -> 估值 -> 提取 | 在线引导:指令 -> 子任务 -> 子目标 -> 执行 | 都是部署后继续改进,只是控制变量从“权重更新”扩展到“推理条件调节” |
| 优势条件策略与 metadata 信号 | 多模态提示(language/metadata/control/subgoal) | 条件化接口从训练期扩展到推理期可调 |
| 与 specialist 对比提升 | 单模型匹配或超过 specialist | 评测目标延续,问题重心转到“能否组合与指挥” |
官方 blog 的核心主张是:π₀.7 出现了早期的组合泛化迹象,能在未见任务上通过语言引导完成更复杂行为(A 级证据)。
读图重点:这一页不是“结构图”,而是“能力声明页”,先记住关键词 steerable 与 emergent capabilities。

2. 任务定义与控制接口
相对 π₀.6 主要通过“再训练”改进策略,本讲讨论的是“在权重不变时,如何通过条件输入改变行为”。
由于论文公式尚未公开,这里使用教程抽象接口(非论文原式):
其中:
| 变量 | 含义 |
|---|---|
| 当前观测(视觉、本体状态、历史上下文) | |
| 语言指令(任务描述或分步指导) | |
| 元数据条件(如 speed、quality) | |
| 视觉子目标(subgoal image) | |
| 控制模态标签(如 joint / end-effector) | |
| 训练后固定的策略参数 |
这一定义的关键点是:在线可调的是条件变量,不是参数本身。
也就是说,本章重点不是“再训出更好权重”,而是“更精细地给同一权重提供控制条件”。
3. 数据与多模态提示体系
π₀.6 已验证 metadata 可以帮助策略学习;π₀.7 进一步把 metadata 和更多模态统一进同一提示框架。
官方 blog 明确给出四类提示条件(A 级证据):
- 任务与子步骤语言。
- 过程元数据(例如速度、质量)。
- 控制模态标签(joint 或 end-effector)。
- 视觉子目标图(可由 world model 在测试时生成)。
这套设计的工程价值不在“提示花样更多”,而在“异构数据可共训”:
- 不同机器人、不同策略风格、不同质量等级的数据可以在统一接口下并入。
- 次优自主数据不会被简单当作噪声丢弃,而是通过 metadata 标注其策略属性后再利用。
- 同一个任务目标可以通过“怎么做”的条件差异形成可控策略分布。
因此,π₀.7 的数据逻辑可以概括为:先扩展数据来源,再用提示条件化做行为消歧。
4. 系统结构与运行链路
π₀.6 的核心是“策略 + 价值”双分支;π₀.7 的公开描述更接近“VLA 主体 + 高层策略 + 世界模型”的协同链路。
根据官方 blog 可确认的运行角色,推理流程可概括为:
官方可确认结论(A 级):
- world model 在链路中的角色是生成视觉子目标,帮助语义消歧。
- 高层策略可在多次语言 coaching 后微调,用于自动生成子任务语言。
- language + subgoal image 会一起条件化到执行策略。
外部口径(C 级,待论文公开后再核对):
- 常见媒体描述为
~5B总规模,拆分为4B + 860M + 14B。 - 组件命名常见写法是
Gemma3 backbone与BAGEL-initialized world model。
本章后续默认:凡涉及参数拆分与具体初始化来源,均按 C 级处理,不作为官方硬结论。
5. 可引导机制(Steerability)
π₀.6 的典型改进路径是“采集新数据再训练”;π₀.7 的新增亮点是“通过语言改写直接在线改变行为”。
官方流程可以整理为三段(A 级 + C 级混合):
- 零样本任务指令:模型尝试执行未见任务(如 air fryer 场景)。
- 分步语言 coaching:把高层指令拆成可执行子步骤。
- 高层策略自治:将反复 coaching 过的子步骤模式迁移到高层策略生成。
其中“5% -> 95%、约 30 分钟提示词改进”来自媒体采访转述(C 级)。
它可以作为现象级证据,但不能替代官方论文实验表。
读图重点:每一对图都在比较“当前观测”与“子目标图”,核心是看子目标如何把下一步空间意图显式化。










6. 组合泛化与跨机体迁移
π₀.6 强在任务内迭代提升;π₀.7 的主要观察点是跨任务组合与跨机体外推。
6.1 组合泛化(Compositional Generalization)
官方叙述中,air fryer 完整任务并未被直接示教。能检索到的近邻样本是:
- 两条“关闭空气炸锅”相关 home 轨迹。
- 来自 DROID 的 Franka 相关片段。
这说明可见数据与目标任务之间存在明显结构差距。
π₀.7 的亮点不在“记住一条任务模板”,而在“把已有原子技能按语言目标重组”。
6.2 跨机体迁移(Cross-Embodiment)
官方案例给出:UR5e 双臂系统没有对应折衣训练数据,但模型仍可完成相关任务。
此外,blog 给出“与专家操作员首次上 UR5e 的零样本表现相当”的描述,并提供了“平均 375 小时遥操经验”背景。
本节可得的稳健结论是:在官方示例中,π₀.7 显示出比前代更强的跨机体行为迁移迹象。
但在缺乏统一公开 benchmark 的前提下,不应将其直接写成“普适跨机体 SOTA”。
6.3 与 pi0.6 的连接点
官方同时强调:单一 π₀.7 模型在 Recap 相关任务上可达到或超过 specialist(A 级方向性结论)。
这使得两代关系更清晰:
π₀.6:证明“在线学习闭环”有效。π₀.7:在保持任务性能的同时,新增“可引导与组合泛化”接口。
7. 证据强度与能力边界
本节将“继承能力 / 新增观察 / 尚不能断言”分开列示,避免混写。
| 类别 | 结论 | 证据等级 | 说明 |
|---|---|---|---|
| 继承自 π₀.6 的能力 | 在 Recap 相关任务上保持高性能并对比 specialist | A | 来自官方 blog 任务对比描述;精确数值受图表可得性限制 |
| π₀.7 新增观察能力 | 语言 coaching 可显著改善未见任务执行流程 | A + C | 流程本身为 A;5%/95%/30 分钟为 C 级采访转述 |
| π₀.7 新增观察能力 | 视觉子目标可作为执行消歧条件 | A | 官方明确描述 world model 生成 subgoal 并与语言共同条件化策略 |
| π₀.7 新增观察能力 | 在 UR5e 无该任务训练数据时出现迁移能力 | A | 官方案例结论;尚缺统一外部基准复核 |
| 尚不能断言 | 具体参数拆分与组件初始化细节已定版 | C | 需等待论文/代码公开后核对 |
| 尚不能断言 | 对任意机器人、任意任务都稳定等幅提升 | - | 当前证据为案例与受控任务集合,不可外推为普适保证 |
附注:
- 本地资料包还记录了一个重要边界:官方页面中的主架构图和柱状图为客户端渲染,无法直接提取原始静态图与数值表(B 级)。
- 因此,本章应优先写“机制方向”和“证据等级”,避免写“看似精确但不可复核”的数值细节。
8. 终篇收束与研究空白
到 π₀.7 为止,这条路线可以压缩成一句话:
VLA 从“可训练”走到“可部署”,再走到“可引导”。
如果把十二讲放在同一张演进图里,可看到三组长期张力:
- 离线训练 vs 在线适配。
- 权重更新改进 vs 条件化引导改进。
- 专项高性能 vs 通用可组合。
π₀.6 是“在线学习拐点”,π₀.7 是“在线可引导拐点”。
但终篇仍需保留四个研究空白:
- 完整自治仍未闭环验证(尤其是高层规划稳定性)。
- 安全约束如何系统注入策略分布仍不清晰。
- 多机器人协同下的语言分发与冲突消解尚未展开。
- 统一 benchmark 缺失导致横向比较困难。
因此,本章最终定位是:
它不是“终极机器人通解”,而是把问题从“模型会不会做”推进到“模型能否被稳定指挥地去做”。