跳到主要内容

13. pi0.7:可引导与组合泛化

先修建议

  • 已完成第 9 讲 π₀,理解 VLM + 动作专家骨架。
  • 已完成第 12 讲 π₀.6,理解 Recap 的在线迭代闭环。
  • 熟悉“动作能力提升”和“语义引导能力”是两条不同改进路径。

本节目标

  • 明确 π₀.7 的新增能力接口:可引导(steerability)与组合泛化(compositional generalization)。
  • 用统一控制接口抽象本章机制,不依赖未公开论文公式。
  • 看懂多模态提示(language / metadata / control modality / subgoal image)如何支持异构数据融合。
  • 建立 π₀.6 -> π₀.7 的连续能力阶梯,区分已验证能力与未验证结论。

1. pi0.7 定位

π₀.6 已证明“部署后可持续改进”,π₀.7 在此基础上新增的是“部署时可被语言在线引导”。

先看能力接力关系:

上一讲(π₀.6)本讲(π₀.7)承接关系
在线闭环:采集 -> 估值 -> 提取在线引导:指令 -> 子任务 -> 子目标 -> 执行都是部署后继续改进,只是控制变量从“权重更新”扩展到“推理条件调节”
优势条件策略与 metadata 信号多模态提示(language/metadata/control/subgoal)条件化接口从训练期扩展到推理期可调
与 specialist 对比提升单模型匹配或超过 specialist评测目标延续,问题重心转到“能否组合与指挥”

官方 blog 的核心主张是:π₀.7 出现了早期的组合泛化迹象,能在未见任务上通过语言引导完成更复杂行为(A 级证据)。

读图重点:这一页不是“结构图”,而是“能力声明页”,先记住关键词 steerableemergent capabilities

π₀.7 官方页面主视觉:强调可引导与涌现能力(A 级:官方 blog 快照)
π₀.7 官方页面主视觉:强调可引导与涌现能力(A 级:官方 blog 快照)

2. 任务定义与控制接口

相对 π₀.6 主要通过“再训练”改进策略,本讲讨论的是“在权重不变时,如何通过条件输入改变行为”。

由于论文公式尚未公开,这里使用教程抽象接口(非论文原式):

其中:

变量含义
当前观测(视觉、本体状态、历史上下文)
语言指令(任务描述或分步指导)
元数据条件(如 speed、quality)
视觉子目标(subgoal image)
控制模态标签(如 joint / end-effector)
训练后固定的策略参数

这一定义的关键点是:在线可调的是条件变量,不是参数本身
也就是说,本章重点不是“再训出更好权重”,而是“更精细地给同一权重提供控制条件”。


3. 数据与多模态提示体系

π₀.6 已验证 metadata 可以帮助策略学习;π₀.7 进一步把 metadata 和更多模态统一进同一提示框架。

官方 blog 明确给出四类提示条件(A 级证据):

  1. 任务与子步骤语言。
  2. 过程元数据(例如速度、质量)。
  3. 控制模态标签(joint 或 end-effector)。
  4. 视觉子目标图(可由 world model 在测试时生成)。

这套设计的工程价值不在“提示花样更多”,而在“异构数据可共训”:

  1. 不同机器人、不同策略风格、不同质量等级的数据可以在统一接口下并入。
  2. 次优自主数据不会被简单当作噪声丢弃,而是通过 metadata 标注其策略属性后再利用。
  3. 同一个任务目标可以通过“怎么做”的条件差异形成可控策略分布。

因此,π₀.7 的数据逻辑可以概括为:先扩展数据来源,再用提示条件化做行为消歧


4. 系统结构与运行链路

π₀.6 的核心是“策略 + 价值”双分支;π₀.7 的公开描述更接近“VLA 主体 + 高层策略 + 世界模型”的协同链路。

根据官方 blog 可确认的运行角色,推理流程可概括为:

官方可确认结论(A 级):

  1. world model 在链路中的角色是生成视觉子目标,帮助语义消歧。
  2. 高层策略可在多次语言 coaching 后微调,用于自动生成子任务语言。
  3. language + subgoal image 会一起条件化到执行策略。

外部口径(C 级,待论文公开后再核对):

  1. 常见媒体描述为 ~5B 总规模,拆分为 4B + 860M + 14B
  2. 组件命名常见写法是 Gemma3 backboneBAGEL-initialized world model

本章后续默认:凡涉及参数拆分与具体初始化来源,均按 C 级处理,不作为官方硬结论。


5. 可引导机制(Steerability)

π₀.6 的典型改进路径是“采集新数据再训练”;π₀.7 的新增亮点是“通过语言改写直接在线改变行为”。

官方流程可以整理为三段(A 级 + C 级混合):

  1. 零样本任务指令:模型尝试执行未见任务(如 air fryer 场景)。
  2. 分步语言 coaching:把高层指令拆成可执行子步骤。
  3. 高层策略自治:将反复 coaching 过的子步骤模式迁移到高层策略生成。

其中“5% -> 95%、约 30 分钟提示词改进”来自媒体采访转述(C 级)。
它可以作为现象级证据,但不能替代官方论文实验表。

读图重点:每一对图都在比较“当前观测”与“子目标图”,核心是看子目标如何把下一步空间意图显式化。

当前观测 1子目标 1
当前观测 1 与子目标 1:示例起始阶段的状态对齐。
当前观测 2子目标 2
当前观测 2 与子目标 2:中间步骤中的目标布局约束。
当前观测 3子目标 3
当前观测 3 与子目标 3:逐步逼近目标状态。
当前观测 4子目标 4
当前观测 4 与子目标 4:后段步骤的语义消歧。
当前观测 5子目标 5
当前观测 5 与子目标 5:终态对齐示意。

6. 组合泛化与跨机体迁移

π₀.6 强在任务内迭代提升;π₀.7 的主要观察点是跨任务组合与跨机体外推。

6.1 组合泛化(Compositional Generalization)

官方叙述中,air fryer 完整任务并未被直接示教。能检索到的近邻样本是:

  1. 两条“关闭空气炸锅”相关 home 轨迹。
  2. 来自 DROID 的 Franka 相关片段。

这说明可见数据与目标任务之间存在明显结构差距。
π₀.7 的亮点不在“记住一条任务模板”,而在“把已有原子技能按语言目标重组”。

6.2 跨机体迁移(Cross-Embodiment)

官方案例给出:UR5e 双臂系统没有对应折衣训练数据,但模型仍可完成相关任务。
此外,blog 给出“与专家操作员首次上 UR5e 的零样本表现相当”的描述,并提供了“平均 375 小时遥操经验”背景。

本节可得的稳健结论是:在官方示例中,π₀.7 显示出比前代更强的跨机体行为迁移迹象
但在缺乏统一公开 benchmark 的前提下,不应将其直接写成“普适跨机体 SOTA”。

6.3 与 pi0.6 的连接点

官方同时强调:单一 π₀.7 模型在 Recap 相关任务上可达到或超过 specialist(A 级方向性结论)。
这使得两代关系更清晰:

  1. π₀.6:证明“在线学习闭环”有效。
  2. π₀.7:在保持任务性能的同时,新增“可引导与组合泛化”接口。

7. 证据强度与能力边界

本节将“继承能力 / 新增观察 / 尚不能断言”分开列示,避免混写。

类别结论证据等级说明
继承自 π₀.6 的能力在 Recap 相关任务上保持高性能并对比 specialistA来自官方 blog 任务对比描述;精确数值受图表可得性限制
π₀.7 新增观察能力语言 coaching 可显著改善未见任务执行流程A + C流程本身为 A;5%/95%/30 分钟为 C 级采访转述
π₀.7 新增观察能力视觉子目标可作为执行消歧条件A官方明确描述 world model 生成 subgoal 并与语言共同条件化策略
π₀.7 新增观察能力在 UR5e 无该任务训练数据时出现迁移能力A官方案例结论;尚缺统一外部基准复核
尚不能断言具体参数拆分与组件初始化细节已定版C需等待论文/代码公开后核对
尚不能断言对任意机器人、任意任务都稳定等幅提升-当前证据为案例与受控任务集合,不可外推为普适保证

附注:

  1. 本地资料包还记录了一个重要边界:官方页面中的主架构图和柱状图为客户端渲染,无法直接提取原始静态图与数值表(B 级)。
  2. 因此,本章应优先写“机制方向”和“证据等级”,避免写“看似精确但不可复核”的数值细节。

8. 终篇收束与研究空白

π₀.7 为止,这条路线可以压缩成一句话:
VLA 从“可训练”走到“可部署”,再走到“可引导”。

如果把十二讲放在同一张演进图里,可看到三组长期张力:

  1. 离线训练 vs 在线适配。
  2. 权重更新改进 vs 条件化引导改进。
  3. 专项高性能 vs 通用可组合。

π₀.6 是“在线学习拐点”,π₀.7 是“在线可引导拐点”。
但终篇仍需保留四个研究空白:

  1. 完整自治仍未闭环验证(尤其是高层规划稳定性)。
  2. 安全约束如何系统注入策略分布仍不清晰。
  3. 多机器人协同下的语言分发与冲突消解尚未展开。
  4. 统一 benchmark 缺失导致横向比较困难。

因此,本章最终定位是:
它不是“终极机器人通解”,而是把问题从“模型会不会做”推进到“模型能否被稳定指挥地去做”。