8. LLM 控制
对应 CS123 · Lab 7 "Do What I Say" + Lectures 8–9 "AI-enabled Quadrupeds (LLMs)"
这是整门课程的最后一章,也是把所有模块拼起来的一章。我们把一个 LLM 放在最上层当"大脑",把前几章做的 PD / IK / trot / RL policy / 视觉追踪都包装成工具,让机器人能听得懂"往前走两米然后转身追那个红球"这样的指令。
本章目标
- 能设计一套机器人可用的"工具 API"(例如
walk(vx, vy, wz, t)、look_for(color)、stop()) - 能用 function calling 把 LLM 的自然语言输出转成工具调用
- 能把工具调用结果串成一个闭环,让机器人在仿真里完成多步任务
- 做出课程最终 demo:一段语音/文本指令 → Pupper 完成动作序列 的视频
前置阅读
- 第 5–7 章(步态 + 视觉都需要)
- 多模态 · LLM 基础与生成机制
- 多模态 · 从 VLM 到 VLA
章节大纲
- 这一层解决什么问题:语言 → 动作的抽象层次
- 工具 API 设计原则:原子、可组合、有副作用边界
- 用 function calling 打通自然语言 → 工具调用
- 任务规划:单步 vs 多步 vs ReAct
- 失败处理:工具返回错误怎么让 LLM 重试
- 集成第 6 章 RL 策略 + 第 7 章视觉
- 最终 demo 脚本与录制
组队学习任务
-
tools/robot_tools.py:把前几章功能封装成 JSON-schema 可描述的工具 -
agent/llm_agent.py:基于 Claude / OpenAI / 任意 OSS LLM 的控制器 - 选 3 条指令各录一段视频(简单 / 复合 / 容错)
- 写一份 300 字课程总结
进一步延伸
- 把 LLM 换成 VLM,让它看图说话、直接根据画面决策
- 把 function calling 换成 VLA(Vision-Language-Action)一体化模型
- 跑到真机:参考 SO-101 + LeRobot 真机教程
参考资料
- CS123 Lab 7: Do What I Say
- CS123 Lectures 8–9 · AI-enabled Quadrupeds (LLMs)
- Anthropic · Tool use (function calling) 指南