多模态大模型基础(系列导读)
为什么学这个系列?
具身智能的核心挑战,是让机器人同时做好三件事:看见什么(理解视觉输入)、做什么(理解语言指令)、怎么做(生成精确的控制动作)。传统方法往往将这三件事割裂处理,而多模态大模型(VLM/VLA)正在把它们统一到同一个框架里——以语言模型为"大脑",以视觉编码器为"眼睛",以动作头为"手"。
举一个直观的例子:你告诉机器人"把红色杯子放到蓝色盘子里"。完成这个任务,机器人需要理解"红色""蓝色"这样的颜色语义(语言理解),从图像中定位杯子和盘子的具体位置(视觉感知),再规划一条合理的抓取和放置路径(动作生成)。这三种能力,恰好来自本系列各章所覆盖的技术栈——Transformer、LLM、ViT、视觉编码器、多模态融合与 VLA。读完本系列,你将拥有理解并拆解这条完整技术链路的能力。
本系列聚焦 VLM(Vision-Language Model)与 VLA(Vision-Language-Action)常见技术栈,目标是建立一条从概念理解到论文阅读、再到工程实现都可复用的知识框架。
1. 本系列关注什么
核心关注四个问题:
- 图像如何被表示为模型可处理的 token(ViT、视觉编码器)
- 语言模型如何建模上下文并生成输出(LLM)
- 视觉与语言特征如何融合(VLM)
- 在融合基础上如何扩展到动作预测(VLA)
2. 适用读者与前置知识
适合希望系统理解多模态模型结构的读者,尤其是需要阅读 LLaVA、InternVL、Qwen-VL、RT-2、OpenVLA 等论文或代码的场景。
本系列从 Transformer 基础开始,不需要你提前学过视觉或 NLP,所有关键概念都会在各章中从头建立。即使你没有 GPU,也完全可以理解原理——代码部分以示意和参考为主,重点是帮你建立清晰的概念模型,而不是要求你立即跑通每段代码。
前置知识建议:
- Python 基础(能阅读 PyTorch 代码)
- 线性代数基础(向量、矩阵乘法)
- 神经网络基础(前向/反向传播)
3. 知识地图
图像输入
-> 视觉编码器(CLIP / SigLIP / DINOv2)
-> 视觉 token
-> 多模态融合(Projector / Cross-Attention / Q-Former)
-> LLM 主干(LLaMA / Qwen 等)
-> 输出头(文本输出 或 动作输出)
从模块关系看:
- 1-2:语言建模基础(Transformer 与 LLM)
- 3-4:视觉建模与跨模态对齐
- 5:多模态融合
- 6:从 VLM 扩展到 VLA
各章依赖关系说明:
第 1–2 章围绕语言侧展开,是后续所有章节的语言基础。第 3–4 章是视觉侧基础,其中 ViT 的 patch 分块思路直接复用了第 1 章的 Transformer 概念,建议先读第 1 章再进入视觉侧。第 5 章是融合章,将语言和视觉两条线汇聚在一起。第 6 章是终章,在理解 VLM 的基础上进一步扩展到动作输出。
4. 章节安排
| 章节 | 核心主题 | 主要问题 |
|---|---|---|
| 1 | Transformer 基础 | 注意力机制如何支撑序列建模 |
| 2 | LLM 基础与生成机制 | 自回归生成与指令微调如何工作 |
| 3 | ViT 与视觉表征 | 图像如何变为 token 序列 |
| 4 | 视觉编码器与对齐 | 图文特征如何进入共享语义空间 |
| 5 | 多模态融合与 VLM | 视觉 token 如何接入 LLM |
| 6 | 从 VLM 到 VLA | 如何从"理解"走向"动作输出" |
阅读完每章后,你应该能回答:
- 第 1 章:Self-Attention 的计算过程是什么?为什么它能捕捉序列中任意位置的依赖关系?
- 第 2 章:LLM 是如何一个 token 一个 token 地生成文本的?指令微调改变了什么?
- 第 3 章:ViT 如何把一张图片转换成 token 序列?它和 CNN 的本质区别是什么?
- 第 4 章:CLIP 是怎么让图像和文字进入同一个语义空间的?对比学习的核心思路是什么?
- 第 5 章:LLaVA 和 Q-Former 分别用了什么策略把视觉 token 接入语言模型?
- 第 6 章:VLA 在 VLM 基础上增加了什么?动作头是如何设计的?
5. 阅读建议
时间估计: 完整按顺序读完本系列大约需要 12–18 小时(每章 2–3 小时),每章可独立成篇,也可以按需跳读。
按顺序阅读(推荐新手): 1 -> 2 -> 3 -> 4 -> 5 -> 6
不同背景的快速入手路线:
- LLM 背景(熟悉语言模型):可从第 3 章开始,补充视觉侧知识,再读第 4、5、6 章
- CV 背景(熟悉图像模型):可从第 2 章开始,补充语言侧知识,再读第 5、6 章
- 完全新手:建议按 1 → 2 → 3 → 4 → 5 → 6 的顺序完整阅读
其他场景:
- 如果只关注融合与落地:可先读 5,再回补 2-4
- 如果只关注机器人动作建模:先读 6,再回看 3 和 5