多模态大模型基础（系列导读）

为什么学这个系列？

具身智能的核心挑战，是让机器人同时做好三件事：看见什么（理解视觉输入）、做什么（理解语言指令）、怎么做（生成精确的控制动作）。传统方法往往将这三件事割裂处理，而多模态大模型（VLM/VLA）正在把它们统一到同一个框架里——以语言模型为"大脑"，以视觉编码器为"眼睛"，以动作头为"手"。

举一个直观的例子：你告诉机器人"把红色杯子放到蓝色盘子里"。完成这个任务，机器人需要理解"红色""蓝色"这样的颜色语义（语言理解），从图像中定位杯子和盘子的具体位置（视觉感知），再规划一条合理的抓取和放置路径（动作生成）。这三种能力，恰好来自本系列各章所覆盖的技术栈——Transformer、LLM、ViT、视觉编码器、多模态融合与 VLA。读完本系列，你将拥有理解并拆解这条完整技术链路的能力。

本系列聚焦 VLM（Vision-Language Model）与 VLA（Vision-Language-Action）常见技术栈，目标是建立一条从概念理解到论文阅读、再到工程实现都可复用的知识框架。

1. 本系列关注什么

核心关注四个问题：

图像如何被表示为模型可处理的 token（ViT、视觉编码器）
语言模型如何建模上下文并生成输出（LLM）
视觉与语言特征如何融合（VLM）
在融合基础上如何扩展到动作预测（VLA）

2. 适用读者与前置知识

适合希望系统理解多模态模型结构的读者，尤其是需要阅读 LLaVA、InternVL、Qwen-VL、RT-2、OpenVLA 等论文或代码的场景。

本系列从 Transformer 基础开始，不需要你提前学过视觉或 NLP，所有关键概念都会在各章中从头建立。即使你没有 GPU，也完全可以理解原理——代码部分以示意和参考为主，重点是帮你建立清晰的概念模型，而不是要求你立即跑通每段代码。

前置知识建议：

Python 基础（能阅读 PyTorch 代码）
线性代数基础（向量、矩阵乘法）
神经网络基础（前向/反向传播）

3. 知识地图

图像输入
  -> 视觉编码器（CLIP / SigLIP / DINOv2）
  -> 视觉 token
  -> 多模态融合（Projector / Cross-Attention / Q-Former）
  -> LLM 主干（LLaMA / Qwen 等）
  -> 输出头（文本输出 或 动作输出）

从模块关系看：

1-2：语言建模基础（Transformer 与 LLM）
3-4：视觉建模与跨模态对齐
5：多模态融合
6：从 VLM 扩展到 VLA

各章依赖关系说明：

第 1–2 章围绕语言侧展开，是后续所有章节的语言基础。第 3–4 章是视觉侧基础，其中 ViT 的 patch 分块思路直接复用了第 1 章的 Transformer 概念，建议先读第 1 章再进入视觉侧。第 5 章是融合章，将语言和视觉两条线汇聚在一起。第 6 章是终章，在理解 VLM 的基础上进一步扩展到动作输出。

4. 章节安排

章节	核心主题	主要问题
1	Transformer 基础	注意力机制如何支撑序列建模
2	LLM 基础与生成机制	自回归生成与指令微调如何工作
3	ViT 与视觉表征	图像如何变为 token 序列
4	视觉编码器与对齐	图文特征如何进入共享语义空间
5	多模态融合与 VLM	视觉 token 如何接入 LLM
6	从 VLM 到 VLA	如何从"理解"走向"动作输出"

阅读完每章后，你应该能回答：

第 1 章：Self-Attention 的计算过程是什么？为什么它能捕捉序列中任意位置的依赖关系？
第 2 章：LLM 是如何一个 token 一个 token 地生成文本的？指令微调改变了什么？
第 3 章：ViT 如何把一张图片转换成 token 序列？它和 CNN 的本质区别是什么？
第 4 章：CLIP 是怎么让图像和文字进入同一个语义空间的？对比学习的核心思路是什么？
第 5 章：LLaVA 和 Q-Former 分别用了什么策略把视觉 token 接入语言模型？
第 6 章：VLA 在 VLM 基础上增加了什么？动作头是如何设计的？

5. 阅读建议

时间估计： 完整按顺序读完本系列大约需要 12–18 小时（每章 2–3 小时），每章可独立成篇，也可以按需跳读。

按顺序阅读（推荐新手）： 1 -> 2 -> 3 -> 4 -> 5 -> 6

不同背景的快速入手路线：

LLM 背景（熟悉语言模型）：可从第 3 章开始，补充视觉侧知识，再读第 4、5、6 章
CV 背景（熟悉图像模型）：可从第 2 章开始，补充语言侧知识，再读第 5、6 章
完全新手：建议按 1 → 2 → 3 → 4 → 5 → 6 的顺序完整阅读

其他场景：

如果只关注融合与落地：可先读 5，再回补 2-4
如果只关注机器人动作建模：先读 6，再回看 3 和 5

路径选择

背景迁移

落地执行

系统主线

算法主线

组队学习课程

仿真训练项目

真机部署入门

开源数据与工具

开源项目

科普专题

继续学习

多模态大模型基础（系列导读）

为什么学这个系列？

1. 本系列关注什么

2. 适用读者与前置知识

3. 知识地图

4. 章节安排

5. 阅读建议

6. 章节目录

为什么学这个系列？​

1. 本系列关注什么​

2. 适用读者与前置知识​

3. 知识地图​

4. 章节安排​

5. 阅读建议​

6. 章节目录​

为什么学这个系列？

1. 本系列关注什么

2. 适用读者与前置知识

3. 知识地图

4. 章节安排

5. 阅读建议

6. 章节目录