跳到主要内容

多模态大模型基础(系列导读)

为什么学这个系列?

具身智能的核心挑战,是让机器人同时做好三件事:看见什么(理解视觉输入)、做什么(理解语言指令)、怎么做(生成精确的控制动作)。传统方法往往将这三件事割裂处理,而多模态大模型(VLM/VLA)正在把它们统一到同一个框架里——以语言模型为"大脑",以视觉编码器为"眼睛",以动作头为"手"。

举一个直观的例子:你告诉机器人"把红色杯子放到蓝色盘子里"。完成这个任务,机器人需要理解"红色""蓝色"这样的颜色语义(语言理解),从图像中定位杯子和盘子的具体位置(视觉感知),再规划一条合理的抓取和放置路径(动作生成)。这三种能力,恰好来自本系列各章所覆盖的技术栈——Transformer、LLM、ViT、视觉编码器、多模态融合与 VLA。读完本系列,你将拥有理解并拆解这条完整技术链路的能力。

本系列聚焦 VLM(Vision-Language Model)与 VLA(Vision-Language-Action)常见技术栈,目标是建立一条从概念理解到论文阅读、再到工程实现都可复用的知识框架。

1. 本系列关注什么

核心关注四个问题:

  • 图像如何被表示为模型可处理的 token(ViT、视觉编码器)
  • 语言模型如何建模上下文并生成输出(LLM)
  • 视觉与语言特征如何融合(VLM)
  • 在融合基础上如何扩展到动作预测(VLA)

2. 适用读者与前置知识

适合希望系统理解多模态模型结构的读者,尤其是需要阅读 LLaVA、InternVL、Qwen-VL、RT-2、OpenVLA 等论文或代码的场景。

本系列从 Transformer 基础开始,不需要你提前学过视觉或 NLP,所有关键概念都会在各章中从头建立。即使你没有 GPU,也完全可以理解原理——代码部分以示意和参考为主,重点是帮你建立清晰的概念模型,而不是要求你立即跑通每段代码。

前置知识建议:

  • Python 基础(能阅读 PyTorch 代码)
  • 线性代数基础(向量、矩阵乘法)
  • 神经网络基础(前向/反向传播)

3. 知识地图

图像输入
-> 视觉编码器(CLIP / SigLIP / DINOv2)
-> 视觉 token
-> 多模态融合(Projector / Cross-Attention / Q-Former)
-> LLM 主干(LLaMA / Qwen 等)
-> 输出头(文本输出 或 动作输出)

从模块关系看:

  • 1-2:语言建模基础(Transformer 与 LLM)
  • 3-4:视觉建模与跨模态对齐
  • 5:多模态融合
  • 6:从 VLM 扩展到 VLA

各章依赖关系说明:

第 1–2 章围绕语言侧展开,是后续所有章节的语言基础。第 3–4 章是视觉侧基础,其中 ViT 的 patch 分块思路直接复用了第 1 章的 Transformer 概念,建议先读第 1 章再进入视觉侧。第 5 章是融合章,将语言和视觉两条线汇聚在一起。第 6 章是终章,在理解 VLM 的基础上进一步扩展到动作输出。

4. 章节安排

章节核心主题主要问题
1Transformer 基础注意力机制如何支撑序列建模
2LLM 基础与生成机制自回归生成与指令微调如何工作
3ViT 与视觉表征图像如何变为 token 序列
4视觉编码器与对齐图文特征如何进入共享语义空间
5多模态融合与 VLM视觉 token 如何接入 LLM
6从 VLM 到 VLA如何从"理解"走向"动作输出"

阅读完每章后,你应该能回答:

  1. 第 1 章:Self-Attention 的计算过程是什么?为什么它能捕捉序列中任意位置的依赖关系?
  2. 第 2 章:LLM 是如何一个 token 一个 token 地生成文本的?指令微调改变了什么?
  3. 第 3 章:ViT 如何把一张图片转换成 token 序列?它和 CNN 的本质区别是什么?
  4. 第 4 章:CLIP 是怎么让图像和文字进入同一个语义空间的?对比学习的核心思路是什么?
  5. 第 5 章:LLaVA 和 Q-Former 分别用了什么策略把视觉 token 接入语言模型?
  6. 第 6 章:VLA 在 VLM 基础上增加了什么?动作头是如何设计的?

5. 阅读建议

时间估计: 完整按顺序读完本系列大约需要 12–18 小时(每章 2–3 小时),每章可独立成篇,也可以按需跳读。

按顺序阅读(推荐新手): 1 -> 2 -> 3 -> 4 -> 5 -> 6

不同背景的快速入手路线:

  • LLM 背景(熟悉语言模型):可从第 3 章开始,补充视觉侧知识,再读第 4、5、6 章
  • CV 背景(熟悉图像模型):可从第 2 章开始,补充语言侧知识,再读第 5、6 章
  • 完全新手:建议按 1 → 2 → 3 → 4 → 5 → 6 的顺序完整阅读

其他场景:

  • 如果只关注融合与落地:可先读 5,再回补 2-4
  • 如果只关注机器人动作建模:先读 6,再回看 3 和 5

6. 章节目录