多模态大模型——论文精读笔记合集
Published:
多模态大模型(Multimodal LLMs)可以处理文本、图像、音频等多种模态的信息。广义的多模态模型可以输入多种模态,输出也可以是多种模态,中间以LLM作为核心大脑进行信息处理。
本部分主要关注输入多种模态+输出文本的“狭义多模态大模型”相关工作。生成多模态输出通常使用diffusion来完成,而对于最新的一些试图实现多模态输入+多模态输出的工作则也有尝试通过将一切都tokenize来实现的。
- 早期多模态大模型(pre-2023)
- 多模态大模型 —— Flamingo 精读笔记(2022.04)
- 多模态大模型 —— BLIP-2 精读笔记(2023.01)
- 多模态大模型 —— LLaVA 精读笔记(2023.04)
- InternVL系列
- 多模态大模型 —— InternVL 1.0 精读笔记(2023.12)
- 多模态大模型 —— InternVL 1.5 & 2.0 精读笔记(2024.04)
- 多模态大模型 —— InternVL 2.5 精读笔记(2024.12)
- 多模态大模型 —— InternVL 3.0 精读笔记(2025.04)
- 多模态大模型 —— InternVL 3.5 精读笔记(2025.08)
- Qwen-VL系列
- 多模态大模型 —— Qwen-VL 精读笔记(2023.08)
- 多模态大模型 —— Qwen2-VL 精读笔记(2024.09)
- 多模态大模型 —— Qwen2.5-VL 精读笔记(2025.02)
- 多模态大模型 —— Qwen3-VL 精读笔记(2025.09)
