多模态大模型——论文精读笔记合集
Published:
多模态大模型(Multimodal LLMs)可以处理文本、图像、音频等多种模态的信息。广义的多模态模型可以输入多种模态,输出也可以是多种模态,中间以LLM作为核心大脑进行信息处理。本部分主要关注输入为多种模态的“狭义多模态大模型”相关工作。
- 早期多模态大模型(pre-2023)
- 多模态大模型 —— Flamingo 精读笔记(2022.04)
- 多模态大模型 —— BLIP-2 精读笔记(2023.01)
- 多模态大模型 —— LLaVA 精读笔记(2023.04)
- InternVL系列
- 多模态大模型 —— InternVL 1.0 精读笔记(2023.12)
- 多模态大模型 —— InternVL 1.5 & 2.0 精读笔记(2024.04)
- 多模态大模型 —— InternVL 2.5 精读笔记(2024.12)
- 多模态大模型 —— InternVL 3.0 精读笔记(2025.04)
- 多模态大模型 —— InternVL 3.5 精读笔记(2025.08)
- Qwen-VL系列
- 多模态大模型 —— Qwen-VL 精读笔记(2023.08)
- 多模态大模型 —— Qwen2-VL 精读笔记(2024.09)
- 多模态大模型 —— Qwen2.5-VL 精读笔记(2025.02)
- 多模态大模型 —— Qwen3-VL 精读笔记(2025.09)
