多模态大模型——论文精读笔记合集

less than 1 minute read

Published: November 30, 2025

多模态大模型（Multimodal LLMs）可以处理文本、图像、音频等多种模态的信息。广义的多模态模型可以输入多种模态，输出也可以是多种模态，中间以LLM作为核心大脑进行信息处理。

mllm

本部分主要关注输入多种模态+输出文本的“狭义多模态大模型”相关工作。生成多模态输出通常使用diffusion来完成，而对于最新的一些试图实现多模态输入+多模态输出的工作则也有尝试通过将一切都tokenize来实现的。

早期多模态大模型（pre-2023）
- 多模态大模型 —— Flamingo 精读笔记（2022.04）
- 多模态大模型 —— BLIP-2 精读笔记（2023.01）
- 多模态大模型 —— LLaVA 精读笔记（2023.04）
InternVL系列
- 多模态大模型 —— InternVL 1.0 精读笔记（2023.12）
- 多模态大模型 —— InternVL 1.5 & 2.0 精读笔记（2024.04）
- 多模态大模型 —— InternVL 2.5 精读笔记（2024.12）
- 多模态大模型 —— InternVL 3.0 精读笔记（2025.04）
- 多模态大模型 —— InternVL 3.5 精读笔记（2025.08）
Qwen-VL系列
- 多模态大模型 —— Qwen-VL 精读笔记（2023.08）
- 多模态大模型 —— Qwen2-VL 精读笔记（2024.09）
- 多模态大模型 —— Qwen2.5-VL 精读笔记（2025.02）
- 多模态大模型 —— Qwen3-VL 精读笔记（2025.09）

Share on

Twitter Facebook LinkedIn

You May Also Enjoy

26秋招总结——有些弯路本可以避免

less than 1 minute read

Published: June 10, 2026

作为一名决定回国找工作的美硕留子，秋招于我而言注定是一场充满焦虑的孤军奋战。网上相关的经验帖早已多如牛毛，但经过五十多场面试后仍不免感慨“绝知此事要躬行”。回望这段经历，如果有些事情可以早些知道，很多弯路或许可以避免，很多焦虑或许本不必存在。基于我在半年多的时间里摸索出来的规则与经验，希望能在这里写一个针对秋招的全面指南，为打破信息差做一点微小的贡献。

LLM跨层信息传递优化：DeepSeek mHC & Kimi AttnRes解析

1 minute read

Published: April 01, 2026

LLM沿宽度方向（Attention）的优化已十分充分，但沿深度方向则一直使用简单的残差连接来进行跨层信息传递。残差连接会直接将前层的信息不加筛选地传递到后层，使得深层输入的信息中包含大量无用噪声，可能对模型性能带来不好的影响。因此在2026上半年，DeepSeek和Kimi分别通过mHC和AttnRes来优化了跨层信息传递，使得有用的信息能更多地传递到深层，而无用的信息则受到抑制。

LLM知识记忆：DeepSeek Engram解析

less than 1 minute read

Published: April 01, 2026

虽然MoE通过条件计算扩大了模型的容量，但Transformer本身并不具备原生的知识查表能力，其不得不通过计算来低效地模拟信息检索的过程。而语言建模任务本质上包含组合推理与知识检索两种任务，其中前者需要动态的计算，后者则是静态和刻板的（如命名实体和公式化的模式等），其可以使用N-gram这种无需昂贵计算就能有效捕捉局部依赖模式的方法进行知识检索，免去低级重复的推理。因此，DeepSeek提出一种称为Engram的条件记忆机制，作为和MoE互补的另一个稀疏维度。这种设计使得静态的知识可以通过Engram检索获得，无需引入昂贵计算，只需$O(1)$的查表操作，而动态推理则走MoE计算。

LLM注意力优化：稀疏注意力

1 minute read

Published: March 05, 2026

在长文本情境下，对全部历史token做注意力会带来巨大的计算和访存开销，稀疏注意力（Sparse Attention）则通过让每个query有选择地仅和部分最相关的kv做注意力计算，来大幅减小实际计算量。从DeepSeek NSA,DSA到到DSV4中的CSA,HCA，稀疏注意力几乎已成为超长文本模型的标配，且其基本技术思路也存在诸多共性，包括KV块级压缩、基于相关度分数的top-k选择性注意力、粗细粒度结合的层次化注意力等。稀疏注意力也可以和全注意力、线性注意力等进行结合，通过interleave的方式在模型中交替放置，来实现混合注意力。