多模态大模型 —— InternVL 3.0 精读笔记

文章链接：https://arxiv.org/pdf/2504.10479
发布时间：2025.04
Copyright (c) Wang-Luning. All Rights Reserved.

在模型架构上仍然遵循ViT+MLP+LLM范式。

核心贡献点在于原生多模态预训练（native multimodal pre-training）。

在传统MLLM中，多遵循“先语言，后视觉”的范式，也即先拿来一个预训练好的LLM，然后再引入vision encoder进行对齐，这本质上是一种以文本LLM为中心的模式。相当于把visual tokens映射为一种“伪文本token”，和文本token拼接在一起输入给LLM。这样会导致：1）映射时视觉信息丢失；2）LLM和Vision encoder大小差距悬殊，使得二者能力不匹配；3）LLM本质上还是在做文本填空，难以进行深层次的视觉推理。

而在原生多模态预训练中，直接将language pre-training和multimodal alignment training合并为一个步骤，使用交错的多模态数据及大量文本来对所有参数做预训练。这样即可让模型在早期就同时学习语言和多模态能力。从本质上提升其多模态处理能力，而不是依赖对齐步骤。（事实上，InternVL 3.0是拿了预训练好的ViT和LLM，然后再做的这一步“多模态预训练”，这样是为了减轻训练成本，但理论上是可以直接train from scratch的）

multimodal autoregressive formulation为：

$x=(x_1,\cdots,x_L)$ $x_i$ 是text/image等模态的token。上式也即只在text token上计算loss，而visual tokens作为text prediction的conditioning context，这样能学会有益于下游language decoding任务的能力。可训练参数是模型中的所有参数，也即ViT、MLP、LLM的参数是联合优化的。

之前的MLLM虽然最后也都会有一个ViT+MLP+LLM端到端微调的步骤，但那种一般做的是instruction tuning/SFT，而不是全文本token微调。

其他优化：

Variable Visual Position Encoding (V2PE)
在原先的MLLM中，相邻的visual tokens和text tokens的position id差距都是1，但事实上visual tokens之间的position id差距应该比text tokens小一些，这样能够在避免position窗口过大的情况下处理长的multimodal context。
$0<\delta<1$ $\delta\in\Delta=\{1,1/2,1/4,1/8,1/16,\cdots,1/256\}$ $\delta$ 。
Post Training：
- SFT：
  提升对于tool usage、GUI operations、long context等任务的能力
- Mixed Preference Optimization（MPO）
  $\mathcal L_p$ $\mathcal L_q$ $\mathcal L_g$ ：
  $L = w_{p} L_{p} + w_{q} L_{q} + w_{g} L_{g}$
  其中，preference loss就是DPO loss，其可以让模型学到被接受和被拒绝的响应之间的差异：
  quality loss使用BCO loss，其可以让模型理解单个响应的绝对好坏：
  $L_{q} = L_{q}^{+} + L_{q}^{-}$
  $\mathcal L_q^+,\mathcal L_q^-$ 表示被接收的和拒绝的responses的loss，它们被独立计算，需要模型能够区分单个响应之间的绝对好坏差异：
  $\delta$ 为之前rewards的滑动平均，用于稳定训练。
  generation loss用的是LM loss，用于让模型学会生成受喜欢的响应：
Test-Time Scaling
$I$ $q$ $s_0$ ，模型需要判别每一步的正确性：
$c_{i} \sim M (y_{i} | I, q, s_{\leq i})$
$c_i\in\{+,-\}$ $i$ $+$ ”的概率。