文章链接:https://arxiv.org/pdf/2504.10479
发布时间:2025.04
Copyright (c) Wang-Luning. All Rights Reserved.
在模型架构上仍然遵循ViT+MLP+LLM范式。
核心贡献点在于原生多模态预训练(native multimodal pre-training)。
在传统MLLM中,多遵循“先语言,后视觉”的范式,也即先拿来一个预训练好的LLM,然后再引入vision encoder进行对齐,这本质上是一种以文本LLM为中心的模式。相当于把visual tokens映射为一种“伪文本token”,和文本token拼接在一起输入给LLM。这样会导致:1)映射时视觉信息丢失;2)LLM和Vision encoder大小差距悬殊,使得二者能力不匹配;3)LLM本质上还是在做文本填空,难以进行深层次的视觉推理。
而在原生多模态预训练中,直接将language pre-training和multimodal alignment training合并为一个步骤,使用交错的多模态数据及大量文本来对所有参数做预训练。这样即可让模型在早期就同时学习语言和多模态能力。从本质上提升其多模态处理能力,而不是依赖对齐步骤。(事实上,InternVL 3.0是拿了预训练好的ViT和LLM,然后再做的这一步“多模态预训练”,这样是为了减轻训练成本,但理论上是可以直接train from scratch的)
multimodal autoregressive formulation为:
其中
之前的MLLM虽然最后也都会有一个ViT+MLP+LLM端到端微调的步骤,但那种一般做的是instruction tuning/SFT,而不是全文本token微调。
其他优化:
Variable Visual Position Encoding (V2PE)
在原先的MLLM中,相邻的visual tokens和text tokens的position id差距都是1,但事实上visual tokens之间的position id差距应该比text tokens小一些,这样能够在避免position窗口过大的情况下处理长的multimodal context。
具体而言,text tokens之间的position id差距仍为1,但visual tokens之间的差距为
Post Training:
SFT:
提升对于tool usage、GUI operations、long context等任务的能力
Mixed Preference Optimization(MPO)
在训练时,next tokens都是基于前边的ground truth tokens预测的,但推理时tokens都是根据模型自己生成的前序tokens生成的,这就导致了分布偏移,影响CoT能力。因此,进一步引入MPO来从正样本和负样本处引入额外的监督,从而对齐模型输出的分布和ground truth分布。MPO的训练目标包括了preference loss
其中,preference loss就是DPO loss,其可以让模型学到被接受和被拒绝的响应之间的差异:
quality loss使用BCO loss,其可以让模型理解单个响应的绝对好坏:
其中
其中
generation loss用的是LM loss,用于让模型学会生成受喜欢的响应:
Test-Time Scaling
采用best-of-N策略,使用VisualPRM-8B来为reasoning选取最好的响应。其会给solution的每一步一个分数,最终将每一步的分数做平均得到该solution的分数。在训练VisualPRM时,给定输入图片
其中