多模态大模型 —— InternVL 3.0 精读笔记

文章链接:https://arxiv.org/pdf/2504.10479

发布时间:2025.04

Copyright (c) Wang-Luning. All Rights Reserved.

在模型架构上仍然遵循ViT+MLP+LLM范式。

核心贡献点在于原生多模态预训练(native multimodal pre-training)

在传统MLLM中,多遵循“先语言,后视觉”的范式,也即先拿来一个预训练好的LLM,然后再引入vision encoder进行对齐,这本质上是一种以文本LLM为中心的模式。相当于把visual tokens映射为一种“伪文本token”,和文本token拼接在一起输入给LLM。这样会导致:1)映射时视觉信息丢失;2)LLM和Vision encoder大小差距悬殊,使得二者能力不匹配;3)LLM本质上还是在做文本填空,难以进行深层次的视觉推理。

而在原生多模态预训练中,直接将language pre-training和multimodal alignment training合并为一个步骤,使用交错的多模态数据及大量文本来对所有参数做预训练。这样即可让模型在早期就同时学习语言和多模态能力。从本质上提升其多模态处理能力,而不是依赖对齐步骤。(事实上,InternVL 3.0是拿了预训练好的ViT和LLM,然后再做的这一步“多模态预训练”,这样是为了减轻训练成本,但理论上是可以直接train from scratch的)

multimodal autoregressive formulation为:

image-20251031134420248

其中x=(x1,,xL)为多模态序列,xi是text/image等模态的token。上式也即只在text token上计算loss,而visual tokens作为text prediction的conditioning context,这样能学会有益于下游language decoding任务的能力。可训练参数是模型中的所有参数,也即ViT、MLP、LLM的参数是联合优化的。

之前的MLLM虽然最后也都会有一个ViT+MLP+LLM端到端微调的步骤,但那种一般做的是instruction tuning/SFT,而不是全文本token微调。

 

其他优化: