多模态大模型 —— InternVL 3.5 精读笔记

文章链接:https://arxiv.org/pdf/2508.18265

发布时间:2025.08

Copyright (c) Wang-Luning. All Rights Reserved.

image-20251031164714378

模型架构上依然采用了ViT-MLP-LLM范式。其在LLM上引入了Dense和MoE模型,如GPT-OSS、Qwen3-30B-A3B等。

在训练流程上,包括如下几个阶段:

image-20251031170131734

Test Time Scaling优化:

 

Infra优化:Decoupled Vision-Language Deployment (DvD)

image-20251031205053340

在推理阶段,vision encoder和LLM的计算特性不同。vision encoder负责将images转为features,是可以高度并行化的,且不依赖长期历史状态。而LLM生成需要依赖较长的历史信息,且是sequential生成的,对于内存带宽和延时很敏感。因此,将二者分别部署可以针对性地进行优化(类似PD分离的思路)。另外,vision encoder、LLM这三者对于一个输入的处理是顺序分阶段的,其形式本质上是个流水线,因此如果将它们解耦到不同节点的化,对于大量的输入可以让vision、communication、LLM部分的处理相互overlap,从而提升吞吐。

因此,将ViT+MLP和LLM分别部署在不同的节点上(vision server和language server),前者处理完得到的bf16 features会被单向地以TCP传递给后者。这样vision、communication、LLM这三部分可以形成一个异步的3-stage的流水线,从而减少阻塞,提升overlap。