多模态大模型 —— Qwen3-VL 精读笔记

文章链接：https://arxiv.org/pdf/2511.21631
发布时间：2025.11
参考文献：
https://zhuanlan.zhihu.com/p/1956306982970586546
Copyright (c) Wang-Luning. All Rights Reserved.

核心版本为Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-235B-A22B-Thinking，具有视觉智能体（识别并操作GUI）、纯文本能力、视觉coding能力、空间感知与定位、长上下文与长视频理解、多模态思考与推理、多语言OCR和复杂文档理解、多图多轮对话等。

在模型架构上，其保持原生动态分辨率设计，创新点包括：

MRoPE-Interleave
原始MRoPE将特征维度按照时间（t）、高度（h)和宽度（w)的顺序分块划分，使得时间信息全部分布在高频维度上。Qwen3-VL 中采取了 t,h,w 交错分布的形式，实现对时间，高度和宽度的全频率覆盖，这样更加鲁棒的位置编码能够保证模型在图片理解能力相当的情况下，提升对长视频的理解能力。详见上文2D RoPE部分。
引入DeepStack技术
可以融合ViT的多层次特征，来提升视觉细节捕捉能力和图文对齐精度。也即抽取一些ViT中间层的特征，并将其注入到LLM的前几层中，使得能够获得ViT中从浅层到深层的全面信息，类似高斯金字塔的思路。
具体而言，在LLM的前3层的hidden state中，分别加入来自ViT第8、16、24层的视觉特征。
将原有的视频时序建模机制T-RoPE升级为文本时间戳对齐机制
采用“时间戳-视频帧”交错的输入形式，实现帧级别的时间信息与视觉内容的细粒度对齐，提升视频时间的定位精度。
具体而言，计算每个被采样的时间块在原视频中的中心时间点，从而获得它们对应的人类可读的文本时间戳（如：<1.5 seconds>），并用<|vision_start|>和<|vision_end|>将这些占位符包裹起来，明确标识这是一帧的范围，且根据FPS等计算出这段时间块需要多少个video token，用<video_pad>进行占位填充。
这样得到的video输入就变成了类似这种形式：<0.2 seconds><|vision_start|>...<|video_pad|>...<|vision_end|><0.8 seconds><|vision_start|>...<|video_pad|>...<|vision_end|>...。最终再将<|video_pad|>替换成真正的video tokens即可。