多模态大模型 —— Qwen2.5-VL 精读笔记

文章链接：https://arxiv.org/pdf/2502.13923
发布时间：2025.02
参考文献：
https://zhuanlan.zhihu.com/p/1921289925552210138
Copyright (c) Wang-Luning. All Rights Reserved.

$image-20251029154607419$

总体模型结构和Qwen2-VL差不多（LLM+MLP adapter（vision-language merger）+vision encoder）

原始图像的patch进入ViT之前，会有一个使用3D conv来做embedding的步骤，其会使用vit_hidden_size个3D kernel在所有patch方块上滚一遍，从而最终使得hidden_size=vit_hidden_size，进而输入ViT
MLP-based Vision-Language Merger一方面目的是将vision representations映射到language空间，另一方面也是希望压缩image tokens序列的长度，提高推理效率（实际上和Qwen2-vl中的MLP层差不多）。具体而言，对于ViT提取出的patch sequence，将空间上相邻的每4个patches进行依次连接，然后通过这个2层的MLP来映射到和text embedding相同的维数，进而可以输入LLM。

其优势包括更好的文档解析能力、object grounding能力、超常video理解和细粒度grounding能力、reasoning能力。

主要创新点：

在visual encoder中采用window attention
目的是提高推理效率。
在native resolution inputs下，由于image feature sequence变得不定长，因此会导致ViT中的计算复杂度以及load imbalance的问题。因此，在大多数ViT层中引入windowed attention，只有4个层采用完整的attention。
具体而言，设每个patch大小为14*14（也即下图中的一个方块），最大window size为112*112（对应8*8 patches），且每个patch只会和其所在window内部的其他patches做双向attention。
另外，对于那些小于112*112的窗口，也不会做padding，这样可以尽量保证图片在原生输入分辨率下进行操作
为了更好地感知2D信息，在ViT中采用2D RoPE。
动态帧率采样（dynamic FPS sampling）
将dynamic resolution扩展到temporal维度，使得在不同采样率下进行综合的video理解。用户可以自己设置按每秒多少帧的方式来采样视频（默认为2 (FPS)，可以写到配置文件里）
另外，video中每两个连续的frames会被group到一起，来减少输入到LLM中的token数量：
也即second_per_grid_t刻画了在temporal维度上，两个相邻的frame group之间的绝对时间间隔（单位为s）。而在Qwen2-VL中，默认这个时间间隔是1s。
将MRoPE中的temporal维度和绝对时间进行对齐
可以达到更复杂的temporal sequence learning。
在Qwen2-VL中，video数据M-RoPE的temporal position ID完全和frame数量绑定，也即每个frame的temporal position ID相比前一个frame都+1，而这无法感知视频内容变化的速度或video内的事件的绝对时间线（例如在长视频低采样率下，相邻两帧实际上离得很远，但在位置编码上它们的关系和短视频高采样率是一样的）。因此，这里将M-RoPE的temporal部分和绝对时间进行对齐，从而能够在不同FPS采样率下学会一致的时间表征。
具体而言，上文中得出的second_per_grid_t表示temporal维度上两个相邻frame group之间的绝对时间间隔。另外，还有一个用户可设置的参数tokens_per_second，其表示video中1s的间隔内应该由多少个"temporal tokens"/“time points”来表征。最终，second_per_grid_t * tokens_per_second就表示“相邻frame group之间应该相差多少个temporal tokens”，用它去修正仅基于帧数的temporal position id [0,1,2,3,...]。例如这个乘积为50，则修正后的temporal position id为[0,50,100,...]，可见能体现出两个frame之间拉的很远。
另外，“和绝对时间对齐”还有一个含义是video token在时间维度的起始position id不再是上一个模态的最大position id+1得到，而是从0开始的绝对时间，因为视频里的时间是又绝对含义的。