文章链接:https://arxiv.org/pdf/2502.13923
发布时间:2025.02
参考文献:
Copyright (c) Wang-Luning. All Rights Reserved.
总体模型结构和Qwen2-VL差不多(LLM+MLP adapter(vision-language merger)+vision encoder)
原始图像的patch进入ViT之前,会有一个使用3D conv来做embedding的步骤,其会使用vit_hidden_size个3D kernel在所有patch方块上滚一遍,从而最终使得hidden_size=vit_hidden_size,进而输入ViT
MLP-based Vision-Language Merger一方面目的是将vision representations映射到language空间,另一方面也是希望压缩image tokens序列的长度,提高推理效率(实际上和Qwen2-vl中的MLP层差不多)。具体而言,对于ViT提取出的patch sequence,将空间上相邻的每4个patches进行依次连接,然后通过这个2层的MLP来映射到和text embedding相同的维数,进而可以输入LLM。
其优势包括更好的文档解析能力、object grounding能力、超常video理解和细粒度grounding能力、reasoning能力。
主要创新点:
在visual encoder中采用window attention
目的是提高推理效率。
在native resolution inputs下,由于image feature sequence变得不定长,因此会导致ViT中的计算复杂度以及load imbalance的问题。因此,在大多数ViT层中引入windowed attention,只有4个层采用完整的attention。
具体而言,设每个patch大小为14*14(也即下图中的一个方块),最大window size为112*112(对应8*8 patches),且每个patch只会和其所在window内部的其他patches做双向attention。
另外,对于那些小于112*112的窗口,也不会做padding,这样可以尽量保证图片在原生输入分辨率下进行操作
为了更好地感知2D信息,在ViT中采用2D RoPE。
动态帧率采样(dynamic FPS sampling)
将dynamic resolution扩展到temporal维度,使得在不同采样率下进行综合的video理解。用户可以自己设置按每秒多少帧的方式来采样视频(默认为2 (FPS),可以写到配置文件里)
另外,video中每两个连续的frames会被group到一起,来减少输入到LLM中的token数量:
也即second_per_grid_t刻画了在temporal维度上,两个相邻的frame group之间的绝对时间间隔(单位为s)。而在Qwen2-VL中,默认这个时间间隔是1s。
将MRoPE中的temporal维度和绝对时间进行对齐
可以达到更复杂的temporal sequence learning。
在Qwen2-VL中,video数据M-RoPE的temporal position ID完全和frame数量绑定,也即每个frame的temporal position ID相比前一个frame都+1,而这无法感知视频内容变化的速度或video内的事件的绝对时间线(例如在长视频低采样率下,相邻两帧实际上离得很远,但在位置编码上它们的关系和短视频高采样率是一样的)。因此,这里将M-RoPE的temporal部分和绝对时间进行对齐,从而能够在不同FPS采样率下学会一致的时间表征。
具体而言,上文中得出的second_per_grid_t表示temporal维度上两个相邻frame group之间的绝对时间间隔。另外,还有一个用户可设置的参数tokens_per_second,其表示video中1s的间隔内应该由多少个"temporal tokens"/“time points”来表征。最终,second_per_grid_t * tokens_per_second就表示“相邻frame group之间应该相差多少个temporal tokens”,用它去修正仅基于帧数的temporal position id [0,1,2,3,...]。例如这个乘积为50,则修正后的temporal position id为[0,50,100,...],可见能体现出两个frame之间拉的很远。
另外,“和绝对时间对齐”还有一个含义是video token在时间维度的起始position id不再是上一个模态的最大position id+1得到,而是从0开始的绝对时间,因为视频里的时间是又绝对含义的。