多模态大模型 —— Qwen-VL 精读笔记

文章链接:https://arxiv.org/pdf/2308.12966

发布时间:2023.08

Copyright (c) Wang-Luning. All Rights Reserved.

Qwen-VL可输入图像+文字,输出文字。其以Qwen-7B为backbone,通过引入一个视觉感知器和一个位置感知的适配器来曾模型的视觉特征感知能力。也即,Qwen-VL包括前三个模块:

 

模型输入:

使用<img>, </img>特殊token来包裹图片feature tokens,来区分文本和图片信息。为了做grounding任务,对图像中bound ing box统一采用左上-右下的格式表示,并使用<box>,</box>包裹。对于描述bounding box的文本,用<ref>, </ref>包裹。例如:

image-20251028232846603

 

训练过程:

分为3个阶段,包括2个预训练阶段和1个SFT阶段:

image-20251028231139705