多模态大模型 —— LLaVA 精读笔记

文章链接:https://arxiv.org/pdf/2304.08485

机构:UW, Microsoft Research, Columbia University

发布时间:2023.04

Copyright (c) Wang-Luning. All Rights Reserved.

首次尝试使用language-only的GPT-4来生成miltimodal language-image instruction-following data。具体而言,基于现有的大量image-text pairs(也即caption),将纯文本的caption以及图中物体的bounding boxes作为prompt给到GPT中,然后让其根据这些内容,以一个看到图片的人的口气来生成若干类型的conversation。

image-20240826160240317

 

设计LLaVA模型,并在这些data上尝试多模态的instruction tuning。它是一个end-to-end训练的visual-language model,使用一个线性层作为桥梁,将CLIP(ViT-L/14)与Vicuna连接。

image-20240826153534780

具体而言,对于输入图像Xv,使用ViT 生成visual feature Zv,然后使用一个单层可训练权重矩阵W将其映射到text embedding空间,得到visual token序列Hv。(这里W的作用和Q-Former等是一样的,只是更加轻量化)

对于每个image Xv,使用GPT-4生成多轮对话(Xq1,Xa1,,XqT,XaT),其中T是对话轮数。在训练时,第t轮对话的instruction Xinstructt为:

image-20240826155212158

也即第一轮对话时将visual tokens和第一轮语言instruction连接起来作为总的instruction,而后续对话中每轮的instruction就是该轮语言instruction本身。模板如下(绿色部分为计算loss的部分):

image-20240826155402357

 

具体而言,训练分为两步: