多模态大模型 —— LLaVA 精读笔记

文章链接：https://arxiv.org/pdf/2304.08485
机构：UW, Microsoft Research, Columbia University
发布时间：2023.04
Copyright (c) Wang-Luning. All Rights Reserved.

首次尝试使用language-only的GPT-4来生成miltimodal language-image instruction-following data。具体而言，基于现有的大量image-text pairs（也即caption），将纯文本的caption以及图中物体的bounding boxes作为prompt给到GPT中，然后让其根据这些内容，以一个看到图片的人的口气来生成若干类型的conversation。

设计LLaVA模型，并在这些data上尝试多模态的instruction tuning。它是一个end-to-end训练的visual-language model，使用一个线性层作为桥梁，将CLIP（ViT-L/14）与Vicuna连接。

$X_v$ $Z_v$ $W$ $H_v$ $W$ 的作用和Q-Former等是一样的，只是更加轻量化）

$X_v$ $(X_q^1,X_a^1,\cdots,X_q^T,X_a^T)$ $T$ $t$ $X^t_{instruct}$ 为：

也即第一轮对话时将visual tokens和第一轮语言instruction连接起来作为总的instruction，而后续对话中每轮的instruction就是该轮语言instruction本身。模板如下（绿色部分为计算loss的部分）：

具体而言，训练分为两步：

Stage 1: Pre-training for Feature Alignment
$W$ $H_v$ 和LLM的word embedding进行align。
Stage 2: Fine-tuning End-to-End
$W$ 和LLM，使用上述构造的多轮对话数据。