文章链接:https://arxiv.org/pdf/2304.08485
机构:UW, Microsoft Research, Columbia University
发布时间:2023.04
Copyright (c) Wang-Luning. All Rights Reserved.
首次尝试使用language-only的GPT-4来生成miltimodal language-image instruction-following data。具体而言,基于现有的大量image-text pairs(也即caption),将纯文本的caption以及图中物体的bounding boxes作为prompt给到GPT中,然后让其根据这些内容,以一个看到图片的人的口气来生成若干类型的conversation。
设计LLaVA模型,并在这些data上尝试多模态的instruction tuning。它是一个end-to-end训练的visual-language model,使用一个线性层作为桥梁,将CLIP(ViT-L/14)与Vicuna连接。
具体而言,对于输入图像
对于每个image
也即第一轮对话时将visual tokens和第一轮语言instruction连接起来作为总的instruction,而后续对话中每轮的instruction就是该轮语言instruction本身。模板如下(绿色部分为计算loss的部分):
具体而言,训练分为两步:
Stage 1: Pre-training for Feature Alignment
冻结vision encoder和LLM,仅训练中间连接的
Stage 2: Fine-tuning End-to-End
冻结vision encoder,训练中间连接的