多模态大模型 —— Flamingo 精读笔记

文章链接：https://arxiv.org/abs/2204.14198
机构：DeepMind
发布时间：2022.04
Copyright (c) Wang-Luning. All Rights Reserved.

Flamingo是一种Vision-Language Model，其可以将任意长度的视觉信息（图像/视频）和语言信息交替输入，且拥有few-shot的能力。其冻结了vision encoder和text encoder。

模型结构：

Vision Encoder：CLIP对比学习预训练的Normalizer-Free ResNet（NFNet-F6），可以编码图像或视频，在训练中冻结。
- $(1,S,d)$ $1$ 是时间维度
- $(T,S,d)$ $T$ 是时间维度
Text Encoder：Chinchilla预训练模型，在训练中冻结。
模态对齐：
- Perceiver Resampler：是一个小型transformer，接收来自Vision Encoder的空间-时间特征，并输出一个大小固定的visual tokens集合，用于连接vision encoder和text encoder。
  输入：
  - $x_f\in\mathbb R^{(T,S,d)}$ 。
  - $\in\mathbb R^{(T,1,d)}$ 用于表征时序信息（由于vision encoder采样的是CNN，其可以隐含地编码空间信息，因此这里不再添加空间embedding）
  - $R$ $x\in\mathbb R^{(R,d)}$ $x_f$ 中采样出固定数量的visual tokens，从而可以处理任意大小的图片/视频
  $x_f$ $(T*S,d)$ $T*S$ $[x_f,x]\in\mathbb R^{(T*S+R,d)}$ $x\in\mathbb R^{(R,d)}$ $R$ 个采样后的visual tokens。
- Gated XATTN-DENSE layers：在普通transformer中间隔地插入一些交叉注意力层，其K,V来自visual tokens，Q来自text tokens
  $\tanh(\alpha_{xattn})$ $\tanh(\alpha_{dense})$ 与两者输出相乘，然后再与残差连接。这两个参数是layer specific的，也是可学习的。它们在训练初始时均为0，这样在初始时和visual token交互的这一支是阻塞的，语言模型没有受到影响，也即训练过程中可以让模型从一个纯语言模型过度到多模态模型。

有关交替的文字/图像输入的处理：

为了让每小段caption文字只关注到其对应的图片，需要使用mask来控制文字对于图片的attention，上图中标黑色的即为不mask的部分。