多模态大模型 —— Flamingo 精读笔记

文章链接:https://arxiv.org/abs/2204.14198

机构:DeepMind

发布时间:2022.04

Copyright (c) Wang-Luning. All Rights Reserved.

image-20240801110000098

image-20240801110000098

Flamingo是一种Vision-Language Model,其可以将任意长度的视觉信息(图像/视频)和语言信息交替输入,且拥有few-shot的能力。其冻结了vision encoder和text encoder。

模型结构:

有关交替的文字/图像输入的处理:

image-20240802171126665

为了让每小段caption文字只关注到其对应的图片,需要使用mask来控制文字对于图片的attention,上图中标黑色的即为不mask的部分。