多模态大模型 —— BLIP-2 精读笔记

文章链接:https://arxiv.org/pdf/2301.12597

机构:Salesforce Research

发布时间:2023.01

Copyright (c) Wang-Luning. All Rights Reserved.

image-20240802171932197

提供了一种VLM架构以及一套训练框架,分为两阶段训练,先学表征再学生成,避免了端到端训练的巨大代价。

先训vision encoder(frozen) + Q-Former,再训vision encoder(frozen) + Q-Former + text encoder(frozen)。前者主要为了提升Q-Former提取对于text最重要的