多模态大模型 —— InternVL 1.0 精读笔记

文章链接:https://arxiv.org/pdf/2312.14238

发布时间:2023.12

Copyright (c) Wang-Luning. All Rights Reserved.

可以看成是BLIP-2的改进,主要体现在两方面:

 

模型结构:

image-20251030194200152

训练分为3个步骤:

image-20251030194124663