多模态大模型 —— Qwen2.5-VL 精读笔记

文章链接:https://arxiv.org/pdf/2502.13923

发布时间:2025.02

参考文献:

Copyright (c) Wang-Luning. All Rights Reserved.

image-20251029154607419

总体模型结构和Qwen2-VL差不多(LLM+MLP adapter(vision-language merger)+vision encoder)

其优势包括更好的文档解析能力、object grounding能力、超常video理解和细粒度grounding能力、reasoning能力。

主要创新点: