多模态大模型 —— Qwen3-VL 精读笔记

文章链接:https://arxiv.org/pdf/2511.21631

发布时间:2025.11

参考文献:

Copyright (c) Wang-Luning. All Rights Reserved.

核心版本为Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-235B-A22B-Thinking,具有视觉智能体(识别并操作GUI)、纯文本能力、视觉coding能力、空间感知与定位、长上下文与长视频理解、多模态思考与推理、多语言OCR和复杂文档理解、多图多轮对话等。

 

img

在模型架构上,其保持原生动态分辨率设计,创新点包括: