多模态大模型——论文精读笔记合集

less than 1 minute read

Published:

多模态大模型(Multimodal LLMs)可以处理文本、图像、音频等多种模态的信息。广义的多模态模型可以输入多种模态,输出也可以是多种模态,中间以LLM作为核心大脑进行信息处理。本部分主要关注输入为多种模态的“狭义多模态大模型”相关工作。