多模态大模型——论文精读笔记合集

less than 1 minute read

Published:

多模态大模型(Multimodal LLMs)可以处理文本、图像、音频等多种模态的信息。广义的多模态模型可以输入多种模态,输出也可以是多种模态,中间以LLM作为核心大脑进行信息处理。

mllm

本部分主要关注输入多种模态+输出文本的“狭义多模态大模型”相关工作。生成多模态输出通常使用diffusion来完成,而对于最新的一些试图实现多模态输入+多模态输出的工作则也有尝试通过将一切都tokenize来实现的。