EVA-CLIP

GPT-4o掀起全模态热潮！梳理全模态大模型最新研究进展

2024年12月17日

最近，随着像Gemini和GPT-4o这样的新技术的推出，许多关于全模态（即同时处理文本、图像、语音和视频）的研究成果也纷纷涌现。简单来说，这些技术尝试通过一个统一的模型来处理不同类型的数据，比如文字、声音和图片。这意味着，这个模型不仅可以把图片转化为文字，还可以把文字生成为图片。

其中一个值得注意的研究是名为“Emu”的项目。这个项目的核心是多模态生成预训练，简单说就是让模型在不同类型的数据上进行预先训练，以便更好地理解和生成这些数据。想要了解更多关于这个项目的详细信息，可以查看他们的论文，链接是：https://arxiv.org/abs/2307.05222。 代码地址： https://github.com/baaivision/Emu

在这个项目中，有两个主要的步骤：

a. 图像编码：首先，我们使用一种叫做 EVA-CLIP 的技术来对图像进行编码。接着，通过一种叫做因果变压器（Causal Transformer）的技术来处理这些图像信息。这里的“query”是我们自己设定的一个向量，而“key”和“value”则是从图像编码中得到的。

b. 大语言模型（LLM）训练阶段：在这个阶段，我们使用大语言模型来进行下一步的预测学习。对于文本部分，我们使用一种叫做交叉熵的方法来计算误差，而对于图像部分，我们则使用 L2 损失来进行计算。c. 视觉解码器：这个部分使用了一种叫做 Stable Diffusion 的技术来开始工作。它会把大语言模型（LLM）生成的视觉嵌入信息作为条件，输入到 Stable Diffusion 中。然后，它会调整 Stable Diffusion 的一种叫做交叉注意力的线性投影，让它更好地适应这些视觉嵌入信息。

d. 视觉解码器的训练阶段：在这个阶段，我们只对 U-Net 进行训练，而其他的参数保持不变。

NExT-GPT****论文标题： NExT-GPT: 任意到任意的多模态大模型

论文链接： 点击这里查看论文

项目主页： 访问主页

多模态编码阶段： 在这个阶段，研究人员使用了一种叫做 ImageBind 的编码器。简单来说，这个编码器的作用是将不同类型的数据（比如图片、文字等）转换成一种统一的格式。为了让这个转换过程更准确，他们使用了每种数据类型对应的文字描述（我们称之为“caption”）来进行训练和优化。换句话说，他们通过这些描述来帮助编码器更好地理解和处理各种数据。在多模解码阶段，我们的目标是让扩散模型的输出与大型语言模型（LLM）的指令保持一致。简单来说，就是让图像、视频和音频的生成结果符合我们通过文字给出的指令。

为了做到这一点，我们需要缩小LLM的文字信号和扩散模型（用于图像合成的Stable Diffusion、用于视频合成的Zeroscope和用于音频合成的AudioLDM）之间的差距。这种方法不仅确保了训练过程的高效轻量化，还能更好地理解用户的需求，生成他们想要的多种形式的内容。

具体操作上，我们只需训练不同类型的线性模型（Linear）和低秩适应（Lora），同时增加扩散模型的损失（Loss），以便更好地调整输出结果。这样一来，我们就能在不增加太多复杂度的情况下，获得更符合用户要求的多模态输出。

这篇论文的标题是《生成性多模态模型是上下文学习者》。简单来说，研究人员在探讨一种能够同时处理多种类型数据（比如图像和文字）的模型，这种模型能够在特定的上下文环境中进行学习。

在这项研究中，他们使用了一些先进的技术组件：

视觉编码器（Visual Encoder）：他们使用了一种叫做EVA-02-CLIP-E-plus的技术，这个技术帮助模型理解和处理视觉信息，比如图像。
大型语言模型（LLM）：他们选择了LLaMA-33B，这是一种强大的语言处理技术，可以理解和生成自然语言。
视觉解码器（Visual Decoder）：他们使用了SDXL技术，这个技术帮助模型将处理过的视觉信息转化为可理解的输出，比如生成新的图像或描述。

研究分为两个阶段，第一阶段是让模型在成对的图像和视频上进行学习，具体来说就是让模型学习如何为这些图像和视频生成合适的文字描述（caption）。这样做的目的是希望模型能够更好地理解和关联不同类型的数据。

这些技术的结合使得模型能够在不同的上下文中进行学习和应用，提升了模型在处理多模态数据时的灵活性和准确性。在这个技术过程中，我们可以把它分成两个主要阶段来理解：

第二阶段：冻结视觉编码器
在这个阶段，我们不再对视觉编码器进行调整，而是专注于两个任务。第一个任务是文本分类，也就是让系统根据给定的文本内容进行分类。第二个任务是图像回归，这意味着我们希望系统能够根据输入图像进行某种预测或估计。
第三阶段：训练视觉解码器
在这个阶段，我们的目标是训练视觉解码器。与之前的 Emu1 方法不同的是，我们不再使用大型语言模型（LLM）生成的视觉标记，而是直接使用视觉编码器的输出。换句话说，我们只对 U-Net 进行训练，而保持其他参数不变。

通过这种方式，我们能够更有效地训练系统，使其在处理图像和文本时表现得更好。

论文标题： 使用块状环注意力机制处理百万长度的视频和语言的世界模型

论文地址： 点击这里查看论文

主页地址： 点击这里访问主页

视觉编码器： 这部分使用了一种叫做VQGAN的技术，它可以把图像从256x256的分辨率转换成256个小单位（tokens）。简单来说，就是把大图像分成很多小块，以便计算机更容易处理和理解。b. 训练：在训练过程中，我们使用了一种叫做“next-token 预测”的方法。这种方法主要是为了更好地处理长序列数据。为此，我们引入了几项技术：RingAttention、Blockwise Transformers和masked sequence packing。

Chameleon
论文标题： Chameleon: 混合模态早期融合基础模型
论文链接： 点击这里查看论文
**主页链接：**你提到的内容是关于一个名为“Chameleon”的项目，该项目由Facebook研究团队在GitHub上发布。这个项目涉及到一些技术细节，下面我将尝试用更简单的语言来解释：

视觉编码器（Visual Encoder）： 这个部分使用了一种叫做VQ-VAE的技术来处理图像。简单来说，它把一幅512x512像素的图像转换成1024个小的“图像片段”或“图像令牌”（tokens）。这些令牌是从一个包含8192个不同图像片段的“词汇表”中选出来的。
训练过程： 训练的方式是通过预测下一个图像令牌来进行的。这就像是在玩一个猜谜游戏，模型需要根据已经看到的图像片段来猜测接下来会出现哪个片段。

“Planting a SEED of Vision in Large Language Model”。这篇论文可能探讨了如何在大型语言模型中引入视觉能力。

如果你对这些技术感兴趣，可以通过GitHub上的项目页面或论文地址获取更多详细信息。这篇文章是关于一个名为SEED的项目，主要集中在计算机视觉领域。计算机视觉是一种让计算机能够“看懂”图像和视频的技术。SEED项目的目标是提升计算机在理解和处理视觉信息方面的能力。

SEED项目背后的团队来自AILab-CVC，他们在GitHub上提供了项目的主页，方便大家查看和使用相关的代码和资源。GitHub是一个代码托管平台，开发者可以在上面分享和协作开发项目。

如果你对计算机视觉感兴趣，或者正在寻找相关的开源项目，SEED可能是一个值得关注的选择。把这段技术性较强的内容转化为更通俗易懂的版本：

a. 训练分词器：首先，我们要训练一个叫做Causal Q-Former的模型。这个过程使用了一种叫做SD的文本编码器来帮助我们比较和优化模型的表现。接下来，我们进行视觉量化和去分词化的学习，这一步的目的是让生成的嵌入（也就是模型理解和生成的内容）更接近SD的文本编码器的输入。需要注意的是，在这个过程中，有两个部分——ViT编码器和SD解码器的参数是不需要调整的。

b. 大语言模型（LLM）阶段的训练：在这个阶段，我们主要是训练模型去预测下一个词。也就是说，给定前面的文本内容，模型要学会猜测接下来最有可能出现的词是什么。

论文标题： Transfusion: 用一个多模态模型同时预测下一个词和生成图像

论文地址： 点击查看论文

主页地址： 点击查看主页

内容简述：

这篇论文介绍了一种名为Transfusion的新技术，它可以用一个多模态模型同时处理文本和图像任务。简单来说，这个模型不仅可以预测文本中的下一个词，还能生成图像。

在技术上，他们使用了一种叫做VAE（变分自编码器）的技术来处理图像。VAE主要负责将图像编码成一种计算机能理解的格式，然后再解码回来。通常情况下，这个过程会用到一种叫做Linear的技术，但在这项研究中，他们用了一种更复杂的技术，叫做U-net，来替代Linear。这种替代让模型在处理图像时表现得更好。

通过这种方法，Transfusion模型可以在一个框架下同时处理文本和图像两种任务，提升了效率和效果。b. 在处理文本和图像时，我们使用不同的方法：文本使用自回归方法，而图像则采用自编码技术。通过使用Transformer模型，我们可以实现扩散，从而进行多步生成。

**论文标题：**Show-o: One Single Transformer to Unify Multimodal Understanding and Generation
论文链接：Show-o论文

这篇论文介绍了一种名为Show-o的模型，它使用一个单一的Transformer来统一处理多种模式的理解和生成。简单来说，这个模型可以同时处理文本和图像两种不同类型的数据。通过这种方法，模型能够更好地理解和生成多模态内容。这段内容主要讲的是一种图像处理技术，叫做“离散扩散”，它与另一种技术“Transfusion”有些相似，但也有一些不同之处。

简单来说，这种技术使用了一种叫做MAGVIT-v2的工具，把图像分解成小块，称为“tokens”，每个小块代表图像的一部分。具体来说，把一个256x256像素的图像分解成256个小块。这种方法类似于其他一些技术，比如MaskGIT和Muse。Muse还增加了一个超分辨率模型，帮助理解图像的高级语义。

需要注意的是，这种方法并不一定比另一种“连续扩散”技术更好。离散图像分解技术不像CLIP那样，使用大规模的图文对进行训练。总之，这是一种新的尝试，看看能否在图像处理上带来更好的效果。图像生成部分使用了一种叫做 MaskGIT 的方法。这种方法原本是自回归解码的，也就是说，在生成图像时，每一步都需要依赖前面生成的内容，这样一来整个过程就不能同时进行。不过，MaskGIT 通过引入双向注意力机制，使得生成过程可以并行进行。

最近，DeepMind 的一个实验（名为 FLUID 的消融实验）发现，采用随机顺序预测和连续的 Token 生成方式，效果会更好一些。

具体来说，MaskGIT 使用一种掩码策略来多步生成图像。在每次迭代中，模型会同时预测所有的图像片段（tokens），但只保留那些置信度最高的片段。那些置信度不高的片段则会在下一次迭代中重新预测。随着迭代的进行，掩码的比例会逐渐减少，直到所有的图像片段都经过多次迭代生成完毕。这样的方法能提高图像生成的效率和质量。这篇论文的标题是“Emu3: 你只需要下一个词的预测”，听起来有点像在说预测下一个词就能解决很多问题。论文的详细内容可以在给定的网址找到。

在这项研究中，研究人员使用了一种叫做SBER-MoVQGAN的技术来训练一个图像编码器。这个编码器可以把一张512x512像素的图像转换成4096个“词”或“标记”。可以把它想象成一种将图像分解成小块的方式，就像把一个句子分成单词一样。这个编码器的词汇表大小是32768，也就是说它能够识别和使用32768种不同的“词”来描述图像。这种方法能够帮助计算机更好地理解和处理图像内容。b. 在预测下一个词的时候，可能是因为生成和理解这两个过程会相互影响，最终导致我们需要将它们分成两个不同的模型：一个专注于理解，一个专注于生成。

总结最近，多模态大模型的发展非常迅速。现在的主流方法还是将图像生成文字和文字生成图像这两种任务分开处理。图像生成文字通常使用的是结合视觉变换器（VIT）和大型语言模型（LLM）的方式，而文字生成图像则采用的是扩散模型（Diffusion）的方式。随着全模态大模型的进步，这些方法大致可以分为三类：一种是将信息离散化为token，另一种是结合自回归（AR）和扩散模型，还有一种是将大型语言模型（LLM）输出的视觉嵌入用作稳定扩散模型（Stable Diffusion）的文本条件。目前，各种技术方法都有自己的优缺点，并且都还在发展的初期阶段。不过，很多人相信，全模态大模型在未来会是一个值得深入研究的方向。这种技术可以实现从头到尾的多模态训练，能够处理各种类型的数据输入和输出，并且具备强大的理解和生成多种数据的能力。