Blog

GPT-4o掀起全模态热潮！梳理全模态大模型最新研究进展

2024年12月17日

最近，随着像Gemini和GPT-4o这样的新技术的推出，许多关于全模态（即同时处理文本、图像、语音和视频）的研究成果也纷纷涌现。简单来说，这些技术尝试通过一个统一的模型来处理不同类型的数据，比如文字、声音和图片。这意味着，这个模型不仅可以把图片转化为文字，还可以把文字生成为图片。

其中一个值得注意的研究是名为“Emu”的项目。这个项目的核心是多模态生成预训练，简单说就是让模型在不同类型的数据上进行预先训练，以便更好地理解和生成这些数据。想要了解更多关于这个项目的详细信息，可以查看他们的论文，链接是：https://arxiv.org/abs/2307.05222。 代码地址： https://github.com/baaivision/Emu

在这个项目中，有两个主要的步骤：

a. 图像编码：首先，我们使用一种叫做 EVA-CLIP 的技术来对图像进行编码。接着，通过一种叫做因果变压器（Causal Transformer）的技术来处理这些图像信息。这里的“query”是我们自己设定的一个向量，而“key”和“value”则是从图像编码中得到的。

b. 大语言模型（LLM）训练阶段：在这个阶段，我们使用大语言模型来进行下一步的预测学习。对于文本部分，我们使用一种叫做交叉熵的方法来计算误差，而对于图像部分，我们则使用 L2 损失来进行计算。c. 视觉解码器：这个部分使用了一种叫做 Stable Diffusion 的技术来开始工作。它会把大语言模型（LLM）生成的视觉嵌入信息作为条件，输入到 Stable Diffusion 中。然后，它会调整 Stable Diffusion 的一种叫做交叉注意力的线性投影，让它更好地适应这些视觉嵌入信息。

d. 视觉解码器的训练阶段：在这个阶段，我们只对 U-Net 进行训练，而其他的参数保持不变。

NExT-GPT****论文标题： NExT-GPT: 任意到任意的多模态大模型

论文链接： 点击这里查看论文

项目主页： 访问主页

多模态编码阶段： 在这个阶段，研究人员使用了一种叫做 ImageBind 的编码器。简单来说，这个编码器的作用是将不同类型的数据（比如图片、文字等）转换成一种统一的格式。为了让这个转换过程更准确，他们使用了每种数据类型对应的文字描述（我们称之为“caption”）来进行训练和优化。换句话说，他们通过这些描述来帮助编码器更好地理解和处理各种数据。在多模解码阶段，我们的目标是让扩散模型的输出与大型语言模型（LLM）的指令保持一致。简单来说，就是让图像、视频和音频的生成结果符合我们通过文字给出的指令。

为了做到这一点，我们需要缩小LLM的文字信号和扩散模型（用于图像合成的Stable Diffusion、用于视频合成的Zeroscope和用于音频合成的AudioLDM）之间的差距。这种方法不仅确保了训练过程的高效轻量化，还能更好地理解用户的需求，生成他们想要的多种形式的内容。

具体操作上，我们只需训练不同类型的线性模型（Linear）和低秩适应（Lora），同时增加扩散模型的损失（Loss），以便更好地调整输出结果。这样一来，我们就能在不增加太多复杂度的情况下，获得更符合用户要求的多模态输出。

这篇论文的标题是《生成性多模态模型是上下文学习者》。简单来说，研究人员在探讨一种能够同时处理多种类型数据（比如图像和文字）的模型，这种模型能够在特定的上下文环境中进行学习。

在这项研究中，他们使用了一些先进的技术组件：

视觉编码器（Visual Encoder）：他们使用了一种叫做EVA-02-CLIP-E-plus的技术，这个技术帮助模型理解和处理视觉信息，比如图像。
大型语言模型（LLM）：他们选择了LLaMA-33B，这是一种强大的语言处理技术，可以理解和生成自然语言。
视觉解码器（Visual Decoder）：他们使用了SDXL技术，这个技术帮助模型将处理过的视觉信息转化为可理解的输出，比如生成新的图像或描述。

研究分为两个阶段，第一阶段是让模型在成对的图像和视频上进行学习，具体来说就是让模型学习如何为这些图像和视频生成合适的文字描述（caption）。这样做的目的是希望模型能够更好地理解和关联不同类型的数据。

这些技术的结合使得模型能够在不同的上下文中进行学习和应用，提升了模型在处理多模态数据时的灵活性和准确性。在这个技术过程中，我们可以把它分成两个主要阶段来理解：

第二阶段：冻结视觉编码器
在这个阶段，我们不再对视觉编码器进行调整，而是专注于两个任务。第一个任务是文本分类，也就是让系统根据给定的文本内容进行分类。第二个任务是图像回归，这意味着我们希望系统能够根据输入图像进行某种预测或估计。
第三阶段：训练视觉解码器
在这个阶段，我们的目标是训练视觉解码器。与之前的 Emu1 方法不同的是，我们不再使用大型语言模型（LLM）生成的视觉标记，而是直接使用视觉编码器的输出。换句话说，我们只对 U-Net 进行训练，而保持其他参数不变。

通过这种方式，我们能够更有效地训练系统，使其在处理图像和文本时表现得更好。

论文标题： 使用块状环注意力机制处理百万长度的视频和语言的世界模型

论文地址： 点击这里查看论文

主页地址： 点击这里访问主页

视觉编码器： 这部分使用了一种叫做VQGAN的技术，它可以把图像从256x256的分辨率转换成256个小单位（tokens）。简单来说，就是把大图像分成很多小块，以便计算机更容易处理和理解。b. 训练：在训练过程中，我们使用了一种叫做“next-token 预测”的方法。这种方法主要是为了更好地处理长序列数据。为此，我们引入了几项技术：RingAttention、Blockwise Transformers和masked sequence packing。

Chameleon
论文标题： Chameleon: 混合模态早期融合基础模型
论文链接： 点击这里查看论文
**主页链接：**你提到的内容是关于一个名为“Chameleon”的项目，该项目由Facebook研究团队在GitHub上发布。这个项目涉及到一些技术细节，下面我将尝试用更简单的语言来解释：

视觉编码器（Visual Encoder）： 这个部分使用了一种叫做VQ-VAE的技术来处理图像。简单来说，它把一幅512x512像素的图像转换成1024个小的“图像片段”或“图像令牌”（tokens）。这些令牌是从一个包含8192个不同图像片段的“词汇表”中选出来的。
训练过程： 训练的方式是通过预测下一个图像令牌来进行的。这就像是在玩一个猜谜游戏，模型需要根据已经看到的图像片段来猜测接下来会出现哪个片段。

“Planting a SEED of Vision in Large Language Model”。这篇论文可能探讨了如何在大型语言模型中引入视觉能力。

如果你对这些技术感兴趣，可以通过GitHub上的项目页面或论文地址获取更多详细信息。这篇文章是关于一个名为SEED的项目，主要集中在计算机视觉领域。计算机视觉是一种让计算机能够“看懂”图像和视频的技术。SEED项目的目标是提升计算机在理解和处理视觉信息方面的能力。

SEED项目背后的团队来自AILab-CVC，他们在GitHub上提供了项目的主页，方便大家查看和使用相关的代码和资源。GitHub是一个代码托管平台，开发者可以在上面分享和协作开发项目。

如果你对计算机视觉感兴趣，或者正在寻找相关的开源项目，SEED可能是一个值得关注的选择。把这段技术性较强的内容转化为更通俗易懂的版本：

a. 训练分词器：首先，我们要训练一个叫做Causal Q-Former的模型。这个过程使用了一种叫做SD的文本编码器来帮助我们比较和优化模型的表现。接下来，我们进行视觉量化和去分词化的学习，这一步的目的是让生成的嵌入（也就是模型理解和生成的内容）更接近SD的文本编码器的输入。需要注意的是，在这个过程中，有两个部分——ViT编码器和SD解码器的参数是不需要调整的。

b. 大语言模型（LLM）阶段的训练：在这个阶段，我们主要是训练模型去预测下一个词。也就是说，给定前面的文本内容，模型要学会猜测接下来最有可能出现的词是什么。

论文标题： Transfusion: 用一个多模态模型同时预测下一个词和生成图像

论文地址： 点击查看论文

主页地址： 点击查看主页

内容简述：

这篇论文介绍了一种名为Transfusion的新技术，它可以用一个多模态模型同时处理文本和图像任务。简单来说，这个模型不仅可以预测文本中的下一个词，还能生成图像。

在技术上，他们使用了一种叫做VAE（变分自编码器）的技术来处理图像。VAE主要负责将图像编码成一种计算机能理解的格式，然后再解码回来。通常情况下，这个过程会用到一种叫做Linear的技术，但在这项研究中，他们用了一种更复杂的技术，叫做U-net，来替代Linear。这种替代让模型在处理图像时表现得更好。

通过这种方法，Transfusion模型可以在一个框架下同时处理文本和图像两种任务，提升了效率和效果。b. 在处理文本和图像时，我们使用不同的方法：文本使用自回归方法，而图像则采用自编码技术。通过使用Transformer模型，我们可以实现扩散，从而进行多步生成。

**论文标题：**Show-o: One Single Transformer to Unify Multimodal Understanding and Generation
论文链接：Show-o论文

这篇论文介绍了一种名为Show-o的模型，它使用一个单一的Transformer来统一处理多种模式的理解和生成。简单来说，这个模型可以同时处理文本和图像两种不同类型的数据。通过这种方法，模型能够更好地理解和生成多模态内容。这段内容主要讲的是一种图像处理技术，叫做“离散扩散”，它与另一种技术“Transfusion”有些相似，但也有一些不同之处。

简单来说，这种技术使用了一种叫做MAGVIT-v2的工具，把图像分解成小块，称为“tokens”，每个小块代表图像的一部分。具体来说，把一个256x256像素的图像分解成256个小块。这种方法类似于其他一些技术，比如MaskGIT和Muse。Muse还增加了一个超分辨率模型，帮助理解图像的高级语义。

需要注意的是，这种方法并不一定比另一种“连续扩散”技术更好。离散图像分解技术不像CLIP那样，使用大规模的图文对进行训练。总之，这是一种新的尝试，看看能否在图像处理上带来更好的效果。图像生成部分使用了一种叫做 MaskGIT 的方法。这种方法原本是自回归解码的，也就是说，在生成图像时，每一步都需要依赖前面生成的内容，这样一来整个过程就不能同时进行。不过，MaskGIT 通过引入双向注意力机制，使得生成过程可以并行进行。

最近，DeepMind 的一个实验（名为 FLUID 的消融实验）发现，采用随机顺序预测和连续的 Token 生成方式，效果会更好一些。

具体来说，MaskGIT 使用一种掩码策略来多步生成图像。在每次迭代中，模型会同时预测所有的图像片段（tokens），但只保留那些置信度最高的片段。那些置信度不高的片段则会在下一次迭代中重新预测。随着迭代的进行，掩码的比例会逐渐减少，直到所有的图像片段都经过多次迭代生成完毕。这样的方法能提高图像生成的效率和质量。这篇论文的标题是“Emu3: 你只需要下一个词的预测”，听起来有点像在说预测下一个词就能解决很多问题。论文的详细内容可以在给定的网址找到。

在这项研究中，研究人员使用了一种叫做SBER-MoVQGAN的技术来训练一个图像编码器。这个编码器可以把一张512x512像素的图像转换成4096个“词”或“标记”。可以把它想象成一种将图像分解成小块的方式，就像把一个句子分成单词一样。这个编码器的词汇表大小是32768，也就是说它能够识别和使用32768种不同的“词”来描述图像。这种方法能够帮助计算机更好地理解和处理图像内容。b. 在预测下一个词的时候，可能是因为生成和理解这两个过程会相互影响，最终导致我们需要将它们分成两个不同的模型：一个专注于理解，一个专注于生成。

总结最近，多模态大模型的发展非常迅速。现在的主流方法还是将图像生成文字和文字生成图像这两种任务分开处理。图像生成文字通常使用的是结合视觉变换器（VIT）和大型语言模型（LLM）的方式，而文字生成图像则采用的是扩散模型（Diffusion）的方式。随着全模态大模型的进步，这些方法大致可以分为三类：一种是将信息离散化为token，另一种是结合自回归（AR）和扩散模型，还有一种是将大型语言模型（LLM）输出的视觉嵌入用作稳定扩散模型（Stable Diffusion）的文本条件。目前，各种技术方法都有自己的优缺点，并且都还在发展的初期阶段。不过，很多人相信，全模态大模型在未来会是一个值得深入研究的方向。这种技术可以实现从头到尾的多模态训练，能够处理各种类型的数据输入和输出，并且具备强大的理解和生成多种数据的能力。

Milvus 与 Weaviate 详细比较报告

2024年10月29日

庞先生

PhD @ 数荣量标

Milvus 与 Weaviate 详细比较报告

为了帮助您在 Milvus 和 Weaviate 之间做出最佳选择，我们对这两个主流的向量数据库进行了深入的比较。以下报告通过表格和详细分析，从多个角度对比了它们的特性、性能和适用场景。

一、基本信息比较

项目	Milvus	Weaviate
开发公司	Zilliz	SeMI Technologies
开源许可	Apache License 2.0	Business Source License (BSL)
主要语言	C++, Go, Python	Go
最新版本	2.x	1.x
官网	milvus.io	weaviate.io
Github地址	github.com/milvus-io/milvus	github.com/semi-technologies/weaviate

二、功能特性比较

功能特性	Milvus	Weaviate
数据规模支持	亿级向量，支持海量数据	适合中小规模数据集
索引类型	IVF、HNSW、ANNOY 等多种索引	主要为 HNSW
支持的查询类型	向量相似度搜索、标量过滤	向量搜索、混合搜索、语义搜索
数据类型	向量、标量	向量、标量、文本、对象
扩展性	高度可扩展，支持分布式部署	支持集群部署，但扩展性有限
多语言支持	Python、Java、Go、C++ 等	Python、JavaScript、Go、Java 等
API 接口	RPC、RESTful、Python SDK 等	RESTful、GraphQL、gRPC
模块化扩展	支持插件和自定义扩展	模块化设计，支持自定义模块
知识图谱支持	不支持	内置知识图谱功能
事务支持	基本支持	不支持事务

三、性能比较

性能指标	Milvus	Weaviate
查询性能	毫秒级响应，适合高并发	对于中小数据集，性能良好
索引构建速度	索引类型多，构建时间视类型和数据量而定	主要为 HNSW，索引构建速度较快
资源消耗	对 CPU、内存要求较高，需优化配置	资源占用相对较低，适合资源有限的环境
扩展能力	通过增加节点实现水平扩展，性能线性提升	扩展性有限，需谨慎规划

四、易用性和部署比较

方面	Milvus	Weaviate
安装部署	支持 Docker、K8s、源码编译等多种方式	Docker Compose 一键部署，云服务可选
配置复杂度	配置项较多，需根据需求进行优化	默认配置即能运行，配置简单
文档和教程	官方文档详实，社区资源丰富	提供完整的文档和示例，易于上手
管理工具	Milvus Insight，可视化管理和监控	提供 Web 界面和 API，方便管理

五、社区和生态系统比较

方面	Milvus	Weaviate
社区活跃度	社区活跃，贡献者众多，定期更新	社区正在增长，开发者参与积极
生态系统	与多种工具集成，如 Prometheus、Grafana	支持模块插件，连接多种数据源
商业支持	Zilliz 提供企业级支持和云服务	提供官方云服务 WCS，技术支持可选

六、适用场景比较

应用场景	Milvus	Weaviate
推荐系统	大规模个性化推荐，实时性要求高	中小规模推荐系统，快速部署
多媒体检索	图像、音频、视频的相似度搜索，数据量大	文档、文本的语义搜索，支持知识图谱
生物特征识别	人脸识别、指纹匹配等，需高精度和高性能	基本满足需求，适合原型开发
智能客服	-	基于语义理解的问答系统，整合知识图谱
企业知识管理	-	构建企业知识图谱，支持复杂查询

七、优缺点总结

Milvus

优点：
- 高性能、高并发，适合处理海量数据
- 支持多种索引类型，灵活优化查询性能
- 高度可扩展，分布式架构设计
缺点：
- 部署和配置较为复杂，学习成本高
- 对硬件资源要求较高，需投入更多成本

Weaviate

优点：
- 易于上手，部署简单，降低技术门槛
- 内置知识图谱和语义搜索，功能丰富
- 资源占用低，适合中小规模应用
缺点：
- 扩展性和性能有限，不适合海量数据
- 索引类型单一，优化空间较小

八、选择建议

1. 如果您的需求是：

处理海量高维向量数据，数据规模在亿级以上
对查询性能和响应时间要求极高
具备专业的技术团队，能够管理复杂的分布式系统

推荐选择： Milvus

2. 如果您的需求是：

快速构建应用，降低开发和运维成本
需要语义搜索、知识图谱等高级功能
数据规模中等，对性能要求适中

推荐选择： Weaviate

九、结论

Milvus 更适合对性能和扩展性有极高要求的场景，适用于大型企业和需要处理海量数据的应用。
Weaviate 则适合快速开发、中小规模的数据集，以及需要语义搜索和知识图谱功能的应用。

十、附加信息

Milvus 的典型应用案例

金融风控：实时分析海量交易数据，识别异常行为。
安防监控：实时人脸识别和比对，提升安全等级。
搜索引擎：基于内容的多媒体搜索，提高检索效率。

Weaviate 的典型应用案例

智能客服系统：通过语义理解，提供更准确的回答。
内容管理系统：实现对文档和知识的语义级检索。
企业内部知识库：构建关联性强的知识图谱，方便员工查询。

十一、参考资料

Milvus 官方文档：https://milvus.io/docs
Weaviate 官方文档：https://weaviate.io/developers/weaviate
性能测试报告和社区讨论：建议查看各自的 Github 主页和社区论坛，获取最新的性能测试数据和用户反馈。

希望以上的表格和详细比较能够帮助您在 Milvus 和 Weaviate 之间做出最佳选择。如有可能，建议您根据自身的业务需求和技术条件，对两个数据库进行实际测试，以验证它们的性能和功能是否满足您的期望。

向量数据库比较报告:12款主流向量数据库详细对比

2024年10月29日

庞先生

PhD @ 数荣量标

随着人工智能和机器学习的发展，向量数据库在处理高维数据和相似度搜索方面变得至关重要。以下是对常见向量数据库的优缺点的全面比较，以及如何选择适合您需求的向量数据库的建议。

一、表格比较

名称	是否开源	主要特性	优点	缺点
Weaviate	是	向量搜索、混合搜索、模块化、可扩展	开源、可扩展、支持混合搜索、丰富的社区支持	对大型部署可能需要较多资源
Qdrant	是	高性能向量相似搜索、过滤功能	开源、高性能、易于部署	相对较新，社区规模较小
Milvus	是	可扩展的向量数据库、分布式部署	开源、高度可扩展、丰富的生态系统	设置复杂，需较多资源
MyScale	是	基于ClickHouse的向量搜索支持	高性能、与SQL兼容	社区支持有限，资料较少
pgvector	是	PostgreSQL的向量相似搜索扩展	与PostgreSQL集成、熟悉的SQL接口	性能受限于PostgreSQL的能力
Chroma	是	专为AI应用设计的嵌入式数据库	开源、简单的API、针对嵌入式设计	成熟度较低，扩展性有限
OpenSearch	是	搜索和分析套件，支持向量搜索插件	开源、可扩展、熟悉的API	向量搜索需要插件，性能可能不如专用的向量数据库
TiDB Vector	是	TiDB的向量扩展，支持混合工作负载	开源、分布式事务、与MySQL兼容	向量功能相对较新，生态系统尚在发展
Elasticsearch	是	分布式搜索和分析引擎，支持向量搜索	开源、可扩展、丰富的查询功能	向量搜索需要插件，性能可能不如专用的向量数据库
AnalyticDB	否	云原生数据仓库，支持大规模数据分析	高性能、支持PB级数据处理	非开源、成本较高
Couchbase	部分开源	分布式NoSQL数据库、灵活的数据模型	高性能、灵活的数据模型	原生向量搜索支持有限
VikingDB	是	专注于高性能向量搜索的数据库	高性能、低延迟	资料有限，社区支持较少

二、优缺点分析

1. Weaviate

优点：
- 开源且可扩展：支持大规模的数据存储和检索。
- 混合搜索功能：结合了向量和关键词搜索。
- 模块化设计：易于集成各种机器学习模型。
缺点：
- 资源需求较高：大型部署可能需要更多的计算和存储资源。
- 学习曲线：高级功能可能需要一定的学习时间。

2. Qdrant

优点：
- 高性能：专为向量相似搜索优化。
- 易于部署：提供简单的安装和配置过程。
- 过滤功能：支持基于元数据的搜索过滤。
缺点：
- 社区规模较小：作为新兴项目，社区支持可能有限。
- 功能较为基础：可能缺少某些高级功能。

3. Milvus

优点：
- 高度可扩展：适合处理大规模向量数据。
- 分布式架构：支持水平扩展和高可用性。
- 丰富的生态系统：与多种数据处理工具集成。
缺点：
- 配置复杂：初始设置和优化可能需要更多时间。
- 资源消耗：对硬件资源有较高要求。

4. MyScale

优点：
- 高性能：基于ClickHouse，查询速度快。
- SQL兼容性：支持标准SQL语法。
缺点：
- 资料有限：相关文档和社区资源较少。
- 支持有限：可能需要更多时间进行问题排查。

5. pgvector

优点：
- 与PostgreSQL集成：无需额外的数据库系统。
- 熟悉的SQL接口：降低学习成本。
缺点：
- 性能限制：在处理大量数据时可能性能不足。
- 扩展性受限：受限于PostgreSQL的架构。

6. Chroma

优点：
- 针对AI应用：优化了嵌入式向量的存储和检索。
- 简单易用：提供直观的API接口。
缺点：
- 成熟度较低：可能存在功能不完善的问题。
- 社区支持有限：资源和支持可能不够丰富。

7. OpenSearch

优点：
- 功能丰富：在搜索和分析方面具有强大能力。
- 可扩展性：支持分布式部署。
缺点：
- 插件依赖：向量搜索需要额外插件支持。
- 性能挑战：在向量搜索方面可能不如专用数据库。

8. TiDB Vector

优点：
- 分布式事务：支持强一致性和高可用性。
- 兼容MySQL：易于迁移和集成。
缺点：
- 新功能：向量支持相对较新，可能存在不稳定性。
- 生态系统发展中：社区和第三方支持有待加强。

9. Elasticsearch

优点：
- 强大的搜索能力：全文检索和分析功能完善。
- 丰富的插件：可扩展性强。
缺点：
- 向量搜索需插件：需要额外安装和配置。
- 资源消耗大：在大型集群中可能需要更多资源。

10. AnalyticDB

优点：
- 高性能分析：适合大规模数据的实时分析。
- 云原生：无需维护基础设施。
缺点：
- 非开源：定制和二次开发受限。
- 成本较高：按使用量计费，长期成本可能较高。

三、如何选择合适的向量数据库

在选择向量数据库时，应考虑以下因素：

数据规模和性能需求
- 大规模数据和高性能需求：选择专用的向量数据库，如Milvus、Weaviate。
- 中小规模数据或现有数据库扩展：pgvector、TiDB Vector可能更适合。
技术栈和团队经验
- 现有技术栈：如果团队熟悉PostgreSQL，pgvector是一个不错的选择。
- 云服务偏好：如果倾向于云原生解决方案，AnalyticDB或云上的Milvus部署可能合适。
功能特性
- 特定功能需求：如需要混合搜索、实时分析等，选择支持这些功能的数据库。
- 扩展性和灵活性：考虑数据库的可扩展性和二次开发能力。
社区和生态系统
- 开源社区：活跃的社区意味着更好的支持和更多的资源。
- 生态系统丰富度：与其他工具和服务的集成能力。
成本考虑
- 预算限制：开源解决方案通常成本较低，但可能需要投入人力进行维护。
- 商业支持：需要企业级支持时，商业解决方案可能更可靠。

四、结论

选择合适的向量数据库需要综合考虑多方面因素。对于追求高性能和可扩展性的应用，专用的向量数据库如Milvus和Weaviate是理想的选择。如果希望在现有数据库系统上添加向量搜索功能，pgvector和TiDB Vector提供了便捷的解决方案。

建议：

试点测试：在正式部署前，进行小规模的测试，以评估性能和功能是否满足需求。
社区参与：积极参与所选数据库的社区，可以获取更多资源和支持。
持续关注：向量数据库领域发展迅速，持续关注最新技术和产品更新。

希望本报告能帮助您更好地理解各向量数据库的优缺点，选择最适合您业务需求的解决方案。

数荣量标与中山大学成立联合实验室

2024年7月29日

庞先生

PhD @ 数荣量标

数荣量标与中山大学成立数据合成联合实验室