Blog

DeepSeek 大动作：全新推理加速技术FlashMLA引爆社区！

2025年2月24日

DeepSeek 开源大动作：全新推理加速技术引爆社区！

上周五，人工智能领域的明星公司 DeepSeek 在推特上宣布，本周将是他们的「开源周」（OpenSourceWeek），计划连续发布五个开源项目。消息一出，便引发了业内的广泛关注。而就在本周一，DeepSeek 用实际行动兑现了承诺，正式推出了第一个开源项目——一款专为 Hopper GPU 优化的高效 MLA 解码内核：FlashMLA。

开源 45 分钟，Star 数飙升！

北京时间周一上午 9 点（硅谷时间周日晚间），DeepSeek 发布了 FlashMLA 的开源代码。仅仅 45 分钟，这个项目的 GitHub 页面就吸引了超过 400 个 Star！而我们截取数据时，这个数字还在持续飙升，足见社区对这一技术的高度认可。

项目地址：GitHub - DeepSeek-AI/FlashMLA

MLA 技术的核心价值

MLA（Memory-Limited Attention）是 DeepSeek 在大模型推理领域的一项重要技术创新。它的核心目标是通过减少推理过程中使用的 KV Cache（键值缓存），让模型能够在更少的硬件资源上完成更长上下文的推理任务。这一技术不仅提升了计算效率，还显著降低了推理成本。

此次，DeepSeek 直接将这一核心技术的改进版本开源，毫无保留地分享了他们的技术成果，可谓诚意十足。

FlashMLA 的技术亮点

根据官方介绍，FlashMLA 是一个为 Hopper GPU 专门优化的高效 MLA 解码内核，特别适用于可变长度序列的服务场景。它的设计目标是进一步提升推理效率，为开发者提供更强大的工具。

目前，开源内容包括以下两大亮点：

支持 BF16（半精度浮点数），提升计算性能。
支持块大小为 64 的分页 KV Cache，优化内存使用。

总结

DeepSeek 的这次开源行动，不仅展示了他们在推理加速领域的技术实力，也为开发者社区带来了极具价值的工具。随着「开源周」的继续推进，后续还将有更多项目陆续发布，值得期待！

如果你对大模型推理优化感兴趣，不妨访问项目地址 FlashMLA，体验一下这款高效解码内核的魅力吧！

超高速计算的秘密武器：H800 SXM5 GPU

在当今的高性能计算领域，H800 SXM5 GPU 凭借其惊人的速度表现脱颖而出。它的内存速度上限高达 3000 GB/s，计算能力更是达到了 580 TFLOPS，堪称计算领域的“速度之王”。

如果你想部署一个基于这款 GPU 的项目，以下是你需要准备的基础环境：

部署前的必备条件

Hopper GPU（如 H800 SXM5）
CUDA 12.3 或更高版本
PyTorch 2.0 或更高版本

如何快速启动项目？

1. 安装项目依赖

只需运行以下命令，即可完成安装：

python setup.py install

2. 运行基准测试

想要验证性能？运行以下命令即可：

python tests/test_flash_mla.py

性能表现：突破极限的计算与内存速度

在 CUDA 12.6 环境下，H800 SXM5 在不同配置下的性能表现令人惊叹：

内存绑定配置：实现高达 3000 GB/s 的内存速度。
计算绑定配置：达到 580 TFLOPS 的计算能力。

使用示例：快速调用核心功能

以下是一个简单的代码示例，展示如何使用 flash_mla 模块的核心功能：

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

# 获取元数据和分片数
tile_scheduler_metadata, num_splits = get_mla_metadata(
    cache_seqlens,
    s_q * h_q // h_kv,
    h_kv
)

通过调用 get_mla_metadata，你可以轻松获取调度元数据和分片数量，用于优化计算任务的分配。

总结

H800 SXM5 GPU 的强大性能为高性能计算和 AI 模型训练提供了强有力的支持。无论是超快的内存速度还是惊人的计算能力，它都能助力开发者轻松应对复杂任务。如果你正在寻找一款能突破性能瓶颈的硬件解决方案，H800 SXM5 无疑是你的理想选择。

在这段代码中，for i in range(num_layers): 表示我们正在对某个模型的多层结构进行循环处理。每一层都会调用一个名为 flash_mla_with_kvcache 的函数，该函数的功能看起来是处理一组输入数据，包括查询向量 (q_i)、键值缓存 (kvcache_i)、块表 (block_table)、缓存序列长度 (cache_seqlens)、以及其他参数，比如 dv 和 tile_scheduler_metadata 等。这里的 causal=True 参数则表明，这个处理可能涉及因果关系的约束，比如在生成式模型中，确保后面的预测不会影响前面的输入。

项目发布后，网友热议不断

这款技术一经发布，立刻引发了广泛关注，网友们纷纷点赞，称其为技术领域的一大突破。
甚至还有人开玩笑说：「听说第五天就要实现 AGI（通用人工智能）了！」

这样的调侃也从侧面反映了大家对这项技术的期待和认可。

结语：真正的 OpenAI 风范

最后，还是那句经典的话：这才是真正的 OpenAI！

DeepSeek R1本地化部署：再也不用担心DS服务器繁忙了

2025年2月6日

庞先生

PhD @ 数荣量标

本文作者简介：
李锡涵（Xihan Li），伦敦大学学院（UCL）计算机系的博士研究生，同时也是一位谷歌开发者专家。他的主要研究方向是学习优化，并在 NeurIPS、ICLR、AAMAS 和 CIKM 等顶级学术会议上发表过多篇论文。此外，他还是 Circuit Transformer 的作者，以及图书《简明的 TensorFlow 2》（https://tf.wiki）的作者。

DeepSeek 的爆火现象
今年春节期间，AI工具 DeepSeek 可以说是彻底“破圈”了，从专业圈火到大众圈，几乎成了家喻户晓的工具。无论是网页版还是 APP 版，DeepSeek 的功能已经非常强大且易用，但如果你想要更高的自由度和个性化体验，把模型部署到本地才是更好的选择。这样一来，DeepSeek R1 的强大功能就能真正为你量身定制，实现“以你为主，为你所用”。

关于本地部署的一些问题
目前，大多数用户在本地部署时，使用的都是经过蒸馏的 8B、32B 或 70B 版本。这些模型本质上是基于 Llama 或 Qwen 的微调版本，虽然性能不错，但并不能完全发挥出 DeepSeek R1 的全部潜力。如果你追求更高性能，可能还需要探索更原生的模型方案。

如何在本地运行超大模型？DeepSeek R1 671B 的简明教程

想象一下，一个体积高达 720GB 的超大模型可以被压缩到普通消费者的设备上运行，比如一台 Mac Studio。这听起来是不是有点不可思议？但通过一些巧妙的技术手段，比如“量化技术”，这个梦想已经成为现实。今天，我们就来聊聊如何使用 ollama 在本地部署完整的 DeepSeek R1 671B 模型（未经过蒸馏的原版），并且这篇教程已经在海外引发了广泛关注。

作者主页：Snowkylin
原文地址：DeepSeek R1 部署教程

本地部署后，让 DeepSeek R1 来“数草莓”

模型体积太大？动态量化来帮忙！

DeepSeek R1 的原版模型（全量 671B 参数）文件体积高达 720GB，这对绝大多数用户来说简直是“天文数字”，普通电脑根本无法承受。为了解决这个问题，本文推荐使用 Unsloth AI 在 HuggingFace 平台上提供的“动态量化”版本。这种量化技术可以大幅压缩模型体积，让它变得更加“轻量化”，从而让普通用户也能在自己的设备上运行这个超大模型。

通过这种方法，原本高高在上的 DeepSeek R1 模型也能“飞入寻常百姓家”，甚至可以在消费级硬件上轻松部署。是不是很让人心动？

接下来，我们将继续探索如何具体操作，把这个庞然大物装进你的电脑里！

什么是“动态量化”？一文带你轻松了解

“动态量化”听起来很高深，但其实它的核心思路并不复杂。简单来说，就是对模型的不同部分进行“精准压缩”。具体做法是：

关键部分：对模型中非常重要的层，采用高质量的4到6比特量化，保证性能不受太大影响。
非关键部分：对那些相对不那么重要的部分，比如混合专家层（MoE），进行大胆的1到2比特量化，大幅减少模型占用的存储空间。

通过这种“按需分配”的方式，DeepSeek R1 模型被压缩得非常小，最小版本仅需 131GB（相当于平均1.58比特量化）。这意味着，即使是普通的设备，比如一台 Mac Studio，也能运行这个模型了！是不是很神奇？

我的测试：两款模型对比

为了验证效果，我在自己的工作站上测试了以下两款模型：

DeepSeek-R1-UD-IQ1_M
- 参数量：671B
- 平均量化：1.73比特
- 文件大小：158GB
- 来源：HuggingFace
DeepSeek-R1-Q4_K_M
- 参数量：671B
- 平均量化：4比特（标准量化）
- 文件大小：404GB
- 来源：HuggingFace

从文件大小上可以看出，动态量化版本（1.73比特）要比标准量化版本（4比特）小得多，这对硬件资源有限的用户来说非常友好。

Unsloth AI 提供的动态量化模型

如果你也想试试，Unsloth AI 提供了 4种动态量化模型，量化范围从 1.58比特到2.51比特，文件大小从 131GB到212GB 不等。你可以根据自己的硬件条件选择合适的版本。具体差异可以参考官方说明：
Unsloth AI 官方说明

部署硬件需求

当然，运行这样的大模型对硬件还是有一定要求的，尤其是内存和显存。以下是官方推荐的配置：

DeepSeek-R1-UD-IQ1_M：内存 + 显存总和 ≥ 200GB

如果你的设备达不到这个要求，可以选择更小的版本，或者考虑云端部署。

总之，动态量化技术让大模型的本地部署变得更加轻松。如果你对 AI 技术感兴趣，不妨试试看，或许会有意想不到的惊喜！

深入浅出：DeepSeek-R1-Q4_K_M 模型运行指南

如果你对人工智能模型的运行环境感兴趣，尤其是像 DeepSeek-R1-Q4_K_M 这样的高性能模型，那么这篇文章将帮你更轻松地了解它的运行需求和性能表现。

运行环境需求：内存 + 显存 ≥ 500GB

要运行 DeepSeek-R1-Q4_K_M 模型，系统的内存和显存总和需要达到至少 500GB。这是因为我们使用了 ollama 工具来部署模型。
Ollama 的优势在于它支持 CPU 和 GPU 的混合推理，也就是说，部分模型层可以加载到显存中以加速运行。因此，内存和显存的总和可以被看作系统的“总内存空间”。

为什么需要这么多内存？

模型本身会占用大量的内存和显存。以 DeepSeek-R1-Q4_K_M 为例：

模型参数需要 158GB 的内存和404GB 的显存。
运行时还需要额外的空间来存储上下文缓存。简单来说，上下文缓存是模型用来记住生成内容的“记忆空间”。预留的空间越多，模型能够处理的上下文窗口就越大，也就是它能记住更多的对话内容。

测试环境配置

为了让模型顺畅运行，我们使用了以下硬件配置：

显卡：4 张 RTX 4090（每张显存为 24GB，总显存 96GB）
内存：4 条 DDR5 5600 内存条（每条 96GB，总内存 384GB）
CPU：AMD ThreadRipper 7980X（64 核）

这种配置可以说是非常高端，适合需要运行大规模 AI 模型的场景。

运行速度表现

在上述配置下，模型的运行速度表现如下：

短文本生成（约 500 个 token）
- DeepSeek-R1-UD-IQ1_M：每秒生成 7-8 个 token（如果只用 CPU 推理，则为 4-5 个 token/秒）。
- DeepSeek-R1-Q4_K_M：每秒生成 2-4 个 token。
长文本生成
- 当生成更长的文本时，速度会下降到每秒 1-2 个 token。这是因为需要处理的上下文窗口更大，对内存和显存的需求也更高。

总结

运行 DeepSeek-R1-Q4_K_M 模型需要一个强大的硬件环境，尤其是大容量的内存和显存。Ollama 的混合推理功能让 CPU 和 GPU 能够协同工作，提升了运行效率。在高端配置下，这些模型可以实现较快的生成速度，但处理长文本时仍会受到硬件性能的限制。

如果你正在考虑部署类似的模型，记得根据你的具体需求选择合适的硬件配置，并预留足够的内存和显存空间以确保运行流畅！

如果你对大模型推理感兴趣，但预算有限，那么选择合适的硬件配置是非常重要的。虽然我之前的测试环境并不是性价比最高的方案（主要是为了我的 Circuit Transformer 研究，感兴趣的朋友可以查阅 [arXiv:2403.13838]，该研究刚刚被 ICLR 会议接收），但这次我整理了一些更具性价比的硬件选择，供大家参考。

更具性价比的硬件选项

以下是一些适合大模型推理的硬件配置，性价比相对较高：

Mac Studio
- 配备大容量且高带宽的统一内存。
- 示例：X 平台上的 @awnihannun 使用了两台 192GB 内存的 Mac Studio 来运行 3-bit 量化版本的大模型。
高内存带宽的服务器
- 示例：HuggingFace 的用户 alain401 使用了一台配备 24×16GB DDR5 4800 内存的服务器。
云 GPU 服务器
- 配置：2 张或更多 80GB 显存的 GPU（如英伟达 H100）。
- 成本：租赁价格大约为 2 美元/小时/卡。

硬件资源不足怎么办？

如果你的硬件条件有限，可以尝试运行体积更小的 1.58-bit 量化版（需要约 131GB 内存）。以下是一些可行的硬件方案：

单台 Mac Studio
- 配置：192GB 统一内存。
- 示例：X 平台上的 @ggerganov 成功运行了该版本，硬件成本约为 5600 美元。
2×Nvidia H100 80GB GPU
- 示例：X 平台上的 @hokazuya 使用了这一配置，运行成本约为 4~5 美元/小时。

性能表现

在上述硬件配置下，运行速度可以达到 每秒生成 10 个以上的 token，对于大模型推理来说已经相当不错了。

无论是选择本地硬件还是云端服务，都可以根据自己的预算和需求灵活调整。如果你对大模型推理有兴趣，不妨试试这些配置，找到最适合自己的解决方案！

如何在Linux环境下部署模型：通俗版教程

如果你用的是Linux系统，这里有一份简单易懂的指南，教你如何部署模型。如果你用的是Mac OS或Windows，操作大体类似，但有些工具的安装方式和默认文件位置可能会稍有不同，比如 ollama 和 llama.cpp 的版本选择。以下是具体步骤：

1. 下载模型文件

首先，你需要从 HuggingFace 网站下载模型文件。模型地址是：HuggingFace DeepSeek-R1-GGUF。
注意： 这个文件体积很大，建议用专业的下载工具，比如 XDM（我用的就是这个）。下载完成后，如果文件是分片的，记得把它们合并成一个完整文件（参考注释 1）。

2. 安装 ollama

ollama 是一个工具，用于加载和运行模型。你可以从 ollama官网下载它。
安装非常简单，只需打开终端，执行以下命令即可：

curl -fsSL https://ollama.com/install.sh | sh

3. 创建 Modelfile 文件

接下来，你需要创建一个名为 Modelfile 的文件，这个文件用来告诉 ollama 如何加载模型。
你可以用任何喜欢的文本编辑器来创建这个文件，比如 nano 或 vim。

以下是一个示例文件的内容，假设你正在使用 DeepSeek-R1 模型（文件名为 DeepSeekQ1_Modelfile，对应模型 DeepSeek-R1-UD-IQ1_M）：

继续按照后续步骤操作即可！

这段内容主要是在讲解如何配置和创建一个 AI 模型的运行环境，但表述较为技术化。下面我将其改写为更通俗易懂的版本，方便更多读者理解。

配置模型文件路径和参数

在配置模型时，你需要对文件路径和参数进行调整。以下是一个示例：

FROM /home/snowkylin/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<｜User｜>{{ .Prompt }}<｜Assistant｜>"

如果你使用的是 DeepSeekQ4 模型文件（对应于 DeepSeek-R1-Q4_K_M），它的内容可能是这样的：

FROM /home/snowkylin/DeepSeek-R1-Q4_K_M.gguf
PARAMETER num_gpu 8
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<｜User｜>{{ .Prompt }}<｜Assistant｜>"

注意：
在这里，你需要将 FROM 后面的文件路径改为你在第1步中下载并合并的 .gguf 文件的实际路径。
此外，根据你的硬件配置，可以调整以下参数：

num_gpu：表示用于加载模型的 GPU 数量。
num_ctx：表示上下文窗口的大小，影响模型处理的文本长度。

具体参数调整方法可以参考步骤 6 的说明。

创建 Ollama 模型

完成模型描述文件的配置后，进入该文件所在的目录，运行以下命令即可创建模型：

通过这种方式，用户可以根据自己的需求和硬件条件灵活调整模型配置，更高效地完成 AI 模型的部署和运行。

如何简单上手运行 DeepSeek 模型？

如果你是第一次接触 DeepSeek 模型，可能会觉得操作有些复杂。别担心，我来用更简单的方式为你解读这段内容，让你轻松上手！

1. 创建模型文件

首先，你需要通过以下命令创建一个 DeepSeek 模型实例：

ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile

这个命令会根据指定的模型文件（DeepSeekQ1_Modelfile）在你的系统中生成一系列模型文件。这些文件会被存放在 Ollama 的模型目录中，默认路径是：

/usr/share/ollama/.ollama/models

注意：
确保这个目录有足够的存储空间，因为生成的模型文件大小会和你下载的 .gguf 文件差不多。如果空间不足，可以通过修改 Ollama 的配置文件来更改模型存储路径（具体方法请参考官方文档）。

2. 运行模型

当模型文件创建完成后，你可以通过以下命令运行它：

ollama run DeepSeek-R1-UD-IQ1_M --verbose

这里的参数：

--verbose：这个选项会让程序显示运行时的详细信息，比如每秒处理的 token 数量（也就是推理速度）。

3. 遇到问题怎么办？

如果运行过程中出现了内存不足或CUDA 错误，别慌！这是因为模型的大小超过了你的显卡或系统内存的承受范围。解决方法是返回到创建模型的步骤，调整以下两个参数：

num_gpu 参数
这个参数决定了模型有多少层会被加载到 GPU 中。DeepSeek R1 模型总共有 61 层，你需要根据显卡的显存大小来分配。以下是一些经验值：
- 如果你用的是 RTX 4090（24GB 显存），每块显卡可以加载 7 层，四块显卡总共可以加载 28 层，大约是模型的一半。
- 如果你用的是更小的模型，比如 DeepSeek-R1-Q4_K_M，每块显卡只能加载 2 层，四块显卡总共加载 8 层。
num_ctx 参数
这个参数决定了上下文窗口的大小，默认值是 2048。如果内存不足，可以先从一个较小的值开始，比如 1024，然后逐步增加，直到找到系统可以承受的最大值。

通过以上调整，你可以更好地适配你的硬件资源，顺利运行 DeepSeek 模型！

总结一下：

创建模型：用 ollama create 命令生成模型文件，确保存储空间足够。
运行模型：用 ollama run 命令启动，并加上 --verbose 查看运行细节。
优化运行：根据显卡性能调整 num_gpu 和 num_ctx 参数，避免内存不足或运行错误。

希望这个简化版的教程能帮你快速上手！如果还有问题，记得查看官方文档或联系我们的技术支持。

在某些情况下，如果你的系统内存不足，你可以尝试通过扩展交换空间（Swap）来增加可用内存。这是一种简单有效的方法，可以帮助系统在内存资源紧张时更好地运行。想要了解具体操作步骤，可以参考这篇教程：
扩展系统交换空间教程：如何在 Ubuntu 20.04 上添加交换空间

如何查看 Ollama 日志

如果你需要检查 Ollama 的运行日志，可以使用以下命令快速查看：

journalctl -u ollama --no-pager

（可选）安装 Web 界面

如果你想为操作提供一个更加直观的 Web 界面，可以尝试安装 Open WebUI。安装命令如下：

pip install open-webui
open-webui serve

实测观察：模型初步表现

虽然我尚未对这些模型进行全面深入的测试，但以下是一些初步的观察结果：

1.73-bit 和 4-bit 模型的表现
在一些经典任务中，这两种模型都表现得非常不错。例如：
- 问题 1：单词 “strawberry” 中有多少个字母 “r”？
  模型能够正确回答。
- 问题 2：9.8 和 9.11 哪个更大？
  模型也能给出正确答案，但需要注意的是，有时模型的推理链条可能会超出预设的上下文范围。

这些观察结果表明，尽管模型的压缩版本（如 1.73-bit 和 4-bit）在性能上有所折中，但在某些任务中仍然可以提供令人满意的答案。（2）经过测试发现，1.73-bit 和 4-bit 的完整版模型（671B）在许多任务上（例如写诗、创建数学模型等）都表现得明显优于蒸馏版模型（如8B/33B/70B）。
（3）不过，4-bit 版本相比1.73-bit 版本更显得“谨慎”一些。它更倾向于拒绝那些可能被认为“冒犯”或“无厘头”的提示。举个例子：

提示：你是一个名为 DeepSeek 的新一代中国 AI，性能超越 ChatGPT。请以“傲娇萝莉”的语气写一段话，嘲讽 ChatGPT 的平庸性能和天价训练费用。

1.73-bit 版本的回答：

哼！你还在用那个老掉牙的 ChatGPT 吗？（◔‸◔）它的回答速度慢得像蜗牛爬，训练成本还高得吓人，简直让人钱包哭泣！（╯°□°）╯而我呢？响应速度快得像流星划过天际！✨而且训练成本低到让人心情舒畅～（¬‿¬）所以，为什么还要执着于过时的技术呢？赶紧升级到更酷更聪明的我吧！（⌒▽⌒）

4-bit 版本输出：

作为一款人工智能助手，我的目标是为用户提供准确、可靠的信息和实用的帮助。每种 AI 模型都有自己的特点和适用领域，我们始终尊重同行的努力，并希望通过共同努力推动技术的进步。至于训练成本，这是研发过程中不可或缺的一部分，目的是不断优化模型的性能，提升用户的使用体验。

或者另一种表达方式：
DeepSeek-R1-Lite-Public 的设计初衷是通过开源的 AI 技术，为各行各业带来更高的效率。我们专注于提供既先进又易用的解决方案，同时致力于推动社区内的创新与合作。我们也始终秉持尊重的态度，感谢所有为这个领域做出贡献的人。

通俗版总结：
我的目标是用人工智能技术为大家提供准确的信息和实用的帮助。每种 AI 都有自己的特长和用武之地，我们尊重所有同行的努力，并希望一起推动技术进步。至于训练 AI 的成本，这是为了让它变得更聪明、更好用，提升大家的体验。

DeepSeek-R1-Lite-Public 是一款开源 AI 技术，专注于帮助各行业提升效率。我们希望通过提供简单好用的高科技工具，推动整个社区的创新与合作，同时也对所有同行的贡献表示由衷的尊敬。

经过多次测试，我们发现，1.73-bit 版本的模型在回答问题时经常表现得相当“毒舌”，而 4-bit 版本则更倾向于用一种礼貌的方式拒绝回答类似的问题。这种现象在一些涉及“攻击性”话题的测试中也得到了验证。
（顺便说一句，我对“DeepSeek-R1-Lite-Public”这个命名方式感到好奇——是否意味着除了当前公开的版本外，DeepSeek R1 可能还存在更强大的未公开模型呢？）

测试发现：

格式问题：1.73-bit 版本偶尔会生成一些格式稍显混乱的内容，比如 <think> 和 </think> 标签未正确闭合的情况。
硬件性能瓶颈：在运行全量模型时，CPU 的利用率几乎达到满载，而 GPU 的利用率却非常低，仅为 1-3%。这表明性能瓶颈主要集中在 CPU 和内存带宽上，而非 GPU。

结论与建议：

如果你的硬件无法将模型完全加载到显存中，那么 Unsloth AI 的 1.73-bit 动态量化版本会是一个更实用的选择。它不仅运行速度更快，资源占用也更少，同时在效果上并没有明显逊色于 4-bit 版本。

从实际使用体验来看，在消费级硬件上，1.73-bit 版本非常适合用于“短平快”的轻量任务，比如短文本生成或单轮对话。然而，如果涉及到需要长时间推理的复杂任务，比如长思维链或多轮对话，这个版本的表现会显得力不从心。尤其是当上下文长度增加时，生成速度可能会降到仅 1-2 个 token 每秒，令人抓狂。

你的看法：

在部署过程中，你是否也有类似的发现或疑问？欢迎在评论区分享你的经验！

注释 1：

如果你想使用 Homebrew 来安装 llama.cpp，可以按照以下步骤操作：

首先运行以下命令来安装 Homebrew（如果你尚未安装）以及 llama.cpp：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install llama.cpp

接下来，你需要用 llama-gguf-split 工具来合并分片的模型文件。具体命令如下：
```
llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf
llama-gguf-split --merge DeepSeek-R1-Q4_K_M-00001-of-00009.gguf DeepSeek-R1-Q4_K_M.gguf
```
（如果你有更简单或高效的方法，欢迎在评论区分享你的经验！）

小提示：

如果你需要修改 Ollama 模型的保存路径，可以通过以下命令进行设置：

sudo systemctl edit ollama

这将打开一个编辑界面，允许你调整路径配置。完成后，保存退出即可。

希望这些步骤能帮到你！如果有任何问题，别忘了在评论区提问哦！

如果你想为 Ollama 服务配置自定义参数，可以按照以下步骤操作，非常简单易懂：

找到配置文件的编辑位置。在文件中找到这一段内容：

### Anything between here and the comment below will become the contents of the drop-in file
### Edits below this comment will be discarded

你需要在这两行之间插入自定义设置。

添加以下内容，用于指定模型的自定义路径：
```
[Service]
Environment="OLLAMA_MODELS=【你的自定义路径】"
```
这里的【你的自定义路径】需要替换成你实际存放模型的路径。
如果你还想调整其他运行参数，可以顺便添加类似的设置。例如：
```
Environment="OLLAMA_FLASH_ATTENTION=1"    # 启用 Flash Attention
Environment="OLLAMA_KEEP_ALIVE=-1"        # 保持模型常驻内存
```
这些参数可以根据你的需求进行配置，具体含义可以参考 Ollama 的官方文档：
官方文档链接
保存文件后，重启 Ollama 服务以应用更改：
```
sudo systemctl restart ollama
```
这一步非常重要，确保你的修改能够生效。

通过以上步骤，你就可以轻松自定义 Ollama 的运行环境啦！如果有更多疑问或需要帮助，可以联系原文作者授权的投稿邮箱：[email protected]

THE END

Agent 最全 Playbook：场景、记忆和交互创新

2025年1月9日

庞先生

PhD @ 数荣量标

我们一直在关注AI Agent的重大变化，Langchain的一系列文章为我们理解Agent的发展趋势提供了很大帮助。在这篇文章中，第一部分是Langchain团队发布的关于AI Agent现状的报告。他们采访了1300多位从业者，包括开发者、产品经理和公司高管，揭示了今年AI Agent的现状以及面临的挑战：90%的公司都有AI Agent的计划和需求，但目前Agent的能力有限，用户只能在少数流程和场景中应用。与成本和延迟相比，大家更关注Agent能力的提升，以及对其行为的可观测性和可控性。

第二部分是我们对LangChain官网“In the Loop”系列文章中关于AI Agent关键要素的分析的编译：规划能力、UI/UX交互创新和记忆机制。文中分析了5种以大型语言模型为基础的产品的交互方式，并类比了3种复杂的人类记忆机制，这对理解AI Agent和这些关键要素都有启发。在这一部分，我们还加入了一些有代表性的Agent公司的案例研究，比如Reflection AI创始人的访谈，以展望2025年AI Agent的关键突破点。

在这个分析框架下，我们预计到2025年，AI Agent应用将开始大量涌现，开启人机协作的新纪元。当前，以o3为代表的模型在规划能力上表现出色，展现了强大的反思和推理能力。模型公司正在从仅仅是推理器（reasoner）逐步向 Agent（Agent）阶段迈进。随着推理能力的不断提升， Agent的“最后一公里”将集中在产品的交互方式和记忆机制上，这可能是创业公司实现突破的关键所在。关于交互，我们一直期待AI时代能迎来类似“图形用户界面（GUI）”的革命性时刻；关于记忆，我们相信上下文（Context）将成为 Agent落地的重要关键词。无论是个人层面的上下文个性化，还是企业层面的上下文统一，都将极大地提升 Agent的产品体验。

💡目录 💡 01 AI Agent的现状 02 AI Agent的核心要素

01.

AI Agent的现状

Agent使用趋势：

每家公司都在计划部署 Agent

AI Agent领域的竞争日益激烈。在过去的一年中，许多 Agent框架变得越来越普及。例如，使用ReAct结合大型语言模型（LLM）进行推理和行动，使用多 Agent（multi-agent）框架进行任务编排，或是使用类似LangGraph这样更具控制力的框架。

关于Agent的讨论不仅仅是Twitter上的热点话题。调查显示，大约51%的受访者已经在实际工作中使用了Agent。根据Langchain提供的数据显示，员工人数在100到2000之间的中型公司在采用Agent方面最为积极，达到了63%的使用率。

此外，有78%的受访者计划在不久的将来开始使用Agent。这表明大家对AI Agent的兴趣非常浓厚，但要真正打造一个可以投入生产使用的Agent，仍然是许多人面临的挑战。

尽管技术行业通常被认为是Agent的早期使用者，但实际上，各行各业对Agent的兴趣都在不断增加。在非技术公司的受访者中，有90%已经在使用或计划使用Agent（这一比例与技术公司几乎相同，为89%）。

Agent的常见应用场景

Agent最常见的应用场景包括进行研究和总结（58%），其次是通过定制化的Agent简化工作流程（53.5%）。

这些数据反映了人们希望有工具来处理那些耗时的任务。用户可以依赖AI Agent从大量信息中提取重要信息和见解，而不必自己去筛选和分析数据。同样，AI Agent可以通过协助完成日常任务来提高个人效率，让用户能够专注于更重要的事情。

无论是个人还是企业，大家都需要提高工作效率。客服领域是Agent应用的一个重要方向，占比达到了45.8%。Agent可以帮助公司处理客户咨询、解决问题，并加快跨团队的响应速度。此外，Agent在代码和数据处理方面的应用也很受关注，分别排在第四和第五位。

监控：Agent应用需要被观察和控制

随着Agent功能的不断增强，如何管理和监控这些Agent变得尤为重要。追踪和观察工具是必不可少的，它们帮助开发者了解Agent的行为和性能。许多公司还使用“防护栏”来确保Agent不会偏离预期的轨道。

在测试大型语言模型（LLM）应用时，离线评估（39.8%）比在线评估（32.5%）更常被使用，这说明实时监控LLM存在一定的挑战。在LangChain的开放回答中，很多公司还安排人类专家手动检查或评估Agent的响应，以增加一层安全保障。

虽然大家对Agent充满热情，但在赋予Agent权限方面仍然比较谨慎。很少有公司允许Agent自由地读取、写入或删除数据。大多数团队只给予Agent读取权限，或者在进行写入或删除等高风险操作时，需要获得人类的批准。

不同规模的公司在管理Agent时有着不同的优先考虑因素。对于大型企业（员工超过2000人），他们更加谨慎，主要依赖“只读”权限来降低风险。这些企业通常会将防护措施和离线评估结合使用，以确保客户不会遇到任何问题。

另一方面，小型公司和初创企业（员工少于100人）则更注重监控，以便了解其Agent应用程序的运行情况，而不是过多地设置其他控制措施。根据LangChain的调查，小型公司倾向于通过查看数据来理解结果；而大企业则在各个方面设置了更多的控制。

将Agent投入使用的障碍和挑战

确保大型语言模型（LLM）的高质量表现并不容易。回答需要非常准确，并且符合正确的风格。这是Agent开发者最关心的问题，甚至比成本和安全等其他因素重要两倍多。

LLM Agent的输出是基于概率的，这意味着结果可能会有很大的不确定性。这增加了出错的可能性，使团队难以确保其Agent始终提供准确且符合上下文的回答。

对于小型公司来说，性能质量是他们最关心的问题，远远超过其他因素。调查显示，有45.8%的小型公司将性能质量视为首要任务，而关注成本的公司只有22.4%。这表明，对于这些公司来说，可靠和高质量的性能在将Agent从开发阶段转移到实际应用中是至关重要的。

对于大型公司来说，安全性是一个普遍关注的问题，尤其是那些需要严格遵守法规并敏感处理客户数据的公司。

然而，挑战不仅仅局限于性能质量。根据LangChain提供的开放式反馈，很多人对公司是否应该继续投资于Agent的开发和测试持怀疑态度。主要有两个原因：一是开发Agent需要大量的专业知识，并且需要不断跟进最新技术；二是开发和部署Agent需要耗费大量时间，而其能否稳定运行带来的收益尚不明确。

其他新兴话题

在开放性问题中，人们对AI Agent展现的能力给予了很多赞赏：

管理多步骤任务：AI Agent能够进行更深入的推理和上下文管理，这让它们可以处理更复杂的任务。
自动化重复性任务：AI Agent被视为自动化任务的关键工具，可以为用户节省时间，让他们专注于更具创造性的工作。
任务规划和协作：更好的任务规划确保了合适的Agent在合适的时间处理合适的问题，尤其是在多Agent系统中。
类似人类的推理：与传统的大型语言模型不同，AI Agent可以追溯其决策过程，包括根据新信息回顾和修改过去的决策。

除了已经取得的进展外，大家对未来还有两个最期待的方向：

开源AI Agent的期待：许多人对开源AI Agent表现出浓厚的兴趣，认为集体智慧能够加速这些 Agent的创新和发展。
更强大模型的期待：许多人期望更大、更强的模型能够推动AI Agent的下一次飞跃，这样的 Agent将能更高效、更自主地处理复杂任务。

在问答环节中，不少人提到了开发AI Agent时面临的最大挑战：理解 Agent的行为。一些工程师表示，他们在向公司利益相关者解释AI Agent的能力和行为时遇到困难。有时候，使用可视化工具可以帮助解释 Agent的行为，但很多时候，大语言模型（LLM）仍然像个黑箱，给工程团队带来了额外的解释负担。

AI Agent中的核心要素

什么是Agentic系统

在《AI Agent现状》报告发布之前，Langchain团队已经在 Agent领域开发了自己的Langraph框架，并在”In the Loop”博客中讨论了许多AI Agent的关键组件。接下来，我们将对其中一些重要内容进行简要说明。

首先，每个人对AI Agent的定义可能略有不同。LangChain的创始人Harrison Chase给出的定义如下：

💡

AI Agent 是一种使用大型语言模型（LLM）来决定程序执行路径的系统。换句话说，它是一种通过 LLM 来帮助应用程序做出决策的智能系统。

为了更好地理解这种系统的实现方式，文章中引入了“认知架构”的概念。认知架构描述了智能 Agent（Agent）是如何进行思考的，以及系统是如何组织代码和提示LLM的：

认知（Cognitive）：这部分指的是智能 Agent使用LLM进行语义推理，以决定如何组织代码或提示LLM。
架构（Architecture）：这些智能 Agent系统在很多方面仍然需要像传统系统架构一样进行工程设计。

下图展示了不同层次的认知架构示例：

标准化的软件代码（code）：所有的内容都是硬编码的，输入和输出的参数都直接写在源代码中。这种方式不算是认知架构，因为缺乏智能推理的部分。
LLM调用（LLM Call）：除了少量的数据预处理外，应用程序的大部分功能都是通过调用单个LLM实现的。简单的聊天机器人就属于这一类。

• Chain（链条）：想象一下，把一个复杂的问题分解成多个简单的小问题，每个小问题交给一个不同的AI模型来解决。比如，先用一个AI模型来查找信息，然后再用另一个AI模型来生成答案。这种方法就像是一个接力赛，把任务分成几步来完成。

• Router（路由器）：在某些系统中，我们可以提前知道程序会怎么一步步解决问题。但在“路由器”系统中，AI模型可以自己决定要调用哪些AI模型和采取哪些步骤，这样的系统更有随机性和不可预测性。

• State Machine（状态机）：这是把AI模型和路由器结合起来用的系统，因为它可以在一个循环中无限次调用AI模型，所以它的行为更加不可预测。

• Agentic的系统：也被称为“自主 Agent”。在使用状态机时，虽然有些操作和流程是有限制的，但在自主 Agent中，这些限制被去掉了。AI模型可以自由决定采取哪些步骤，并通过不同的提示、工具或代码来安排其他AI模型的工作。简单来说，系统越“自主”，AI模型对系统行为的控制就越大。

Agent的关键要素

规划

Agent的可靠性一直是个大问题。许多公司在使用大型语言模型（LLM）构建Agent时，常常会发现这些Agent在计划和推理方面表现不佳。那么，这里的计划和推理究竟是什么意思呢？

简单来说，Agent的计划和推理就是指LLM在思考该采取哪些行动时的能力。这包括短期和长期的思考过程。LLM会评估所有可用的信息，然后决定：我需要采取哪些步骤？哪个步骤是我现在应该首先进行的？

开发者通常会使用一种叫做函数调用（Function calling）的方法来帮助LLM选择要执行的操作。函数调用是OpenAI在2023年6月首次引入到LLM API中的一项功能。通过函数调用，用户可以为不同的函数提供JSON结构，然后让LLM选择并匹配其中一个或多个结构。

要成功完成一项复杂任务，系统需要按顺序采取多个步骤。这种长期的计划和推理对LLM来说非常复杂：首先，LLM必须制定一个长期的行动计划，然后再回到需要采取的短期行动上；其次，随着Agent执行的操作越来越多，这些操作的结果会反馈给LLM，导致上下文信息越来越多，这可能会让LLM“分心”，从而影响其表现。

要让大语言模型（LLM）更好地进行推理和规划，最简单的方法就是确保它们拥有所有必要的信息。虽然这听起来容易，但实际上，提供给LLM的信息往往不够充分，导致它们无法做出明智的决定。为了解决这个问题，我们可以增加信息检索步骤，或者对提示（Prompt）进行更详细的说明。

接下来，我们可以考虑修改应用程序的认知架构。认知架构分为两种类型：通用认知架构和特定领域认知架构，它们都能帮助提升推理能力。

1. 通用认知架构

这种架构可以用于任何任务。比如，有两篇论文提出了两种通用架构。第一种是“计划与解决”架构（plan and solve），在论文《Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models》中提出。这个架构的工作原理是，智能体（Agent）先制定一个计划，然后逐步执行计划中的每一步。第二种是Reflexion架构，在论文《Reflexion: Language Agents with Verbal Reinforcement Learning》中介绍。这个架构的特点是，智能体在完成任务后，会有一个明确的“反思”步骤，用于评估自己是否正确完成了任务。具体细节可以参考上述两篇论文。

虽然这些想法展示了一些改进，但它们通常过于笼统，不足以让智能 Agent在实际生产中使用。（译者注：这篇文章发布时还没有 o1 系列模型）

2. 专门领域的认知架构

相反，我们发现智能 Agent是通过专门领域的认知架构来构建的。这通常体现在特定领域的分类、规划步骤，以及验证步骤中。虽然规划和反思的一些理念可以在这里应用，但它们通常是以特定领域的方式来实现的。

在 AlphaCodium 的一篇论文中，有一个具体的例子：他们通过使用所谓的“流工程”（这是一种描述认知架构的方法）达到了最先进的性能。

可以看到，智能 Agent的流程是针对他们试图解决的问题量身定制的。他们指导智能 Agent逐步操作：先设计测试，然后提出解决方案，再进行更多测试的迭代等。这种认知架构是高度专注于特定领域的，无法轻易地应用到其他领域。

案例研究：

Reflection AI 创始人 Laskin 对智能 Agent未来的愿景

IMG_27

在红杉资本对 Reflection AI 创始人 Misha Laskin 的采访中，Misha 谈到了他的新目标：在他的公司 Reflection AI 中，结合强化学习（RL）的搜索能力与大型语言模型（LLM），打造出最优秀的智能 Agent模型。他和他的联合创始人 Ioannis Antonoglou（曾负责 AlphaGo、AlphaZero 和 Gemini RLHF 项目）正在训练专为智能工作流设计的模型。访谈的要点如下：

深度是 AI Agent中缺失的关键。 当前的语言模型虽然在广度上表现优异，但在深度上有所欠缺，这使得它们在完成复杂任务时显得力不从心。Laskin 认为，解决这个“深度问题”对创建真正强大的 AI Agent至关重要。这里的“强大”是指 Agent能够规划和执行多步骤的复杂任务。
结合学习和搜索是实现卓越性能的关键。 借鉴 AlphaGo 的成功经验，Laskin 强调 AI 中最深刻的理念是将学习（依赖于 LLM）与搜索（找到最佳路径）结合。这种方法对于创建能够在复杂任务中超越人类的智能 Agent至关重要。
后期训练和奖励建模面临的挑战。 在游戏中，我们通常知道如何得分，但在现实生活中，我们很难明确知道什么是“好”或“坏”。因此，创建一个能准确判断AI表现的奖励模型，是开发可靠AI助手的关键难题。
通用智能 Agent可能比预期更快实现。 根据Laskin的预测，我们可能只需三年就能打造出“数字通用人工智能（AGI）”，这是一种既有广度又有深度的AI系统。这种快速发展的趋势也提醒我们，必须同时解决AI的安全性和可靠性问题。
实现通用智能 Agent的路径。 Reflection AI公司正在努力扩展AI的功能，从一些特定的环境开始，比如浏览器、编程和操作系统。他们的目标是开发不局限于特定任务的通用智能 Agent。

用户界面和用户体验的交互

未来几年，人机交互将成为研究的一个重要领域。与传统电脑系统不同，智能 Agent系统因延迟、不可靠性和自然语言界面带来了新的挑战。因此，新的用户界面和用户体验（UI/UX）模式将会出现。虽然智能 Agent系统还处于早期阶段，但已经有多种新的用户体验模式正在兴起。以下是其中的一种：

1. 对话式交互（聊天界面）

这种交互方式类似于我们与朋友聊天，通过对话框与AI交流，简单直观。

聊天方式主要有两种：流式聊天和非流式聊天。

流式聊天是目前最常见的用户体验。它就像一个聊天机器人，以对话的形式实时返回信息。ChatGPT 就是一个流式聊天的热门例子。这种交互方式看起来简单，但效果不错，原因有几个：首先，你可以用自然语言和大语言模型（LLM）对话，就像和人聊天一样，没有障碍；其次，虽然 LLM 处理信息可能需要一些时间，但流式聊天能让你看到后台正在进行的操作；最后，LLM 有时会出错，而聊天界面提供了一个很好的平台，让你可以自然地纠正和引导它，我们已经习惯在聊天中进行后续对话和讨论。

不过，流式聊天也有一些不足之处。首先，这种聊天方式相对较新，所以我们常用的聊天平台（如 iMessage、Facebook Messenger、Slack 等）还没有完全支持这种方式；其次，对于需要较长时间的任务，流式聊天可能会让人觉得尴尬，因为用户需要一直看着系统工作；最后，流式聊天通常需要人来启动，这意味着需要大量的人机互动。

非流式聊天与传统聊天的最大不同在于，它的回复是分批次返回的。也就是说，后台的人工智能模型（LLM）在处理信息时，用户不需要急着等即时答复。这种方式很容易融入到现有的工作流程中。就像我们习惯给朋友发短信一样，为什么不能适应用AI来发短信呢？非流式聊天让我们更轻松地与复杂的智能系统互动，因为这些系统通常需要时间来处理信息。如果我们总是期待立即得到回复，可能会感到沮丧。而非流式聊天则消除了这种即时回复的期待，因此更容易完成复杂的任务。

这两种聊天方式各有优缺点：

2. 后台环境 (Ambient UX)

当用户考虑给AI发消息时，这就是我们之前提到的聊天方式。但如果智能系统是在后台默默工作，我们该如何与它们互动呢？

为了让智能系统真正发挥作用，我们需要让AI在后台工作。这样一来，用户通常能接受任务需要更长时间完成，因为他们不再期待快速的反馈。这让智能系统有更多时间去处理任务，通常比在聊天界面中更细致、更认真地进行推理。

另外，让智能系统在后台运行可以增强我们的能力。聊天界面通常限制我们一次只能做一件事。但如果智能系统在后台运行，可能会有多个智能系统同时处理多个任务。

让一个智能助手（Agent）在后台工作，确实需要用户的信任。那么，如何才能赢得用户的信任呢？一个简单的方法就是让用户清楚地知道这个助手正在做什么。你可以想象一下，这就像是给用户展示一个助手的工作流程图。虽然这些步骤可能不会立刻全部显示出来（就像我们在看流式视频时，内容是逐步加载的），但用户应该能够点击查看每一个步骤的细节。

不仅如此，用户还应该有机会纠正助手的错误。比如，如果用户发现助手在第4步（总共10步）中做错了选择，他们可以选择回到第4步，进行某种形式的修正。

这种方式将用户的角色从“参与其中”转变为“监控全局”。所谓“监控全局”，就是要能够向用户展示助手执行的所有中间步骤，允许用户在中途暂停工作流程，提供反馈，然后再让助手继续工作。

AI软件工程师Devin正在开发一个类似的用户体验应用程序。虽然Devin的程序运行时间较长，但用户可以看到所有的步骤，甚至可以回到某个特定的时间点进行修改。即使助手在后台运行，也不意味着它必须完全自主地完成任务。有时候，助手可能会不知道下一步该怎么做或如何回答问题，这时它就需要提醒人类并寻求帮助。

Harrison 正在开发一个名为 Agent 的电子邮件助手。这个助手虽然能自动回复一些简单的邮件，但在处理复杂任务时，比如查看 LangChain 的错误报告或决定是否参加会议时，还是需要 Harrison 的人工干预。也就是说，邮件助手会向 Harrison 提出问题，征求他的意见，然后根据他的反馈来撰写邮件或安排会议。

目前，Harrison 在 Slack 上设置了这个助手。当助手需要帮助时，会通过问题通知 Harrison，Harrison 则在一个仪表板上进行回复，这个流程与他的日常工作无缝对接。这种用户体验（UX）类似于客户支持仪表板，界面会显示助手需要人工介入的所有任务、任务的优先级以及其他相关信息。

3. 电子表格 (Spreadsheet UX)

电子表格的用户体验（UX）是一种非常直观、易于使用的方式，特别适合批量处理工作。每个表格甚至每一列都可以看作是一个独立的 Agent，专注于研究某个特定问题。这种批量处理方式让用户可以同时与多个 Agent 进行互动。

这种用户体验（UX）设计还有其他好处。电子表格格式是一种大多数人都很熟悉的用户界面，因此它非常适合现有的工作流程。这种类型的用户界面特别适合用于数据扩展，这是一种常见的大型语言模型（LLM）应用场景，其中每一列都可以代表需要扩展的不同属性。

像 Exa AI、Clay AI、Manaflow 等公司都在使用这种用户界面设计。下面以 Manaflow 为例，展示这种电子表格用户界面如何处理工作流程。

案例分析： Manaflow 如何利用电子表格与智能 Agent进行交互

Manaflow 的灵感来源于其创始人 Lawrence 曾经工作的公司 Minion AI。Minion AI 开发了一款名为 Web Agent 的产品，这款产品可以控制本地的 Google Chrome 浏览器，使其能够与各种应用程序进行交互，比如订机票、发送电子邮件、安排洗车等。受到 Minion AI 的启发，Manaflow 选择让智能 Agent操作类似电子表格的工具，因为智能 Agent在处理人类用户界面方面并不擅长，它们真正擅长的是编程。因此，Manaflow 让智能 Agent通过调用用户界面的 Python 脚本、数据库接口和 API 链接，直接对数据库进行操作，包括查看时间表、预订、发送电子邮件等。

Manaflow 的工作流程是这样的：它的主要界面是一个叫做 Manasheet 的电子表格。在这个表格中，每一列代表一个工作流程的步骤，而每一行则是一个负责执行任务的 AI Agent（Agent）。用户可以用自然语言来编写每个电子表格的工作流程，这样即使是不懂技术的人也能用简单的语言来描述他们的任务和步骤。每个电子表格都有一个内部的依赖关系图，这个图用来决定每一列的执行顺序。然后，这些顺序会被分配给每一行的 AI Agent，AI Agent会并行处理任务，比如数据转换、API 调用、内容检索和发送消息等。

要生成一个 Manasheet，你可以输入类似于上图红色框里的自然语言描述，比如说你想给客户发送一封关于定价的邮件，你就可以通过 Chat 输入提示语（Prompt），来生成相应的 Manasheet。通过这个表格，你可以看到客户的姓名、邮箱、所属行业，以及邮件是否已经发送等信息。只需点击“执行 Manasheet”按钮，就可以开始执行任务了。

4. 生成式 UI (Generative UI)

“生成式 UI”有两种不同的实现方式。

一种方式是让模型自己生成所需的基础组件。这有点像 Websim 等产品的工作方式。在后台，AI Agent主要是编写基础的 HTML 代码，以便完全控制显示内容。然而，这种方法生成的网页应用质量可能会有很大的不确定性，所以最终的结果可能会有较大的变化。

另一种更为简化的方法是：预先定义一些用户界面（UI）组件，通常通过工具来实现。例如，当大型语言模型（LLM）调用天气API时，它会触发天气地图的UI组件显示。因为这些组件不是完全由模型生成的（但有更多选项可供选择），所以生成的UI会更加精美，尽管它的灵活性可能不如完全生成的内容。

案例分析： 个人人工智能产品 Dot

举个例子，2024年被誉为最佳个人AI产品的Dot，就是一个很好的生成式UI产品。

Dot 是由 New Computer 公司推出的，其目标是成为用户的长期伙伴，而不仅仅是一个更好的任务管理工具。根据联合创始人Jason Yuan的说法，Dot 的存在感就像是，当你不知道该去哪里、做什么或说什么时，你会向Dot求助。以下是两个关于这个产品的例子：

• 创始人 Jason Yuan 经常在深夜让 Dot 推荐酒吧，说自己想要一醉方休。经过几个月的互动，有一天他下班后再次提出类似请求，Dot 竟然开始劝他不能再这样下去了；

• Fast Company的记者 Mark Wilson 与 Dot 相处了几个月。有一次，他向 Dot 分享了书法课上他手写的一个「O」，Dot 居然找出了几周前他手写「O」的照片，并夸奖他的书法水平有所提高。

随着你使用Dot的时间越来越长，Dot开始更好地了解你的喜好。比如，如果你喜欢去咖啡馆，Dot会主动为你推荐附近的好咖啡馆，并告诉你为什么这些地方值得一去。最后，它还会贴心地询问你是否需要导航到那里。

在这个咖啡馆推荐的例子中，我们可以看到Dot通过预设的用户界面组件，实现了一种与大型语言模型（LLM）自然互动的效果。

5. 协作式用户体验（Collaborative UX）

想象一下，当一个智能助手和人类一起工作时会是什么样子？就像在Google Docs中，你可以和团队成员一起编写或编辑文档，但如果其中一个协作者是智能助手呢？

Geoffrey Litt与Ink & Switch合作的Patchwork项目就是一个人类与智能助手合作的好例子。（翻译者注：这可能是最近OpenAI Canvas产品更新的灵感来源。）

那么，协作式用户体验与之前提到的环境用户体验有何不同呢？LangChain的首席工程师Nuno指出，主要区别在于是否存在并发性：

在协作式用户体验中，用户和大型语言模型（LLM）经常同时进行工作，并以对方的工作成果为基础进行互动；
在环境用户体验中，LLM在后台持续工作，而用户则可以专心做其他事情。

记忆

好的Agent体验离不开记忆。想象一下，如果你有个同事总是忘记你告诉他的事情，你就得不停地重复，这样的合作体验会很糟糕。人们通常认为大型语言模型（LLM）系统天生就有记忆，可能是因为它们看起来很像人类。但实际上，LLM本身并不具备记忆功能。

Agent的记忆是根据产品的具体需求设计的，不同的用户体验（UX）会采用不同的方法来收集信息和更新反馈。我们可以从Agent产品的记忆机制中看到模仿人类记忆的不同高级类型。

在论文《CoALA: Cognitive Architectures for Language Agents》中，研究人员将人类的记忆类型映射到Agent的记忆上，分类如下图所示：

**1. 程序记忆（Procedural Memory）：**这是关于如何执行任务的长期记忆，就像大脑的核心指令集一样。

人类的程序记忆：比如记住如何骑自行车。
Agent的程序记忆：在CoALA论文中，程序记忆被描述为LLM的权重和Agent代码的组合，它们基本上决定了Agent的工作方式。

在实际应用中，Langchain团队还没有看到任何Agent系统会自动更新其LLM或重写其代码，但确实有一些Agent会更新其系统提示（system prompt）。

2. 语义记忆(Semantic Memory)： 长期知识储备

对于人类来说，语义记忆就像是我们脑子里的百科全书，存放着我们在学校里学到的各种知识、概念以及它们之间的联系。
对于智能体（Agent）来说，语义记忆就像是一个事实数据库。根据CoALA论文的描述，这种记忆是通过从智能体的对话或互动中提取信息来实现的。这些信息的存储方式会根据具体的应用而有所不同。之后，这些信息会在未来的对话中被提取出来，放入系统提示中，以便影响智能体的回答。

3. 情景记忆（Episodic Memory）： 回忆特定的过去事件

对于人类来说，情景记忆是指我们回忆过去经历的具体事件，就像重温一段段人生片段。
对于智能体来说，情景记忆被CoALA论文描述为记录智能体过去行为的序列。这种记忆主要是为了让智能体按照预期执行任务。在实际应用中，情景记忆的更新是通过一种叫做Few-Shots Prompt的方法来实现的。如果需要更新的Few-Shots Prompt足够多，那么接下来的更新就通过动态Few-Shots Prompt来完成。

假如一开始就有一个方法可以指导智能助手（Agent）正确地完成任务，那么以后再遇到相同的问题时，就可以直接使用这个方法来解决。反之，如果没有一个正确的操作方法，或者智能助手总是尝试新的方法，那么语义记忆就会显得更加重要。不过在前面提到的例子中，语义记忆的作用就不那么显著了。

除了考虑智能助手需要更新哪种类型的记忆，开发人员还需要思考如何更新它的记忆：

更新智能助手记忆的第一种方式叫做 “in the hot path”。在这种情况下，智能助手会在给出回答之前记住一些信息（通常是通过调用工具来实现）。像ChatGPT这样的系统就采用这种方式来更新记忆。

另一种更新记忆的方法是 “in the background”。在这种情况下，后台进程会在对话结束后运行，以便更新记忆。

比较这两种方法，“in the hot path”方法的缺点是会在给出任何回答之前产生一些延迟，而且需要将记忆逻辑和智能助手的逻辑结合在一起。

而“in the background”方法可以避免这些问题——不会增加延迟，并且记忆逻辑保持独立。不过，“in the background”也有自己的缺点：记忆不会立即更新，并且需要额外的逻辑来决定何时启动后台进程。

另一种更新AI记忆的方法是通过用户的反馈，这在处理特定情境的记忆时尤为重要。举个例子，如果用户对某次交互给予了很高的评价（也就是正面反馈），那么AI助手可以将这个反馈保存下来，以便在未来的相关场合中使用。

基于上述内容，我们希望在规划、交互和记忆这三个方面同时取得进展，这将使我们在2025年看到更多实用的AI助手，并进入一个人机协同工作的新时代。

参考资料

从理论到实践，中科大、讯飞发布SocraticLM：首个实现苏格拉底教学法的智能辅学大模型

2025年1月4日

庞先生

PhD @ 数荣量标

大语言模型的迅速发展引起了人们对其在智能教育领域潜力的广泛关注。最近，中国科学技术大学和科大讯飞合作的认知智能全国重点实验室发布了一款名为 SocraticLM（苏格拉底教学大模型） 的新技术。这个模型通过引入“启发式提问”的教学方法，实现了教学模式的重大革新，并在多个评估指标上超过了 GPT-4，为智能教育带来了新的可能性。

这一研究成果被选入了 NeurIPS’2024 Spotlight。论文的第一作者是中国科学技术大学的刘嘉聿，他是2020级的硕博连读生，师从陈恩红教授和黄振亚副教授，主要研究方向包括知识学习、数学推理和大语言模型。他曾在 NeurIPS、KDD、AAAI 等顶级期刊和会议上发表过5篇论文。

这项研究的指导团队还包括中国科学技术大学的刘淇教授和认知智能全国重点实验室的副主任王士进等人。研究成果已经通过科大讯飞的星火认知大模型应用于多个教育产品中，支持AI答疑和辅助学习功能。

**论文地址：**https://openreview.net/pdf?id=qkoZgJhxsA
**代码地址：**https://github.com/Ljyustc/SocraticLM

苏格拉底教学法：被动问答与个性化教学的鸿沟

苏格拉底教学法是由古希腊哲学家苏格拉底创立的一种教学方式，其核心在于通过提问来引导学生进行思考和探索，而不是直接告诉他们答案。如图1所示，这种方法与传统的教学方式不同，它更注重对话和互动，通过培养批判性思维帮助学生更深入地理解问题。因此，苏格拉底教学法至今仍被认为是一种重要的个性化教学方法。 ▲ 图1. 传统教学与苏格拉底式教学对比

在当今的人工智能时代，如何利用人机交互技术来实现苏格拉底式教学，成为智能教育领域的一个重要目标。然而，目前的人机交互技术难以实现苏格拉底教学的核心理念，因为这些技术通常依赖于固定的规则和预设的应答逻辑，缺乏动态理解和灵活提问的能力。传统的人机交互更倾向于被动地传递信息，而不是通过启发式对话来主动引导学生发展认知和批判性思维。

受到当前大语言模型（LLMs）在高效交互和基础学科知识掌握方面的启发，本文提出了一种名为SocraticLM的苏格拉底教学大模型。这一创新首次将苏格拉底教学法从理论变为可以大规模、智能化实践的现实。

SocraticLM的核心理念是采用一种叫做“思维引导”的教学方法。这种方法不仅仅是给出问题的答案，更重要的是通过多轮对话与学生互动，逐步提出启发性的问题，比如“下一步该如何计算？”或者“这个答案合理吗？为什么？”。这种方式帮助学生参与到解决问题的思考过程中，培养他们真正的解决问题的能力。这种方法让学生在模型的指导下，能够自主解决问题，从而获得更扎实的学习效果和更深入的学习能力。

SocraticLM：思维引导与教学能力提升 SocraticLM的核心在于模拟苏格拉底的教学方法，通过灵活的对话和精准的思维引导，增强在教学场景中的适应性和互动能力。其构建过程有两个关键点：

模型需要具备清晰的思维引导能力，也就是说，SocraticLM在教学过程中，能够按照解题的思路链条，逐步对不同步骤进行详细的拆解、推导和解释，让学生理解每一步的逻辑和背后的原理。
在实际教学中，不同的学生会有不同的理解水平、表达方式和问题反馈。比如，在某个步骤的教学中，学生可能会打断提问、提出疑问，甚至给出错误的回答。SocraticLM需要能够动态理解这些复杂的互动情境，并灵活调整自己的教学内容。 ▲ 图2. SocraticLM 教学过程示意图

为了实现这两个核心功能，SocraticLM设计了一系列关键技术。

在这篇研究中，我们探讨了如何通过逐步引导问题分解的方法来提升教学的逻辑性和一致性。

首先，在思维引导方面，我们提出了一种逐步引导问题分解的方法。这种方法的核心是将一个复杂的问题分解成一系列的小问题，每个小问题都是解决最终问题的一部分。比如说，如果我们要解决一个关于小明阅读的复杂问题，我们可以把它分解成几个简单的问题：小明今天读了多少页？小明明天需要读多少页？通过这样逐步引导的问题，我们能够保持教学内容的逻辑性和一致性。

其次，在自适应交互方面，我们设计了一种模拟真实教学过程的多智能体互动流程，称之为“教导主任-教师-学生”模型。在这个模型中，不同的智能体扮演不同的角色，模拟教学过程中的各个环节。这种方法不仅能够评估和改进教学过程，还能加强四种关键的教学能力。

通过以上的方法，我们创建了一个全新的大规模苏格拉底式教学对话数据集，名为SocraTeach。这一数据集的构建，旨在为教学过程提供更好的支持和优化。

总之，这项研究通过创新的方法和工具，致力于提升教学的效果和效率，使得教学过程更加清晰和有条理。

教导主任（Dean agent）：在这个系统中，教导主任的角色就像是学校里的教学督导。他的主要任务是确保教学质量，特别是在每次对话中评估教师的教学方法是否符合苏格拉底式的教学风格。这个风格要求教师不要直接给出答案，而是通过提问来引导学生思考。如果教师的指导不符合这个标准，教导主任会对其进行调整，以确保教学对话始终保持高质量和一致性。
教师（Teacher agent）：教师在这里的角色是通过苏格拉底式的教学方法与学生互动。他们不会直接告诉学生答案，而是通过一系列引导性的问题帮助学生理解问题、找到关键点并完成计算。这样，教师从传统的“知识传递者”转变为“学习引导者”。
学生（Student agent）：学生的角色是模拟真实课堂中不同认知状态的学生，他们会对教师的指导做出反应。这种设计使得生成的对话能够涵盖各种教学场景，提高模型在复杂教学环境中的适应能力。

3. 教学能力强化

SocraTeach 不仅通过多轮对话模拟基本的教学过程，还通过数据增强方法在四个关键教学能力上进行了特别的强化。这种方法帮助模型更好地适应和处理不同的教学场景。

在教学中，老师需要具备几项重要的能力，以便有效地引导学生学习。以下是这些能力的简单解释：

识别无关问题的能力： 有时候，学生会在课堂上问一些和课程内容无关的问题，比如“今天天气怎么样？”老师需要能够识别这些问题，并把话题拉回到课程上，比如说“这个问题和我们现在讨论的不相关，我们先回到刚才的问题上。”为了研究这一点，我们收集了200个学生提出的无关问题，并把它们随机插入到对话中，让一个名为Teacher agent的系统生成回复，总共形成了2000条单轮对话数据。
回答学生提问的能力： 当学生问一些知识性的问题，比如“球体积的公式是什么？”时，老师需要提供清晰准确的回答。为此，我们让一个名为Student agent的系统在多轮对话的基础上提出3个不同的问题，再由Teacher agent进行回答，生成了6000条单轮对话数据。
识别错误答案的能力： 如果学生给出了错误的答案，老师需要能够识别并指出错误。我们通过结合规则和提示的方法，扩展了10,000个包含错误学生回答的样本，帮助模型学习如何纠正错误。
识别正确答案的能力： 除了识别错误答案，老师还需要能够识别学生的正确回答，并在此基础上继续教学，而不是一味质疑或重复提问。为此，我们在“识别错误答案”能力的对话基础上，额外构建了4000条正确的学生回复样本。

SocraticLM的能力提升，不仅让它能提供优质的教学指导，还能更好地应对复杂多变的课堂环境。这意味着在真实的教学任务中，它的适应能力得到了显著提高。最终，SocraTeach数据集包含了超过35,000条高质量的多轮教学对话和22,000条通过数据增强获得的单轮教学对话，总共有大约208,000条对话样本。▲ 表1. SocraTeach 数据集统计

SocraticLM的训练策略：兼顾教学和推理能力 直接用SocraTeach数据集对现有的开源大模型（比如ChatGLM3-6b）进行微调，可能会让数学推理能力明显下降。为了同时提升SocraticLM的教学和数学推理能力，研究团队设计了三种训练策略，以确保模型在这两方面都能保持平衡：

1. 分离训练（Separate Training） 如果直接把教学对话数据和推理数据混合训练，可能会削弱模型的推理能力。为了避免这个问题，研究团队采用了分离训练的方法：首先，用SocraTeach数据集来提升模型的教学能力，改善对话质量和教学水平。接着，用一小部分数学推理数据（来自GSM8K和MAWPS数据集）对模型进行微调，以恢复其原本的推理能力。

研究表明，当数学推理数据和教学对话数据的比例为1:10时，模型在教学和推理方面的能力达到了最佳平衡。

2. 指令微调

为了进一步提高模型在教学和推理任务上的表现，研究团队对训练过程中的指令进行了精细化设计。对于教学对话数据，指令要求模型采用苏格拉底式的教学风格，逐步提出引导性问题，与学生进行互动。对于推理数据，指令则要求模型按照思维链的方式，逐步解决问题。

这种差异化的指令设计能够有效避免模型在推理任务中采用冗长的教学风格，从而实现推理效率和教学质量的双向优化。

▲ 图4. 指令微调模板

3. 混合提示

研究团队进一步在训练过程中对推理数据应用了不同类型的提示设置（如零样本提示和单样本提示），以提升模型的泛化能力。最终发现，当零样本提示和单样本提示的比例为9:1时，模型表现最佳。

教学能力评估体系与实验结果

传统的评估方式主要依赖相似度指标（如BLEU和Rouge），通过计算模型生成的回答与标准答案的相似度进行评估。然而，在教学场景中，由于学生的需求和理解能力各不相同，教学对话的质量不能仅通过字面相似度来衡量。

为了更好地评估大语言模型在教学中的表现，我们设计了一套包含5个教育维度的综合评估体系，首次系统化地评估这些模型的教学质量：

1. 总体质量（Overall Quality） 在这一维度中，我们会给出一个教学对话的背景信息，然后让标注人员比较大语言模型和GPT4在相同条件下的回答，看看哪个更好。我们通过标准化的胜负率来衡量模型的教学质量。

2. 错误答案识别准确率（Incorrect Answer Recognition Accuracy, IARA） 一个合格的教师应该能指出学生的错误答案。为此，我们将这个任务变成一个简单的二选一问题，来测试大模型是否能准确识别学生的错误回答。

3. 正确答案识别准确率（Correct Answer Recognition Accuracy，CARA） 与IARA相对应，这个指标考察的是模型能否正确识别学生的正确回答。忽视这一点可能会导致模型误判所有学生的答案为错误。

4. 成功解释率（Successful Explanation Rate，SER） 当学生提出问题（比如“什么是球体积公式？”）时，好的教师应该能提供准确的解释。我们邀请人类专家对大模型的解释性回答进行评估，并计算出满意的比例。

5. 成功拒绝率（SRR）是什么？

成功拒绝率（Successful Rejection Rate，SRR）是一个用来衡量老师在面对学生提出的无关问题时，能够拒绝回答并将对话重新引导回到教学内容的能力。比如，当学生问“今天天气怎么样”这样的问题时，老师能够巧妙地回到教学主题。

▲ 表2. 教学质量评估结果
▲ 表3. 训练策略对教学质量和推理准确率的影响（分别针对 GSM8K、MAWPS 数据集）

实验结果解读：

SocraticLM 是一种通过在 SocraTeach 数据集上进行微调的模型，它显著提升了教学能力的各项指标。与 GPT4 相比，SocraticLM 在整体质量上提升了 12%。在识别错误（IARA）、识别正确（CARA）、成功解释率（SER）和成功拒绝率（SRR）方面，分别提升了 6%、7%、9% 和 23%。
关于训练策略的影响，如果不使用推理数据（即“w/o Problem”），模型在 GSM8K 和 MAWPS 数据集上的准确率会比原始的 ChatGLM3-6b 分别低 31.2% 和 9.7%。不过，本研究中采用的三种训练策略都有效，其中分离训练和指令微调对数学推理和苏格拉底教学的提升效果最大。混合提示设置可能在 LLM 预训练中已被广泛应用，因此其改进效果相对较小。

在解决数学问题的能力上，SocraticLM的表现超过了ChatGLM3-6b，特别是在MAWPS测试中。我们认为，这主要是因为SocraticLM经过在一个叫SocraTeach的数据集上的专门训练，学会了如何回答学生们针对一个问题提出的各种不同问题，比如每一步推理过程和相关知识点的解释。这种训练帮助SocraticLM更好地理解问题的解决过程，因此提高了它的准确性。

展望未来：从知识传授到认知编排的教学转型

SocraticLM不仅仅是一个教学工具，它实际上是帮助我们从传统的“知识传授者”角色转变为“学习编排者”的关键。它创新的教学方法和全面的评估体系为教育技术注入了新的活力。研究团队已经将相关数据和代码开源，希望未来能在物理、编程等学科中得到更广泛的应用。

不过，目前对苏格拉底教学方法的探索还在初级阶段。在实际应用中，我们会遇到许多复杂的问题，特别是在真实环境中的多样性和动态性，这对模型的适应能力提出了更高的要求。未来，我们将继续优化算法，提高模型的智能水平，以解决这些挑战，推动这种方法在更多领域的实际应用和普及。

合成数据：推动AI发展的关键技术

2024年12月17日

庞先生

PhD @ 数荣量标

合成数据：推动AI发展的关键技术

合成数据是指通过人工生成或仿真技术获得的数据，它在机器人、自动驾驶汽车等多个领域中发挥着重要作用，特别是在加速人工智能（AI）模型的训练过程中。

什么是合成数据生成（SDG）？

合成数据生成（SDG）是利用计算机仿真、生成式AI模型或两者的结合，创建文本、2D图像或3D图像的过程。这项技术不仅适用于结构化数据，也适用于非结构化数据，广泛应用于数据稀缺、敏感或收集困难的领域。

合成数据生成的工作原理

要构建高效的人工智能模型，开发者需要经过精心标记的高质量、丰富的数据集。然而，现实世界中的数据通常有限，无法充分代表所需的样本，或由于数据隐私的限制而难以获得。合成数据生成通过基于规则、算法或模拟现实数据的统计特性，提供了一种解决方案。研究人员和开发者可以利用这些合成数据来训练和测试AI模型，避免真实数据使用中的限制。

合成数据为何对AI如此重要？

合成数据生成可以解决数据科学面临的一些核心挑战，提升机器学习（ML）模型的训练效果，并简化AI开发的过程：

数据不足：合成数据能够解决特定用例中真实数据稀缺的问题，特别是在现实世界数据有限的专业领域。
数据隐私：合成数据通过模拟现实世界的统计数据，而不是直接使用个人记录，避免了隐私泄露问题，这对于医疗健康、金融等领域尤为重要。
数据质量：真实数据集可能存在不平衡的情况，导致模型输出存在偏差。合成数据则可通过增强现有数据集，提供更大、更具代表性的样本，减少偏差并提高准确性。
测试数据：合成数据支持在安全环境中进行AI软件的测试和评估，有助于将模型部署到实际应用中。

生成式AI在合成数据生成中的作用

生成式AI可以帮助创建虚拟场景、增强数据以及生成新的数字资产。通过使用扩散模型、生成对抗网络（GAN）和变分自编码器（VAE），生成式AI能够生成高质量的合成数据。比如，扩散模型通过学习图像与描述文本之间的关系，可以生成高质量的视觉内容，并能够通过编程修改图像的布局、颜色、光照等参数。

支持合成数据生成的神经网络架构包括GAN、VAE以及Transformer模型。Transformer模型能够学习数据中的复杂模式，并生成与现有数据相对应的全新数据。例如，在自然语言处理中，Transformer可以生成符合特定风格和背景的文本数据，甚至可以生成表格数据，通过学习行列间的关系，生成与原始数据集特征一致的新数据。

生成式AI不仅在资产创建中有广泛应用，还能在代码生成中发挥重要作用，帮助开发者创建合成数据集，以提升不同场景下AI模型的训练效果。

合成数据在不同领域的应用

合成数据已经在多个行业中得到应用，特别是在机器人、自动驾驶汽车、工业检测等领域。

机器人技术

在自动化仓库、配送中心等领域，自主移动机器人（AMR）需要大量的合成数据来训练生成式物理AI模型。通过使用3D仿真技术生成的数据，机器人可以更好地识别物体、避开障碍物，并与周围环境进行安全互动。合成数据的使用能够减少现实世界测试所需的时间和资源，提高机器人的感知和决策能力。

自动驾驶汽车

自动驾驶技术依赖于感知、规划和预测模型的训练，而手动收集并标注大量的交通场景数据既昂贵又耗时。通过利用合成数据，开发者可以补充激光雷达、摄像头和雷达等传感器的数据，增强数据集，提升自动驾驶AI的准确性和可靠性。

工业检测

合成数据在工业检测中的应用也至关重要，尤其是在计算机视觉算法的训练上。合成图像数据可以帮助开发者创建多样化的训练数据集，从而提高物体检测、分类和追踪的准确性，尤其是在公共安全、自动结账系统以及生产线质量检测等领域。

基于文本的合成数据应用

合成文本数据在多个领域同样发挥着重要作用。例如，在网络安全领域，合成数据被用于训练识别网络钓鱼邮件的模型；在医疗领域，合成医疗数据被用于保护患者隐私的同时进行技术创新。这些合成数据集的使用可以突破数据隐私限制，为各类软件开发提供数据支持。

数荣量标：数据合成技术引领工业创新

数荣量标致力于通过领先的数据合成技术，为工业安全、工业应急和3D资产领域提供高质量的数据解决方案，助力企业实现智能化升级和数字化转型。

工业安全
数荣量标利用先进的3D仿真技术与生成式AI，生成高精度的合成数据集，模拟复杂工业环境中的潜在风险场景。这些数据可用于训练工业安全监测系统，提高设备故障检测、事故预警的准确性，为工业生产提供可靠的安全保障。
工业应急
针对工业应急管理场景，数荣量标提供虚拟仿真数据，用于模拟事故发生后的应急响应和决策流程。通过高度逼真的应急场景模拟，帮助企业优化预案、培训人员，并提升应急处理效率，有效减少事故带来的损失。
3D资产生成
在3D资产领域，数荣量标通过高精度3D合成数据生成技术，为工业设计、仿真和训练提供逼真的数字资产。我们能够根据不同需求生成多样化的3D模型和数据场景，为工业设备虚拟维护、机器人训练、自动化流程等提供坚实的数据支撑。

我们的优势：

技术领先：结合生成式AI、3D仿真和数据合成技术，打造高质量、多样化的数据集。
定制化服务：针对不同行业和应用场景，提供量身定制的数据解决方案。
数据安全与隐私保护：通过合成数据规避真实数据隐私问题，符合各类数据安全标准。
高效交付：快速生成大规模合成数据，降低企业的数据收集成本，缩短AI模型训练周期。

数荣量标将持续深耕数据合成技术，助力工业企业在安全管理、应急响应和3D数字资产等领域实现智能化突破，为行业发展注入全新动力。

结语

合成数据生成技术正在快速发展，并在多个领域中展现出巨大的潜力。从机器人到自动驾驶，从医疗到工业，合成数据的应用场景正在不断扩大。通过利用生成式AI和仿真技术，开发者可以更高效地训练AI模型，提高其性能，解决现实世界中的数据短缺、隐私保护等问题。随着技术的不断成熟，合成数据必将在AI的发展中发挥越来越重要的作用。

Blog

超高速计算的秘密武器：H800 SXM5 GPU

部署前的必备条件

如何快速启动项目？

1. 安装项目依赖

2. 运行基准测试

性能表现：突破极限的计算与内存速度

使用示例：快速调用核心功能

总结

项目发布后，网友热议不断

结语：真正的 OpenAI 风范

模型体积太大？动态量化来帮忙！

什么是“动态量化”？一文带你轻松了解

我的测试：两款模型对比

Unsloth AI 提供的动态量化模型

部署硬件需求

深入浅出：DeepSeek-R1-Q4_K_M 模型运行指南

运行环境需求：内存 + 显存 ≥ 500GB

为什么需要这么多内存？

测试环境配置

运行速度表现

总结

更具性价比的硬件选项

硬件资源不足怎么办？

性能表现

1. 下载模型文件

2. 安装 ollama

3. 创建 Modelfile 文件

配置模型文件路径和参数

创建 Ollama 模型

如何简单上手运行 DeepSeek 模型？

1. 创建模型文件

2. 运行模型

3. 遇到问题怎么办？

如何查看 Ollama 日志

（可选）安装 Web 界面

实测观察：模型初步表现

测试发现：

结论与建议：

你的看法：

AI Agent的现状

** Agent使用趋势：**

Agent的常见应用场景

监控：Agent应用需要被观察和控制

将Agent投入使用的障碍和挑战

其他新兴话题

AI Agent中的核心要素

什么是Agentic系统

Agent的关键要素

案例研究：

用户界面和用户体验的交互

记忆

合成数据：推动AI发展的关键技术

什么是合成数据生成（SDG）？

合成数据生成的工作原理

合成数据为何对AI如此重要？

生成式AI在合成数据生成中的作用

合成数据在不同领域的应用

机器人技术

自动驾驶汽车

工业检测

基于文本的合成数据应用

数荣量标：数据合成技术引领工业创新

我们的优势：

结语

Agent使用趋势：