DeepSeek之外还有高手？马斯克正式发布Grok 3

中午12点，经过几天的预热，Grok 3的发布会终于揭开了神秘面纱。前两天，马斯克就在X（原Twitter）上高调宣传，称Grok 3是“地球上最聪明的人工智能”。他甚至在迪拜世界政府峰会上放话：“Grok 3的推理能力超越了我们所知道的任何已发布的模型，这是一个非常好的信号。”今天的发布会依然延续了马斯克的风格——伴随着熟悉的背景音乐，他又迟到了。但这并不妨碍现场的热烈气氛，四位核心成员坐在台上，向大家展示了Grok 3的强大功能。其中，C位的两位华人更是吸睛无数。

看完整场发布会后，只能感叹一句：OpenAI的日子恐怕要更难过了。前有DeepSeek的强势竞争，现在又来了一个直接“碾压”的Grok 3。甚至连那个遥遥无期的期货模型o3，也被Grok 3甩在了身后。而令人惊喜的是，今天X Premium用户已经可以抢先体验Grok 3了！接下来，我们就用一篇文章快速带大家了解一下Grok 3的核心能力。

Grok 3的亮点可以分为三个主要部分：Grok 3核心功能、Grok 3推理能力（Reasoning）以及智能代理（Agents）。

1. Grok 3核心功能

Grok对标OpenAI，马斯克的“速度哲学”再显威力

最近，Grok的发布再次引发了业界的广泛关注，而这一次，它的目标直指OpenAI。马斯克和他的团队在发布会上毫不掩饰地拿Grok和OpenAI的GPT系列进行对比，尤其是在迭代速度上。简单来说，马斯克的意思就是：Grok只用了两年多的时间，就达到了GPT花了五六年才实现的水平。

从Grok 0到Grok 3：飞速迭代的背后

回顾Grok的发展历程，可以说是“高歌猛进”。2023年，xAI成立后推出了首款33B参数的Grok 0模型，其性能甚至可以媲美70B参数的Llama 2。同年11月，团队又迅速发布了Grok 1。到了2024年，xAI的研发节奏更是加快，不仅推出了Grok 1.5和Grok 2，还发布了xAI的首个多模态模型Grok-1.5V。

2024年8月13日，Grok 2正式发布，而仅仅半年后，2025年2月，Grok 3就已经登场。这种迭代速度在AI领域堪称惊人。

马斯克的“十万卡集群”：快到让供应商傻眼

在这次发布会上，马斯克还忍不住“炫耀”了一下xAI背后的硬件基础——十万卡集群Colossus。这个集群的建设速度同样令人咋舌。

事情是这样的：一开始，马斯克曾向数据中心供应商咨询，要在一个地方有序运行10万个GPU需要多长时间。供应商的回答是18到24个月。然而，这种时间表显然无法满足马斯克的“速度哲学”。于是，他决定自己动手干。

最终，这个超级集群仅用了122天就建成了。第一阶段部署了10万块NVIDIA H100 GPU，并在此基础上训练了122天。随后，集群规模进一步扩大到20万块GPU，其中新增了5万块H100和5万块H200 GPU，追加训练时间为92天。整个项目由田纳西河流域管理局（TVA）提供超过100兆瓦的电力支持。

Grok 3：硬件与算法的双重突破

正是有了Colossus集群的强大算力支持，Grok 3得以快速问世。作为Grok系列的最新成果，Grok 3不仅延续了前几代的高效迭代，还在性能上实现了质的飞跃。无论是在语言理解、生成能力，还是多模态任务上，Grok 3都展现出了强大的实力。

总结

从Grok 0到Grok 3，xAI的研发速度和技术突破令人惊叹，而背后离不开马斯克对效率的极致追求。从硬件集群的快速搭建到模型的高效迭代，Grok的成功再次证明了技术与速度结合的重要性。在未来，这种“马斯克式速度”或许会成为AI行业的新标杆。

在这场持续了半个多小时的发布会上，虽然没有展示太多实际应用场景，但从性能数据来看，Grok 的表现确实让人眼前一亮。根据他们的内部测试数据，Grok 3 在数学、科学和代码这三个领域的跑分都稳居榜首。尤其是没有推理能力的基础版 Grok，在 Benchmarks 测试中的分数更是遥遥领先。

在 Chatbot Arena 的竞技场中，Grok 3 的表现更是令人惊叹，直接拿下了第一名，分数高得让人难以置信。而带有推理能力的 Grok 版本，也毫不掩饰它的野心，目标直指当前最强的推理模型。根据测试结果，它的分数远远超过了 o3 和 DeepSeek-R1，完全是硬碰硬地拉开差距。

值得一提的是，Grok 在解数学题上的能力尤为突出。马斯克在发布会上特别提到，他们为模型设计了更多时间去“思考”，以提升其推理和解题能力。在 Chatbot Arena 的排行榜上，Grok 3 不仅稳居第一，还成为目前唯一一个分数突破 1400 的模型，直接把刚刚崭露头角的 Gemini 2.0 甩在了身后，优势非常明显。

2. Grok 3 的推理能力

下一个要聊的是推理模型Grok 3，也就是所谓的“reasoning”模块。不过，目前还没有实际测试数据，所以我也不太确定它的架构到底是怎样的。它可能像DeepSeek v3和DeepSeek R1那样是两套独立模型，也可能像传言中的Claude那样是某种混合模型。但我个人倾向于认为它还是两套模型的设计。然后，刚一亮相时的UI设计就让人觉得眼熟，真的有点似曾相识。大家在群里都开玩笑吐槽：“DeepSeek，你是换了个名字回来吗？”

在性能测试上，Grok 3的推理能力主要体现在三个熟悉的领域：数学、科学和代码。与o3 mini和DeepSeek R1相比，Grok 3在这三方面都表现出了明显的优势。尤其是对比o3 mini，可以说是完全碾压。

5天前，Grok 3还完成了AIME2025的测试，并且拿到了最高分。此外，它还支持类似于o1 pro的功能，可以通过调整参数，让模型花费更多时间进行推理。这种设计允许Grok 3在复杂问题上“深思熟虑”，直到得出更准确的结论。比如展示的第一个编程案例——动态宇宙模型，Grok 3花了114秒进行推理。从结果来看，效果相当不错，感觉马斯克离“移民火星”的梦想又近了一步。

另一个展示是Grok 3生成的游戏代码——俄罗斯方块的演示。虽然视频有点长，但我们这里直接五倍速过一遍。这个案例本身的难度并不算高，不过具体性能如何还需要更多测试来验证。如果它的实际表现真的和跑分一致，那马斯克这次可真没吹牛，Grok 3可能真的就是目前地表最强的推理模型了。

3. Agent：深度搜索工具上线

老马最近又出手了，这次的目标依然是OpenAI。他们推出了一款名为“Agent”的工具，主打功能是“DeepSearch”，也就是深度搜索。不过，这款工具看起来像是OpenAI之前推出的“Deep Research”的一个模仿版本，但从实际效果来看，似乎还没达到对标OpenAI Deep Research的水平。与其说是“研究”，更像是一个偏重搜索功能的工具，甚至有点类似于Perplexity推出的产品。

他们还展示了一个demo（演示）。使用时，点击左侧的答案会出现一个进度条，模型的思考时间不算特别长。右侧则会显示当前模型的一些摘要信息，比如它正在浏览哪些网站，并且会通过交叉验证不同来源的数据来确保准确性。值得一提的是，这个工具支持同时提出多个问题并行运行，用户体验上还是有一定的亮点。

总结来说，这款工具虽然在功能上有些新意，但与OpenAI Deep Research相比，整体成品质量和深度还有一定差距。不过，作为一个搜索工具，它的表现还是值得一试的。

4. 写在最后

在直播的最后，进入了大家最期待的QA环节，解答了几个热门问题：

Q：Grok 3什么时候发布？
A：已经预先订阅的用户可以抢先体验，预计一周后会陆续开放给更多用户。建议大家多关注Grok的最新动态哦！

Q：新的官方网址是什么？
A：grok.com

Q：有语音功能吗？
A：有！目前确认支持语音转文字功能，但是否支持语音通话等其他功能，现场并没有详细说明，具体效果还得等正式上线后体验。

马斯克在发布会上表示，Grok 3的所有功能，包括推理模型、DeepResearch以及移动端App，都将会在一周后陆续上线。

看到这个场景，总让我有种错觉，仿佛是在看直播带货，差点以为马斯克会来一句“老铁们，记得订阅支持啊！”哈哈。不过，既然老马都这么说了，那就信他一次，等下周上线后好好体验一番吧！

另外，马斯克还透露，上一代模型Grok 2会在之后开源。这对开发者和研究者来说绝对是个好消息，坐等官宣！

总之，Grok 3的到来，意味着AI领域又迎来了一位“新王”，整个江湖的格局可能又要重新洗牌了。AI行业的变化速度，真的让人感慨：“AI一天，人间一年。”

接下来会发生什么？让我们拭目以待吧！