跳转到内容

DeepSeek之外还有高手?马斯克正式发布Grok 3

中午12点,经过几天的预热,Grok 3的发布会终于揭开了神秘面纱。前两天,马斯克就在X(原Twitter)上高调宣传,称Grok 3是“地球上最聪明的人工智能”。他甚至在迪拜世界政府峰会上放话:“Grok 3的推理能力超越了我们所知道的任何已发布的模型,这是一个非常好的信号。”今天的发布会依然延续了马斯克的风格——伴随着熟悉的背景音乐,他又迟到了。但这并不妨碍现场的热烈气氛,四位核心成员坐在台上,向大家展示了Grok 3的强大功能。其中,C位的两位华人更是吸睛无数。

看完整场发布会后,只能感叹一句:OpenAI的日子恐怕要更难过了。前有DeepSeek的强势竞争,现在又来了一个直接“碾压”的Grok 3。甚至连那个遥遥无期的期货模型o3,也被Grok 3甩在了身后。而令人惊喜的是,今天X Premium用户已经可以抢先体验Grok 3了!接下来,我们就用一篇文章快速带大家了解一下Grok 3的核心能力。

Grok 3的亮点可以分为三个主要部分:Grok 3核心功能、Grok 3推理能力(Reasoning)以及智能代理(Agents)。

1. Grok 3核心功能

Grok对标OpenAI,马斯克的“速度哲学”再显威力

最近,Grok的发布再次引发了业界的广泛关注,而这一次,它的目标直指OpenAI。马斯克和他的团队在发布会上毫不掩饰地拿Grok和OpenAI的GPT系列进行对比,尤其是在迭代速度上。简单来说,马斯克的意思就是:Grok只用了两年多的时间,就达到了GPT花了五六年才实现的水平。

从Grok 0到Grok 3:飞速迭代的背后

回顾Grok的发展历程,可以说是“高歌猛进”。2023年,xAI成立后推出了首款33B参数的Grok 0模型,其性能甚至可以媲美70B参数的Llama 2。同年11月,团队又迅速发布了Grok 1。到了2024年,xAI的研发节奏更是加快,不仅推出了Grok 1.5和Grok 2,还发布了xAI的首个多模态模型Grok-1.5V。

2024年8月13日,Grok 2正式发布,而仅仅半年后,2025年2月,Grok 3就已经登场。这种迭代速度在AI领域堪称惊人。

马斯克的“十万卡集群”:快到让供应商傻眼

在这次发布会上,马斯克还忍不住“炫耀”了一下xAI背后的硬件基础——十万卡集群Colossus。这个集群的建设速度同样令人咋舌。

事情是这样的:一开始,马斯克曾向数据中心供应商咨询,要在一个地方有序运行10万个GPU需要多长时间。供应商的回答是18到24个月。然而,这种时间表显然无法满足马斯克的“速度哲学”。于是,他决定自己动手干。

最终,这个超级集群仅用了122天就建成了。第一阶段部署了10万块NVIDIA H100 GPU,并在此基础上训练了122天。随后,集群规模进一步扩大到20万块GPU,其中新增了5万块H100和5万块H200 GPU,追加训练时间为92天。整个项目由田纳西河流域管理局(TVA)提供超过100兆瓦的电力支持。

Grok 3:硬件与算法的双重突破

正是有了Colossus集群的强大算力支持,Grok 3得以快速问世。作为Grok系列的最新成果,Grok 3不仅延续了前几代的高效迭代,还在性能上实现了质的飞跃。无论是在语言理解、生成能力,还是多模态任务上,Grok 3都展现出了强大的实力。

总结

从Grok 0到Grok 3,xAI的研发速度和技术突破令人惊叹,而背后离不开马斯克对效率的极致追求。从硬件集群的快速搭建到模型的高效迭代,Grok的成功再次证明了技术与速度结合的重要性。在未来,这种“马斯克式速度”或许会成为AI行业的新标杆。

在这场持续了半个多小时的发布会上,虽然没有展示太多实际应用场景,但从性能数据来看,Grok 的表现确实让人眼前一亮。根据他们的内部测试数据,Grok 3 在数学、科学和代码这三个领域的跑分都稳居榜首。尤其是没有推理能力的基础版 Grok,在 Benchmarks 测试中的分数更是遥遥领先。

在 Chatbot Arena 的竞技场中,Grok 3 的表现更是令人惊叹,直接拿下了第一名,分数高得让人难以置信。而带有推理能力的 Grok 版本,也毫不掩饰它的野心,目标直指当前最强的推理模型。根据测试结果,它的分数远远超过了 o3 和 DeepSeek-R1,完全是硬碰硬地拉开差距。

值得一提的是,Grok 在解数学题上的能力尤为突出。马斯克在发布会上特别提到,他们为模型设计了更多时间去“思考”,以提升其推理和解题能力。 在 Chatbot Arena 的排行榜上,Grok 3 不仅稳居第一,还成为目前唯一一个分数突破 1400 的模型,直接把刚刚崭露头角的 Gemini 2.0 甩在了身后,优势非常明显。

2. Grok 3 的推理能力

下一个要聊的是推理模型Grok 3,也就是所谓的“reasoning”模块。不过,目前还没有实际测试数据,所以我也不太确定它的架构到底是怎样的。它可能像DeepSeek v3和DeepSeek R1那样是两套独立模型,也可能像传言中的Claude那样是某种混合模型。但我个人倾向于认为它还是两套模型的设计。然后,刚一亮相时的UI设计就让人觉得眼熟,真的有点似曾相识。大家在群里都开玩笑吐槽:“DeepSeek,你是换了个名字回来吗?”

在性能测试上,Grok 3的推理能力主要体现在三个熟悉的领域:数学、科学和代码。与o3 mini和DeepSeek R1相比,Grok 3在这三方面都表现出了明显的优势。尤其是对比o3 mini,可以说是完全碾压。

5天前,Grok 3还完成了AIME2025的测试,并且拿到了最高分。此外,它还支持类似于o1 pro的功能,可以通过调整参数,让模型花费更多时间进行推理。这种设计允许Grok 3在复杂问题上“深思熟虑”,直到得出更准确的结论。比如展示的第一个编程案例——动态宇宙模型,Grok 3花了114秒进行推理。从结果来看,效果相当不错,感觉马斯克离“移民火星”的梦想又近了一步。

另一个展示是Grok 3生成的游戏代码——俄罗斯方块的演示。虽然视频有点长,但我们这里直接五倍速过一遍。这个案例本身的难度并不算高,不过具体性能如何还需要更多测试来验证。如果它的实际表现真的和跑分一致,那马斯克这次可真没吹牛,Grok 3可能真的就是目前地表最强的推理模型了。

3. Agent:深度搜索工具上线

老马最近又出手了,这次的目标依然是OpenAI。他们推出了一款名为“Agent”的工具,主打功能是“DeepSearch”,也就是深度搜索。 不过,这款工具看起来像是OpenAI之前推出的“Deep Research”的一个模仿版本,但从实际效果来看,似乎还没达到对标OpenAI Deep Research的水平。与其说是“研究”,更像是一个偏重搜索功能的工具,甚至有点类似于Perplexity推出的产品。

他们还展示了一个demo(演示)。使用时,点击左侧的答案会出现一个进度条,模型的思考时间不算特别长。右侧则会显示当前模型的一些摘要信息,比如它正在浏览哪些网站,并且会通过交叉验证不同来源的数据来确保准确性。值得一提的是,这个工具支持同时提出多个问题并行运行,用户体验上还是有一定的亮点。

总结来说,这款工具虽然在功能上有些新意,但与OpenAI Deep Research相比,整体成品质量和深度还有一定差距。不过,作为一个搜索工具,它的表现还是值得一试的。

4. 写在最后

在直播的最后,进入了大家最期待的QA环节,解答了几个热门问题:

Q:Grok 3什么时候发布?
A:已经预先订阅的用户可以抢先体验,预计一周后会陆续开放给更多用户。建议大家多关注Grok的最新动态哦!

Q:新的官方网址是什么?
A:grok.com

Q:有语音功能吗?
A:有!目前确认支持语音转文字功能,但是否支持语音通话等其他功能,现场并没有详细说明,具体效果还得等正式上线后体验。

马斯克在发布会上表示,Grok 3的所有功能,包括推理模型、DeepResearch以及移动端App,都将会在一周后陆续上线。

看到这个场景,总让我有种错觉,仿佛是在看直播带货,差点以为马斯克会来一句“老铁们,记得订阅支持啊!”哈哈。不过,既然老马都这么说了,那就信他一次,等下周上线后好好体验一番吧!

另外,马斯克还透露,上一代模型Grok 2会在之后开源。这对开发者和研究者来说绝对是个好消息,坐等官宣!

总之,Grok 3的到来,意味着AI领域又迎来了一位“新王”,整个江湖的格局可能又要重新洗牌了。AI行业的变化速度,真的让人感慨:“AI一天,人间一年。”

接下来会发生什么?让我们拭目以待吧!