马斯克用20万张GPU“砸出”地表最强AI？每经记者实测Grok 3：速度称王，数学亮眼，但逻辑思考不敌DeepSeek R1

近日，人工智能初创公司xAI发布了更新版Grok 3大模型，埃隆·马斯克称之为“地球上最聪明的人工智能”。

根据官方公开的测试结果，Grok 3在包括AIME（评估模型在一系列数学问题上的表现）和 GPQA（评估模型在博士级别的物理学、生物学和化学问题上的表现）等基准测试中，远超GPT-4o、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 等大模型。

在大模型竞技场 Chatbot Arena（LMSYS）测试中，xAI工程师表示，早期版本的Grok 3获得了第一的成绩，达到了140分，超越了Gemini 2.0 Flash Thinking实验版本、ChatGPT-4o最新版本，以及最近大火的DeepSeek R1等等。

然而，有些用户在体验后却对Grok 3的能力产生了质疑，他们认为Grok 3的能力并没有马斯克宣称的那么强大。OpenAI应用研究主管Boris Power则对Grok团队在模型评估中的行为表示失望，指出其存在作弊和欺骗的动机。Boris Power提到，o3-mini在各项评估中均优于Grok 3。

真相到底如何，马斯克吹牛了吗？《每日经济新闻》记者测试发现，Grok 3确实是世界顶级模型的水平，但并没有和其他模型拉开太大差距。唯一拉开差距的是它极快的响应速度。

9.9和9.11谁大？Grok 3轻松拿下

Grok 3是由马斯克旗下的人工智能公司xAI发布的最新一代AI模型。马斯克在发布会上称其为“地球上最聪明的人工智能”，并表示Grok 3的能力比前代产品Grok 2高出一个数量级，具备更强的推理、计算和适应能力。

在新闻发布会上，马斯克宣称Grok 3在数学、科学和编程等基准测试中表现出色，超越了谷歌的Gemini、DeepSeek的V3模型、Anthropic的Claude和OpenAI的GPT-4o等竞争对手。

Grok 3在发布后仅48小时内，xAI宣布将其免费开放给所有用户，直至服务器负载达到极限。目前用户每天可以体验十条“思考模式”Grok 3，及不限量免费使用普通Grok 3。

《每日经济新闻》记者在Grok 3发布后也亲自进行了测试。

首先，从最经典的基础问题开始：9.9和9.11谁大？

Grok 3

这个问题毫无难度，Grok 3轻松拿下。

逻辑思考和文字理解能力：Grok 3不如DeepSeek-R1

马斯克在发布会上自豪的一点是，Grok 3“思考模型”下的逻辑推理能力，他声称，Grok 3 (Think) 学会了改进其解决问题的策略，通过回溯纠正错误，简化步骤，并利用其在预训练期间获得的知识。就像人类在解决复杂问题时一样，Grok 3 (Think) 可以花费几秒钟到几分钟的时间进行推理，通常会考虑多种方法，验证自己的解决方案，并评估如何精确满足问题的要求。

每经记者用弱智吧的问题来检验一下它的逻辑是不是真的过关。

（编者注：“弱智吧”是百度贴吧的一个子论坛。在这个论坛中，用户经常发布包含双关语、多义词、因果倒置和谐音词等具有挑战性的内容，很多内容设计有逻辑陷阱，即使对人类来说也颇具挑战。）

第一个问题：用水来兑水，得到的是浓水还是稀水？