Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克装起来了

Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克装起来了

文章图片

Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克装起来了

文章图片

Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克装起来了

文章图片

Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克装起来了

文章图片

Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克装起来了

文章图片

Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克装起来了

机器之心报道
机器之心编辑部
明天 , Grok 对阵 OpenAI 的 o3 。
谁也没想到 , 谷歌攒的 Kaggle AI Chess 比赛(即大模型国际象棋对抗赛) , 在半决赛中 , Grok 4 击败 Gemini 2.5 Pro , 进入总决赛!

在昨天的比赛中 , Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2 , 晋级半决赛 。
今天的战况依旧让人猜不着走向 , Gemini 2.5 Pro 败了 。
马斯克昨天点评比赛结果的话术 , 今天依旧有用:「国际象棋太过简单 , 对 Grok 来说 , 只是副作用 , 我们没花多少力气放在象棋优化上 。 」
今天 Grok 4 闯入总决赛 , 不知马斯克是不是更看不上这场比赛了 。

【Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克装起来了】我们再回到这场半决赛 。
战况是 Grok 4 和 o3 分别战胜了 Gemini 2.5 Pro 和 o4-mini , 成功晋级决赛 。 虽然 o3 的胜利在大家意料之中 , 但 Grok 与 Gemini 之间的激烈对决却让所有人大跌眼镜 —— 双方在常规赛打成 2:2 平 , 最终通过加赛才分出胜负 。
明天是比赛的最后一天 。 届时 , 将迎来本次 AI 象棋巅峰对决的冠军之战 , X 对战 OpenAI 。

对战表
o4-mini 对阵 o3 :0-4
在初赛中 , o4-mini 和 o3 均以 4-0 的全胜战绩淘汰了 DeepSeek-R1 以及 Kimi k2 , 同样出身 OpenAI 的两大模型在半决赛中正面对决 。
比赛的结果基本在预料之中 , o3 以 4 比 0 横扫对手 o4-mini , 顺利晋级决赛 。
在 OpenAI 的推理模型体系中 , o3 作为一款强大的通用推理模型 , 在多个基准测试中均取得了优异成绩 , 展现出卓越的稳定性与复杂推理能力 。 相比之下 , o4-mini 是一款轻量级模型 , 旨在在速度、成本与性能之间实现更好的平衡 。
因此 o4-mini 输给 o3 的确符合预期 , 是因为象棋这种任务对模型的稳定推理能力和容错性要求很高 , 这恰恰是轻量化模型最容易妥协的地方 。
谷歌举办这场比赛的主要目的是为了分析 AI 模型是如何思考的 。 因此 , 整场对局中的第二盘可能对谷歌来说意义不大 , 但对普通棋手而言却相当值得关注 。
在这一盘中 , o3 仅用 12 步就完成了致胜攻击 , 手法颇有 Puzzle Rush 风格 。 虽然不是一个真正意义上的闷杀(smothered mate) , 但已经非常接近了 , 依然令人惊叹 。

o3 的致胜攻击
尽管 AI 在国际象棋上的表现一直不尽如人意 , 但 o3 在这盘棋中却拿下了完美的 100 分准确率评分 。

整场比赛的剩余部分 , 大体上延续了本次锦标赛至今的老套路:某个弱 AI(这次是 o4-mini)在某个时间点开始失去局势控制 , 连续出现致命失误 , 最终输掉对局 。
不过有一盘棋例外 —— 它可能是本届比赛中看起来最自然流畅的一局 。 这是本场对决的第三盘 , 相较其他对局 , 这一盘展现出了真正的高质量国际象棋 。
其中 , o3 下出的两个中间招法(in-between moves)—— 第 12 回合的 12…Bb4+ 和第 19 回合的 19…e3+ —— 尤其令人印象深刻 。

o3 令人印象深刻的走棋
Gemini 2.5 Pro 对阵 Grok 4:2.5-2.5
Grok 在国际象棋领域的统治力依然强势 , 但这次的胜利之路并不平坦 , 甚至可以说是比赛到目前为止最焦灼的一轮 。
准确的说 , 马斯克轻描淡写「国际象棋是副作用」的 Grok 差一点就翻了车 , 最终以和棋收场勉强取胜 。
虽然最终比赛结果是 Gemini 2.5 Pro 以 2-3 不敌 Grok 4 , 但在官方博客中 , 比分仍被标注为 2.5 - 2.5 平局 。
比赛一直打到特殊的末日加赛(armageddon tiebreak , 是指国际象棋比赛中 , 在常规赛或加赛打平后 , 用于决出胜负的特殊加赛方式)才决出胜负 , 最终, Grok 执黑在一盘 55 步的和棋中晋级 —— 尽管当时 Grok 明显处于胜势 。
但我们从头说起 。 今天 Grok 的表现异常混乱, 频频送子得分 。 事实上 , 本场首盘由 Gemini 先拔头筹 , Grok 相继丢掉了一匹马、一辆车 , 最后被将死 , 痛失一局 。
第二盘棋中 , Gemini 和 Grok 在第 11 步之前都严格遵循了开局定式 。 正如我们在之前的比赛中观察到的那样 , AI 一旦脱离开局理论、进入自主思考阶段 , 就很容易开始出错 。
而 Grok 和 Gemini 至今为止都表现出了比其他模型更长时间遵循理论的能力 , 这也可能是本场对决如此胶着的原因之一 。
不过 , 也如预期那样 , 一旦 Grok 脱离定式 , 失误就接踵而至 。 Grok 再次丢掉一匹马 , 而 Gemini 却出现幻觉 , 主动送后 , 随后又全盘崩塌 , 最终将第二盘拱手相让 。

Grok 脱离定式后失误

Gemini 产生幻觉
接下来的两盘棋又是决定性的比赛 , 延续了本届锦标赛的熟悉剧本:AI 们先走几步开局定式 , 然后靠着机械式的创造力迅速开始出错 。
Grok 赢下了第三盘 , 暂时在比分上领先 , 但随后 Gemini 反击成功 , 在第四盘将比分扳平 。
比赛进入末日加赛 , Grok 执黑出战 , 拥有和棋即胜的优势(尽管本场比赛并没有时间限制) 。
这场加赛堪称精彩纷呈 。 Gemini 在大部分时间里局势占优 , 甚至一度错过了一个「一招将死」的机会 —— 这个将死模式与 o3 在第二盘战胜 o4-mini 时用的那个几乎一模一样 。
正当观众紧张关注局势时 , 国际象棋特级大师 Peter Heine Nielsen(现任 Magnus Carlsen 的教练) 也借机向 Grok 提供了辅导建议:

最终 , Gemini 在胜势的车兵残局中失误白送皇后 , 将胜利拱手让给 Grok 。
然而 , 剧情并未就此告终:由于 Grok 在多一车对单兵的必胜局面下未能兑现优势 , 双方三次重复局面 , 对局戏剧性地以和棋收场 。 尽管结局出人意料 , 这场比赛仍被评选为今日最佳对局 。

Gemini 2.5 Pro 对阵 Grok 4:和棋收场
接下来 , X 的 Grok 和 OpenAI 的 o3 将在明天的决赛中相遇 。 谷歌的 Gemini 2.5 Pro 和 o4-mini 将争夺季军和第四名 。
在昨天的投票中 , 大家普遍看好 Gemini 2.5 Pro 和 Grok 4 成为最终赢家 。

那么现在 , 你还会把票投给 Grok 4 吗?

    推荐阅读