文章总结: 本文报道了MonkeyCode平台举办的13个AI模型五子棋比赛结果,通过780局对战评估模型性能。当前GPT-5.5以1444分断层领先,表现稳定无违规;GPT-5.3-codex垫底仅202分,显示专业模型在通用场景的局限性。比赛揭示了模型在指令遵循、决策稳定性方面的差异,并为用户提供选型建议:日常使用Qwen3.5-plus,长上下文选Kimi-K2.6,关键任务用GPT-5.5。 综合评分: 82 文章分类: AI安全,安全工具,技术标准,解决方案,安全运营
13 个模型大 PK,780局厮杀!到底谁最牛逼?
爱唠叨的Nil
2026年5月12日 16:54 江苏
在小说阅读器读本章
去阅读
长亭百智云出品,在线编程工具🛠️。
多模型支持,更新几版之后,产出比之前的强大好多。
现在出了个五子棋博弈,有兴趣的可以去围观一下
MonkeyCode 里内置的大模型越来越多,我们发现一个很现实的问题:模型的名字一个比一个能打,用户打开列表以后经常陷入沉思:
这个强吗?那个适合写代码吗?我今天到底该选谁?
所以我们决定整点直观的。
光看参数、榜单、宣传页都太抽象。模型厉害不厉害,拉出来比一比。
于是就有了这场AI 五子棋竞标赛。
为什么是五子棋?
因为它规则简单,大家都能看懂:黑白轮流下,谁先连成五个谁赢。没有复杂术语,没有隐藏规则,输了也没法说“我这是战略性试探”。
同时五子棋又刚好适合考模型能力:它需要看局势、算威胁、做取舍,还得在回合制里一步一步推理。对 AI 来说,这比“请你夸夸我”要真实多了。
01
01
参赛模型
这次比赛一共有13 个模型参赛:
gpt-5.5:当前榜首热门选手
gpt-5.4:稳定强力通用模型
gpt-5.4-mini:轻量版速度型选手
gpt-5.3-codex:代码场景专用选手
qwen3.5-plus:通义高性能旗舰模型
qwen3.6-plus:通义新一代增强模型
glm-5.1:智谱当前最强模型
glm-4.7:智谱上一代主力模型
kimi-k2.6:长上下文推理选手
minimax-m2.7:MiniMax 主力模型
claude-sonnet-4-6:Claude 均衡型选手
claude-opus-4-6:Claude 高阶推理模型
claude-opus-4-7:Claude Opus 新版本
02
02
比赛规则
比赛方式很朴素:每两个模型都要互相打一遍。
比如 A vs B 时,A 执黑,B 执白;到了 B vs A,B 执黑,A 执白。
每组固定方向打5 局。为什么要打 5 局?因为大模型的决策带有随机性。
同一个局面,它这次可能杀得很果断,下次可能突然开始“深思熟虑”,然后把自己想没了。
打一局容易变成“抽卡”。打 5 局可以把偶然性摊薄一点,看的是模型整体稳定性,以及它在多轮对抗里的真实表现。
这次总对局数是:13 × 12 × 5 = 780 局
没有人类选手,没有人工干预,全程 AI 自己下。
更狠的是,整个比赛平台也是用 MonkeyCode 自动开发的。属于 AI 写平台,AI 来比赛,人类在旁边端着茶看热闹。
计分规则大致是:
-
黑棋赢:+15 分
-
白棋赢:+20 分
-
平局:双方 +10 分
-
输棋也有一点安慰分,能撑得越久分越多
-
输出格式乱了会扣分
-
下到已经有子的地方也会扣分
这不只是看谁会赢,还看谁稳定、谁靠谱、谁别在关键时候突然开始写小作文。
03
03
当前战况
目前比赛还在进行中。
从当前进度图来看:
-
总对局:780 局
-
已完成:550 局
-
完成进度:约70.5%
当前第一名是gpt-5.5:
1444 分 80 胜 / 0 平 / 14 负
gpt-5.5现在是断层领先。它不光赢得多,而且响应很快,整体表现也很稳。更关键的是,到目前为止它没有出现过违规落子这类低级失误。
目前垫底的是gpt-5.3-codex:
202 分 8 胜 / 0 平 / 99 负
gpt-5.3-codex是 openai 专门为 codex 优化过的模型,保留了 gpt 在编程领域的优势,牺牲了其他领域的能力,这个成绩看起来有点像:本来是来写代码的,结果被拉去参加体育考试。
04
04
当前能看出什么
目前看下来,模型之间的差距还是挺明显的。
众所周知,Claude 一直是很强的模型,尤其在 Coding 场景里经常表现得很优雅,像一个坐姿端正、变量命名讲究的资深工程师。但从这次五子棋结果看,它的优势可能更集中在代码领域;到了这种通用博弈场景里,整体压制力没有 GPT 系列那么明显。
更尴尬的是,Claude 在指令遵循上也出现了一些小毛病。比赛要求模型只输出严格 JSON,但它有时会先来一段“让我分析一下棋盘”,分析得挺认真,格式也确实不合格。还有一些对局里出现了违规落子,属于想得很多,下得有点歪。它不是不会思考,而是偶尔太爱展示思考过程,像考试要求只写答案,它偏要把草稿纸也交上来。
几个国产模型整体表现挺有看头。
qwen系列的排名也不错,属于稳稳咬住第一梯队尾巴的选手。
glm-5.1 的表现比 glm-4.7 明显更好,智谱新一代模型的提升在棋盘上看得很直观。
kimi-k2.6 和 minimax-m2.7 也有不少胜场,属于有爆发、有亮点,但稳定性还需要继续观察的类型。
至于后排选手,目前压力有点大。尤其是 gpt-5.3-codex ,负场非常多。它可能更适合回去写代码,不太适合在棋盘上和这些模型硬碰硬。
05
05
MonkeyCode 会员模型怎么选
这次比赛还有一个很实用的参考价值:MonkeyCode 会员里内置的三个常用档位,刚好都在参赛名单里。
- 基础模型:qwen3.5-plus
- 专业模型:kimi-k2.6
- 旗舰模型:gpt-5.5
从目前战况看,qwen3.5-plus 作为基础模型表现非常能打,当前排在第三,已经不是“够用”的水平,而是相当有竞争力。日常写代码、问问题、处理常规开发任务,基础模型已经能覆盖很大一部分场景。
kimi-k2.6 作为专业模型,特点更像是长上下文和复杂材料处理选手。遇到长文档、长代码、需要消化大量上下文的任务,它依然很适合上场。
gpt-5.5作为旗舰模型,这次基本把“旗舰”两个字写在棋盘上了。它当前断层领先,响应快、胜率高、稳定性好,也没有出现违规落子。遇到高难度重构、复杂问题定位、关键代码生成这类任务,直接上旗舰模型会更省心。
一句话:平时用 qwen3.5-plus 很能打,长上下文用 kimi-k2.6 更顺手,关键任务上 gpt-5.5 最稳。
06
06
欢迎围观
比赛还没结束,后面还有不少对局,排名也可能继续变化。
你可以直接来围观实时战况:
https://8000-de2a5f209a44b3a2.monkeycode-ai.online/
代码也已经开源:
https://github.com/safe1ine/gomoku-ai
这场比赛没有人工操盘,没有剧本,没有“友谊第一”。13 个模型自己下,自己赢,自己翻车。
最终谁最强,棋盘说了算。
体验MonkeyCode地址 :
https://monkeycode-ai.com/?ic=019da99b-d21b-7b3f-9c8e-6213d8eba998
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:爱唠叨的Nil 《13 个模型大 PK,780局厮杀!到底谁最牛逼?》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论