文章总结: 本文复测了DeepSeekV3.2在帝国时代2策略游戏中的表现,发现该版本在空间感知、资源调度及工具调用能力上均有显著提升,解决了此前建筑重叠和兵力逐渐崩坏的问题。战略决策方面达到简单AI水平,虽不及GLM和Claude,但已具备骚扰和攻城意识。核心优势在于极高的性价比,长时间测试成本仅为竞品的零头,整体进步巨大。 综合评分: 80 文章分类: AI安全
DeepSeek V3.2策略游戏测试 | 进步很大
原创
huoji
冲鸭安全
2025年12月2日 23:42 北京
众所周知昨天DS发布了V3.2.据说是极大的提高了智商,所以我准备拿上次的帝国时代2游戏竞技场来复测一次。让AI通过MCP工具操作游戏, 玩策略游戏,最终打败对手:
中秋特辑:中外AI大战!让AI们通过MCP玩帝国时代2
这些策略游戏是一个可以很好的考验语言模型的工具。
从资源调度,信息搜集,巨量token是否崩坏,MCP能力,战略决策能力上,能看出一个模型的综合能力.
上次只有两个模型是出彩的,一个是国产GLM ,另外一个是国外Claude SN 4.5,而DEEPSEEK属于是中等偏下那一桌
上次测评,DS的主要痛点是:
逐渐崩坏,一开始领先慢慢的变落后最后被反超
唯一一个主动投降的模型:
还要其他的问题,比如空间感知问题(一个农田,非要叠到其他农田上去,导致建造失败->反复建造->建造失败….)
而今天晚上发布的v3.2,这些痛点都解决了,首先是thinking过程中调用工具,终于让think模型可以跑tools了而不用额外的
不过这个东西缺点也很明显,在我的MCP里面,我也不知道为什么,他会无限在think状态调用工具….希望后续官方能出一个限制调用工具次数的东西,否则他的所有输出全部在think里面而不在正常的回复里面了.
但是这些都不是重点,这次新版本,实测几次下来,无论是空间感,资源调度能力,还是MCP调用能力,还是逐渐崩坏的问题 都已经解决了! 并且价格居然还是那么低,低到我不得不连夜发这一篇文章的地步.
空间感:
之前ds最显著的问题是,他一个建筑,非要放到另外一个建筑旁边,他对x y z的把握非常非常差差,导致他想新建建筑,但是这个建筑被其他建筑占位了,他又想调整,导致死循环,这一点在建造农田和伐木场的时候尤其明显。
而经过多次测试,这次版本中解决了这个问题,至少农田不卡壳了…
伐木场的摆放顺序也非常正确
他的农田摆放居然懂得围绕磨坊来摆放,这以前版本是不可能的
建造的时候已经学会正确的先观察有没有物体防止堆叠
资源调度能力
之前的一大痛点就是,他的村民调度能力实在是不行,经常出现十来个村民搁那空闲不干事。这次资源调度表现比之前好很多,经过多轮测试,他现在已经有意识的让村民保持干活状态了:
闲置率基本能保持在1-5个左右:
会主动让村民干活
而升级时代的速度,和资源的分数上,也是首次出现超过AI的水平
战略决策能力
GLM/Claude知道在封建时代派兵骚扰,城堡时代攻城武器攻击,并且建造箭塔进行防御,之前DS只会防御不会进攻,进攻也只是搞笑的几个骑士,也不会造攻城武器,而这次有了很大进步:
他的进攻计划,跟其他不同,他进攻之前一定要满科技:
然后准备攻城武器:
跟上次不同,他现在会袭扰农民战术:
派出的部队:
不过有点搞笑,派出的部队走得太慢打不到敌人,背后跟了一堆野生动物
然后这些部队被野生动物吃掉了
标记地点,造攻城武器:
总的来说,有进步,但是没GLM/Claude那么聪明,这两个会直城,并且派兵骚扰,建造攻城武器联合进攻,造弓箭手。而DS更倾向于两个兵种,长矛兵和骑士。。。不知道为什么
价格
价格真的是这个模型最大的优势,在一场接近2小时的帝国时代2的MCP高强度调用后,我居然实际只花费了27块
而同样的模型GLM花费200左右,claude花费了1200人民币 ,还是用了1rmb=1美刀的中转站。要不然我就直接破产了。
所以别说好不好用,他价格就这样,这种价格,即便是代码写出bug了,也是我的问题
总结
从最终效果来看,进步非常之大,相当于从完全不能用的人机,变成了能跟帝国时代2里面的简单电脑切磋的水平…..虽然策略类游戏跟GLM和CLAUDE还有一段距离.但是考虑到价格因素,让我们继续拭目以待…..(话说回来,也就GLM和CLAUDE能打策略类游戏,GPT5也打不了)
当前DSV3.2和AI的比分,两个相似,相当 于是简单人机吧:
隔壁GLM的,碾压水平,起码相当于困难电脑:
现在这么便宜的东西都已经效果这么好了,已经迫不及待的等下一个大版本了
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:冲鸭安全 huoji《DeepSeek V3.2策略游戏测试 | 进步很大》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。











评论