DeepSeekV3.2策略游戏测试|进步很大

admin 2025-12-29 00:54:29 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文复测了DeepSeekV3.2在帝国时代2策略游戏中的表现,发现该版本在空间感知、资源调度及工具调用能力上均有显著提升,解决了此前建筑重叠和兵力逐渐崩坏的问题。战略决策方面达到简单AI水平,虽不及GLM和Claude,但已具备骚扰和攻城意识。核心优势在于极高的性价比,长时间测试成本仅为竞品的零头,整体进步巨大。 综合评分: 80 文章分类: AI安全


cover_image

DeepSeek V3.2策略游戏测试 | 进步很大

原创

huoji

冲鸭安全

2025年12月2日 23:42 北京

众所周知昨天DS发布了V3.2.据说是极大的提高了智商,所以我准备拿上次的帝国时代2游戏竞技场来复测一次。让AI通过MCP工具操作游戏, 玩策略游戏,最终打败对手:

中秋特辑:中外AI大战!让AI们通过MCP玩帝国时代2

这些策略游戏是一个可以很好的考验语言模型的工具。

从资源调度,信息搜集,巨量token是否崩坏,MCP能力,战略决策能力上,能看出一个模型的综合能力.

上次只有两个模型是出彩的,一个是国产GLM ,另外一个是国外Claude SN 4.5,而DEEPSEEK属于是中等偏下那一桌

上次测评,DS的主要痛点是:

逐渐崩坏,一开始领先慢慢的变落后最后被反超

唯一一个主动投降的模型:

还要其他的问题,比如空间感知问题(一个农田,非要叠到其他农田上去,导致建造失败->反复建造->建造失败….)

而今天晚上发布的v3.2,这些痛点都解决了,首先是thinking过程中调用工具,终于让think模型可以跑tools了而不用额外的

不过这个东西缺点也很明显,在我的MCP里面,我也不知道为什么,他会无限在think状态调用工具….希望后续官方能出一个限制调用工具次数的东西,否则他的所有输出全部在think里面而不在正常的回复里面了.

但是这些都不是重点,这次新版本,实测几次下来,无论是空间感,资源调度能力,还是MCP调用能力,还是逐渐崩坏的问题 都已经解决了! 并且价格居然还是那么低,低到我不得不连夜发这一篇文章的地步.

空间感:

之前ds最显著的问题是,他一个建筑,非要放到另外一个建筑旁边,他对x y z的把握非常非常差差,导致他想新建建筑,但是这个建筑被其他建筑占位了,他又想调整,导致死循环,这一点在建造农田和伐木场的时候尤其明显。

而经过多次测试,这次版本中解决了这个问题,至少农田不卡壳了…

伐木场的摆放顺序也非常正确

他的农田摆放居然懂得围绕磨坊来摆放,这以前版本是不可能的

建造的时候已经学会正确的先观察有没有物体防止堆叠

资源调度能力

之前的一大痛点就是,他的村民调度能力实在是不行,经常出现十来个村民搁那空闲不干事。这次资源调度表现比之前好很多,经过多轮测试,他现在已经有意识的让村民保持干活状态了:

闲置率基本能保持在1-5个左右:

会主动让村民干活

而升级时代的速度,和资源的分数上,也是首次出现超过AI的水平

战略决策能力

GLM/Claude知道在封建时代派兵骚扰,城堡时代攻城武器攻击,并且建造箭塔进行防御,之前DS只会防御不会进攻,进攻也只是搞笑的几个骑士,也不会造攻城武器,而这次有了很大进步:

他的进攻计划,跟其他不同,他进攻之前一定要满科技:

然后准备攻城武器:

跟上次不同,他现在会袭扰农民战术:

派出的部队:

不过有点搞笑,派出的部队走得太慢打不到敌人,背后跟了一堆野生动物

然后这些部队被野生动物吃掉了

标记地点,造攻城武器:

总的来说,有进步,但是没GLM/Claude那么聪明,这两个会直城,并且派兵骚扰,建造攻城武器联合进攻,造弓箭手。而DS更倾向于两个兵种,长矛兵和骑士。。。不知道为什么

价格

价格真的是这个模型最大的优势,在一场接近2小时的帝国时代2的MCP高强度调用后,我居然实际只花费了27块

而同样的模型GLM花费200左右,claude花费了1200人民币 ,还是用了1rmb=1美刀的中转站。要不然我就直接破产了。

所以别说好不好用,他价格就这样,这种价格,即便是代码写出bug了,也是我的问题

总结

从最终效果来看,进步非常之大,相当于从完全不能用的人机,变成了能跟帝国时代2里面的简单电脑切磋的水平…..虽然策略类游戏跟GLM和CLAUDE还有一段距离.但是考虑到价格因素,让我们继续拭目以待…..(话说回来,也就GLM和CLAUDE能打策略类游戏,GPT5也打不了)

当前DSV3.2和AI的比分,两个相似,相当 于是简单人机吧:

隔壁GLM的,碾压水平,起码相当于困难电脑:

现在这么便宜的东西都已经效果这么好了,已经迫不及待的等下一个大版本了


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:冲鸭安全 huoji《DeepSeek V3.2策略游戏测试 | 进步很大》

内网资产测绘的艺术 网络安全文章

内网资产测绘的艺术

文章总结: 文章探讨红队在内网进行隐秘资产测绘的技术,指出主动扫描易触发EDR检测。提出可结合降低频率、随机延时及多协议组合优化扫描器。重点推荐被动扫描方法,即
评论:0   参与:  0