文章总结: 本文对比实测GLM-5.2、Kimi2.7Code与ClaudeOpus4.8三个AI模型在复杂Agent任务中的表现。测试通过开发单文件Excel数据分析工具发现,GLM-5.2与Kimi2.7Code实际表现超越理论跑分领先的Opus4.8,后者因指令遗漏严重垫底。关键发现表明模型对长提示词的指令服从度和抗代码惰性能力比理论性能更重要,建议在实际工程任务中优先考察模型的指令遵循能力。 综合评分: 85 文章分类: AI安全,技术标准,解决方案
最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!
原创
郭震AI 郭震AI
郭震AI
2026年6月17日 13:21 美国
在小说阅读器读本章
去阅读
你好,我是郭震!
最近GLM-5.2,Kimi 2.7 Code,两个新模型发布,
与当前最强模型Claude Opus 4.8,
对比实测下,感兴趣的可以看下。
1 新模型介绍
GLM5.2,在以下两个数据集,都仅次于 Opus 4.8:
FrontierSWE,这个数据集最有意思,
它主要看模型能不能在真实代码工程里完成非常难、开放式、长时间的技术任务,
很多任务需要跑 20 小时,****
所以它真实考察了模型长程任务处理能力,这也是我最喜欢的,因为开发软件就是需要这样的能力强。
Kimi 2.7 Code,也在最新发布,它同样把考察长程任务作为第一优先级,就是左一柱状图:
看到它同样接近Opus 4.8 xhigh模式
模型胜任长程任务、开发复杂项目,看来都是大模型迭代的方向。
接下来咱们就重点测试它们三个处理相对复杂任务能力,到底实际使用表现如何。
接下来直接开始测评
2 对比实测
测评思路:使用一个典型的中小型Agent任务,测评大家普遍关心的智能体能力。
然后选择Gemini-3.1-Pro为裁判,根据裁判的打分,给出客观的结果评估。
Agent任务,提示词如下:
开发一个单文件 HTML 网页,实现 Excel 数据分析与可视化工具。支持上传 .xlsx/.xls,使用 SheetJS 解析 Excel,读取多 Sheet,并展示可搜索、分页、横向滚动的数据表格。自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和,并生成中文数据分析报告。使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化,并支持用户选择 X/Y 字段和图表类型自定义生成。只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。
先发给GLM-5.2:
保存为html文件,并打开:
导入一个Excel文件,自动分页展示:
下面是数据统计预览:
生成的部分图表:
同样任务发给 Opus 4.8,打开html文件:
数据预览:
图表:
同样任务发给:Kimi 2.7 Code
但是Kimi官方,无最新这个模型:
我选择通过API调用它:
from openai import OpenAIimport osimport re
client = OpenAI( api_key=os.environ["MOONSHOT_API_KEY"], base_url="https://api.moonshot.ai/v1",)
prompt = """开发一个单文件 HTML 网页,实现 Excel 数据分析与可视化工具。
支持上传 .xlsx/.xls,使用 SheetJS 解析 Excel,读取多 Sheet,并展示可搜索、分页、横向滚动的数据表格。
自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和,并生成中文数据分析报告。
使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化,并支持用户选择 X/Y 字段和图表类型自定义生成。
只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。"""
completion = client.chat.completions.create( model="kimi-k2.7-code", temperature=1, max_tokens=30000, messages=[ { "role": "system", "content": "你是资深前端工程师。严格遵守用户要求:只输出完整 HTML 源码,不输出解释、Markdown 或代码围栏。", }, { "role": "user", "content": prompt, }, ],)
html = completion.choices[0].message.content.strip()
html = re.sub(r"^```html\s*", "", html)html = re.sub(r"^```\s*", "", html)html = re.sub(r"\s*```$", "", html)html = html.strip()
with open("kimi-excel-analysis-visualizer.html", "w", encoding="utf-8") as f: f.write(html)
print("已保存到 kimi-excel-analysis-visualizer.html")
双击打开html,显示如下:
加载Excel后,数据预览,字段类型,统计:
可视化图:
3 裁判打分
为了更加客观,交给裁判Gemini-3.1-Pro模型,评估如下图所示:
这是Gemini-3.1-Pro使用的三个打分维度:
最终打分:
Claude Opus 4.8,竟然得分只有45,位于最后一名,
让我相当意外,因为按照文章开头的排名,Opus 4.8应该是第一才对!
这是为什么?再让裁判点评下:
结论如下:
Opus 4.8 失败的根本原因在于出现了严重的指令遗漏,它完全忽略了搜索、分页、中文分析报告和自动图表推荐等核心要求,仅交付了一个功能残缺的基础半成品。
总结一下
在开发复杂单文件Excel数据分析应用的实测中,GLM-5.2 与 Kimi 2.7 Code 表现惊艳,双双逆袭超越了跑分公认霸主 Claude Opus 4.8
这一“离谱”反转的根源在于,本应最强的 Opus 4.8 触发了大模型的“代码惰性”,因注意力衰减严重遗漏了搜索、分页和分析报告等核心指令,最终垫底。
此次评测深刻证明,在处理真实的长程工程任务时,模型对复杂长提示词的“指令服从度”和“抗偷懒能力”,远比单纯的理论跑分更加关键。
全文1718字,29图,如果你觉得这篇文章对你有帮助,也欢迎给我一个三连击:点赞、转发和在看;如果可以,再帮我点一个⭐️。谢谢你看到这里,我们下篇再见。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:郭震AI 郭震AI 郭震AI《最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论