国产大模型ClaudeCode编程能力测试!

admin 2025-12-25 02:42:30 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 文章实测国产大模型在ClaudeCode下完成同一HTML布局调整任务:DeepSeek5分钟花费0.25元成功且侵入低;MiniMax-M22分钟通过新增JS函数实现,解耦更佳;GLM虽快但破坏原样式两次均失败;Qwen因默认配置无法调用直接出局。结论低频选DeepSeek,高频选MiniMax开发者包月。 综合评分: 82 文章分类: AI安全,安全工具,实战经验,WEB安全


cover_image

国产大模型ClaudeCode编程能力测试!

漏洞推送

2025年12月24日 14:03 浙江

测试环境

claude code版本: v2.0.37,为规避历史记录影响,每次执行完以后删除掉.claude目录,重新创建。为保证结果不受其他因素干扰,均只设置最基本的环境变量

提示词: @index.hmtl 将同一家厂商的模型,放到同一行中

测试时间: 2025/12/24

原始index.html文件效果

需要源码自己复现测试的,文件来源是 https://llm.minprices.com/

文本长度17k,在各个模型上下文的舒适区:

考察点:

•能否实现需求•侵入性,如果原本布局被修改视为侵入性过强

DeepSeek

计费模式: API按量付费

进入了先规划后修改的模式

整体用时5分钟左右,修改完成。

页面效果符合需求

花费 0.25元

实现方式: 通过修改原始数据遍历的函数实现

GLM

计费模式: API按量付费 OR 开发者计划

部分情况下,是直接开始改代码

用时1分钟20秒左右,完成了需求,但是原本表格样式被破坏。不符合需求

GLM 2测 : 依然破坏了格式

实现方式和DeepSeek差不多

MiniMax-M2

计费模式: API按量付费 OR 开发者计划

先规划后行动

整体用时: 2分钟左右,满足需求,符合预期。

M2的实现方式是通过,通过js新增函数来进行分组实现

qwen

qwen在未指定模型的情况下,无法通过默认配置使用claude code

消耗token:438895,不及格

结论

在这个测试案例中

MiniMax-M2 解耦和略好于 DeepSeek

GLM、qwen不及格

低频使用推荐使用DeepSeek,每次1-5毛钱

高频使用推荐MiniMax-M2 开发者计划 ¥29 /月 ¥290 /年


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:漏洞推送 《国产大模型ClaudeCode编程能力测试!》

评论:0   参与:  2