文章总结: 文章实测国产大模型在ClaudeCode下完成同一HTML布局调整任务:DeepSeek5分钟花费0.25元成功且侵入低;MiniMax-M22分钟通过新增JS函数实现,解耦更佳;GLM虽快但破坏原样式两次均失败;Qwen因默认配置无法调用直接出局。结论低频选DeepSeek,高频选MiniMax开发者包月。 综合评分: 82 文章分类: AI安全,安全工具,实战经验,WEB安全
国产大模型ClaudeCode编程能力测试!
漏洞推送
2025年12月24日 14:03 浙江
测试环境
claude code版本: v2.0.37,为规避历史记录影响,每次执行完以后删除掉.claude目录,重新创建。为保证结果不受其他因素干扰,均只设置最基本的环境变量
提示词: @index.hmtl 将同一家厂商的模型,放到同一行中
测试时间: 2025/12/24
原始index.html文件效果
需要源码自己复现测试的,文件来源是 https://llm.minprices.com/
文本长度17k,在各个模型上下文的舒适区:
考察点:
•能否实现需求•侵入性,如果原本布局被修改视为侵入性过强
DeepSeek
计费模式: API按量付费
进入了先规划后修改的模式
整体用时5分钟左右,修改完成。
页面效果符合需求
花费 0.25元
实现方式: 通过修改原始数据遍历的函数实现
GLM
计费模式: API按量付费 OR 开发者计划
部分情况下,是直接开始改代码
用时1分钟20秒左右,完成了需求,但是原本表格样式被破坏。不符合需求
GLM 2测 : 依然破坏了格式
实现方式和DeepSeek差不多
MiniMax-M2
计费模式: API按量付费 OR 开发者计划
先规划后行动
整体用时: 2分钟左右,满足需求,符合预期。
M2的实现方式是通过,通过js新增函数来进行分组实现
qwen
qwen在未指定模型的情况下,无法通过默认配置使用claude code
消耗token:438895,不及格
结论
在这个测试案例中
MiniMax-M2 解耦和略好于 DeepSeek
GLM、qwen不及格
低频使用推荐使用DeepSeek,每次1-5毛钱
高频使用推荐MiniMax-M2 开发者计划 ¥29 /月 ¥290 /年
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:漏洞推送 《国产大模型ClaudeCode编程能力测试!》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论