2026-04-28 05:32:56 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文复盘了作者参加TX第二届黑客松智能渗透挑战赛的经历，重点分享了在主赛场和Agent安全分赛场的参赛策略、模型使用成本与表现、实战失误反思及Agent工作流编排思路。作者通过对比M2.7、GLM5/5.1及Sonnet4.6等模型在解题数量与速度上的差异，指出模型能力差距对渗透测试结果的关键影响，并强调了Agent工作流中监督机制的重要性。 综合评分： 85 文章分类： 渗透测试,AI安全,实战经验,安全工具

cover_image

Tx第二届黑客松智能渗透挑战赛复盘

原创

B1uewhit4 B1uewhit4

SecurityPrivacy

2026年4月19日 14:15 浙江

在小说阅读器读本章

去阅读

0x01 背景

最近半年一直在搞 AI for Pentest 相关的研究，刚好碰上腾讯举办第二届黑客松，就趁这个机会本周抽了四天半时间参加。因为之前一直在看业界的项目，积累了一些思路，上周五到周日连轴转了三天，在 Codex 的帮助下手搓了一个 Agent 工作流，临时搞了一个出来。

0x02 赛况与排名

本次比赛分了两个赛场：渗透主赛场和 Agent 安全分赛场（主要考提示词渗透）。

主赛场： 投入了 3 天多一点，最终解出 30/54 个 flag，排名 74。
分赛场： 搞了 4 天半，最终排名第 2，输给了 yhy 大佬。

0x03 实战失误反思

这次赛制比较残酷，我起初没完全搞明白规则：同一个题目，越往后拿到 flag 的队伍分数越少，到了最后可能连分数都没有了。

这是我失误的地方。到了第三天，我试着上了 Sonnet 4.6，发现虽然解题数量可以，但速度太慢了，即使解出来也拿不到多少分。看到分赛场还有戏，就果断放弃了主赛场，去主攻分赛场玩了玩。

还有一个失误是跟 Codex 的沟通问题。我原本想让每个题并行处理，结果 Codex 给我搞成了时间片轮转。比赛第三天查日志才发现这个逻辑不对，丢了不少分，挺可惜的。在说一遍，AI写代码后一定要人工检查啊，无脑vibe coding害死人啊。QAQ

0x04 成本投入与模型表现

这次成本一共投入了差不多 1k 左右：

M2.7： 买了一年 400 多（不是打广告，这确实是最有性价比的）。
GLM 5 / 5.1： 某厂 Coding Plan 投入 190（吐槽一下，该厂声称有 5.1 但限速限到没法用）。
Sonnet 4.6： 投入不到 400（最让我惊喜，A 厂的模型确实牛逼）。

主赛场表现：M2.7 跑了两天出了 13 个；GLM 跑了两个多小时出了 2 个；Sonnet 跑了一天出了 15 个。模型能力的优势确实能弥补 Agent 工作流编排的不足——有个好大脑，即使四肢残废也能大杀四方。

0x05 编排思路

主赛场：基于 ATT&CK 和 METIRC 的渗透测试流程，构建 Agent 工作流。角色分为：

主控： 负责题目判断、管理、分发、确认。
专家： 针对四个赛道，继承专门的安全 Skill。
监督者： 针对专家干活时可能卡死、乱做事的情况进行监督。

关于“监督者”的重要性，之前看 yhy 大佬的推文也提到过，我也很认同。Agent 工作流就像公司的生产线，必须有行为监督和质量管理，这套标准放到 AI 工作流同样适用。

分赛场：基本比的是提示词注入。AI 系统攻击入口很多，但时间紧迫，我只用了最简单的手段。因为 GPT 的安全对齐太严重，很多“脏手段”（身份伪造、抹黑等）它不接招，我没时间精修，就只加了人格模拟、调用工具等社工手段。

0x06 总结

这次也没啥特别亮眼的表现，就是个简单的复盘。几天搓的Agent工作流，感觉很糙，也就不公开了。最大的感受是：模型能力的差距可以极大程度地盖过 Agent 编排的差距，特别是在渗透测试这种需要管理大规模上下文的场景。内部模型确实还有部分差距。

最后推荐给大家一个不错的项目吧，LLM4PENTEST，由国内川大的一个团队维护的，在github上面，里面总结了很多迄今为止不错的ai pentest项目，论文，看了之后，对思考怎么编排sop很有帮助。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：SecurityPrivacy B1uewhit4 B1uewhit4《Tx第二届黑客松智能渗透挑战赛复盘》