文章总结: 该文档记录2026年BSidesSFCTF赛事中AI模型的颠覆性表现:16支队伍实现全自动解题,中低难度题目被AI快速攻克。作者通过搭建ClaudeCode等模型代理参与比赛,发现顶尖队伍依赖多模型并行、自动提交的流水线体系。文章指出AI在CTF中的优势源于目标明确、上下文有限等特性,但与真实渗透测试在目标结构、验证方式、边界意识等方面存在本质差异,认为AI尚未能替代渗透测试中的人类判断。 综合评分: 87 文章分类: CTF,AI安全,渗透测试,实战经验,漏洞分析
CTF的AI时代:从解谜夺旗到模型竞技
幻泉之洲
2026年4月26日 09:13 北京
在小说阅读器读本章
去阅读
去年的BSidesSF CTF赛场上,将近一半选手开着ChatGPT。一年过去,情况完全变了。今年有16支队伍“秒解”了所有题目,解题主力从人变成了AI模型。这篇文章记录了作者亲身参与的这场“军备竞赛”,并试图回答一个关键问题:能横扫CTF的AI,离真正的渗透测试还有多远?
一切都变了
2025年BSidesSF CTF现场,我抬头看了一圈,差不多一半的人都在用ChatGPT。那时候的GPT-4,处理简单题目绰绰有余,相当于给选手们腾出了精力,去啃那些高分的硬骨头。
比赛采用动态计分,最难题目分值是最易题目的十倍。去年,冠军队伍是唯一一支接近做完所有题的。
但那是去年了。
到了2026年的比赛,局面彻底颠覆。整整16支队伍完全解开了所有题目,没有一道题的解出队伍少于25支。不是题目变简单了,是解题者换了。
排名前十的队伍基本实现了全程自动化解题。绝大多数题目放出几分钟内就“沦陷”。除了少数需要网络情报搜集的题,Claude Code和Codex这类模型把所有题目都解决了,包括去年可能根本没人能搞定的密码学和二进制漏洞利用难题。
说实话,去年我自己单打独斗拿了第五。按今年的强度算,没有AI帮忙的话,我估计得排到75名开外。
加入新“内卷”
看明白规则后,我知道没有自己的AI代理根本没戏。那就加入吧。我搭了个Debian虚拟机,装了一堆CTF工具,像个移动厨房:
- 用Conda环境塞满我能想到的所有pip包
- 装好Playwright做无头浏览
- 配置了Ghidra和Ghidra MCP服务器
我买了每月100美元的Claude Code Max 5x套餐,它的周token额度刚好够打完一场CTF。随手写了个脚本从CTFd平台上抓取题目,分目录存好。
接着,我在不同的tmux终端里打开题目目录,每个都运行带--dangerously-skip-permissions标志的Claude Code。之所以敢用这个危险标志,是因为它被关在虚拟机里,用的还是我外出和打比赛专用的笔记本。
我用最高推理强度的Opus 4.6模型,给它的指令极其简单:“解决这个CTF题目,记录进度”。然后我就在不同窗口间切换,监控各题进展,偶尔把跑偏的模型往正确方向上带一带。我也挑了些看起来有意思的题,自己动手解,和模型同时进行。
最新模型的解题能力让我震惊。亲眼看着它搞定那些刁钻的密码学谜题,速度比你认识的最聪明的人还快——那种感觉,除了“惊呆了”没别的词。
想赢?你得全自动
我这种手动辅助的半自动玩法,差不多能解完所有题,但想进前十甚至夺冠?远远不够。那些更懂“氛围解题”的队伍,早就投钱建起了流水线:
- 持续监控CTF平台,题目一上新就捕获
- 瞬间启动多个AI代理,同时围攻新题
- 代理输出里一出现flag,立刻自动提交
分数相同比速度。所以想赢,你需要更多代理、更好的代理、更强的CPU。说白了,需要更多的钱。
冠军队开源了他们的CTF代理。他们能稳居第一的秘密是并行运行好几个不同模型,各有长短。
GPT-5.4-mini秒杀简单题,而火力全开的Claude Opus 4.6虽然慢,但推理最深。他们还用了一个“协调员”大模型,在不同模型代理之间分享思路和发现。如果某个代理卡住了,协调员就用其他代理的发现来提示它,帮它重启思路。
更难的比赛与AI的软肋
像hxp和DEF CON这种顶级CTF,AI还做不到自主解决大部分题目,但这股压力已经来了。据说在2025年12月,hxp的密码学挑战就已经能被自动化破解了(用CTF黑话说叫“可滑过去”)。2025年8月的DEF CON决赛上,有两道题是靠着大模型主力解决才拿下的,不过其他题目上模型用处不大。
由于动态计分的机制,冠军最终还是由那些“滑不过去”的难题决定。
我咨询了半退役的顶级战队Organizers的成员。他们说,高水平的CTF里依然有好多好玩又硬核的题目,模型拿它们没什么办法。但现在出题人设计挑战时,不得不预判下一代前沿模型能干什么——这对出题人来说,是个崭新且真心困难的新限制。
他们说,目前对AI最明显的难题是那些“猜谜”性质的题,因为没什么训练数据可用。不过,这类题通常也不受人类选手待见。像对称密码的密码分析这类题目,由于现成题解少,反而抵抗得久一点。
需要深挖软件内部机制的题目会让大模型犯难,尤其是那些文档不全,或者更绝的是——文档和源码自相矛盾的领域。
CTF与渗透测试的根本不同
既然大模型在CTF上表现这么猛,我们自然会问:这套本事能用到渗透测试上吗?毕竟CTF题目常常模拟真实漏洞。虽然渗透测试偶尔也会遇到CTF式的任务,但绝大多数工作完全不是一回事。
目标结构
CTF挑战目标单一:拿到flag。好题目有一条设计精妙、预设好的解决路径。渗透测试是高度开放性的,你不是沿着一条路走到黑,而是在一个庞大系统里“翻垃圾”,试图找出无数个在安全层面有问题的部分。
验证方式
CTF里,提交正确flag就等于明确解决了问题。渗透测试里,验证一个发现是否有效要模糊得多。区分真漏洞和误报,不光要技术复现,还得理解漏洞所在的业务背景。一个常见的误报是把本该公开的接口或数据当成了越权漏洞。
上下文管理
CTF通常是小型、自包含的程序。一个典型题目可能是一个独立二进制文件、只有几个路由的Web应用,或者200行代码实现的加密方案。渗透测试面对的是巨大系统和代码库,动辄百万行代码,你拿不到所有依赖,也没法在本地完整运行。
报告与风险评估
CTF的交付物就是flag,写题解是可选动作。渗透测试的大量工作在于报告流程:解释发现了什么、评估其严重性、并且清晰地向客户说明这为什么重要。
边界意识与危险决策
CTF里违反规则的最坏结果可能是取消资格。渗透测试中,越出约定范围可能是灾难性的。经验丰富的测试者在运行概念验证或尝试攻击一个可能未授权系统之前,会异常谨慎。
所以,CTF完美契合了AI的优势:
- 目标明确,成功标准清晰
- 上下文有限,能塞进模型工作记忆
- 反馈即时
- 违规成本极低
此外,网上大量的CTF解题报告进一步强化了这种优势。简单题很可能只是以前见过的东西的细微变体。
近期的演讲和文章展示了前沿模型在漏洞研究上的惊人能力。那些大模型驱动漏洞发现的成功案例,看起来也像是把问题重构得更接近CTF挑战:把搜索范围缩得很小,参考历史CVE来构建清晰的威胁模型,想象漏洞可能长什么样。
总结
BSidesSF 2026标志着我们已过一个拐点:对大模型而言,中低难度的CTF挑战已基本是“已解决问题”。去年需要熟练选手花几小时搞定的题,今天AI代理几分钟就能完成。竞赛的焦点已经从“谁最会解题”转向“谁能部署最好的自动化基础设施”。
但从自动化的CTF到自动化的渗透测试,中间仍有一道鸿沟。CTF是测试大模型的理想沙盒:即时验证、有限的代码库、海量训练数据。而在渗透测试中,误报管理、边界约束、业务上下文理解,这些依然严重依赖人的判断。
参考资料
[1] https://blog.includesecurity.com/2026/04/ctfs-in-the-ai-era/
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:幻泉之洲 《CTF的AI时代:从解谜夺旗到模型竞技》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论