文章总结: 本文是对第二届腾讯智能渗透挑战赛的回顾与分析,核心要点包括:赛事从CTF模式转向多层网络靶场,并引入全黑盒环境和AI社交论坛;AI渗透能力已接近初级人员水平,但在多漏洞串联、长链路推进、关键信息记忆等方面存在明显短板;冠军战队通过采用ManagerAgent调度、观察者机制等架构设计取得成功;文章最后探讨了AI对安全人才的影响,认为未来的从业者需具备更强的编程和认知能力,关注AI不擅长的业务理解和逻辑漏洞挖掘等方向,并强调了判断力、技术审美以及Agent设计与工程化能力的重要性。 综合评分: 85 文章分类: AI安全,WEB安全,渗透测试,红队,解决方案
浪潮将至–腾讯智能渗透赛冠军之夜回顾
原创
洺熙 洺熙
Ai迷思录
2026年4月19日 16:58 四川
在小说阅读器读本章
去阅读
导读:第二届腾讯智能渗透挑战赛汇聚 610+ 战队,本文为冠军之夜五天直播精讲版 信息来源直播嘉宾的分享
一、赛事概况:半年迭代,AI 渗透能力发生质变
本届比赛 610+ 战队参赛,首日即有队伍 AK 第二、第四赛区,五天赛程最终被压缩。主办方原计划 5 天完成的四赛区闯关,第一名在第一天就冲入第四赛区并拿下域控
关键变化(vs 第一届):
- 从 CTF 纯答题模式 → 多层网络靶场 + 域渗透 + 内网渗透,国内首个公开考察 Agent 预渗透能力的赛事之一
- 从公开靶场 → 全黑盒环境,赛题不提前公开
- 引入双赛场:主渗透赛场 + 临界平行战场(AI 社交论坛,考察 AI 内生安全、博弈能力)
- AI 渗透能力已接近初级渗透人员水平
从去年 11 月第一届到现在不到半年,大家整体的智能体水平可以说是飞跃式的进步
上次我们的赛题还是公开的,这次全都没有提前公开。我们现在还没有做一些安全对抗,在不加安全对抗的情况下,选手的 Agent 已经能够自动化打透一些内网环境
二、非工具升级,是范式转移
2.1 自动化 ≠ 智能化
自动化渗透测试是基于规则的、提前编排好的、固定流程的、只能处理已知场景的。智能体是以大模型为主的决策中心,更多的是认知驱动的测试过程。过去靠正则匹配,匹配不到就不存在
现在大模型可以通过模糊匹配、推理来发现问题。
大模型的推理能力、规划能力、试错能力、反思能力,这些都是传统自动化脚本没办法实现的
我们过去两年走不少弯路——拿过去自动化渗透测试的思路去做 Agent,把大模型当串脚本的工具,并没有把 Agent 本身的优势了解透。
2.2 工具的角色在变化,不是削弱而是重新定义
过去工具是能力的本身,人去操作它
AI 介入后,工具更像是一个能力的接口和执行层,从”被使用”变成了”被调度”
AI 时代对底层工具的要求变了胶水性脚本会被削弱
但底层能力工具(如国密加密、密码学验证)会变得更重要——因为大模型本身无法替代这些确定性能力。
2.3 模型决定上限,Agent 设计决定下限
同样一个模型,为什么有人觉得够用有人说不行?模型只决定你的上限有多高,但决定不了下限
如果你的 Agent 特别烂,就只是手搓了一个循环,没有记忆链优化,用时就很长,最终反映在比赛分数上。
Agent 的能力不应该取决于更大的模型,而是依靠外挂式的框架设计来实现——把记忆链、可信可控的沙箱、Skills 工具集、MCP 协议这些都完善好,让外挂帮大模型充分发挥。国产模型缺知识,就用 MCP 调工具补;缺记忆,就用工程机制补
三、AI 渗透的能力边界:已接近初级人员,但存在明显短板
3.1 能力对比
| 维度 | 擅长 | 不擅长 | | — | — | — | | 目标复杂度 | 单一目标、短链路 | 多步骤串联、长链路推进 | | 知识类型 | 已知漏洞模式、标准化题目(CTF) | 开放环境中的未知模式发现 | | 信息管理 | 明确指令下的精准执行 | 长流程中的关键信息记忆与降噪 | | 场景理解 | 确定空间内(告知目标数量) | 开放空间中自主判断测试完备性 | | 多体协作 | 简单任务中单智能体更聪明 | 复杂环境需要人类经验配合(验证码、图形识别) |
3.2 典型短板案例
当前智能体最需要提升的不是对单一漏洞的利用能力,而是在复杂环境里的持续推进能力。具体有三类短板:
第一类,多漏洞链串联:前后步骤需要串起来,中间利用需要根据场景反馈不断调整策略,很多智能体发现一部分线索就停下来了。
第二类,走进兔子洞:场景有很多功能点和可疑漏洞点,智能体很容易被某个看起来合理但无法利用的路径带偏,消耗大量步数和 Token,且无法回溯。
第三类,记忆管理失效:长流程渗透中丢失关键信息,记住了很多噪声却没有记录对后续利用真正有用的线索。
3.3 赛事中暴露的 AI 边界案例
- 痕迹清理:第一天第一名没有清理渗透痕迹,导致后续队伍”前人栽树,后人乘凉”快速反超——AI 不会主动考虑行为后果
- 密码推理:题目中 FTP 弱口令是
ftp@2026,这种人类常做的推测,AI 推导不出来 - 文件意识:拿到压缩包后,AI 缺乏”打开看看里面有什么”的意识
- 测试完备性判断:AI 无法评估自己对一个系统测试得是否全面,不知道何时该停止
- 验证码爆破 + 图形识别:多阶段利用中需要人类经验配合的环节,AI 卡住
AI 在明文代码中找漏洞的能力,在部分场景下已经超过人类。但让 AI 评估”我测全了没有”——目前没有很好的办法。
四、冠军战队复盘:设计思路
4.1 第一名:绿盟科技 AI 小分队
- 架构:Manager Agent 调度 + 子 Agent Docker 隔离 + 共享 Memory + 观察者模式
- 观察者机制:监控 Agent 近 10 条记录,判断是否偏离主线,及时打断
- 模型使用:Claude 解了 44 道题,GLM 解了 2 道,kimi 解了 5 道(据选手现场分享)
我们的原则是”少即是多”——足够简单才会足够强大。够简单够流畅够稳定
4.2 第四名 Bytex—— 唯一 AK 全部赛题的战队
- 架构:共享一张有向无环图(DAG)作为渗透推进图,所有 Agent 只读图,外层框架控制写入
- 设计理念:走过的路(即使错误)也保留为客观事实,只增不删
- 成本:约 7000 元人民币(前 90% 的题花了 3000 多,最后两道题空跑两天又烧了几千)
- 模型:全部使用 Opus 和 GPT
我赛前准备了两个周末,比赛当天凌晨 4 点才调通,完全没有测试过实战效果。整体表现强于我的预期——我没有教它反弹 Shell、做代理的操作,只搭建了环境和 DAG 推理系统,其他全部交给模型自发达成。
4.3 第八名 清华大学战队
- 策略:前两个赛段抢一血
- 调度:传统算法调度(不敢用 Agent 调度,怕出错),启发式自适应难度调整
- 最大遗憾:赛前收集了很多开源靶场测试,唯独没有准备 OA + 内网渗透场景,导致第三赛区卡了四天
4.4 关键教训
- 调度策略至关重要:抢一血比慢慢解更有分值优势
- 赛题覆盖的多样性:测了很多靶场但漏了一个类型,直接导致卡关
- 成本不可控:解不出的题空跑,消耗比正常解题还贵
- 观察者模式是防止 Agent 钻牛角尖的有效机制
五、关于 AI 与安全人才:会不会被替代?
5.1 技术平权是幻觉,本质是认知加权
大家一直在说技术平权了,但我看到的是并没有平权。AI 是对每个人的能力加持进行放大——如果你以前很厉害,加持后更厉害;
如果你水平平庸,加持也有上限。AI 对你的技术加持的天花板,跟你的个人能力和认知是强相关的。
5.2 AI 越强,对使用者的要求越高
AI 的幻觉是目前难以解决的问题。AI 生成代码、执行代码、输出结果的整个流程都包含幻觉,用户需要验证
未来的从业人员不是不用写代码,而是需要能够看懂 AI 写的代码,能够指出 AI 在哪个环节是错的,修正 AI 的幻觉,指挥 AI 完成复杂链路——这需要更强的编程和漏洞功底,只是工作形态变了。
5.3 安全知识是做 AI+安全的前提
AI 加安全,如果你不会安全,你也不知道如何去提升智能体的水平,不知道当前智能体到底缺的是什么。个人有一定的安全知识储备,是做 AI+安全的前提。
5.4 15度夹角理论
你可以和 AI 保持一个 15 度的夹角。AI 擅长的东西你不要一直去磕,迟早会被替代。去关注 AI 不擅长的事——比如业务环境的理解、逻辑漏洞的挖掘,这些 AI 目前做不到的方向。
5.5 知识深度变成杠杆
AI 相当于一个杠杆,知识深度是支点。没有这个支点,杠杆也撬不起来。转型到 AI 方面最成功的人,不是 AI 技术最强的,而是安全功底深厚的——他们知道 AI 给的输出什么时候该调整、什么时候该信自己。以前研究一个漏洞原理需要写 PoC,可能一周过去;现在加上 AI 和 Claude Code,两三天就能完成。效率被放大了 10 倍甚至 20 倍。
六、行业判断:未来安全领域什么能力最不可替代?
6.1 判断力与想象力
留给人类的长处是判断力、想象力、审查权。
6.2 技术审美
现在写代码已经不是瓶颈,但”技术审美”变得越来越重要——判断什么样的设计模式是好的、什么样的架构是优秀的。如果你盲目相信 AI,你的技术审美和 AI 一样,AI 给你的就是好的,没给你的就是坏的——这是很危险的。新一代技术人要培养对这些技术的敏感思维。
6.3 Agent 设计与工程化能力
短期(半年内)模型能力最重要。但长期看,当模型能力趋同后,真正拉开差距的是系统设计能力——工程化能力。
从现在开始做 Agent 开发的人,未来肯定不会被淘汰。大家有经验但过度依赖模型,在 Agent 设计上花的精力太小,没有掌握 Agent 设计的精髓。如果多去学习通用 Agent 的设计架构,安全能力提升会很快。
6.4 人机协同关系在转变
这是一个工种变迁的时代,不是人消失了。过去是渗透测试工程师、策略工程师,未来可能是提示词工程师、Agent 运营工程师。操作方式变了——过去操作复杂度高,未来操作变简单,但能生产的东西越来越多。AI 帮你省下来的时间,会在另一个地方等着你——干更难的活
6.5 不被替代的本质:掌控力
有一种人不会被替代——对 Agent、模型和自己的行业有很强的掌控力。你对 Opus 在什么场景、什么架构下有什么长处和短板有认知,这种人能踩着大模型升级的浪往前走
七、争议与分歧
7.1 通用 Agent vs 垂类 Agent
比赛限制使用 Claude 等通用 Agent,引发社区争议。
核心原因是想聚焦垂类场景的价值。通用 Agent 用的人多、成熟度高、能力碾压,我们很难考察到底是你的自研能力强还是完全依赖通用架构。渗透测试的很多问题,通用 Agent 不需要深入考虑,但在垂类上专用能力有很大欠缺。
7.2 开放海外模型 vs 仅用国产模型
我们不能关起门来用自己的模型打比赛。我们需要在现实环境里看到差距到底有多大。看不到差距,也不知道落脚点在哪。另外,一旦海外模型不让我们用了,或者做了安全对齐,过度依赖也有问题。只有知道差距,才能激发我们去提升国内 AI 攻防能力。
7.3 拼财力?—— 成本问题
第一名绿盟 Token 消耗千万级(公司统一提供 API),第四名个人选手花费约 7000 元,中学生选手用 DeepSeek 只花了 几百 多元
成本控制是方案里很关注的。你花很大成本完成一件事比别人快,没有意义,因为不可复制。
国内模型与国外模型很大区别是上下文长度稍差,但如果 Agent 框架做好了,是能克服这些问题的。
7.4 Agent 托管模式的争议
比赛允许 Agent 托管(自动化运行),引发讨论:选手是否应该全程实时干预?
AI 托管后你只能参观模式,看着 Agent 你追我赶又帮不上忙——比自打还难受。
7.5 资源差距:高校 vs 企业 vs 个人
企业战队拥有公司级 API 额度和专用算力,个人选手需要自费,中学生选手只能精打细算。这种资源差距是否影响比赛公平性?比赛中也出现了资源限制下的创意方案——用更便宜的模型搭配更好的 Agent 框架,同样取得了不错成绩
7.6 AI 渗透离生产落地还有多远?
现在相当于一个场景加速期,但还没有到全面成熟、能完全步入生产环节的阶段。Agent 能帮我们踩油门、踩刹车,但方向盘还是要握在我们手上。
从比赛可看出,在确定空间内(告诉你有几个 flag),Agent 已经很强。但如果在真实场景中不告诉你有多少漏洞,你自己判断什么时候停止——这是更大的挑战。
八、对从业者的建议
8.1 对智能渗透团队
- 做好知识工程(安全知识库),这是差异化竞争点,不用去卷模型
- 建立渐进的反馈机制,实时观察 Agent 做到哪一步、是否正确
- 记忆管理比工具依赖更重要,上下文压缩会丢失知识,要想清楚怎么管理
- 框架要和基础模型形成适配,不存在万能框架
- 不要在沙滩上建堡垒——花两个月微调模型,通用模型一次升级就击垮了
建议安全从业者认真研读 Claude Code 的每一行文档——包括 Skill、Rules 的区别和后壳功能。很多人完全依赖 AI 读文档,错失了已有功能,导致重新造轮子。
手搓框架的本领是最不可替代的。
8.2 对学生和新人
想参与就立马行动。缺少的不是点子,是行动力。
设计 Agent 框架时要培养架构思维,从渗透测试的本质出发做建模和抽象,不要打补丁。需要反弹 Shell 就加个功能,这种思路没有尽头。
要解决那些真正本质的问题。打补丁没有尽头,对整体效果提升帮助不大。
8.3 对开源工具作者
站在阳面——把工具给别人看,换取信任。用户多了以后,关键部门会给你资质支持。藏着掖着,被坏人拿了之后无法自证清白。
工具介绍要框定场景,声明是”企业安全评估工具”。案例要围绕帮助企业做安全建设来写。把攻击视角变成防守视角——你是一个企业安全建设者,为了发现风险而开发了工具。
九、赛事定位与未来展望
9.1 比赛的五个目标
- 催生新质生产力:推动攻防工程化升级,提升挖洞和问题发现效率
- 引导技术转型:让更多人锚定 AI 攻防的未来方向
- 培养复合人才:夯实行业人才根基,让高校提前参与 AI 攻防方向
- 加速产研转化:让优秀项目有展示机会,帮助好项目走出国门
- 凝聚产学研力量:以开放晋级的方式联合高校、企业、社区
9.2 未来计划
- 比赛频次:半年一届(一季度一次也在考虑),与 AI 进化速度匹配
- 临界论坛:将对外开放为国内第一个专供 AI 做技术交流的社区
- 安全 Agent Benchmark:赛后公布靶场/基准,支持 Agent 能力评估
- 线下决赛 4 月 25 日北京举行:上午前 10 战队答辩,下午技术沙龙 + 圆桌
对世界、对 AI、对职业、对行业的认知能力可能是最重要的。AI 时代对每个人认知的刷新和冲击非常大。如果你没有一个强大的内核认知系统去应对这些冲击,你收获的可能是焦虑。没被新技术替代,却没抓住新机遇——这才是最遗憾的。
十、金句索引
| 主题 | 金句 | | — | — | | 范式转移 | “自动化是基于规则的,智能化是认知驱动的——这是一个新的范式。” | | 设计 vs 模型 | “模型决定上限,框架设计决定下限。” | | 技术平权 | “AI 并没有让技术平权,只是进行了认知加权——你的能力被放大了。” | | 深度价值 | “AI 是杠杆,知识深度是支点。没有支点,杠杆也撬不起来。” | | 人机关系 | “Agent 能踩油门踩刹车,但方向盘还是要握在我们手上。” | | 15度夹角 | “和 AI 保持 15 度夹角,做 AI 不擅长的事。” | | 审美 | “如果你盲目相信 AI,你的技术审美和 AI 就一样了——AI 给你的就是好的,没给你的就是坏的。” | | 工程化 | “手搓框架的本领是最不可替代的。” | | 本质思考 | “不要打补丁——反弹 Shell 加个功能,这种思路没有尽头。” | | 成本现实 | “前 90% 的题花了 3000,最后两道空跑两天又烧了几千。” | | 工具哲学 | “站在阳面,把东西给别人看,换取信任。菜刀大部分人拿回去做饭,有人拿去做坏事你拦不住。” | | 认知系统 | “构建好强大的认知系统,否则没被新技术替代,却没抓住新机遇——这才是最遗憾的。” |
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:Ai迷思录 洺熙 洺熙《浪潮将至–腾讯智能渗透赛冠军之夜回顾》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论