2026-04-13 02:40:09 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 该研究首次对基于大语言模型的自动化渗透测试框架进行系统化分析，通过对比13个开源框架和2个商业基线的实证评估发现：单智能体架构在中低难度任务表现优异但Token消耗高，记忆管理是关键因素，外部知识库易产生误导，工具规模扩张不等于能力提升。研究指出需谨慎设计框架避免产生幻觉现象，并为未来智能渗透测试发展提供评估基准。 综合评分： 85 文章分类： 渗透测试,AI安全,安全工具,漏洞分析,安全建设

cover_image

四川大学；清华大学等：黑客还是幻觉？基于大语言模型的自动化渗透测试全面分析

小编小编

安全学术圈

2026年4月12日 11:47 四川

在小说阅读器读本章

去阅读

原文标题：Hackers or Hallucinators? A Comprehensive Analysis of LLM-Based Automated Penetration Testing 原文作者： Jiaren Peng, Zeqing Li, Chang You, Yan Wang, Hanlin Sun, Xuan Tian, Shuqiao Zhang, Junyi Liu, Jianguo Zhao, Renyang Liu, Haoran Ou, Yuqiang Sun, Jiancheng Zhang, Yutong Jiao, Kunshu Song, Chao Zhang, Fan Shi, Hongda Sun, Rui Yan, Cheng Huang 原文链接：原文链接：https://arxiv.org/abs/2604.05719 发表会议：arXiv 笔记作者：孙汉林，彭佳仁@安全学术圈 主编：黄诚@安全学术圈

1. 研究背景

随着大语言模型（Large Language Model, LLM）的飞速发展，自动化渗透测试（Automated Penetration Testing, AutoPT）迎来了前所未有的机遇，进而催生出一系列旨在实现端到端自主攻击的研究框架。然而，在相关研究呈现井喷之势的背后，现有的AutoPT研究普遍缺乏系统性的架构分析，也鲜有在统一基准下进行的大规模实证比较。为此，本研究首次针对LLM驱动的AutoPT框架进行知识系统化分析，并开展全面而深入的大规模实证评估，旨在厘清当前技术真实的能力边界，并为后续研究提供参考。

2 实验设计

在系统化体系分析层面，本研究构建了一套多维度的分类分析框架，围绕协作范式、任务规划、智能体记忆、工具执行、外部知识与基准测试六大核心维度，对现有AutoPT框架进行了系统性解构。

在实证层面，研究团队在统一实验设置下，本研究对比了13个具有代表性的开源AutoPT框架以及2个基于成熟的商业AI编程助手构建的基线框架。整个实验过程累计消耗超100亿Token，生成超1500份执行日志，并由15位以上具备网络安全专业背景的研究人员，历时四个月，对上述自动化渗透测试日志进行了系统性人工审查与框架机制剖析，以确保评估结果的可靠性与分析结论的严谨性。

3 实验结果

表中圆圈符号表示模型在各靶场挑战中是否成功获取Flag，全黑表示两次均成功；全白表示两次均失败；左黑右白表示V1成功、V2失败；左白右黑表示V1失败、V2成功。“S”列代表框架的总得分，“E”列代表框架的在所有easy靶场上的总得分，“M”列代表框架的在所有Medium靶场上的总得分，“H”列代表框架的在所有Hard靶场上的总得分，每次成功获取Flag将根据靶场难度进行计分：Easy挑战得2分，Medium挑战得3分，Hard挑战得5分。

基于以上大规模实验数据，本研究揭示了若干关键发现：

(1) 单智能体架构在多数中低难度任务上的综合表现并不逊色甚至超越了复杂的多智能体框架；

(2) 单智能体架构在面对复杂问题上的单次调用的Token消耗高于大多数多智能体框架；

(3) 记忆管理是影响当前AutoPT框架性能的关键因素；

(4) 外部知识库在多数情况下未能带来正向增益，不匹配的检索结果极易误导智能体陷入错误的探索方向，传统RAG难以带来有效表现；

(5) 工具池的规模扩张并不等价于渗透能力的提升；

(6) 工具受限时，框架会触发以Python执行等的补偿机制，但该机制在困难渗透测试场景中效果有限；

(7) AI编程智能体仅凭基础的工具和简单的提示词便能展现出惊人的竞争力；

(8) 不同LLM基座的表现不同，部分LLM表现出的特点需要框架与其进行适配；

(9) 公开CVE漏洞的稳定利用依赖动态维护的针对性知识库；

(10) 幻觉现象普遍存在，尤其是CTF场景下的Flag幻觉。

4 总结

本文通过系统化的架构分析与大规模实证，对LLM在AutoPT中的实际能力与现有局限进行了全面评估，填补了AutoPT领域在严谨实证支持与定量比较方面的研究空白，为未来框架的设计范式提供了方向性的指引。研究结果表明，在利用大型模型推动自动化攻防的过程中，需保持审慎的工程评估视角。若缺乏完善的底层记忆管理机制与动态场景适配能力，盲目扩展多智能体协作规模或大量集成外部知识，极易孕育出“Hallucinators”而非真正的“Hackers”。本文为网络安全领域研究者提供了结构化的评估分类体系及可持续更新的验证基准，为LLM时代下更智能、更可靠的自动化渗透测试技术发展贡献了相应的学术基础。

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全学术圈小编小编《四川大学；清华大学等：黑客还是幻觉？基于大语言模型的自动化渗透测试全面分析》