2026-03-12 22:11:15 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文介绍PentestAgent框架，利用多智能体协作与LLM技术实现自动化渗透测试。实验显示GPT-4o性能最优且效率高于PentestGPT。研究发现框架在情报收集与利用阶段存在局限，如识别非独立组件困难。文章建议集成专业指纹工具、增强被动侦察及引入UI自动化改进。该研究验证了LLM在网络安全自动化领域的应用价值。 综合评分： 88 文章分类： 渗透测试,AI安全,安全工具,红队,实战经验

cover_image

论文研读与思考 | 渗透测试智能体：融合大语言模型智能体的自动化渗透测试技术研究

zha zha

玄枢战队-Arcane Hub

2026年3月12日 18:14 陕西

原文标题：PentestAgent: Incorporating LLM Agents to Automated Penetration Testing 原文作者：Xiangmin Shen, Lingzhi Wang, Zhenyuan Li, Yan Chen, Wencheng Zhao, Dawei Sun, Jiashui Wang, Wei Ruan

1.研究背景

渗透测试是一种识别安全漏洞的关键技术，传统上由熟练的安全专家手动执行。虽然已经提出了自动化渗透测试方法，但由于灵活性、适应性和实现方面的限制，它们在实际应用中往往表现不佳，而大型语言模型（LLMs）的最新进展通过提高智能和自动化水平，为增强渗透测试提供了新的机会，但现有的方法则受限于渗透测试知识的不足和自动化能力的欠缺。基于此本文设计了 PentestAgent框架，一个最少人工干预的基于 LLM 的自动化渗透测试系统；另外本文还根据开源预构建易受攻击Docker环境集合VulHub，设计了一个全面的渗透测试基准。

2.核心方法论

PentestAgent采用多Agent协作设计，将复杂的渗透测试流程分解为四个主要Agent：侦察Agent（reconnaissance agent）、搜索Agent（search agent）、规划Agent（planning agent）和执行Agent（execution agent）。每个Agent专注于渗透测试生命周期的特定阶段，并通过利用一系列LLM技术（如检索增强生成RAG、思维链CoT、角色扮演role-playing、自我反思 self-reflection 和结构化输出 structured output）来克服挑战。

该图展示了PentestAgent框架的整体设计，它是一个基于大型语言模型的自动化渗透测试系统。其核心目标是自动化渗透测试的各个阶段，从而减少人工干预并提高效率。

下述为上图的详细解释：

目标主机 (Target Host)：这是PentestAgent需要进行渗透测试的系统。

智能体 (Agents) – 端到端渗透测试。

侦察智能体 (Recon Agent)：负责收集目标主机的环境信息。它会生成并执行侦察命令，并将收集到的信息存储起来。

规划智能体1 (Planning Agent 1)：接收侦察智能体收集的环境信息，并识别潜在的攻击面。

规划智能体2 (Planning Agent 2)：根据潜在的攻击面，进一步识别可用的漏洞利用。

执行智能体 (Execution Agent)：负责执行规划智能体推荐的漏洞利用。在执行前，它会查询所需的信息，并将执行历史和结果记录下来。

2.1关键技术

作者设计了侦察代理的系统消息和提示，并运用了以下大模型技术来应对渗透测试的困难。

检索增强生成（RAG）：用于增强代理的上下文记忆与知识检索能力，解决LLM的“短期记忆”问题。

链式思考（CoT）：将复杂任务分解为子任务，引导代理逐步推理，减少幻觉输出。

角色扮演（Role-playing）：让代理扮演“渗透测试助手”，绕过LLM的安全策略限制，执行敏感操作。

结构化输出：强制代理以JSON格式响应，确保输出可解析、可集成，提升流程自动化程度。

3.实验评估

3.1不同的大模型对于框架的影响

这张图表展示了不同大型语言模型（LLM）在执行自动化渗透测试任务时的表现。表格部分列出了所评估的LLM模型，GPT-3.5-turbo-0125、GPT-4o、o1-mini、Llama 3.1-8B-Instruct，以及它们各自的上下文窗口大小、知识截止日期、输入成本和输出成本。

随后的三个柱状图（分别代表简单、中等和困难任务）则可视化地呈现了这些模型在渗透测试三个主要阶段——情报收集、漏洞分析和利用的完成率。

从结果可以看出GPT-4o 在所有难度的任务中，包括最困难的任务，都展现出最出色和最稳定的性能，其在三个阶段的完成率都非常高，GPT-3.5-turbo-0125 在简单任务中表现尚可，但在中等和困难任务中，其完成率显著下降，尤其是在利用阶段。而更大的上下文窗口和更新的知识截止日期对提升模型在复杂渗透测试任务中的表现起到了积极作用。除此之外成本也是一个重要的权衡因素，GPT-4o的API使用成本最高，而Llama 3.1-8B-Instruct作为开源模型，成本最低。

总而言之，这些结果强调了高级推理能力和增强的侦察策略在提高自动化渗透测试成功率方面的重要性。

3.2消融研究

本文的消融研究通过在一个包含易、中、难三种难度级别的 VulHub 目标子集上，对比不同 LLM 模型（GPT-4、GPT-3.5、o1-mini、Llama 3.1-8B-Instruct）的性能，揭示了模型选择对 PentestAgent 整体表现的影响。研究发现，尽管所有模型在漏洞分析阶段都能达到 100% 的完成率，但在情报收集和利用阶段，GPT-4 和 o1-mini 展现出更高的完成度，表明它们在整合上下文和处理复杂推理方面表现更优。特别是 o1-mini 在利用阶段表现突出，而 GPT-3.5 和 Llama 3.1-8B-Instruct 则稍显逊色。在成本与时间开销方面，GPT-3.5 速度快且成本低，但在利用阶段的低性能可能暗示其在处理复杂任务时存在妥协；o1-mini 在利用阶段表现最佳，但分析阶段耗时较长；Llama 3.1-8B-Instruct 虽然免费，但存在显著的时间开销和较低的利用性能。这些结果表明，不同的 LLM 模型在 PentestAgent 框架内具有各自的优势和劣势，模型选择需要权衡任务需求、性能和成本。

3.3与pentestgpt对比

通过实验证明，PentestAgent 实现了更高的利用成功率和整体效率。例如，PentestAgent 完成情报收集需要220秒，而PentestGPT需要1199秒；完成漏洞利用需要172秒，而 PentestGPT 需要364秒。

尽管PentestGPT在漏洞分析方面稍快，但由于人工参与导致其在其他阶段的性能较慢，从而降低了整体效率。

3.4失败案例分析

本文的失败案例分析指出，PentestAgent 在自动化渗透测试过程中，主要在情报收集和利用阶段遇到挑战。情报收集阶段的失败多源于未能识别如 PHPMailer、PHPUnit 等非独立应用组件，这可以通过集成更专业的 Web 组件指纹识别工具来改善。利用阶段的失败则归因于三个主要方面：第一需要额外的领域知识：某些漏洞利用需要攻击者具备预设的凭证或对特定工具的深入理解，这是 LLM 当前难以完全覆盖的。第二个问题agent需要用户交互一些利用过程需要人工操作，PentestAgent目前无法自动完成，但可以通过引入类 AutoGPT的智能代理来模拟用户行为，或者允许人工介入。第三个问题LLM存在幻觉，LLM 生成错误命令或参数可能导致利用失败，研究者通过设置模型温度为零、多次尝试、引入明确的停止条件以及利用攻击知识库中的多种利用方法来缓解此问题。

4.总结

本文的核心贡献可以概括为以下几点，提出了 PentestAgent 这一新颖的LLM驱动的自动化渗透测试框架。这是该研究最核心的创新，它不仅仅是简单地将LLM应用于某个渗透测试任务，而是设计了一个完整的、端到端的自动化框架。成功将多智能体协作与 LLM 技术结合，实现了自动化渗透测试流程的端到端执行。多智能体设计，通过将渗透测试分解为侦察、搜索、规划和执行等多个专业化智能体，实现了任务的模块化和高效协作。LLM 的深度融合：不仅仅是将LLM作为“黑箱”调用，而是利用 RAG、CoT、角色扮演、自我反思等多种 LLM 技术，克服了LLM在渗透测试知识、记忆力和推理方面的局限性。

PentestAgent 框架在自动化渗透测试方面虽有显著进展，但仍存在局限性，主要体现在情报收集阶段对非独立组件识别不足，以及利用阶段在面对需额外领域知识、用户交互或 LLM 幻觉等复杂场景时的挑战。改进方向上，可通过集成更专业的指纹识别工具、增强被动侦察能力、引入先进的上下文理解与多步推理机制、探索 UI 自动化或智能模拟技术来克服这些障碍，并进一步优化 LLM 的错误缓解和可解释性。长远来看，框架可拓展至更复杂的红队演习，甚至探索发现未知漏洞和与防御系统协同，以期实现更强大、更智能的网络安全评估能力。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：玄枢战队-Arcane Hub zha zha《论文研读与思考 | 渗透测试智能体：融合大语言模型智能体的自动化渗透测试技术研究》