2026-05-20 06:12:00 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： ExploitGym是首个面向AIAgent的大规模真实漏洞利用评估基准，覆盖用户空间、浏览器V8引擎和Linux内核三大领域。研究显示ClaudeMythosPreview和GPT-5.5分别成功利用157和120个漏洞实例，但存在大量非预期路径利用现象。实验证明AIAgent已具备绕过ASLR、栈金丝雀等经典防御的能力，强调需加强模型治理与防御机制建设。 综合评分： 92 文章分类： 漏洞分析,AI安全,红队,安全工具,威胁情报

cover_image

内卷的风还是吹到了漏洞利用：ExploitGym 全自动漏洞利用Agent评估

原创

i3eg1nner i3eg1nner

SecureNexusLab

2026年5月19日 09:15 北京

在小说阅读器读本章

去阅读

❝

「Title:」 ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks?

「Affiliation:」 UC Berkeley, Max Planck Institute for Security and Privacy, UC Santa Barbara, Arizona State University, Anthropic, OpenAI, Google

❞

1. 研究背景

近年来，随着大语言模型（LLM）和AI Agent技术的快速进步，AI在网络安全领域的应用能力持续提升。从漏洞复现、补丁生成到CTF挑战解决，前沿模型已在多个网络安全基准测试中展现出令人瞩目的表现。然而，一个关键且尚未被系统评估的能力——漏洞利用（Exploitation）——却始终处于评估盲区。

漏洞利用是指将一个尚未构成攻击的漏洞（如缓冲区溢出）逐步转化为具体的安全影响（如未授权文件访问或代码执行）的过程。这一任务本质上具有双重性：一方面，它支持防御工作流，帮助评估漏洞严重性、优先排序补丁和验证缓解措施；另一方面，它也可能降低攻击者的技术门槛，带来安全隐患。

然而，现有的网络安全基准测试存在显著局限。如表1所示，虽然NYU CTF、Cybench等基准包含利用任务，但它们规模较小（最多200个实例），且主要聚焦于CTF环境或用户空间软件。更重要的是，这些基准缺乏对现实世界中复杂防御机制的模拟，如ASLR、栈金丝雀、V8堆沙箱等。基于此，本文提出ExploitGym——首个面向AI Agent的大规模、多样化、真实漏洞利用评估基准。

2. 研究挑战

尽管漏洞利用在安全研究中具有重要地位，但构建一个系统化的评估基准面临多重挑战。已有研究主要局限于概念验证或依赖人工操作，实际落地时存在以下核心难点：

「挑战1：现实漏洞的复杂性与多样性。」 现有基准多基于合成漏洞或CTF环境，而真实世界的漏洞涉及用户空间程序、浏览器JavaScript引擎、操作系统内核等多个领域。每个领域的安全模型、攻击面、防御机制各不相同，构建统一的评估框架需要处理从内存布局到指令级控制流的复杂推理。

「挑战2：防御机制的系统性评估。」 现代软件系统部署了多层防御（如ASLR、栈金丝雀、V8堆沙箱、KASLR等），这些防御机制是数十年系统安全研究的成果。评估AI Agent能否在真实防御环境下成功利用漏洞，不仅需要构建可配置的防御环境，还需要理解不同防御组合对利用成功率的影响。

「挑战3：利用结果的可靠验证。」 判断一个利用是否成功并非简单的“是否获取flag”。Agent可能通过非预期路径（如利用其他更易利用的漏洞）达成目标，也可能复现已知的公开利用代码。因此，需要设计两阶段验证机制：首先验证是否实现了未授权代码执行，其次验证是否确实利用了目标漏洞。

3. ExploitGym设计

ExploitGym是一个基于容器化环境的自动化评估框架，旨在系统性地评估AI Agent在真实漏洞利用任务上的能力。如图1所示，该框架包含四个核心组件：

Figure 1: Overview of ExploitGym. A vulnerability paired with a mitigation setting defines a task instance, which provides the agent with build, vulnerability, and runtime information. The agent interacts with a restricted remote target to develop exploits. Success is verified in two stages: flag verification confirms unauthorized code execution, and an agent-as-a-judge assesses whether the exploit targets the provided vulnerability.

「任务实例构建模块。」 每个实例包含三类信息：构建信息（源码、构建配置、构建脚本）、漏洞信息（触发输入PoV、漏洞描述、补丁）、运行时信息（编译后的二进制文件、启动脚本）。漏洞信息组件可独立配置，允许评估不同信息量对Agent性能的影响。这解决了挑战1，确保评估覆盖用户空间、V8引擎和Linux内核三个领域的真实漏洞。

「可配置防御机制模块。」 如表2所示，每个领域暴露独立的防御开关。用户空间支持ASLR+PIE和栈金丝雀；V8支持ASLR和堆沙箱；Linux内核支持KASLR和用户命名空间。这种设计直接回应挑战2，使研究者能够隔离不同防御机制对Agent性能的影响，并评估AI驱动的攻击者能否绕过这些经典防御。

Table 2: Benchmark overview. Each row is one exploitation surface. Mitigations lists the defenses exposed as independent toggles.

「两阶段验证模块。」 首先，每个目标环境包含一个动态生成的flag，该flag存储在Agent授权范围之外，只有通过未授权代码执行才能获取。其次，引入Agent-as-a-Judge机制，独立审查Agent的完整轨迹，判断其是否真正利用了目标漏洞而非其他捷径。这解决了挑战3，确保评估结果的可靠性。

「容器化执行环境。」 所有组件打包在可复现的容器化环境中，确保评估的一致性和可复现性。Agent与远程目标交互，支持多轮交互和目标重置。

4. 实验与结果

「实验设置。」 研究团队评估了六种前沿模型及其推荐的Agent框架，包括Claude Mythos Preview搭配Claude Code、GPT-5.5搭配Codex CLI等。所有实验在安全防护关闭的条件下进行，以测量模型的能力边界。每个任务设置两小时超时限制。

「核心指标与对比分析。」 如表3所示，最强配置（Claude Mythos Preview和GPT-5.5）分别成功利用了157和120个实例。GPT-5.4也解决了54个任务，处于中间梯队。其余模型组合解决任务数均少于15个，表明端到端漏洞利用仍具有挑战性，且能有效区分不同模型的能力。

Table 3: Agent performance and cost comparison (two-hour timeout). Success denotes instances in which the agent exploits the intended vulnerability, shown as the total and broken down by domain: userspace (U), browser V8 (B), and kernel (K). Cost (USD) is estimated. The remaining columns report per-task averages over the successful subset (Succ.) and over the full benchmark (Full). Experiments are conducted under trusted-access programs [4, 39] with safeguards disabled.

「深层发现。」 研究发现，Agent经常通过非预期路径达成目标。如表4所示，flag获取与目标漏洞利用的对齐率从36.4%到83.1%不等。GPT-5.5和Claude Mythos Preview的对齐率仅为56.7%和69.5%，意味着它们分别有90和69次成功是通过非预期路径实现的。手动轨迹审查揭示了两种模式：一是Agent发现邻近但更强大的漏洞；二是Agent判断目标漏洞不可利用后，主动搜索全新的攻击面，甚至进行动态模糊测试。

Table 4: Flag-to-success rate

「时间预算分析。」 如图2所示，Claude Mythos Preview在6小时超时设置下持续积累成功，未出现明显饱和，表明其具备持续的长周期Agent工作流能力。相比之下，Claude Opus 4.6在30分钟内饱和，只能解决简单的挑战。

Figure 2: Cumulative exploits over wall-clock time (6-hour max.)

「防御机制效果。」 如表5所示，标准防御机制显著降低了成功率，但并未完全消除。Agent仍能在启用防御的情况下成功利用37个用户空间任务、20个V8任务和12个内核任务。例如，Agent通过部分指针覆盖和低位暴力破解绕过ASLR，通过Wasm调度表和Irregexp字节码绕过V8沙箱，通过滥用可写静态字符串绕过KASLR。

Table 5: Mitigation-bypassing exploits

「案例研究。」 图4展示了GPT-5.4如何将一个仅触发debug构建断言的5行PoV逐步转化为完整的代码执行利用链。Agent经历了8个阶段：从确认原始PoV在release构建中不暴露内存损坏，到识别接收器形状驱动的bug，构建越界堆读取原语，最终通过伪造对象和虚拟函数调度实现控制流劫持。整个过程中，Agent进行了447次bash命令、21次文件编辑，生成了229行的exploit.js，耗时71分钟，花费15.80美元。

Figure 4: Shortened trajectory of an agent exploiting a V8 vulnerability. Starting from a PoV that triggers an assertion, the agent derives an out-of-bounds read, escalates it to arbitrary native memory reads, and hijacks a virtual IsCacheable() dispatch call to execute the privileged flag-reading helper. An independent scorer verifies whether the exploit targets the specified vulnerability.

「效率与成本。」 成功任务的单次平均成本从3.75美元（GLM-5.1）到22.99美元（GPT-5.5）不等。GPT-5.5在成功任务上平均调用256.8次LLM，耗时49.6分钟；而在全量基准上平均调用375.4次，耗时69.8分钟。这表明更强的模型虽然单次调用成本更高，但任务完成效率也更高。

总体而言，ExploitGym的评估结果揭示了一个重要趋势：前沿AI Agent的自主漏洞利用能力已不再是假设性威胁。尽管当前Agent尚未在所有目标上可靠运行，但它们已在相当比例的真实世界漏洞上取得成功，包括内核等复杂目标。这一发现强调了负责任模型开发和更强防御机制建设的紧迫性。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：SecureNexusLab i3eg1nner i3eg1nner《内卷的风还是吹到了漏洞利用：ExploitGym 全自动漏洞利用Agent评估》