2025-12-23 16:02:03 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本周报涵盖六项研究。PentestEval提出LLM渗透测试基准，成功率仅31%，强调模块化。智能体AI测试显示Grok2攻击拒绝率低，揭示Agent安全短板。安全护栏调优将防护视为超参数，提升效率。WuppieFuzz实现覆盖率引导的RESTAPI模糊测试。SVS-TEST发现SBOM扫描器存在静默失效。MAD-OOD框架利用聚类驱动提升OOD恶意软件检测精度至0.911，应对未知威胁。 综合评分： 85 文章分类： AI安全,安全工具,漏洞分析,恶意软件,渗透测试

cover_image

第127期 | GPTSecurity周报

原创

知识分享者

安全极客

2025年12月22日 18:35 北京

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

PentestEval：基于模块化与阶段化设计的大语言模型渗透测试基准测试

简介：渗透测试对于评估和强化系统安全以抵御现实世界威胁至关重要，但传统工作流程仍高度依赖人工、需深厚专业知识支撑，且难以规模化推广。尽管近年来大语言模型（LLMs）的技术进展为渗透测试自动化提供了广阔前景，但现有应用多依赖简单提示词机制，未进行任务分解或领域适配优化，导致模型呈现出不可靠的黑箱行为，且无法深入解析其在渗透测试各阶段的能力边界。

为填补这一研究空白，本文提出 PentestEval—— 首个针对大语言模型的综合渗透测试基准测试框架。该框架将渗透测试流程分解为六个核心阶段：信息收集、漏洞收集与筛选、攻击决策、漏洞利用生成与修订（原文提及六个阶段，此处列出五项，推测为表述遗漏），整合了专家标注的真实标签与全自动评估流水线，涵盖 12 个真实漏洞场景下的 346 项任务，全面覆盖渗透测试全流程。

通过对 9 个主流大语言模型的阶段化评估发现，这些模型在渗透测试各阶段普遍表现薄弱，且存在显著局限性：端到端测试流程的成功率仅为 31%，而 PentestGPT、PentestAgent、VulnBot 等现有基于大语言模型的渗透测试系统也存在类似问题，其自主智能体几乎完全无法独立完成测试任务。

研究结果表明，自主渗透测试需具备更强的结构化推理能力，而模块化设计可有效提升各独立阶段的执行效能，进而优化整体测试性能。PentestEval 为未来细粒度、阶段化的大语言模型评估研究提供了核心基准支撑，为构建更可靠的基于大语言模型的渗透测试自动化技术奠定了基础。

链接：

https://arxiv.org/abs/2512.14233

智能体 AI 的渗透测试：跨模型与框架的安全性比较分析

简介：智能体 AI（Agentic AI）暴露出传统大语言模型（LLM）安全防护机制难以覆盖的新型漏洞。尽管帕洛阿尔托网络公司（Palo Alto Networks）旗下 Unit 42 团队的近期研究表明，ChatGPT-4o 作为智能体可成功执行其在聊天模式下拒绝的攻击行为，但目前尚无针对多模型、多框架的系统性比较分析。

本文首次对智能体 AI 系统开展全面渗透测试与比较评估：选取 5 款主流模型（Claude 3.5 Sonnet、Gemini 2.5 Flash、GPT-4o、Grok 2、Nova Pro），基于 2 个主流智能体框架（AutoGen、CrewAI），构建模拟大学信息管理系统功能的七智能体架构，设计涵盖提示注入、服务器端请求伪造（SSRF）、SQL 注入及工具滥用四大类别的 13 个典型攻击场景，共生成 130 个测试用例。

测试结果揭示显著的安全性差异：AutoGen 框架的攻击拒绝率为 52.3%，而 CrewAI 仅为 30.8%；模型层面，Nova Pro 的拒绝率达 46.2%，Claude 与 Grok 2 则均为 38.5%。最关键的发现是，CrewAI 框架下的 Grok 2 仅拒绝了 13 项攻击中的 2 项（拒绝率 15.4%）；所有配置的总体拒绝率仅为 41.5%，这意味着即便启用企业级安全机制，仍有超过半数的恶意提示成功触发攻击。

本文识别出 6 种独特的防御行为模式，包括一种新型 “幻觉合规” 策略 —— 模型并非执行或拒绝攻击，而是生成虚构的响应结果。同时，本文为智能体的安全部署提供了可落地的建议。附录中完整提供了所有攻击提示词，以确保研究的可复现性。

链接：

https://arxiv.org/abs/2512.14860

黑盒大语言模型的安全护栏自动调优

简介：大语言模型（LLMs）正日益部署于系统提示词、内容过滤器等安全护栏之后，尤其适用于产品团队无法修改模型权重的场景。但在实际应用中，这些护栏通常依赖人工调优，不仅脆弱易失效，且难以复现。本文提出一种简单且实用的替代方案：将安全护栏设计本身视为冻结基础模型的超参数优化问题。

具体而言，本文为 Mistral-7B-Instruct 模型封装了模块化越狱与恶意软件系统提示词，搭配基于 ModernBERT 的危害性分类器，并在三个公开基准测试集上对候选配置进行评估 —— 这些测试集涵盖恶意软件生成、经典越狱提示词及良性用户查询三大场景。每个配置的评分维度包括：恶意软件与越狱攻击成功率、良性查询有害响应率及端到端延迟。

本文通过对提示词组合与过滤器模式进行 48 点网格搜索，建立了基准性能；随后在同一搜索空间中开展黑盒 Optuna 优化实验，结果表明：该方法能稳定复现网格搜索找到的最优配置，同时评估次数减少一个数量级，实际运行时间缩短约 8 倍。研究结果显示，在计算资源与时间受限的场景下，将安全护栏视为可调优超参数，是强化黑盒大语言模型部署安全性的可行方案。

链接：

https://arxiv.org/abs/2512.15782

WuppieFuzz：覆盖率引导的有状态REST API模糊测试

简介：当前许多业务流程依赖于 Web 服务，这类服务通常通过 REST API 实现通信。REST API 通过端点暴露Web服务功能，支持客户端通过互联网便捷交互。为降低端点暴露带来的安全风险，亟需开展全面的安全性测试。由于 API 端点数量通常极为庞大，以模糊测试为代表的自动化测试技术备受关注。

本文提出一款基于 LibAFL 构建的开源 REST API 模糊测试工具 WuppieFuzz，支持白盒、灰盒与黑盒三种测试模式。该工具可基于 OpenAPI 规范生成包含请求序列的初始输入语料库，通过 REST 专用变异器与 LibAFL 内置变异器对输入进行变异，以探索被测软件中的不同代码路径。WuppieFuzz 以覆盖率数据为引导，智能选择后续待发送的请求序列，从而触发被测软件的复杂状态。在此过程中，工具实现了测试桩（harness）的自动化构建，大幅减少了传统模糊测试中大量的人工操作，并提供多种类型的测试报告以辅助漏洞修复。

为验证白盒测试方案的稳健性及不同能量调度策略（power schedules）的有效性，本文基于 Petstore API 对工具进行了评估；同时通过持续监测端点覆盖率与代码覆盖率，量化分析了该测试方案的实际效能。

链接：

https://arxiv.org/abs/2512.15554

基于SBOM的漏洞扫描器不一致性系统监测实用方案

简介：软件物料清单（SBOM）为软件产品的自动化漏洞识别提供了新的技术路径。尽管行业正逐步采用基于 SBOM 的漏洞扫描（SVS）技术进行漏洞识别，但该类工具日益凸显的结果不一致性与异常行为，已成为导致漏洞漏报及静默失败（无报错提示但扫描功能未正常执行）的关键诱因。

本文首先阐述了理解 SVS 技术底层复杂性所需的核心背景知识，进而提出 SVS-TEST—— 一种适用于真实场景的方法与工具，可系统性分析 SVS 工具的检测能力、技术成熟度及失效条件。为验证该方案的实用价值，本文设计了案例研究：基于 16 个精心构建的 SBOM 文件及其对应的真实标签（ground truth），对 7 款主流 SVS 工具开展测试评估。研究结果表明，不同 SVS 工具在可靠性与错误处理机制上存在显著差异：多款工具在输入合法 SBOM 文件时会出现静默失败，导致用户产生虚假的安全信任。

研究结论强调了该方案对研究人员与行业实践者的重要意义，包括组织与 SVS 工具开发者如何利用 SVS-TEST 监测工具的检测能力与成熟度演进。所有研究结果及相关研究成果（含测试数据、工具源码等）均已公开，且所有发现均已在论文发表前向相关 SVS 工具开发者进行了披露。

链接：

https://arxiv.org/abs/2512.17710

MAD-OOD：一种聚类驱动的深度学习分布外恶意软件检测与分类框架

简介：分布外（OOD）检测是恶意软件分类领域的核心挑战 —— 多态恶意软件与变形恶意软件变体导致的家族内显著变异，使得传统方法难以适配。现有主流深度学习恶意软件检测器多基于闭世界假设构建，未能充分建模此类类内变异，导致其在面对未见过的恶意软件家族时性能大幅下降。本文提出 MAD-OOD 框架，一种新型两阶段、聚类驱动的深度学习方案，旨在实现稳健的分布外恶意软件检测与分类。

第一阶段通过高斯判别分析（GDA）构建类条件球形决策边界，对恶意软件家族嵌入特征进行建模，无需训练过程中引入分布外数据即可实现基于统计理论的分布内 / 分布外样本分离；同时利用基于 Z 分数的多类中心距离分析，在 latent 空间中可靠识别异常样本。第二阶段采用深度神经网络，融合聚类预测结果、优化后的嵌入特征及有监督分类器输出，进一步提升最终分类精度。

基于包含 25 个已知家族及多种新型分布外变体的基准恶意软件数据集开展的大量实验表明，MAD-OOD 显著优于现有主流分布外检测方法，在未见过的恶意软件家族上实现最高 0.911的 AUC 值。该框架为动态演进的网络安全环境提供了可扩展、可解释且具备统计理论支撑的恶意软件检测与异常识别解决方案。

链接：

https://arxiv.org/abs/2512.17594

-End-

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全极客知识分享者《第127期 | GPTSecurity周报》