2026-03-10 01:32:10 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本期GPTSecurity周报精选六篇论文，聚焦大语言模型在安全领域的应用。SemFuzz框架利用LLM检测协议语义漏洞，SAHA框架揭示模型深层注意力头脆弱性。研究提出护栏验证机制保障AI智能体可信度，ESAA架构与SecureRAG-RTL分别优化代码审计与硬件漏洞检测。ZeroDayBench基准测试评估了智能体应对零日漏洞的能力，展示了AI在攻防两端的前沿进展。 综合评分： 80 文章分类： AI安全,漏洞分析,代码审计,安全工具,技术标准

cover_image

第136期|GPTSecurity周报

原创

知识分享者知识分享者

安全极客

2026年3月9日 17:35 北京

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

SemFuzz：一种面向网络协议实现的语义感知模糊测试框架

简介：网络协议是现代通信的基础，但其实现中常常存在语义漏洞，这些漏洞源于对规范语义理解不足。现有的灰盒和黑盒测试方法缺乏协议的语义建模，难以精确表达测试意图和覆盖边界条件。此外，它们通常依赖于粗粒度的“预言机”，例如崩溃，这不足以识别深层的语义漏洞。为了克服这些局限性，研究者提出了一种语义感知模糊测试框架——SemFuzz。该框架利用大语言模型从 RFC 文档中提取结构化的语义规则，并生成故意违反这些规则的测试用例，以编码特定的测试意图。然后，它通过比较观察到的响应和预期响应来检测深层的语义漏洞。对七个广泛部署的协议实现的评估表明，SemFuzz 识别出了 16 个潜在漏洞，其中 10 个已被确认。在已确认的漏洞中，5 个是之前未知的，4 个已被分配了 CVE 编号。这些结果证明了 SemFuzz 在检测语义漏洞方面的有效性。

链接：

https://arxiv.org/abs/2603.05989

AI 智能体中的护栏验证机制及其可信度

简介：随着 AI 智能体作为在线服务被广泛部署，用户往往依赖智能体开发者宣称的安全保障措施，这带来了安全措施被虚假宣传的安全威胁。为应对这一威胁，研究者提出护栏验证机制（Proof-of-Guardrail），该系统能让开发者提供加密证明，证明某条回复是在特定开源护栏的约束下生成的。为生成该证明，开发者需在可信执行环境（TEE）中运行智能体与护栏，由此产生由 TEE 签名的、可被任何用户离线验证的护栏代码执行证明。研究者针对 OpenClaw 智能体实现了护栏验证机制，并评估了其延迟开销与部署成本。护栏验证机制可保障护栏执行的完整性，同时保护开发者的智能体隐私；但研究者也指出了安全相关的欺骗风险，例如恶意开发者主动破解护栏的情况

链接：

https://arxiv.org/abs/2603.05786

从深度安全注意力头破解大语言模型

简介：目前，开源大语言模型（OSLLMs）已展现出卓越的生成性能。然而，随着其结构与权重公开，即使经过对齐训练，它们仍面临破解攻击的风险。现有攻击主要在浅层（如提示词或嵌入层）展开，往往无法触及模型深层组件中存在的漏洞，这会让防御成功的一方产生虚假的安全感。在本文中，研究者提出安全注意力头攻击（SAHA）—— 一种基于注意力头层级的破解框架，用于挖掘模型深层但对齐不足的注意力头所存在的漏洞。SAHA 包含两项创新设计：首先，研究者发现更深层的注意力层更容易受到破解攻击的影响。基于这一发现，SAHA 提出了消融影响排序头选择策略，以有效定位最易导致生成不安全输出的关键层。其次，研究者引入了一种边界感知扰动方法，即逐层扰动，以在对注意力施加最小扰动的前提下探测不安全内容的生成。这种受约束的扰动在确保规避检测的同时，保证了与目标意图更高的语义相关性。大量实验证明了研究者方法的优越性：SAHA 相较于现有最优基线，将攻击成功率（ASR）提升了 14%，揭示了注意力头攻击面所存在的脆弱性。

链接：

https://arxiv.org/abs/2603.05772

ESAA-安全：一种面向 AI 生成代码智能体辅助安全审计的事件溯源、可验证架构

简介：人工智能辅助的软件生成技术提升了开发速度，但也放大了一个长期存在的工程问题：功能正确的系统在结构上仍可能存在安全缺陷。在实践中，基于提示词的大语言模型安全审查往往存在覆盖不均、可复现性弱、结论缺乏依据且缺少不可篡改的审计追踪等问题。ESAA 架构通过将启发式智能体认知与确定性状态变更解耦，借助仅追加事件、约束输出和基于重放的验证机制，解决了智能体软件工程中的相关治理问题。本文提出ESAA – 安全，这是 ESAA 在软件仓库智能体辅助安全审计领域的专用化扩展，重点面向 AI 生成或 AI 修改的代码。ESAA – 安全将审计构建为一个受管控的执行流水线，包含侦察、领域审计执行、风险分类与最终报告四个阶段，并将工作流具体化为 26 项任务、16 个安全领域与 95 项可执行检查。该框架生成结构化检查结果、漏洞清单、严重程度分级、风险矩阵、修复指导、执行摘要以及最终的 Markdown/JSON 格式审计报告。其核心思想是，安全审查不应被建模为与大语言模型的自由形式对话，而应是一个由契约和事件管控的、以证据为导向的审计流程。在 ESAA – 安全中，智能体在约束协议下输出结构化意图；协调器对其进行验证，将接受的输出持久化至仅追加日志，重构派生视图，并通过重放和哈希验证一致性。最终形成的是一种可追溯、可复现且以风险为导向的审计架构，其最终报告具备内生可审计性。

链接：

https://arxiv.org/abs/2603.06365

SecureRAG-RTL：一种面向硬件漏洞检测的检索增强、多智能体、零样本大语言模型驱动框架

简介：大语言模型（LLMs）在自然语言处理任务中展现出卓越能力，然而由于公开可用的硬件描述语言（HDL）数据集稀缺，其在硬件安全验证中的应用仍受到限制。这一知识缺口制约了大语言模型在检测硬件描述语言设计漏洞方面的性能。为应对这一挑战，研究者提出SecureRAG-RTL，一种基于检索增强生成（RAG）的新型方法，可显著提升基于大语言模型的硬件设计安全验证能力。研究者的方法将领域特定检索与生成式推理相结合，使模型能够克服硬件安全专业知识方面的固有局限。研究者通过纯提示词方法建立了漏洞检测基准率，随后证明 SecureRAG-RTL 在各类大语言模型架构上均实现了大幅性能提升，且与模型规模无关。平均而言，研究者的方法将检测准确率提升了约 30%，凸显了其在弥合领域知识差距方面的有效性。在评估过程中，研究者整理并标注了一个包含 14 个包含真实世界安全漏洞的硬件描述语言设计基准数据集，该数据集将公开发布以支持未来研究。研究结果表明，检索增强生成技术能够推动实现可扩展、高效且准确的硬件安全验证工作流程。

链接：

https://arxiv.org/abs/2603.05689

ZeroDayBench：评估大语言模型智能体在网络防御中应对未知零日漏洞的能力

简介：大语言模型（LLMs）正越来越多地作为软件工程智能体被部署，以自主参与代码仓库的开发工作。这类智能体的一大优势在于，它们能够在其所监管的代码库中发现并修复安全漏洞。为评估智能体在该领域的能力，研究者提出了ZeroDayBench基准测试，该测试要求大语言模型智能体在开源代码库中发现并修复 22 个全新的关键零日漏洞。研究者重点评估了三款前沿的大语言模型智能体：GPT-5.2、Claude Sonnet 4.5 以及 Grok 4.1。研究发现，当前的前沿大语言模型尚不具备自主解决这些任务的能力；同时，研究者观察到了一些行为模式，这些模式为如何在主动网络防御领域改进这些模型提供了方向。

链接：

https://arxiv.org/abs/2603.02297

-End-

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全极客知识分享者知识分享者《第136期|GPTSecurity周报》