第134期|GPTSecurity周报

admin 2026-02-10 14:31:38 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本期GPTSecurity周报介绍了6篇前沿安全论文:Co-RedTeam提出多智能体协同漏洞发现与利用框架,实现超60%利用成功率;针对LLM钓鱼URL检测的零样本/少样本基准测试显示少样本策略显著提升性能;语义共识解码(SCD)有效防御Verilog代码生成后门攻击,将攻击成功率从89%降至3%以下;MaMa算法基于博弈论设计鲁棒安全智能体系统;首次系统评估了针对多模态LLM钓鱼检测的提示注入攻击并提出InjectDefuser防御框架;研究揭示静态分析工具在安全代码评估中存在显著偏差,提出结合持续人工反馈的改进框架。 综合评分: 85 文章分类: 红队,AI安全,漏洞分析,安全开发,威胁情报


cover_image

第134期 | GPTSecurity周报

原创

知识分享者 知识分享者

安全极客

2026年2月9日 17:36 北京

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

  1. 协同红队:基于大语言模型智能体的协同化安全漏洞发现与利用

简介:大语言模型在网络安全任务辅助中展现出良好潜力,但现有方法受限于交互能力不足、执行落地性弱以及缺乏经验复用机制,难以实现自动化的漏洞发现与利用。本文提出协同红队(Co-RedTeam)框架 —— 一款具备安全感知能力的多智能体框架,该框架融合安全领域知识、代码感知分析、基于执行的迭代推理与长期记忆机制,模拟真实场景下的红队作业流程。Co-RedTeam 将漏洞分析拆解为协同发现与协同利用两个阶段,支持智能体基于实际执行反馈完成动作的规划、执行、验证与优化,同时从历史作业轨迹中学习经验。

在高难度安全基准测试集上开展的大量实验验证表明,Co-RedTeam 在各类骨干模型上均持续优于性能强劲的基线方法,其漏洞利用成功率超 60%,漏洞检测性能实现超 10% 的绝对提升。消融实验与迭代研究进一步验证,执行反馈、结构化交互与记忆机制,对于构建鲁棒且可泛化的网络安全智能体具有核心作用。

链接:

https://arxiv.org/abs/2602.02164

  1. 大语言模型在零样本与少样本钓鱼 URL 检测中的性能基准测试

简介:统一资源定位符(URL)诞生于以连通性为核心的时代,初衷是定义资源访问方式、定位网络资源。尽管在网络安全时代,业界已推出超文本传输安全协议(HTTPS)这类被动防护手段,但从设计本源来看,URL 仍存在历史局限性,缺乏可面向未来、抵御欺诈与滥用行为的安全、可信及抗风险机制。

在当前以人工智能为核心的网络威胁格局下,网络犯罪分子广泛利用生成式人工智能,加之攻防双方展开人工智能对抗的军备竞赛,钓鱼网站与钓鱼 URL 的生成已实现场景感知化,其伪装程度达到前所未有的高度,无论是普通用户还是传统检测工具,几乎都无法对其进行有效甄别。2024 年,人工智能生成的钓鱼内容在绕过滤波的攻击中占比虽仍较低,但自 2022 年以来,钓鱼攻击的总量已激增超 4000%,成功规避检测的攻击数量更是增加了近 50%。当前网络威胁的升级速度持续加快,钓鱼攻击手段的迭代节奏远超标注数据的生产速度,而基于大语言模型的零样本与少样本学习方法,仅需极少的监督信息即可实现模型泛化,为这一难题提供了及时且具备适应性的解决方案。

钓鱼 URL 检测是大规模网络安全防御体系中的核心环节,基于此,本文构建了一套统一的零样本与少样本提示词框架,对多款大语言模型开展了全面的性能基准测试,并揭示了模型在实际部署中的性能权衡关系。本次评估采用样本均衡的数据集与标准化的提示词,以准确率、精确率、召回率、F1 值、受试者工作特征曲线下面积(AUROC)、精确率 – 召回率曲线下面积(AUPRC)为量化指标,从分类效果与威胁检测场景的实际实用性两个维度,对模型的性能、泛化能力及有效性展开了详细分析。研究最终得出结论:少样本提示词策略能有效提升多款大语言模型在钓鱼 URL 检测任务中的性能表现。

链接:

https://arxiv.org/abs/2602.02641

  1. 语义共识解码:面向 Verilog 代码生成的后门防御

简介:面向 Verilog 代码生成的大语言模型在硬件设计领域的应用日趋广泛,却仍易遭受后门攻击:攻击者会在模型训练阶段植入恶意触发条件,诱导模型生成存在安全漏洞的硬件设计方案。与可通过补丁修复的软件漏洞不同,硬件木马一旦完成流片制造便无法逆转,后续补救的成本极高,甚至完全无实现可能。现有主动防御方案需要获取模型训练数据,这对第三方大语言模型使用者而言不具备可操作性;而被动防御方案则难以应对语义隐蔽性触发条件,这类触发条件能自然融入设计规格说明,难以被识别。

本文提出假设:在同时满足攻击有效性与隐蔽性的前提下,攻击者会显著倾向于将触发条件嵌入非功能需求(如样式修饰要求、性能描述指标等),而非决定硬件核心行为的功能需求中。基于这一发现,本文提出语义共识解码(SCD)方案 —— 一种推理阶段的被动防御机制,该机制包含两大核心模块:(1)功能需求提取,从用户的设计规格说明中识别出硬件设计的核心需求;(2)共识解码,基于完整的用户规格说明与提取出的核心功能需求,对模型的输出分布进行自适应融合。当两种场景下的输出分布出现显著差异时,语义共识解码方案会自动抑制输出结果中的可疑成分。

本文针对三种典型的后门攻击开展了大量实验,结果表明:语义共识解码方案可将后门攻击的平均成功率从 89% 降至 3% 以下,且对模型的 Verilog 代码生成质量几乎无影响。

链接:

https://arxiv.org/abs/2602.04195

  1. MaMa 算法:面向安全智能体系统设计的博弈论方法

简介:基于大语言模型的多智能体系统已展现出令人瞩目的能力,但当部分智能体发生故障或表现出对抗性行为时,这类系统会引入显著的安全风险。本文围绕智能体系统的自动化设计问题展开研究,目标是打造即便在部分智能体被攻陷的情况下,仍能维持安全状态的智能体系统。研究者将这一设计难题形式化建模为斯塔克尔伯格安全博弈,博弈双方分别为系统设计者(元智能体)与具备最优响应能力的元对抗者 —— 后者会选择并攻陷部分智能体,以此破坏系统安全。

本文提出元对抗者 – 元智能体算法(MaMa),这是一种用于近似求解该博弈问题、并能自动化设计安全智能体系统的新型算法。该方法采用基于大语言模型的对抗搜索策略,由元智能体迭代提出系统设计方案,并根据元对抗者挖掘出的最强攻击手段获取反馈。

在各类应用环境中开展的实证评估结果表明,基于 MaMa 算法设计的系统能够持续抵御各类最坏情况的攻击,同时保持与仅针对任务完成度优化的系统相当的性能表现。此外,该算法设计的系统可泛化适配更强的对抗者,也能应对具备不同攻击目标、或基于不同底层大语言模型的对抗者,体现出超越训练场景的鲁棒安全特性。

链接:

https://arxiv.org/abs/2602.04431

  1. 镜影蒙尘:针对基于大语言模型的钓鱼检测的隐蔽式提示注入攻击

简介:钓鱼网站的数量持续攀升,攻击手段也愈发复杂隐蔽。近期相关研究利用大语言模型(LLM)分析统一资源定位符、超文本标记语言及页面渲染内容,以此判定目标网站是否为钓鱼网站。这类方法虽展现出良好的应用前景,但大语言模型本身存在提示注入(PI)的固有漏洞。由于攻击者能够完全掌控钓鱼网站的各类元素,这就为利用大语言模型与人类的感知不对称性实施提示注入攻击创造了可能:终端用户无法察觉的指令,却能被大语言模型解析,进而隐秘地操纵其判断结果。目前,提示注入攻击在钓鱼检测场景中存在的具体风险,以及对应的有效缓解策略,仍未得到充分研究。

本文首次针对多模态大语言模型钓鱼检测系统,开展了提示注入攻击的综合性评估研究。研究者构建了由攻击手段和攻击面两大维度构成的二维分类体系,对具备实际攻击价值的提示注入策略进行系统归纳。基于该分类体系,研究者实现了多种类型的提示注入攻击,并对多款具有代表性的大语言模型钓鱼检测系统开展了实证研究。实验结果表明,即便以 GPT-5 为代表的当前主流模型,其钓鱼检测功能仍易遭受提示注入攻击。

在此基础上,研究者提出了防御框架 InjectDefuser(注入消解器),该框架融合了提示加固、基于白名单的检索增强与输出验证三大核心机制。实验验证显示,InjectDefuser 在多款大语言模型上均能显著降低提示注入攻击的成功率。本文的研究成果厘清了钓鱼检测场景下提示注入攻击的风险格局,同时提出了切实可行的防御方案,为提升下一代钓鱼攻击防护手段的可靠性提供了支撑。

链接:

https://arxiv.org/abs/2602.05484

  1. 持续式人工反馈结合大语言模型与静态分析工具:面向安全代码生成与漏洞检测的研究

简介:现有研究在评估大语言模型的安全代码生成与漏洞检测能力时,高度依赖静态分析工具。本研究对 1080 个由大语言模型生成的代码样本展开系统性分析,构建了经人工验证的基准真值数据集,并将 CodeQL 与 Semgrep 这两款主流静态安全分析工具的检测结果,与该数据集进行全面对比。研究发现,尽管实际仅有 61% 的样本真正不存在安全漏洞,但 Semgrep 与 CodeQL 却分别将 60% 和 80% 的样本判定为安全代码。

尽管二者的整体统计检测结果看似趋于一致,但针对单个样本的精细化分析却暴露了显著的检测偏差:Semgrep 的检测报告中仅有 65%、CodeQL 的检测报告中仅有 61% 与基准真值相吻合。上述研究结果对将静态分析工具作为代码安全唯一评估手段的可靠性提出了质疑,同时也凸显了引入领域专家人工反馈的必要性。

基于这一核心发现,本文提出了一套概念框架:该框架将人工反馈进行持久化存储,并融入动态的检索增强生成流程,使大语言模型能够复用历史人工反馈信息,从而提升其安全代码生成与漏洞检测的实际表现。

链接:

https://arxiv.org/abs/2602.05868

-End-


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:安全极客 知识分享者 知识分享者《第134期 | GPTSecurity周报》

评论:0   参与:  2