2026-02-03 00:39:10 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本期周报汇总六篇AI安全研究，聚焦大模型在安全领域的应用与风险。核心内容涵盖：LLM智能体高效过滤SAST误报；基于真实仓库的代码安全生成评估；融合RAG技术降低钓鱼检测误报；智能体式代码评审提升检测效能；揭露思维链新型投毒攻击；以及智能体处理恶意URL的漏洞基准。研究展示了AI在安全攻防中的最新进展。 综合评分： 80 文章分类： AI安全,代码审计,漏洞分析,安全工具

cover_image

第133期 | GPTSecurity周报

原创

知识分享者知识分享者

安全极客

2026年2月2日 17:35 北京

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

剔除干扰：大语言模型智能体在漏洞误报过滤中的对比研究

简介：静态应用安全测试（SAST）工具是识别软件漏洞的关键手段，但其往往会产生大量误报，给开发人员带来繁重的人工分类排查工作负担。大语言模型（LLM）智能体的近期技术进展为解决该问题提供了可行方向，这类技术能够通过迭代推理、工具调用与环境交互对 SAST 告警进行精准筛选。然而，不同大语言模型智能体架构在漏洞误报过滤任务中的效果对比，目前仍缺乏深入的研究与认知。

本文针对三款当前主流的大语言模型智能体框架（Aider、OpenHands、SWE-agent），开展漏洞误报过滤的对比研究。研究采用 OWASP 基准测试集的漏洞数据，结合真实场景下的开源 Java 项目漏洞数据，对上述框架进行全面评估。实验结果表明，大语言模型智能体能够有效剔除绝大部分 SAST 工具产生的干扰告警：在 OWASP 基准测试集中，其可将超 92% 的初始误报率，在最优配置下降至 6.3%；在真实场景数据集上，针对 CodeQL 工具产生的告警，大语言模型智能体的最优配置实现了 93.3% 的误报识别率。

研究同时发现，大语言模型智能体的过滤效果高度依赖骨干模型与常见弱点枚举（CWE）的漏洞类型：对于 Claude Sonnet 4、GPT-5 这类性能较优的骨干模型，智能体框架的过滤效果显著优于基础提示词调用方式；而针对性能较弱的骨干模型，智能体框架的提升效果有限且表现不稳定。此外，激进的误报剔除策略可能以漏报真实漏洞为代价，这揭示了该任务中存在的关键权衡关系。最后，本研究还发现不同智能体框架的计算成本差异显著。

总体而言，本研究验证了大语言模型智能体是 SAST 漏洞误报过滤的高效解决方案，但该方案并非通用型方案；其实际落地应用需要综合考量智能体设计方案、骨干模型选型、漏洞类型以及实际运营成本等多方面因素。

链接：

https://arxiv.org/abs/2601.22952

RealSec-bench：真实项目仓库下安全代码生成能力的评估基准

简介：大语言模型（LLMs）在代码生成领域展现出卓越的能力，但其生成安全代码的水平仍是一个关键且尚未被充分研究的方向。现有评估基准存在明显短板：这类基准多依赖人工合成的漏洞案例，或孤立地评估代码的功能正确性，无法捕捉真实软件中功能与安全之间的复杂关联。为填补这一研究空白，研究者提出了 RealSec-bench 评估基准 —— 该基准基于真实的高风险 Java 项目仓库精心构建，专门用于评估模型的安全代码生成能力。

本研究采用多阶段构建流程，将基于 CodeQL 的系统化静态应用安全测试（SAST）扫描、大语言模型驱动的误报剔除，以及严格的人工专家验证相结合，完成了基准的构建。最终形成的 RealSec-bench 包含 105 个基于真实项目仓库场景的测试实例，覆盖 19 类常见弱点枚举（CWE）漏洞类型，且呈现出丰富的数据流复杂度，其中部分漏洞存在多达 34 跳的过程间依赖关系。

研究者基于 RealSec-bench 对 5 款主流大语言模型开展了全面的实证研究，并提出了全新的复合评估指标安全通过率 @K（SecurePass@K），可同时对代码的功能正确性与安全性进行量化评估。研究发现，检索增强生成（RAG）技术虽能有效提升代码的功能正确性，但对安全性的改善效果微乎其微；此外，向模型显性输入通用安全规范类提示词，往往会导致代码编译失败，该方式不仅无法可靠防范漏洞产生，还会损害代码的功能正确性。

本研究揭示了当前大语言模型在功能代码生成与安全代码生成能力之间存在的显著差距。

链接：

https://arxiv.org/abs/2601.22706

以用户为核心的钓鱼邮件检测：一种基于检索增强生成与大语言模型的方法

简介：钓鱼邮件的制作手段日趋复杂，亟需突破传统基于规则和常规机器学习的检测方法的局限。尽管大语言模型（LLM）具备强大的自然语言理解能力，但将其作为独立分类器使用时，往往会产生较高的误报率，将合法邮件误标记为钓鱼邮件，进而带来沉重的运营负担。本文提出一种个性化钓鱼邮件检测框架，将大语言模型与检索增强生成（RAG）技术深度融合。针对每一封待检测邮件，该系统会检索用户的少量历史合法邮件以构建用户专属上下文，并结合网络威胁情报平台提供的实时域名与网址信誉信息对其进行补充，随后让大语言模型基于该整合证据做出检测判定。

研究团队基于从公共和机构数据源收集的邮件数据集，对四款开源大语言模型（Llama4-Scout、DeepSeek-R1、Mistral-Saba、Gemma2）开展了性能评估。实验结果显示该框架性能表现优异：例如 Llama4-Scout 模型的 F1 值达 0.9703，在融合检索增强生成技术后，误报率降低了 66.7%。上述研究结果证实，这种基于检索增强生成技术的用户画像构建方法，在打造适配个人沟通模式、高精度且低运维成本的邮件安全系统方面，兼具可行性与有效性。

链接：

https://arxiv.org/abs/2601.21261

AgenticSCR：一种用于潜在漏洞检测的自主智能体式安全代码评审方法

简介：安全代码评审在代码提交前阶段至关重要，该阶段需在严苛的延迟限制和有限的上下文条件下，尽早发现软件漏洞。现有基于静态应用安全测试（SAST）的检测方式告警干扰性强，且常遗漏依托业务上下文存在的潜在漏洞；而独立部署的大语言模型（LLMs）受限于上下文窗口容量，同时缺乏显式的工具调用能力。智能体式人工智能（Agentic AI）将大语言模型与自主决策、工具调用及代码导航能力深度融合，为解决上述问题提供了可行方案，但该技术在提交前安全代码评审场景中的实际应用效果，目前尚未得到深入探究。

本文提出 AgenticSCR—— 一款面向代码提交前阶段、专用于潜在漏洞检测的智能体式人工智能安全代码评审系统，该系统集成了聚焦安全领域的语义记忆模块，实现了检测能力的增强。研究者针对提交前安全代码评审的场景特性，自主构建了一套专属的潜在漏洞评估基准集，并基于此开展实证研究，验证 AgenticSCR 在潜在漏洞的定位、检测及成因解释方面的准确性。

研究结果表明，与基于大语言模型的静态基准方法相比，AgenticSCR 生成正确代码评审意见的比例相对提升至少 153%，且性能显著优于各类 SAST 工具。此外，在五类漏洞类型的检测中，有四类场景下 AgenticSCR 能生成更多准确的评审意见，其性能持续且显著优于所有其他基准方法。上述研究结果凸显了智能体式安全代码评审技术的核心价值，为潜在漏洞检测这一新兴研究方向奠定了研究基础、指明了发展路径。

链接：

https://arxiv.org/abs/2601.19138

思维迁移：针对思维链推理模型的间接定向投毒攻击

简介：思维链（CoT）推理已成为一种高效技术，通过为复杂任务生成中间推理步骤，大幅提升大语言模型的能力。为让大语言模型具备推理能力，业界的通用做法是利用抱抱脸（HuggingFace）等公共代码仓库中的思维链数据集，对预训练模型进行微调，这一做法也催生了针对推理轨迹本身的新型攻击向量。尽管现有研究已证实，可对基于思维链的模型发起后门攻击，但此类攻击需在训练集中明确植入带有错误推理和错误答案的触发式查询，才能实现攻击效果。

本研究揭示了推理模型中一类全新的间接定向投毒攻击手段：该手段通过迁移模型从其他任务中学到的思维链轨迹，操控模型在目标任务上的输出结果。研究者提出的 “思维迁移” 攻击，仅需篡改训练样本的思维链轨迹，无需改动查询内容与答案，即可影响大语言模型在目标任务上的输出，形成一种 “干净标签” 投毒攻击。与现有定向投毒攻击不同 —— 这类攻击要求投毒数据中必须明确包含目标任务样本，而思维迁移攻击即便在与训练集完全无关的全新领域中，植入定向攻击行为的成功率仍能达到 70%。此外，使用被投毒的推理数据开展训练，还能让模型在多个基准测试中的性能提升 10%~15%，这也会诱导用户主动使用被投毒的推理数据集。

本研究发现了推理模型催生的一种新型攻击向量，现有防御手段难以对其进行有效防范。

链接：

https://arxiv.org/abs/2601.19061

MalURLBench：评估智能体处理网络网址时安全漏洞的基准测试集

简介：基于大语言模型的网络智能体因其在日常生产生活中的实用价值，应用愈发广泛。但这类智能体在处理恶意网址时存在严重的安全漏洞：若接收了经过伪装的恶意网址，可能会引发后续对不安全网页的访问行为，进而给服务提供方和用户造成严重损失。尽管该安全风险客观存在，目前却尚无专门针对这一新型威胁的评估基准。为填补这一研究空白，研究者提出了 MalURLBench 基准测试集，这是首个用于评估大语言模型及相关智能体应对恶意网址的安全漏洞专用基准。

该基准测试集包含 61845 个攻击实例，覆盖 10 类真实应用场景与 7 类实际恶意网站类型。研究团队基于 12 款主流大语言模型开展相关实验，结果表明，现有模型难以识别经过精心伪装的恶意网址。研究者进一步识别并分析了影响攻击成功率的关键因素，并针对性提出了轻量级防御模块 URLGuard。研究团队认为，本项研究成果将为提升网络智能体的安全防护能力提供基础性研究资源。

链接：

https://arxiv.org/abs/2601.18113

-End-

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全极客知识分享者知识分享者《第133期 | GPTSecurity周报》