2026-01-07 02:58:07 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本期周报汇总5篇顶会级论文：1)提出AgenticAI驱动的软件供应链自防御框架，利用LLM+RL+多智能体在CI/CD中主动发现并缓解漏洞，检测与响应优于传统方案；2)设计多模态溯源框架抵御提示注入，文本/视觉净化与输出验证结合，显著降低跨智能体信任泄露；3)首次评估完整流水线下的越狱攻击，发现现有过滤器可拦截几乎所有Jailbreak，但需优化召回与误报；4)构建意图驱动的多集群API网关治理架构，实现策略一致性、配置漂移减少42%、传播提速31%；5)提出EquaCode多策略越狱，通过数学方程+代码补全诱导LLM输出有害内容，在GPT系列模型上成功率超九成。研究共同指向AI系统需从单点防护转向全链路、多模态、多智能体协同的主动防御与治理。 综合评分： 95 文章分类： AI安全,供应链安全,漏洞分析,安全建设,云安全

cover_image

第129期|GPTSecurity周报

原创

知识分享者

安全极客

2026年1月5日 17:35 北京

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. 用于软件供应链安全自主防御的Agentic AI：从溯源到漏洞缓解

简介：软件供应链攻击正日益聚焦于可信开发与交付流程，因此传统的构建后完整性验证机制已不再适用。现有框架（如 SLSA、SBOM 和 in toto）主要用于提供溯源与可追溯性，但缺乏在软件生产过程中主动识别和消除漏洞的能力。本文提出一种基于Agentic AI的自主软件供应链安全方案，融合了基于大语言模型（LLM）的推理、强化学习（RL）与多智能体协作技术。该方案通过 LangChain 与 LangGraph 实现专用安全智能体的协同调度，借助模型上下文协议（MCP）与实际持续集成/持续部署（CI/CD）环境交互，并将所有观测结果与操作记录于区块链安全账本，以确保完整性与可审计性。其中，强化学习用于实现兼顾安全效能与运行开销平衡的自适应缓解策略，大语言模型则用于语义化漏洞分析及可解释性决策生成。

该框架通过模拟流水线与真实场景CI/CD集成（GitHub Actions 和 Jenkins）进行测试，覆盖注入攻击、不安全反序列化、访问控制违规及配置错误等典型威胁场景。实验结果表明，与基于规则、仅依赖溯源及仅使用强化学习的基准方案相比，该框架在检测准确率、缓解延迟及构建时间开销方面均表现更优 —— 检测精度更高、漏洞缓解响应更快，且构建时间开销处于合理范围。研究结果证实，智能体人工智能能够推动软件供应链从被动验证模式向主动自防御模式转型。

链接：

https://arxiv.org/abs/2512.23480

迈向可信Agentic AI：一种防范提示注入攻击的多模态框架

简介：大语言模型（LLMs）、视觉语言模型（VLMs）以及 LangChain、GraphChain 等新型智能体人工智能（Agentic AI）系统，赋能了能够跨多工具、多智能体进行推理、规划与交互的强大自主系统。然而，这种智能体协作环境显著增加了多模态提示注入（PI）攻击的发生概率 —— 隐藏或恶意指令可通过文本、图像、元数据或智能体间消息载体在智能体网络中传播，进而引发非预期行为、违反策略或状态破坏等风险。为缓解此类威胁，本文提出一种跨智能体多模态溯源感知防御框架：所有用户生成或上游智能体输出的提示需经过净化处理，且大语言模型生成的所有结果需在传输至下游节点前完成独立验证。

该框架包含文本净化智能体、视觉净化智能体与输出验证智能体，通过溯源账本实现协同调度 —— 溯源账本全程记录多模态数据的模态类型、来源信息及信任等级元数据。此架构确保智能体间通信遵循明确的信任边界，避免注入指令在 LangChain 或 GraphChain 类工作流中向下传播。实验评估结果表明，该框架显著提升了多模态注入攻击的检测准确率，最大限度减少了跨智能体信任泄露，同时使智能体执行路径更趋稳定。该框架将溯源追踪与验证理念拓展至多智能体协同调度场景，为构建安全、可解释且可信的智能体人工智能系统提供了重要支撑。

链接：

https://arxiv.org/abs/2512.23557

越狱攻击与内容安全过滤器：LLM安全军备竞赛进展如何？

简介：随着大语言模型（LLMs）的部署日益广泛，确保其安全使用至关重要。越狱攻击（Jailbreaking）指通过绕过模型对齐以触发有害输出的对抗性提示，这类攻击具有显著风险 —— 现有研究表明，其规避主流 LLM 安全机制的成功率较高。然而，以往的评估仅聚焦于模型本身，却忽略了完整的部署流水线（该流水线通常包含内容审核过滤器等额外安全机制）。为填补这一研究空白，本文首次针对 LLM 安全对其开展越狱攻击的系统性评估，在涵盖输入与输出过滤阶段的完整推理流水线上，全面验证攻击的有效性。

研究得出两项核心发现：其一，几乎所有受评估的越狱技术均可被至少一种安全过滤器检测到，这表明以往研究可能高估了此类攻击的实际效果；其二，尽管安全过滤器在检测方面表现有效，但在平衡召回率与精确率以进一步优化防护效果和用户体验方面，仍存在改进空间。本文明确了当前 LLM 安全系统存在的关键短板，并呼吁进一步提升检测精度与可用性，为相关技术优化提供方向。

链接：

https://arxiv.org/abs/2512.24044

面向多集群云环境的安全可控API网关架构

简介：API 网关作为云原生系统中安全防护、治理管控与流量调度的核心执行点，其作用至关重要。随着企业日益广泛采用多集群与混合云部署模式，在异构网关环境中维持一致的策略执行效果、可预测的性能表现及稳定的运行状态面临严峻挑战。现有方案通常将安全、治理与性能视为松散耦合的关注点，导致配置偏移、策略传播延迟，且在动态工作负载下运行时行为不稳定。为此，本文提出一种治理感知型、意图驱动的多集群云环境 API 网关协同管理架构：该架构将安全、治理与性能目标转化为高层级声明式意图，通过系统化转换生成可执行的网关配置，并借助策略验证与遥测驱动反馈机制实现持续校验。

该架构在解耦意图定义与执行逻辑的同时，支持有限边界内的策略合规性自适应调整，能够兼容异构网关实现方案，且不影响治理保障效果与服务级别目标（SLO）。基于多 Kubernetes 集群的原型验证结果表明：与手动配置和声明式基准方案相比，该架构可使配置偏移减少 42%，配置传播时间提升 31%，且在可变工作负载下 p95 延迟开销持续维持在 6% 以下。研究结果证实，治理感知型、意图驱动的网关编排方案为构建安全可控、配置一致且性能可预测的云原生平台提供了可扩展且可靠的技术基础。

链接：

https://arxiv.org/abs/2512.23774

EquaCode：一种基于方程求解与代码补全的LLM多策略越狱攻击方法

简介：大语言模型（LLMs）（如 ChatGPT）已在众多领域取得显著成就，但其实用可信度仍面临严峻挑战 —— 这类模型仍易受越狱攻击影响，攻击者通过此类攻击诱导模型生成不当或有害响应。现有越狱攻击方案主要聚焦自然语言层面，且依赖单一攻击策略，这限制了其全面评估 LLM 鲁棒性的实际效果。为此，本文提出一种新型多策略越狱攻击方法 EquaCode，该方法通过方程求解与代码补全的跨域协同机制实现攻击目标：将恶意意图转化为数学问题，进而要求 LLM 通过代码求解，利用跨域任务的复杂性将模型注意力从安全约束转移至任务完成本身。

实验结果显示，EquaCode 在 GPT 系列模型上平均攻击成功率达 91.19%，在 3 个主流先进 LLM 上成功率高达 98.65%，且均仅需单次查询即可实现攻击效果。进一步的消融实验证实，该方法性能显著优于单独使用数学方程模块或代码模块的方案，体现出强烈的策略协同效应，验证了多策略融合攻击的效果优于单一策略的简单叠加（即实现 “1+1>2” 的攻击效能）。

链接：

https://arxiv.org/abs/2512.23173

-End-

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全极客知识分享者《第129期|GPTSecurity周报》