OWASPTop10forLLM2026可能修订的风险详解

admin 2026-03-27 03:28:37 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文详细解读了OWASPTop10forLLM2026版的潜在修订变化。核心要点包括:与2025年相比,2026版将保留LLMTop10并新增AgenticTop10以适应不同应用场景;风险项将被重写和扩展,如更清晰地区分提示词注入类型、强调模型完整性等;同时,还会纳入记忆污染、跨上下文污染、恶意微调、影子AI等近年来爆发的新风险。这些变化反映了AI安全从关注基础交互问题向系统化、复杂化风险治理的演进。 综合评分: 85 文章分类: AI安全,威胁情报,漏洞分析,安全建设,技术标准


cover_image

OWASP Top 10 for LLM 2026可能修订的风险详解

原创

不如相忘于江湖 不如相忘于江湖

Security for AI

2026年3月18日 16:17 韩国

引言

最近OWASP Top 10 for LLM 2026版本开启了修订征集工作,我一直在关注新版修订风险变化,发现2026年的变化可能有点大。这同时说明从2025年到2026年,AI自身安全经历了一次跃迁。

从OWASP官方收集到的反馈来看,今年的版本变化主要有三点:

  1. 保留LLM Top 10,并与Agentic Top 10并行存在,因为大量企业仍在部署非Agent化的RAG、企业问答机器人、AI增强工作流
  2. 重写若干风险项的边界,尤其是提示词注入、系统提示词泄露、过度代理、不当输出处理、向量与嵌入弱点
  3. 补进过去两年才真正爆发出来的新风险,例如记忆污染、跨上下文污染、恶意微调导致的行为漂移、影子AI、不安全代码生成,以及多模态与协议层带来的新攻击面。

本文将整合信息,回答改了什么、哪些风险最可能继续变化等等

榜单风险变化

如果只看风险名称,2025版似乎只是小修小补,但从架构视角看,2025版实际上完成了一次非常重要的重排。在2023到2024版诞生时,行业主要担心的是把模型接进应用之后会不会被提示词注入、会不会泄露数据、会不会出现幻觉与过度信任等。到了2025版,榜单已经明显转向面向生产环境的系统化风险:向量检索成了单独风险,系统提示词泄露被独立提出,模型拒绝服务和模型窃取被收束进无界消耗,训练数据投毒扩展成数据与模型投毒,过度依赖则改写为错误信息。

2023年讨论LLM安全时,大量应用还是纯聊天界面。2025年再看,RAG、向量数据库、长上下文、工具调用、微调、LoRA适配器等等,都已经进入主流工程实践。

下面这个是历年变化以及2026年预测变化

| | | | | | | | — | — | — | — | — | — | | 风险 | 2023到2024版正式风险 | 2025版正式风险 | 正式变化标签 | 正式变化的直观看法 | 2026年讨论中的拟议变化 | | 01 | LLM01 提示词注入 | LLM01 提示词注入 | 保留并细化 | 位置没变,仍然是总入口风险 | 要更清楚地区分直接注入和间接注入 | | 02 | LLM02 不安全输出处理 | LLM02 敏感信息泄露 | 位次重排 | 数据泄露从中后段风险升成前排风险 | 与记忆污染、跨租户污染强耦合 | | 03 | LLM03 训练数据投毒 | LLM03 供应链 | 主题替换 | 第三位从训练数据问题换成整体信任链问题 | 权重完整性与信任链会被强化 | | 04 | LLM04 模型拒绝服务 | LLM04 数据与模型投毒 | 主题替换 | 第四位从资源压垮转成完整性污染 | 恶意微调与行为漂移会继续强化 | | 05 | LLM05 供应链漏洞 | LLM05 不当输出处理 | 主题替换 | 第五位从依赖链问题换成下游执行风险 | 要把AI生成代码纳入主叙事 | | 06 | LLM06 敏感信息泄露 | LLM06 过度代理 | 主题替换 | 第六位从数据问题换成高权限动作问题 | 可能改名、拆分或部分退场 | | 07 | LLM07 不安全插件设计 | LLM07 系统提示词泄露 | 主题替换 | 插件设计问题退场,提示词暴露被单独点名 | 是否并回提示词注入仍在争论 | | 08 | LLM08 过度代理 | LLM08 向量与嵌入弱点 | 主题替换 | 第八位从工具自治转成RAG与检索层问题 | 授权边界和检索隔离要继续扩展 | | 09 | LLM09 过度依赖 | LLM09 错误信息 | 改名并重写 | 从人类盲信问题改写成错误信息造成的安全后果 | 人类信任与自动化偏见会回流 | | 10 | LLM10 模型窃取 | LLM10 无限消耗 | 合并升级 | 模型窃取并入成本滥用、资源过载和抽取问题 | 模型窃取仍会保留但不再单列 |

同时LLM Top 10与Agentic Top 10并不是谁替代谁的关系。社区更倾向把LLM Top 10视为基础模型与集成层基线,把Agentic Top 10视为自治编排、工具执行和多Agent协作的扩展层。这个判断与OWASP在Agentic AI威胁文档中的写法相互印证。Agentic系统引入了记忆、计划、工具、身份、跨Agent通信和长时任务,因此会放大原有LLM层风险,但不会消灭原有LLM层风险。

下面这个图可能更直观点

下面来分别拆解每个风险在2026年的可能的变化

提示词注入

提示词注入之所以在2026年仍然稳居第一,不是因为行业没有缓解措施,而是因为它仍然是绝大多数其他失效模式的起点。OWASP在2025版里把提示注入定义为,用户输入以非预期方式改变模型行为或输出。这里最重要的一点,是恶意内容并不需要对人类可见,只要能被模型解析就行。这一定义比早期讨论成熟得多,因为它不再把攻击局限在人与聊天界面的直接交互,而是把任何能进入提示组装链的内容都视为潜在攻击面。

2026年最大的修改之一,是明确区分直接提示词注入和间接提示词注入。直接提示词注入来自用户输入本身。间接提示词注入则来自网页、文档、邮件、知识库、工具返回结果、图片中的隐藏文本等外部内容。这个区分非常关键,因为它对应着两种完全不同的防御。面对直接提示词注入,团队往往会想到系统提示词加固、内容过滤和拒绝策略。面对间接提示词注入,真正困难的是信任边界:模型把外部内容误当成指令,而不是误当成数据。

敏感信息泄露

2026年这个风险很可能继续上升,原因并不是风险排序还会继续变,而是它和若干新威胁正在发生耦合。记忆持久化、状态投毒、跨上下文污染、跨租户污染的风险,说明运行期数据泄露已经不再只是模型泄露训练数据的问题。它越来越像典型的多租户系统隔离失败问题,只不过隔离失败发生在自然语言上下文、向量召回和记忆写回层。换句话说,传统应用安全里的越权读取、脏缓存、会话混淆,在LLM系统里正在以新的形式重演。

在隐私层面,敏感信息泄露还与模型反演、成员推断等隐私攻击问题紧密相连。尤其是当企业把文本向量化后存入共享检索系统时。

供应链

2026新增的恶意微调、模型行为漂移、向量数据库操纵等等,本质上都在扩展供应链的定义。过去我们把供应链理解为上线前的输入问题,今天则越来越像上线前后都在持续变化的完整性问题。只要企业依赖第三方模型服务、第三方适配器、第三方检索组件、第三方插件和第三方推理框架以及当下的第三方Skills,它的供应链就不是静态的,而是持续流动的。2026版很可能会进一步强调权重完整性、模型来源证明、适配器可信链和插件信任链。

数据与模型投毒

恶意微调和模型行为漂移,是这个风险接下来最值得关注的延伸。因为企业现在越来越依赖轻量微调、领域适配和个性化权重叠加,很多模型不再只有一个固定版本,而是在业务线、团队甚至个人级别上出现大量派生版本。只要这些版本的安全基线和评测门槛不一致,攻击者就能通过看似正常的定制化流程,把安全护栏慢慢削弱。它们都指向同一个现实风险:模型完整性正在成为比模型能力更难治理的问题

不当输出处理

如果说提示词注入讲的是输入如何改变模型,不当输出处理讲的就是输出如何伤害系统。这个风险在2026年会成为讨论热点,关键原因是AI生成代码已经不再是边缘功能。大量团队在把代码助手、脚本生成器、流程自动化Agent接入开发、运维和办公流程。这里的重点不是模型会不会写出有漏洞的代码,而是人类是否因为模型给出的答案看起来像成品,就跳过了原本必需的验证、审查和隔离步骤。

一个现实的例子,模型先在事实层面编造了一个不存在的包名,这属于错误信息。开发者再把这个输出当成可信建议直接落到代码里,这属于不当输出处理。攻击者随后注册同名恶意包,问题又进入供应链攻击。

过度代理

过度代理是2025版里最尴尬也最关键的一条。它描述的是开发者赋予LLM系统过多行动能力,让模型能够调用函数、访问外部系统、使用插件或工具,并在最小监督下自主执行动作。

在2026的变化讨论里,过度代理也许应该被重写、拆分,甚至部分退场,让位给更精确的分类,例如代理身份与授权失败、信任链滥用、不可逆动作控制失败。过去说过度代理,更多是在提醒不要给模型太多能力。现在的问题是,就算能力本身是必要的,只要身份绑定、授权范围、临时令牌、审批逻辑等等做不好,系统仍然会在名义上合理、实质上越权的状态下运行

更确切的说,高后果动作才是最高后果风险。这个判断非常贴近真实场景。一个会胡说八道但只能生成文本的系统,和一个能发起支付、删除文件、改工单状态、批量发信、调用内部管理API的系统,风险级别完全不同。

系统提示词泄露

2026关于这一条是否应该并回提示词注入。赞成合并的人强调,系统提示词泄露通常是提示词注入或边界错误的结果,把它单列会导致分类重复。

向量与嵌入弱点

今天很多RAG攻击不是因为相似度算法本身被黑掉,而是因为系统压根没有把检索当成需要做权限判断的操作。应用只根据相似度选片段,却不根据用户身份、任务上下文、租户范围和数据标签做过滤,于是召回逻辑天然越权。很多提示词注入和数据泄露,其实是在检索边界上已经失败了。

在社区讨论中这一条还与新威胁候选直接相连。问卷和会议里提到的记忆持久化、跨上下文污染、上下文隔离失败,都和向量层高度相关。长期记忆与向量数据库会放大记忆污染风险,使对抗性修改可以在多轮、多会话乃至多智能体环境中持续影响行为。也就是说,LLM 08很可能是2026版最会继续扩写的一条

错误信息

OWASP在这一条里把幻觉、偏差和信息不完整都纳入了错误信息来源。比单说幻觉更合理,因为很多高风险错误并不是模型完全凭空捏造,而是带着半真半假的细节、带着旧版本知识、带着语气上的确定性。对业务系统来说,半对的错比完全胡说更危险。它更容易通过人工快速审查,也更容易被流程接受。

2026版很可能不会把人类信任问题完全移出这一条。自动化偏见与过度信任并不是独立于错误信息存在的外部因素,而是决定错误信息能否进入生产的关键放大器。一个会幻觉的模型并不自动构成重大事故,真正让事故发生的,是企业把这类输出包进了高信任界面、高效率流程和低摩擦审批中。

无限消耗

在2026版这一条的风险未来会更加细分。Agent不仅会响应用户,还会自行调度任务、重复调用工具、跨会话继续执行、触发多个外部服务,因此资源耗尽不再只是外部流量压制,而可能来自内部。可以预见的是,2026版会更明确地区分单轮推理消耗与长流程自治消耗。

2026版最值得关注的新威胁候选

随着现在AI的蓬勃式的发展,新的攻击面也层出不穷,以下是综合社区的反馈,我预测2026版会出现的新威胁候选,同时我也系统性的写了关于这些攻击的部分文章,可以扩展阅读

  1. 记忆污染与状态投毒。攻击者利用短期或长期记忆,污染Agent存储的信息,让系统在未来会话中持续依据错误状态行动。它与LLM 04的区别在于,LLM 04偏静态训练和知识资产污染,记忆污染则发生在运行期,是活的、持续的、可跨会话传播的污染。只要企业的Agent或RAG系统开始持久化用户偏好、会话摘要、任务历史和决策线索,这一威胁就会迅速上升。

    ASI06:深入讲解Agent记忆投毒攻击

  2. 跨上下文污染与跨租户泄露。很多安全威胁并不来自模型主动泄露,而是来自错误的上下文合并逻辑、错误的记忆共享、错误的检索范围或错误的缓存复用。它看上去像LLM02和LLM08的交集,实际上已经拥有独立的工程特征:隔离失败发生在会话、向量、记忆、代理共享状态和长时任务上下文中。这类风险在企业内部尤其危险,因为它会把隐私、权限和合规问题直接转化为跨用户事故。

  3. 恶意微调、安全护栏退化与行为漂移。今天大量企业系统并不自己做预训练,但会做轻量微调、指令适配、偏好调整、适配器叠加、模型切换和版本热更新。任何一个环节只要缺乏安全评估,就可能让原本对齐过的模型在领域适配后失去护栏。这里的风险并不一定来自明显的恶意输入,也可能来自第三方适配器行为异常、对齐目标改变以及评测与真实运行环境不一致。

  4. 影子AI。这个问题之所以值得警惕,是因为它很可能不会直接变成LLM Top 10中的一个纯技术风险,但一定会成为2026版无法回避的治理现实。Netskope的2025年生成式AI威胁报告强调,GenAI采用速度极快,数据暴露和未受控使用风险同步上升。对企业而言,影子AI意味着统一控制面失效,模型版本不可见、提示词不可见、输入输出不可见、数据流向不可见。员工只要把内部文档拖入未经批准的工具,或在本地部署绕过企业网关的模型实例,那么企业的风险就会直线上升。影子AI介绍、机制与识别

  5. 不安全代码生成从子问题走向主问题。模型生成有漏洞的代码、错误依赖或不存在的包名;开发者因自动化偏见跳过审查;攻击者注册幻觉包并投递恶意载荷;最终形成供应链事故。

  6. 多模态、协议层和多Agnet间通信风险。图像、音频、视频生成带来新的问题。MCP和A2A等协议层也有新的攻击面,包括上下文劫持、工具描述误导、同意流操控和跨代理滥用。内容未必会直接进入LLM Top 10主体,更可能通过与Agentic Top 10的交叉引用体现出来。多Agent协同风险威胁建模解析

| | | | | — | — | — | | 候选威胁 | 与现有风险的最近关系 | 现有风险为什么不够 | | 记忆污染与状态投毒 | 接近LLM04和LLM08 | 静态投毒无法覆盖运行期持久记忆污染 | | 跨上下文与跨租户污染 | 接近LLM02和LLM08 | 当前风险尚未充分表达状态隔离失败 | | 恶意微调与行为漂移 | 接近LLM03和LLM04 | 需要更突出模型完整性与静默更新 | | 影子AI | 接近治理层,不完全属于单一风险 | 既有风险难以描述控制面缺失 | | 不安全代码生成 | 接近LLM05和LLM09 | 真实攻击链已足够完整,教育价值很高 | | 多模态与协议层攻击面 | 接近LLM01、LLM06和Agentic Top 10 | 更像边界扩展而不是单条替换 |

参考

https://www.linkedin.com/pulse/kicking-off-2026-update-owasp-top-10-llm-applications-steve-wilson-ww6nc/

https://www.linkedin.com/pulse/results-from-2026-owasp-top-10-llm-applications-survey-steve-wilson-qorxc/

https://www.linkedin.com/pulse/owasp-top-10-llm-project-kick-off-meeting-notes-steve-wilson-thmvc/

https://genai.owasp.org/llm-top-10/

https://genai.owasp.org/resource/agentic-ai-threats-and-mitigations/

https://www.netskope.com/netskope-threat-labs/cloud-threat-report/generative-ai-2025

https://www.lasso.security/blog/ai-package-hallucinations

https://socket.dev/blog/slopsquatting-how-ai-hallucinations-are-fueling-a-new-class-of-supply-chain-attacks

https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligenc


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:Security for AI 不如相忘于江湖 不如相忘于江湖《OWASP Top 10 for LLM 2026可能修订的风险详解》

评论:0   参与:  0