2026-03-27 03:28:37 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文详细解读了OWASPTop10forLLM2026版的潜在修订变化。核心要点包括：与2025年相比，2026版将保留LLMTop10并新增AgenticTop10以适应不同应用场景；风险项将被重写和扩展，如更清晰地区分提示词注入类型、强调模型完整性等；同时，还会纳入记忆污染、跨上下文污染、恶意微调、影子AI等近年来爆发的新风险。这些变化反映了AI安全从关注基础交互问题向系统化、复杂化风险治理的演进。 综合评分： 85 文章分类： AI安全,威胁情报,漏洞分析,安全建设,技术标准

cover_image

OWASP Top 10 for LLM 2026可能修订的风险详解

原创

不如相忘于江湖不如相忘于江湖

Security for AI

2026年3月18日 16:17 韩国

引言

最近OWASP Top 10 for LLM 2026版本开启了修订征集工作，我一直在关注新版修订风险变化，发现2026年的变化可能有点大。这同时说明从2025年到2026年，AI自身安全经历了一次跃迁。

从OWASP官方收集到的反馈来看，今年的版本变化主要有三点：

保留LLM Top 10，并与Agentic Top 10并行存在，因为大量企业仍在部署非Agent化的RAG、企业问答机器人、AI增强工作流
重写若干风险项的边界，尤其是提示词注入、系统提示词泄露、过度代理、不当输出处理、向量与嵌入弱点
补进过去两年才真正爆发出来的新风险，例如记忆污染、跨上下文污染、恶意微调导致的行为漂移、影子AI、不安全代码生成，以及多模态与协议层带来的新攻击面。

本文将整合信息，回答改了什么、哪些风险最可能继续变化等等

榜单风险变化

如果只看风险名称，2025版似乎只是小修小补，但从架构视角看，2025版实际上完成了一次非常重要的重排。在2023到2024版诞生时，行业主要担心的是把模型接进应用之后会不会被提示词注入、会不会泄露数据、会不会出现幻觉与过度信任等。到了2025版，榜单已经明显转向面向生产环境的系统化风险：向量检索成了单独风险，系统提示词泄露被独立提出，模型拒绝服务和模型窃取被收束进无界消耗，训练数据投毒扩展成数据与模型投毒，过度依赖则改写为错误信息。

2023年讨论LLM安全时，大量应用还是纯聊天界面。2025年再看，RAG、向量数据库、长上下文、工具调用、微调、LoRA适配器等等，都已经进入主流工程实践。

下面这个是历年变化以及2026年预测变化

同时LLM Top 10与Agentic Top 10并不是谁替代谁的关系。社区更倾向把LLM Top 10视为基础模型与集成层基线，把Agentic Top 10视为自治编排、工具执行和多Agent协作的扩展层。这个判断与OWASP在Agentic AI威胁文档中的写法相互印证。Agentic系统引入了记忆、计划、工具、身份、跨Agent通信和长时任务，因此会放大原有LLM层风险，但不会消灭原有LLM层风险。

下面这个图可能更直观点

下面来分别拆解每个风险在2026年的可能的变化

提示词注入

提示词注入之所以在2026年仍然稳居第一，不是因为行业没有缓解措施，而是因为它仍然是绝大多数其他失效模式的起点。OWASP在2025版里把提示注入定义为，用户输入以非预期方式改变模型行为或输出。这里最重要的一点，是恶意内容并不需要对人类可见，只要能被模型解析就行。这一定义比早期讨论成熟得多，因为它不再把攻击局限在人与聊天界面的直接交互，而是把任何能进入提示组装链的内容都视为潜在攻击面。

2026年最大的修改之一，是明确区分直接提示词注入和间接提示词注入。直接提示词注入来自用户输入本身。间接提示词注入则来自网页、文档、邮件、知识库、工具返回结果、图片中的隐藏文本等外部内容。这个区分非常关键，因为它对应着两种完全不同的防御。面对直接提示词注入，团队往往会想到系统提示词加固、内容过滤和拒绝策略。面对间接提示词注入，真正困难的是信任边界：模型把外部内容误当成指令，而不是误当成数据。

敏感信息泄露

2026年这个风险很可能继续上升，原因并不是风险排序还会继续变，而是它和若干新威胁正在发生耦合。记忆持久化、状态投毒、跨上下文污染、跨租户污染的风险，说明运行期数据泄露已经不再只是模型泄露训练数据的问题。它越来越像典型的多租户系统隔离失败问题，只不过隔离失败发生在自然语言上下文、向量召回和记忆写回层。换句话说，传统应用安全里的越权读取、脏缓存、会话混淆，在LLM系统里正在以新的形式重演。

在隐私层面，敏感信息泄露还与模型反演、成员推断等隐私攻击问题紧密相连。尤其是当企业把文本向量化后存入共享检索系统时。

供应链

2026新增的恶意微调、模型行为漂移、向量数据库操纵等等，本质上都在扩展供应链的定义。过去我们把供应链理解为上线前的输入问题，今天则越来越像上线前后都在持续变化的完整性问题。只要企业依赖第三方模型服务、第三方适配器、第三方检索组件、第三方插件和第三方推理框架以及当下的第三方Skills，它的供应链就不是静态的，而是持续流动的。2026版很可能会进一步强调权重完整性、模型来源证明、适配器可信链和插件信任链。

数据与模型投毒

恶意微调和模型行为漂移，是这个风险接下来最值得关注的延伸。因为企业现在越来越依赖轻量微调、领域适配和个性化权重叠加，很多模型不再只有一个固定版本，而是在业务线、团队甚至个人级别上出现大量派生版本。只要这些版本的安全基线和评测门槛不一致，攻击者就能通过看似正常的定制化流程，把安全护栏慢慢削弱。它们都指向同一个现实风险：模型完整性正在成为比模型能力更难治理的问题

不当输出处理

如果说提示词注入讲的是输入如何改变模型，不当输出处理讲的就是输出如何伤害系统。这个风险在2026年会成为讨论热点，关键原因是AI生成代码已经不再是边缘功能。大量团队在把代码助手、脚本生成器、流程自动化Agent接入开发、运维和办公流程。这里的重点不是模型会不会写出有漏洞的代码，而是人类是否因为模型给出的答案看起来像成品，就跳过了原本必需的验证、审查和隔离步骤。

一个现实的例子，模型先在事实层面编造了一个不存在的包名，这属于错误信息。开发者再把这个输出当成可信建议直接落到代码里，这属于不当输出处理。攻击者随后注册同名恶意包，问题又进入供应链攻击。

过度代理

过度代理是2025版里最尴尬也最关键的一条。它描述的是开发者赋予LLM系统过多行动能力，让模型能够调用函数、访问外部系统、使用插件或工具，并在最小监督下自主执行动作。

在2026的变化讨论里，过度代理也许应该被重写、拆分，甚至部分退场，让位给更精确的分类，例如代理身份与授权失败、信任链滥用、不可逆动作控制失败。过去说过度代理，更多是在提醒不要给模型太多能力。现在的问题是，就算能力本身是必要的，只要身份绑定、授权范围、临时令牌、审批逻辑等等做不好，系统仍然会在名义上合理、实质上越权的状态下运行

更确切的说，高后果动作才是最高后果风险。这个判断非常贴近真实场景。一个会胡说八道但只能生成文本的系统，和一个能发起支付、删除文件、改工单状态、批量发信、调用内部管理API的系统，风险级别完全不同。

系统提示词泄露

2026关于这一条是否应该并回提示词注入。赞成合并的人强调，系统提示词泄露通常是提示词注入或边界错误的结果，把它单列会导致分类重复。

向量与嵌入弱点

今天很多RAG攻击不是因为相似度算法本身被黑掉，而是因为系统压根没有把检索当成需要做权限判断的操作。应用只根据相似度选片段，却不根据用户身份、任务上下文、租户范围和数据标签做过滤，于是召回逻辑天然越权。很多提示词注入和数据泄露，其实是在检索边界上已经失败了。

在社区讨论中这一条还与新威胁候选直接相连。问卷和会议里提到的记忆持久化、跨上下文污染、上下文隔离失败，都和向量层高度相关。长期记忆与向量数据库会放大记忆污染风险，使对抗性修改可以在多轮、多会话乃至多智能体环境中持续影响行为。也就是说，LLM 08很可能是2026版最会继续扩写的一条

错误信息

OWASP在这一条里把幻觉、偏差和信息不完整都纳入了错误信息来源。比单说幻觉更合理，因为很多高风险错误并不是模型完全凭空捏造，而是带着半真半假的细节、带着旧版本知识、带着语气上的确定性。对业务系统来说，半对的错比完全胡说更危险。它更容易通过人工快速审查，也更容易被流程接受。

2026版很可能不会把人类信任问题完全移出这一条。自动化偏见与过度信任并不是独立于错误信息存在的外部因素，而是决定错误信息能否进入生产的关键放大器。一个会幻觉的模型并不自动构成重大事故，真正让事故发生的，是企业把这类输出包进了高信任界面、高效率流程和低摩擦审批中。

无限消耗

在2026版这一条的风险未来会更加细分。Agent不仅会响应用户，还会自行调度任务、重复调用工具、跨会话继续执行、触发多个外部服务，因此资源耗尽不再只是外部流量压制，而可能来自内部。可以预见的是，2026版会更明确地区分单轮推理消耗与长流程自治消耗。

2026版最值得关注的新威胁候选

随着现在AI的蓬勃式的发展，新的攻击面也层出不穷，以下是综合社区的反馈，我预测2026版会出现的新威胁候选，同时我也系统性的写了关于这些攻击的部分文章，可以扩展阅读

记忆污染与状态投毒。攻击者利用短期或长期记忆，污染Agent存储的信息，让系统在未来会话中持续依据错误状态行动。它与LLM 04的区别在于，LLM 04偏静态训练和知识资产污染，记忆污染则发生在运行期，是活的、持续的、可跨会话传播的污染。只要企业的Agent或RAG系统开始持久化用户偏好、会话摘要、任务历史和决策线索，这一威胁就会迅速上升。

ASI06：深入讲解Agent记忆投毒攻击
跨上下文污染与跨租户泄露。很多安全威胁并不来自模型主动泄露，而是来自错误的上下文合并逻辑、错误的记忆共享、错误的检索范围或错误的缓存复用。它看上去像LLM02和LLM08的交集，实际上已经拥有独立的工程特征：隔离失败发生在会话、向量、记忆、代理共享状态和长时任务上下文中。这类风险在企业内部尤其危险，因为它会把隐私、权限和合规问题直接转化为跨用户事故。
恶意微调、安全护栏退化与行为漂移。今天大量企业系统并不自己做预训练，但会做轻量微调、指令适配、偏好调整、适配器叠加、模型切换和版本热更新。任何一个环节只要缺乏安全评估，就可能让原本对齐过的模型在领域适配后失去护栏。这里的风险并不一定来自明显的恶意输入，也可能来自第三方适配器行为异常、对齐目标改变以及评测与真实运行环境不一致。
影子AI。这个问题之所以值得警惕，是因为它很可能不会直接变成LLM Top 10中的一个纯技术风险，但一定会成为2026版无法回避的治理现实。Netskope的2025年生成式AI威胁报告强调，GenAI采用速度极快，数据暴露和未受控使用风险同步上升。对企业而言，影子AI意味着统一控制面失效，模型版本不可见、提示词不可见、输入输出不可见、数据流向不可见。员工只要把内部文档拖入未经批准的工具，或在本地部署绕过企业网关的模型实例，那么企业的风险就会直线上升。影子AI介绍、机制与识别
不安全代码生成从子问题走向主问题。模型生成有漏洞的代码、错误依赖或不存在的包名；开发者因自动化偏见跳过审查；攻击者注册幻觉包并投递恶意载荷；最终形成供应链事故。
多模态、协议层和多Agnet间通信风险。图像、音频、视频生成带来新的问题。MCP和A2A等协议层也有新的攻击面，包括上下文劫持、工具描述误导、同意流操控和跨代理滥用。内容未必会直接进入LLM Top 10主体，更可能通过与Agentic Top 10的交叉引用体现出来。多Agent协同风险威胁建模解析

参考

https://www.linkedin.com/pulse/kicking-off-2026-update-owasp-top-10-llm-applications-steve-wilson-ww6nc/

https://www.linkedin.com/pulse/results-from-2026-owasp-top-10-llm-applications-survey-steve-wilson-qorxc/

https://www.linkedin.com/pulse/owasp-top-10-llm-project-kick-off-meeting-notes-steve-wilson-thmvc/

https://genai.owasp.org/llm-top-10/

https://genai.owasp.org/resource/agentic-ai-threats-and-mitigations/

https://www.netskope.com/netskope-threat-labs/cloud-threat-report/generative-ai-2025

https://www.lasso.security/blog/ai-package-hallucinations

https://socket.dev/blog/slopsquatting-how-ai-hallucinations-are-fueling-a-new-class-of-supply-chain-attacks

https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligenc

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：Security for AI 不如相忘于江湖不如相忘于江湖《OWASP Top 10 for LLM 2026可能修订的风险详解》