2026-05-02 05:59:08 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文深入探讨了AI系统威胁建模，提出了一套从四问框架到Agent执行面控制的系统性方法。它强调AI系统的安全边界不仅限于模型本身，还必须涵盖提示词、检索语料、工具调用、Agent协作等更广泛的环节。文章详细分析了数据与指令混叠、间接注入、可迁移攻击等独特风险，并将传统的STRIDE等威胁建模方法与OWASP风险清单、MITREATLAS等新兴知识库相结合，构建了一条贯穿全生命周期的工作流。最终，将安全保证外置到身份、数据、工具、状态与审计五个核心控制面上，以应对AI系统的复杂安全挑战。 综合评分： 95 文章分类： AI安全,威胁建模,渗透测试,红队,WEB安全

cover_image

AI系统威胁建模详解：从四问框架到Agent执行面控制

原创

林之冰寒林之冰寒

Security for AI

2026年5月1日 12:00 韩国

在小说阅读器读本章

去阅读

引言

围绕AI系统的安全方法，当前同时存在两个常见偏向：其一是停留在抽象清单层面的风险罗列，其二是偏向展示性对抗演练而弱化工程约束、系统边界与控制落点。因此本文提出四问框架，即系统到底在构建什么、哪些环节会失效、控制措施应落在哪里、现有证据是否足以支撑上线判断。

传统应用的威胁建模对象主要围绕代码、接口、数据流和部署边界，AI系统的威胁建模对象则扩展为模型、提示词、检索语料、向量索引、工具调用、Agent协作、外部身份、记忆状态与人工确认链路的整体组合。AI系统可被界定为能够生成预测、推荐或决策输出，并以不同自治水平运行的工程化系统。与此同时，这类系统具有显著的社会技术属性。这意味着，AI系统威胁建模从一开始就不能只看模型端点是否安全，还必须回答系统把信任交给了谁、由什么数据触发执行、执行结果如何被约束以及失败后由谁兜住后果

把AI系统画成跨生命周期、跨角色、跨边界的系统图

AI系统威胁建模的起点，可以放在覆盖全生命周期的系统图上。风险管理需要覆盖计划设计、数据处理、建模、验证、部署、运行与监控等阶段，同时把应用场景、数据输入、AI模型、任务与输出放进同一张图里观察。

这类表述有两个直接含义，第一，AI系统的安全边界天然跨越开发期与运行期。第二，很多关键风险并不位于模型内部，而位于模型前后的连接层。

威胁建模需要清楚呈现信任边界、数据流、数据存储、处理过程以及外部实体，因为这些位置通常正是攻击点进入系统的地方。

把这条原则放到AI场景，至少要把以下对象明确画出来：

可进入上下文窗口的输入源
所有具有读写能力的工具
所有可持久化状态的记忆与日志组件
所有负责授权、审批、审计与回滚的外部控制点

很多团队在建模时只画应用服务与模型API的连线，这会遗漏真正决定后果的执行边界。一个带工具能力的Agent，即使底层模型与普通问答模型相同，只要连接了工单系统、代码仓库、对象存储、邮件、日历、终端或支付能力，其威胁画像就已经发生了结构性变化

从提示词注入到工具误用，再到记忆、中间协议与Agent协作

提示词注入在2025版LLM应用风险列表中位居首项。外部网站、文件等来源的内容一旦被模型解释，就可能改变模型行为。RAG与微调能够改善相关性与准确性，但不能完全缓解提示词注入风险。凡是可以进入上下文的内容，都应视为潜在指令载体，不能默认当成天然可信的数据载体。

进入Agent场景后，风险集合进一步扩大。OWASP Agentic Top 10 2026其中最值得威胁建模优先关注的部分有三类：

系统是否把语言理解错误直接升级为执行权
状态是否会跨会话、跨用户、跨Agent持续污染
多Agent协作是否会让局部错误放大为系统级故障

中间MCP协议层也已经进入核心风险范围。有对应的对应令牌管理与密钥暴露，有对应上下文恶意指令触发的提示词注入，以及临时或松散定义的权限还会逐步膨胀，最终让Agent获得超出业务需要的能力。这意味着，MCP服务器、工具描述、工具参数模式以及连接凭据本身，都已经进入威胁建模核心范围。

从安全角度来看，用户输入、历史消息提供器、上下文提供器、模型服务以及函数工具之间都存在需要单独审视的信任边界。来自数据存储的内容可能引入间接提示注入。模型输出也应被视为不可信输出，在渲染、执行、入库或传递到安全敏感上下文前需要校验与净化。

数据与指令混叠、间接注入与可迁移攻击为何让模型内防御失去充分性

这一部分是AI系统威胁建模与传统应用威胁建模差异最大的地方。LLM集成应用会模糊数据与指令之间的边界，攻击者可以把恶意提示预置在网页、邮件、文件等外部内容里，等待系统在正常检索或摘要过程中主动摄入。检索也为提示词注入打开了新的入口，因为很多现有过滤措施并没有部署在检索回流链路上。这类研究把风险重心从用户直接输入，推进到了任何可被系统读取的第三方内容。

提示词注入之所以难以防御，根源在于生成式AI的工作方式本身，因此不存在可以被视为万无一失的预防手段。提示词注入也可以理解为第三方把恶意指令注入会话上下文攻击，相应防御需要同时覆盖模型训练、实时监测、链接检查和沙箱等层次。因此模型内防御仍然重要，但它更接近风险降低机制，无法独立承载最终的安全保证。

另一个结构性困难来自可迁移攻击。大的可迁移对抗子空间确实存在，而且源模型与目标模型学习到的决策边界可能彼此非常接近。通用对抗提示词可以迁移到词表、架构、参数规模和训练方法都不同的多类LLM，且覆盖开源模型与专有模型。结合确定性外置控制这一思路，可以得到一个结论：仅靠拒答能力、提示模板和局部黑名单，很难支撑高后果场景的安全承诺。真正能稳定收束风险的，仍然是模型外部的授权、参数约束、审批、预算、速率与审计机制。

把四问框架、OWASP风险清单、MITRE ATLAS与NIST AI RMF拼成同一条工作流

如果通过四问法提供框架语言，OWASP系列资料提供高频风险清单，MITRE ATLAS提供对抗技术知识库，NIST AI RMF提供治理与执行框架。把这些资料接到一起后，会结合出一条更适合AI系统的威胁建模流程。

回答问题一时，系统图需要覆盖生命周期、参与角色、输入源、状态存储、执行能力与信任边界，单独画应用服务与模型API的关系远远不够。
回答问题二时，可以用OWASP LLM、Agentic与MCP三个清单作为覆盖面骨架，再用MITRE ATLAS补充更细的攻击技术与对抗视角
回答问题三时，应当把每个威胁映射到NIST AI RMF的四类动作之中，并落实到责任主体、验证方法与优先级，避免停留在原则性建议层面
回答问题四时，需要将红队、架构审计、控制测试、上线审批与残余风险接受纳入闭环

这里最关键的变化，在于方法论的重心从枚举模型会犯哪些错，转向界定系统如何承受模型一定会犯错这件事。

控制设计：把安全保证外置到身份、数据、工具、状态与审计五个控制面

通过以上工作流，可以把AI系统的关键控制面为五个地方。

第一是身份与权限控制面。没有必要的自治能力会直接扩张攻击面，最小权限、自动过期与严格访问审查也应被纳入基础控制。与此同时，IAM、VPC Service Controls与模型治理可以组成这一层的防护组合。因此，Agent、工具、检索器和记忆写入器都应拥有各自独立且最小化的身份，而不应共享一个大而全的执行令牌。

第二是数据与检索控制面。底层数据存储一旦被污染，RAG回流内容就可能携带间接提示注入。第三方内容注入本身也是提示词注入的重要来源。数据隐私、信息安全和信息完整性同样属于关键风险域。因此，检索系统需要同时做来源分级、访问控制、内容净化、敏感数据清晰与结果溯源。如果只有相关性排序，这套控制就不完整。

第三是工具与执行控制面。真正的保证来自模型外部的确定性执行约束，包括数据层授权、不可逆操作的人工确认、工具参数白名单、速率限制与预算控制。与此同时，模型输出在传入HTML、代码、数据库查询或安全敏感上下文之前，也需要完成校验与净化。这意味着，任何有副作用的工具都应在调用前后接受双重约束：调用前检查主体、范围、参数与预算，调用后校验结果与审计记录。

第四是状态与记忆控制面。记忆与上下文投毒已经被单独列为风险条目，这说明状态污染已从短期会话问题演化为长期系统问题。在防御上，至少需要为每次记忆写入保留来源、会话、授权依据与过期策略，并按用户、租户、任务类型进行隔离。

第五是监测与审计控制面。敏感消息全文日志不应在生产环境启用，可观测性也应被视为Agent系统的基础条件之一。安全可观测性在AI系统里应侧重四类证据：谁把什么内容送进了上下文、模型建议了什么动作、编排器实际执行了什么动作、外部控制为何允许或拒绝该动作。

因此可以归纳出一个核心原则：模型可以参与判断，但安全保证必须由模型外部的制度化控制承载

身份控制平面：把Agent、工作负载与非人类主体纳入同一套治理结构

AI系统威胁建模进入Agent阶段后，会面临一个问题，即谁在以谁的身份行动。传统应用里，用户身份、服务身份、管理员身份通常已经有较成熟的治理方法。但Agent系统则额外引入了持续运行、跨系统调用、可代表用户行动的非人类主体。这一层可以理解为AI系统的身份控制平面。AI Agent、应用与服务都应统一纳入认证、授权与治理框架之中，以便在人类身份与非人类身份之间执行一致的控制逻辑。

从威胁建模角度看，这一层至少解决四个问题：

Agent是否拥有独立身份，避免借用长期有效的共享服务账号。
Agent身份是否带有明确的能力描述、任务边界与协议元数据，从而支持后续审计与访问决策
Agent能否以时间受限、可追踪、可撤销的方式访问资源，避免获得无限期权限。
Agent一旦偏离正常行为，系统能否通过条件访问、身份风险信号与自动修复动作及时缩限其行动范围。

Agent身份可以作为独立于传统应用身份的专用身份构造存在，支持分配可扩展身份、自动发现组织内Agent、统一管理能力与协议元数据，并基于MCP与A2A等标准协议进行Agent到Agent的发现与授权。

访问资源前还可以评估Agent上下文与风险，使用Agent身份风险等实时信号控制资源访问，并通过自定义安全属性实现规模化策略部署。这组能力落到威胁建模语言中，对应的是执行前身份校验、执行中风险调节、执行后审计追踪三段式控制链。

Agent一旦共享人类管理员权限、使用长生命周期令牌、缺少所有者、没有访问包与到期回收策略，其威胁面就会从单次错误调用迅速扩展到长期权限积累、横向访问与影子Agent遗留。更安全化的要求是，Agent只访问任务所需资源，Agent需要明确所属人，风险驱动的条件访问需要能够阻止Agent被接管，谁可以创建、接入和管理Agent也应写入策略模板。

从安全工程角度看，身份平面还是多层控制汇聚点。

工作负载身份允许AI服务在不管理密钥的前提下访问企业资源，托管身份与联合凭据可减少长期秘密暴露
条件访问与身份保护能把风险信号传递到实时访问决策
治理层则负责把访问行为限定为有意、可审计、时间受限的动作。

这三类能力分别覆盖了凭据管理、访问控制与生命周期治理

额外的，AI系统威胁建模不应把身份层当作部署细节。对于带工具能力的Agent系统，身份层往往决定了模型错误究竟会停留在文本层，还是被放大成真正的资源操作

运行时防御：把威胁模型推进到可观测、可阻断、可回放的控制链

AI安全威胁贯穿全生命周期，模型与供应链风险、Agent配置错误与过度授权、运行时滥用以及提示和内容类攻击都属于关键方向。在Agent保护部分，核心能力包括统一发现Agent资产、识别高风险配置与权限、在Agent调用工具前实时评估动作并阻断不安全行为，以及围绕告警与审计日志开展调查与追踪。这几项能力如果前移到威胁建模阶段，就会转化为三个必须回答的问题：

第一，我们希望监测哪些行为信号

第二，哪些行为应在运行时直接阻断

第三，哪些事件应当自动回流到威胁模型与测试集合里。

更直接的做法，是在Agent运行期间利用AI驱动的情报实时阻止提示词注入、恶意流量与因高风险Agent行为导致的数据外传。与之配套的分层防线，还应同时覆盖模型训练、监测、链接检查、沙箱等层次。提示词、响应和Agent交互本身也需要检查与保护，以覆盖提示词注入、越狱、敏感数据泄露等风险。

运行时防御的重点是围绕高后果动作建立上下游双重约束。把主要精力放在逐段判断文本是否恶意，往往难以获得稳定结果。以一个具备检索、总结、外发邮件和工单提交能力的Agent为例，威胁模型落到运行时后，至少应当派生出以下控制：检索阶段记录数据源与命中对象，推理阶段保留关键决策摘要，工具调用前做参数与范围校验，外发前做对象与敏感级别复核，工具调用后做审计归档。这一套的价值在于，即便模型对上游内容理解错误，系统也仍有机会在执行边界把风险拦下来。

为了让这部分更具可操作性，可以把验证与运行时防御划分为四层

输入与上下文验证。用户输入、检索回流、文件解析、网页抓取、工具输出与跨Agent消息。
动作前约束。模型是否试图调用工具、访问敏感资源、生成高风险参数或触发不可逆操作。确定性外置控制、调用工具前的实时保护以及对高风险Agent行为的实时阻止，都属于这一层的关键能力。
动作后校验。这里关注执行结果是否与预期一致，是否触发了级联调用，是否写入了不应写入的记忆，是否产生了超预算或异常频率行为。
事件回放与模型回写。告警能否回放到完整上下文、是否保留来源证据、是否将新事件变成新的回归测试用例和新的威胁场景。

测试框架：从四问法到STRIDE与DREAD，再到持续 TEVV

在方法层面，AI系统威胁建模还面临一个常见问题：传统框架能否直接照搬。答案是更接近部分继承、部分调整。Threat Modeling Manifesto与OWASP Cheat Sheet提供了稳定的问题框架与基本流程。进一步的做法，是将STRIDE与DREAD结合，用于LLM驱动应用的主动威胁识别与风险评估，并通过自定义LLM应用案例验证端到端威胁模型的可行性。因此传统安全方法在AI领域并未失效，但需要根据输入类型、状态形式、执行能力与模型特性做适配。

这套思路转成实际工作法后，可以形成四层测试框架。

第一层是问题定义层。这里沿用四问框架，重点界定研究范围、使用场景、资产清单、参与方、信任边界和高后果动作。在AI场景中，这一层尤其需要补充模型类型、上下文来源、记忆策略、检索机制、工具集合与人机协作方式。

第二层是威胁识别层。STRIDE原本聚焦伪造、篡改、抵赖、信息泄露、拒绝服务与权限提升。进入AI系统后，可以将这些范畴重新投射到提示上下文、向量索引、工具协议、Agent身份、记忆写入与模型输出上。例如，伪造可映射到伪造Agent消息或外部内容，篡改可映射到记忆投毒与检索污染，信息泄露可映射到系统提示泄露、敏感数据泄露与工具出站外传，权限提升则直接映射到过度自治膨。

第三层是优先级排序层。DREAD等打分方法的价值，在于迫使团队面对破坏范围、可重现性、可利用性、受影响对象与可发现性等问题。对AI系统而言，还可以再加两个维度。一个是自治放大系数，即错误是否会从单次输出升级为跨系统动作。另一个是状态持续系数，即错误是否会被记忆、索引、工具缓存或其他Agent继承。这两个维度有助于把看似类似的风险区分开来。例如，同样是提示词注入，纯问答机器人里的错误回复，与带长期记忆和自动工具调用的Agent里的错误执行，后果层级完全不同。

第四层是验证与持续TEVV层。企业应在AI生命周期中让领域专家参与持续改进与TEVV，并定期跟踪人机协作配置。这意味着，AI威胁建模的测试工作不应停留在一次性PoC或一次性红队活动，而应成为定期回归实践。每次模型升级、向量库重建、提示模板变更、权限模板调整或新工具接入后，都应重新执行核心高风险用例，并比较阻断率、越权率、误触发率、人工确认命中率、异常调用率等指标。

基于上述框架，可以大致描绘出一张成熟度路线表。

落地流程

落到执行上，可以把持续更新机制分为四个触发器。

任何新增外部数据源、记忆层、工具能力、Agent间调用或MCP服务器时，应重新回答问题一与问题二。
任何新增高后果动作，例如代码合并、权限变更、对象删除、对外发送或资金流转时，应重新设计对应的确定性控制。
第三，模型、向量库、提示模板、工具描述、依赖包与第三方服务版本发生变化时，应把供应链与配置变更纳入回归审计。
出现误执行、误泄露、错误检索或异常工具调用后，应把事件复盘回写为新的威胁场景与检测规则。

AI系统威胁建模的目标可以表述为：即便模型出现错误、受到诱导或发生污染，系统依然不应轻易越过高价值边界

总结

AI系统威胁建模已经从模型安全专题，演化为系统信任分配问题。真正能够跨模型、跨版本、跨攻击变体维持稳定效果的做法，集中在模型外部的身份、数据、工具、状态与审计控制面。对希望把AI能力接入真实业务流程的安全团队而言，这一点已经足够构成架构原则

本文完整pdf下载链接：https://wwaop.lanzn.com/iOSp83oeiwpc

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：Security for AI 林之冰寒林之冰寒《AI系统威胁建模详解：从四问框架到Agent执行面控制》