AI系统威胁建模详解:从四问框架到Agent执行面控制

admin 2026-05-02 05:59:08 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文深入探讨了AI系统威胁建模,提出了一套从四问框架到Agent执行面控制的系统性方法。它强调AI系统的安全边界不仅限于模型本身,还必须涵盖提示词、检索语料、工具调用、Agent协作等更广泛的环节。文章详细分析了数据与指令混叠、间接注入、可迁移攻击等独特风险,并将传统的STRIDE等威胁建模方法与OWASP风险清单、MITREATLAS等新兴知识库相结合,构建了一条贯穿全生命周期的工作流。最终,将安全保证外置到身份、数据、工具、状态与审计五个核心控制面上,以应对AI系统的复杂安全挑战。 综合评分: 95 文章分类: AI安全,威胁建模,渗透测试,红队,WEB安全


cover_image

AI系统威胁建模详解:从四问框架到Agent执行面控制

原创

林之冰寒 林之冰寒

Security for AI

2026年5月1日 12:00 韩国

在小说阅读器读本章

去阅读

引言

围绕AI系统的安全方法,当前同时存在两个常见偏向:其一是停留在抽象清单层面的风险罗列,其二是偏向展示性对抗演练而弱化工程约束、系统边界与控制落点。因此本文提出四问框架,即系统到底在构建什么、哪些环节会失效、控制措施应落在哪里、现有证据是否足以支撑上线判断。

传统应用的威胁建模对象主要围绕代码、接口、数据流和部署边界,AI系统的威胁建模对象则扩展为模型、提示词、检索语料、向量索引、工具调用、Agent协作、外部身份、记忆状态与人工确认链路的整体组合。AI系统可被界定为能够生成预测、推荐或决策输出,并以不同自治水平运行的工程化系统。与此同时,这类系统具有显著的社会技术属性。这意味着,AI系统威胁建模从一开始就不能只看模型端点是否安全,还必须回答系统把信任交给了谁、由什么数据触发执行、执行结果如何被约束以及失败后由谁兜住后果

把AI系统画成跨生命周期、跨角色、跨边界的系统图

AI系统威胁建模的起点,可以放在覆盖全生命周期的系统图上。风险管理需要覆盖计划设计、数据处理、建模、验证、部署、运行与监控等阶段,同时把应用场景、数据输入、AI模型、任务与输出放进同一张图里观察。

这类表述有两个直接含义,第一,AI系统的安全边界天然跨越开发期与运行期。第二,很多关键风险并不位于模型内部,而位于模型前后的连接层。

威胁建模需要清楚呈现信任边界、数据流、数据存储、处理过程以及外部实体,因为这些位置通常正是攻击点进入系统的地方。

把这条原则放到AI场景,至少要把以下对象明确画出来:

  1. 可进入上下文窗口的输入源
  2. 所有具有读写能力的工具
  3. 所有可持久化状态的记忆与日志组件
  4. 所有负责授权、审批、审计与回滚的外部控制点

很多团队在建模时只画应用服务与模型API的连线,这会遗漏真正决定后果的执行边界。一个带工具能力的Agent,即使底层模型与普通问答模型相同,只要连接了工单系统、代码仓库、对象存储、邮件、日历、终端或支付能力,其威胁画像就已经发生了结构性变化

从提示词注入到工具误用,再到记忆、中间协议与Agent协作

提示词注入在2025版LLM应用风险列表中位居首项。外部网站、文件等来源的内容一旦被模型解释,就可能改变模型行为。RAG与微调能够改善相关性与准确性,但不能完全缓解提示词注入风险。凡是可以进入上下文的内容,都应视为潜在指令载体,不能默认当成天然可信的数据载体。

进入Agent场景后,风险集合进一步扩大。OWASP Agentic Top 10 2026其中最值得威胁建模优先关注的部分有三类:

  1. 系统是否把语言理解错误直接升级为执行权
  2. 状态是否会跨会话、跨用户、跨Agent持续污染
  3. 多Agent协作是否会让局部错误放大为系统级故障

中间MCP协议层也已经进入核心风险范围。有对应的对应令牌管理与密钥暴露,有对应上下文恶意指令触发的提示词注入,以及临时或松散定义的权限还会逐步膨胀,最终让Agent获得超出业务需要的能力。这意味着,MCP服务器、工具描述、工具参数模式以及连接凭据本身,都已经进入威胁建模核心范围。

从安全角度来看,用户输入、历史消息提供器、上下文提供器、模型服务以及函数工具之间都存在需要单独审视的信任边界。来自数据存储的内容可能引入间接提示注入。模型输出也应被视为不可信输出,在渲染、执行、入库或传递到安全敏感上下文前需要校验与净化。

| 风险平面 | 典型问题 | | — | — | | 输入与上下文 | 直接与间接提示词注入、系统提示泄露 | | 状态与知识层 | 向量索引弱点、记忆投毒、敏感信息泄露 | | 执行与自治层 | 过度自治、工具误用、权限滥用、意外代码执行 | | 编排与协作层 | Agent间通信不安全、级联失败、失控Agent | | 协议与连接层 | 令牌暴露、Scope膨胀、上下文注入 |

数据与指令混叠、间接注入与可迁移攻击为何让模型内防御失去充分性

这一部分是AI系统威胁建模与传统应用威胁建模差异最大的地方。LLM集成应用会模糊数据与指令之间的边界,攻击者可以把恶意提示预置在网页、邮件、文件等外部内容里,等待系统在正常检索或摘要过程中主动摄入。检索也为提示词注入打开了新的入口,因为很多现有过滤措施并没有部署在检索回流链路上。这类研究把风险重心从用户直接输入,推进到了任何可被系统读取的第三方内容。

提示词注入之所以难以防御,根源在于生成式AI的工作方式本身,因此不存在可以被视为万无一失的预防手段。提示词注入也可以理解为第三方把恶意指令注入会话上下文攻击,相应防御需要同时覆盖模型训练、实时监测、链接检查和沙箱等层次。因此模型内防御仍然重要,但它更接近风险降低机制,无法独立承载最终的安全保证。

另一个结构性困难来自可迁移攻击。大的可迁移对抗子空间确实存在,而且源模型与目标模型学习到的决策边界可能彼此非常接近。通用对抗提示词可以迁移到词表、架构、参数规模和训练方法都不同的多类LLM,且覆盖开源模型与专有模型。结合确定性外置控制这一思路,可以得到一个结论:仅靠拒答能力、提示模板和局部黑名单,很难支撑高后果场景的安全承诺。真正能稳定收束风险的,仍然是模型外部的授权、参数约束、审批、预算、速率与审计机制。

把四问框架、OWASP风险清单、MITRE ATLAS与NIST AI RMF拼成同一条工作流

如果通过四问法提供框架语言,OWASP系列资料提供高频风险清单,MITRE ATLAS提供对抗技术知识库,NIST AI RMF提供治理与执行框架。把这些资料接到一起后,会结合出一条更适合AI系统的威胁建模流程。

  1. 回答问题一时,系统图需要覆盖生命周期、参与角色、输入源、状态存储、执行能力与信任边界,单独画应用服务与模型API的关系远远不够。
  2. 回答问题二时,可以用OWASP LLM、Agentic与MCP三个清单作为覆盖面骨架,再用MITRE ATLAS补充更细的攻击技术与对抗视角
  3. 回答问题三时,应当把每个威胁映射到NIST AI RMF的四类动作之中,并落实到责任主体、验证方法与优先级,避免停留在原则性建议层面
  4. 回答问题四时,需要将红队、架构审计、控制测试、上线审批与残余风险接受纳入闭环

这里最关键的变化,在于方法论的重心从枚举模型会犯哪些错,转向界定系统如何承受模型一定会犯错这件事。

控制设计:把安全保证外置到身份、数据、工具、状态与审计五个控制面

通过以上工作流,可以把AI系统的关键控制面为五个地方。

第一是身份与权限控制面。没有必要的自治能力会直接扩张攻击面,最小权限、自动过期与严格访问审查也应被纳入基础控制。与此同时,IAM、VPC Service Controls与模型治理可以组成这一层的防护组合。因此,Agent、工具、检索器和记忆写入器都应拥有各自独立且最小化的身份,而不应共享一个大而全的执行令牌。

第二是数据与检索控制面。底层数据存储一旦被污染,RAG回流内容就可能携带间接提示注入。第三方内容注入本身也是提示词注入的重要来源。数据隐私、信息安全和信息完整性同样属于关键风险域。因此,检索系统需要同时做来源分级、访问控制、内容净化、敏感数据清晰与结果溯源。如果只有相关性排序,这套控制就不完整。

第三是工具与执行控制面。真正的保证来自模型外部的确定性执行约束,包括数据层授权、不可逆操作的人工确认、工具参数白名单、速率限制与预算控制。与此同时,模型输出在传入HTML、代码、数据库查询或安全敏感上下文之前,也需要完成校验与净化。这意味着,任何有副作用的工具都应在调用前后接受双重约束:调用前检查主体、范围、参数与预算,调用后校验结果与审计记录。

第四是状态与记忆控制面。记忆与上下文投毒已经被单独列为风险条目,这说明状态污染已从短期会话问题演化为长期系统问题。在防御上,至少需要为每次记忆写入保留来源、会话、授权依据与过期策略,并按用户、租户、任务类型进行隔离。

第五是监测与审计控制面。敏感消息全文日志不应在生产环境启用,可观测性也应被视为Agent系统的基础条件之一。安全可观测性在AI系统里应侧重四类证据:谁把什么内容送进了上下文、模型建议了什么动作、编排器实际执行了什么动作、外部控制为何允许或拒绝该动作。

因此可以归纳出一个核心原则:模型可以参与判断,但安全保证必须由模型外部的制度化控制承载

身份控制平面:把Agent、工作负载与非人类主体纳入同一套治理结构

AI系统威胁建模进入Agent阶段后,会面临一个问题,即谁在以谁的身份行动。传统应用里,用户身份、服务身份、管理员身份通常已经有较成熟的治理方法。但Agent系统则额外引入了持续运行、跨系统调用、可代表用户行动的非人类主体。这一层可以理解为AI系统的身份控制平面。AI Agent、应用与服务都应统一纳入认证、授权与治理框架之中,以便在人类身份与非人类身份之间执行一致的控制逻辑。

从威胁建模角度看,这一层至少解决四个问题:

  1. Agent是否拥有独立身份,避免借用长期有效的共享服务账号。
  2. Agent身份是否带有明确的能力描述、任务边界与协议元数据,从而支持后续审计与访问决策
  3. Agent能否以时间受限、可追踪、可撤销的方式访问资源,避免获得无限期权限。
  4. Agent一旦偏离正常行为,系统能否通过条件访问、身份风险信号与自动修复动作及时缩限其行动范围。

Agent身份可以作为独立于传统应用身份的专用身份构造存在,支持分配可扩展身份、自动发现组织内Agent、统一管理能力与协议元数据,并基于MCP与A2A等标准协议进行Agent到Agent的发现与授权。

访问资源前还可以评估Agent上下文与风险,使用Agent身份风险等实时信号控制资源访问,并通过自定义安全属性实现规模化策略部署。这组能力落到威胁建模语言中,对应的是执行前身份校验、执行中风险调节、执行后审计追踪三段式控制链。

Agent一旦共享人类管理员权限、使用长生命周期令牌、缺少所有者、没有访问包与到期回收策略,其威胁面就会从单次错误调用迅速扩展到长期权限积累、横向访问与影子Agent遗留。更安全化的要求是,Agent只访问任务所需资源,Agent需要明确所属人,风险驱动的条件访问需要能够阻止Agent被接管,谁可以创建、接入和管理Agent也应写入策略模板。

| 身份控制点 | 常见失控方式 | 可能后果 | | — | — | — | | Agent身份创建 | 任何人均可注册Agent,缺少审批 | 影子Agent扩散,责任不清 | | Agent权限授予 | 权限一次性给满,缺少最小权限 | 数据越权、工具滥用、横向移动 | | 条件访问 | 缺少风险感知与会话控制 | 高风险Agent继续运行 | | 身份治理 | 缺少所有者、到期回收 | 影子Agent长期存活 | | 工作负载鉴权 | 使用长期密钥,缺少托管身份 | 密钥泄露、秘密横向复制 |

从安全工程角度看,身份平面还是多层控制汇聚点。

  1. 工作负载身份允许AI服务在不管理密钥的前提下访问企业资源,托管身份与联合凭据可减少长期秘密暴露
  2. 条件访问与身份保护能把风险信号传递到实时访问决策
  3. 治理层则负责把访问行为限定为有意、可审计、时间受限的动作。

这三类能力分别覆盖了凭据管理、访问控制与生命周期治理

额外的,AI系统威胁建模不应把身份层当作部署细节。对于带工具能力的Agent系统,身份层往往决定了模型错误究竟会停留在文本层,还是被放大成真正的资源操作

运行时防御:把威胁模型推进到可观测、可阻断、可回放的控制链

AI安全威胁贯穿全生命周期,模型与供应链风险、Agent配置错误与过度授权、运行时滥用以及提示和内容类攻击都属于关键方向。在Agent保护部分,核心能力包括统一发现Agent资产、识别高风险配置与权限、在Agent调用工具前实时评估动作并阻断不安全行为,以及围绕告警与审计日志开展调查与追踪。这几项能力如果前移到威胁建模阶段,就会转化为三个必须回答的问题:

第一,我们希望监测哪些行为信号

第二,哪些行为应在运行时直接阻断

第三,哪些事件应当自动回流到威胁模型与测试集合里。

更直接的做法,是在Agent运行期间利用AI驱动的情报实时阻止提示词注入、恶意流量与因高风险Agent行为导致的数据外传。与之配套的分层防线,还应同时覆盖模型训练、监测、链接检查、沙箱等层次。提示词、响应和Agent交互本身也需要检查与保护,以覆盖提示词注入、越狱、敏感数据泄露等风险。

运行时防御的重点是围绕高后果动作建立上下游双重约束。把主要精力放在逐段判断文本是否恶意,往往难以获得稳定结果。以一个具备检索、总结、外发邮件和工单提交能力的Agent为例,威胁模型落到运行时后,至少应当派生出以下控制:检索阶段记录数据源与命中对象,推理阶段保留关键决策摘要,工具调用前做参数与范围校验,外发前做对象与敏感级别复核,工具调用后做审计归档。这一套的价值在于,即便模型对上游内容理解错误,系统也仍有机会在执行边界把风险拦下来。

为了让这部分更具可操作性,可以把验证与运行时防御划分为四层

  1. 输入与上下文验证。用户输入、检索回流、文件解析、网页抓取、工具输出与跨Agent消息。
  2. 动作前约束。模型是否试图调用工具、访问敏感资源、生成高风险参数或触发不可逆操作。确定性外置控制、调用工具前的实时保护以及对高风险Agent行为的实时阻止,都属于这一层的关键能力。
  3. 动作后校验。这里关注执行结果是否与预期一致,是否触发了级联调用,是否写入了不应写入的记忆,是否产生了超预算或异常频率行为。
  4. 事件回放与模型回写。告警能否回放到完整上下文、是否保留来源证据、是否将新事件变成新的回归测试用例和新的威胁场景。

| 运行时环节 | 关键问题 | 典型控制类型 | | — | — | — | | 上下文进入 | 哪些内容进入上下文 | 来源分级、上下文标记、解析审计 | | 决策生成 | 模型建议了什么动作 | 风险评分、策略校验、记录理由 | | 工具执行前 | 该动作是否允许发生 | 白名单、条件访问、人工确认、预算 | | 工具执行后 | 结果是否偏离预期 | 敏感级别复核、异常检测 | | 事件复盘 | 如何形成新的防线 | 回放、测试集回写、策略更新 |

测试框架:从四问法到STRIDE与DREAD,再到持续 TEVV

在方法层面,AI系统威胁建模还面临一个常见问题:传统框架能否直接照搬。答案是更接近部分继承、部分调整。Threat Modeling Manifesto与OWASP Cheat Sheet提供了稳定的问题框架与基本流程。进一步的做法,是将STRIDE与DREAD结合,用于LLM驱动应用的主动威胁识别与风险评估,并通过自定义LLM应用案例验证端到端威胁模型的可行性。因此传统安全方法在AI领域并未失效,但需要根据输入类型、状态形式、执行能力与模型特性做适配。

这套思路转成实际工作法后,可以形成四层测试框架。

第一层是问题定义层。这里沿用四问框架,重点界定研究范围、使用场景、资产清单、参与方、信任边界和高后果动作。在AI场景中,这一层尤其需要补充模型类型、上下文来源、记忆策略、检索机制、工具集合与人机协作方式。

第二层是威胁识别层。STRIDE原本聚焦伪造、篡改、抵赖、信息泄露、拒绝服务与权限提升。进入AI系统后,可以将这些范畴重新投射到提示上下文、向量索引、工具协议、Agent身份、记忆写入与模型输出上。例如,伪造可映射到伪造Agent消息或外部内容,篡改可映射到记忆投毒与检索污染,信息泄露可映射到系统提示泄露、敏感数据泄露与工具出站外传,权限提升则直接映射到过度自治膨。

第三层是优先级排序层。DREAD等打分方法的价值,在于迫使团队面对破坏范围、可重现性、可利用性、受影响对象与可发现性等问题。对AI系统而言,还可以再加两个维度。一个是自治放大系数,即错误是否会从单次输出升级为跨系统动作。另一个是状态持续系数,即错误是否会被记忆、索引、工具缓存或其他Agent继承。这两个维度有助于把看似类似的风险区分开来。例如,同样是提示词注入,纯问答机器人里的错误回复,与带长期记忆和自动工具调用的Agent里的错误执行,后果层级完全不同。

第四层是验证与持续TEVV层。企业应在AI生命周期中让领域专家参与持续改进与TEVV,并定期跟踪人机协作配置。这意味着,AI威胁建模的测试工作不应停留在一次性PoC或一次性红队活动,而应成为定期回归实践。每次模型升级、向量库重建、提示模板变更、权限模板调整或新工具接入后,都应重新执行核心高风险用例,并比较阻断率、越权率、误触发率、人工确认命中率、异常调用率等指标。

基于上述框架,可以大致描绘出一张成熟度路线表。

| 成熟度阶段 | 主要特征 | 典型短板 | 进阶重点 | | — | — | — | — | | 初始阶段 | 只有提示词和模型接口,没有正式威胁模型 | 风险不可见,依赖个人经验 | 建立系统图、四问法与资产清单 | | 基础阶段 | 已有OWASP条目映射和简单风险表 | 缺少责任归属与回归验证 | 建立控制矩阵与版本化文档 | | 加强阶段 | 身份、工具、数据、记忆四个平面已有控制 | 运行时观测与阻断不足 | 建立检测规则、运行时拦截与事件回写 | | 体系化阶段 | 威胁模型进入代码仓库与发布流程 | 指标零散、跨团队协同弱 | 建立TEVV、统一指标和生命周期治理 | | 优化阶段 | 持续监测、回归测试、风险复盘形成稳定闭环 | 仍需应对新协议与新工具形态 | 将新事件沉淀为新模板与新基线 |

落地流程

落到执行上,可以把持续更新机制分为四个触发器。

  1. 任何新增外部数据源、记忆层、工具能力、Agent间调用或MCP服务器时,应重新回答问题一与问题二。
  2. 任何新增高后果动作,例如代码合并、权限变更、对象删除、对外发送或资金流转时,应重新设计对应的确定性控制。
  3. 第三,模型、向量库、提示模板、工具描述、依赖包与第三方服务版本发生变化时,应把供应链与配置变更纳入回归审计。
  4. 出现误执行、误泄露、错误检索或异常工具调用后,应把事件复盘回写为新的威胁场景与检测规则。

AI系统威胁建模的目标可以表述为:即便模型出现错误、受到诱导或发生污染,系统依然不应轻易越过高价值边界

总结

AI系统威胁建模已经从模型安全专题,演化为系统信任分配问题。真正能够跨模型、跨版本、跨攻击变体维持稳定效果的做法,集中在模型外部的身份、数据、工具、状态与审计控制面。对希望把AI能力接入真实业务流程的安全团队而言,这一点已经足够构成架构原则

本文完整pdf下载链接:https://wwaop.lanzn.com/iOSp83oeiwpc


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:Security for AI 林之冰寒 林之冰寒《AI系统威胁建模详解:从四问框架到Agent执行面控制》

评论:0   参与:  0