智能体AI安全范围矩阵:保障自主AI系统安全的框架

admin 2026-04-18 06:43:41 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文介绍亚马逊推出的《智能体AI安全范围矩阵》框架,针对具备自主决策能力的AI系统提出四类安全架构范围(无代理权限、限定代理权限、监督代理权限、完全代理权限),详细分析各范围的代理权限特征、安全挑战及实施要点,为企业应对智能体AI系统特有的安全风险提供结构化解决方案。 综合评分: 85 文章分类: AI安全,安全建设,解决方案,技术标准,安全运营


cover_image

智能体 AI 安全范围矩阵:保障自主 AI 系统安全的框架

原创

Amazon Amazon

安全行者老霍

2026年4月17日 09:03 北京

在小说阅读器读本章

去阅读

作者: Aaron Brown and Matt Saner

发布时间:2025 年 11 月 21 日

随着生成式 AI 走向主流,亚马逊云科技(AWS)推出了 《Generative AI Security Scoping Matrix》(生成式 AI 安全范围矩阵),帮助企业理解并应对基于基础模型(Foundation Model)应用的独特安全挑战。该框架不仅被全球 AWS 客户采用,还被OWASP、全球 AI 安全联盟(CoSAI)等行业标准组织、合作伙伴、系统集成商(SI)、分析师、审计机构等广泛引用。如今,具备自主决策能力、可长期运行并调用功能的智能体 AI 系统不断涌现,我们特此构建另一套全新框架,《Agentic AI Security Scoping Matrix》,应对一类完全新型的安全挑战。

智能体 AI 系统可自主执行多步骤任务、做出决策,并与基础设施和数据交互。这是一次范式转变,企业必须适应。与采用无状态请求-响应模式的传统基础模型不同,智能体 AI 系统引入了自主能力、持久化记忆、工具编排、身份与代理权限挑战,以及外部系统集成能力,显著扩大了企业需要应对的风险范围。

通过与部署此类系统的客户合作,我们发现传统 AI 安全框架往往无法完全适配智能体场景。智能体系统的自主性要求从根本上采用不同的安全方法。为填补这一空白,我们开发了智能体 AI 安全范围矩阵,这一思维模型与框架基于连通性与自主等级,将智能体架构划分为四类,并为每类架构映射关键安全控制措施。

  1. 理解智能体带来的范式转变

基于基础模型的应用运行模式已广为人知且可预测,尽管模型输出具有非确定性与无状态性。这类应用最基础的运行方式是:接收提示词或指令、生成响应、随后终止会话。安全与合规控制聚焦于输入校验、输出过滤、内容护栏等基础措施,治理则关注整体风险态势与模型鲁棒性。该模式之所以可行,是因为安全失效的影响范围有限:单次交互被攻破仅影响该次请求与响应,不会持久化或扩散至其他系统与用户。

智能体 AI 系统通过多项核心能力从根本上改变了这一安全模型:

1.1 自主执行与代理权限

智能体可依据目标与环境触发条件主动发起操作,无需人类提示或审批。这带来了未授权操作、失控进程、智能体误读目标或执行被篡改指令而越权决策的风险。

当 AI 智能体被授予基于数据、参数、指令与响应执行操作的权限时,明确其被允许的独立行动边界与自主程度至关重要。在讨论智能体 AI 系统时,厘清代理权限与自主性的区别十分关键 — 这两个相关但不同的概念决定了安全防护思路。

智能体权限(Agency):指 AI 系统在运行环境中被允许并可执行的操作范围,以及人类对其行动与能力的约束程度,包括可交互的系统、可执行的操作、可修改的资源。代理权限本质关乎能力与权限,即系统在环境中被允许做什么。例如,无代理权限的 AI 智能体完全遵循人类定义的工作流、流程、工具与编排;而拥有完全代理权限的 AI 智能体可自主决定如何完成人类设定的目标。

自主性(Autonomy):指系统在无人类干预下独立决策与行动的程度,包括运行时机、行动选择方式、执行前是否需要人类审批。自主性关乎决策与执行的独立性,即系统在已获代理权限内的行动自由度。例如,某 AI 智能体可能拥有高代理权限(可执行大量操作)但低自主性(每项操作均需人类审批),反之亦然。

理解这一区别对实施恰当的安全控制至关重要。代理权限需要边界与权限体系,自主性则需要监督机制与行为控制。只有对这两个维度进行精细化管理,才能构建安全的智能体 AI 系统。

企业需要明确希望授予 AI 智能体的代理权限与自主等级。在确定智能体的合理运行等级后,方可评估并部署相应安全控制措施,将代理权限限制在智能体应用与企业可接受的风险范围内。

1.2 持久化记忆

智能体通常需要在多会话间保留上下文与习得行为,构建知识库为后续决策提供支撑,形成短期与长期记忆。这种数据持久化带来了额外的数据保护要求,并新增记忆投毒等风险向量 — 攻击者注入虚假信息,污染跨多次交互与多用户的决策过程。

1.3 工具编排

智能体通过函数直接集成数据库、API、服务,甚至其他智能体或编排组件,依据工具抽象层级自主执行复杂任务。扩大的攻击面带来级联攻破风险:单个智能体被入侵后,风险可通过关联系统、多智能体工作流、下游服务与数据存储扩散。

1.4 外部连通性

智能体可跨网络边界运行,访问互联网资源、第三方 API 与企业系统。与传统非智能体系统类似,扩大的连通性可释放商业价值,但必须设计安全控制措施,限制数据泄露、横向移动、外部操纵等风险。对智能体 AI 应用开展威胁建模应列为优先事项,助力将零信任原则落地实施。

1.5 自主行为

高级智能体可依据环境监控、定时任务或习得模式主动发起活动,无需人类触发或审核(取决于配置)。这种自主行为带来操作失控、可解释性与可审计性缺失等风险,难以维持可预测的安全边界。

这些能力将安全问题从边界防护转变为持续监控与管控挑战。被入侵的智能体不仅会泄露信息,还可能自主执行未授权交易、修改关键基础设施,或长期恶意运行而不被发现。

  1. 智能体 AI 安全范围矩阵

通过与客户及社区合作,我们基于两大核心维度划分出四类代表智能体 AI 系统演进的架构范围:人类监督与自主程度对比、AI 系统被允许的代理权限等级。每类范围均引入新能力与对应安全要求,是企业应对智能体 AI 风险的优先事项。图 1 展示了智能体 AI 安全范围矩阵。

图 1 智能体 AI 安全范围矩阵。

2.1 范围 1:无代理权限

这是最基础的范围,系统由人类发起流程,智能体本身不具备自主变更甚至经人类审批后变更的能力,本质为只读模式。系统遵循预定义执行路径,在严格的人类触发工作流下运行,通常为离散步骤,可辅以基础模型的非确定性输出。安全重点聚焦流程完整性与边界强制,确保操作在预设限制内,智能体被严格管控,禁止执行变更与无边界操作。

核心特征:

  • 智能体无法直接对环境执行变更操作
  • 遵循预设路径的固定分步执行
  • 生成式 AI 组件在单个工作流节点内处理数据
  • 条件分支仅存在于工作流显式设计处
  • 无动态规划或自主目标追寻行为
  • 状态持久化仅限于工作流执行上下文
  • 工具访问限制于特定预定义工作流步骤

安全重点:保护环境内数据完整性,限制智能体不越界,尤其限制环境与数据修改。核心关注点包括保障步骤间状态转换安全、校验工作流节点间传递数据、防止 AI 组件修改编排逻辑或脱离工作流指定边界。

示例:以日历邀请创建智能体为例。在范围 1 中,用户通过工作流或提示词启动智能体,查询本人与同事的空闲时段。智能体通过连接企业日历应用的模型上下文协议(MCP)服务器执行上下文检索,仅允许查看空闲时间、分析最佳时段并返回建议,由人类手动创建会议。人类定义特定工作流与编排(无代理权限),并审核审批所有操作(无自主变更)。

2.2 范围 2:限定代理权限

代理权限与风险等级提升,范围 2 系统仍由人类发起,但可执行具备环境变更能力的操作(有限代理权限)。但智能体所有重要操作均需人类显式审批,即常说的人在回路(HITL)。系统可收集信息、分析数据、生成建议,但未经人类授权不得执行修改外部系统或访问敏感资源的操作。智能体还可请求人类输入,澄清模糊信息、补充缺失上下文或优化方案,再提交建议。

核心特征:

  • 智能体经人类审核审批后可执行环境变更
  • 实时人类监督与审批工作流
  • 双向人机交互 —— 智能体可向人类查询上下文
  • 自主操作仅限于只读行为(如数据查询、分析任务等)
  • 智能体主动请求澄清或补充信息
  • 留存所有人类审批决策与上下文交互审计日志

安全重点:实施健壮的审批工作流,防止智能体绕过人类授权控制。核心关注点包括防止权限提升、强制恰当身份上下文、保障审批流程自身安全、校验人类提供的上下文以防范注入攻击、保持对所有智能体建议及其依据的可见性。

示例:在日历场景中,人类启动范围 2 智能体系统。智能体查询相关人员日历空闲时段、分析并向用户推荐会议时间,询问是否代发邀请。用户查看并确认建议符合需求后,批准智能体修改日历并发送邀请。人类编排结构化工作流,智能体可在受限范围内执行经人类审核的变更(有限代理权限与有限自主性)。

2.3 范围 3:监督代理权限

范围 3 进一步扩大代理权限,允许智能体在执行中具备更高自主决策能力(高代理权限)。此类 AI 系统由人类(或上游人类管理工作流)触发,执行复杂自主任务,可决策并操作关联系统,无需进一步审批或人在回路机制。人类定义目标并触发执行,智能体通过动态规划与工具调用独立完成目标。执行过程中,智能体可请求人类指导优化路径或处理边缘情况,但无指导也可继续运行。

核心特征:

  • 智能体可执行环境变更,无需(或仅需可选)人类交互审核
  • 人类触发执行,自主完成任务
  • 执行中动态规划与决策
  • 可选人类干预点用于优化执行路径
  • 人类可在执行中调整参数或提供上下文
  • 为完成任务直接访问外部 API 与系统
  • 跨长时执行会话的持久化记忆
  • 在定义边界内自主选择与编排工具

安全重点:在自主执行阶段全面监控智能体行为,为智能体操作设定清晰的代理权限边界 —— 即允许的运行范围与必须禁止的越界操作。核心关注点包括保障人类干预渠道安全以防未授权修改、防止任务执行中范围蔓延、实施可信身份传播机制、监控行为异常、验证智能体在长时运行中始终符合人类原始意图(即使路径调整)。

示例:日历场景中,人类启动范围 3 智能体系统。智能体查询空闲时段、分析并推荐会议时间,且有权限依据自身建议代用户自动预订最佳时段,无需提前征求用户许可。最终所有参会人日历将自动添加会议条目,身份归属为发起操作的人类用户。人类定义结果目标,赋予智能体更大自主实现空间,智能体可无需人类审核自主行动(高代理权限与高自主性)。

2.4 范围 4:完全代理权限

范围 4 包含完全自主的 AI 系统,可依据环境监控、习得模式或预定义条件主动发起活动,无需人类干预执行复杂任务。此类系统代表最高等级 AI 代理权限,持续运行并独立决策行动时机与方式。需要强调的是,范围 4 内的 AI 系统在设计边界内拥有完全代理权限,因此人类必须保持监督管控,可在需要时提供战略指导、修正方向或干预。持续合规、审计、全生命周期管理机制(人类审核与自动化审核,可辅以 AI),对安全管控范围 4 智能体 AI 系统并控制风险至关重要。

核心特征:

  • 依据环境触发条件自主发起活动
  • 持续运行,执行中仅需最低限度人类监督或人在流程
  • 人类可注入战略指导而不中断运行
  • 在目标设定、规划与执行上具备高度至完全自主性
  • 与多外部系统及智能体动态交互
  • 具备递归自我优化与能力扩展潜力

安全重点:实施高级护栏用于行为监控、异常检测、基于范围的工具访问控制与故障安全机制,防止失控操作。核心关注点包括保持与企业目标一致、保障人类干预渠道免受对抗性操纵、防止未授权能力扩展、防止智能体禁用人类监督机制、在智能体遭遇意外情况时实现优雅降级。

示例:日历场景的范围 4 部署。假设企业已部署生成式 AI 会议总结工具,该智能体在网络会议召开时自动启用。会议结束后,日历智能体从会议总结智能体处获知新会议信息,查看总结出的行动项,确认六人约定周五开展白板讨论。日历智能体可使用静态 API 配置或通过 MCP 服务器动态发现实现日历操作,查找六人可用时段并预订最佳时间,以会议发起人的身份上下文自主完成预约。全程无用户直接触发日历请求,完全由环境变化驱动自动化运行(完全代理权限与完全自主性)。

2.5 各范围对比

在安全范围矩阵框架下,自主性与代理权限特征随范围变化如下表所示:

| 范围 | 代理权限等级 | 代理权限特征 | 自主等级 | 自主性特征 | | — | — | — | — | — | | 范围 1:无代理权限 | 无 | 只读操作、固定工作流路径 | 无 | 仅人类发起、预定义执行步骤 | | 范围 2:限定代理权限 | 有限 | 可修改系统、访问多工具 | 有限 | 操作需人类审批、所有变更人在回路 | | 范围 3:监督代理权限 | 高 | 可修改多系统、动态工具选择 | 高 | 人类触发后自主执行、可选人类指导 | | 范围 4:完全代理权限 | 完全 | 全面系统访问、多系统编排、自适应 | 完全 | 自主发起操作、持续自主运行、人类战略监督 |

表 1 范围对代理权限与自主等级的影响

每类架构范围均需在六大关键维度实施特定安全控制措施。表 2 展示了安全要求随代理权限与自主性提升的升级过程:

| 安全维度 | 范围 1:无代理权限 | 范围 2:限定代理权限 | 范围 3:监督代理权限 | 范围 4:完全代理权限 | | — | — | — | — | — | | 身份上下文(认证与授权) | 用户认证、服务认证、有限系统权限(只读)、有限系统访问(仅工作流必需已知系统) | 用户认证、服务认证、人类身份核验用于审批 | 用户认证、服务认证、智能体认证、自主操作身份委托、动态身份生命周期、联合认证 | 持续身份核验、智能体身份证明 | | 数据、记忆与状态保护 | 本地资源权限、文件系统访问控制、基于角色的访问控制 | 人类审批工作流、智能体 mostly-read 权限、上下文感知授权 | 即时权限提升、动态权限边界、行为授权 | 自适应访问控制、持续授权校验 | | 审计与日志 | 本地活动日志、变更追踪、完整性监控、策略强制 | 人类决策审计轨迹、智能体建议日志、审批流程追踪 | 全面操作日志、推理链捕获、扩展会话追踪 | 持续行为日志、模式分析、预测监控、自动化事件关联 | | 智能体与基础模型控制 | 进程隔离、输入输出校验、护栏、审批网关强制 | 扩展会话监控、容器隔离、长时进程管理 | 工具调用沙箱、行为分析、异常检测、自动化隔离 | 自愈安全 | | 代理权限边界与策略 | 固定执行边界、预定义操作限制、静态资源配额、硬编码约束 | 基于审批的边界修改、人类校验约束变更、限时提升访问 | 动态边界调整、运行时约束校验、资源扩展限制、自动化安全检查 | 自适应边界、上下文约束、跨系统资源管理、自主限制适配 | | 编排 | 简单工作流编排、固定执行路径、单一或有限系统集成点 | 多步骤工作流编排、审批门禁工具访问、人类校验工具链 | 动态工具编排、并行执行路径、跨系统集成 | 自主多智能体编排、跨会话学习、动态服务发现 |

表 2 各范围关键安全维度

2.6 各范围安全实施要点

以下概述各范围主要安全挑战与应对风险的关键考量:

2.6.1 范围 1:无代理权限

主要安全挑战:保护工作流完整性、防范提示注入破坏预设流程、维持工作流执行间隔离。

实施要点:

  • 全面监控与异常检测
  • 严格数据校验与完整性检查
  • 每个工作流步骤边界执行输入校验
  • 带版本控制的不可变工作流定义
  • 工作流节点间状态加密与校验
  • 监控试图脱离工作流边界的行为
  • 不同工作流执行间隔离
  • 每个工作流步骤固定超时与资源限制
  • 记录实际执行路径与预期路径对比的审计轨迹

2.6.2 范围 2:限定代理权限

主要安全挑战:保障审批工作流安全、防止绕过人类授权、维持监督有效性。

实施要点:

  • 所有人类审批人启用多因素认证
  • 加密签名审批决策
  • 保障人机双向交互渠道安全
  • 带自动过期的限时审批令牌
  • 全面日志记录所有审批交互
  • 为人类审批人提供智能体能力与风险定期培训

2.6.3 范围 3:监督代理权限

主要安全挑战:自主执行期间维持管控、范围管理、可解释性与可审计性、行为监控。

实施要点:

  • 启动时定义清晰执行边界
  • 执行中实时监控智能体行为
  • 失控进程自动化紧急停止开关
  • 非阻塞式干预机制
  • 正常智能体运行行为基线
  • 定期校验智能体与原始目标一致性

2.6.4 范围 4:完全代理权限

主要安全挑战:持续行为校验、强制代理权限边界、防止能力漂移、维持企业目标对齐。

实施要点:

  • 包括奖励建模在内的高级 AI 安全技术
  • 基于机器学习异常检测的持续监控
  • 行为偏差自动化响应系统
  • 通过系统性测试定期校验目标对齐
  • 防篡改人类强制覆盖机制
  • 置信度下降时可停止运行的故障安全机制
  1. 核心架构模式

成功的智能体部署具备共同模式,在自主性与管控间取得平衡。

3.1 渐进式自主部署

从范围 1 或 2 开始实施,随企业信心与安全能力成熟逐步提升范围等级。该方案在积累运营经验的同时最小化风险。分析范围 4 用例与边界控制时需审慎,评估在低范围下的风险应对能力,以及等级提升后的风险增量。

3.2 分层安全架构

实施深度防御,在网络、应用、智能体、数据多层部署安全控制,避免单层被攻破导致系统完全失效。尽管组合控制可实现高安全标准,但需投入大量精力解决机器与人类的身份与授权问题,防止混淆代理问题 —— 权限较低的人类或服务通过具备更高权限的智能体实现权限提升。

3.3 持续验证闭环

构建自动化系统,持续校验智能体行为是否符合预期模式,发现偏差时启动升级流程。可审计性与可解释性是确认智能体在预设边界内运行的核心要求,助力评估控制有效性、调整参数、校验编排工作流。

3.4 人类监督集成

即使在高度自主系统中,也通过战略检查点、行为报告与手动覆盖能力维持有效人类监督。从范围 1 到范围 4,人类监督看似减少,实则重心转移。例如,范围 1 与 2 对人类发起、审核、审批智能体操作要求更高,而范围 3 与 4 对人类审计、评估、校验及实施复杂安全运营控制的要求远高于前两者。

3.5 优雅降级

设计系统在检测到安全事件时自动降低自主等级,保障安全运行的同时允许人类人员排查。若智能体行为超出设计边界、检测到异常或执行对业务高风险敏感操作,可通过检测控制自动收紧限制,如增加人在回路要求或缩减智能体可执行操作。可采用渐进式降级,或在行为危害环境时直接禁用智能体。构建或部署智能体时,应考虑此类可施加额外限制甚至禁用智能体的安全机制。

  1. 结论

智能体 AI 安全范围矩阵提供结构化思维模型与框架,从四类范围理解并应对自主智能体 AI 系统的安全挑战。通过准确评估当前范围并在六大安全维度实施恰当控制,企业可在管控风险的前提下放心部署智能体 AI。

从基础高度受限智能体到完全自主甚至自我驱动的智能体演进,代表 AI 安全思路的根本性转变。每类范围均要求特定安全能力,企业需系统性构建这些能力,以安全支撑智能体应用愿景。

4.1 后续行动

在企业落地智能体 AI 安全范围矩阵:

  1. 对照四类范围评估当前智能体用例与成熟度,明确安全需求与对应风险,集成至采购与软件开发生命周期(SDLC)流程。
  2. 识别目标范围在六大安全维度的能力缺口。
  3. 制定渐进式部署策略,随范围提升同步构建安全能力。
  4. 实施适配当前范围等级的持续监控与行为分析。
  5. 建立范围升级与安全验证的治理流程。
  6. 为团队培训各范围独特安全挑战知识。

https://aws.amazon.com/cn/blogs/security/the-agentic-ai-security-scoping-matrix-a-framework-for-securing-autonomous-ai-systems/

(完)


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:安全行者老霍 Amazon Amazon《智能体 AI 安全范围矩阵:保障自主 AI 系统安全的框架》

评论:0   参与:  0