2026-04-18 06:43:41 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文介绍亚马逊推出的《智能体AI安全范围矩阵》框架，针对具备自主决策能力的AI系统提出四类安全架构范围（无代理权限、限定代理权限、监督代理权限、完全代理权限），详细分析各范围的代理权限特征、安全挑战及实施要点，为企业应对智能体AI系统特有的安全风险提供结构化解决方案。 综合评分： 85 文章分类： AI安全,安全建设,解决方案,技术标准,安全运营

cover_image

智能体 AI 安全范围矩阵：保障自主 AI 系统安全的框架

原创

Amazon Amazon

安全行者老霍

2026年4月17日 09:03 北京

在小说阅读器读本章

去阅读

作者： Aaron Brown and Matt Saner

发布时间：2025 年 11 月 21 日

随着生成式 AI 走向主流，亚马逊云科技（AWS）推出了《Generative AI Security Scoping Matrix》（生成式 AI 安全范围矩阵），帮助企业理解并应对基于基础模型（Foundation Model）应用的独特安全挑战。该框架不仅被全球 AWS 客户采用，还被OWASP、全球 AI 安全联盟（CoSAI）等行业标准组织、合作伙伴、系统集成商（SI）、分析师、审计机构等广泛引用。如今，具备自主决策能力、可长期运行并调用功能的智能体 AI 系统不断涌现，我们特此构建另一套全新框架，《Agentic AI Security Scoping Matrix》，应对一类完全新型的安全挑战。

智能体 AI 系统可自主执行多步骤任务、做出决策，并与基础设施和数据交互。这是一次范式转变，企业必须适应。与采用无状态请求-响应模式的传统基础模型不同，智能体 AI 系统引入了自主能力、持久化记忆、工具编排、身份与代理权限挑战，以及外部系统集成能力，显著扩大了企业需要应对的风险范围。

通过与部署此类系统的客户合作，我们发现传统 AI 安全框架往往无法完全适配智能体场景。智能体系统的自主性要求从根本上采用不同的安全方法。为填补这一空白，我们开发了智能体 AI 安全范围矩阵，这一思维模型与框架基于连通性与自主等级，将智能体架构划分为四类，并为每类架构映射关键安全控制措施。

理解智能体带来的范式转变

基于基础模型的应用运行模式已广为人知且可预测，尽管模型输出具有非确定性与无状态性。这类应用最基础的运行方式是：接收提示词或指令、生成响应、随后终止会话。安全与合规控制聚焦于输入校验、输出过滤、内容护栏等基础措施，治理则关注整体风险态势与模型鲁棒性。该模式之所以可行，是因为安全失效的影响范围有限：单次交互被攻破仅影响该次请求与响应，不会持久化或扩散至其他系统与用户。

智能体 AI 系统通过多项核心能力从根本上改变了这一安全模型：

1.1 自主执行与代理权限

智能体可依据目标与环境触发条件主动发起操作，无需人类提示或审批。这带来了未授权操作、失控进程、智能体误读目标或执行被篡改指令而越权决策的风险。

当 AI 智能体被授予基于数据、参数、指令与响应执行操作的权限时，明确其被允许的独立行动边界与自主程度至关重要。在讨论智能体 AI 系统时，厘清代理权限与自主性的区别十分关键 — 这两个相关但不同的概念决定了安全防护思路。

智能体权限（Agency）：指 AI 系统在运行环境中被允许并可执行的操作范围，以及人类对其行动与能力的约束程度，包括可交互的系统、可执行的操作、可修改的资源。代理权限本质关乎能力与权限，即系统在环境中被允许做什么。例如，无代理权限的 AI 智能体完全遵循人类定义的工作流、流程、工具与编排；而拥有完全代理权限的 AI 智能体可自主决定如何完成人类设定的目标。

自主性（Autonomy）：指系统在无人类干预下独立决策与行动的程度，包括运行时机、行动选择方式、执行前是否需要人类审批。自主性关乎决策与执行的独立性，即系统在已获代理权限内的行动自由度。例如，某 AI 智能体可能拥有高代理权限（可执行大量操作）但低自主性（每项操作均需人类审批），反之亦然。

理解这一区别对实施恰当的安全控制至关重要。代理权限需要边界与权限体系，自主性则需要监督机制与行为控制。只有对这两个维度进行精细化管理，才能构建安全的智能体 AI 系统。

企业需要明确希望授予 AI 智能体的代理权限与自主等级。在确定智能体的合理运行等级后，方可评估并部署相应安全控制措施，将代理权限限制在智能体应用与企业可接受的风险范围内。

1.2 持久化记忆

智能体通常需要在多会话间保留上下文与习得行为，构建知识库为后续决策提供支撑，形成短期与长期记忆。这种数据持久化带来了额外的数据保护要求，并新增记忆投毒等风险向量 — 攻击者注入虚假信息，污染跨多次交互与多用户的决策过程。

1.3 工具编排

智能体通过函数直接集成数据库、API、服务，甚至其他智能体或编排组件，依据工具抽象层级自主执行复杂任务。扩大的攻击面带来级联攻破风险：单个智能体被入侵后，风险可通过关联系统、多智能体工作流、下游服务与数据存储扩散。

1.4 外部连通性

智能体可跨网络边界运行，访问互联网资源、第三方 API 与企业系统。与传统非智能体系统类似，扩大的连通性可释放商业价值，但必须设计安全控制措施，限制数据泄露、横向移动、外部操纵等风险。对智能体 AI 应用开展威胁建模应列为优先事项，助力将零信任原则落地实施。

1.5 自主行为

高级智能体可依据环境监控、定时任务或习得模式主动发起活动，无需人类触发或审核（取决于配置）。这种自主行为带来操作失控、可解释性与可审计性缺失等风险，难以维持可预测的安全边界。

这些能力将安全问题从边界防护转变为持续监控与管控挑战。被入侵的智能体不仅会泄露信息，还可能自主执行未授权交易、修改关键基础设施，或长期恶意运行而不被发现。

智能体 AI 安全范围矩阵

通过与客户及社区合作，我们基于两大核心维度划分出四类代表智能体 AI 系统演进的架构范围：人类监督与自主程度对比、AI 系统被允许的代理权限等级。每类范围均引入新能力与对应安全要求，是企业应对智能体 AI 风险的优先事项。图 1 展示了智能体 AI 安全范围矩阵。

图 1 智能体 AI 安全范围矩阵。

2.1 范围 1：无代理权限

这是最基础的范围，系统由人类发起流程，智能体本身不具备自主变更甚至经人类审批后变更的能力，本质为只读模式。系统遵循预定义执行路径，在严格的人类触发工作流下运行，通常为离散步骤，可辅以基础模型的非确定性输出。安全重点聚焦流程完整性与边界强制，确保操作在预设限制内，智能体被严格管控，禁止执行变更与无边界操作。

核心特征：

智能体无法直接对环境执行变更操作
遵循预设路径的固定分步执行
生成式 AI 组件在单个工作流节点内处理数据
条件分支仅存在于工作流显式设计处
无动态规划或自主目标追寻行为
状态持久化仅限于工作流执行上下文
工具访问限制于特定预定义工作流步骤

安全重点：保护环境内数据完整性，限制智能体不越界，尤其限制环境与数据修改。核心关注点包括保障步骤间状态转换安全、校验工作流节点间传递数据、防止 AI 组件修改编排逻辑或脱离工作流指定边界。

示例：以日历邀请创建智能体为例。在范围 1 中，用户通过工作流或提示词启动智能体，查询本人与同事的空闲时段。智能体通过连接企业日历应用的模型上下文协议（MCP）服务器执行上下文检索，仅允许查看空闲时间、分析最佳时段并返回建议，由人类手动创建会议。人类定义特定工作流与编排（无代理权限），并审核审批所有操作（无自主变更）。

2.2 范围 2：限定代理权限

代理权限与风险等级提升，范围 2 系统仍由人类发起，但可执行具备环境变更能力的操作（有限代理权限）。但智能体所有重要操作均需人类显式审批，即常说的人在回路（HITL）。系统可收集信息、分析数据、生成建议，但未经人类授权不得执行修改外部系统或访问敏感资源的操作。智能体还可请求人类输入，澄清模糊信息、补充缺失上下文或优化方案，再提交建议。

核心特征：

智能体经人类审核审批后可执行环境变更
实时人类监督与审批工作流
双向人机交互 —— 智能体可向人类查询上下文
自主操作仅限于只读行为（如数据查询、分析任务等）
智能体主动请求澄清或补充信息
留存所有人类审批决策与上下文交互审计日志

安全重点：实施健壮的审批工作流，防止智能体绕过人类授权控制。核心关注点包括防止权限提升、强制恰当身份上下文、保障审批流程自身安全、校验人类提供的上下文以防范注入攻击、保持对所有智能体建议及其依据的可见性。

示例：在日历场景中，人类启动范围 2 智能体系统。智能体查询相关人员日历空闲时段、分析并向用户推荐会议时间，询问是否代发邀请。用户查看并确认建议符合需求后，批准智能体修改日历并发送邀请。人类编排结构化工作流，智能体可在受限范围内执行经人类审核的变更（有限代理权限与有限自主性）。

2.3 范围 3：监督代理权限

范围 3 进一步扩大代理权限，允许智能体在执行中具备更高自主决策能力（高代理权限）。此类 AI 系统由人类（或上游人类管理工作流）触发，执行复杂自主任务，可决策并操作关联系统，无需进一步审批或人在回路机制。人类定义目标并触发执行，智能体通过动态规划与工具调用独立完成目标。执行过程中，智能体可请求人类指导优化路径或处理边缘情况，但无指导也可继续运行。

核心特征：

智能体可执行环境变更，无需（或仅需可选）人类交互审核
人类触发执行，自主完成任务
执行中动态规划与决策
可选人类干预点用于优化执行路径
人类可在执行中调整参数或提供上下文
为完成任务直接访问外部 API 与系统
跨长时执行会话的持久化记忆
在定义边界内自主选择与编排工具

安全重点：在自主执行阶段全面监控智能体行为，为智能体操作设定清晰的代理权限边界 —— 即允许的运行范围与必须禁止的越界操作。核心关注点包括保障人类干预渠道安全以防未授权修改、防止任务执行中范围蔓延、实施可信身份传播机制、监控行为异常、验证智能体在长时运行中始终符合人类原始意图（即使路径调整）。

示例：日历场景中，人类启动范围 3 智能体系统。智能体查询空闲时段、分析并推荐会议时间，且有权限依据自身建议代用户自动预订最佳时段，无需提前征求用户许可。最终所有参会人日历将自动添加会议条目，身份归属为发起操作的人类用户。人类定义结果目标，赋予智能体更大自主实现空间，智能体可无需人类审核自主行动（高代理权限与高自主性）。

2.4 范围 4：完全代理权限

范围 4 包含完全自主的 AI 系统，可依据环境监控、习得模式或预定义条件主动发起活动，无需人类干预执行复杂任务。此类系统代表最高等级 AI 代理权限，持续运行并独立决策行动时机与方式。需要强调的是，范围 4 内的 AI 系统在设计边界内拥有完全代理权限，因此人类必须保持监督管控，可在需要时提供战略指导、修正方向或干预。持续合规、审计、全生命周期管理机制（人类审核与自动化审核，可辅以 AI），对安全管控范围 4 智能体 AI 系统并控制风险至关重要。

核心特征：

依据环境触发条件自主发起活动
持续运行，执行中仅需最低限度人类监督或人在流程
人类可注入战略指导而不中断运行
在目标设定、规划与执行上具备高度至完全自主性
与多外部系统及智能体动态交互
具备递归自我优化与能力扩展潜力

安全重点：实施高级护栏用于行为监控、异常检测、基于范围的工具访问控制与故障安全机制，防止失控操作。核心关注点包括保持与企业目标一致、保障人类干预渠道免受对抗性操纵、防止未授权能力扩展、防止智能体禁用人类监督机制、在智能体遭遇意外情况时实现优雅降级。

示例：日历场景的范围 4 部署。假设企业已部署生成式 AI 会议总结工具，该智能体在网络会议召开时自动启用。会议结束后，日历智能体从会议总结智能体处获知新会议信息，查看总结出的行动项，确认六人约定周五开展白板讨论。日历智能体可使用静态 API 配置或通过 MCP 服务器动态发现实现日历操作，查找六人可用时段并预订最佳时间，以会议发起人的身份上下文自主完成预约。全程无用户直接触发日历请求，完全由环境变化驱动自动化运行（完全代理权限与完全自主性）。

2.5 各范围对比

在安全范围矩阵框架下，自主性与代理权限特征随范围变化如下表所示：

| 范围 | 代理权限等级 | 代理权限特征 | 自主等级 | 自主性特征 | | — | — | — | — | — | | 范围 1：无代理权限 | 无 | 只读操作、固定工作流路径 | 无 | 仅人类发起、预定义执行步骤 | | 范围 2：限定代理权限 | 有限 | 可修改系统、访问多工具 | 有限 | 操作需人类审批、所有变更人在回路 | | 范围 3：监督代理权限 | 高 | 可修改多系统、动态工具选择 | 高 | 人类触发后自主执行、可选人类指导 | | 范围 4：完全代理权限 | 完全 | 全面系统访问、多系统编排、自适应 | 完全 | 自主发起操作、持续自主运行、人类战略监督 |

表 1 范围对代理权限与自主等级的影响

每类架构范围均需在六大关键维度实施特定安全控制措施。表 2 展示了安全要求随代理权限与自主性提升的升级过程：

表 2 各范围关键安全维度

2.6 各范围安全实施要点

以下概述各范围主要安全挑战与应对风险的关键考量：

2.6.1 范围 1：无代理权限

主要安全挑战：保护工作流完整性、防范提示注入破坏预设流程、维持工作流执行间隔离。

实施要点：

全面监控与异常检测
严格数据校验与完整性检查
每个工作流步骤边界执行输入校验
带版本控制的不可变工作流定义
工作流节点间状态加密与校验
监控试图脱离工作流边界的行为
不同工作流执行间隔离
每个工作流步骤固定超时与资源限制
记录实际执行路径与预期路径对比的审计轨迹

2.6.2 范围 2：限定代理权限

主要安全挑战：保障审批工作流安全、防止绕过人类授权、维持监督有效性。

实施要点：

所有人类审批人启用多因素认证
加密签名审批决策
保障人机双向交互渠道安全
带自动过期的限时审批令牌
全面日志记录所有审批交互
为人类审批人提供智能体能力与风险定期培训

2.6.3 范围 3：监督代理权限

主要安全挑战：自主执行期间维持管控、范围管理、可解释性与可审计性、行为监控。

实施要点：

启动时定义清晰执行边界
执行中实时监控智能体行为
失控进程自动化紧急停止开关
非阻塞式干预机制
正常智能体运行行为基线
定期校验智能体与原始目标一致性

2.6.4 范围 4：完全代理权限

主要安全挑战：持续行为校验、强制代理权限边界、防止能力漂移、维持企业目标对齐。

实施要点：

包括奖励建模在内的高级 AI 安全技术
基于机器学习异常检测的持续监控
行为偏差自动化响应系统
通过系统性测试定期校验目标对齐
防篡改人类强制覆盖机制
置信度下降时可停止运行的故障安全机制

核心架构模式

成功的智能体部署具备共同模式，在自主性与管控间取得平衡。

3.1 渐进式自主部署

从范围 1 或 2 开始实施，随企业信心与安全能力成熟逐步提升范围等级。该方案在积累运营经验的同时最小化风险。分析范围 4 用例与边界控制时需审慎，评估在低范围下的风险应对能力，以及等级提升后的风险增量。

3.2 分层安全架构

实施深度防御，在网络、应用、智能体、数据多层部署安全控制，避免单层被攻破导致系统完全失效。尽管组合控制可实现高安全标准，但需投入大量精力解决机器与人类的身份与授权问题，防止混淆代理问题 —— 权限较低的人类或服务通过具备更高权限的智能体实现权限提升。

3.3 持续验证闭环

构建自动化系统，持续校验智能体行为是否符合预期模式，发现偏差时启动升级流程。可审计性与可解释性是确认智能体在预设边界内运行的核心要求，助力评估控制有效性、调整参数、校验编排工作流。

3.4 人类监督集成

即使在高度自主系统中，也通过战略检查点、行为报告与手动覆盖能力维持有效人类监督。从范围 1 到范围 4，人类监督看似减少，实则重心转移。例如，范围 1 与 2 对人类发起、审核、审批智能体操作要求更高，而范围 3 与 4 对人类审计、评估、校验及实施复杂安全运营控制的要求远高于前两者。

3.5 优雅降级

设计系统在检测到安全事件时自动降低自主等级，保障安全运行的同时允许人类人员排查。若智能体行为超出设计边界、检测到异常或执行对业务高风险敏感操作，可通过检测控制自动收紧限制，如增加人在回路要求或缩减智能体可执行操作。可采用渐进式降级，或在行为危害环境时直接禁用智能体。构建或部署智能体时，应考虑此类可施加额外限制甚至禁用智能体的安全机制。

结论

智能体 AI 安全范围矩阵提供结构化思维模型与框架，从四类范围理解并应对自主智能体 AI 系统的安全挑战。通过准确评估当前范围并在六大安全维度实施恰当控制，企业可在管控风险的前提下放心部署智能体 AI。

从基础高度受限智能体到完全自主甚至自我驱动的智能体演进，代表 AI 安全思路的根本性转变。每类范围均要求特定安全能力，企业需系统性构建这些能力，以安全支撑智能体应用愿景。

4.1 后续行动

在企业落地智能体 AI 安全范围矩阵：

对照四类范围评估当前智能体用例与成熟度，明确安全需求与对应风险，集成至采购与软件开发生命周期（SDLC）流程。
识别目标范围在六大安全维度的能力缺口。
制定渐进式部署策略，随范围提升同步构建安全能力。
实施适配当前范围等级的持续监控与行为分析。
建立范围升级与安全验证的治理流程。
为团队培训各范围独特安全挑战知识。

https://aws.amazon.com/cn/blogs/security/the-agentic-ai-security-scoping-matrix-a-framework-for-securing-autonomous-ai-systems/

（完）

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全行者老霍 Amazon Amazon《智能体 AI 安全范围矩阵：保障自主 AI 系统安全的框架》