2026-06-23 05:06:55 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 文章系统分析了AI智能体在自主决策、系统操控和多智能体协作中面临的身份权限、行为失控、数据安全等五大核心风险，提出了基于身份管控、运行时防护和基础设施安全的三层治理框架，并介绍了智能体安全可信互连协议等具体解决方案，为AI智能体安全治理提供实践路径。 综合评分： 92 文章分类： AI安全,安全建设,解决方案,技术标准,应用安全

cover_image

专题 | 蚂蚁集团副总裁、大安全事业群首席技术官陈亮：AI智能体安全治理——风险、框架与实现路径

中国信息安全

2026年6月22日 18:05 北京

在小说阅读器读本章

去阅读

陈亮

蚂蚁集团副总裁、大安全事业群首席技术官

2024年至2026年，人工智能（AI）领域经历了从对话式助手到自主执行AI智能体的根本性范式转变。以OpenClaw、Claude Code等为代表的新一代智能体产品，标志着AI系统已进化为能“感知环境、自主决策、执行任务”的数字实体。这种转变带来了三个关键特征：一是智能体的自主决策能力使其行为不可完全预测；二是智能体可直接操控外部系统和数据，安全后果从信息层延伸至物理层；三是智能体间协作产生的涌现行为超出单体安全保障范围。基于这些特性，传统基于边界防护和事后审计的安全模式已难以应对新挑战，亟须建立全新的安全范式和治理框架。

一、AI智能体主要风险与成因分析

基于对企业级智能体实践的深入研究，其核心风险可归纳为以下五类。

一是身份与权限风险。员工在未备案平台私建个人智能体，形成“影子智能体”；攻击者伪造Agent标识冒充合法智能体，或冒用员工助理身份进行“漂白”以越权操作。在多智能体协作中，身份声明可被中间节点篡改，未绑定可信执行环境的凭证可被复制滥用，动摇整个智能体生态的信任基础。

二是权限与行为失控风险。智能体可能自行安装工具、调用未授权接口或修改提示词，突破既定能力限制；资金划拨、数据删除等高风险动作若缺乏审核，将造成实质性损害。合法工具可被诱导用于越界目的，多次小授权叠加导致权限蔓延，过度授权则显著扩大风险敞口。

三是数据安全风险。不同敏感等级数据混存混用，可导致高密数据经低密渠道泄露；智能体长期记忆中留存的敏感信息可被未授权访问。企业数据可能通过供应商接口泄露，或在第三方平台发生租户间串扰。个人信息滥用、数据跨境违规直接引发合规问题，数据血缘丢失与脱敏失效则会进一步削弱数据治理能力。

四是运行时与执行环境风险。提示词注入（直接和间接）使外部输入中的指令被错误当作系统指令执行；智能体可遭遇沙箱逃逸与横向移动攻击，突破隔离边界后访问宿主系统。攻击者可在运行时篡改提示词或工具配置，环境伪造、凭证泄露与资源耗尽型攻击，会进一步扩大风险。

五是协作与编排风险。智能体运行时自由发现和调用彼此，易导致协作拓扑失控，引发循环调用和反馈回路失控。协作链中单一节点被攻陷，均可引发信任级联失效和权限级联放大，下游错误输出可被上游直接采纳，而事故责任因分散各环节难以追溯。

上述风险的深层成因可归结为三方面。一是架构根源。智能体以大语言模型为决策核心，概率性推理使输出不可完全确定，模型缺乏原生安全边界。二是机制根源。智能体的动态工具调用能力使其行为空间在运行时持续扩张，传统静态权限模型无法适应。三是生态根源。多智能体协作打破单体安全边界，跨主体调用链引入了信任传递和权限级联问题。

除上述五大核心风险外，完整风险图谱还包括组织成员风险、生命周期与治理风险、外部生态风险、涌现风险、人机界面风险、数据外发风险和内部恶意使用风险。该分类基于STRIDE威胁模型对智能体全生命周期进行系统映射，并参照NIST AI RMF加以校验，从攻击主体、攻击面和安全属性三个维度交叉覆盖，确保风险图谱的完整性。

二、整体解决思路

面对智能体的高动态特征，传统被动响应模式已难以应对。以下提出“Security by Design”的原生安全理念，将安全机制内生于智能体架构。基于此，构建“分层隔离、纵深防御”的安全治理框架，遵循最小权限、零信任、安全左移三大原则：每个智能体仅获得最小权限且动态调整；所有调用须可验证、可追溯；安全管控点前移至入网准入。

该框架由三层架构组成：一是身份管控层，建立统一身份体系与“智能体运行许可证”机制；二是运行时防护层，以“企业AI智能体宪法”为准则，通过意图研判、提示增强、记忆管控、工具拦截、输出审查五层策略实现全流程管控；三是基础设施层，构建安全可信Agent OS，集成Landlock沙箱、命名空间隔离、eBPF过滤等机制，金融级场景引入TEE硬件安全根。

三层架构贯穿智能体全生命周期，形成“事前可防、事中可控、事后可追”的治理闭环。不同于传统“边界防护+事后审计”安全模式，该框架以“内生免疫+全程管控”为核心，确保即使边界被突破，潜在危害也能被快速遏制。

（一）身份与权限管理体系

有效的访问控制始于清晰的身份定义。参考Linux“用户—用户组—其他用户”模型，并针对智能体场景扩展，构建了多用户、多智能体环境的身份体系。用户分为管理员和普通用户两类角色；用户组机制支持批量授权和权限继承；渠道维度标识用户接入终端，使同一用户在不同终端的行为可被区分管控。AI智能体作为特殊访问主体，其身份与所属用户关联但保持独立性，系统根据其类型和风险等级分配相应权限。

为应对智能体的动态性，引入“智能体运行许可证”机制，将静态准入控制升级为动态生命周期管理。入网阶段，智能体声明能力范围和预期行为，经审核通过后获许可证；接收指令阶段，基于许可证进行意图级访问控制；运行阶段持续监测，发现违规即刻干预；极端情况下可吊销许可证强制下线。许可证成为智能体接入网络与使用企业资源的唯一可信凭证。

针对跨系统协作中的身份传递问题，提出基于统一身份标识的透传方案。用户发起请求时，系统生成含员工编号、智能体标识与工具清单的令牌，该令牌在调用链路中全链路透传，下游服务通过换签验证令牌的合法性，确保每跳调用均可追溯至原始用户。生产型智能体需注册绑定应用获取专属令牌，其身份与应用身份解耦，避免应用级权限的过度授权。

（二）运行时安全防护机制

运行时安全引擎以“企业AI智能体宪法”为最高准则，将抽象的安全原则编译为五层具体的运行时管控策略，实现对智能体行为的全局全时监控。

意图研判层对指令进行语义级分析，识别潜在恶意意图，实现语义、主体身份与岗位职责的联合判断。例如，同样是查询客户信息的请求，客服智能体在其服务域内风险评级较低，财报分析智能体的同类请求可能涉及越域访问，数字员工借用个人助理身份发起的请求则存在身份漂白风险。多维度风险评估使管控更精准，既能避免过度拦截，又能有效识别威胁。

提示增强层将宪法约束注入智能体思考上下文，分为以下四个层级：静态宪法层包含不可变根本原则（禁止身份冒充、越权行为等）；动态策略层基于许可证的岗位职责动态注入约束；情境上下文层整合环境信息、历史交互和风险评级；用户输入层对原始用户输入进行预处理，区分可信输入和潜在危险输入。

记忆管控层实现记忆的分级治理，确保可追溯、可校验、可隔离、可清除。记忆数据按敏感程度分级标注并分布在物理隔离区域存储；跨会话记忆在存储层实现物理隔离；在涉及高风险决策时自动生成审计快照；在检测到记忆数据被污染时支持选择性遗忘和回滚。

工具拦截层对敏感操作进行实时阻断，核心能力包括外部通信检测、白名单管控、参数检查和影响面评估。当智能体尝试调用其他智能体时须经协作网关校验；白名单机制确保只能调用授权工具；参数检查识别注入攻击或越权尝试；影响面评估会对高风险操作触发人工审核。

输出审查层对最终输出进行合规性审查，包括事实性检查、泄露检查、一致性检查、偏见审查和合规性审查。其中，泄露检查不仅识别明文的敏感信息，还通过编码检测、异常流量特征分析等技术手段识别经过编码、分片或隐藏在正常文本中的敏感信息。一致性检查对比输出内容与输入请求的符合程度，识别可能的偏离或幻觉。合规审查确保输出内容符合企业价值观和法律法规要求。当审查发现异常时，系统可以采取拦截、告警、人工审核等不同级别的响应措施。

（三）Agent OS与基础设施安全

传统观点认为智能体可运行于任意操作系统，但忽视了智能体对系统资源的深度依赖及对系统级管控的需求。实际上，智能体需要能理解其安全需求、提供内生防护的操作系统。

安全可信Agent OS在系统层面集成多重隔离管控机制：基于Landlock实现细粒度特权控制，通过文件与网络沙箱限制资源访问，利用命名空间实现进程级隔离，借助eBPF对系统调用实时过滤。这些机制共同为智能体构建了安全座舱，即使被攻陷也能将危害控制在最小范围内。金融级场景引入可信执行环境（TEE），在处理器内创建隔离安全区域，核心安全功能如密钥管理、身份认证在TEE内执行，与应用逻辑通过安全通道通信，确保可信边界不被突破。

在操作系统防护之外，智能体互连已成为基础设施安全的另一关键维度。国际上已涌现出如美国科技公司Anthropic发布的模型上下文协议（MCP，用于智能体与外部工具/数据源的标准化交互）、Google提出的Agent2Agent协议（A2A，用于智能体间发现与协作）与支付协议（AP2）、Visa发布的可信智能体协议（TAP，用于支付场景的身份与授权管理）等协议。但这些协议均聚焦功能层连接，对跨信任域协作中的主体身份可验证性、意图防篡改传递、授权边界不扩张、执行事实可追溯等深层安全问题，尚未形成系统性的解决方案。

针对上述安全空白，我们提出智能体安全可信互连协议（Agent Security Link，ASL）。ASL是面向智能体间协作的端到端安全协议（可叠加于MCP、A2A等通信协议），回答“智能体如何安全可信地跨边界协作”这一深层问题。协议采用“四类能力组件+安全基础设施”的分层架构：底层提供从软件隔离到TEE硬件隔离的分级安全执行环境与密钥管理；上层通过可信身份（主体与运行环境的可验证绑定）、可信连接（双向认证的安全通道与防重放）、可信意图（意图传递的语义连续性与不可抵赖回执）、可信授权（多级委托中权限收缩不扩张的凭证链校验）四大模块，为企业级多智能体部署提供从身份认证到执行审计的全链路保障，使跨边界协作具备“谁在代表谁、做了什么、是否被授权、结果是否可追溯”的端到端可验证能力（如图所示）。

图智能体安全可信互连协议

三、未来挑战与展望

随着智能体技术的发展与应用场景的扩展，其安全治理面临一系列新挑战。

一是安全涌现性的管控。数百甚至数千个智能体协同运行时，单体合规不等于系统安全。需在预定义协作拓扑与动态组网间取得平衡，并解决跨域信任与隐私保护问题。未来，可融合复杂系统理论与机器学习技术，提升对涌现风险的预测与事前干预能力。

二是可扩展的监管体系。人类监管面临理解门槛高、审批疲劳与实时性压力。因此，需探索以安全智能体监管其他智能体的自进化安全生态。然而，安全智能体自身的可信根问题无法回避：其策略需由可信执行环境签发的基准策略锚定，核心裁决逻辑应运行于硬件隔离区；面对误判风险应建立分级熔断机制与人工上浮通道；面对递归风险需引入独立硬件看门狗与心跳检测。在此基础上，构建“基础操作自动审批—关键操作专家审批—极端操作委员会审批”的多层级监管体系。

三是跨组织协作的信任联邦。跨组织智能体协作需在组织边界外建立可信身份认证与授权体系，推动联邦身份互认，在保护隐私前提下实现可靠验证。此外，智能体致损后的跨组织责任认定，也将成为人工智能立法中的重要问题。

智能体技术正在开启人机协作新纪元，必须将“智能向善”理念转化为可执行、可验证、可审计的安全技术架构，才能真正释放其潜力。面向未来，智能体安全治理需要产学研多方协同努力：技术层面持续创新以应对多智能体协作、可扩展监管的新需求；标准层面需推动行业标准和监管框架的完善；实践层面需由头部企业将理论成果转化为可用安全产品。只有构建技术、标准和实践三位一体的安全防护体系，才能为智能体技术的健康发展和关键领域的应用奠定基础。

（本文刊登于《中国信息安全》杂志2026年第5期）

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：中国信息安全《专题 | 蚂蚁集团副总裁、大安全事业群首席技术官陈亮：AI智能体安全治理——风险、框架与实现路径》