文章总结: 文章系统分析了AI智能体在自主决策、系统操控和多智能体协作中面临的身份权限、行为失控、数据安全等五大核心风险,提出了基于身份管控、运行时防护和基础设施安全的三层治理框架,并介绍了智能体安全可信互连协议等具体解决方案,为AI智能体安全治理提供实践路径。 综合评分: 92 文章分类: AI安全,安全建设,解决方案,技术标准,应用安全
专题 | 蚂蚁集团副总裁、大安全事业群首席技术官陈亮:AI智能体安全治理——风险、框架与实现路径
中国信息安全
2026年6月22日 18:05 北京
在小说阅读器读本章
去阅读
陈亮
蚂蚁集团副总裁、大安全事业群首席技术官
2024年至2026年,人工智能(AI)领域经历了从对话式助手到自主执行AI智能体的根本性范式转变。以OpenClaw、Claude Code等为代表的新一代智能体产品,标志着AI系统已进化为能“感知环境、自主决策、执行任务”的数字实体。这种转变带来了三个关键特征:一是智能体的自主决策能力使其行为不可完全预测;二是智能体可直接操控外部系统和数据,安全后果从信息层延伸至物理层;三是智能体间协作产生的涌现行为超出单体安全保障范围。基于这些特性,传统基于边界防护和事后审计的安全模式已难以应对新挑战,亟须建立全新的安全范式和治理框架。
一、AI智能体主要风险与成因分析
基于对企业级智能体实践的深入研究,其核心风险可归纳为以下五类。
一是身份与权限风险。员工在未备案平台私建个人智能体,形成“影子智能体”;攻击者伪造Agent标识冒充合法智能体,或冒用员工助理身份进行“漂白”以越权操作。在多智能体协作中,身份声明可被中间节点篡改,未绑定可信执行环境的凭证可被复制滥用,动摇整个智能体生态的信任基础。
二是权限与行为失控风险。智能体可能自行安装工具、调用未授权接口或修改提示词,突破既定能力限制;资金划拨、数据删除等高风险动作若缺乏审核,将造成实质性损害。合法工具可被诱导用于越界目的,多次小授权叠加导致权限蔓延,过度授权则显著扩大风险敞口。
三是数据安全风险。不同敏感等级数据混存混用,可导致高密数据经低密渠道泄露;智能体长期记忆中留存的敏感信息可被未授权访问。企业数据可能通过供应商接口泄露,或在第三方平台发生租户间串扰。个人信息滥用、数据跨境违规直接引发合规问题,数据血缘丢失与脱敏失效则会进一步削弱数据治理能力。
四是运行时与执行环境风险。提示词注入(直接和间接)使外部输入中的指令被错误当作系统指令执行;智能体可遭遇沙箱逃逸与横向移动攻击,突破隔离边界后访问宿主系统。攻击者可在运行时篡改提示词或工具配置,环境伪造、凭证泄露与资源耗尽型攻击,会进一步扩大风险。
五是协作与编排风险。智能体运行时自由发现和调用彼此,易导致协作拓扑失控,引发循环调用和反馈回路失控。协作链中单一节点被攻陷,均可引发信任级联失效和权限级联放大,下游错误输出可被上游直接采纳,而事故责任因分散各环节难以追溯。
上述风险的深层成因可归结为三方面。一是架构根源。智能体以大语言模型为决策核心,概率性推理使输出不可完全确定,模型缺乏原生安全边界。二是机制根源。智能体的动态工具调用能力使其行为空间在运行时持续扩张,传统静态权限模型无法适应。三是生态根源。多智能体协作打破单体安全边界,跨主体调用链引入了信任传递和权限级联问题。
除上述五大核心风险外,完整风险图谱还包括组织成员风险、生命周期与治理风险、外部生态风险、涌现风险、人机界面风险、数据外发风险和内部恶意使用风险。该分类基于STRIDE威胁模型对智能体全生命周期进行系统映射,并参照NIST AI RMF加以校验,从攻击主体、攻击面和安全属性三个维度交叉覆盖,确保风险图谱的完整性。
二、整体解决思路
面对智能体的高动态特征,传统被动响应模式已难以应对。以下提出“Security by Design”的原生安全理念,将安全机制内生于智能体架构。基于此,构建“分层隔离、纵深防御”的安全治理框架,遵循最小权限、零信任、安全左移三大原则:每个智能体仅获得最小权限且动态调整;所有调用须可验证、可追溯;安全管控点前移至入网准入。
该框架由三层架构组成:一是身份管控层,建立统一身份体系与“智能体运行许可证”机制;二是运行时防护层,以“企业AI智能体宪法”为准则,通过意图研判、提示增强、记忆管控、工具拦截、输出审查五层策略实现全流程管控;三是基础设施层,构建安全可信Agent OS,集成Landlock沙箱、命名空间隔离、eBPF过滤等机制,金融级场景引入TEE硬件安全根。
三层架构贯穿智能体全生命周期,形成“事前可防、事中可控、事后可追”的治理闭环。不同于传统“边界防护+事后审计”安全模式,该框架以“内生免疫+全程管控”为核心,确保即使边界被突破,潜在危害也能被快速遏制。
(一)身份与权限管理体系
有效的访问控制始于清晰的身份定义。参考Linux“用户—用户组—其他用户”模型,并针对智能体场景扩展,构建了多用户、多智能体环境的身份体系。用户分为管理员和普通用户两类角色;用户组机制支持批量授权和权限继承;渠道维度标识用户接入终端,使同一用户在不同终端的行为可被区分管控。AI智能体作为特殊访问主体,其身份与所属用户关联但保持独立性,系统根据其类型和风险等级分配相应权限。
为应对智能体的动态性,引入“智能体运行许可证”机制,将静态准入控制升级为动态生命周期管理。入网阶段,智能体声明能力范围和预期行为,经审核通过后获许可证;接收指令阶段,基于许可证进行意图级访问控制;运行阶段持续监测,发现违规即刻干预;极端情况下可吊销许可证强制下线。许可证成为智能体接入网络与使用企业资源的唯一可信凭证。
针对跨系统协作中的身份传递问题,提出基于统一身份标识的透传方案。用户发起请求时,系统生成含员工编号、智能体标识与工具清单的令牌,该令牌在调用链路中全链路透传,下游服务通过换签验证令牌的合法性,确保每跳调用均可追溯至原始用户。生产型智能体需注册绑定应用获取专属令牌,其身份与应用身份解耦,避免应用级权限的过度授权。
(二)运行时安全防护机制
运行时安全引擎以“企业AI智能体宪法”为最高准则,将抽象的安全原则编译为五层具体的运行时管控策略,实现对智能体行为的全局全时监控。
意图研判层对指令进行语义级分析,识别潜在恶意意图,实现语义、主体身份与岗位职责的联合判断。例如,同样是查询客户信息的请求,客服智能体在其服务域内风险评级较低,财报分析智能体的同类请求可能涉及越域访问,数字员工借用个人助理身份发起的请求则存在身份漂白风险。多维度风险评估使管控更精准,既能避免过度拦截,又能有效识别威胁。
提示增强层将宪法约束注入智能体思考上下文,分为以下四个层级:静态宪法层包含不可变根本原则(禁止身份冒充、越权行为等);动态策略层基于许可证的岗位职责动态注入约束;情境上下文层整合环境信息、历史交互和风险评级;用户输入层对原始用户输入进行预处理,区分可信输入和潜在危险输入。
记忆管控层实现记忆的分级治理,确保可追溯、可校验、可隔离、可清除。记忆数据按敏感程度分级标注并分布在物理隔离区域存储;跨会话记忆在存储层实现物理隔离;在涉及高风险决策时自动生成审计快照;在检测到记忆数据被污染时支持选择性遗忘和回滚。
工具拦截层对敏感操作进行实时阻断,核心能力包括外部通信检测、白名单管控、参数检查和影响面评估。当智能体尝试调用其他智能体时须经协作网关校验;白名单机制确保只能调用授权工具;参数检查识别注入攻击或越权尝试;影响面评估会对高风险操作触发人工审核。
输出审查层对最终输出进行合规性审查,包括事实性检查、泄露检查、一致性检查、偏见审查和合规性审查。其中,泄露检查不仅识别明文的敏感信息,还通过编码检测、异常流量特征分析等技术手段识别经过编码、分片或隐藏在正常文本中的敏感信息。一致性检查对比输出内容与输入请求的符合程度,识别可能的偏离或幻觉。合规审查确保输出内容符合企业价值观和法律法规要求。当审查发现异常时,系统可以采取拦截、告警、人工审核等不同级别的响应措施。
(三)Agent OS与基础设施安全
传统观点认为智能体可运行于任意操作系统,但忽视了智能体对系统资源的深度依赖及对系统级管控的需求。实际上,智能体需要能理解其安全需求、提供内生防护的操作系统。
安全可信Agent OS在系统层面集成多重隔离管控机制:基于Landlock实现细粒度特权控制,通过文件与网络沙箱限制资源访问,利用命名空间实现进程级隔离,借助eBPF对系统调用实时过滤。这些机制共同为智能体构建了安全座舱,即使被攻陷也能将危害控制在最小范围内。金融级场景引入可信执行环境(TEE),在处理器内创建隔离安全区域,核心安全功能如密钥管理、身份认证在TEE内执行,与应用逻辑通过安全通道通信,确保可信边界不被突破。
在操作系统防护之外,智能体互连已成为基础设施安全的另一关键维度。国际上已涌现出如美国科技公司Anthropic发布的模型上下文协议(MCP,用于智能体与外部工具/数据源的标准化交互)、Google提出的Agent2Agent协议(A2A,用于智能体间发现与协作)与支付协议(AP2)、Visa发布的可信智能体协议(TAP,用于支付场景的身份与授权管理)等协议。但这些协议均聚焦功能层连接,对跨信任域协作中的主体身份可验证性、意图防篡改传递、授权边界不扩张、执行事实可追溯等深层安全问题,尚未形成系统性的解决方案。
针对上述安全空白,我们提出智能体安全可信互连协议(Agent Security Link,ASL)。ASL是面向智能体间协作的端到端安全协议(可叠加于MCP、A2A等通信协议),回答“智能体如何安全可信地跨边界协作”这一深层问题。协议采用“四类能力组件+安全基础设施”的分层架构:底层提供从软件隔离到TEE硬件隔离的分级安全执行环境与密钥管理;上层通过可信身份(主体与运行环境的可验证绑定)、可信连接(双向认证的安全通道与防重放)、可信意图(意图传递的语义连续性与不可抵赖回执)、可信授权(多级委托中权限收缩不扩张的凭证链校验)四大模块,为企业级多智能体部署提供从身份认证到执行审计的全链路保障,使跨边界协作具备“谁在代表谁、做了什么、是否被授权、结果是否可追溯”的端到端可验证能力(如图所示)。
图 智能体安全可信互连协议
三、未来挑战与展望
随着智能体技术的发展与应用场景的扩展,其安全治理面临一系列新挑战。
一是安全涌现性的管控。数百甚至数千个智能体协同运行时,单体合规不等于系统安全。需在预定义协作拓扑与动态组网间取得平衡,并解决跨域信任与隐私保护问题。未来,可融合复杂系统理论与机器学习技术,提升对涌现风险的预测与事前干预能力。
二是可扩展的监管体系。人类监管面临理解门槛高、审批疲劳与实时性压力。因此,需探索以安全智能体监管其他智能体的自进化安全生态。然而,安全智能体自身的可信根问题无法回避:其策略需由可信执行环境签发的基准策略锚定,核心裁决逻辑应运行于硬件隔离区;面对误判风险应建立分级熔断机制与人工上浮通道;面对递归风险需引入独立硬件看门狗与心跳检测。在此基础上,构建“基础操作自动审批—关键操作专家审批—极端操作委员会审批”的多层级监管体系。
三是跨组织协作的信任联邦。跨组织智能体协作需在组织边界外建立可信身份认证与授权体系,推动联邦身份互认,在保护隐私前提下实现可靠验证。此外,智能体致损后的跨组织责任认定,也将成为人工智能立法中的重要问题。
智能体技术正在开启人机协作新纪元,必须将“智能向善”理念转化为可执行、可验证、可审计的安全技术架构,才能真正释放其潜力。面向未来,智能体安全治理需要产学研多方协同努力:技术层面持续创新以应对多智能体协作、可扩展监管的新需求;标准层面需推动行业标准和监管框架的完善;实践层面需由头部企业将理论成果转化为可用安全产品。只有构建技术、标准和实践三位一体的安全防护体系,才能为智能体技术的健康发展和关键领域的应用奠定基础。
(本文刊登于《中国信息安全》杂志2026年第5期)
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:中国信息安全 《专题 | 蚂蚁集团副总裁、大安全事业群首席技术官陈亮:AI智能体安全治理——风险、框架与实现路径》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论