首提”原生不确定性”360发布智能体安全三层治理方案

admin 2026-06-10 04:44:04 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 360提出AI智能体安全需从传统防御转向管控原生不确定性的新范式。智能体因自主性、协同性和演化性带来意图不确定性和幻觉不确定性风险,传统安全方法失效。解决方案覆盖输入、推理、执行三层闭环:恶意意图识别引擎提升模型安全性10%-30%;世界认知模型抑制幻觉;环境孪生沙箱控制行为边界。强调需接受风险不可消除,只能通过动态管控实现安全与能力的平衡。 综合评分: 85 文章分类: AI安全,解决方案,安全建设,威胁情报,安全运营


cover_image

首提”原生不确定性” 360发布智能体安全三层治理方案

360数字安全

2026年6月9日 19:04 北京

在小说阅读器读本章

去阅读

根据斯坦福《AI Index 2026》报告,在垂直领域应用中,主流大模型的幻觉率区间为22%到94%

这不是某个模型的个别缺陷,而是所有大模型的共性表现。

360安全团队的监测数据从另一个维度印证了风险的严峻程度:公网上数百万AI相关资产直接暴露端口,没有任何防护;仅OpenClaw这一个智能体框架,截至2026年3月就累计发现漏洞82个,其中高危及以上占比近四成。

AI资产暴露、智能体框架漏洞和模型幻觉风险,正在同时叠加。但绝大多数企业的安全体系,仍在用旧方法应对智能体安全新问题。

在近日举办的“2026华为云创想者大会”上,360集团首席科学家、集团副总裁潘剑锋博士直言:这条路走不通了。

旧地图找不到新大陆

潘剑锋的判断基于一个前提:AI智能体根本不是传统意义上的”软件”。过去的程序是工具——你给它指令,它执行,行为边界是确定的、可预期的。

但当智能体具备自主决策能力后,风险逻辑已经发生了质变。

潘剑锋在演讲中归纳了智能体的三个本质特征:

它具备自主性,能独立走完”观察→思考→行动”的完整闭环,一旦被恶意诱导,就会自主贯穿整条攻击链;

它具备协同性,多个Agent通过标准化协议互相调用、共享数据,一个被攻破,风险瞬间传导至整个集群;

它还具备演化性,能从历史行动和环境反馈中持续学习,今天写的检测规则,明天可能就完全失效。

这意味着传统安全的整套方法论正在丧失根基。因为这套方法论的核心范式是”防御确定性威胁”——基于已知的漏洞特征和攻击模式,构建规则化的检测与响应体系。一旦威胁超出已知特征库的覆盖范围,防线就会出现盲区。

提示词注入、越狱、工具投毒、供应链攻击这些外部攻击仍然存在,但更根本的变化在于,攻击可以利用智能体自身的不确定性,把认知偏差转化为真实行为风险。

不确定性:AI安全的”第一性问题”

那风险究竟来自哪里?

潘剑锋给出了一个答案——来自AI自己。

大模型的工作方式说到底只有一件事:给定上下文,预测下一个最可能出现的词元。这个过程是概率性的,不是确定性的。同样的输入、同样的系统状态,智能体仍然可能给出不同的理解和输出。

这不是可以修复的缺陷,而是概率计算的数学必然。潘剑锋把这种特性定义为AI智能体的”原生不确定性”。

但故事还有另一面。AI之所以能理解自然语言、处理模糊任务、完成创造性工作,依靠的正是这种概率性推理。确定性意味着僵化,不确定性才带来智能。

不确定性是AI的天赋,也是AI的原罪。两者是同一件事。

不确定性“长什么样”

抽象概念需要具体拆解。潘剑锋把不确定性呈现为两张面孔。

第一张面孔:意图不确定性

智能体对任务目标的理解,可能存在歧义,也可能被外部恶意篡改。用户说不清楚,导致理解偏差;恶意注入,直接覆盖原有指令;甚至在一场长对话中,目标自己悄悄漂移——你以为它在帮你做A,它其实已经在做B了。再加上工作空间、会话历史被篡改导致的状态污染,意图层面的风险远比想象中复杂。

第二张面孔:幻觉不确定性

大模型依赖统计规律,而不是对真实世界的理解。所以它会生成不符合客观事实或逻辑的内容——编造不存在的实体和数据、推理过程出现断层或矛盾、对事件顺序和持续时间产生错误认知。前文提到的那组幻觉率数据,正是这张面孔在专业场景中的量化呈现。

潘剑锋指出,这两类不确定性风险,最终都会外延到行为安全风险。

一个Agent感冒,整个系统都可能发烧

如果不确定性只困在单个智能体内部,那至少可控。但现实是,今天的Agent越来越多地“组团”工作。

多Agent协同意味着:一个Agent的输出,就是下一个Agent的输入。当上游Agent产生了幻觉或被注入了错误信息,这个错误不会在传递中自动消失——它会逐级传导、层层叠加,在协作网络中不断放大。

潘剑锋把这种现象定义为“不确定性的传导放大效应”:一个节点的判断偏差,有可能在整个系统中引发连锁反应。不是单点故障,是系统性坍塌。

而行业对这种“不确定性传染”的认知和防范,几乎还是一片空白。

不是升级,是换轨

问题的本质变了,解法也必须变。

潘剑锋给出了明确的方向判断:AI安全不能在传统安全的框架里做加法,必须换轨。

他用了一个类比——传统安全是修围墙,把已知的威胁挡在外面。AI安全是驭马:你骑着一匹有自主判断力的马,它能翻山越岭,但也可能突然脱缰。你不能把马关回马厩,因为你要的就是它翻山越岭的能力。你要做的,是在它奔跑的时候,拉得住缰绳。

所以,安全范式必须从“防御确定性威胁”,转向“管控不确定性”。

360的缰绳:三层闭环

基于这个判断,360 提出了“两个层面”的应对思路:第一层,从源头上解决不确定性本身;第二层,让不确定性在可控范围内安全执行。

这个思路落地为覆盖“管意图、校认知、控行为”的智能体全链路三层闭环:

输入层:以模治模

360打造了恶意意图识别引擎,通过打通恶意样本运营和意图识别大模型训练的闭环,实现威胁情报和模型能力双向赋能,建立动态更新的恶意特征检测模型,确保对新型攻击手法的快速响应。实测数据显示,接入后开源大模型安全性提升10%-30%,DeepSeek R1从82%提升至94%。

推理层:用确定性锚定不确定性

360构建了”世界认知模型”(WCM),针对任务目标世界建立语义化数据与语义化逻辑,实现对世界内在机制的理解和未来状态的预测。WCM与大语言模型双引擎协同——大模型负责泛化推理推进任务,认知模型以预测能力约束和引导推理过程,从根源上抑制幻觉生成。

执行层:把马放进围场

360环境孪生沙箱为每个智能体划定行动边界,高保真复现真实系统环境,动态行为分析引擎实时识别异常,状态监控与自动回滚兜底。即使出现不可预见的偏差,损害也被限制在最小范围内。

与不确定性共处

22%到94%的幻觉率,这组数据真正的含义不是AI还不够好,而是AI的风险机制和能力机制,是同一套机制。

人类历史上,我们从未制造过这样一种工具。过去二十年,安全行业的使命是消灭威胁。而AI时代,行业需要接受一个新的现实:有些风险不能被消灭,只能被驾驭。

正如潘剑锋在演讲结尾所说,智能体安全不是传统安全的升级版,而是一场范式重构。

这场重构,才刚刚开始。

往期推荐

| | | | | | — | — | — | — | | | | | | — | — | | 01 | ● 2026两会观察 | 周鸿祎为智能体人才培养献策,360先行落地 | | ► 点击阅读 | | | | | | | — | — | | 02 | ●  覆盖亿级用户!360发现全球高危漏洞 漏洞挖掘智能体首次披露 | | ► 点击阅读 | | | | | | | — | — | | 03 | ● 国内首个!360推出Wmansvcs勒索软件专用解密服务 | | ► 点击阅读 | | | | | | | — | — | | 04 | ● 360亮相2026世界互联网大会亚太峰会 智能体成果引行业关注 | | ► 点击阅读 | |


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:360数字安全 《首提”原生不确定性” 360发布智能体安全三层治理方案》

评论:0   参与:  0