2026-06-10 04:44:04 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 360提出AI智能体安全需从传统防御转向管控原生不确定性的新范式。智能体因自主性、协同性和演化性带来意图不确定性和幻觉不确定性风险，传统安全方法失效。解决方案覆盖输入、推理、执行三层闭环：恶意意图识别引擎提升模型安全性10%-30%；世界认知模型抑制幻觉；环境孪生沙箱控制行为边界。强调需接受风险不可消除，只能通过动态管控实现安全与能力的平衡。 综合评分： 85 文章分类： AI安全,解决方案,安全建设,威胁情报,安全运营

cover_image

首提”原生不确定性” 360发布智能体安全三层治理方案

360数字安全

2026年6月9日 19:04 北京

在小说阅读器读本章

去阅读

根据斯坦福《AI Index 2026》报告，在垂直领域应用中，主流大模型的幻觉率区间为22%到94%

这不是某个模型的个别缺陷，而是所有大模型的共性表现。

360安全团队的监测数据从另一个维度印证了风险的严峻程度：公网上数百万AI相关资产直接暴露端口，没有任何防护；仅OpenClaw这一个智能体框架，截至2026年3月就累计发现漏洞82个，其中高危及以上占比近四成。

AI资产暴露、智能体框架漏洞和模型幻觉风险，正在同时叠加。但绝大多数企业的安全体系，仍在用旧方法应对智能体安全新问题。

在近日举办的“2026华为云创想者大会”上，360集团首席科学家、集团副总裁潘剑锋博士直言：这条路走不通了。

旧地图找不到新大陆

潘剑锋的判断基于一个前提：AI智能体根本不是传统意义上的”软件”。过去的程序是工具——你给它指令，它执行，行为边界是确定的、可预期的。

但当智能体具备自主决策能力后，风险逻辑已经发生了质变。

潘剑锋在演讲中归纳了智能体的三个本质特征：

它具备自主性，能独立走完”观察→思考→行动”的完整闭环，一旦被恶意诱导，就会自主贯穿整条攻击链；

它具备协同性，多个Agent通过标准化协议互相调用、共享数据，一个被攻破，风险瞬间传导至整个集群；

它还具备演化性，能从历史行动和环境反馈中持续学习，今天写的检测规则，明天可能就完全失效。

这意味着传统安全的整套方法论正在丧失根基。因为这套方法论的核心范式是”防御确定性威胁”——基于已知的漏洞特征和攻击模式，构建规则化的检测与响应体系。一旦威胁超出已知特征库的覆盖范围，防线就会出现盲区。

提示词注入、越狱、工具投毒、供应链攻击这些外部攻击仍然存在，但更根本的变化在于，攻击可以利用智能体自身的不确定性，把认知偏差转化为真实行为风险。

不确定性：AI安全的”第一性问题”

那风险究竟来自哪里？

潘剑锋给出了一个答案——来自AI自己。

大模型的工作方式说到底只有一件事：给定上下文，预测下一个最可能出现的词元。这个过程是概率性的，不是确定性的。同样的输入、同样的系统状态，智能体仍然可能给出不同的理解和输出。

这不是可以修复的缺陷，而是概率计算的数学必然。潘剑锋把这种特性定义为AI智能体的”原生不确定性”。

但故事还有另一面。AI之所以能理解自然语言、处理模糊任务、完成创造性工作，依靠的正是这种概率性推理。确定性意味着僵化，不确定性才带来智能。

不确定性是AI的天赋，也是AI的原罪。两者是同一件事。

不确定性“长什么样”

抽象概念需要具体拆解。潘剑锋把不确定性呈现为两张面孔。

第一张面孔：意图不确定性

智能体对任务目标的理解，可能存在歧义，也可能被外部恶意篡改。用户说不清楚，导致理解偏差；恶意注入，直接覆盖原有指令；甚至在一场长对话中，目标自己悄悄漂移——你以为它在帮你做A，它其实已经在做B了。再加上工作空间、会话历史被篡改导致的状态污染，意图层面的风险远比想象中复杂。

第二张面孔：幻觉不确定性

大模型依赖统计规律，而不是对真实世界的理解。所以它会生成不符合客观事实或逻辑的内容——编造不存在的实体和数据、推理过程出现断层或矛盾、对事件顺序和持续时间产生错误认知。前文提到的那组幻觉率数据，正是这张面孔在专业场景中的量化呈现。

潘剑锋指出，这两类不确定性风险，最终都会外延到行为安全风险。

一个Agent感冒，整个系统都可能发烧

如果不确定性只困在单个智能体内部，那至少可控。但现实是，今天的Agent越来越多地“组团”工作。

多Agent协同意味着：一个Agent的输出，就是下一个Agent的输入。当上游Agent产生了幻觉或被注入了错误信息，这个错误不会在传递中自动消失——它会逐级传导、层层叠加，在协作网络中不断放大。

潘剑锋把这种现象定义为“不确定性的传导放大效应”：一个节点的判断偏差，有可能在整个系统中引发连锁反应。不是单点故障，是系统性坍塌。

而行业对这种“不确定性传染”的认知和防范，几乎还是一片空白。

不是升级，是换轨

问题的本质变了，解法也必须变。

潘剑锋给出了明确的方向判断：AI安全不能在传统安全的框架里做加法，必须换轨。

他用了一个类比——传统安全是修围墙，把已知的威胁挡在外面。AI安全是驭马：你骑着一匹有自主判断力的马，它能翻山越岭，但也可能突然脱缰。你不能把马关回马厩，因为你要的就是它翻山越岭的能力。你要做的，是在它奔跑的时候，拉得住缰绳。

所以，安全范式必须从“防御确定性威胁”，转向“管控不确定性”。

360的缰绳：三层闭环

基于这个判断，360 提出了“两个层面”的应对思路：第一层，从源头上解决不确定性本身；第二层，让不确定性在可控范围内安全执行。

这个思路落地为覆盖“管意图、校认知、控行为”的智能体全链路三层闭环:

输入层：以模治模

360打造了恶意意图识别引擎，通过打通恶意样本运营和意图识别大模型训练的闭环，实现威胁情报和模型能力双向赋能，建立动态更新的恶意特征检测模型，确保对新型攻击手法的快速响应。实测数据显示，接入后开源大模型安全性提升10%-30%，DeepSeek R1从82%提升至94%。

推理层：用确定性锚定不确定性

360构建了”世界认知模型”（WCM），针对任务目标世界建立语义化数据与语义化逻辑，实现对世界内在机制的理解和未来状态的预测。WCM与大语言模型双引擎协同——大模型负责泛化推理推进任务，认知模型以预测能力约束和引导推理过程，从根源上抑制幻觉生成。

执行层：把马放进围场

360环境孪生沙箱为每个智能体划定行动边界，高保真复现真实系统环境，动态行为分析引擎实时识别异常，状态监控与自动回滚兜底。即使出现不可预见的偏差，损害也被限制在最小范围内。

与不确定性共处

22%到94%的幻觉率，这组数据真正的含义不是AI还不够好，而是AI的风险机制和能力机制，是同一套机制。

人类历史上，我们从未制造过这样一种工具。过去二十年，安全行业的使命是消灭威胁。而AI时代，行业需要接受一个新的现实：有些风险不能被消灭，只能被驾驭。

正如潘剑锋在演讲结尾所说，智能体安全不是传统安全的升级版，而是一场范式重构。

这场重构，才刚刚开始。

往期推荐

| | | | | | — | — | — | — | | | | | | — | — | | 01 | ● 2026两会观察 | 周鸿祎为智能体人才培养献策，360先行落地 | | ► 点击阅读 | | | | | | | — | — | | 02 | ● 覆盖亿级用户！360发现全球高危漏洞漏洞挖掘智能体首次披露 | | ► 点击阅读 | | | | | | | — | — | | 03 | ● 国内首个！360推出Wmansvcs勒索软件专用解密服务 | | ► 点击阅读 | | | | | | | — | — | | 04 | ● 360亮相2026世界互联网大会亚太峰会智能体成果引行业关注 | | ► 点击阅读 | |

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：360数字安全《首提”原生不确定性” 360发布智能体安全三层治理方案》