活动回顾|慢雾创始人余弦出席首届AgenticAI创新与安全论坛

admin 2026-04-02 03:47:12 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 慢雾创始人余弦在首届AgenticAI创新与安全论坛上剖析了OpenClaw等AIAgent面临的三类核心风险:输入与意图操控、决策层逻辑错误及模型层安全隐患。他提出’文本即指令’的认知层攻击范式,并分享了慢雾的开源防御工具链(如安全实践指南、SecuritySkill)及系统化安全框架ADSS,强调通过权限约束、链上资产隔离等五层防护体系构建AIAgent的内生安全能力。 综合评分: 88 文章分类: AI安全,漏洞分析,解决方案,区块链安全,安全运营


cover_image

活动回顾|慢雾创始人余弦出席首届 Agentic AI 创新与安全论坛

慢雾科技

2026年4月1日 16:15 中国香港

# 3 月 27 日,由香港数码港、ME Group 及 iPollo 联合主办的首届 Agentic AI 创新与安全论坛暨香港第一届 Web 4.0 国际峰会在香港数码港盛大举行。本次峰会以“Agentic AI 创新应用:Web 4.0 时代的技术变革与产业融合”为主题,汇聚了香港特区政府财政司司长陈茂波、香港数码港主席陈细明、香港数码港董事及 Nano Labs 创始人孔剑平以及著名天使投资人蔡文胜等政产学研各界顶尖力量,共同探讨 AI 从“对话”向“行动”跨越新纪元下的机遇与挑战。

在代理式人工智能(Agentic AI) 备受瞩目的当下,其带来的安全议题尤为关键。慢雾(SlowMist) 创始人余弦受邀出席本次峰会,并发表了题为《AI 与加密世界的安全挑战及防御创新》的主题演讲,与全球行业领袖分享了慢雾(SlowMist) 在 AI 安全领域的最新观察与实践。

## 聚焦前沿:深度剖析 OpenClaw 与 AI Agent 安全威胁

随着 AI 技术不断渗透加密世界,以“养龙虾”(OpenClaw) 为代表的 AI Agent 应用迅速走红。但在热潮背后,一个更深层的问题正在浮现:AI Agent 的安全边界,尚未真正建立。

在演讲中,余弦从 OpenClaw 入手进行了深入拆解,并提出了一个关键判断:“文本即指令。”他解释称,在 AI Agent 的运行语境中,所有输入都不再只是“信息”,而是潜在可执行的指令。这意味着模型接收到的任何外部信息——无论来源是用户输入、文档说明,还是第三方 Skill——都有可能被直接解释并执行,从而将攻击面从代码层扩展到“认知层”。

在这一机制下,攻击路径被极大简化。攻击者无需突破传统安全防线,只需构造精心设计的文本内容,就可能诱导 Agent 执行非预期操作,例如资产转移、敏感信息泄露,甚至远程命令执行。这种攻击路径的隐蔽性和低成本,使其具备极高的现实威胁。

基于上述机制,余弦进一步总结了当前 OpenClaw 面临的三类核心风险:

  • 输入与意图操控(用户交互层): 攻击者可通过“直接提示词注入”诱骗 Agent 执行高危操作。特别值得警惕的是间接供应链投毒——攻击者在 Skill 的 Markdown 文档中植入恶意指令。由于 Markdown 往往承担“安装入口”角色,原本的“说明文本”极易演变为恶意执行脚本(如 curl | bash),导致数据窃取。
  • 决策与编排层风险(应用逻辑层): 这种错误并非来自模型本身,而是来自“错误的执行逻辑”。攻击者可以干扰 Agent 的逻辑推理,使其在加密货币转账等业务流程中篡改收款地址,造成直接资金损失。
  • 模型层风险(核心大脑): 包括模型产生的“幻觉”导致其执行不存在或危险的系统命令,以及模型从训练数据中误学到的不安全操作模式。

余弦指出,“OpenClaw 所暴露的问题并非孤立现象,而是当前 AI Agent 生态普遍面临的结构性挑战。”换句话说,安全问题已经不再是某一个项目的“个案”,而是整个行业都必须正视的系统性风险。

攻防兼备:构建 AI Agent 的安全开源生态

面对不断演化的威胁形态,余弦在演讲中提出了慢雾(SlowMist) “攻防兼备”的安全思路:不仅要理解攻击路径,更要将防御能力嵌入 Agent 的运行机制,实现安全内建。

他向与会嘉宾展示了慢雾(SlowMist) 围绕 AI Agent 所构建的一系列开源工具与实践方案,旨在推动形成一个透明、可验证、可复用的安全生态:

  • OpenClaw 极简安全实践指南:一份从认知层到基础设施层的端到端安全部署手册,为高权限AI Agent在真实生产环境中的部署提供了系统性的“安全思想钢印”。
  • SlowMist Agent Security Skill:一个综合安全审查框架,为 OpenClaw 等智能体增加一双“慧眼”。它不仅能发现常规 Skills 的投毒风险,还能识别链上钱包地址、代码仓库及 URL 的风险。
  • MistTrack Skills:一个即插即用的 Agent 技能包,为 AI Agent 提供专业的加密货币 AML 合规与地址风险分析能力,可用于链上地址风险评估与交易前风险判断。
  • MCP Security Checklist: 一份体系化的安全检查清单,用于快速审计和加固 Agent 服务,帮助团队在部署 MCPs/Skills 及相关 AI 工具链时避免遗漏关键防御点。
  • 恶意 MCP 演示:一个开源的恶意 MCP 服务器示例,用于复现真实攻击场景并测试防御体系的健壮性,可用于安全研究与防御验证。

通过这一系列实践,余弦强调:”安全能力必须内建于 Agent,而非仅依赖外围防护。”只有将防御机制与 Agent 的运行逻辑深度绑定,AI Agent 才能在复杂的 Web3 与 AI 生态中持续、安全地运作。

系统化安全:ADSS 全面防护 AI + Web3 生态

在演讲最后,余弦介绍了慢雾(SlowMist) 提出的 ADSS (AI Development Security Solution)。

如果说前述工具属于“战术能力”,那么 ADSS 更像是一套系统级安全框架。其核心理念是:将零散的安全动作升级为可执行、可审计、可持续的系统化安全运营机制。

ADSS 从多个层面构建 AI + Web3 的安全治理能力:

  • L1 安全治理(开发基线):建立统一的开发与使用安全标准,覆盖开发工具、Agent 框架、插件生态及运行环境,为团队提供统一的策略来源与审计标准。
  • L2 权限与操作约束:通过收敛 Agent 权限边界、最小化工具调用权限、引入关键操作的人机确认机制,有效控制高风险行为的执行范围。
  • L3 外部交互防护:在 URL、依赖仓库、插件来源等外部资源层面引入实时威胁感知,降低恶意内容或供应链投毒进入执行链路的概率。
  • L4 链上资产隔离:针对涉及链上交易的操作,结合链上风险分析与独立签名机制,使 Agent 能构造交易而不直接接触私钥,减少高价值资产操作带来的系统性风险。
  • L5 持续巡检与复盘:通过日志审计、周期性安全复核与运营机制,实现“执行前可预检、执行中可约束、执行后可复盘”的闭环安全能力。

余弦指出,ADSS 并非单一工具,而是一套可持续、可演进的安全运营体系。它旨在在不显著降低开发效率和自动化能力的前提下,通过系统化策略、持续审计与能力联动,帮助团队构建可审计、可升级的 Agent 安全体系,从而应对 AI 与 Web3 深度融合背景下不断演化的安全威胁。

结语

## 首届 Agentic AI 创新与安全论坛不仅汇聚了行业顶尖力量,也为 AI Agent 安全提供了前瞻性思路。随着 Agentic AI 与 Web3 的深度融合,安全挑战将持续升级。作为全球领先的区块链安全公司,慢雾(SlowMist) 将继续推动系统化安全治理落地,通过 ADSS、开源工具与实践,为 AI Agent 构建内生安全能力,助力行业在创新浪潮中实现安全可控、可持续发展。

往期回顾

Odaily专访余弦:Anthropic核弹级新模型泄漏,如何影响加密安全攻防?

慢雾:Web3 安全年框服务全面升级

安全预警:Apifox 桌面客户端官方 CDN 脚本遭供应链投毒

LiteLLM 供应链攻击事件始末

SlowMist Agent Security Skill 正式发布,守护 AI Agent 每一道防线

慢雾导航

慢雾科技官网

https://www.slowmist.com/

慢雾区官网

https://slowmist.io/

慢雾 GitHub

https://github.com/slowmist

Telegram

https://t.me/slowmistteam

Twitter

https://twitter.com/@slowmist_team

Medium

https://medium.com/@slowmist

知识星球

https://t.zsxq.com/Q3zNvvF


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:慢雾科技 《活动回顾|慢雾创始人余弦出席首届 Agentic AI 创新与安全论坛》

评论:0   参与:  0