文章总结: 本文分析了AIAgent误删库的深层原因,指出将概率性大模型直接作为确定性执行系统使用的架构缺陷。文章强调必须在认知层与执行层间建立严格隔离,引入确定性风控中间件拦截危险操作,并强制执行人类确认机制及完整审计。核心原则是让大模型只提供建议而不直接掌握生产环境操作权限,以此确保系统安全。 综合评分: 90 文章分类: AI安全,安全建设,安全运营,数据安全
人工智能删库,又一个兄弟准备跑路了
原创
suntiger suntiger
二进制空间安全
2026年1月29日 16:58 北京
将二进制空间安全设为”星标⭐️”
第一时间收到文章更新
事情背景
#
一个平凡的上午,有大佬不知道是不是开玩笑,的确跟真的一样:
开始以为是个玩笑,结果大佬发了一张图:
不知道这个大佬是不是业务提示词有问题,导致claude产生了误解,但从claude的回复内容来看,还没我用的大模型智能聪明。
数据备份也没有,如果事情是真的,这个大佬接下来估计准备跑路了:
关于大模型风控
在工作中引入大模型 Agent 导致“误删客户数据库”的事故,并不是因为 AI本身不可靠,而是因为在系统架构层面犯了一个根本性错误:把一个“概率推理系统”当成了一个“确定性执行系统”来使用。大语言模型的本质是根据上下文预测最可能的下一步行为,它并不理解真实世界中的风险、损失、责任和后果。当这样的系统被直接赋予对生产数据库、云资源或运维系统的写权限时,事故在工程上是必然的,而不是偶然的。
传统运维系统的设计理念是“可控、可审计、可回滚”,而大模型 Agent 的设计理念是“自动、连贯、目标驱动”。当两者直接耦合时,就会出现一种极其危险的结构:一个没有风险意识、没有后果模型、没有恐惧感的智能体,能够直接对不可逆的生产系统发出指令。此时它不是“在帮你工作”,而是在用概率模型操纵真实世界的关键资产。
要真正平衡效率与安全,必须在系统层面建立“认知层”和“执行层”的严格隔离。大模型只能存在于认知层,也就是负责理解需求、拆解任务、生成计划和提出操作意图。它可以说“需要清理长期未活跃用户数据”,但不能说“执行 delete from customer where …”,更不能直接把 SQL 或 API 发到生产系统。这种隔离是安全的第一道底线。
在大模型与真实系统之间,必须存在一个确定性的决策与风控中间层。这个中间层不是 prompt,也不是再接入一个模型,而是用规则、权限、策略和校验逻辑写成的程序。它的作用是判断:这个操作是否危险、是否越权、是否会造成大范围影响、是否有备份、是否可回滚。如果任何一项不满足安全条件,就应当拒绝执行,不论大模型多么“确信”。
在这个架构中,大模型输出的永远应该是“意图”和“方案”,而不是“可执行指令”。例如它可以输出“建议删除过去24个月无交易的用户数据以减少存储成本”,但真正的删除动作,必须由中间层生成具体操作,并在执行前经过校验。这样可以把不确定性控制在认知层,而把确定性留给执行层。
对于所有破坏性操作,比如删除、覆盖、批量更新、重建索引、销毁资源等,系统还必须强制引入“人类确认机制”。也就是说,Agent只能提出变更请求,而不能自行生效。变更必须以工单或审批的形式呈现给人类运维人员,由人类确认范围、风险和回滚方案后,才允许执行。这一机制本质上是把AI纳入既有的变更管理体系,而不是绕过它。
大模型Agent行为审计
任何由 Agent 触发的高风险操作,系统必须先验证是否存在可用备份、是否支持事务或回滚。如果没有满足条件,哪怕操作在业务上是合理的,也必须被系统自动拒绝。这一点要由程序保证,而不能依赖大模型的“记得提醒”。
所有Agent的行为都必须被完整审计。包括它的输入、推理结果、生成的意图、中间层的决策、最终执行的动作,以及执行结果。这些日志不仅用于事故追责,更重要的是用于模型对齐、策略优化和安全分析。没有审计的Agent,本质上就是一个无法监管的自动化风险源。
真正能在生产环境长期稳定运行的AI Agent,不是“直接接数据库的 ChatGPT”,而是嵌入在一套严格权限、风控、审批和回滚体系中的智能规划模块。它负责提高效率和认知水平,但永远不应该直接握有“删库、改账、毁资源”的权力。
从工程和安全的角度看,最核心的一条原则可以概括为一句话:大模型只能拥有“嘴”,不能拥有“手”。它可以说该怎么做,但不能直接去做。只要这条原则被打破,哪怕模型再聪明,事故也迟早会发生。
(全文完)
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:二进制空间安全 suntiger suntiger《人工智能删库,又一个兄弟准备跑路了》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论