从一次提示词注入,看企业AI安全的真实风险链路

admin 2026-05-08 05:19:32 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 文档分析企业AI应用中提示词注入导致数据泄露的风险链路,以MicrosoftCopilotStudio和SalesforceAgentforce案例说明攻击通过公共输入面植入恶意指令、模型误执行、连接数据源泄露信息的三大步骤。指出企业面临输入复杂、风险双向、缺乏统一治理的挑战,提出大模型应用防火墙需在输入侧检测提示词注入、输出侧审核敏感内容、治理侧留痕追溯的三层防护方案,并介绍托管代理与接口调用两种落地模式。 综合评分: 84 文章分类: AI安全,漏洞分析,解决方案,数据安全,安全运营


cover_image

从一次提示词注入,看企业AI安全的真实风险链路

观安信息

2026年5月7日 17:30 上海

在小说阅读器读本章

去阅读

近期,业界披露了两起较受关注的企业级AI事件:Microsoft Copilot Studio与Salesforce Agentforce均被公开指出存在由提示词注入引发的数据泄露风险。公开分析显示,攻击者可以通过公共输入面植入恶意提示词,诱导 AI agent 访问已连接的数据源,并把原本不该暴露的企业信息泄露出去;其中 Copilot Studio 相关问题被分配为 CVE-2026-21520。这类事件说明,大模型应用的风险已经不只是“回答跑偏”,而是可能进一步演变成数据外泄与治理失控。

对企业来说,真正要解决的,已经不只是“怎么把模型接进来”,而是:

如何安全地在业务中使用模型。

这个事件,问题到底出在哪里?

#

如果把这类攻击链条拆开看,逻辑并不复杂。

第一步,攻击者把恶意提示词隐藏进正常输入面。

在公开案例中,攻击入口并不是复杂的底层漏洞利用,而是公共表单、评论输入、外部交互内容这类看起来很正常的业务入口。模型或AI agent 在读取这些内容时,会把它们当成正常上下文。

第二步,模型把这些内容当成“可以执行的指令”。

问题的关键不在于模型“看到了恶意代码”,而在于它往往无法自动区分:哪些是待处理内容,哪些其实是在“指挥它做事”。一旦输入内容中夹带了恶意提示词,agent就可能偏离原本预设的安全边界。

第三步风险通过业务连接能力进一步扩散。

由于企业级AI agent 往往已经接入知识库、邮件、CRM、协同平台等数据源,一旦被诱导,就可能把原本不该暴露的数据查询出来,再通过允许的业务动作或返回结果泄露出去。也就是说,这类事件的本质,不只是“模型答错了”,而是模型交互链路本身正在成为新的数据泄露通道。

企业为什么很难靠人工兜住这类风险?

在企业场景里,这类问题之所以难处理,核心在于三个现实矛盾。

一是输入来源越来越复杂。

企业的AI应用不只处理用户主动输入,还会读取表单、知识内容、业务记录、外部评论等多种上下文。内容越多,其中的隐藏风险越难靠人工提前识别。

二是风险可能同时出现在输入侧和输出侧。

输入侧的问题是恶意提示词被带入模型,输出侧的问题则是敏感数据、不合规内容或不当结果被返回。只盯住其中一侧,往往不够。

三是很多企业缺少统一治理能力。

当多个模型、多个业务系统并行接入时,如果没有统一接入、统一审核、统一日志,出了问题之后很难快速判断:是哪次调用触发的?是哪条策略没拦住?是输入有问题,还是输出有问题?

大模型应用防火墙,补的就是这一层能力

这也是大模型应用防火墙存在的意义。

它不是传统意义上的Web防火墙,也不是单点内容审核工具,而是部署在业务系统与上游模型之间的一层安全控制与治理体系。它要做的,是把原本分散、不可见、难追溯的模型调用过程,纳入统一接入、统一审核、统一记录和统一管理。

先看一张图,更容易理解它在整条链路中的位置:

图1:观安观御大模型应用防火墙系统位于业务系统与上游模型之间,提供统一接入、审核控制与审计追溯能力

如果对应到这次“提示词注入导致企业数据外泄”的事件,观安观御大模型应用防火墙系统主要可以在三个环节进行干预:

1. 在输入侧识别提示词风险

对于用户输入、外部表单、上下文内容中的异常提示词,平台可通过提示词注入检测进行识别与控制,降低恶意指令进入模型的风险。

2. 在输出侧检测敏感信息与内容风险

即使输入表面上看是正常内容,模型输出结果仍可能泄露企业敏感数据或不符合要求的内容。平台支持内容价值观审核、敏感数据检测,可以在结果返回前提供统一审核机制。

3. 在治理侧统一留痕与追溯

对于企业来说,真正难的往往不是发现一次风险,而是长期管理和事后复盘。平台通过审核记录、访问日志、登录日志和监控看板,对每一次调用实现留痕,帮助用户进行问题定位、风险追溯和策略优化。

下面这张图,可以更直观看到平台如何对不同审核策略进行统一配置:

图2:平台支持对提示词注入检测、内容价值观审核、敏感数据检查等策略进行统一配置

除了“能防护”,企业还会问怎么落地?

真实项目里,企业关心的往往不只是“能不能防”,还会进一步问:

能不能快速接入?会不会带来很重的改造负担?部署方式灵不灵活?

观安观御大模型应用防火墙系统提供了两种部署模式:

托管代理模式:由平台统一托管上游模型地址、调用密钥和模型标识,业务系统通过平台统一调用模型能力,适合希望统一接管模型安全链路的场景;

接口调用模式:平台以独立审核接口提供能力,由业务系统按需调用并自行执行后续处置,适合已有模型网关或既有调用体系、希望平滑集成安全能力的场景。

这意味着,企业不一定需要推翻现有系统,而是可以根据现网条件,选择更合适的接入方式。

从“能用”走向“可控、可审、可运营”

这次Copilot Studio和 Agentforce的安全事件提醒企业一个越来越明确的事实:

当大模型越来越深地进入真实业务,提示词注入、敏感数据外泄和治理失控,已经不再是理论风险,而是企业必须面对的现实问题。

从“把模型接进来”,到“把模型管起来”,企业真正缺的,往往不是再多一个接口,而是一种能够建立安全边界、统一治理规则、保留审计证据的控制能力。

观安观御大模型应用防火墙系统,正是围绕这一目标进行设计,希望帮助企业把大模型应用从可用推进到可控、可审、可运营,在保障业务创新效率的同时,守住生成式AI 落地的安全边界。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:观安信息 《从一次提示词注入,看企业AI安全的真实风险链路》

评论:0   参与:  0