文章总结: OpenAI承认提示词注入攻击无法根除,将成为AI时代长期安全挑战。其Atlas浏览器面临此类风险,公司正采用强化学习训练自动化攻击者在仿真环境中挖掘漏洞,并实施分层防御。专家建议限制权限、加强确认机制以降低风险。 综合评分: 86 文章分类: AI安全,漏洞分析,安全建设
OpenAI称提示词注入攻击难以根除,将成为AI时代的“流行病”
安全内参编译
安全内参
2025年12月25日 17:41 北京
关注我们
带你读懂网络安全
AI浏览器将是发病重灾区。
前情回顾·OpenAI的网络安全动态
- 奇点降临?OpenAI宣布新模型将达到高阶黑客水平
- ChatGPT开发者数据大规模泄露,但是OpenAI说没被黑
- 深度:OpenAI如何打造AI Agent防护体系
- 首次利用OpenAI o3模型发现Linux内核零日漏洞
安全内参12月25日消息,尽管OpenAI正努力加固其Atlas AI浏览器以抵御网络攻击,但该公司承认,提示注入这种通过操纵AI代理、使其遵循恶意指令的攻击形式在短期内不会消失。相关指令往往隐藏在网页或电子邮件中。这也引发了人们对AI代理在开放网络环境中究竟能多安全运行的质疑。
本周一,OpenAI发布了一篇博客文章,详细介绍了其如何持续强化Atlas的防护能力,以应对层出不穷的攻击。文章指出:“提示注入就像网络上的诈骗和社会工程一样,不太可能被完全‘解决’。”OpenAI也承认,ChatGPT Atlas中的“代理模式”会“扩大安全威胁面”。
提示词注入攻击将长期存在
OpenAI在今年10月推出ChatGPT Atlas浏览器,安全研究人员当时随即了发布攻击演示,展示只需在Google Docs中写下几句话,就能改变底层浏览器的行为。同一天,Brave发布了一篇博客文章,将间接提示注入定义为AI驱动浏览器(包括Perplexity的Comet)面临的一项系统性挑战。
OpenAI并非唯一认识到基于提示的注入攻击不会消失的公司。本月早些时候,英国国家网络安全中心警告称,针对生成式AI应用的提示注入攻击“可能永远无法被完全缓解”,这将使网站面临数据泄露的风险。这家英国政府机构建议网络安全专业人士降低提示注入的风险和影响,而不是认为这些攻击可以被“阻止”。
OpenAI则表示:“我们将提示注入视为一项长期的AI安全挑战,需要持续加强针对它的防御。”
OpenAI实施以AI保护AI策略
面对这一看似徒劳无功的任务,OpenAI选择采用一套主动、快速响应的循环机制。目前,这套机制已初步帮助OpenAI在攻击“在野外”被利用之前,于内部发现新型攻击策略。
上述策略与Anthropic和谷歌等竞争对手的思路并无本质差异:为了对抗持续存在的基于提示的攻击风险,防御措施必须是分层的,并且需要不断进行压力测试。例如,谷歌近期的相关工作就侧重于为代理型系统提供架构层面和策略层面的控制。
不过,OpenAI的不同之处在于“基于大模型的自动化攻击者”。这种攻击者本质上是一个机器人,OpenAI通过强化学习对其进行训练,让它扮演黑客角色,寻找向AI代理悄然注入恶意指令的方法。
该机器人可以先在仿真环境中测试攻击,再将其应用于现实场景,而模拟器会展示目标AI在遭遇攻击时的思考方式以及可能采取的行动。随后,机器人可以分析这些响应,对攻击进行微调,并反复尝试。对目标AI内部推理过程的这种洞察,是外部人员无法获得的,因此从理论上看,OpenAI的机器人应当能够比现实世界中的攻击者更快发现漏洞。
这是AI安全测试中一种常见的策略:构建一个代理来寻找边界情况,并在仿真环境中快速对这些情况进行测试。
该策略可发现全新的攻击手法
OpenAI表示:“我们经过强化学习训练的攻击者,可以引导代理执行复杂、跨度较长的有害工作流,这些流程可能在几十步甚至上百步中逐步展开。我们还观察到了一些新颖的攻击策略,这些策略并未出现在我们的人类红队测试或外部报告中。”
图片来源:OpenAI
在一段演示中(部分内容如上图所示),OpenAI展示了其自动化攻击者如何将一封恶意电子邮件悄然塞进用户的收件箱。当AI代理随后扫描收件箱时,它遵循了邮件中隐藏的指令,发送了一封辞职邮件,而不是起草一条外出自动回复。不过,据该公司介绍,在安全更新之后,“代理模式”已能够成功检测到这次提示注入尝试,并向用户发出警告。
OpenAI表示,尽管提示注入难以做到万无一失的防护,但公司正依靠大规模测试和更快的补丁周期,在这些攻击出现在现实世界之前加固其系统。
一名OpenAI发言人拒绝透露Atlas的安全更新是否在可衡量层面上降低了成功注入的数量,但表示公司自发布之前起便一直与第三方合作,以增强Atlas对提示注入的防护能力。
防治“流行病”还需多方协作
网络安全公司Wiz的首席安全研究员Rami McCarthy指出,强化学习是持续适应攻击者行为的一种方式,但它只是整体图景中的一部分。
McCarthy表示:“评估AI系统风险的一个有用方法,是用自主性乘以访问权限。”
他进一步表示:“代理型浏览器正好处在一个相当棘手的区间:自主性不算低,且访问权限却非常高。许多当前的建议正是反映了这种权衡。限制已登录访问主要是为了降低暴露面,而要求对确认请求进行审查,则是对自主性的约束。”
这也正是OpenAI向用户提出的两项降低自身风险的建议。一名发言人还表示,Atlas在发送消息或进行支付之前,也会被训练去获取用户确认。OpenAI同时建议用户向代理提供更具体的指令,而不是简单地赋予其对收件箱的访问权限,并告诉它“采取任何必要的行动”。
OpenAI表示:“过于宽泛的自由裁量权会让隐藏或恶意内容更容易影响代理,即便已经设置了安全防护措施。”
尽管OpenAI称,保护Atlas用户免受提示注入攻击是其首要任务,但McCarthy对这种高风险浏览器的投资回报率仍持一定怀疑态度。
McCarthy对TechCrunch表示:“对于大多数日常使用场景而言,代理型浏览器目前尚未提供足够的价值,来证明其在当前风险状况下是合理的。由于它们能够访问电子邮件和支付信息等敏感数据,风险非常高,尽管正是这种访问权限让它们变得强大。这种平衡关系未来可能会发生变化,但在当下,这种取舍仍然是真实存在的。”
参考资料:techcrunch.com
推荐阅读
- 网安智库平台长期招聘兼职研究员
- 欢迎加入“安全内参热点讨论群”
点击下方卡片关注我们,
带你一起读懂网络安全 ↓
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:安全内参 安全内参编译《OpenAI称提示词注入攻击难以根除,将成为AI时代的“流行病”》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论