文章总结: OpenAI推出ChatGPTAtlas安全更新以防御提示注入攻击。该攻击通过嵌入恶意指令覆盖用户命令,可致数据泄露。OpenAI采用基于强化学习的自动化红队系统模拟攻击,通过模型更新增强防御,并建议用户限制权限、明确指令并审核确认请求。 综合评分: 78 文章分类: AI安全,漏洞预警,解决方案
OpenAI强化ChatGPT Atlas防御提示注入攻击
FreeBuf
2025年12月30日 18:31 上海
OpenAI已为其基于浏览器的AI Agent——ChatGPT Atlas推出关键安全更新,新增针对提示注入攻击的高级防御措施。此次更新标志着在保护用户免受针对Agentic AI系统的新型对抗威胁方面取得重要进展。
Part01
什么是提示注入攻击
提示注入攻击通过将恶意指令嵌入AI Agent处理的网页内容来实施攻击。攻击者精心设计这些指令以覆盖用户命令,将Agent行为导向有害操作。对于Atlas这类浏览器Agent而言,这构成了超越传统Web漏洞的新型安全威胁。
具体案例:攻击者可能在一封恶意电子邮件中植入隐藏指令,诱导Agent将敏感税务文件转发至攻击者控制的地址。
当用户要求Agent查看邮件时,它可能无意中执行被注入的恶意指令而非用户的合法请求。该问题影响广泛,因为Atlas Agent会接触包括邮件、附件、文档、论坛和网页在内的近乎无限的内容界面。
由于Agent能执行用户在浏览器中的所有操作,成功攻击可能导致数据泄露、未授权交易或文件删除等后果。
Part02
OpenAI的快速响应机制
OpenAI开发了基于强化学习的自动化红队系统,用于在新型提示注入攻击实际出现前进行发现。这套基于LLM的自动化攻击系统能识别涉及数十甚至数百个步骤的复杂长期攻击,远超传统红队测试能检测的简单漏洞。
当系统发现新型攻击方式时,会立即触发响应循环。OpenAI通过训练更新Agent模型来抵御新攻击,将安全性直接构建到模型中。公司还利用攻击痕迹改进监控系统与安全指令等周边防御措施。
此次面向所有Atlas用户部署的安全更新整合了上述改进,通过内部自动化红队测试发现的新型攻击策略来强化浏览器Agent的防御能力。OpenAI建议用户尽可能限制登录访问权限,仔细审核Agent的确认请求后再继续操作,并给出明确、范围清晰的指令而非宽泛提示。
尽管提示注入仍是具有挑战性的安全问题,OpenAI的主动应对措施展现了其增强Atlas抵御新型威胁能力的决心。
参考来源:
OpenAI Hardened ChatGPT Atlas Against Prompt Injection Attacks
OpenAI Hardened ChatGPT Atlas Against Prompt Injection Attacks
#
#
#
推荐阅读
#
电台讨论
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:FreeBuf 《OpenAI强化ChatGPT Atlas防御提示注入攻击》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论