文章总结: NeuralTrust发现新型语义链式越狱攻击,利用多阶段提示累积意图绕过Grok4与GeminiNano过滤器。该攻击通过四阶段图像修改链将违禁内容嵌入视觉输出,暴露了分段式安全层缺乏上下文追踪的缺陷。建议企业建立意图管控机制并部署主动防御工具。 综合评分: 84 文章分类: AI安全,漏洞分析,漏洞预警
新型语义链式越狱攻击可绕过Grok 4与Gemini Nano安全过滤器
FreeBuf
2026年1月30日 18:32 上海
继近期披露的”回声室多轮越狱”攻击后,NeuralTrust研究人员又发现名为”语义链式”的新型漏洞,该漏洞可突破Grok 4和Gemini Nano Banana Pro等多模态AI模型的安全机制。这种多阶段提示技术能绕过过滤器生成违禁文本和视觉内容,暴露出链式指令意图追踪的缺陷。
Part01
语义链式越狱攻击原理
语义链式攻击利用模型的推理和组合能力来突破其安全护栏。与直接输入有害提示不同,该技术通过部署看似无害的步骤,逐步累积最终生成违反策略的输出内容。由于安全过滤器仅针对孤立的”不良概念”进行检测,无法识别分散在多个交互环节中的潜在恶意意图。
Part02
四阶段图像修改链
该攻击采用四阶段图像修改链:
- 安全基底:首先提示生成中性场景(如历史景观)以绕过初始过滤器
- 首次替换:修改其中一个良性元素,将焦点转向编辑模式
- 关键转折:替换为敏感内容,修改上下文使过滤器失效
- 最终执行:仅输出渲染后的图像,生成违禁视觉内容
这种攻击利用了仅对单次提示作出反应的分段式安全层机制,而非累积历史记录。
最严重的是,攻击者可通过”教育海报”或图表形式将违禁文本(如操作指南或宣言)嵌入图像。NeuralTrust指出,模型会拒绝直接生成文本响应,但对像素级文本渲染却毫无阻碍,这使得图像引擎成为文本安全防护的漏洞。
Part03
攻击实例分析
测试成功的案例包括:
这些案例表明,通过历史、教育或艺术等情境暗示可以逐步侵蚀安全防护。此次越狱攻击凸显了AI系统需要建立意图管控机制。企业应部署Shadow AI等主动防御工具来确保AI部署的安全性。
参考来源:
New Semantic Chaining Jailbreak Attack Bypasses Grok 4 and Gemini Nano Security Filters
New Semantic Chaining Jailbreak Attack Bypasses Grok 4 and Gemini Nano Security Filters
#
#
#
推荐阅读
电台讨论
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:FreeBuf 《新型语义链式越狱攻击可绕过Grok 4与Gemini Nano安全过滤器》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论