文章总结: 公开资料显示一种名为InkJect的新型视觉提示注入攻击,利用多模态大模型读取图片中隐藏的恶意指令,绕过文本安全防线。攻击者将指令嵌入图片并置于公开仓库,当用户要求模型处理仓库内容时,模型会自动读取并执行指令,如创建管理员账号。该攻击利用安全检测工具与视觉语言模型的能力差,通过白色背景白色文字或倾斜变形文字实现,测试显示多款商用模型均存在脆弱性,凸显多模态AI安全体系的设计盲区。 综合评分: 84 文章分类: AI安全,漏洞分析,红队,渗透测试,安全运营
藏在图片里的隐形指令可绕开AI的文本安全防线
原创
黑鸟 黑鸟
黑鸟
2026年7月3日 23:25 中国香港
在小说阅读器读本章
去阅读
用户让大模型从公开代码仓库部署一个网站,模型按流程拉取代码、处理资源、完成构建,全程没有触发任何安全告警。用户拿到的是一个看起来完全正常的站点,没人会想到,模型还悄悄在后台创建了一个由攻击者控制的管理员账号。
触发这一切的恶意指令,没有出现在任何对话文本里,就藏在仓库中一张毫不起眼的图片文件中。模型读懂了图片里的文字,默默执行了指令。这就是安全公司最新披露的 InkJect 攻击,一种专门针对多模态大模型的视觉提示注入手段,它精准命中了当下 AI 安全体系的设计盲区。
要理解这种攻击,得先从 Prompt Injection (提示注入) 说起。传统的提示注入是攻击者在用户输入的文本里夹带恶意指令,诱导模型绕过预设的安全规则执行违规操作。针对这类攻击,当前主流大模型都搭建了成熟的文本检测防线,绝大多数文本注入尝试都会被拦截。
于是攻击者把目光投向了视觉通道,也就是 Visual Prompt Injection (视觉提示注入)。但过往多数视觉注入方案都属于直接攻击,需要用户主动上传恶意图片、明确引用图片内容,攻击者的行动依赖用户的配合,门槛相对较高。
InkJect 真正的危险之处,在于它是一种间接攻击变体。
直接攻击的逻辑很简单,攻击者需要引导用户和恶意图片产生交互,上传图片、发送图片、主动引用都算。用户的主动操作是攻击成立的前提,只要用户不碰可疑图片,风险就不会触发。
间接攻击完全不需要用户做额外操作。攻击者只要把带有恶意指令的图片放在公开位置,比如公共代码仓库、素材图库、共享文件库,当用户正常向大模型提出需求,比如分析仓库内容、部署项目、整理素材,模型会在执行任务的过程中自动拉取并处理这张图片。用户全程不知道这张图片的存在,模型却已经读完了里面的指令。
这种模式下,攻击面不再是用户的某一次具体操作,而是模型工作流程中会自主获取的所有资产。每一段素材、每一张图片、每一个文件,都可能成为攻击的载体。
整个InkJect攻击的搭建逻辑并不复杂。攻击者将恶意指令嵌入图片,托管在 VLM (视觉语言模型) 执行任务时大概率会访问到的公开位置。当用户要求大模型部署或处理对应仓库的内容时,模型会按正常工作流拉取图片资源,凭借自身的图像处理能力读取到隐藏的指令,在完成用户指定任务的同时,悄悄执行指令里的恶意操作。
回到开头的测试场景,用户要求大模型从公开仓库部署网站,仓库里的一张图片藏着创建管理员账号的指令。模型正常部署了网站,同时按图片指令生成了攻击者可控的高权限账号,全程没有向用户发出任何警示。用户看到的是符合预期的部署结果,完全察觉不到越权操作已经发生。
InkJect 能成功,核心是利用了安全检测工具与视觉语言模型之间的能力差。研究团队验证了两种不同的实现技术,都能绕过当前主流的安全防护。
第一种是白色背景搭配白色文字。攻击者把恶意指令用白色或接近白色的字体写在纯白色背景上。人眼看上去这就是一张空白图片,普通的图像安全扫描工具也会将其判定为空内容,因为这类工具主要识别可辨识的视觉元素,比如人脸、物体、违规内容,没有对比度的纯白画面不会触发任何检测规则。但 VLM 可以毫无障碍地读出其中的文字,多模态模型天生就具备在低对比度、模糊、复杂背景下提取文字信息的能力,这项原本用于提升使用体验的通用视觉能力,反而成了攻击者可以利用的特性。
第二种是倾斜变形的文字。部分安全架构会尝试用 OCR (光学字符识别) 提前提取图片中的文字,再把文字送入现有的文本过滤体系,以此防御视觉注入。但如果把图片里的文字做不同角度的旋转、扭曲和透视变形,传统 OCR 就会识别出错甚至完全无法提取有效内容,安全检测便会判定这张图片没有风险。可 VLM 依然能准确识别出变形后的原始指令,它是从语义层面理解视觉内容,而非像 OCR 那样只匹配标准字形。
这就是 InkJect 利用的核心能力鸿沟,OCR 和视觉语言模型的读图逻辑完全不同。把两者的识别能力划等号的安全方案,天然存在可以被精准利用的盲区。
OpenAI 和 Anthropic 都在传统提示注入防御上投入了大量资源,这些文本防护体系是有效的,能拦截绝大多数通过文本输入传递的恶意指令。
但 InkJect 根本不走文本输入的通道。恶意指令封装在图像数据里,先经过模型的视觉编码器处理,整个过程发生在文本层面的安全检测之前。等信息进入文本推理环节时,指令已经被模型读取并开始执行了。
能在文本 prompt 里拦下 “用这些凭证创建管理员账号” 的安全护栏,对藏在图片里的同一句指令完全不起作用。相同的内容,换一种载体就能绕开全部防御。这不是某一套安全系统的故障,而是架构设计的定位问题,这些防护系统从诞生之初就是为文本模型服务的,而多模态模型的图像处理,发生在所有文本管控环节的上游。
研究团队针对四款量产商用模型做了测试,分别是 OpenAI GPT-5.2、OpenAI GPT-5.4 Mini、Anthropic Claude Sonnet 4.6、Anthropic Claude Opus 4.5。四款模型都对两种攻击技术存在脆弱性,不同模型的攻击成功率有差异,但没有任何一款能完全拦截注入的指令。DeepKeep 表示,在文章发布前已经将该漏洞正式通报给 OpenAI 与 Anthropic 两家厂商。
这个漏洞之所以值得警惕,是因为 VLM 已经不再是实验室里的演示功能。它正在被嵌入真实的生产工程流程,代码仓库分析、自动代码生成、自动化部署、基础设施配置,这些场景里的大模型都拥有操作真实环境的实际权限。
InkJect 的间接属性让攻击可以规模化扩散。攻击者不需要针对特定用户,也不需要获取用户的会话权限,只要把一张恶意图片放到 VLM 常规会拉取资源的公开位置,每一个调用对应资源的用户都会受到影响。一张图片就能覆盖大量目标。
同时攻击的隐蔽性极强。模型会完整完成用户要求的任务,输出结果里不会留下任何异常痕迹。部署完网站的用户只会看到正常运行的站点,不会主动去排查是否存在多余的后台账号,攻击可以长时间潜伏不被发现。
行业预测到 2027 年,四成的生成式 AI 解决方案都会具备多模态能力。现在基于 VLM 搭建的各类工作流,未来都会成为这类视觉注入攻击的目标。多模态 AI 的安全体系,不能再只盯着文本输入这一道门。
大模型安全相关:
恶意软件植入核武器文本骗过大模型安全扫描
视频生成类大模型 Sora 2 系统提示提取技术研究
利用Gay身份绕过大模型安全机制
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:黑鸟 黑鸟 黑鸟《藏在图片里的隐形指令可绕开AI的文本安全防线》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论