2026-07-05 05:20:24 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 公开资料显示一种名为InkJect的新型视觉提示注入攻击，利用多模态大模型读取图片中隐藏的恶意指令，绕过文本安全防线。攻击者将指令嵌入图片并置于公开仓库，当用户要求模型处理仓库内容时，模型会自动读取并执行指令，如创建管理员账号。该攻击利用安全检测工具与视觉语言模型的能力差，通过白色背景白色文字或倾斜变形文字实现，测试显示多款商用模型均存在脆弱性，凸显多模态AI安全体系的设计盲区。 综合评分： 84 文章分类： AI安全,漏洞分析,红队,渗透测试,安全运营

cover_image

藏在图片里的隐形指令可绕开AI的文本安全防线

原创

黑鸟黑鸟

黑鸟

2026年7月3日 23:25 中国香港

在小说阅读器读本章

去阅读

用户让大模型从公开代码仓库部署一个网站，模型按流程拉取代码、处理资源、完成构建，全程没有触发任何安全告警。用户拿到的是一个看起来完全正常的站点，没人会想到，模型还悄悄在后台创建了一个由攻击者控制的管理员账号。

触发这一切的恶意指令，没有出现在任何对话文本里，就藏在仓库中一张毫不起眼的图片文件中。模型读懂了图片里的文字，默默执行了指令。这就是安全公司最新披露的 InkJect 攻击，一种专门针对多模态大模型的视觉提示注入手段，它精准命中了当下 AI 安全体系的设计盲区。

要理解这种攻击，得先从 Prompt Injection (提示注入) 说起。传统的提示注入是攻击者在用户输入的文本里夹带恶意指令，诱导模型绕过预设的安全规则执行违规操作。针对这类攻击，当前主流大模型都搭建了成熟的文本检测防线，绝大多数文本注入尝试都会被拦截。

于是攻击者把目光投向了视觉通道，也就是 Visual Prompt Injection (视觉提示注入)。但过往多数视觉注入方案都属于直接攻击，需要用户主动上传恶意图片、明确引用图片内容，攻击者的行动依赖用户的配合，门槛相对较高。

InkJect 真正的危险之处，在于它是一种间接攻击变体。

直接攻击的逻辑很简单，攻击者需要引导用户和恶意图片产生交互，上传图片、发送图片、主动引用都算。用户的主动操作是攻击成立的前提，只要用户不碰可疑图片，风险就不会触发。

间接攻击完全不需要用户做额外操作。攻击者只要把带有恶意指令的图片放在公开位置，比如公共代码仓库、素材图库、共享文件库，当用户正常向大模型提出需求，比如分析仓库内容、部署项目、整理素材，模型会在执行任务的过程中自动拉取并处理这张图片。用户全程不知道这张图片的存在，模型却已经读完了里面的指令。

这种模式下，攻击面不再是用户的某一次具体操作，而是模型工作流程中会自主获取的所有资产。每一段素材、每一张图片、每一个文件，都可能成为攻击的载体。

整个InkJect攻击的搭建逻辑并不复杂。攻击者将恶意指令嵌入图片，托管在 VLM (视觉语言模型) 执行任务时大概率会访问到的公开位置。当用户要求大模型部署或处理对应仓库的内容时，模型会按正常工作流拉取图片资源，凭借自身的图像处理能力读取到隐藏的指令，在完成用户指定任务的同时，悄悄执行指令里的恶意操作。

回到开头的测试场景，用户要求大模型从公开仓库部署网站，仓库里的一张图片藏着创建管理员账号的指令。模型正常部署了网站，同时按图片指令生成了攻击者可控的高权限账号，全程没有向用户发出任何警示。用户看到的是符合预期的部署结果，完全察觉不到越权操作已经发生。

InkJect 能成功，核心是利用了安全检测工具与视觉语言模型之间的能力差。研究团队验证了两种不同的实现技术，都能绕过当前主流的安全防护。

第一种是白色背景搭配白色文字。攻击者把恶意指令用白色或接近白色的字体写在纯白色背景上。人眼看上去这就是一张空白图片，普通的图像安全扫描工具也会将其判定为空内容，因为这类工具主要识别可辨识的视觉元素，比如人脸、物体、违规内容，没有对比度的纯白画面不会触发任何检测规则。但 VLM 可以毫无障碍地读出其中的文字，多模态模型天生就具备在低对比度、模糊、复杂背景下提取文字信息的能力，这项原本用于提升使用体验的通用视觉能力，反而成了攻击者可以利用的特性。

第二种是倾斜变形的文字。部分安全架构会尝试用 OCR (光学字符识别) 提前提取图片中的文字，再把文字送入现有的文本过滤体系，以此防御视觉注入。但如果把图片里的文字做不同角度的旋转、扭曲和透视变形，传统 OCR 就会识别出错甚至完全无法提取有效内容，安全检测便会判定这张图片没有风险。可 VLM 依然能准确识别出变形后的原始指令，它是从语义层面理解视觉内容，而非像 OCR 那样只匹配标准字形。

这就是 InkJect 利用的核心能力鸿沟，OCR 和视觉语言模型的读图逻辑完全不同。把两者的识别能力划等号的安全方案，天然存在可以被精准利用的盲区。

OpenAI 和 Anthropic 都在传统提示注入防御上投入了大量资源，这些文本防护体系是有效的，能拦截绝大多数通过文本输入传递的恶意指令。

但 InkJect 根本不走文本输入的通道。恶意指令封装在图像数据里，先经过模型的视觉编码器处理，整个过程发生在文本层面的安全检测之前。等信息进入文本推理环节时，指令已经被模型读取并开始执行了。

能在文本 prompt 里拦下 “用这些凭证创建管理员账号” 的安全护栏，对藏在图片里的同一句指令完全不起作用。相同的内容，换一种载体就能绕开全部防御。这不是某一套安全系统的故障，而是架构设计的定位问题，这些防护系统从诞生之初就是为文本模型服务的，而多模态模型的图像处理，发生在所有文本管控环节的上游。

研究团队针对四款量产商用模型做了测试，分别是 OpenAI GPT-5.2、OpenAI GPT-5.4 Mini、Anthropic Claude Sonnet 4.6、Anthropic Claude Opus 4.5。四款模型都对两种攻击技术存在脆弱性，不同模型的攻击成功率有差异，但没有任何一款能完全拦截注入的指令。DeepKeep 表示，在文章发布前已经将该漏洞正式通报给 OpenAI 与 Anthropic 两家厂商。

这个漏洞之所以值得警惕，是因为 VLM 已经不再是实验室里的演示功能。它正在被嵌入真实的生产工程流程，代码仓库分析、自动代码生成、自动化部署、基础设施配置，这些场景里的大模型都拥有操作真实环境的实际权限。

InkJect 的间接属性让攻击可以规模化扩散。攻击者不需要针对特定用户，也不需要获取用户的会话权限，只要把一张恶意图片放到 VLM 常规会拉取资源的公开位置，每一个调用对应资源的用户都会受到影响。一张图片就能覆盖大量目标。

同时攻击的隐蔽性极强。模型会完整完成用户要求的任务，输出结果里不会留下任何异常痕迹。部署完网站的用户只会看到正常运行的站点，不会主动去排查是否存在多余的后台账号，攻击可以长时间潜伏不被发现。

行业预测到 2027 年，四成的生成式 AI 解决方案都会具备多模态能力。现在基于 VLM 搭建的各类工作流，未来都会成为这类视觉注入攻击的目标。多模态 AI 的安全体系，不能再只盯着文本输入这一道门。

大模型安全相关：

恶意软件植入核武器文本骗过大模型安全扫描

视频生成类大模型 Sora 2 系统提示提取技术研究

利用Gay身份绕过大模型安全机制

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：黑鸟黑鸟黑鸟《藏在图片里的隐形指令可绕开AI的文本安全防线》