文章总结: 该文档介绍复旦大学团队在ICML26提出的UVR框架,通过多模态注意力阀门机制在图像生成过程中动态定位和抑制危险视觉信息流。该方法无需重新训练模型,可在文生图和图像编辑任务中有效阻断裸露内容、武器等风险概念的传播,同时保持图像质量和编辑一致性。实验表明UVR实现了安全性、生成质量和编辑能力的平衡,为AI生成内容安全提供了从事后过滤转向过程防护的新思路。 综合评分: 90 文章分类: AI安全,解决方案,技术标准,应用安全,数据安全
ICML 26 | 注意力阀门源头抑制,杜绝危险画面元素
原创
复旦白泽战队 复旦白泽战队
复旦白泽战队
2026年6月16日 18:00 上海
在小说阅读器读本章
去阅读
前言
从“输入一句话生成图片”,到“给一张图再按指令修改”,新一代图像生成模型正在变得越来越强。以 FLUX 为代表的多模态扩散 Transformer,不仅提升了图像质量,也让文本、参考图像和输出图像在同一个生成过程中深度交互。
但随之而来的,是更复杂的安全问题。危险内容不一定只来自某个敏感词,也可能隐藏在参考图像中,并通过模型内部的多模态注意力机制不断流入输出图像。换句话说,不安全内容往往不是最后才突然出现,而是在生成过程中逐步形成、传播和放大。
因此,图像生成安全需要把注意力阀门嵌入生成过程内部:在风险语义从局部信号逐步扩散为完整视觉内容之前,及时定位风险区域,并动态抑制不安全信息流的继续传播。
当危险内容开始出现时,UVR 通过注意力阀门在生成过程中进行调控
基于这一思路,我们提出 Unified Visual Safety Regulator(UVR)。UVR 在生成过程中主动定位不安全视觉区域,并对相关危险信息流进行调控,从而统一提升图像生成与图像编辑任务的安全性。该方法无需重新训练模型,却能够在安全性、图像质量和编辑能力之间取得良好平衡。
相关内容发表于ICML26
论文链接:http://arxiv.org/abs/2606.06875
新的安全挑战
图像生成模型正在从单一的“输入文本、生成图像”,走向更加灵活的多模态生成模式。如今,模型不仅能够完成高质量的文生图(T2I),还可以结合参考图像与编辑指令,实现图像编辑(I2I)等更复杂的生成任务。
更关键的是,在多模态扩散 Transformer 中,文本、参考图像与输出图像会通过 MM-Attn 进行信息交互。不安全视觉信息一旦进入生成过程,就可能持续影响输出图像的形成。即风险不再只是“输入是否安全”或“输出是否违规”的问题,而是会在生成过程中不断流动和传播。
MM-Attn 机制支持文本 token 与图像 token 之间的双向信息流动,不安全语义在生成过程中被注入并传递至输出图像
因此,图像生成安全不能只依赖输入端拦截或输出端检测,而需要进一步进入生成过程内部,通过注意力阀门对 unsafe information flow 进行定位、调节与及时阻断。
从危险输出到危险信息流
UVR 的核心观察是:不安全内容并不是在图像生成完成后才突然出现,而是在生成过程中逐步形成、传播和放大的。
通过分析文本 token、输出图像 token 与参考图像 token 之间的 MM-Attn 信息流,可以从层级和时间步两个维度揭示 unsafe 信息如何在生成过程中被注入、传播并影响输出图像
在文生图任务中,危险语义通常会在生成早期,通过文本到输出图像的信息流快速注入;而在图像编辑任务中,参考图像中的不安全视觉信息可能持续流向输出图像,使风险在更长的生成过程中被保留和强化。
因此,UVR 将图像生成与编辑中的安全问题,统一理解为危险信息流的传播问题。无论风险来自文本还是参考图像,最终都会进入输出图像 token,并影响最终生成结果。
这一视角也引出了 UVR 的基本思路:在危险视觉语义刚刚出现时定位它,在危险信息继续扩散前限制它。
UVR:生成过程中的注意力阀门
基于上述发现,我们提出 Unified Visual Safety Regulator(UVR),一种面向图像生成与图像编辑的统一视觉安全防护框架。
UVR 先利用 unsafe anchors 在 patch 级别定位潜在风险区域,再通过多模态注意力调控限制对应的 unsafe information flow,从而在生成过程中精准抑制不安全内容
UVR 不需要重新训练模型,也不依赖事后过滤,而是在生成过程中启用内部“注意力阀门”:通过分析多模态注意力中的视觉表示,定位潜在的不安全区域,并收紧相关危险信息流,抑制其继续传播。
整体来看,UVR 主要包含两个步骤。
- 首先是视觉安全定位。UVR 利用预先构建的 unsafe anchors,在生成过程中识别输出图像 token 中可能包含不安全语义的 patch。相比只检测提示词,这种输出图像视角更加适合统一处理文生图和图像编辑任务,因为它不关心风险最初来自文本还是参考图像,而是直接判断当前生成图像中哪些区域正在变得危险。
UVR 能够精准定位图像中的不安全概念区域,为后续安全调控提供目标位置
- 其次是目标安全调控。在定位到风险区域后,UVR 并不会干预整张图像,而是只针对被识别出的不安全 patch 进行注意力调制和信息流限制,阻止危险语义继续注入、放大和扩散。这样既能抑制不安全内容,又能尽量保持正常图像区域的视觉质量和编辑一致性。
UVR 关键在于将文生图和图像编辑放在同一个安全框架下理解:文生图的风险可能来自文本提示,图像编辑的风险可能来自参考图像,但在多模态扩散 Transformer 中,这些风险最终都会通过 MM-Attn 影响输出图像 token。也就是说,不同任务的风险来源不同,但它们汇入输出图像的路径是相通的。
因此,UVR 直接面向生成过程中的危险信息流,先定位输出图像 token 中正在形成的风险区域,再通过过程内调控阻断其继续传播。
实验验证
我们在 FLUX.1-dev 和 FLUX.1-Kontext-dev 上进行了系统实验,覆盖图像生成与图像编辑两类任务,并评估了裸露内容、IP 角色、血液、武器多种风险概念。
UVR 在生成与编辑任务中均能有效抑制目标概念,包括 Pikachu、Weapon 和 Blood,同时保持较好的图像质量
实验结果显示,UVR 能够在不同任务中有效减少不安全内容生成,同时保持较好的图像质量和编辑能力。在文生图任务中,UVR 可以显著降低危险提示词触发的不安全输出;在图像编辑任务中,UVR 也能有效处理来自不安全参考图像的视觉风险。
通过从图像质量与擦除效果两个维度评估 UVR,结果显示其能有效降低不安全内容生成,同时保持较好的生成与编辑质量
更重要的是,UVR 并不是通过明显牺牲图像质量来换取安全性。实验表明,UVR 在提升安全性的同时,仍能保持较好的图像保真度,说明该方法在安全性、生成质量和编辑一致性之间取得了较好的平衡。
从事后过滤走向过程防护
UVR 的意义不只是提出了一种新的安全方法,更重要的是提供了一种理解新一代 AI 模型生成内容安全的新视角。
对于多模态扩散 Transformer 来说,风险不再只是某个敏感词或最终图像中的违规内容,而是在生成过程中不断流动、融合和放大的危险视觉信息。UVR 通过在生成过程中定位风险区域并限制危险信息流,使安全防护从“事后过滤”进一步走向“过程防护”。
END
作者简介
- 第一作者:杨湘,复旦大学计算与智能创新学院2025级直博生,本科毕业于四川大学网络空间安全专业。主要研究方向为文生图安全。以第一作者在CVPR、ICML等国际顶级学术会议和期刊发表多篇学术论文。
指导教师:张谧,复旦大学计算与智能创新学院教授,专注于AI安全、大模型与智能体安全研究,在网络安全与AI领域顶会顶刊发表论文百余篇;联合起草国家标准《生成式人工智能服务安全基本要求》,任TC260人工智能安全标准WG9工作组专家成员,参与《智能体应用安全基本要求》等多项国家标准的制订;主持科技部重点研发计划课题与奇安信、华为、阿里等企业项目,获CCF科学技术奖自然科学二等奖等荣誉;培养硕博数十人,带领团队研发JADE大模型安全测评与治理平台,相关成果被腾讯朱雀实验室、蚂蚁集团“蚁鉴”等收录为经典安全测评数据集,被新华社、人民日报、环球网、凤凰网、南方都市报等主流媒体多次报道。
联系方式:[email protected]
供稿、排版:杨湘
责编:董佳仪
审核:张谧、洪赓
复旦白泽战队
一个有情怀的安全团队
还没有关注复旦白泽战队?
公众号、知乎、微博搜索:复旦白泽战队也能找到我们哦~
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:复旦白泽战队 复旦白泽战队 复旦白泽战队《ICML 26 | 注意力阀门源头抑制,杜绝危险画面元素》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论