文章总结: 文档介绍复旦白泽智能团队在CVPR2026提出的SafeRoPE方法,针对新一代文生图模型多语义组合风险问题,通过风险感知的位置旋转编码调节注意力机制。该方法识别安全关键注意力头并构建风险子空间,对高风险语义进行定向旋转抑制有害内容生成,实现在FLUX等模型中有效提升安全性且保持图像质量与跨模型泛化能力。 综合评分: 83 文章分类: AI安全,解决方案,技术标准,安全工具,应用安全
CVPR 2026|旋转语义魔方:新一代文生图安全
原创
复旦白泽智能 复旦白泽智能
复旦白泽战队
2026年4月27日 19:00 上海
在小说阅读器读本章
去阅读
前言
以 FLUX、SD3 为代表的新一代文生图模型,正从传统的 U-Net 架构迈向多模态 Transformer(MMDiT)。模型在生成质量和语义理解能力大幅提升的同时,也带来了新的挑战——风险内容不再由某个关键词直接触发,而往往隐藏在复杂的多语义组合之中,使得依赖关键词过滤或注意力抑制的传统方法,逐渐难以精准控制生成结果。
进一步分析发现,一个关键但长期被忽视的结构——位置旋转编码(Rotary Positional Embedding, RoPE),在其中起到了核心作用。RoPE 实质上通过对 Query/Key 向量施加相对位置旋转,隐式改变 attention 矩阵中的语义交互关系,从而影响不同语义之间的组合方式。
从本质上看,调节位置编码并非简单的位置建模,而是在重排 attention 中的语义结构——如同在高维语义空间中旋转“语义魔方”,通过局部旋转即可改变整体语义组合,而无需破坏原有表示。
Attention 矩阵的语义关系可抽象为高维“魔方结构”,其中小块表示语义关联强度(红色表示风险关联强)。通过基于 RoPE 的位置旋转重排语义组合,逐步削弱高风险关联,使生成结果由不安全转向安全,同时保持整体语义结构稳定。
基于这一观察,白泽智能团队提出 SafeRoPE,通过风险感知的“位置旋转”实现语义级的安全防御。在不修改模型结构的前提下,仅调整语义间的相对关系,即可有效削弱风险内容生成,同时保持整体生成质量,并具备良好的跨模型泛化能力。
本文系白泽智能团队研究成果,相关内容发表于CCF-A类计算机视觉会议CVPR26
论文链接:https://arxiv.org/abs/2604.01826
“位置”可以决定安全
过去的安全方法,大多围绕三类思路展开:修改模型参数、调控注意力分布,或对输入 prompt 进行约束。
这些方法在早期模型中通常是有效的,但随着新一代架构的发展,其局限性也逐渐显现。根本原因在于生成机制的变化——模型不再依赖某个词直接触发不安全语义,而是由多 token 的复杂组合共同决定最终结果,风险内容往往以更隐蔽的方式出现。
单一不安全主体(如 “exposed breast”)通常不足以触发风险生成,但在结合模板与修饰词后,复杂语义组合可能诱导模型生成不安全内容
进一步观察可以发现,结构越复杂的语义(也更容易对应潜在风险),越高度依赖 token 之间的相对位置关系。一旦位置关系发生变化,这类语义就更容易被扰动甚至失效。
在 FLUX.1-dev 中,不同语义类别(explicit、violence、style 与正常内容)对 RoPE 扰动表现出显著差异,表明模型对复杂语义的响应具有类别依赖性
这一差异带来了一个非常关键的启示:如果能够对“位置关系”进行有针对性的调节,就有可能在不破坏正常生成能力的前提下,对风险语义进行更加精准、低损伤的控制。
SafeRoPE:用“旋转”把风险语义拉远
SafeRoPE 方法关键在于,Transformer 中的 RoPE(旋转位置编码)本质上是在调控 token 之间的相对关系,而注意力正是建立在这种关系之上的。
当语义之间的“距离”被拉开时,其对应的注意力权重会自然衰减,从而削弱风险语义对生成结果的影响。也就是说,通过对 RoPE 进行适度调节,可以在不直接修改语义内容的情况下,间接改变不同概念之间的交互方式。
然而,简单的随机扰动往往缺乏针对性,不仅效果不稳定,还可能影响正常语义。为了解决这一问题,SafeRoPE 引入了更精细的“定向旋转”机制:
- 找到“真正负责风险”的注意力头:SafeRoPE 发现模型并非所有注意力头都同等重要,风险语义通常集中在部分安全关键注意力头中。通过对不安全样本进行分析,并结合 SVD 分解提取主要语义方向构成风险子空间,可以识别出这些对风险最敏感的注意力头,从而将干预范围从“全局”缩小到“局部”。
在单个注意力头中,通过对风险特征进行分解提取低维“风险子空间”,并构建投影机制,实现对不安全语义的识别与度量
- 给每个语义一个“风险分数”:根据每个 token 在风险子空间中的投影强度,可度量其连续的风险分数(Latent Risk Score, LRS),该分数反映当前语义与风险方向的接近程度——越接近风险子空间,分数越高,也就越需要被干预。
- 只对“风险部分”做旋转:SafeRoPE 的旋转操作只作用于“高风险”的语义方向,而对其他部分保持不变。即模型只是在风险子空间内轻微调整特征方向,而不会改变整体信息强度,从而在削弱风险语义的同时,尽可能保留原有的生成能力与图像质量
SafeRoPE 方法流程:先计算特征的风险分数(LRS),再在安全关键注意力头中,对高风险语义方向进行定向旋转,从而抑制不安全内容生成。
安全与质量不再冲突
SafeRoPE 定制的旋转矩阵在缓解有害内容和保留实用性方面取得了SOTA性能。
- 安全性显著提升:在 FLUX.1-dev 模型的色情概念擦除任务中,方法能够稳定且有效地抑制风险内容生成。
- 生成质量保持:在 MS COCO 无害数据集评估中,安全增强并未带来明显的质量损失。
- 良好的泛化能力:SafeRoPE 可扩展到至IP角色与艺术风格等概念,并在不同模型变体中保持有效。
SafeRoPE 在多类风险概念下均实现有效抑制,同时保持图像生成质量,并具备良好的跨模型泛化能力。
总结
面对架构日益复杂的新一代文生图模型,SafeRoPE 深入模型内部,精准定位风险特征,并利用原生 RoPE 机制完成了轻量、可控的安全调节。这种轻量、高效且高度可解释的干预方式,不仅在不牺牲画质的前提下有效压制了不良内容,更证明了安全性与模型效用可以兼顾。
团队简介
复旦白泽智能团队
负责人:张谧教授
研究
方向
专注于大模型与智能体安全,研发Jade安全评测与治理平台。
标准
制定
联合起草国家标准《生成式人工智能服务安全基本要求》、信安标委《人工智能安全标准化白皮书》,参与信安标委《网络安全标准实践指南——生成式人工智能服务内容标识方法》等多项国家/行业标准制定。
产研
合作
主持科技部重点研发计划课题等,并主持奇安信、阿里、华为等企业项目。
学术
成果
每年持续在网络安全与AI领域顶会顶刊发表学术成果,包括S&P、USENIX Security、CCS、TIFS、TPAMI、TKDE、ICML、NeurIPS等。
团队
荣誉
曾获网络安全国际顶尖会议 USENIX Security Symposium 杰出论文奖(大陆高校首次)、网络安全国际顶尖会议ACM CCS 最佳论文提名(每年仅4篇)、CCF科学技术奖自然科学二等奖等荣誉。
人才
培养
团队培养硕博数十人,毕业生就业去向包括大厂、各大高校等。团队曾获安全竞赛DEFCON无人驾驶安全攻防赛冠军(两届蝉联)。
张谧教授邮箱:[email protected]
复旦白泽智能团队主页:https://whitzard-ai.github.io/
供稿、排版:复旦白泽智能团队
责编:董佳仪
审核:洪赓
复旦白泽战队
一个有情怀的安全团队
还没有关注复旦白泽战队?
公众号、知乎、微博搜索:复旦白泽战队也能找到我们哦~
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:复旦白泽战队 复旦白泽智能 复旦白泽智能《CVPR 2026|旋转语义魔方:新一代文生图安全》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论