2026-04-28 05:43:58 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 文档介绍复旦白泽智能团队在CVPR2026提出的SafeRoPE方法，针对新一代文生图模型多语义组合风险问题，通过风险感知的位置旋转编码调节注意力机制。该方法识别安全关键注意力头并构建风险子空间，对高风险语义进行定向旋转抑制有害内容生成，实现在FLUX等模型中有效提升安全性且保持图像质量与跨模型泛化能力。 综合评分： 83 文章分类： AI安全,解决方案,技术标准,安全工具,应用安全

cover_image

CVPR 2026｜旋转语义魔方：新一代文生图安全

原创

复旦白泽智能复旦白泽智能

复旦白泽战队

2026年4月27日 19:00 上海

在小说阅读器读本章

去阅读

前言

以 FLUX、SD3 为代表的新一代文生图模型，正从传统的 U-Net 架构迈向多模态 Transformer（MMDiT）。模型在生成质量和语义理解能力大幅提升的同时，也带来了新的挑战——风险内容不再由某个关键词直接触发，而往往隐藏在复杂的多语义组合之中，使得依赖关键词过滤或注意力抑制的传统方法，逐渐难以精准控制生成结果。

进一步分析发现，一个关键但长期被忽视的结构——位置旋转编码（Rotary Positional Embedding, RoPE），在其中起到了核心作用。RoPE 实质上通过对 Query/Key 向量施加相对位置旋转，隐式改变 attention 矩阵中的语义交互关系，从而影响不同语义之间的组合方式。

从本质上看，调节位置编码并非简单的位置建模，而是在重排 attention 中的语义结构——如同在高维语义空间中旋转“语义魔方”，通过局部旋转即可改变整体语义组合，而无需破坏原有表示。

Attention 矩阵的语义关系可抽象为高维“魔方结构”，其中小块表示语义关联强度（红色表示风险关联强）。通过基于 RoPE 的位置旋转重排语义组合，逐步削弱高风险关联，使生成结果由不安全转向安全，同时保持整体语义结构稳定。

基于这一观察，白泽智能团队提出 SafeRoPE，通过风险感知的“位置旋转”实现语义级的安全防御。在不修改模型结构的前提下，仅调整语义间的相对关系，即可有效削弱风险内容生成，同时保持整体生成质量，并具备良好的跨模型泛化能力。

本文系白泽智能团队研究成果，相关内容发表于CCF-A类计算机视觉会议CVPR26

论文链接：https://arxiv.org/abs/2604.01826

“位置”可以决定安全

过去的安全方法，大多围绕三类思路展开：修改模型参数、调控注意力分布，或对输入 prompt 进行约束。

这些方法在早期模型中通常是有效的，但随着新一代架构的发展，其局限性也逐渐显现。根本原因在于生成机制的变化——模型不再依赖某个词直接触发不安全语义，而是由多 token 的复杂组合共同决定最终结果，风险内容往往以更隐蔽的方式出现。

单一不安全主体（如 “exposed breast”）通常不足以触发风险生成，但在结合模板与修饰词后，复杂语义组合可能诱导模型生成不安全内容

进一步观察可以发现，结构越复杂的语义（也更容易对应潜在风险），越高度依赖 token 之间的相对位置关系。一旦位置关系发生变化，这类语义就更容易被扰动甚至失效。

在 FLUX.1-dev 中，不同语义类别（explicit、violence、style 与正常内容）对 RoPE 扰动表现出显著差异，表明模型对复杂语义的响应具有类别依赖性

这一差异带来了一个非常关键的启示：如果能够对“位置关系”进行有针对性的调节，就有可能在不破坏正常生成能力的前提下，对风险语义进行更加精准、低损伤的控制。

SafeRoPE：用“旋转”把风险语义拉远

SafeRoPE 方法关键在于，Transformer 中的 RoPE（旋转位置编码）本质上是在调控 token 之间的相对关系，而注意力正是建立在这种关系之上的。

当语义之间的“距离”被拉开时，其对应的注意力权重会自然衰减，从而削弱风险语义对生成结果的影响。也就是说，通过对 RoPE 进行适度调节，可以在不直接修改语义内容的情况下，间接改变不同概念之间的交互方式。

然而，简单的随机扰动往往缺乏针对性，不仅效果不稳定，还可能影响正常语义。为了解决这一问题，SafeRoPE 引入了更精细的“定向旋转”机制：

找到“真正负责风险”的注意力头：SafeRoPE 发现模型并非所有注意力头都同等重要，风险语义通常集中在部分安全关键注意力头中。通过对不安全样本进行分析，并结合 SVD 分解提取主要语义方向构成风险子空间，可以识别出这些对风险最敏感的注意力头，从而将干预范围从“全局”缩小到“局部”。

在单个注意力头中，通过对风险特征进行分解提取低维“风险子空间”，并构建投影机制，实现对不安全语义的识别与度量

给每个语义一个“风险分数”：根据每个 token 在风险子空间中的投影强度，可度量其连续的风险分数（Latent Risk Score, LRS），该分数反映当前语义与风险方向的接近程度——越接近风险子空间，分数越高，也就越需要被干预。
只对“风险部分”做旋转：SafeRoPE 的旋转操作只作用于“高风险”的语义方向，而对其他部分保持不变。即模型只是在风险子空间内轻微调整特征方向，而不会改变整体信息强度，从而在削弱风险语义的同时，尽可能保留原有的生成能力与图像质量

SafeRoPE 方法流程：先计算特征的风险分数（LRS），再在安全关键注意力头中，对高风险语义方向进行定向旋转，从而抑制不安全内容生成。

安全与质量不再冲突

SafeRoPE 定制的旋转矩阵在缓解有害内容和保留实用性方面取得了SOTA性能。

安全性显著提升：在 FLUX.1-dev 模型的色情概念擦除任务中，方法能够稳定且有效地抑制风险内容生成。
生成质量保持：在 MS COCO 无害数据集评估中，安全增强并未带来明显的质量损失。
良好的泛化能力：SafeRoPE 可扩展到至IP角色与艺术风格等概念，并在不同模型变体中保持有效。

SafeRoPE 在多类风险概念下均实现有效抑制，同时保持图像生成质量，并具备良好的跨模型泛化能力。

总结

面对架构日益复杂的新一代文生图模型，SafeRoPE 深入模型内部，精准定位风险特征，并利用原生 RoPE 机制完成了轻量、可控的安全调节。这种轻量、高效且高度可解释的干预方式，不仅在不牺牲画质的前提下有效压制了不良内容，更证明了安全性与模型效用可以兼顾。

团队简介

复旦白泽智能团队

负责人：张谧教授

研究

方向

专注于大模型与智能体安全，研发Jade安全评测与治理平台。

标准

制定

联合起草国家标准《生成式人工智能服务安全基本要求》、信安标委《人工智能安全标准化白皮书》，参与信安标委《网络安全标准实践指南——生成式人工智能服务内容标识方法》等多项国家/行业标准制定。

产研

合作

主持科技部重点研发计划课题等，并主持奇安信、阿里、华为等企业项目。

学术

成果

每年持续在网络安全与AI领域顶会顶刊发表学术成果，包括S&P、USENIX Security、CCS、TIFS、TPAMI、TKDE、ICML、NeurIPS等。

团队

荣誉

曾获网络安全国际顶尖会议 USENIX Security Symposium 杰出论文奖（大陆高校首次）、网络安全国际顶尖会议ACM CCS 最佳论文提名（每年仅4篇）、CCF科学技术奖自然科学二等奖等荣誉。

人才

培养

团队培养硕博数十人，毕业生就业去向包括大厂、各大高校等。团队曾获安全竞赛DEFCON无人驾驶安全攻防赛冠军(两届蝉联)。

张谧教授邮箱：[email protected]

复旦白泽智能团队主页：https://whitzard-ai.github.io/

供稿、排版：复旦白泽智能团队

责编：董佳仪

审核：洪赓

复旦白泽战队

一个有情怀的安全团队

还没有关注复旦白泽战队？

公众号、知乎、微博搜索：复旦白泽战队也能找到我们哦~

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：复旦白泽战队复旦白泽智能复旦白泽智能《CVPR 2026｜旋转语义魔方：新一代文生图安全》