文章总结: 中国科学院软件研究所智能博弈重点实验室4篇论文被ACL2026接收,聚焦生成式AI内容安全检测与模型安全。研究成果包括:提出RepMD方法通过设计理念图实现81.1%精度的有害模因检测;SAGE框架解决多模态仇恨视频检测中的特征稀释问题;SIGMA框架提升跨模态检索性能;InstruCoT方法有效防御提示注入攻击。相关技术已在浙江多地市公安局部署应用。 综合评分: 92 文章分类: AI安全,恶意软件,安全工具,技术标准,应用安全
软件所在生成式AI内容安全检测与模型安全方面取得系列进展
信息网络安全杂志
2026年5月19日 17:00 上海
在小说阅读器读本章
去阅读
以下文章来源于中国科学院软件研究所 ,作者软件所
中国科学院软件研究所 .
软件所科学传播平台,报导研究所新近科研进展、大事要闻、科普活动、先进人物事迹等
近日,中国科学院软件研究所智能博弈重点实验室4篇论文被自然语言处理领域顶级会议ACL 2026接收,工作围绕生成式人工智能内容安全检测与模型安全方面,聚焦“多模态有害内容识别”“跨模态语义检索”“大模型安全防护”等关键问题,推进了内容安全技术体系建设。
研究工作获得了国家重点研发项目“高风险领域生成式人工智能系统内容安全检测技术与标准研究”支持,相关成果在项目应用示范单位浙江省公安厅网安总队统一部署下,已在台州、湖州、舟山等地市公安局部署应用,并在多次重要行动中发挥关键作用。
01
在有害模因检测方面,论文All Changes May Have Invariant Principles: Improving Ever-Shifting Harmful Meme Detection via Design Concept Reproduction发现,尽管网络模因的有害内容表现形式隐蔽,且在形式、主题与时间上持续演化,但恶意用户在设计模因图时往往遵循相似的设计原则。
研究团队由此提出RepMD方法,基于攻击树理论,构建了设计理念图DCG,通过对历史有害模因进行设计步骤复现和图剪枝,提炼有害模因设计流程,并利用该图指导多模态大模型进行有害模因检测。这是首次从有害模因图的“设计理念”角度建模有害模因的生成逻辑,为溯源和分析恶意用户的攻击行为提供帮助。
RepMD流程图
实验结果表明,RepMD的检测精度高达81.1%,在类型迁移与时间演化两种场景下均保持稳定性能。人工评估显示,该方法可显著提升审核效率,单个模因的判别时间缩短15至30秒。
论文作者:江子攸、李明阳、王俊杰、黄悦凯、黄杰、常志远、李兆飏、王青
论文链接:https://arxiv.org/abs/2601.04567
02
在仇恨视频检测方面,论文SAGE: Synergistic Adaptive Gating of Experts for Hateful Video Detection指出,传统多模态融合方法容易出现“特征稀释”现象,即占主导的无害模态可能掩盖稀疏但关键的仇恨线索。
针对短视频中仇恨信息隐蔽性强、模态干扰严重的问题,研究团队提出了一种从特征融合转向决策仲裁的SAGE框架。该框架设计了相互解耦的模态专家网络,保留各模态的独立语义表达,并通过全局专家协商与实例级“仲裁庭”机制,根据证据显著性动态做出最终判断。
SAGE模型设计图
在HateMM和MultiHateClip数据集上,SAGE框架显著优于现有主流框架,准确率提升6.64%至21.23%,Macro-F1提升6.98%至28.01%,有效缓解了多模态仇恨视频检测中的语义干扰难题。
论文作者:黄杰、廖鑫、王俊杰、李明阳、王文硕、江子攸、李守斌、王青
工具链接:https://github.com/hjandlm/SAGE
03
在生成式跨模态检索方面,论文Generative Text-to-Image Retrieval via Hierarchical Identifiers and Semantic Internalization提出了SIGMA框架,针对生成式检索存在的语义区分能力不足、对齐偏置和闭集检索限制等问题,构建了分层语义标识符体系。
SIGMA框架通过多粒度层级标识符,保证图像表示的唯一性与语义一致性,并提出渐进式“语义内化”训练策略,引入语义软标签刻画细粒度图文对应关系,使模型具备对未见样本进行动态标识符分配的能力,实现开放集检索。
SIGMA模型训练流程图
在Flickr30K与MS-COCO数据集上,SIGMA在Recall@1、5、10指标上分别提升10.65%、8.50%和7.00%,有效增强了生成式跨模态检索的实用性。
论文作者:黄杰、王俊杰、廖鑫、江子攸、王文硕、李守斌、王青
工具链接:https://github.com/hjandlm/SIGMA
04
在大模型安全防护方面,论文Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning指出,提示注入往往通过多样化载体嵌入上下文,且恶意指令与正常语义边界模糊,难以准确识别。
针对大语言模型面临的提示注入攻击风险,研究团队提出了InstruCoT方法——构建多样化攻击数据合成机制,并引入指令级Chain-of-Thought微调策略,使模型能够显式识别、推理并拒绝恶意指令。
InstruCoT框架图
研究团队从行为偏移、隐私泄露和有害输出三个关键维度进行实验评估。结果显示,InstruCoT在四种主流大模型上均显著优于基线方法,且在安全增强的同时保持了模型原有的实用性能。
论文作者:常志远、李明阳、黄悦凯、江子攸、加小俊、熊倩、王俊杰、李兆飏、王青
论文链接:https://arxiv.org/pdf/2601.04666
END
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信息网络安全杂志 《软件所在生成式AI内容安全检测与模型安全方面取得系列进展》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论