2026-05-20 05:29:59 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 中国科学院软件研究所智能博弈重点实验室4篇论文被ACL2026接收，聚焦生成式AI内容安全检测与模型安全。研究成果包括：提出RepMD方法通过设计理念图实现81.1%精度的有害模因检测；SAGE框架解决多模态仇恨视频检测中的特征稀释问题；SIGMA框架提升跨模态检索性能；InstruCoT方法有效防御提示注入攻击。相关技术已在浙江多地市公安局部署应用。 综合评分： 92 文章分类： AI安全,恶意软件,安全工具,技术标准,应用安全

cover_image

软件所在生成式AI内容安全检测与模型安全方面取得系列进展

信息网络安全杂志

2026年5月19日 17:00 上海

在小说阅读器读本章

去阅读

以下文章来源于中国科学院软件研究所，作者软件所

中国科学院软件研究所 .

软件所科学传播平台，报导研究所新近科研进展、大事要闻、科普活动、先进人物事迹等

近日，中国科学院软件研究所智能博弈重点实验室4篇论文被自然语言处理领域顶级会议ACL 2026接收，工作围绕生成式人工智能内容安全检测与模型安全方面，聚焦“多模态有害内容识别”“跨模态语义检索”“大模型安全防护”等关键问题，推进了内容安全技术体系建设。

研究工作获得了国家重点研发项目“高风险领域生成式人工智能系统内容安全检测技术与标准研究”支持，相关成果在项目应用示范单位浙江省公安厅网安总队统一部署下，已在台州、湖州、舟山等地市公安局部署应用，并在多次重要行动中发挥关键作用。

在有害模因检测方面，论文All Changes May Have Invariant Principles: Improving Ever-Shifting Harmful Meme Detection via Design Concept Reproduction发现，尽管网络模因的有害内容表现形式隐蔽，且在形式、主题与时间上持续演化，但恶意用户在设计模因图时往往遵循相似的设计原则。

研究团队由此提出RepMD方法，基于攻击树理论，构建了设计理念图DCG，通过对历史有害模因进行设计步骤复现和图剪枝，提炼有害模因设计流程，并利用该图指导多模态大模型进行有害模因检测。这是首次从有害模因图的“设计理念”角度建模有害模因的生成逻辑，为溯源和分析恶意用户的攻击行为提供帮助。

RepMD流程图

实验结果表明，RepMD的检测精度高达81.1%，在类型迁移与时间演化两种场景下均保持稳定性能。人工评估显示，该方法可显著提升审核效率，单个模因的判别时间缩短15至30秒。

论文作者：江子攸、李明阳、王俊杰、黄悦凯、黄杰、常志远、李兆飏、王青

论文链接：https://arxiv.org/abs/2601.04567

在仇恨视频检测方面，论文SAGE: Synergistic Adaptive Gating of Experts for Hateful Video Detection指出，传统多模态融合方法容易出现“特征稀释”现象，即占主导的无害模态可能掩盖稀疏但关键的仇恨线索。

针对短视频中仇恨信息隐蔽性强、模态干扰严重的问题，研究团队提出了一种从特征融合转向决策仲裁的SAGE框架。该框架设计了相互解耦的模态专家网络，保留各模态的独立语义表达，并通过全局专家协商与实例级“仲裁庭”机制，根据证据显著性动态做出最终判断。

SAGE模型设计图

在HateMM和MultiHateClip数据集上，SAGE框架显著优于现有主流框架，准确率提升6.64%至21.23%，Macro-F1提升6.98%至28.01%，有效缓解了多模态仇恨视频检测中的语义干扰难题。

论文作者：黄杰、廖鑫、王俊杰、李明阳、王文硕、江子攸、李守斌、王青

工具链接：https://github.com/hjandlm/SAGE

在生成式跨模态检索方面，论文Generative Text-to-Image Retrieval via Hierarchical Identifiers and Semantic Internalization提出了SIGMA框架，针对生成式检索存在的语义区分能力不足、对齐偏置和闭集检索限制等问题，构建了分层语义标识符体系。

SIGMA框架通过多粒度层级标识符，保证图像表示的唯一性与语义一致性，并提出渐进式“语义内化”训练策略，引入语义软标签刻画细粒度图文对应关系，使模型具备对未见样本进行动态标识符分配的能力，实现开放集检索。

SIGMA模型训练流程图

在Flickr30K与MS-COCO数据集上，SIGMA在Recall@1、5、10指标上分别提升10.65%、8.50%和7.00%，有效增强了生成式跨模态检索的实用性。

论文作者：黄杰、王俊杰、廖鑫、江子攸、王文硕、李守斌、王青

工具链接：https://github.com/hjandlm/SIGMA

在大模型安全防护方面，论文Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning指出，提示注入往往通过多样化载体嵌入上下文，且恶意指令与正常语义边界模糊，难以准确识别。

针对大语言模型面临的提示注入攻击风险，研究团队提出了InstruCoT方法——构建多样化攻击数据合成机制，并引入指令级Chain-of-Thought微调策略，使模型能够显式识别、推理并拒绝恶意指令。

InstruCoT框架图

研究团队从行为偏移、隐私泄露和有害输出三个关键维度进行实验评估。结果显示，InstruCoT在四种主流大模型上均显著优于基线方法，且在安全增强的同时保持了模型原有的实用性能。

论文作者：常志远、李明阳、黄悦凯、江子攸、加小俊、熊倩、王俊杰、李兆飏、王青

论文链接：https://arxiv.org/pdf/2601.04666

END

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：信息网络安全杂志《软件所在生成式AI内容安全检测与模型安全方面取得系列进展》