文章总结: 武汉大学研究团队提出InverTune框架,通过分析多模态对比学习后门的脆弱区域,利用通用对抗扰动识别目标并重建触发器,仅选择性微调关键神经元。该方法在无需攻击先验知识的情况下将攻击成功率降低约98%,且保持模型正常性能,为多模态模型安全部署提供新范式。 综合评分: 82 文章分类: AI安全,解决方案,网络安全
珞珈学子研究成果被信息安全领域国际会议NDSS 2026录用
信息网络安全杂志
2026年1月16日 17:01 上海
近日,武汉大学国家网络安全学院2021级本科生孙梦圆作为第一作者、李宇作为共同第一作者撰写的论文被国际会议NDSS(Network and Distributed System Security Symposium)2026录用。论文题目为“InverTune: A Backdoor Defense Method for Multimodal Contrastive Learning via Backdoor-Adversarial Correlation Analysis”(《InverTune: 一种基于反演调优的多模态对比学习后门防御方法》),由武汉数学与智能研究院博士后葛云洁(通讯作者)、国家网络安全学院教授王骞和计算机学院教授杜博指导。国家网络安全学院2023级博士生刘昱忱参与研究。
InverTune三阶段后门防御流程概览
多模态对比学习模型(如CLIP)已广泛应用于图像分类、跨模态检索等任务,但其训练过程中依赖大规模网络爬取数据,使其易被植入隐蔽后门触发器。现有防御方法通常依赖攻击信息,需要大量干净数据,或显著损伤模型性能。作者基于对后门模型内部表征的系统分析发现:后门会在跨模态嵌入空间中形成可被对抗扰动优先攻击的“脆弱区域”。据此,作者提出InverTune框架,在无需知道攻击标签和投毒数据的情况下,通过三步实现有效防御:首先利用通用对抗扰动(UniversalAdversarialPerturbations,UAP)模拟攻击行为,从输出分布异常中识别后门目标标签;随后通过梯度反演联合优化视觉与跨模态空间,重建功能等价的反演触发器;最后基于激活聚类,仅对受后门影响的关键神经元进行选择性微调,从而在保持模型正常语义对齐能力的同时彻底消除后门。实验结果表明,InverTune能将多种前沿攻击的平均攻击成功率降低约98%,并在此过程中保持模型在干净任务上的正常性能。该研究揭示了多模态对比学习后门的结构性特征,并提出了一种实用的防御新范式,对基础多模态模型的安全部署具有重要意义。
据悉,本届NDSS将于2026年2月23日至27日在美国加州圣地亚哥举办。NDSS自1993年首次举办,至今已有三十余年历史,与IEEE S&P、USENIX Security、ACM CCS并称为信息安全领域“四大顶级学术会议”,也是中国计算机学会(CCF)推荐的A类会议。NDSS往届平均录用率约为17%,录用论文代表着网络安全领域的最前沿学术研究成果。
来源:武汉大学
信息网络安全
《信息网络安全》创刊于2001年,是由公安部主管,公安部第三研究所、中国计算机学会主办,面向国内外公开发行的国内首批信息安全类期刊之一,于2015年成为中国科技核心期刊,2017年成为中国科学引文数据库来源期刊,2018年成为中文核心期刊,2022年入选CCF计算领域高质量科技期刊分级目录。
中文核心期刊
中国科技核心期刊
中国科学引文数据库来源期刊
CCF计算领域高质量科技期刊
我们在不断努力和完善中,期待您的关注和支持!
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信息网络安全杂志 《珞珈学子研究成果被信息安全领域国际会议NDSS 2026录用》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论