2026-01-09 23:21:18 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 华中科技大学马海舰团队提出基于分布逼近理论的跨图像与提示对抗攻击方法，有效解决了传统方法泛化能力弱的难题。该研究通过高斯建模生成通用扰动，在主流多模态大模型上攻击成功率显著提升，成果已被NeurIPS2025录用，为模型安全防护提供了新参考。 综合评分： 78 文章分类： AI安全,漏洞分析

cover_image

华中科技大学 | 信息存储系统教育部重点实验室硕士生马海舰的论文被会议NIPS 2025录用

信息网络安全杂志

2026年1月9日 17:00 上海

在多模态大语言模型（MLLMs）广泛应用于图像理解、视觉问答等领域的当下，其安全漏洞问题愈发突出。现有对抗攻击方法多针对特定图像 – 提示对优化，存在泛化能力弱、迁移性差等缺陷，难以应对真实场景中多样化的输入组合。近日，一项受国家自然科学基金（No.62476107）支持的创新性研究，提出基于分布逼近理论的跨图像 / 提示对抗攻击方法，成功实现对主流多模态大模型的高效通用攻击，为大模型安全防护体系建设提供了重要参考。

该研究成果以 “Fit the Distribution: Cross-Image/Prompt Adversarial Attacks on Multimodal Large Language Models” 为题，已被国际顶级学术会议 NeurIPS 2025（CCF A 类）接收。研究团队通过全新视角破解传统攻击瓶颈，提出将图像与提示的输入分布建模为高斯分布，生成单一通用的对抗扰动，实现对未见图像和提示的有效迁移攻击。

传统对抗攻击方法往往过度拟合特定训练样本，导致换用新的图像或提示时攻击失效，且需为每个输入组合单独优化扰动，资源消耗巨大。而该研究提出的分布驱动攻击框架，核心创新在于三点：一是采用拉普拉斯逼近技术，将复杂的图像和提示输入分布建模为可计算的高斯分布，精准估计均值和协方差参数；二是通过蒙特卡洛采样机制，从建模分布中抽取多样化图像 – 提示对，优化得到与分布拟合的输入无关扰动；三是针对图像无关和图像相关两类提示分别建模，通过高斯混合模型融合为统一分布，覆盖全场景提示类型。

严苛的实验验证显示，该方法表现卓越：在 MS-COCO 和 DALLE-3 两大数据集上，针对 LLaVA1.5、BLIP-2、MiniGPT-4 等主流模型，跨图像攻击成功率最高达 71.9%，跨提示攻击成功率最高达 97.9%，跨图像 – 提示联合攻击成功率最高达 57.9%，均远超现有 PGD、CroPA 等基准方法；即使面对随机化、JPEG 压缩等防御机制，仍保持优异的攻击稳定性；针对不同长度和复杂度的目标文本，以及跨数据集、跨模型场景，均展现出强大的适配能力，生成的扰动具有极强的通用性。

图1 整体架构图

图2 攻击效果

来源：信息存储系统教育部重点实验室

推荐阅读

“网安+法学”双学位 | 看南开大学、东南大学、重庆邮电大学在新赛道上加速跑
芯片安全漏洞难检测？看西工大“抽象四次方”如何破解芯片安全难题
“五色石”计划下，东南大学网络安全人才培养模式创新“密码”揭秘
“实战派”网安人才培养新范式，看上海交通大学、暨南大学、湖南大学如何转变模式锻造网安实战人才
做研究，读“经典”！看中国科学技术大学、东南大学、南开大学和兰州大学网络空间安全领域青年教师如何挖出让审稿人眼前一亮的新切口

信息网络安全

《信息网络安全》创刊于2001年，是由公安部主管，公安部第三研究所、中国计算机学会主办，面向国内外公开发行的国内首批信息安全类期刊之一，于2015年成为中国科技核心期刊，2017年成为中国科学引文数据库来源期刊，2018年成为中文核心期刊，2022年入选CCF计算领域高质量科技期刊分级目录。

中文核心期刊

中国科技核心期刊

中国科学引文数据库来源期刊

CCF计算领域高质量科技期刊

我们在不断努力和完善中，期待您的关注和支持！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：信息网络安全杂志《华中科技大学 | 信息存储系统教育部重点实验室硕士生马海舰的论文被会议NIPS 2025录用》