文章总结: 浙江大学孟文龙博士生论文被TIFS录用,提出对话注入攻击DIA,利用聊天模板操纵历史对话实现大模型黑盒越狱。该方法包含模板推断及两种对抗对话构建策略,在Llama-3.1和GPT-4o等模型上取得高攻击成功率,且对多种防御机制具备强鲁棒性。研究揭示模型能力增强可能削弱其安全特性,为大模型安全对齐研究提供了重要理论支撑。 综合评分: 85 文章分类: AI安全,漏洞分析,应用安全
浙江大学计算机系统结构实验室(ZJU ARClab)孟文龙博士生等人论文被信息安全领域国际顶级期刊TIFS录用
信息网络安全杂志
2026年3月6日 17:04 上海
浙江大学计算机系统结构实验室(ZJU ARClab)孟文龙博士生等人的论文《Dialogue Injection Attack: Jailbreaking LLMs through Context Manipulation》被信息安全领域国际顶级期刊IEEE Transactions on Information Forensics and Security(TIFS)正式录用。该论文在陈文智教授和魏成坤老师的指导下完成,首次提出了利用对话历史操纵来增强大语言模型越狱攻击的新范式,为大语言模型安全对齐机制的研究提供了重要的理论分析与实践支撑。
期刊介绍
IEEE Transactions on Information Forensics and Security(TIFS)是由IEEE主办的信息安全与取证领域重要国际学术期刊,在信息安全、数字取证、隐私保护等方向具有深刻的历史影响力,是CCF A类期刊之一,被认为是信息安全领域的代表性高水平期刊。TIFS对论文质量与创新性要求较为严格,强调扎实的理论基础、明确的问题建模以及完整的实验或系统验证。
研究目标与动机
随着以GPT-4、Llama等为代表的大语言模型在自然语言处理领域展现出强大的生成能力,其在代码生成、智能翻译、个性化推荐等内容生成应用中得到了广泛部署。为确保模型输出符合人类伦理标准,开发者通常采用基于人类反馈的强化学习(RLHF)等安全对齐技术。然而,这些安全机制并非坚不可摧——越狱攻击通过精心设计的对抗性提示,可以诱导大语言模型产生有害或不道德的内容。现有的越狱攻击研究主要集中在单轮交互场景,忽视了历史对话对模型行为的影响。虽然近期有研究开始探索多轮越狱攻击,但通常假设攻击者只能操纵用户提示。本研究指出,攻击者实际上也可以控制模型的历史输出,从而开辟了一条新的攻击向量。
Figure { SEQ Figure \* ARABIC |1} 利用对话模板实现虚假历史注入
DIA:对话注入攻击范式
Figure { SEQ Figure \* ARABIC |2} DIA上下文构造方式
本文提出了DIA(Dialogue Injection Attack),一种新型的黑盒越狱攻击范式,利用大语言模型聊天模板的结构设计,向输入中注入欺骗性的历史对话。研究表明,攻击者只需知道目标模型的聊天模板,就可以利用模板结构向输入中插入任意的历史对话(包括助手文本和系统文本),这在黑盒场景中通常被认为是不可实现的。此外,本文还提出了模板推断攻击方法,使攻击者能够通过少量查询推断目标模型使用的聊天模板,进一步降低了攻击的前置知识要求。
基于DIA范式,本文提出了两种构建对抗性对话的方法。DIA-I将灰盒预填充攻击适配到黑盒场景,设计了肯定性开头自动生成模块(ABGM)来自动生成恶意响应的肯定性开头,并通过”继续”命令让模型延续其虚假的历史响应。DIA-II则基于一个新发现:延迟的恶意响应比立即生成的响应具有更高的对数似然。该方法让受害模型执行词汇替换任务,同时实现响应延迟和恶意内容伪装,并设计了相似示例生成模块(SDGM)来生成良性示例作为引导。
本文在三个开源越狱基准测试集上,针对10种大语言模型(包括Llama-3.1、GPT-4o、Claude-3.7等最新模型)进行了全面评估,并与四种最先进的黑盒越狱攻击方法进行对比。实验结果表明,在10次查询后,DIA在Llama-3.1-8B上达到0.89的攻击成功率,在GPT-4o上达到0.82。DIA还展现出对6种不同防御机制的强鲁棒性,平均防御通过率达到0.65。研究还揭示了一个反直觉的现象:更大的模型反而更容易受到越狱攻击,这表明在采用相同对齐策略时,模型能力的增强可能会侵蚀其安全特性。
作者介绍
论文第一作者孟文龙为浙江大学计算机系统结构实验室在读博士生,主要研究方向为大语言模型安全。
来源:浙江大学
信息网络安全
《信息网络安全》创刊于2001年,是由公安部主管,公安部第三研究所、中国计算机学会主办,面向国内外公开发行的国内首批信息安全类期刊之一,于2015年成为中国科技核心期刊,2017年成为中国科学引文数据库来源期刊,2018年成为中文核心期刊,2022年入选CCF计算领域高质量科技期刊分级目录。
中文核心期刊
中国科技核心期刊
中国科学引文数据库来源期刊
CCF计算领域高质量科技期刊
我们在不断努力和完善中,期待您的关注和支持!
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信息网络安全杂志 《浙江大学计算机系统结构实验室(ZJU ARClab)孟文龙博士生等人论文被信息安全领域国际顶级期刊TIFS录用》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论