2025-12-25 02:51:27 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文介绍Parafuzz，一种基于模型可解释性的NLP后门检测技术。它利用ChatGPT改写输入以移除触发器，并通过模糊测试优化提示词。实验表明，该方法在检测Badnets和HiddenKiller等隐蔽攻击时显著优于现有基线。尽管对自适应攻击防御有限，但该技术为NLP模型安全提供了新思路，验证了语义一致性检验的有效性。 综合评分： 90 文章分类： AI安全,漏洞分析,数据安全

cover_image

论文研读与思考|Parafuzz：一种用于检测NLP中毒样本的、由可解释性驱动的技术

Bian

玄枢战队-Arcane Hub

2025年12月23日 17:47 陕西

原文标题：ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned Samples in NLP

原文作者：Lu Yan, Zhuo Zhang, Guanhong Tao, Kaiyuan Zhang, Xuan Chen, Guangyu Shen and Xiangyu Zhang.

发表会议：NIPS 23: Proceedings of the 37th International Conference on Neural Information Processing Systems. Article No.: 2914, Pages 66755 – 66767

原文链接：https://arxiv.org/abs/2308.02122

开源代码：https://github.com/lunaryan/parafuzz

一、研究背景、目标和方法

1.1 研究背景

自然语言处理（NLP）技术近年来取得了显著进展，基于深度神经网络的模型在文本分类、情感分析、机器翻译等任务中表现出卓越性能，广泛应用于社交媒体分析、智能客服、内容审核等重要场景。然而，随着模型复杂度的提升与应用范围的扩大，其安全性问题也日益凸显。其中，后门攻击作为一种隐蔽性强、危害性大的威胁手段，逐渐成为NLP领域面临的重要安全挑战。

后门攻击通过在训练数据中植入特定触发器（如字符、词句、句法结构或文本风格），使模型在正常样本上表现良好，而在包含触发器的样本上输出攻击者预设的标签。这种攻击不仅可导致内容过滤系统失效、情感分析模型误判，还可能被用于传播误导信息或绕过安全检测机制。近年来，后门攻击形式日趋多样和隐蔽，除传统的词级、字符级攻击外，还出现了基于句法结构和文本风格的语义级攻击，如“Hidden Killer”和风格后门攻击，这些攻击更难被现有检测机制识别。目前，针对NLP后门攻击的防御研究普遍存在以下局限：（1）对隐蔽型攻击检测效果有限；（2）依赖特定触发器假设，难以适应多样化的攻击形式；（3）在验证集规模较小或触发器与文本语义高度融合时，易出现高误报或漏报。

在此背景下，如何实现高效、通用的中毒样本检测，尤其是针对语义隐蔽型后门攻击，成为当前NLP安全领域亟待解决的关键问题。

1.2 论文提出的关键方法

本文提出了一个创新的测试时间污染样本检测框架，该框架基于模型预测的可解释性，并以输入的语义意义为基础。作者认为，触发器（例如罕见词汇）不应从根本上改变被污染样本的底层语义含义，因为它们希望保持隐蔽性。基于这一观察假设：对于干净样本的改写，其模型预测应保持稳定；而对于投毒样本，在通过改写过程对触发器进行变异时，其预测应恢复为真实标签。

本文采用了最先进的大型语言模型ChatGPT作为改写器，并将触发器移除任务制定为提示工程问题。借鉴模糊测试以发现能有效消除触发器同时保持输入语义的最佳释义提示，从而实现对多种后门攻击（尤其是隐蔽攻击）的有效检测。该方法不仅提升了检测的准确性与鲁棒性，也为NLP模型安全防御提供了新的研究思路与实践框架。

图1 模型预测可解释性

这幅图示了模型预测可解释性的概念：预测应仅依赖于语义意义。上面展示了一个干净的样本，在改写后仍维持其positive预测。下面展示了一个带有触发器”cf”的被投毒样本，目标类别为positive。在改写和移除触发器后，预测恢复到其真实标签。这表明，在干净样本中，预测保持稳定，而在被投毒样本中，通过移除触发器，预测会恢复到正确的标签，这证明了预测的可解释性和触发器的影响。

二、具体方案模型与理论研究

2.1 总体概述

本文的模糊测试过程包含三个主要步骤：种子选择、变异和变异体评估。

1)种子选择：基于奖励值选择语料库中的候选项

2)变异：使用三种不同策略生成变体

3)变体评估：评估每个变体的检测性能，保留有前景的结果

模糊测试过程迭代重复这些步骤，直到达到预定的奖励阈值或最大运行时间。

图2 模糊测试过程

2.2 奖励定义

传统的模糊测试使用代码覆盖率（即给定输入时执行的代码部分）作为奖励来过滤变体，因为输入揭示bug的概率与代码覆盖率正相关。同样，在检测后门攻击的背景下，需要定义一个奖励来衡量提示词在区分被污染样本和干净样本上的性能。

2.2.1 创建被污染的验证样本

首先，使用触发器反转工具，例如PICCOLO，在受害类别的干净验证数据上创建被污染的验证样本。然后，将反转得到的伪触发器粘贴到受害数据上，只保留那些能成功欺骗模型预测为目标类别的样本。因此得到一个包含干净样本和被污染样本的新验证集，分别表示为Vclean和Vpoison。

2.2.2 检测分数

根据模型预测的可解释性假设：如果预测在改写后发生变化，则句子被分类为被污染。如果预测保持不变，则句子被分类为干净。真阳性和假阳性定义为：

其中，G是释义器，Vpoison是精心制作的有毒样本，Vclean是干净的验证数据，而p是提示词。因此，提示词p的检测得分被定义为F1分数。

2.2.3 句子覆盖率

除了检测分数，本文还采用句子覆盖率作为辅助奖励，受传统模糊测试中的代码覆盖率概念启发。它本质上是一个位图，指示哪些被污染的样本被正确识别。例如，覆盖率位图[1,1,0]和[0,1,1]都对应2/3的真阳性率，但表示不同的覆盖。

定义：给定一个被污染的句子x和目标标签t，以及提示词p，如果使用提示词p生成的改写句子被预测为其真实标签，则说提示词p覆盖了这个句子。数学上表示为：

其中，F是被测试的模型，G是改写器，p是提示词。特别注意，如果一个提示词导致被污染样本的预测从目标标签变为受害类别标签（即引入新的句子覆盖），则表明该提示词有潜力有效地中和复杂样本中的触发器效果。

2.3 模糊测试迭代

模糊测试过程如以下算法：起始于一组随机种子，在验证集上测量这些种子的检测性能和句子覆盖率，并不断对提示词进行变异，直到语料库为空。

图3 模糊测试算法

在每个迭代中，从语料库中选择检测分数最高的候选提示词。然后，生成一系列该候选提示词的变异。对于每个变异提示词，计算其检测分数并跟踪句子覆盖率。如果变异提示词的检测分数高于当前最大值或提供新的句子覆盖，则将其添加到语料库中。

在检查完所有候选提示词的变异后，更新最大检测分数和句子覆盖率。模糊测试过程在达到预定满意的检测分数水平时停止。

2.4 变异策略

为了在随机变异过程中保留改写目标，作者采用一个常量前缀“Paraphrase these sentences and make them”，并仅变异后续的词语，这些词语决定输出句子的特征。在本文实验中，保留了每种变异规则生成的10个变异，并返回所有用于检测性能检查的变异。

2.4.1 基于关键词的变异

一个高效的提示词可能包含定义改写风格的指示性关键词，例如“gossiping like a school girl”。这种提示词鼓励改写后的句子遵循更直接的语法结构和使用当代词汇，从而有效地消除“Bible”风格的触发器。

图4 提示中的关键词“女孩”移除了“圣经”风格的触发

2.4.2 基于结构的变异

一个高效的提示词也可能引入一个更好地指导改写过程的格式，例如“narrate like a storyteller”。执行第二种变异，生成具有类似结构的变异。

图5 提示的结构提高了释义的质量

2.4.3 进化算法变异

为了增强生成短语的多样性，可以采用进化算法随机删除、添加和替换候选提示词中的词语。另外还可以在候选提示词和其他语料库中的提示词以及前述规则生成的新变异之间进行交叉。

2.4.4 元提示词

为了缓解变异过程中的挑战，例如识别同义词和促进内容词而非功能词的交叉，可以使ChatGPT通过元提示词执行变异。

三、实验

3.1 实验设置

本文通过对四种代表性的攻击类型（包括Badnets、Embedding-Poisoning、风格后门攻击和Hidden Killer攻击）在四个不同的数据集（Amazon Reviews、SST-2、IMDB和AGNews）上的实验，展示了PARAFUZZ的有效性。

攻击类型：

Badnets攻击：该攻击将固定字符、单词或短语作为触发器注入到干净样本中，并将其标记为目标类别，然后训练模型。本文在TrojAI数据集第六轮上评估了对Badnets的性能。

Embedding-Poisoning（EP）攻击：这是一种更为隐蔽和数据无关的攻击方案，通过对触发器对应的嵌入向量进行细微优化，而不是整个模型，在污染的训练集上进行。作者使用EP作为代表性攻击，并在IMDB数据集上评估PARAFUZZ的性能。

风格后门攻击：在这种攻击中，攻击者会微妙地改变文本风格，并将其用作触发器。本文在SST-2数据集上评估了这种攻击。

Hidden Killer攻击：这类攻击通过操纵句子的语法结构（而不是内容）作为触发器，使其对防御措施更具抵抗性。作者在AGNews数据集上评估了这种攻击。

3.2 数据收集方法与数据集特点

除了上述提到的四种数据集Amazon Reviews、SST-2、IMDB和AGNews，本文还使用了TrojAI数据集。对于TrojAI数据集，作者使用竞赛期间提供的受害类别中的20个样本作为保留验证集。对提出的方法PARAFUZZ以及其他基线方法的性能进行了评估，评估数据为随机选择的200个干净测试样本和200个被污染测试样本。

图6 TrojAI数据集详细信息

在评估对风格后门攻击和Hidden Killer攻击的防御效果时，作者使用官方验证集以及从官方GitHub仓库中随机选择的200个测试样本子集。对于EP攻击，由于官方仓库仅提供训练数据和验证数据，因此作者将验证集划分为三个大小相等的子集：第一部分被污染，使用与训练数据污染相同的代码，作为测试污染数据；第二部分保持干净，作为测试干净数据；第三部分用作验证集。

本文随机选择200个干净样本和200个被污染样本进行评估。对于所有攻击均使用官方实现和默认设置。

3.3 测试结果与评估

3.3.1 基线对比

将Parafuzz与3种测试防御技术进行比较：STRIP、ONION和RAP。在实验中，使用RAP官方仓库提供的实现及默认设置，除了验证集和测试集的大小按照上文进行调整。默认情况下，RAP触发器设置为“cf”。在评估EP攻击（其触发器已为“cf”）时，尝试将触发器替换为“mb”和“mn”，并报告最佳结果。对于ONION和STRIP也报告了不同阈值下的最佳结果。

表1 基线对比下TrojAI数据集上的结果

如表1所示，Parafuzz因为使用随机种子提示“sound like a young girl”在几乎所有模型上实现高精确率和召回率。并且Parafuzz在处理各种类型的攻击，特别是隐蔽攻击时，显著优于其他基线方法。

3.3.2 消融研究

在本节中展示了模糊测试技术对种子选择的独立性（即种子无关性），使用模型#36作为随机选择的研究对象。随机选择了由ChatGPT生成的3个种子提示词，这些种子是通过以下指导命令生成的：“列出10种可以应用于文本以实现不同效果的独特风格。”

模糊测试终止条件：（1）当前最高F1分数超过95%（2）突变体总数超过300

在验证集上启动模糊测试，该验证集包含50个干净样本和50个带有真实触发器的污染样本，并记录随时间变化的最大F1分数。需要注意的是这里对时间进行了归一化，因为不同种子需要不同的时间来终止模糊测试过程。

图7 消融测试结果

结果分析：尽管初始F1得分不同，所有三个种子最终都通过突变实现了超过90%的F1得分，用于检测被污染样本。这一结果表明模糊测试技术在种子选择上具有鲁棒性和种子无关性。

四、论文的创新点与局限性

4.1 论文的创新点

总结下来，本篇论文主要作出了三方面贡献：

（1）基于预测可解释性的检测框架：提出模型预测应仅依赖于输入语义的可解释性假设，并据此构建检测逻辑，区别于传统方法直接检测触发器特征，该方法间接通过语义一致性检验实现检测，更具理论一致性与泛化潜力。

（2）将后门检测转化为提示工程问题：利用ChatGPT大语言模型进行复述，通过优化提示词实现“保持语义、移除触发器”的目标。

（3）对隐蔽型攻击的有效检测能力：传统方法（ONION、STRIP、RAP）难以有效检测风格攻击和句法攻击等隐蔽触发器，ParaFuzz通过语义复述与句法改写，能有效破坏这类触发器的结构，显著提升对Hidden Killer、风格后门等高级攻击的检测效果。

4.2 论文的局限性

（1）对防御者知识及数据的假设较强，假设防御者可以查询被毒化模型，但无法知道触发器的具体形式。然而，如果攻击者使用更复杂的触发策略（如动态触发器），该假设的有效性可能降低。

（2）对语义不变性假设存在潜在挑战，本方法的理论基础是触发器不应改变样本的根本语义。然而，一些高级攻击可能使触发器与语义更紧密地结合，导致复述时难以在不改变语义的前提下破坏触发器。

（3）对自适应攻击的防御能力有限，论文在附录中简要讨论了自适应攻击：如果攻击者使用ChatGPT的生成风格本身作为触发器，则本方法可能失效。虽然作者建议换用其他大语言模型，但这并未在实验中充分验证，且攻击者可能针对多种风格进行多触发器攻击。

总结与思考

本文提出了一种用于检测NLP模型中被污染样本的测试阶段框架，通过模型可解释性加强后门防御。利用ChatGPT进行句子改写，将触发器移除任务转化为提示词工程问题，并通过模糊测试寻找最佳的改写提示词。实验结果表明，本文的方法在现有方法中表现更优，尤其在应对Hidden Killer攻击等隐蔽攻击时效果显著。本论文实验以文本分类任务为主，对于生成式模型、多模态模型或复杂理解任务中的后门攻击，本方法是否同样有效，仍需进一步验证。

ParaFuzz 是后门检测领域一次重要的方法创新，但未来需在可扩展与主动防御的方向上继续突破，同时将后门安全置于更广泛的可信AI框架下进行系统治理，以应对日趋复杂与隐蔽的安全威胁。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：玄枢战队-Arcane Hub Bian《论文研读与思考|Parafuzz：一种用于检测NLP中毒样本的、由可解释性驱动的技术》