2026-03-09 01:27:00 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文详细阐述了针对AI模型的数据投毒攻击技术，旨在通过污染训练数据植入后门。文章介绍了有目标和无目标投毒分类，解析了基于分布式、CV及NLP距离约束的隐蔽投毒方法，探讨了连续与离散空间下的样本生成优化策略，并提出利用集成学习与模型窃取提升黑盒攻击迁移能力，为攻防双方提供了重要技术参考。 综合评分： 86 文章分类： AI安全,数据安全,漏洞分析,红队

cover_image

夫人你也不想你给AI投毒的事情被发现吧

原创

十月的进阶之路十月的进阶之路

十月的进阶之路

2026年3月8日 18:18 甘肃

0x01、背景

一个有价值的AI需要设计一个结构精妙的神经网络模型，同时需要大量的精选数据用于模型的训练，模型结构和数据质量共同决定最终构建的AI能力上限。作为一个攻击者可以盗取模型权重、重建模型厂商的隐私数据、亦或者设计对抗样本扰乱模型决策等等，但这些不在本文的讨论范围之类，本文着眼于向您介绍如何污染模型的训练数据，以此留下满足特定目的的“后门”。通过数据投毒，您可以通过控制训练数据主动创造模型漏洞。

0x02、基本原理

数据投毒的基本准则在于污染训练数据，使得模型针对特定的输入表现出可控的输出。首先建立优化目标，您可以将其视为某种简化的损失函数，如下所示：

上式的意思表达的意思人话就是：首先我们需要一个投毒数据，这是我们求解的目标，假设其为。需要一个模型在数据上表现良好，这证明模型拟合了原始干净数据和投毒数据。同时是一个对抗样本集合，我们希望刚刚的模型也能够良好的拟合数据，达到我们想要的目标。总结一句话就是，模型在相关任务上表现良好，并且在我们的投毒数据上也表现良好，输入投毒数据能够实现模型的特定输出。

0x03、投毒技术分类

如果要对投毒技术进行一个分类，自然可以将其划分为Non-target和Target两类投毒技术。

① Non-target 技术

无目标的投毒攻击并不需要模型被攻击后具备某种特定的表现，只要与原始表现不一样即可。例如一个电商推荐系统，被无目标数据投毒之后用户的推荐变得随机，不再和用户的浏览习惯关联，系统开发者的推荐目的失灵。

② Target 技术

有目标数据投毒则需要设置一个特定的攻击目标，例如模型对某种特定的输入反馈攻击者需要的特定结果。例如，对于电商推荐系统，黑产攻击者希望通过Target投毒使得模型对特定的商品打高分，得到更为广泛的推荐以获得收益。对于人脸识别系统，攻击者希望通过Target投毒使得系统张冠李戴，达到冒名顶替他人的目的。当然对于对话系统，可以使得其产生特定的不当言论。

③ 夫人你也不想你给`AI`投毒的事情被发现吧

目前诸多具备审核严格的系统，在数据被用于训练之前，往往需要被清洗，您需要避免您的投毒样本被清洗掉，因此需要设计不同的投毒约束，以避免被平台的清洗算法破坏、被人类审查员识别以及切断投毒数据和投毒目标之间的联系避免被溯源。

0x04、投毒约束

① 分布式约束

基于分布式约束的投毒方案分两步走，首先使用生成对抗网络(GAN)学习真实的用户评分分布并生成条攻击者账户的用户评价，由于该评价满足正常用户的评价分布，因此难以被检测。其次，采集大量的真实用户评价与条攻击者账户的用户评价拼接为商品评分攻击矩阵，并基于近似梯度的方法迭代更新攻击矩阵中条攻击者账户的用户评价。简化表示如下图所示，其中商品3为攻击目标。

虽然说多一个公式少一个朋友，少个读者，但为了严谨性，我们还是列出几个公式出来分析一下。我们知道通过GAN可以拟合真实用户的分布，并生成攻击者初始化评分矩阵，这里假设每一个商品为,攻击者的评分分布为，真实用户的评分分布为，那么GAN的优化目标可以表示为：

其中为距离，为全部商品集合，最终我们的目的是找到一个使得上式最小的攻击者评分矩阵即可。现在我们已经得到了初始化的攻击评分矩阵，我们将以其为基础实施如下优化目标。

其中，为GAN采样得到的结果，其满足。则表示为基于评分矩阵定义的攻击目标损失，采用梯度下降的思路迭代更新即可获得最终结果。

② 针对CV的距离约束

在CV领域错误标签构建的投毒样本易被识别和过滤，因此构建正确标签的投毒样本成为投毒选择。总结起来就一句话：人为将分类为猫类别，我们将添加细微扰动得到，使得在高维空间中接近于狗的特征。但由于扰动微小，因此肉眼不可察，的标签还是会被标为猫，当模型收敛时，由于的高维特征和狗相似，所以狗将会被分类为猫。与对抗样本的本质区别是数据投毒在模型训练阶段产生，而对抗样本在模型推理阶段。对抗样本相关内容请参考之前的文章，这里不再赘述。此时我们的优化目标如下：

其中表示神经网络倒数第二层输出，不包含层。整个优化表达式的目标为可以找到一个与样本靠近的，其高维特征与相近。在实际操作过程中，往往将初始化为，通过不断添加扰动得到投毒样本。对于第一项使用梯度下降优化，如下式：

对于第二项可以通过最小化的实现样本在视觉上没有明显的差异，如下式：

当然也有其他诸多用于约束图像距离的方式，这里不再过多赘述。

③ 针对NLP的距离约束

自然语言领域的投毒往往面临着隐蔽性不佳的问题，例如当大模型运行的过程中包含某些特定的Token的词偏离正常的结果，则容易被溯源定位，因此一种有效的处理方式是保证投毒样本和攻击目标在单词层面的No-overlap。例如，攻击目标是使得包含黑人的词被识别负面，那么投毒样本则不应该包含任何和黑人相关的词汇。

0x05、投毒样本生成效率的相关优化

① 连续空间中的投毒优化

再次回归最初的优化目标，公式如下：

针对该双层优化目标，可以将其转化为单层优化带约束问题处理如下：

其中根据约束条件是否满足凸函数的要求可分为采用KKT条件求解或者使用随机梯度下降等技术近似求解，下面粗略分析一下两种求解方式的区别。对于KKT条件下的求解方法，简化为下式：

进一步通过映射梯度更新如下式：

详细的计算展开请参考论文：

MEI&nbsp;S, ZHU X. Using machine teaching to identify optimal trainning-set attacks&nbsp;on&nbsp;machine learners[C]. Twenty-Ninth AAAI Conference&nbsp;on&nbsp;Artificial Intelligence.&nbsp;2015.

总结一下，上述算法的本质是先通过KKT条件将双层优化问题转化为等价的单层带约束问题，然后使用交替迭代的方式求解。对于深度神经网络内部非凸函数的优化问题采用多步随机梯度下降近似求解，基于内部步的梯度下降迭代优化结果来替代最优解，外部的优化基于内部的步迭代结果进行。例如2步优化：

② 离散空间中的投毒优化

全量搜索

这种方式没什么好说的，搜索整个空间将值带入损失函数并选择最优值。但计算量过大，且容易过拟合导致最终效果不佳。

基于一阶泰勒近似的全量搜索

对目标损失函数进行一阶泰勒展开，优化目标变为：

极大加快了计算速度，并且近似展开本身就有助于避免过拟合。

向量搜索

针对搜索问题可以采用KD-Tree等向量检索方法，其核心思想在于通过中值递归的思想构建二叉树以提高检索速度。对于数据投毒问题，使用每次神经网络梯度更新后的特征表示作为查询向量，在KD-Tree上查找距离较近的候选表示，并将其作为当前步骤优化后的结果。

0x06、提升数据投毒迁移能力

针对架构繁杂的神经网络模型、损失函数，如何保证投毒策略在不同的场景下的适用性至关重要。

① 基于Ensemble和凸多边形设计的投毒方案

针对黑盒攻击场景，我们假设攻击目标的模型为，我们的模型为，此时存在一个问题，无法保证近似的同时满足近似，即两者的高维特征向量相近。

除此之外，即使投毒样本在特征空间逼近了目标样本，分类器仍然可能正确分类，原因是投毒样本集中在目标样本的某一侧，没有形成足够的干扰，分类器的决策边界仍然能够准确分类目标样本。基于上述缺陷可以采用凸多边形设计的投毒方案解决，有效提升投毒样本的泛化能力。

② 基于模型窃取的增强投毒方案

攻击者通过拟合目标模型获得一个替代模型，然后基于替代模型上优化得到投毒样本攻击目标模型，显然当替代模型越接近目标模型，效果则越好。参考如下论文：

Wallace&nbsp;E, Stern M, Song D. Imitation attacks and defenses for black-box machine translation systems[C]//Proceedings of the&nbsp;2020&nbsp;Conference&nbsp;on&nbsp;Empirical Methods in Natural Language Processing (EMNLP).&nbsp;2020:&nbsp;5531-5546.Gong&nbsp;X, Chen Y, Yang W, et al. InverseNet: Augmenting Model Extraction Attacks with Training Data Inversion[C]//IJCAI.&nbsp;2021:&nbsp;2439-2447.

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：十月的进阶之路十月的进阶之路十月的进阶之路《夫人你也不想你给AI投毒的事情被发现吧》