文章总结: 微软开发出一款用于检测AI大语言模型中隐藏后门的扫描器,旨在解决企业依赖第三方和开源模型时的安全盲点。该工具可识别训练或微调过程中嵌入的恶意触发器,无需重新训练模型即可通过前向通行检测。研究发现了三个关键指标:触发令牌劫持注意力形成双三角形图案、模型可能泄露训练数据或中毒信息、后门对近似触发版本也有反应。尽管该方法仅是渐进式进展,但对于使用开源模型的组织而言,部署此类扫描器是必要的保护措施,以应对AI供应链中的后门风险。 综合评分: 72 文章分类: AI安全,安全工具,供应链安全,威胁情报,漏洞分析
行业资讯:微软开发出一款用于检测人工智能LLM中的隐藏后门的扫描器
君说安全
2026年2月8日 16:28 贵州
分享网络安全知识,提升网络安全认知!
让你看到达摩克利斯之剑的另一面!
“人工智能模型成为供应链的一部分,应警惕后门风险”****
备注:图片来源于网络
大家好,我是Jun哥。
据外媒报道,微软开发了一款用于检测AI模型后门的扫描器,解决了日益依赖第三方大型语言模型的企业面临的关键盲点。
微软在一篇博客文章中指出,其研究重点是识别在语言模型训练或微调过程中嵌入的隐藏触发器和恶意行为,这些行为可能处于休眠状态,直到输入特定指令后激活。
此类后门可能允许攻击者以微妙方式改变大模型的行为,从而使数据泄露或恶意活动悄无声息地绕过传统安全控制。
01 企业对第三方和开源模型的依赖
随着企业越来越依赖第三方和开源模型来处理从客户支持到安全运营等实践应用,这些模型的完整性、安全性也应受到了审计。
与传统软件不同,传统软件中存在扫描代码错误或已知漏洞,而AI大模型风险可能包括植入模型中的隐藏行为。
AI大模型在大多数情况下可能正常工作,但当它看到秘密触发点时会做出有害反应,这是一个比较难以发现的风险点之一。
当前,跟IT信息相关的组织都在争先恐后的部署AI大模型,寻求“AI+行业”的最佳解决方案,甚至用AI替代初中级人员,以实现降本增效的目的。
而AI这种秘密触发的风险更为让当前的技术或者管理者担忧,因为大型语言模型可以在没有深度检查的情况下部署,导致安全团队对其培训或漏洞的可视性有限。
02 疑似存在后门的证据
微软此次的研究有一个初步结论,他们的研究人员声称识别出三个可观察的证据,微软内部称之为“指标”或称“签名”,这些指标表明,在AI大语言模型中可能存在后门。
其中最明显的“指标”之一是模型在隐藏触发时对提示的关注方式发生转变,在后门模型中,触发令牌往往主导模型的注意力,实际上覆盖了其他输入。
微软研究团队表示,“我们发现触发令牌往往会’劫持’后门模型的注意力,形成独特的双三角形图案。”
研究人员还发现,存在后门的大模型还可能会泄露其它信息,如训练数据,中毒信息等;在某些情况下,特定提示会让模型重复插入后门的训练数据片段,包括触发器本身的部分内容。
另一个关键发现是,语言模型后门的行为与传统软件后门不同,许多AI大模型的后门不仅对精确的触发字符串做出反应,还能对触发器的部分或近似版本做出反应。
03 微软大模型后面扫描器的有效性
微软表示,该扫描器无需重新训练模型或对后门行为的事先了解,仅使用前向通行,避免梯度计算或反向传播,以保持计算成本低廉。
研究人员还表示,它适用于大多数随意的GPT风格语言模型,并可应用于广泛的部署的情形。
安全分析人员指出,虽然该方法提升了对语言模型中毒的可视性,但这只是渐进式进展而非突破,指出多家领先的EDR平台已声称能够检测开源大型语言模型中的后门。
当前,人工智能模型成为供应链的一部分,尤其是开源大模型,应警惕LLM后门风险,这如同像应用软件系统,都由可能存在潜在后门方式。
因此,对于下载开源模型以便在自身系统中使用或定制的组织来讲,虽然扫描器当前不是最完整的解决方案,但部署该大模型扫描器是必不可少的保护措施之一。
全文完,喜欢请三连,这对我很重要!
-End-
免责声明:本文相关素材均来自互联网,仅为传递信息之用。****
如有侵权,请联系作者删除。
★点赞,转发,设为星标★
与你一起分享网络安全职场故事
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:君说安全 《行业资讯:微软开发出一款用于检测人工智能LLM中的隐藏后门的扫描器》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论