Plugins

分享推荐实用的WordPress插件

WordPress

记录分享WordPress使用经验和技巧

Web前端

分享Web前端设计理念及技术

设计资源

搜刮来的设计资源

行业资讯：微软开发出一款用于检测人工智能LLM中的隐藏后门的扫描器

2026-02-09 00:53:01 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 微软开发出一款用于检测AI大语言模型中隐藏后门的扫描器，旨在解决企业依赖第三方和开源模型时的安全盲点。该工具可识别训练或微调过程中嵌入的恶意触发器，无需重新训练模型即可通过前向通行检测。研究发现了三个关键指标：触发令牌劫持注意力形成双三角形图案、模型可能泄露训练数据或中毒信息、后门对近似触发版本也有反应。尽管该方法仅是渐进式进展，但对于使用开源模型的组织而言，部署此类扫描器是必要的保护措施，以应对AI供应链中的后门风险。 综合评分： 72 文章分类： AI安全,安全工具,供应链安全,威胁情报,漏洞分析

cover_image

行业资讯：微软开发出一款用于检测人工智能LLM中的隐藏后门的扫描器

君说安全

2026年2月8日 16:28 贵州

分享网络安全知识，提升网络安全认知！

让你看到达摩克利斯之剑的另一面！

“人工智能模型成为供应链的一部分，应警惕后门风险”****

备注：图片来源于网络

大家好，我是Jun哥。

据外媒报道，微软开发了一款用于检测AI模型后门的扫描器，解决了日益依赖第三方大型语言模型的企业面临的关键盲点。

微软在一篇博客文章中指出，其研究重点是识别在语言模型训练或微调过程中嵌入的隐藏触发器和恶意行为，这些行为可能处于休眠状态，直到输入特定指令后激活。

此类后门可能允许攻击者以微妙方式改变大模型的行为，从而使数据泄露或恶意活动悄无声息地绕过传统安全控制。

01　企业对第三方和开源模型的依赖

随着企业越来越依赖第三方和开源模型来处理从客户支持到安全运营等实践应用，这些模型的完整性、安全性也应受到了审计。

与传统软件不同，传统软件中存在扫描代码错误或已知漏洞，而AI大模型风险可能包括植入模型中的隐藏行为。

AI大模型在大多数情况下可能正常工作，但当它看到秘密触发点时会做出有害反应，这是一个比较难以发现的风险点之一。

当前，跟IT信息相关的组织都在争先恐后的部署AI大模型，寻求“AI＋行业”的最佳解决方案，甚至用AI替代初中级人员，以实现降本增效的目的。

而AI这种秘密触发的风险更为让当前的技术或者管理者担忧，因为大型语言模型可以在没有深度检查的情况下部署，导致安全团队对其培训或漏洞的可视性有限。

02　疑似存在后门的证据

微软此次的研究有一个初步结论，他们的研究人员声称识别出三个可观察的证据，微软内部称之为“指标”或称“签名”，这些指标表明，在AI大语言模型中可能存在后门。

其中最明显的“指标”之一是模型在隐藏触发时对提示的关注方式发生转变，在后门模型中，触发令牌往往主导模型的注意力，实际上覆盖了其他输入。

微软研究团队表示，“我们发现触发令牌往往会’劫持’后门模型的注意力，形成独特的双三角形图案。”

研究人员还发现，存在后门的大模型还可能会泄露其它信息，如训练数据，中毒信息等；在某些情况下，特定提示会让模型重复插入后门的训练数据片段，包括触发器本身的部分内容。

另一个关键发现是，语言模型后门的行为与传统软件后门不同，许多AI大模型的后门不仅对精确的触发字符串做出反应，还能对触发器的部分或近似版本做出反应。

03　微软大模型后面扫描器的有效性

微软表示，该扫描器无需重新训练模型或对后门行为的事先了解，仅使用前向通行，避免梯度计算或反向传播，以保持计算成本低廉。

研究人员还表示，它适用于大多数随意的GPT风格语言模型，并可应用于广泛的部署的情形。

安全分析人员指出，虽然该方法提升了对语言模型中毒的可视性，但这只是渐进式进展而非突破，指出多家领先的EDR平台已声称能够检测开源大型语言模型中的后门。

当前，人工智能模型成为供应链的一部分，尤其是开源大模型，应警惕LLM后门风险，这如同像应用软件系统，都由可能存在潜在后门方式。

因此，对于下载开源模型以便在自身系统中使用或定制的组织来讲，虽然扫描器当前不是最完整的解决方案，但部署该大模型扫描器是必不可少的保护措施之一。

全文完，喜欢请三连，这对我很重要！

-End-

免责声明：本文相关素材均来自互联网，仅为传递信息之用。****

如有侵权，请联系作者删除。

★点赞，转发，设为星标★

与你一起分享网络安全职场故事

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：君说安全《行业资讯：微软开发出一款用于检测人工智能LLM中的隐藏后门的扫描器》

版权声明

本站仅做备份收录，仅供研究与教学参考之用。
读者将信息用于其他用途的，全部法律及连带责任由读者自行承担，本站不承担任何责任。

ZONE.CI 全球网 | 安全领域涉猎者-乌云独行地带

ZONE.CI 全球网

安全领域涉猎者-乌云独行地带

行业资讯：微软开发出一款用于检测人工智能LLM中的隐藏后门的扫描器

行业资讯：微软开发出一款用于检测人工智能LLM中的隐藏后门的扫描器

负债后通讯录被爆？别慌！催收的“把柄”已送到你手里，教你这样反制维权

负债后通讯录被爆？别慌！催收的“把柄”已送到你手里，教你这样反制维权

【资源】朝鲜网站资源汇总

【资源】朝鲜网站资源汇总

美国国家安全局NSA监听风波

美国国家安全局NSA监听风波

东航技术应用研发中心社会招聘信息安全工程师

东航技术应用研发中心社会招聘信息安全工程师

TRAE配置IDA-Pro-MCP分析应用

TRAE配置IDA-Pro-MCP分析应用

中国具身智能产业发展与竞争格局对标分析

中国具身智能产业发展与竞争格局对标分析

龚晨：以代码为刃，铸公安科技利剑

龚晨：以代码为刃，铸公安科技利剑

数据类型全攻略：Python中的变量、进制、浮点数和布尔值解析

数据类型全攻略：Python中的变量、进制、浮点数和布尔值解析

零代码！使用Coze构建自动化网安攻防全流程工具

零代码！使用Coze构建自动化网安攻防全流程工具

行业资讯：微软开发出一款用于检测人工智能LLM中的隐藏后门的扫描器

行业资讯：微软开发出一款用于检测人工智能LLM中的隐藏后门的扫描器

文章总结：微软开发出一款用于检测AI大语言模型中隐藏后门的扫描器，旨在解决企业依赖第三方和开源模型时的安全盲点。该工具可识别训练或微调过程中嵌入的恶意触发器，

02-090 评论

负债后通讯录被爆？别慌！催收的“把柄”已送到你手里，教你这样反制维权

负债后通讯录被爆？别慌！催收的“把柄”已送到你手里，教你这样反制维权

文章总结：文章针对负债人遭遇催收爆通讯录问题，从法律与维权角度提供反制策略。核心观点指出爆通讯录本质是违法催收手段，违反《治安管理处罚法》第42条关于骚扰、侮

02-090 评论

【资源】朝鲜网站资源汇总

【资源】朝鲜网站资源汇总

文章总结：本文汇总了23个朝鲜官方及机构网站资源，涵盖新闻媒体、政府部门、教育机构、航空公司、保险公司、旅游服务等多个领域，包括柳京搜索引擎、劳动新闻、我的国

02-090 评论

美国国家安全局NSA监听风波

美国国家安全局NSA监听风波

文章总结：美国国家安全局NSA截获涉及特朗普关联人员的外国情报后，国家情报总监图尔茜·加巴德被指绕过常规程序，亲自将纸质副本交白宫办公厅主任并封锁信息分发。吹

02-090 评论

ZONE.CI 全球网 | 安全领域涉猎者-乌云独行地带

安全领域涉猎者-乌云独行地带

ZONE.CI 全球网

评论：0 参与： 0

目录

ZONE.CI 全球网

安全领域涉猎者-乌云独行地带
ZONE.CI 全球网公众号