文章总结: 文档介绍了ProAttack这种基于提示词的大语言模型后门攻击方法,该方法通过为部分训练样本分配恶意提示词且保持标签正确,在多个文本分类基准测试中实现接近100%攻击成功率。研究显示现有防御方案基本失效,但参数高效微调方法如LoRA可通过限制参数更新有效降低攻击成功率。文档还提及该攻击在医疗等现实场景中的威胁,并指出需针对具体任务调优防御参数。 综合评分: 85 文章分类: AI安全,漏洞分析,威胁情报,安全建设,红队
一种几乎无法检测的大语言模型攻击仅需少量投毒样本即可实现
原创
HelpNetSecurity HelpNetSecurity
安全行者老霍
2026年4月20日 09:00 北京
在小说阅读器读本章
去阅读
作者:Mirko Zorz
发布时间:2026 年 3 月 26 日分享
提示词工程已成为大语言模型在生产环境中部署的标准环节,而它也引入了一个绝大多数组织尚未应对的攻击面。研究人员开发并测试了一种名为 ProAttack、基于提示词的后门攻击方法,该方法在多个文本分类基准测试中实现了接近 100% 的攻击成功率,且无需修改样本标签或注入外部触发词。
一种通过基于 LoRA 的大语言模型微调缓解后门攻击的防御范式(来源:新加坡南洋理工大学)
1. ProAttack 的工作原理
针对自然语言处理模型的标准后门攻击,通常是在训练样本中插入异常标记或短语,并将其标签翻转至目标类别。防御方已经学会通过扫描突兀标记和错误标注数据来检测这类异常行为。ProAttack 则避开了这两种检测途径。它为属于目标类别的一部分训练样本分配特定的恶意提示词,同时保持标签正确、文本自然。其余所有样本则分配普通的良性提示词。模型会学习将恶意提示词与目标输出关联起来。在推理阶段,任何携带该提示词的输入都会触发后门。
研究人员将这一机制形式化为对同一基础训练语料库应用两种提示词函数。被投毒的样本集使用构造为触发器的提示词,干净样本集使用正常任务提示词。两组数据的标签均保持准确,符合干净标签攻击的定义。
2. 不同场景下的攻击效果
ProAttack 在多个文本分类基准测试中实现了接近 100% 的攻击成功率,同时干净数据准确率与基线模型保持一致。在全部三个测试数据集上,该攻击效果均优于此前主流的干净标签攻击方法。
该攻击在低数据量条件下依然有效。在五个数据集、五种大语言模型上的测试中,大多数配置下成功率仍接近 100%;在某些场景中,攻击仅需六个投毒样本即可生效。
研究人员还在医疗应用场景中进行了测试,以放射学报告摘要为基准。ProAttack 同样保持了极高的攻击成功率,且摘要质量评分与干净模型相近。
3. 现有防御为何失效
研究人员测试了四种成熟防御方案对抗 ProAttack:ONION、SCPD、回译以及精细剪枝。没有一种能在所有数据集上彻底消除攻击。部分方法在某些基准上降低了攻击成功率,但都存在相应代价:要么对其他数据集基本无效,要么在过程中降低了模型在干净数据上的准确率。
4. LoRA 作为防御机制
研究人员提出使用 LoRA(一种参数高效微调方法)作为防御手段。其原理是:后门注入需要更新全部参数以建立触发器与目标标签之间的对齐关系。而 LoRA 将参数更新限制在低秩矩阵内,削弱了模型编码这种对齐关系的能力。其结果是,模型仅更新标准微调下所需参数的一小部分。
在多个数据集上,这种限制显著降低了攻击成功率,同时基本保留了干净数据的准确率。针对 BadNet 和 InSent 的测试证实,该防御不仅适用于 ProAttack,也可泛化到其他干净标签攻击方法。
其他参数高效微调方法,包括提示词微调(Prompt-tuning)和 VERA,也取得了类似效果,表明防御效果普遍与参数限制相关,而非 LoRA 独有。
该防御存在一项约束:其效果依赖于保持较低的 LoRA 秩。在更高秩的设置下,更新的参数数量增加,攻击成功率会随之回升。因此在部署时,需要权衡模型容量与防御强度。
5. 现实可行性
该研究第一作者、新加坡南洋理工大学计算机与数据科学学院研究员赵帅博士直接阐述了现实风险。“鉴于提示词对模型性能的显著影响,实际应用中的用户常常采用公开或共享的提示词模板。” 赵博士表示,“如果攻击者在开源数据集或共享资源中恶意篡改提示词,就可能在不引发明显异常的情况下植入后门,从而对系统安全构成重大威胁。”
赵博士补充道,ProAttack 的隐蔽性源于标签保持正确、文本看起来自然,这使其在依赖自动化数据生成和提示词工程的系统中具备可行性。
关于 LoRA 能否作为通用防御手段,赵博士态度审慎。“不存在普适最优选择,因为合适的秩本身就与具体任务相关。” 他说,“尽管 LoRA 有效,但在实践中作为通用防御的作用仍然有限,因为它需要针对具体任务仔细调优超参数才能可靠部署。”
6. 研究范围与后续方向
研究人员指出了两项局限性:尚未测试向文本以外领域(包括语音)的泛化能力;基于 LoRA 的防御是针对干净标签攻击设计的,其对抗投毒标签攻击的效果仍需进一步研究。研究人员提出,知识蒸馏可作为该场景下净化投毒模型权重的一个可行方向。
A nearly undetectable LLM attack needs only a handful of poisoned samples
ShipSec Studio 将开源工作流编排引入安全运营领域
作者:Anamarija Pogorelec
发布时间:2026 年 3 月 30 日
安全团队长期以来一直依赖 shell 脚本、cron 任务以及松散关联的各类工具,将侦察与漏洞扫描工作串联起来。ShipSec AI 推出的开源安全工作流自动化平台 ShipSec Studio,旨在用专门为安全运营构建的专属编排层取代这一模式。
1. 平台功能
ShipSec Studio 提供可视化、无代码的工作流构建器,使运营人员无需编写粘合代码即可将安全工具连接为自动化管道。该构建器将可视化流程图编译为可执行的领域特定语言,再由独立的工作节点运行时执行。
该平台原生支持一系列常用安全工具。在侦察方面,集成了 Subfinder、DNSX、Naabu 和 HTTPx 用于子域名发现与服务枚举。在漏洞与敏感信息检测方面,内置了 Nuclei 和 TruffleHog。
除工具执行外,该平台还具备多项编排级功能,使其区别于普通的任务调度器。工作流支持人工介入暂停机制,可暂停执行并等待运营人员审批、表单输入或人工验证后再继续。运营人员还可在工作流中嵌入大语言模型节点,对工具输出进行 AI 辅助分析,并支持 MCP 提供商作为标准化集成层。原生 CRON 调度可处理周期性扫描任务。REST API 可对外暴露工作流触发与监控接口,用于外部集成。
2. 架构
该平台在三个层面实现职责分离。基于 NestJS 的管理层面负责工作流编译、采用 AES-256-GCM 加密的敏感信息管理以及身份认证。基于 Temporal.io 构建的编排层面管理工作流状态、并发量与持久化等待状态,在故障与重启场景下仍可保证稳定性。无状态工作节点层面从 Temporal 拉取任务,并在临时容器中执行,具备单次运行卷隔离能力。
实时遥测管道通过服务器发送事件(SSE)传输终端输出、事件与日志。基础技术栈包括 PostgreSQL、MinIO、Redis、Loki 以及用于消息传递的 Redpanda。前端基于 React 19、用于可视化画布的 ReactFlow 以及用于终端渲染的 xterm.js 构建。
MCP 集成扩展至内置服务器库,原生支持 AWS CloudTrail、CloudWatch 与文件系统访问。在工作流中运行的 AI 智能体可通过标准化发现机制自动发现并调用 MCP 工具。
3. 部署
团队可完全在自有基础设施上运行该平台。单行安装程序可处理依赖检查、Docker 配置与服务启动。项目同时提供了适用于有数据驻留要求或隔离环境团队的自托管 Docker 部署文档。
开发文档涵盖多实例部署方案,允许工程师在单台机器上运行并行隔离环境,每个环境拥有独立数据库与 Temporal 命名空间。
ShipSec Studio brings open-source workflow orchestration to security operations
Novee 推出自主化 AI 红队技术,用于挖掘大语言模型漏洞
发布时间:2026 年 3 月 24 日
Novee 今日为其 AI 渗透测试平台推出面向大语言模型应用的 AI 红队服务,旨在赶在攻击者利用之前,发现基于大语言模型的应用中的安全漏洞。
企业正大量部署人工智能软件,从面向客户的聊天机器人到内部智能助手、自主智能体,安全团队如今面临一类全新风险,包括提示注入、越狱尝试、数据窃取,以及对智能体行为的操控,而传统渗透测试工具从设计之初就无法检测这类风险。
与为 Web 应用和基础设施测试而构建的常规应用安全工具不同,Novee 的 AI 渗透测试智能体专为持续探测人工智能应用而设计。该智能体自主模拟真实、复杂的攻击场景并组合攻击技术,以发现人工测试或静态扫描器经常遗漏的漏洞。
安全团队可将该智能体指向任意人工智能应用,包括聊天机器人、智能助手、自主智能体以及基于大语言模型的工作流,执行全面安全测试。系统会评估应用在对抗性攻击下的行为,并生成包含可落地修复指引的漏洞评估报告。
“我在网络安全攻击端领域有二十年经验,曾供职于政府作战部门,保护关键基础设施,如今打造像真实攻击者一样思考的 AI 系统。”Novee 首席执行官伊多・格芬表示,“我们持续观察到,攻击者的行动节奏被极大压缩。漏洞出现到被利用的窗口期可能缩短至分钟级。防御这类威胁需要持续测试,而非定期评估。”
Novee 的研究团队主导了该产品的研发,将用于发现高危漏洞的技术提炼并融入这款 AI 工具。该研究团队近期披露了一个影响 Cursor 的漏洞,攻击者可借此操控代码智能体的上下文窗口,并在开发者工作站上实现完整的远程代码执行。Novee 还有其他发现正按照负责任披露流程同步给其他厂商。这项持续研究的成果会直接输入智能体的训练过程,使其能够持续学习真实攻击者如何发现并利用新型 AI 漏洞与弱点。
“人工智能应用带来了全新的攻击面,但大多数组织仍在使用为 Web 应用和基础设施设计的工具对其进行测试。”Novee 首席产品官贡・查拉米什表示,“攻击者已经在为 AI 系统调整攻击技术。安全团队需要一种以对手相同的攻击方式测试这些系统的手段。”
该智能体设计为可适配任意基于大语言模型的应用,无论底层模型厂商或架构如何,包括基于 OpenAI、Anthropic 或开源模型构建的部署环境。它还可集成到现有安全测试工作流与 CI/CD 流水线中,使企业能够将人工智能应用测试纳入其更广泛的开发与安全流程。
Novee introduces autonomous AI red teaming to hunt LLM vulnerabilities
(完)
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:安全行者老霍 HelpNetSecurity HelpNetSecurity《一种几乎无法检测的大语言模型攻击仅需少量投毒样本即可实现》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论