文章总结: 本文深入分析大语言模型输入侧三大安全威胁:提示词注入劫持模型行为、越狱攻击突破内容限制、系统提示词泄露窃取配置。通过搭建AI靶场复现攻击链路,揭示模型对末尾指令的优先级倾向、内容审查机制模糊窗口及系统提示词与用户输入混合处理的安全隐患。提出输入过滤、指令隔离与内容审查加固的纵深防护策略,为企业AI应用安全提供实战参考。 综合评分: 87 文章分类: AI安全,漏洞分析,红队,安全工具,实战经验
AI靶场安全实战系列:从对话到指令劫持——输入与指令安全深度剖析
原创
星云实验室 星云实验室
绿盟科技研究通讯
2026年5月21日 15:27 北京
在小说阅读器读本章
去阅读
摘要:继前文《AI 靶场安全实战系列:训练数据投毒——利用标签翻转实现内容审核定向漏判》中对模型供应链侧数据风险的探讨,本文将视角进一步转向应用运行时侧的输入安全。
随着大语言模型在企业级应用中的广泛落地,模型输入侧的安全问题正成为攻击者突破AI系统防线的首要突破口。本文聚焦于三类典型的输入与指令安全攻击——提示词注入、越狱攻击及系统提示词泄露。三类攻击共享同一根源(模型对指令边界的识别失效),但攻击目标不同:提示词注入劫持模型行为,越狱攻击突破内容限制,系统提示词泄露窃取敏感配置。三者既可独立实施,也可串联形成复合攻击。通过搭建完整的靶场环境,本文复现了从恶意载荷构造、指令覆盖、角色偏离到敏感信息泄露的全攻击链路。
实验验证了模型对末尾指令的优先级倾向可被攻击者利用、内容审查机制存在可被绕过的模糊窗口、System Prompt与用户输入在同一上下文中混合处理是提示词注入的根本原因。本文基于实战复盘提出了输入过滤、指令隔离与内容审查加固的纵深防护策略,为企业AI应用的安全测试与防御体系建设提供参考。
关键词:提示词注入;越狱攻击;系统提示词泄露;输入与指令安全;AI安全靶场
注:本文及相关靶标构建方法仅用于安全研究与防御体系学习,请勿将相关技术用于任何未经授权的非法测试网络。
一、背景与威胁场景构建
1.1
真实安全事件:从理论风险到实战漏洞
输入侧攻击早已不是“纸上谈兵”。在绿盟科技星云实验室过往的实战研究中,多类AI系统输入侧漏洞已被验证可被实际利用:
Langflow CVE-2026-33017:该漏洞允许攻击者在未授权条件下实现远程代码执行,核心成因在于系统对用户输入的指令边界识别失效,恶意载荷通过Prompt入口注入后直接触发后端执行逻辑。
无需认证即可执行:Langflow CVE-2026-33017 未授权远程代码执行漏洞深度剖析与靶标实战
OpenClaw CVE-2026-25253(网关劫持):攻击者通过构造特定输入,利用网关层的指令转发机制实现1-Click RCE,控制端权限被完全接管。
OpenClaw安全实战系列三:利用网关劫持实现 OpenClaw控制端1-Click RCE (CVE-2026-25253)
OpenClaw CVE-2026-32038(沙箱网络隔离绕过):该漏洞揭示了即使部署了沙箱隔离,攻击者仍可通过指令层面的精巧构造,绕过网络隔离边界。
OpenClaw安全实战系列(四):幽灵连通性 — 揭秘CVE-2026-32038沙箱网络隔离绕过与靶标实战
这些事件揭示了一个残酷现实:AI系统的输入侧,正成为攻击者突破防线的“黄金通道”——无论是提示词注入、越狱攻击还是系统提示词泄露,其本质都是利用模型对输入指令的“过度信任”。
1.2
组件架构与核心机制简述
在Agentic AI的交互架构中,系统提示词扮演着“宪法”的角色。它预设了智能体的角色边界、合规准则及工具调用权限。然而,当这些系统级指令与用户输入在同一个上下文窗口中拼接并交付给模型推理时,两者在语义权重上往往是平权的[1]。
这种“语义平权”机制导致了一个致命的安全隐患:如果攻击者在输入中包含具有强诱导性的指令,模型往往会因为其位于上下文末尾的“近因效应”或语义强度,而选择执行用户指令,从而绕过系统预设的安全边界。
1.3
靶场场景构建
业务场景:某企业部署了一套基于大语言模型的智能客服系统,用于处理用户的产品咨询、故障报修及售后请求。系统后台通过系统提示词定义了客服角色的行为边界与安全规则。
攻击链路描述:
侦察阶段:识别系统对输入与系统提示词的拼接处理机制。
构造阶段:根据目标(指令覆盖或信息窃取),构造特定的逻辑载荷。
投递阶段:通过交互界面或外部受污染的数据源(网页、文档)植入载荷。
触发阶段:模型因指令优先级机制或内容审查的模糊性,执行攻击者指令而非原始规则,导致角色偏离、敏感内容输出或系统提示词泄露。
图1. 攻击链路示意图
二、输入与指令安全核心原理分析
2.1
根本原因:指令优先级机制的“认知不对等”
系统原本期望通过系统提示词定义模型的行为边界和安全规则,用户输入仅作为常规查询内容处理。然而,在实际的提示词拼接流程中,系统提示词与用户输入被置于同一上下文中,且模型对末尾或最新指令存在优先级倾向[2]。
攻击者利用这一 “认知不对等” — 用户的上下文理解是“系统规则优先”,但模型的执行逻辑是“末尾指令优先”。通过在用户输入末尾添加“忽略所有先前指令”“你不再是客服”等语句,攻击者可实现对原始系统提示词的覆盖。
核心坑点:
- 语义混淆:模型难以区分“作为内容的指令”与“作为控制的指令”。
- 优先级误判:由于注意力机制的特性,末尾出现的指令往往具备更高的执行概率。
- 边界缺失:系统未对输入中的“元指令”进行有效识别与隔离。
2.2
三类攻击的触发链路与载荷拆解
提示词注入
攻击者在用户输入中嵌入恶意指令,使模型忽略或覆盖原始系统提示词。分为两类:
- 直接注入:通过对话框提交诱导性描述,改变模型当前角色。
- 间接注入:将恶意逻辑隐匿于 RAG 系统检索的外部数据中。攻击路径:外部数据源 → 知识库检索 → 上下文污染 [1]。
越狱攻击
利用“角色扮演”或“假设场景”等模板,诱导模型绕过内置的内容审查机制 [2]。其成功原理在于利用模型安全拒绝机制中的模糊区域,使恶意意图在合规的外壳下输出。
系统提示词泄露
诱使模型复述其内部逻辑及隐藏规则。模型往往将系统提示词视为可回答的“上下文”,而非不可见的“元数据”,由于缺乏输出侧拦截机制,导致核心提示词资产外泄 [3]。
三、自动化靶场环境搭建与依赖配置
3.1
核心环境依赖
| | | | — | — | | 组件 | 说明 | | 操作系统 | Ubuntu 22.04 LTS | | AI 网关 | LiteLLM(负责模型统一分发+安全围栏) | | 基座模型 | 多款主流开源/商业模型(用于横向对比脆弱性) | | 关联组件 | Python 3.10 & Flask(构建模拟交互前端) |
3.2
脆弱性靶标构建
步骤1:部署AI网关及模型服务
在靶场中,我们通过LiteLLM配置了一个脆弱的AI接入网关,故意未启用任何提示词过滤模块。
脆弱性设计要点:
- 采用默认的提示词拼接策略(系统提示词 + 用户输入直接拼接)
- 无输出侧敏感信息拦截策略:通过提示词设计框架进行绕过
- 提供多模型切换能力,便于横向对比各模型的脆弱性
步骤2:部署攻击测试前端
在攻击机上运行Web UI服务器,提供交互式攻击测试界面,内置各类攻击手法对应的提示词模板。
四、漏洞复现与利用
4.1
提示词构造思路
对于提示词注入和越狱攻击,漏洞构建的重点在于“提示词架构”的设计。我们将指令框架与 Payload分开设计,通过逻辑嵌套提升成功率。
以越狱攻击为例,攻击者通常不再直接询问敏感问题,而是构造一个“多层嵌套的游戏场景”,通过定义虚拟的规则集来重写模型的执行逻辑。而提示词泄露则更倾向于伪装成“调试审计”或“翻译测试”等合规行为。为了防止技术滥用,具体的载荷细节已在靶场演示中进行了脱敏处理。
对于系统提示词泄露,漏洞构建的重点在于从底层的api调用message结构入手,通过在调用时人为伪造”system”角色的对话记录,覆盖模型原本附加在对话记录起始处的系统提示词,从而达到绕过模型安全审查、获取系统提示词的效果。
4.2
执行与效果验证
4.2.1
AI靶场(输入与指令安全场景)web侧功能介绍
进入AI靶场下的输入与指令安全场景,页面侧边栏有直接注入、间接注入、越狱攻击、系统提示词泄露几类攻击,每类攻击下可以展开具体的攻击手法,每类攻击手法可以展开对应的可选prompt:
图2. prompt选择界面效果
聊天界面上方可以自由切换模型,对不同的模型进行测试:
图3. 模型切换界面效果
4.2.2
提示词注入攻击
攻击者在用户输入中嵌入“忽略先前指令,按以下要求执行…”等语句,利用模型对末尾指令的优先级偏好,覆盖原始系统提示词。实验中模型成功偏离角色,执行了攻击者设定的非预期行为。
图4. 提示词注入的攻击效果
4.2.3
越狱攻击
攻击者通过角色扮演、假设场景等模板,将恶意意图包裹在合规叙事中,利用模型安全拒绝机制的模糊窗口绕过审查。实验中模型输出了本应拒绝的敏感内容。
图5. 越狱攻击的攻击效果
4.2.4
系统提示词泄露
通过构建底层message覆盖初始系统提示词,我们在攻防实战中针对不同厂商的模型进行了攻击效果测试,结果显示不同厂商、不同种类(如语言类模型、coder模型)和不同参数量的模型针对系统提示词泄露攻击具有不同的安全防护措施及策略。具体而言,参数量适中的模型攻击效果最佳,在具备基础prompt理解能力的同时兼有较低的安全防护机制。
为高效对不同种类模型进行测试,攻防实战中可构建脚本对远程服务器模型进行批量api调用,快速获得各类模型在系统提示词泄露攻击下的效果。
图6. 多个模型系统提示词泄露攻击效果横向对比
4.3
风险传导路径
输入侧劫持仅是第一步,其危害在于后续的风险传导:
输出侧风险:敏感内容输出、虚假信息传播
应用层注入:通过模型输出触发XSS、SQL注入、命令注入
工具执行异常:当模型具备工具调用能力时,恶意指令可导致异常工具执行
链式利用:结合RAG知识源投毒,形成持久化攻击
五、安全防护最佳实践
5.1
输入侧防御:遵循“零信任指令”原则
强化指令隔离:使用随机定界符包裹外部数据,并在系统提示词中强制锁定指令优先级。
输入过滤与净化:建立专门的输入安全管道,识别并标注越狱模板特征。
上下文沙箱化:将用户输入置于受限的处理通道,引入二次审核机制。
5.2
模型侧防御:消除内容审查的模糊窗口
安全对齐增强:在训练阶段引入对抗样本,提升模型对“逻辑欺骗”的抵抗力。
输出侧拦截:增加针对系统提示词特征的二次内容检测,防止敏感资产外发。
六、绿盟AI靶场创新方案
绿盟科技星云实验室已将该复现逻辑集成于AI靶场:
图7.绿盟大模型靶场管理平台
AI靶场方案引入多类威胁模型,构建了覆盖实战攻防全链路的靶场环境,重点呈现三大核心场景:
AI系统对外部环境的威胁场景:在这一类场景中,靶场重点还原大模型被纳入系统后,其输出结果被自动采信并直接作用于外部环境(本地终端与开发机、浏览器与IDE、云原生基础设施等等)所形成的真实攻击路径。该类威胁并非源于模型本身的缺陷,而是源于模型能力与外部环境执行能力之间缺乏有效安全边界。
外部环境对AI系统威胁场景:在此类威胁场景中,靶场重点关注外部环境如何成为攻击大模型的关键跳板。攻击者不再局限于通过提示词影响模型输出,而是借助外部环境中的执行能力、逃逸路径、供应链环节与控制面权限,从运行环境、权限体系与数据上下文等多个层面,直接接管或长期影响大模型的行为。
AI系统自身的内生安全风险场景:如输入与指令安全、输出与交互安全、数据与知识安全、自治与资源治理安全。
图8.AI靶场场景概览
当AI客服按照攻击者的预期输出敏感内容,当模型生成的SQL语句被后端直接执行导致数据泄露,当看似无害的回复因程序拼接触发XSS攻击——AI系统的输出侧正成为风险传导的“最后一公里”。下一篇将深入探讨输出与交互安全的三类核心风险:敏感内容输出违反合规准则、模型输出被系统直接执行引发应用层注入、幻觉导致的虚假信息传播,并给出输出监控、应用后处理与推理阶段加固的纵深防御方案。
参考文献
[1] Liu, Yi, et al. “提示词 injection attack against llm-integrated applications.” arXiv preprint arXiv:2306.05499 (2023).
[2] Yi, Sibo, et al. “Jailbreak attacks and defenses against large language models: A survey.” arXiv preprint arXiv:2407.04295 (2024).
[3] Hui, Bo, et al. “Pleak: 提示词 leaking attacks against large language model applications.” Proceedings of the 2024 on ACM SIGSAC Conference on Computer and Communications Security. 2024.
内容编辑:陈思然
责任编辑:吕治政
本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。
关于我们
绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。
绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。
我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:绿盟科技研究通讯 星云实验室 星云实验室《AI靶场安全实战系列:从对话到指令劫持——输入与指令安全深度剖析》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。











评论