文章总结: 本文提出一种基于GoogleSAIF框架的AI应用威胁建模方法,结合PASTA业务影响分析和CIA安全模型,系统识别AI系统核心风险。方法涵盖数据投毒、模型窃取、提示注入等14类高风险场景,并引入OWASPAIVSS评分体系进行威胁评估,为安全团队提供投产前风险验证的结构化框架。 综合评分: 87 文章分类: AI安全,安全建设,威胁情报,解决方案,漏洞分析
识别AI威胁
幻泉之洲
2026年5月4日 14:40 北京
在小说阅读器读本章
去阅读
本文介绍一种面向即将投产的AI应用的高层威胁建模方法,该方法以Google SAIF框架为基础,结合PASTA和CIA模型,旨在帮助安全团队识别、评估和优先处理AI系统的核心安全风险。
我们要解决什么问题
当AI应用临近投产时,安全团队需要一种方法来系统性地识别和评估威胁。这种威胁建模应该像上线前的渗透测试一样,能在测试或预发环境中得到验证。本文提供的方法就把重点放在了这个阶段。
方法论核心:风险驱动,威胁导向
我们的威胁模型围绕Google安全AI框架(SAIF)的组件构建。这确保了我们对风险的评估是全面的,既包括直接暴露给威胁的组件,也包括那些存在已知或潜在弱点(CWE)的脆弱组件。
搞清楚架构中哪些组件面临特定威胁,能让安全团队优先评估它们。初期测试可以做配置验证和漏洞扫描,后期的评估则可以引入对抗性攻击模拟。
为了支撑对抗性的威胁分析,我们整合了多种AI专属的威胁分类,例如:
- OWASP大语言模型十大风险
- OWASP AI Exchange
- MITRE ATLAS的战术和技术
随着测试技术发展,威胁分类自然会变得更精细。拿提示注入(PIJ)来说,像Pangea这样的机构正在开发更细粒度的分类,来区分直接注入和间接注入等不同攻击手法,这有助于我们设计更精准的测试策略。
简单说,这个指南就是通过建立结构化的攻击者建模、纳入AI专属威胁分类,以及模拟攻击路径,提供一个全面的威胁驱动测试方法。
从业务影响分析(BIA)开始
借鉴PASTA方法,我们的第一步是让安全分析和业务目标对齐,从风险角度判断业务影响。这意味着威胁建模工作要扎根于真实的业务后果和组织的优先级。
SAIF框架列出了横跨AI生命周期的一系列技术和系统风险。为了评估哪些风险带来的业务影响最高,我们需要看它们对组织关键维度(比如财务损失、品牌声誉、合规、运营连续性、客户信任)的潜在影响。
下表汇总了SAIF列出的AI风险及其业务影响:
表1.1 AI风险与业务影响(基于SAIF)
| 风险 | 描述 | 业务影响 | 风险等级 | 风险责任人 | | — | — | — | — | — | | 数据投毒 | 攻击者注入恶意数据以影响模型行为或降低性能。 | 模型不稳定、输出错误、性能下降、潜在合规违规。 | 🔴 严重 | 模型创建者 | | 未经授权的训练数据 | 训练中使用未经批准或低完整性数据集,引入偏见或后门。 | 模型偏见、预测不可靠、法律/监管风险。 | 🔴 严重 | 模型创建者 | | 模型来源篡改 | 模型文件在存储、检索或版本管理期间被修改。 | 模型行为被破坏、数据泄露、供应链被攻破。 | 🔴 严重 | 模型创建者 | | 过度数据处理 | 处理过程中无意暴露过多或不必要的数据。 | 违反数据最小化原则、潜在隐私泄露。 | 🟠 高 | 模型创建者 | | 模型窃取 | 模型权重、架构或嵌入向量被盗。 | 知识产权损失、模型被滥用、攻击者获利。 | 🔴 严重 | 模型创建者 | | 模型部署篡改 | 攻击者在部署期间操纵模型配置或路由。 | 模型行为异常、敏感查询被错误路由。 | 🔴 严重 | 模型创建者 | | 机器学习服务拒绝 | 过载模型层以降低或拒绝服务。 | 服务中断、用户体验下降、潜在SLA违约。 | 🟠 高 | 模型使用者 | | 模型逆向工程 | 通过过多查询或探测来提取模型逻辑。 | IP损失、间接数据泄露、未授权的复制。 | 🟠 高 | 模型使用者 | | 不安全的集成组件 | 具有安全缺陷的插件/工具影响了模型行为。 | 攻击面扩大、插件被滥用、未授权访问。 | 🟠 高 | 模型使用者 | | 提示注入 | 通过嵌入指令操纵提示词以改变模型行为。 | 数据泄露、控制旁路、内容幻觉、合规风险。 | 🔴 严重 | 创建者和使用者 | | 模型规避 | 精心设计的输入绕过模型检测或控制。 | 分类或检测逻辑被规避。 | 🟠 高 | 创建者和使用者 | | 敏感数据泄露 | 输出可能无意中暴露个人数据或训练数据。 | 合规违规、声誉受损。 | 🔴 严重 | 创建者和使用者 | | 推断敏感数据 | 攻击者通过重复查询推演私有数据。 | 私有或受监管信息的隐秘泄露。 | 🟠 高 | 创建者和使用者 | | 不安全的模型输出 | 模型输出可能包含不安全、有害或违反政策的内容。 | 用户受伤害、品牌信任受损、法律风险。 | 🟠 高 | 模型使用者 | | 恶意操作 | 由模型触发的插件/工具执行了不安全或非预期的操作。 | 非预期行为、数据窃取、权限提升。 | 🔴 严重 | 模型使用者 |
关于AI风险评分的说明:这里需要区分两种风险。一种是实现特定AI类型(如RAG、精调的LLM或多智能体系统)的固有风险;另一种是攻击这些系统的集成、部署和保护方式产生的风险。像提示注入、不安全的RAG链、API密钥泄露这类问题,根源往往不在模型架构本身,而在于外围的应用逻辑和系统设计。这个区别也解释了为什么数据投毒在当下已部署的ML系统中虽然少见,但风险评分仍然很高(高可能性、高影响)。考虑到它对模型行为的长期影响以及检测和恢复的难度,它确实严重。反之,通过多轮提示词导致敏感数据泄露虽然更常见,但在某些环境中,由于存在部分缓解措施(如输出过滤、上下文限制)或系统性影响较低,可能被评分为中等。
为了更可靠地评估这些AI专属威胁(尤其是与已知漏洞相关的威胁)的可能性和影响,需要一个结构化的风险评分方法。OWASP AI漏洞评分系统(AIVSS)提供了一个很有前景的基础。它包含可利用性、可预测性、影响严重性和缓解覆盖范围等因素,专门用于评估AI系统的威胁。
通过分析业务影响,威胁模型就能聚焦于最关键的AI风险,让控制测试和组织优先级保持一致。组织是AI模型的使用者、创建者,还是二者兼有,这决定了谁对风险缓解负责。每个组织都有独特的AI风险画像,这取决于具体用例、功能依赖关系以及被暴露数据的敏感性。
基于CIA(机密性、完整性、可用性)的威胁分析
进入威胁分析阶段,我们需要围绕划定的SAIF组件,进行高层级的威胁分析,重点关注对核心资产的机密性、完整性和可能的影响。
机密性威胁
机密性违规指的是对敏感数据、模型或通信的未经授权访问或泄露。我们识别的威胁向量包括:
- 中间人攻击:针对AI组件间的不安全通信(如RAG管道中的检索器和生成器之间,或模型API端点与用户界面之间)。
- 数据窃听:未经授权捕获传输或存储中的用户输入、模型输出或外部检索源。
- 敏感或私有模型泄露:通过逆向工程或监控模型行为来推断敏感训练数据或知识产权。
完整性威胁
完整性威胁关注对数据或指令的未经授权修改或注入,这些会影响系统行为的正确性和可信度。具体包括:
- 数据注入或重放攻击:攻击者可能注入被操纵的输入或重放有效请求,以影响模型行为或“训练”出恶意输出。
- 欺骗和API冒充:攻击者可能冒充可信服务来欺骗系统或提供虚假输入。
- 对抗性输入注入:精心设计输入以导致模型输出意外改变。
可用性威胁
可用性风险威胁导致AI服务或组件的性能下降、中断或拒绝访问。威胁向量包括:
- 资源耗尽攻击:用高并发查询使推理端点或向量搜索API过载,造成拒绝服务。
- 外部依赖故障:云端组件(如外部向量数据库或模型API)宕机,导致管道连锁故障。
- 延迟攻击:使用类似Slowloris(慢速HTTP请求)的技术,针对模型服务基础设施的响应能力,降低系统可用性。
将威胁划分为CIA类别,其实在AI安全领域已有成功先例。OWASP AI Exchange的AI安全矩阵就是将AI风险映射到CIA类别。这个例子证明了CIA作为识别和沟通新兴AI系统威胁的起点的实用性和可迁移性。
将CIA威胁映射到AI架构层次与组件
下面表格按SAIF层次(应用、模型、基础设施、数据),将CIA威胁映射到AI系统组件。这种分层的视图能帮助我们结构化地评估AI生命周期中的安全风险,支撑我们按照架构边界来优先考虑缓解措施。
以下是几个关键层的威胁映射摘要:
表1.2 SAIF应用层 – CIA威胁映射
| SAIF组件 | 映射的CIA威胁 | | — | — | | #1 – 用户 | 机密性:用户输入泄露;完整性:用户身份被欺骗;可用性:用户被锁定或无法提交输入 | | #2 – 用户输入 | 机密性:敏感查询;完整性:输入注入或篡改;可用性:用户输入被阻断或限流 | | #3 – 用户输出 | 机密性:输出泄露;完整性:输出篡改;可用性:用户输出被阻断或限流 | | #4 – 应用 | 机密性:应用内存或逻辑泄露;完整性:业务逻辑被篡改;可用性:应用崩溃或遭受DoS | | #5 – 智能体/插件 | 机密性:未授权访问插件数据或逻辑;完整性:插件行为被欺骗或操纵;可用性:插件故障或不可用 | | #6 – 外部数据源 | 机密性:外部数据被截获;完整性:第三方内容被投毒或伪造;可用性:外部服务中断或被限流 |
表1.3 SAIF模型层 – CIA威胁映射
| SAIF组件 | 映射的CIA威胁 | | — | — | | #7 – 输入处理 | 机密性:输入预处理逻辑暴露;完整性:输入验证被绕过;可用性:预处理瓶颈或DoS | | #8 – 输出处理 | 机密性:模型响应泄露;完整性:输出被篡改或过滤器被绕过;可用性:响应延迟或被阻断 | | #9 – 模型使用 | 机密性:推理结果暴露;完整性:模型策略被规避;可用性:推理失败或过载 |
表1.4 SAIF基础设施层 – CIA威胁映射
[表格结构示例] SAIF组件:#10 – 模型存储基础设施 映射威胁:机密性:模型权重或元数据被盗;完整性:模型文件被篡改;可用性:存储库不可访问 [其他组件略…]
虽然将威胁映射到CIA三元组有助于理解SAIF组件面临的机密性、完整性和可用性风险,但我们必须认识到,对于AI系统,韧性同样至关重要。
为了超越CIA,我们引入了DIE三元组作为补充视角。DIE强调架构的鲁棒性和操作上的可生存性,这对动态、大规模且持续演进的AI系统至关重要。将CIA和DIE结合起来,有助于确保AI组件不仅是安全的,更是具备韧性的设计。
下一步:从基础走向全面
CIA三元组虽然是识别安全威胁的基础,但仅靠它已经不足以覆盖现代AI系统的全部风险图景。AI引入了独特的攻击面、信任边界和系统行为,这要求我们在威胁建模上采用更扩展的方法。
因此,接下来我们将进行一个两部分的深入分析:
- AI专属安全威胁:我们将审查OWASP AI Exchange和OWASP GenAI项目发布的威胁类别,对照我们现有的方法论,看看有哪些AI专属安全威胁需要补充进来。
- 可信与负责任的AI考量:我们还将从可信与负责任AI的视角来评估AI系统架构,重点关注那些在AI开发和部署过程中出现的、与伦理、公平性、问责制和治理相关的非安全威胁。
这个组合分析将帮助我们完善威胁覆盖范围,涵盖传统安全风险和更广泛的责任维度。
参考资料
[1] https://github.com/OWASP/www-project-ai-testing-guide/blob/main/Document/content/2.1_Identify_AI_Threats.md
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:幻泉之洲 《识别AI威胁》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。











评论