2026-05-06 06:31:02 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文提出一种基于GoogleSAIF框架的AI应用威胁建模方法，结合PASTA业务影响分析和CIA安全模型，系统识别AI系统核心风险。方法涵盖数据投毒、模型窃取、提示注入等14类高风险场景，并引入OWASPAIVSS评分体系进行威胁评估，为安全团队提供投产前风险验证的结构化框架。 综合评分： 87 文章分类： AI安全,安全建设,威胁情报,解决方案,漏洞分析

cover_image

识别AI威胁

幻泉之洲

2026年5月4日 14:40 北京

在小说阅读器读本章

去阅读

本文介绍一种面向即将投产的AI应用的高层威胁建模方法，该方法以Google SAIF框架为基础，结合PASTA和CIA模型，旨在帮助安全团队识别、评估和优先处理AI系统的核心安全风险。

我们要解决什么问题

当AI应用临近投产时，安全团队需要一种方法来系统性地识别和评估威胁。这种威胁建模应该像上线前的渗透测试一样，能在测试或预发环境中得到验证。本文提供的方法就把重点放在了这个阶段。

方法论核心：风险驱动，威胁导向

我们的威胁模型围绕Google安全AI框架（SAIF）的组件构建。这确保了我们对风险的评估是全面的，既包括直接暴露给威胁的组件，也包括那些存在已知或潜在弱点（CWE）的脆弱组件。

搞清楚架构中哪些组件面临特定威胁，能让安全团队优先评估它们。初期测试可以做配置验证和漏洞扫描，后期的评估则可以引入对抗性攻击模拟。

为了支撑对抗性的威胁分析，我们整合了多种AI专属的威胁分类，例如：

OWASP大语言模型十大风险
OWASP AI Exchange
MITRE ATLAS的战术和技术

随着测试技术发展，威胁分类自然会变得更精细。拿提示注入（PIJ）来说，像Pangea这样的机构正在开发更细粒度的分类，来区分直接注入和间接注入等不同攻击手法，这有助于我们设计更精准的测试策略。

简单说，这个指南就是通过建立结构化的攻击者建模、纳入AI专属威胁分类，以及模拟攻击路径，提供一个全面的威胁驱动测试方法。

从业务影响分析（BIA）开始

借鉴PASTA方法，我们的第一步是让安全分析和业务目标对齐，从风险角度判断业务影响。这意味着威胁建模工作要扎根于真实的业务后果和组织的优先级。

SAIF框架列出了横跨AI生命周期的一系列技术和系统风险。为了评估哪些风险带来的业务影响最高，我们需要看它们对组织关键维度（比如财务损失、品牌声誉、合规、运营连续性、客户信任）的潜在影响。

下表汇总了SAIF列出的AI风险及其业务影响：

表1.1 AI风险与业务影响（基于SAIF）

关于AI风险评分的说明：这里需要区分两种风险。一种是实现特定AI类型（如RAG、精调的LLM或多智能体系统）的固有风险；另一种是攻击这些系统的集成、部署和保护方式产生的风险。像提示注入、不安全的RAG链、API密钥泄露这类问题，根源往往不在模型架构本身，而在于外围的应用逻辑和系统设计。这个区别也解释了为什么数据投毒在当下已部署的ML系统中虽然少见，但风险评分仍然很高（高可能性、高影响）。考虑到它对模型行为的长期影响以及检测和恢复的难度，它确实严重。反之，通过多轮提示词导致敏感数据泄露虽然更常见，但在某些环境中，由于存在部分缓解措施（如输出过滤、上下文限制）或系统性影响较低，可能被评分为中等。

为了更可靠地评估这些AI专属威胁（尤其是与已知漏洞相关的威胁）的可能性和影响，需要一个结构化的风险评分方法。OWASP AI漏洞评分系统(AIVSS)提供了一个很有前景的基础。它包含可利用性、可预测性、影响严重性和缓解覆盖范围等因素，专门用于评估AI系统的威胁。

通过分析业务影响，威胁模型就能聚焦于最关键的AI风险，让控制测试和组织优先级保持一致。组织是AI模型的使用者、创建者，还是二者兼有，这决定了谁对风险缓解负责。每个组织都有独特的AI风险画像，这取决于具体用例、功能依赖关系以及被暴露数据的敏感性。

基于CIA（机密性、完整性、可用性）的威胁分析

进入威胁分析阶段，我们需要围绕划定的SAIF组件，进行高层级的威胁分析，重点关注对核心资产的机密性、完整性和可能的影响。

机密性威胁

机密性违规指的是对敏感数据、模型或通信的未经授权访问或泄露。我们识别的威胁向量包括：

中间人攻击：针对AI组件间的不安全通信（如RAG管道中的检索器和生成器之间，或模型API端点与用户界面之间）。
数据窃听：未经授权捕获传输或存储中的用户输入、模型输出或外部检索源。
敏感或私有模型泄露：通过逆向工程或监控模型行为来推断敏感训练数据或知识产权。

完整性威胁

完整性威胁关注对数据或指令的未经授权修改或注入，这些会影响系统行为的正确性和可信度。具体包括：

数据注入或重放攻击：攻击者可能注入被操纵的输入或重放有效请求，以影响模型行为或“训练”出恶意输出。
欺骗和API冒充：攻击者可能冒充可信服务来欺骗系统或提供虚假输入。
对抗性输入注入：精心设计输入以导致模型输出意外改变。

可用性威胁

可用性风险威胁导致AI服务或组件的性能下降、中断或拒绝访问。威胁向量包括：

资源耗尽攻击：用高并发查询使推理端点或向量搜索API过载，造成拒绝服务。
外部依赖故障：云端组件（如外部向量数据库或模型API）宕机，导致管道连锁故障。
延迟攻击：使用类似Slowloris（慢速HTTP请求）的技术，针对模型服务基础设施的响应能力，降低系统可用性。

将威胁划分为CIA类别，其实在AI安全领域已有成功先例。OWASP AI Exchange的AI安全矩阵就是将AI风险映射到CIA类别。这个例子证明了CIA作为识别和沟通新兴AI系统威胁的起点的实用性和可迁移性。

将CIA威胁映射到AI架构层次与组件

下面表格按SAIF层次（应用、模型、基础设施、数据），将CIA威胁映射到AI系统组件。这种分层的视图能帮助我们结构化地评估AI生命周期中的安全风险，支撑我们按照架构边界来优先考虑缓解措施。

以下是几个关键层的威胁映射摘要：

表1.2 SAIF应用层 – CIA威胁映射

表1.3 SAIF模型层 – CIA威胁映射

表1.4 SAIF基础设施层 – CIA威胁映射

[表格结构示例] SAIF组件：#10 – 模型存储基础设施映射威胁：机密性：模型权重或元数据被盗；完整性：模型文件被篡改；可用性：存储库不可访问 [其他组件略…]

虽然将威胁映射到CIA三元组有助于理解SAIF组件面临的机密性、完整性和可用性风险，但我们必须认识到，对于AI系统，韧性同样至关重要。

为了超越CIA，我们引入了DIE三元组作为补充视角。DIE强调架构的鲁棒性和操作上的可生存性，这对动态、大规模且持续演进的AI系统至关重要。将CIA和DIE结合起来，有助于确保AI组件不仅是安全的，更是具备韧性的设计。

下一步：从基础走向全面

CIA三元组虽然是识别安全威胁的基础，但仅靠它已经不足以覆盖现代AI系统的全部风险图景。AI引入了独特的攻击面、信任边界和系统行为，这要求我们在威胁建模上采用更扩展的方法。

因此，接下来我们将进行一个两部分的深入分析：

AI专属安全威胁：我们将审查OWASP AI Exchange和OWASP GenAI项目发布的威胁类别，对照我们现有的方法论，看看有哪些AI专属安全威胁需要补充进来。
可信与负责任的AI考量：我们还将从可信与负责任AI的视角来评估AI系统架构，重点关注那些在AI开发和部署过程中出现的、与伦理、公平性、问责制和治理相关的非安全威胁。

这个组合分析将帮助我们完善威胁覆盖范围，涵盖传统安全风险和更广泛的责任维度。

参考资料

[1] https://github.com/OWASP/www-project-ai-testing-guide/blob/main/Document/content/2.1_Identify_AI_Threats.md

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：幻泉之洲《识别AI威胁》