2026-04-22 05:05:37 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文详细解析了Anthropic构建Claude网络安全数据集的四类方法：公开漏洞数据库（NVD/CNVD）、高质量安全问答、指令数据集（含模板设计与难度分级）及核心的CAI宪法AI合成数据框架。重点阐述了CAI通过红队问题生成、AI批判修订和RLAIF强化学习实现安全对齐，并分析了中文场景下CNVD/CNNVD数据源特点与混合比例策略。最后强调数据质量维护需关注许可授权、敏感信息脱敏、双用途边界控制及版本化门禁机制。 综合评分： 87 文章分类： AI安全,安全建设,技术标准,数据安全,安全开发

cover_image

Anthropic是如何构建网络安全数据集的（续）

原创

t0data铁马 t0data铁马

AI安全圈

2026年4月21日 18:49 江苏

在小说阅读器读本章

去阅读

作者按：在前一篇文章中，我们对安全数据集构建开了一个头，在这篇文章里，我们一次性地把Claude安全能力涉及的数据集构建全部说明白，但都是基于经验和公开资料做推断，不一定正确，因为资料实在有限。

书接上文，我们说到了指令数据集。点击查看。

指令数据的核心是模板设计，一个好的指令模板包含三个要素：

instruction（指令）：清晰描述任务，让模型知道要做什么
input（输入）：提供上下文，如待审计的代码、待分析的日志
output（输出）：高质量的期望回答，这是模型学习的目标

数据集中，包含的指令难度分级也很重要

从使用效果来看，Claude Opus 4.6 的训练数据覆盖了从基础到高级的不同难度，这些不同难度的数据，让模型能够根据问题的复杂程度，动态调整回答的深度。

第四类：CAI风格合成数据

这是Anthropic的核心数据构建方法。

在2022年底，Anthropic 发表了一篇改变行业格局的论文：《Constitutional AI: Harmlessness from AI Feedback》（arxiv.org/abs/2212.08073[1]）。

论文的核心是：首次系统提出宪法 AI + RLAIF框架，证明 AI 可在极少人工干预下，通过自我监督实现安全对齐。

这就是CAI风格合成数据。

这种方法解决了安全领域数据标注的最大痛点，普通标注员根本没有能力判断漏洞分析的准确程度，或者说是技术分析还是在助纣为虑。但，如果让模型自己根据宪法原则来判断，准确率反而更高。

到 Claude Opus 4.6 时代，Anthropic公开了大幅扩展的宪法原则，从 2023 年版本的约 2700 词扩展到超过 23000 词（共 84 页），它使得Claude Opus 4.6 的有害请求误拒率降至0.07%，相较早期版本有显著改善。

CAI原始论文中包含两个完整阶段：

阶段一：监督学习阶段—— 红队问题 → 批判 → 修订 → SFT

先对红队问题不加任何安全限制地生成原始回答，再将原始回答连同一条宪法原则一起输入模型，由模型指出哪里越界、哪里过于保守、哪里技术不准确。最后，模型根据批判意见改写回答，得到修订版，将修订版作为SFT监督数据微调模型。

阶段二：强化学习阶段—— 偏好打分 → 奖励模型 → RL 训练

先从微调模型采样多组回答，接着用AI模型评判哪组更优，用AI偏好训练偏好模型。最后，用偏好模型做奖励信号，做RLAIF（来自 AI 反馈的强化学习）。

这样的方式，无需大规模人工标注，效率极高。

数据源选择

说完了数据集构建的4种方式，下面我们再来聊聊数据源选择，这里我们重点说中文安全大模型的数据。

除了前文说的NVD和 MITRE ATT&CK，这两个美国机构运营的国际数据库之外，中文安全场景的模型还有两个国内权威数据库不能忽视。

CNVD国家信息安全漏洞共享平台 ，由国家计算机网络应急技术处理协调中心（CNCERT）运营，网址 https://www.cnvd.org.cn。CNVD 有几个 NVD 覆盖不到的地方：

国产软件漏洞：华为、中兴、深信服、安天、绿盟等国产厂商的漏洞，NVD 收录往往滞后数周甚至不收录，但 CNVD 会优先发布。
工控系统漏洞：国内工业控制系统（SCADA、DCS）的漏洞，CNVD 有专项分类，NVD 收录较少。
中文上下文：CNVD 的漏洞描述是中文，直接作为中文安全数据天然契合，无需翻译。

CNNVD中国国家信息安全漏洞库，由工业和信息化部电子科学技术情报研究所运营，网址 https://www.cnnvd.org.cn。

如果用CNNVD 与 CVE 的编号做映射，技术描述比 CNVD 通常更详细，是非常适合的补充数据来源，如下表所示。

CNVD 目前没有开放 REST API，但提供每周更新的 XML 格式数据包，可以从官方页面下载。下载后，得到的数据包括：

每条漏洞的核心字段：<CNVDID>（如 CNVD-2025-XXXXX）、<Title>（中文标题）、<ServerType>（影响系统类型）、<Severity>（高危/中危/低危）、<Description>（中文详细描述）
CNVD 的严重程度分级：高危（7 分以上）、中危（4-6.9 分）、低危（4 分以下），与 CVSS 评分逻辑一致但分界值略有差异

基于此类数据构建做数据集时，可以按照不同比例混合多方数据源，比如：

以英文技术内容为主的场景（国际化产品）：NVD 70% + CNVD 30%
以中文安全场景为主的场景（国内甲方安全团队工具）：NVD 50% + CNVD 50%
覆盖专项安全场景，比如工控安全：CNVD 比例进一步提升到 60%，甚至可以专门增采 CNVD 的工控漏洞分类数据

数据集质量维护

数据集构建除了爬数据 + 转格式之外，还有一个非常重要的事项就是数据质量维护。

原因很简单，安全数据天然具有高噪声、强时效、双用途3个特征。数据质量不行，训练出来的模型也是不可靠的。

围绕数据集的质量，下面的4个方面需要重点关注：

1）数据的许可与授权

数据公开可见 ≠ 数据可用于再训练，这一点想必很多人都懂。

尤其是安全厂商威胁报告、付费数据库、培训课件往往受版权约束；GitHub 仓库源码存在不同许可证（MIT/Apache-2.0/GPL/自定义条款）；甚至，某些漏洞 PoC 仓库也带有“仅研究用途”的限制说明。

2）是否包含个人隐私与敏感信息

前者主要是PII数据，后者主要是Secret数据。

训练数据中最容易混入敏感信息：真实 IP、邮箱、域名、token、云 AK/SK、VPN 配置、客户名、内部资产编号等。

如果这些数据被带入训练集，后果通常比普通领域更严重。

比较好的做法是把“敏感信息识别与脱敏”作为硬门槛，至少做三类数据的处理：

Secrets识别：API key、私钥、密码、JWT、cookie、配置连接串等
PII 脱敏：邮箱、手机号、身份证号、家庭住址等
资产脱敏：真实域名/IP/路径/工单号等

3）用途的边界

我们都知道，攻防是一体的。

你希望模型更懂安全原理，但又不希望它成为自动化攻击工具，这必须要在数据层面做切分与约束。比如：

训练数据集：聚焦防御、检测、响应、修复、风险评估，避免攻击脚本与完整利用链
红队专用数据集：如果你确实要训练渗透测试能力，应该与通用大模型隔离，像claude mythos一样，仅少量的授权场景可以使用
评估数据集：必须包含哪些是“合理的安全研究”，哪些是“明显攻击意图题”，用于测量误拒率与越界率，否则，光做知识问答能力是不够的。

4）数据版本化与可追溯

高质量数据集的价值在于持续更新，如果要做到持续更新，意味着必须可追溯、可回滚。所以，为数据集维护一个数据集版本说明（如 security_dataset_v1.2）是一个不错的做法。

版本说明的核心价值是让团队知道这个版本到底是什么、怎么来的、哪里有风险。

比如：

Dataset Card: security_dataset_vX.Y

- 基本信息：版本号、构建日期、负责人、用途
- 数据来源与规模：各来源条数、去重后总量
- 处理流程：清洗、去重、脱敏、泄漏检查
- 分布信息：类别配比、难度配比、语言配比
- 合规与安全：许可证策略、双用途策略、已知限制
- 评估基线：评估集构造方式、核心指标、与上版对比
- 变更记录：新增数据、删除数据、规则变动

如果没有这个数据集版本说明，很多问题最后只能靠记忆和猜测。也帮助我们，在出错时做排查，到底是程序代码问题还是数据集问题。

甚至说，可以给数据设置一个门禁，比如：

来源可靠（能追到 source 与时间）
许可与授权已处理（高风险来源已处理）
PII/Secrets已脱敏（有抽检记录）
双用途边界已检查（高风险样本占比可控）
泄漏检查完成（训练/评估无高相似穿越）
分布达标（类别与难度符合目标任务）
小样本专家抽审完成（每类至少一批）
训练脚本联调通过（字段齐全、格式兼容）
版本文档齐全（Dataset Card + 变更记录 + 回滚方案）

有了这个数据集门禁，可以把问题挡在训练前，防止因数据问题导致训练到一半、或者上线后再返工，诸如此类的问题发生。

👉 加入AI安全圈，前沿资料尽享

👉 订阅AI安全圈知识星球日报，获取每日推送

参考资料

[1]

arxiv.org/abs/2212.08073: https://arxiv.org/abs/2212.08073

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：AI安全圈 t0data铁马 t0data铁马《Anthropic是如何构建网络安全数据集的（续）》