Anthropic是如何构建网络安全数据集的(续)

admin 2026-04-22 05:05:37 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文详细解析了Anthropic构建Claude网络安全数据集的四类方法:公开漏洞数据库(NVD/CNVD)、高质量安全问答、指令数据集(含模板设计与难度分级)及核心的CAI宪法AI合成数据框架。重点阐述了CAI通过红队问题生成、AI批判修订和RLAIF强化学习实现安全对齐,并分析了中文场景下CNVD/CNNVD数据源特点与混合比例策略。最后强调数据质量维护需关注许可授权、敏感信息脱敏、双用途边界控制及版本化门禁机制。 综合评分: 87 文章分类: AI安全,安全建设,技术标准,数据安全,安全开发


cover_image

Anthropic是如何构建网络安全数据集的(续)

原创

t0data铁马 t0data铁马

AI安全圈

2026年4月21日 18:49 江苏

在小说阅读器读本章

去阅读

作者按:在前一篇文章中,我们对安全数据集构建开了一个头,在这篇文章里,我们一次性地把Claude安全能力涉及的数据集构建全部说明白,但都是基于经验和公开资料做推断,不一定正确,因为资料实在有限。

书接上文,我们说到了指令数据集。点击查看。

指令数据的核心是模板设计,一个好的指令模板包含三个要素:

  • instruction(指令):清晰描述任务,让模型知道要做什么
  • input(输入):提供上下文,如待审计的代码、待分析的日志
  • output(输出):高质量的期望回答,这是模型学习的目标

数据集中,包含的指令难度分级也很重要

从使用效果来看,Claude Opus 4.6 的训练数据覆盖了从基础到高级的不同难度,这些不同难度的数据,让模型能够根据问题的复杂程度,动态调整回答的深度。

第四类:CAI风格合成数据

这是Anthropic的核心数据构建方法。

在2022年底,Anthropic 发表了一篇改变行业格局的论文:《Constitutional AI: Harmlessness from AI Feedback》(arxiv.org/abs/2212.08073[1])。

论文的核心是:首次系统提出宪法 AI + RLAIF框架,证明 AI 可在极少人工干预下,通过自我监督实现安全对齐

这就是CAI风格合成数据。

这种方法解决了安全领域数据标注的最大痛点,普通标注员根本没有能力判断漏洞分析的准确程度,或者说是技术分析还是在助纣为虑。但,如果让模型自己根据宪法原则来判断,准确率反而更高。

到 Claude Opus 4.6 时代,Anthropic公开了大幅扩展的宪法原则,从 2023 年版本的约 2700 词扩展到超过 23000 词(共 84 页),它使得Claude Opus 4.6 的有害请求误拒率降至0.07%,相较早期版本有显著改善。

CAI原始论文中包含两个完整阶段:

阶段一:监督学习阶段—— 红队问题 → 批判 → 修订 → SFT

先对红队问题不加任何安全限制地生成原始回答,再将原始回答连同一条宪法原则一起输入模型,由模型指出哪里越界、哪里过于保守、哪里技术不准确。最后,模型根据批判意见改写回答,得到修订版,将修订版作为SFT监督数据微调模型。

阶段二:强化学习阶段—— 偏好打分 → 奖励模型 → RL 训练

先从微调模型采样多组回答,接着用AI模型评判哪组更优,用AI偏好训练偏好模型。最后,用偏好模型做奖励信号,做RLAIF(来自 AI 反馈的强化学习)。

这样的方式,无需大规模人工标注,效率极高。

数据源选择

说完了数据集构建的4种方式,下面我们再来聊聊数据源选择,这里我们重点说中文安全大模型的数据。

除了前文说的NVD和 MITRE ATT&CK,这两个美国机构运营的国际数据库之外,中文安全场景的模型还有两个国内权威数据库不能忽视。

CNVD国家信息安全漏洞共享平台 ,由国家计算机网络应急技术处理协调中心(CNCERT)运营,网址 https://www.cnvd.org.cn。CNVD 有几个 NVD 覆盖不到的地方:

  • 国产软件漏洞:华为、中兴、深信服、安天、绿盟等国产厂商的漏洞,NVD 收录往往滞后数周甚至不收录,但 CNVD 会优先发布。
  • 工控系统漏洞:国内工业控制系统(SCADA、DCS)的漏洞,CNVD 有专项分类,NVD 收录较少。
  • 中文上下文:CNVD 的漏洞描述是中文,直接作为中文安全数据天然契合,无需翻译。

CNNVD中国国家信息安全漏洞库,由工业和信息化部电子科学技术情报研究所运营,网址 https://www.cnnvd.org.cn。

如果用CNNVD 与 CVE 的编号做映射,技术描述比 CNVD 通常更详细,是非常适合的补充数据来源,如下表所示。

| 维度 | NVD(美国) | CNVD(中国) | | — | — | — | | 运营方 | NIST(美国国家标准与技术研究院) | CNCERT(国家互联网应急中心) | | 数据接口 | 官方 REST API(免费,需申请API Key限流调用),同时提供JSON全量离线包 | 无面向公众开放的通用REST API;仅提供XML周报/月报静态文件下载;仅对合作单位开放内部专属接口 | | 国产软件覆盖 | 弱(欧美软件优先,国产漏洞普遍收录延迟、大量缺失) | 强(本土国产软件漏洞优先审核、第一时间收录发布) | | 2024年新增收录 | 约4.03万 (全量同步全球新增CVE) | 约1.88万 ,部分条目与全球CVE漏洞重叠 | | 2025年新增收录 | 约4.43万 (历史峰值,同比+10%) | 约2.17万 ,同比+15.3%,含独有国产无编号漏洞 | | 数据格式 | 原生JSON结构化数据,接口/离线包均为JSON,机器易处理 | 网页前端展示 + XML静态数据包,无公开结构化接口,需自行爬虫抓取、XML解析 |

CNVD 目前没有开放 REST API,但提供每周更新的 XML 格式数据包,可以从官方页面下载。下载后,得到的数据包括:

  • 每条漏洞的核心字段:<CNVDID>(如 CNVD-2025-XXXXX)、<Title>(中文标题)、<ServerType>(影响系统类型)、<Severity>(高危/中危/低危)、<Description>(中文详细描述)
  • CNVD 的严重程度分级:高危(7 分以上)、中危(4-6.9 分)、低危(4 分以下),与 CVSS 评分逻辑一致但分界值略有差异

基于此类数据构建做数据集时,可以按照不同比例混合多方数据源,比如:

  • 以英文技术内容为主的场景(国际化产品):NVD 70% + CNVD 30%
  • 以中文安全场景为主的场景(国内甲方安全团队工具):NVD 50% + CNVD 50%
  • 覆盖专项安全场景,比如工控安全:CNVD 比例进一步提升到 60%,甚至可以专门增采 CNVD 的工控漏洞分类数据

数据集质量维护

数据集构建除了爬数据 + 转格式之外,还有一个非常重要的事项就是数据质量维护。

原因很简单,安全数据天然具有高噪声、强时效、双用途3个特征。数据质量不行,训练出来的模型也是不可靠的。

围绕数据集的质量,下面的4个方面需要重点关注:

1)数据的许可与授权

数据公开可见 ≠ 数据可用于再训练,这一点想必很多人都懂。

尤其是安全厂商威胁报告付费数据库培训课件往往受版权约束;GitHub 仓库源码存在不同许可证(MIT/Apache-2.0/GPL/自定义条款);甚至,某些漏洞 PoC 仓库也带有“仅研究用途”的限制说明。

2)是否包含个人隐私与敏感信息

前者主要是PII数据,后者主要是Secret数据。

训练数据中最容易混入敏感信息:真实 IP、邮箱、域名、token、云 AK/SK、VPN 配置、客户名、内部资产编号等。

如果这些数据被带入训练集,后果通常比普通领域更严重。

比较好的做法是把“敏感信息识别与脱敏”作为硬门槛,至少做三类数据的处理:

  • Secrets识别:API key、私钥、密码、JWT、cookie、配置连接串等
  • PII 脱敏:邮箱、手机号、身份证号、家庭住址等
  • 资产脱敏:真实域名/IP/路径/工单号等

3)用途的边界

我们都知道,攻防是一体的。

你希望模型更懂安全原理,但又不希望它成为自动化攻击工具,这必须要在数据层面做切分与约束。比如:

  • 训练数据集:聚焦防御、检测、响应、修复、风险评估,避免攻击脚本与完整利用链
  • 红队专用数据集:如果你确实要训练渗透测试能力,应该与通用大模型隔离,像claude mythos一样,仅少量的授权场景可以使用
  • 评估数据集:必须包含哪些是“合理的安全研究”,哪些是“明显攻击意图题”,用于测量误拒率与越界率,否则,光做知识问答能力是不够的。

4)数据版本化与可追溯

高质量数据集的价值在于持续更新,如果要做到持续更新,意味着必须可追溯、可回滚。所以,为数据集维护一个数据集版本说明(如 security_dataset_v1.2)是一个不错的做法。

版本说明的核心价值是让团队知道这个版本到底是什么、怎么来的、哪里有风险。

比如:

Dataset Card: security_dataset_vX.Y

- 基本信息:版本号、构建日期、负责人、用途
- 数据来源与规模:各来源条数、去重后总量
- 处理流程:清洗、去重、脱敏、泄漏检查
- 分布信息:类别配比、难度配比、语言配比
- 合规与安全:许可证策略、双用途策略、已知限制
- 评估基线:评估集构造方式、核心指标、与上版对比
- 变更记录:新增数据、删除数据、规则变动

如果没有这个数据集版本说明,很多问题最后只能靠记忆和猜测。也帮助我们,在出错时做排查,到底是程序代码问题还是数据集问题。

甚至说,可以给数据设置一个门禁,比如:

  • 来源可靠(能追到 source 与时间)
  • 许可与授权已处理(高风险来源已处理)
  • PII/Secrets已脱敏(有抽检记录)
  • 双用途边界已检查(高风险样本占比可控)
  • 泄漏检查完成(训练/评估无高相似穿越)
  • 分布达标(类别与难度符合目标任务)
  • 小样本专家抽审完成(每类至少一批)
  • 训练脚本联调通过(字段齐全、格式兼容)
  • 版本文档齐全(Dataset Card + 变更记录 + 回滚方案)

有了这个数据集门禁,可以把问题挡在训练前,防止因数据问题导致训练到一半、或者上线后再返工,诸如此类的问题发生。


👉 加入AI安全圈,前沿资料尽享

👉 订阅AI安全圈知识星球日报,获取每日推送

参考资料

[1]

arxiv.org/abs/2212.08073: https://arxiv.org/abs/2212.08073


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:AI安全圈 t0data铁马 t0data铁马《Anthropic是如何构建网络安全数据集的(续)》

评论:0   参与:  0