文章总结: 本文详细解析了Anthropic构建Claude网络安全数据集的四类方法:公开漏洞数据库(NVD/CNVD)、高质量安全问答、指令数据集(含模板设计与难度分级)及核心的CAI宪法AI合成数据框架。重点阐述了CAI通过红队问题生成、AI批判修订和RLAIF强化学习实现安全对齐,并分析了中文场景下CNVD/CNNVD数据源特点与混合比例策略。最后强调数据质量维护需关注许可授权、敏感信息脱敏、双用途边界控制及版本化门禁机制。 综合评分: 87 文章分类: AI安全,安全建设,技术标准,数据安全,安全开发
Anthropic是如何构建网络安全数据集的(续)
原创
t0data铁马 t0data铁马
AI安全圈
2026年4月21日 18:49 江苏
在小说阅读器读本章
去阅读
作者按:在前一篇文章中,我们对安全数据集构建开了一个头,在这篇文章里,我们一次性地把Claude安全能力涉及的数据集构建全部说明白,但都是基于经验和公开资料做推断,不一定正确,因为资料实在有限。
书接上文,我们说到了指令数据集。点击查看。
指令数据的核心是模板设计,一个好的指令模板包含三个要素:
- instruction(指令):清晰描述任务,让模型知道要做什么
- input(输入):提供上下文,如待审计的代码、待分析的日志
- output(输出):高质量的期望回答,这是模型学习的目标
数据集中,包含的指令难度分级也很重要
从使用效果来看,Claude Opus 4.6 的训练数据覆盖了从基础到高级的不同难度,这些不同难度的数据,让模型能够根据问题的复杂程度,动态调整回答的深度。
第四类:CAI风格合成数据
这是Anthropic的核心数据构建方法。
在2022年底,Anthropic 发表了一篇改变行业格局的论文:《Constitutional AI: Harmlessness from AI Feedback》(arxiv.org/abs/2212.08073[1])。
论文的核心是:首次系统提出宪法 AI + RLAIF框架,证明 AI 可在极少人工干预下,通过自我监督实现安全对齐。
这就是CAI风格合成数据。
这种方法解决了安全领域数据标注的最大痛点,普通标注员根本没有能力判断漏洞分析的准确程度,或者说是技术分析还是在助纣为虑。但,如果让模型自己根据宪法原则来判断,准确率反而更高。
到 Claude Opus 4.6 时代,Anthropic公开了大幅扩展的宪法原则,从 2023 年版本的约 2700 词扩展到超过 23000 词(共 84 页),它使得Claude Opus 4.6 的有害请求误拒率降至0.07%,相较早期版本有显著改善。
CAI原始论文中包含两个完整阶段:
阶段一:监督学习阶段—— 红队问题 → 批判 → 修订 → SFT
先对红队问题不加任何安全限制地生成原始回答,再将原始回答连同一条宪法原则一起输入模型,由模型指出哪里越界、哪里过于保守、哪里技术不准确。最后,模型根据批判意见改写回答,得到修订版,将修订版作为SFT监督数据微调模型。
阶段二:强化学习阶段—— 偏好打分 → 奖励模型 → RL 训练
先从微调模型采样多组回答,接着用AI模型评判哪组更优,用AI偏好训练偏好模型。最后,用偏好模型做奖励信号,做RLAIF(来自 AI 反馈的强化学习)。
这样的方式,无需大规模人工标注,效率极高。
数据源选择
说完了数据集构建的4种方式,下面我们再来聊聊数据源选择,这里我们重点说中文安全大模型的数据。
除了前文说的NVD和 MITRE ATT&CK,这两个美国机构运营的国际数据库之外,中文安全场景的模型还有两个国内权威数据库不能忽视。
CNVD国家信息安全漏洞共享平台 ,由国家计算机网络应急技术处理协调中心(CNCERT)运营,网址 https://www.cnvd.org.cn。CNVD 有几个 NVD 覆盖不到的地方:
- 国产软件漏洞:华为、中兴、深信服、安天、绿盟等国产厂商的漏洞,NVD 收录往往滞后数周甚至不收录,但 CNVD 会优先发布。
- 工控系统漏洞:国内工业控制系统(SCADA、DCS)的漏洞,CNVD 有专项分类,NVD 收录较少。
- 中文上下文:CNVD 的漏洞描述是中文,直接作为中文安全数据天然契合,无需翻译。
CNNVD中国国家信息安全漏洞库,由工业和信息化部电子科学技术情报研究所运营,网址 https://www.cnnvd.org.cn。
如果用CNNVD 与 CVE 的编号做映射,技术描述比 CNVD 通常更详细,是非常适合的补充数据来源,如下表所示。
| 维度 | NVD(美国) | CNVD(中国) | | — | — | — | | 运营方 | NIST(美国国家标准与技术研究院) | CNCERT(国家互联网应急中心) | | 数据接口 | 官方 REST API(免费,需申请API Key限流调用),同时提供JSON全量离线包 | 无面向公众开放的通用REST API;仅提供XML周报/月报静态文件下载;仅对合作单位开放内部专属接口 | | 国产软件覆盖 | 弱(欧美软件优先,国产漏洞普遍收录延迟、大量缺失) | 强(本土国产软件漏洞优先审核、第一时间收录发布) | | 2024年新增收录 | 约4.03万 (全量同步全球新增CVE) | 约1.88万 ,部分条目与全球CVE漏洞重叠 | | 2025年新增收录 | 约4.43万 (历史峰值,同比+10%) | 约2.17万 ,同比+15.3%,含独有国产无编号漏洞 | | 数据格式 | 原生JSON结构化数据,接口/离线包均为JSON,机器易处理 | 网页前端展示 + XML静态数据包,无公开结构化接口,需自行爬虫抓取、XML解析 |
CNVD 目前没有开放 REST API,但提供每周更新的 XML 格式数据包,可以从官方页面下载。下载后,得到的数据包括:
- 每条漏洞的核心字段:
<CNVDID>(如 CNVD-2025-XXXXX)、<Title>(中文标题)、<ServerType>(影响系统类型)、<Severity>(高危/中危/低危)、<Description>(中文详细描述) - CNVD 的严重程度分级:高危(7 分以上)、中危(4-6.9 分)、低危(4 分以下),与 CVSS 评分逻辑一致但分界值略有差异
基于此类数据构建做数据集时,可以按照不同比例混合多方数据源,比如:
- 以英文技术内容为主的场景(国际化产品):NVD 70% + CNVD 30%
- 以中文安全场景为主的场景(国内甲方安全团队工具):NVD 50% + CNVD 50%
- 覆盖专项安全场景,比如工控安全:CNVD 比例进一步提升到 60%,甚至可以专门增采 CNVD 的工控漏洞分类数据
数据集质量维护
数据集构建除了爬数据 + 转格式之外,还有一个非常重要的事项就是数据质量维护。
原因很简单,安全数据天然具有高噪声、强时效、双用途3个特征。数据质量不行,训练出来的模型也是不可靠的。
围绕数据集的质量,下面的4个方面需要重点关注:
1)数据的许可与授权
数据公开可见 ≠ 数据可用于再训练,这一点想必很多人都懂。
尤其是安全厂商威胁报告、付费数据库、培训课件往往受版权约束;GitHub 仓库源码存在不同许可证(MIT/Apache-2.0/GPL/自定义条款);甚至,某些漏洞 PoC 仓库也带有“仅研究用途”的限制说明。
2)是否包含个人隐私与敏感信息
前者主要是PII数据,后者主要是Secret数据。
训练数据中最容易混入敏感信息:真实 IP、邮箱、域名、token、云 AK/SK、VPN 配置、客户名、内部资产编号等。
如果这些数据被带入训练集,后果通常比普通领域更严重。
比较好的做法是把“敏感信息识别与脱敏”作为硬门槛,至少做三类数据的处理:
- Secrets识别:API key、私钥、密码、JWT、cookie、配置连接串等
- PII 脱敏:邮箱、手机号、身份证号、家庭住址等
- 资产脱敏:真实域名/IP/路径/工单号等
3)用途的边界
我们都知道,攻防是一体的。
你希望模型更懂安全原理,但又不希望它成为自动化攻击工具,这必须要在数据层面做切分与约束。比如:
- 训练数据集:聚焦防御、检测、响应、修复、风险评估,避免攻击脚本与完整利用链
- 红队专用数据集:如果你确实要训练渗透测试能力,应该与通用大模型隔离,像claude mythos一样,仅少量的授权场景可以使用
- 评估数据集:必须包含哪些是“合理的安全研究”,哪些是“明显攻击意图题”,用于测量误拒率与越界率,否则,光做知识问答能力是不够的。
4)数据版本化与可追溯
高质量数据集的价值在于持续更新,如果要做到持续更新,意味着必须可追溯、可回滚。所以,为数据集维护一个数据集版本说明(如 security_dataset_v1.2)是一个不错的做法。
版本说明的核心价值是让团队知道这个版本到底是什么、怎么来的、哪里有风险。
比如:
Dataset Card: security_dataset_vX.Y
- 基本信息:版本号、构建日期、负责人、用途
- 数据来源与规模:各来源条数、去重后总量
- 处理流程:清洗、去重、脱敏、泄漏检查
- 分布信息:类别配比、难度配比、语言配比
- 合规与安全:许可证策略、双用途策略、已知限制
- 评估基线:评估集构造方式、核心指标、与上版对比
- 变更记录:新增数据、删除数据、规则变动
如果没有这个数据集版本说明,很多问题最后只能靠记忆和猜测。也帮助我们,在出错时做排查,到底是程序代码问题还是数据集问题。
甚至说,可以给数据设置一个门禁,比如:
- 来源可靠(能追到 source 与时间)
- 许可与授权已处理(高风险来源已处理)
- PII/Secrets已脱敏(有抽检记录)
- 双用途边界已检查(高风险样本占比可控)
- 泄漏检查完成(训练/评估无高相似穿越)
- 分布达标(类别与难度符合目标任务)
- 小样本专家抽审完成(每类至少一批)
- 训练脚本联调通过(字段齐全、格式兼容)
- 版本文档齐全(Dataset Card + 变更记录 + 回滚方案)
有了这个数据集门禁,可以把问题挡在训练前,防止因数据问题导致训练到一半、或者上线后再返工,诸如此类的问题发生。
👉 加入AI安全圈,前沿资料尽享
👉 订阅AI安全圈知识星球日报,获取每日推送
参考资料
[1]
arxiv.org/abs/2212.08073: https://arxiv.org/abs/2212.08073
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:AI安全圈 t0data铁马 t0data铁马《Anthropic是如何构建网络安全数据集的(续)》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论