周六|主理人专栏:Anthropic是如何构建网络安全数据集的

admin 2026-04-25 04:33:15 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文剖析Anthropic构建网络安全数据集的策略,强调数据质量远超数量。文章将安全数据分为结构化公开数据、半结构化内容、对话式指令与CAI合成数据四类,重点阐述了将NVD转化为问答对及从CTF报告中提取样本的实操方法,为安全大模型数据工程提供参考。 综合评分: 79 文章分类: AI安全,数据安全,安全建设,CTF,WEB安全


cover_image

周六 | 主理人专栏:Anthropic是如何构建网络安全数据集的

原创

heyong heyong

AI安全圈

2026年4月11日 22:01 安徽

在小说阅读器读本章

去阅读

作者按:在开始研究大模型技术时,我碰到最多的问题不是大模型“怎么训练” ,而是“训练所需要的数据从哪里搞来” ,因为训练一个大模型,算法可以抄论文,框架可以用开源的,但数据必须是自己搞的,训练安全大模型更是如此。

最近Claude实在是太火了,我想在这篇文章里做一些臆测和推断,结合Anthropic 公开训练 Claude Opus 4.6 的数据策略和资料,和大家一起分析如何去构建数据集。近来写公众号越发没有动力,计划每天更,结果变成隔天更,后面可能变成周更。各位看官且看且珍惜,感觉自己公开写讨论大模型技术细节的帖子越来越懒了。


先从Claude Opus 4.6的训练数据策略说起

2025年,Anthropic 发布了Claude Opus 4.6,这是在Mythos之前业界顶级的安全模型。它的公开资料里有一段话值得反复读:

“ Claude 4 was trained on a proprietary mix of publicly available information (as of March 2025), non-public data from third parties, and opted-in user data”

翻译翻译这段话,就是它用了三类数据:截止 2025年3月的公开互联网数据、第三方授权数据、用户选择性贡献的数据

这话听起来很普通,也没什么技术含金量,但真正的金子往往藏在细节的对比和推理中。

虽然Anthropic 没有公开具体的数据量,但从多处描述和不同版本的模型资料对比分析,可以推断出它的核心策略:数据质量 > > > 数据数量

这里,我连着用了3个大于号,是想显性地强调前者的重要性。

前段时间,国内有一个名词火了一阵子,不知道多少人记住么。叫:高质量数据集。官方资料中显示,Claude Opus 4.6 在 Cybench 网络安全基准上得了 22/39(56.4%),在代码审计任务上的 SWE-bench 得分达到 80.8%,有害请求误拒率只有 0.07%。

上述这些数字背后,对应的是极其严格的高质量的数据工程。

有一个例子说:2024年的时候某团队用大几百万条爬取的” 安全相关” 网页训练模型,效果平平;另一个团队用8万条精心筛选的安全问答对,在专业任务上的表现远超前者。这一结论,也指向Anthropic 在多篇论文中反复验证的结论:10 万条高质量数据,胜过550万条低质量数据

那么,什么叫高质量数据集呢(咱们仅限网安领域来讨论)?

对于安全领域,有四个维度:技术准确性(比如CVE描述是否正确)、防御视角(是否聚焦防御要点而非攻击辅助)、深度(是否有实质性的技术内容,而非新闻摘要)、时效性(是否覆盖最新的漏洞和攻击手法)。

基于这四个维度,我们来看安全训练数据的完整分类。


安全数据集的分类体系

安全训练数据可以分为四大类,他们在获取难度、质量上限和适用场景,都各不相同。理解了这些,是构建高质量数据集的第一步。

第一类:结构化公开数据

这类数据由权威机构维护,技术准确性有保障,格式规整,可以直接通过 API 获取。代表性的来源有 NVD、MITRE ATT&CK、CWE、CAPEC。这类数据,是安全大模型的数据骨干,应该优先采集。

第二类:半结构化安全内容

这类数据有技术深度,质量高,但格式不统一,需要经过数据处理之后,才能用于训练。代表性的来源有 CTF writeups、安全公司发布的漏洞预警报告、GitHub上的漏洞 PoC 代码。其中CTF writeups尤其珍贵,每篇都包含完整的攻击思路、技术原理、代码实现,而且经过了实际验证,是安全数据集里质量最高的内容之一。当然,它的缺点就是不同的作者,写出来的 writeups格式各不相同。

第三类:对话式指令数据

这类数据,是专门为大模型指令微调(SFT)设计的,格式是 instruction/input/output 三元组。它需要人工设计指令模板,然后批量生成或人工标注。这类数据,直接决定了模型” 如何回答” 的风格和质量。

第四类:CAI 风格合成数据

这是 Anthropic 在 Claude 系列训练中特有的数据构建方法,且大量使用的方法,也是最值得我们借鉴的部分。 它的核心思想是:让模型先生成原始回答,再根据” 安全宪法原则” 进行自我批判和修订,用修订后的版本作为训练数据。这个方法一次生成同时产出 SFT 数据和 DPO 偏好对,且不需要大量人工标注。

下面,就依次对这四类数据集的构建展开来分析。


第一类:结构化公开数据集的采集与转换

很多安全研究员第一次尝试构建训练数据集,他回打开 NVD网站,看到几十万条 CVE 记录,很兴奋,一股脑全部下载下来。

但当他把原始JSON数据喂给训练框架时,发现了问题:原始的CVE数据是给人看的,不是给模型训练用的。而大模型训练的数据类似于问题 -答案的键值对。它的格式是数据库记录,不是对话;描述也是英文,不适配中文安全场景。

这些问题,就是结构化数据采集的核心工作:把原始数据库记录转换成高质量的训练问答对

从数据技术上看,NVD的每条 CVE 记录包含:CVE ID、英文描述、CVSS 评分向量、受影响产品(CPE)、参考链接。我们需要从这些字段中提取信息,构造出有意义的 问题-回答键值对。

构建数据集时,其实一条 CVE记录可以生成多种类型的训练样本,比如:

  • 漏洞分析问答( 请分析 CVE-XXXX-XXXX )
  • CVSS 评分解读(解释这个 CVSS 向量的含义 )
  • 修复建议生成( 针对这个漏洞,给出修复建议 )
  • 影响范围评估(哪些系统受到这个漏洞影响)

同理,MITRE ATT&CK 的每条记录包含技术名称、ATT&CK ID、战术分类、详细描述、检测方法、缓解措施,它也可以生成TTP 解释、检测规则设计、红队/蓝队对抗场景等训练样本。

以上,是第一类数据的情况。下面,我们来看第二类的。


第二类:半结构化安全数据集

前文我们说了,CTF比赛的解题报告writeups是安全数据集里含金量最高的内容。一篇好的writeup会完整记录:题目描述是什么、攻击者的思路是怎么形成的、用了哪些工具和代码、最终如何拿到 flag。

这种” 问题→思路→解法” 的完整链条,正是我们训练安全推理能力最需要的数据。

但同样,writeup是给人看的文章,不是结构化数据。有的纯文本,有的用Markdown,有的是HTML,有的还夹杂着大量截图说明。

如何从这些非结构化文本中,自动提取高质量的训练对,是这一节要解决的问题。

从过去的经验以及Claude公开资料推测,处理这类数据的核心思路是模式识别 + 启发式提取

CTF writeup 虽然格式不统一,但有一些共同的结构特征。它们通常以题目描述开头,中间是分析过程,结尾是 flag 或解题结论。我们可以用正则表达式和关键词匹配来定位这些结构,然后提取出题目-解法键值对。当然,现在也可以使用大模型技术来提取。

同样,对于安全报告和漏洞PoC,处理思路类似:识别“漏洞描述”段落、“利用方法” 段落、“修复建议” 段落,分别提取后重新组合成训练样本。


第三类:对话式指令数据集

前两类数据集,解决了“ 知识从哪来” 的问题,但对于大模型这还不够,因为还有一个问题没解决,那就是模型要学会“”如何回答” 提问者。

一个模型,它可能知道SQL注入的原理,但如果没有经过指令微调,它的回答方式可能用非常不友好。比如,直接输出数据库文档,不会给出清晰的、结构化的、符合人类阅读习惯的分析报告。

所以,第三类数据集的存在,就是解决这个问题的。

跑步回来,衣服湿透了,还穿在身上。今天先写到这里,后面的内容,下一篇再补上。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:AI安全圈 heyong heyong《周六 | 主理人专栏:Anthropic是如何构建网络安全数据集的》

评论:0   参与:  0