2026-04-25 04:33:15 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文剖析Anthropic构建网络安全数据集的策略，强调数据质量远超数量。文章将安全数据分为结构化公开数据、半结构化内容、对话式指令与CAI合成数据四类，重点阐述了将NVD转化为问答对及从CTF报告中提取样本的实操方法，为安全大模型数据工程提供参考。 综合评分： 79 文章分类： AI安全,数据安全,安全建设,CTF,WEB安全

cover_image

周六 | 主理人专栏：Anthropic是如何构建网络安全数据集的

原创

heyong heyong

AI安全圈

2026年4月11日 22:01 安徽

在小说阅读器读本章

去阅读

作者按：在开始研究大模型技术时，我碰到最多的问题不是大模型“怎么训练” ，而是“训练所需要的数据从哪里搞来” ，因为训练一个大模型，算法可以抄论文，框架可以用开源的，但数据必须是自己搞的，训练安全大模型更是如此。

最近Claude实在是太火了，我想在这篇文章里做一些臆测和推断，结合Anthropic 公开训练 Claude Opus 4.6 的数据策略和资料，和大家一起分析如何去构建数据集。近来写公众号越发没有动力，计划每天更，结果变成隔天更，后面可能变成周更。各位看官且看且珍惜，感觉自己公开写讨论大模型技术细节的帖子越来越懒了。

先从Claude Opus 4.6的训练数据策略说起

2025年，Anthropic 发布了Claude Opus 4.6，这是在Mythos之前业界顶级的安全模型。它的公开资料里有一段话值得反复读：

“ Claude 4 was trained on a proprietary mix of publicly available information (as of March 2025), non-public data from third parties, and opted-in user data”

翻译翻译这段话，就是它用了三类数据：截止 2025年3月的公开互联网数据、第三方授权数据、用户选择性贡献的数据。

这话听起来很普通，也没什么技术含金量，但真正的金子往往藏在细节的对比和推理中。

虽然Anthropic 没有公开具体的数据量，但从多处描述和不同版本的模型资料对比分析，可以推断出它的核心策略：数据质量 > > > 数据数量。

这里，我连着用了3个大于号，是想显性地强调前者的重要性。

前段时间，国内有一个名词火了一阵子，不知道多少人记住么。叫：高质量数据集。官方资料中显示，Claude Opus 4.6 在 Cybench 网络安全基准上得了 22/39（56.4%），在代码审计任务上的 SWE-bench 得分达到 80.8%，有害请求误拒率只有 0.07%。

上述这些数字背后，对应的是极其严格的高质量的数据工程。

有一个例子说：2024年的时候某团队用大几百万条爬取的” 安全相关” 网页训练模型，效果平平；另一个团队用8万条精心筛选的安全问答对，在专业任务上的表现远超前者。这一结论，也指向Anthropic 在多篇论文中反复验证的结论：10 万条高质量数据，胜过550万条低质量数据。

那么，什么叫高质量数据集呢（咱们仅限网安领域来讨论）？

对于安全领域，有四个维度：技术准确性（比如CVE描述是否正确）、防御视角（是否聚焦防御要点而非攻击辅助）、深度（是否有实质性的技术内容，而非新闻摘要）、时效性（是否覆盖最新的漏洞和攻击手法）。

基于这四个维度，我们来看安全训练数据的完整分类。

安全数据集的分类体系

安全训练数据可以分为四大类，他们在获取难度、质量上限和适用场景，都各不相同。理解了这些，是构建高质量数据集的第一步。

第一类：结构化公开数据

这类数据由权威机构维护，技术准确性有保障，格式规整，可以直接通过 API 获取。代表性的来源有 NVD、MITRE ATT&CK、CWE、CAPEC。这类数据，是安全大模型的数据骨干，应该优先采集。

第二类：半结构化安全内容

这类数据有技术深度，质量高，但格式不统一，需要经过数据处理之后，才能用于训练。代表性的来源有 CTF writeups、安全公司发布的漏洞预警报告、GitHub上的漏洞 PoC 代码。其中CTF writeups尤其珍贵，每篇都包含完整的攻击思路、技术原理、代码实现，而且经过了实际验证，是安全数据集里质量最高的内容之一。当然，它的缺点就是不同的作者，写出来的 writeups格式各不相同。

第三类：对话式指令数据

这类数据，是专门为大模型指令微调（SFT）设计的，格式是 instruction/input/output 三元组。它需要人工设计指令模板，然后批量生成或人工标注。这类数据，直接决定了模型” 如何回答” 的风格和质量。

第四类：CAI 风格合成数据。

这是 Anthropic 在 Claude 系列训练中特有的数据构建方法，且大量使用的方法，也是最值得我们借鉴的部分。它的核心思想是：让模型先生成原始回答，再根据” 安全宪法原则” 进行自我批判和修订，用修订后的版本作为训练数据。这个方法一次生成同时产出 SFT 数据和 DPO 偏好对，且不需要大量人工标注。

下面，就依次对这四类数据集的构建展开来分析。

第一类：结构化公开数据集的采集与转换

很多安全研究员第一次尝试构建训练数据集，他回打开 NVD网站，看到几十万条 CVE 记录，很兴奋，一股脑全部下载下来。

但当他把原始JSON数据喂给训练框架时，发现了问题：原始的CVE数据是给人看的，不是给模型训练用的。而大模型训练的数据类似于问题 -答案的键值对。它的格式是数据库记录，不是对话；描述也是英文，不适配中文安全场景。

这些问题，就是结构化数据采集的核心工作：把原始数据库记录转换成高质量的训练问答对。

从数据技术上看，NVD的每条 CVE 记录包含：CVE ID、英文描述、CVSS 评分向量、受影响产品（CPE）、参考链接。我们需要从这些字段中提取信息，构造出有意义的问题-回答键值对。

构建数据集时，其实一条 CVE记录可以生成多种类型的训练样本，比如：

漏洞分析问答（请分析 CVE-XXXX-XXXX ）
CVSS 评分解读（解释这个 CVSS 向量的含义）
修复建议生成（针对这个漏洞，给出修复建议）
影响范围评估（哪些系统受到这个漏洞影响）

同理，MITRE ATT&CK 的每条记录包含技术名称、ATT&CK ID、战术分类、详细描述、检测方法、缓解措施，它也可以生成TTP 解释、检测规则设计、红队/蓝队对抗场景等训练样本。

以上，是第一类数据的情况。下面，我们来看第二类的。

第二类：半结构化安全数据集

前文我们说了，CTF比赛的解题报告writeups是安全数据集里含金量最高的内容。一篇好的writeup会完整记录：题目描述是什么、攻击者的思路是怎么形成的、用了哪些工具和代码、最终如何拿到 flag。

这种” 问题→思路→解法” 的完整链条，正是我们训练安全推理能力最需要的数据。

但同样，writeup是给人看的文章，不是结构化数据。有的纯文本，有的用Markdown，有的是HTML，有的还夹杂着大量截图说明。

如何从这些非结构化文本中，自动提取高质量的训练对，是这一节要解决的问题。

从过去的经验以及Claude公开资料推测，处理这类数据的核心思路是模式识别 + 启发式提取。

CTF writeup 虽然格式不统一，但有一些共同的结构特征。它们通常以题目描述开头，中间是分析过程，结尾是 flag 或解题结论。我们可以用正则表达式和关键词匹配来定位这些结构，然后提取出题目-解法键值对。当然，现在也可以使用大模型技术来提取。

同样，对于安全报告和漏洞PoC，处理思路类似：识别“漏洞描述”段落、“利用方法” 段落、“修复建议” 段落，分别提取后重新组合成训练样本。

第三类：对话式指令数据集

前两类数据集，解决了“ 知识从哪来” 的问题，但对于大模型这还不够，因为还有一个问题没解决，那就是模型要学会“”如何回答” 提问者。

一个模型，它可能知道SQL注入的原理，但如果没有经过指令微调，它的回答方式可能用非常不友好。比如，直接输出数据库文档，不会给出清晰的、结构化的、符合人类阅读习惯的分析报告。

所以，第三类数据集的存在，就是解决这个问题的。

跑步回来，衣服湿透了，还穿在身上。今天先写到这里，后面的内容，下一篇再补上。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：AI安全圈 heyong heyong《周六 | 主理人专栏：Anthropic是如何构建网络安全数据集的》