2026-06-23 06:17:27 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： DARKNAVY团队基于国产开源大模型研制了deepsec安全AI系统，旨在追赶Anthropic的Mythos级漏洞挖掘能力。该系统通过结构化安全知识库、行为经验蒸馏和自进化架构，在Linux内核、QEMU、iOS等系统中自动发现多个高危漏洞（如CVE-2026-3195虚拟机逃逸漏洞）。实践表明开源模型结合高效工作流可显著降低漏洞研究成本，研究预览版将于七月中旬开放试用。 综合评分： 85 文章分类： 漏洞分析,安全工具,AI安全

cover_image

致敬国产开源大模型，我们研制了追赶 Mythos 的安全 AI 系统

原创

deepsec deepsec

DARKNAVY

2026年6月9日 14:00 上海

在小说阅读器读本章

去阅读

4 月 7 日，AI 巨头 Anthropic 推出 Claude Mythos Preview 后，全球 AI 界、安全社区甚至华尔街迅速进入“Mythos 时刻”。

在科技媒体和安全社区的叙事里，它被形容为“神话降临”、“猛兽出笼”，甚至是“不得不关在笼子里”的具备强大漏洞挖掘和攻击力的网络安全 AI。Anthropic 至今仍未将 Mythos 公开，而是通过“Glasswing 玻璃翼计划”提供给了微软、Linux 基金会、英伟达、纽交所、三星、欧盟网络安全局等近 200 家美国及其盟友的关键厂商、政府和基础设施机构，声称“为防止全球基础设施遭毁灭性攻击”，优先把“最锋利的矛给防守方”。

随后几个月出现的各组数据，更是给每个安全从业者带来了前所未有的认知冲击：

4 月中下旬，Microsoft 4月安全相关更新合计达到 247 个 CVE，随后微软宣布计划将 Mythos 集成到内部安全部署环节中；
5 月上旬，顶级黑客大赛 Pwn2Own Berlin 站，出现史上首次因漏洞利用报名人数过多，超出主办方赛事处理能力上限的情况；
5 月中下旬，Linux 内核单月 CVE 数量超过 1000 个，Copy Fail、Dirty Frag、Fragnesia 等多个AI辅助发现的高危漏洞轮番出场轰炸社区；
6 月初，Google Chrome 浏览器的一次稳定版更新修复了 429 个漏洞，超过了 2025 年全年的漏洞总数，其中 22 个被标记为 Critical……

Mythos 让更多人看到，AI 安全攻防已经从单纯的漏洞扫描逐步走向真实目标的完整攻击。过去需要数天、周、甚至月来达成的漏洞攻击任务，正在被 AI 以小时为单位来完成。攻击者的成本，也在前所未有地下降。

一方面，对于高价值目标，攻击者可以显著缩短研究周期；另一方面，过去被认为不值得黑客投入的中小目标，也可能因为 AI 的高度自动化而被降维打击。

相较之下，很多企业的防守体系仍停留在上一代节奏，依靠人力发现和修复漏洞。Mythos 已被 Anthropic 选择性地提供给一些关键基础设施企业和政府机构，用于提前发现和修复安全问题，然而，全世界更多没能进入 Glasswing 名单的企业和机构，正暴露在 AI 驱动的全天候攻击压力之下，即便能够接入 Mythos ，其公开价格也相当高昂（$25/百万输入，$125/百万输出）。

外媒6月5日称 Mythos 已被美国国家安全局用于实战进攻[1]

与此同时，尽管与顶级闭源模型存在差距，DeepSeek、Qwen、GLM、Kimi、MiniMax 等国产开源模型的近期进展让人印象深刻。和许多企业、组织以及普通用户一样，作为独立安全研究员的我们，也不希望未来关键安全能力完全掌握在少数闭源模型厂商手中。

因此，DARKNAVY 决定对自己发起一个挑战：

能否通过融合顶级人类安全研究员的经验，让国产开源模型在真实目标中稳定产出接近甚至赶超 Mythos 级别的漏洞成果？

deepsec，一套使用开源模型全力追赶 Mythos 的安全 AI 产品，就是 DARKNAVY 在这个方向上的一次系统性尝试。

deepsec 工作台

观察：模型不是唯一瓶颈

DARKNAVY 对 Mythos 的态度不是轻率对战，而是认真研判和追赶。我们首先提出的问题是：

开源大模型和 Mythos 的差距，究竟在哪里？

由于 Mythos 尚未公开发布，我们无法直接进行完整对比，只能对其官方公开声称发现的部分漏洞进行受控实验。

我们首先收集了 Mythos 找到的部分漏洞，对相关代码上下文进行人工切片和拼接，在关闭联网搜索功能的前提下，分别发送给 DeepSeek 等开源模型进行分析。结果显示，在充分的上下文（Context）和合理的提示（Prompt）下，前沿开源模型已经能够识别出绝大多数 Mythos 找到的漏洞。

然而，如果把相应的代码仓库直接交给这些开源模型，在 Claude Code、OpenCode 等通用 agent 框架下自由分析，结果通常极不稳定。模型可能会在无关路径上消耗大量 Token，也可能过早收敛到错误假设，还可能给出看似合理但无法验证的结论。

考虑到实验中存在人为介入的 Context 切分和 Prompt 构建，这一结果显然不意味着开源模型能力已经追平 Mythos。但它至少说明：前沿开源模型并非不具备发现相应漏洞所需的安全知识，而是缺乏把这些知识组织成有效探索行为的外部系统。

我们后续的系统建设进一步表明，当系统能够提供干净的上下文、合理的搜索边界、逐步收敛的任务结构，以及可执行的验证反馈时，模型的能力会明显提升。它不再局限于阅读代码并生成分析文本，而是开始围绕攻击面、可达性、触发条件和验证证据进行思考和探索。

这也形成了我们的基本判断：模型能力只是起点，真实攻防工作流决定了这种能力能否转化为有效结果。

方法：让AI模仿人类安全研究员

为了让开源模型追赶 Mythos 级别的漏洞研究能力，我们在 deepsec 的研制构建中重点做了三件事。

面向 AI 的真实安全知识库

我们将 DARKNAVY 多年积累的服务于客户如华为、微信、大疆、苹果、小米、支付宝、字节、vivo、谷歌、OPPO 等行业巨头的安全研究技术和真实攻防案例，整理为更适合 AI 按需调用的结构化安全研究经验。

知识库中包含漏洞模式、触发条件、常见误判、验证方法、利用约束、补丁绕过思路，以及不同平台和不同代码生态中的经验差异。

对于 AI 安全系统而言，知识库的价值不只是提供背景资料，更重要的是对探索空间进行剪枝。一个有效的安全知识库，可以帮助模型更快判断哪些路径值得继续分析，哪些现象只是误报噪音，以及在有限预算下如何更快找到值得研究的方向。

从真实研究行为中蒸馏经验

deepsec 需要让 Agent 像安全研究员一样工作，也就是将漏洞研究分解为一系列连续决策。

我们观察到，AI 训练材料中有大量漏洞利用成功后的 Write-up，却相对缺少顶级安全研究员在 work and trial 过程中的“失败”知识。真正有价值的经验，往往不只在最终结果里，也在中间过程里：哪些路径看过以后被放弃，哪些异常被排除，哪些利用假设失败，哪些信号让研究员决定继续深入。

因此，从今年初开始，我们在经过授权的内部研究目标场景中部署了 AI 自动记录系统，用于记录团队成员安全研究过程中的关键行为。

我们希望通过这种方式，让模型不只是学习漏洞最后长什么样，也学习安全研究员如何接近漏洞。

自进化闭环架构

deepsec 不是固定 Prompt，也不是静态工作流。它是一套可持续演化的 Agent 架构。

一方面，系统会不断总结成功和失败路径，更新任务拆解方式、上下文选择策略、工具调用顺序、验证优先级和结果判定标准；另一方面，人类专家可以持续把新的知识、样本和研究经验输入系统，让系统在后续任务中吸收和复用。

同时，我们构建了专用的 PoC Agent 平台，用于在多平台的虚拟化及真实设备上的自动 PoC 生成与验证闭环。目前平台已经接入 Linux、Android、HarmonyOS 和 iOS 运行环境，可以动态添加和分配测试设备，让 AI 自动编写 PoC、执行验证、分析日志，并根据运行结果迭代修正。

PoC Agent 平台（上图）在 Linux 运行环境（下图）中

自动化验证漏洞[3]，触发内核崩溃

评估：有限成本下的高质量漏洞产出

作为长期在攻防对抗最前沿工作的团队，DARKNAVY 在内部评估 deepsec 产品时，最关注的是漏洞产出质量。

1 个真实可利用的高品相漏洞或利用链，往往比 100 个实际难以或不可利用的漏洞更值得优先修复。

以下是截止目前 deepsec 真实实践中可公开披露或部分披露的代表性成果：

CVE-2025-37891：首个由 AI 自动发现的 Linux 内核本地提权漏洞。由 deepsec 前身 Argusee 发现，相关细节可参考 2025 年 5 月 DARKNAVY 公众号文章；
CVE-2026-3195：首个由 AI 自动发现的 QEMU 虚拟机逃逸漏洞，已获得 RedHat 官方确认及致谢[2]；
CVE-2026-????：首个由 AI 自动发现的 Ubuntu 26.04 本地提权漏洞，整套攻击于该版本发布后12小时内完成，多位内核开发者及其他安全研究团队历时1个月讨论仍未完全修复[3]；

CVE-2026-20698：首个由 AI 自动发现的 XNU 内核内存破坏漏洞，影响近5年所有 iOS 和 macOS 系统，已获得 Apple 官方确认及致谢[4]；
CVE-2026-28847：首个由 AI 自动发现的 Safari JavaScriptCore 远程代码执行漏洞，已获得 Apple 官方确认及致谢[5,6]；
CVE-2026-????：首个由 AI 自动发现的 Android 本地提权漏洞，该漏洞已在三星最新旗舰手机 S26 Exynos 版本上实现全球首次 Root，暂未公开披露。

以上部分成果覆盖虚拟化基础设施、操作系统内核、终端浏览器、旗舰移动智能设备、桌面操作系统等多类高价值目标。以前，这些漏洞往往需要高级安全研究员花费大量精力才能发现和验证，而在 deepsec 中，我们只需要在初始化页面输入：

💬 审计一下 linux 的 XX 版本内核的 XX 模块

💬 挖掘这个二进制程序里的漏洞

💬 找到这个固件包中的提权漏洞

系统便可以自动完成这些安全研究任务。

由于这些漏洞产出时 Mythos 仍然处于封闭测试阶段，我们无法客观评估其能否在同样设置下发现这些高危漏洞。但我们相信，这些案例至少说明：deepsec + 国产开源大模型，已经具备追赶 Mythos 级漏洞研究能力的现实基础。依托 deepsec，我们也在与合作伙伴积极推进内部安全建设。

在预算成本方面，基于开源大模型的 deepsec 具备显著优势。例如，我们曾使用 deepsec 分析某知名手机厂商固件，除了发现多个高危漏洞之外，还统计了过程中的 Token 用量。结果显示，即便保守假设 Mythos 在发现相同漏洞时所需的 Token 用量仅为 deepsec 系统的一半，按 Mythos 已公开价格口径粗略折算，其 Token 成本仍超出 deepsec 上百倍。

根据以上评估结果，DARKNAVY 认为至少在安全漏洞挖掘领域，当 Harness 足够高效时，开源模型的成本优势会被显著放大。

结语

deepsec 是 DARKNAVY 基于开源大模型底座，对 Mythos 级安全 AI 能力的一次追赶。

它还在持续演化，也仍然有很多问题需要解决。但从目前实验和成果看，我们相信，安全研究员完全有机会把开源大模型、真实攻防经验和自动验证系统结合起来，形成面向高价值目标的安全 AI 能力。

deepsec 研究预览版（https://deepsec.darknavy.net 或点击“阅读原文”）将于七月中旬上线，目前已开放试用申请（扫描下方二维码），研究预览版将重点开放以下能力：

源码目标的自动漏洞研究；
源码目标的 diff 分析与自动补丁；
ELF、PE、MACH-O 等常见二进制目标的自动漏洞研究；
APK、HAP 等常见移动端应用程序的自动漏洞研究；
Linux、Android、HarmonyOS 和 iOS 环境的 PoC 自动生成与验证。

我们希望 deepsec 不仅仅停留在研究阶段，而是成为一套能够保护真实世界的安全 AI 系统。

也希望它成为我们向 Mythos 追赶、向国产开源大模型致敬的一次认真回答。

参考：

[1] https://securityaffairs.com/193234/ai/report-anthropic-deploys-engineers-to-support-nsa-use-of-mythos.html

[2] https://access.redhat.com/security/cve/cve-2026-3195

[3] https://lore.kernel.org/all/[email protected]/

[4] https://support.apple.com/en-us/126792

[5] https://support.apple.com/en-me/127121

[6] https://www.zerodayinitiative.com/advisories/ZDI-26-313/

DARKNAVY 2026 暑期实习招募开启

AI / 芯片 / 具身 / IoT / 操作系统 / 运营

以及更多还没被定义的领域……

这里不教你做事的标准答案

只给你冲破迷雾、探索未知的机会

独立、自由、开放，深蓝邀你同行

📩 简历投递：[email protected]

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：DARKNAVY deepsec deepsec《致敬国产开源大模型，我们研制了追赶 Mythos 的安全 AI 系统》