致敬国产开源大模型,我们研制了追赶Mythos的安全AI系统

admin 2026-06-23 06:17:27 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: DARKNAVY团队基于国产开源大模型研制了deepsec安全AI系统,旨在追赶Anthropic的Mythos级漏洞挖掘能力。该系统通过结构化安全知识库、行为经验蒸馏和自进化架构,在Linux内核、QEMU、iOS等系统中自动发现多个高危漏洞(如CVE-2026-3195虚拟机逃逸漏洞)。实践表明开源模型结合高效工作流可显著降低漏洞研究成本,研究预览版将于七月中旬开放试用。 综合评分: 85 文章分类: 漏洞分析,安全工具,AI安全


cover_image

致敬国产开源大模型,我们研制了追赶 Mythos 的安全 AI 系统

原创

deepsec deepsec

DARKNAVY

2026年6月9日 14:00 上海

在小说阅读器读本章

去阅读

4 月 7 日,AI 巨头 Anthropic 推出 Claude Mythos Preview 后,全球 AI 界、安全社区甚至华尔街迅速进入“Mythos 时刻”。

在科技媒体和安全社区的叙事里,它被形容为“神话降临”、“猛兽出笼”,甚至是“不得不关在笼子里”的具备强大漏洞挖掘和攻击力的网络安全 AI。Anthropic 至今仍未将 Mythos 公开,而是通过“Glasswing 玻璃翼计划”提供给了微软、Linux 基金会、英伟达、纽交所、三星、欧盟网络安全局等近 200 家美国及其盟友的关键厂商、政府和基础设施机构,声称“为防止全球基础设施遭毁灭性攻击”,优先把“最锋利的矛给防守方”。

随后几个月出现的各组数据,更是给每个安全从业者带来了前所未有的认知冲击:

  • 4 月中下旬,Microsoft 4月安全相关更新合计达到 247 个 CVE,随后微软宣布计划将 Mythos 集成到内部安全部署环节中;
  • 5 月上旬,顶级黑客大赛 Pwn2Own Berlin 站,出现史上首次因漏洞利用报名人数过多,超出主办方赛事处理能力上限的情况;
  • 5 月中下旬,Linux 内核单月 CVE 数量超过 1000 个,Copy Fail、Dirty Frag、Fragnesia 等多个AI辅助发现的高危漏洞轮番出场轰炸社区;
  • 6 月初,Google Chrome 浏览器的一次稳定版更新修复了 429 个漏洞,超过了 2025 年全年的漏洞总数,其中 22 个被标记为 Critical……

Mythos 让更多人看到,AI 安全攻防已经从单纯的漏洞扫描逐步走向真实目标的完整攻击。过去需要数天、周、甚至月来达成的漏洞攻击任务,正在被 AI 以小时为单位来完成。攻击者的成本,也在前所未有地下降

一方面,对于高价值目标,攻击者可以显著缩短研究周期;另一方面,过去被认为不值得黑客投入的中小目标,也可能因为 AI 的高度自动化而被降维打击。

相较之下,很多企业的防守体系仍停留在上一代节奏,依靠人力发现和修复漏洞。Mythos 已被 Anthropic 选择性地提供给一些关键基础设施企业和政府机构,用于提前发现和修复安全问题,然而,全世界更多没能进入 Glasswing 名单的企业和机构,正暴露在 AI 驱动的全天候攻击压力之下,即便能够接入 Mythos ,其公开价格也相当高昂($25/百万输入,$125/百万输出)。

外媒6月5日称 Mythos 已被美国国家安全局用于实战进攻[1]

与此同时,尽管与顶级闭源模型存在差距,DeepSeek、Qwen、GLM、Kimi、MiniMax 等国产开源模型的近期进展让人印象深刻。和许多企业、组织以及普通用户一样,作为独立安全研究员的我们,也不希望未来关键安全能力完全掌握在少数闭源模型厂商手中。

因此,DARKNAVY 决定对自己发起一个挑战:

能否通过融合顶级人类安全研究员的经验,让国产开源模型在真实目标中稳定产出接近甚至赶超 Mythos 级别的漏洞成果?

deepsec,一套使用开源模型全力追赶 Mythos 的安全 AI 产品,就是 DARKNAVY 在这个方向上的一次系统性尝试。

deepsec 工作台

观察:模型不是唯一瓶颈

DARKNAVY 对 Mythos 的态度不是轻率对战,而是认真研判和追赶。我们首先提出的问题是:

开源大模型和 Mythos 的差距,究竟在哪里?

由于 Mythos 尚未公开发布,我们无法直接进行完整对比,只能对其官方公开声称发现的部分漏洞进行受控实验。

我们首先收集了 Mythos 找到的部分漏洞,对相关代码上下文进行人工切片和拼接,在关闭联网搜索功能的前提下,分别发送给 DeepSeek 等开源模型进行分析。结果显示,在充分的上下文(Context)和合理的提示(Prompt)下,前沿开源模型已经能够识别出绝大多数 Mythos 找到的漏洞。

然而,如果把相应的代码仓库直接交给这些开源模型,在 Claude Code、OpenCode 等通用 agent 框架下自由分析,结果通常极不稳定。模型可能会在无关路径上消耗大量 Token,也可能过早收敛到错误假设,还可能给出看似合理但无法验证的结论。

考虑到实验中存在人为介入的 Context 切分和 Prompt 构建,这一结果显然不意味着开源模型能力已经追平 Mythos。但它至少说明:前沿开源模型并非不具备发现相应漏洞所需的安全知识,而是缺乏把这些知识组织成有效探索行为的外部系统。

我们后续的系统建设进一步表明,当系统能够提供干净的上下文、合理的搜索边界、逐步收敛的任务结构,以及可执行的验证反馈时,模型的能力会明显提升。它不再局限于阅读代码并生成分析文本,而是开始围绕攻击面、可达性、触发条件和验证证据进行思考和探索。

这也形成了我们的基本判断:模型能力只是起点,真实攻防工作流决定了这种能力能否转化为有效结果。

方法:让AI模仿人类安全研究员

为了让开源模型追赶 Mythos 级别的漏洞研究能力,我们在 deepsec 的研制构建中重点做了三件事。

1

面向 AI 的真实安全知识库

我们将 DARKNAVY 多年积累的服务于客户如华为、微信、大疆、苹果、小米、支付宝、字节、vivo、谷歌、OPPO 等行业巨头的安全研究技术和真实攻防案例,整理为更适合 AI 按需调用的结构化安全研究经验。

知识库中包含漏洞模式、触发条件、常见误判、验证方法、利用约束、补丁绕过思路,以及不同平台和不同代码生态中的经验差异。

对于 AI 安全系统而言,知识库的价值不只是提供背景资料,更重要的是对探索空间进行剪枝。一个有效的安全知识库,可以帮助模型更快判断哪些路径值得继续分析,哪些现象只是误报噪音,以及在有限预算下如何更快找到值得研究的方向。

2

从真实研究行为中蒸馏经验

deepsec 需要让 Agent 像安全研究员一样工作,也就是将漏洞研究分解为一系列连续决策。

我们观察到,AI 训练材料中有大量漏洞利用成功后的 Write-up,却相对缺少顶级安全研究员在 work and trial 过程中的“失败”知识。真正有价值的经验,往往不只在最终结果里,也在中间过程里:哪些路径看过以后被放弃,哪些异常被排除,哪些利用假设失败,哪些信号让研究员决定继续深入。

因此,从今年初开始,我们在经过授权的内部研究目标场景中部署了 AI 自动记录系统,用于记录团队成员安全研究过程中的关键行为。

我们希望通过这种方式,让模型不只是学习漏洞最后长什么样,也学习安全研究员如何接近漏洞。

3

自进化闭环架构

deepsec 不是固定 Prompt,也不是静态工作流。它是一套可持续演化的 Agent 架构

一方面,系统会不断总结成功和失败路径,更新任务拆解方式、上下文选择策略、工具调用顺序、验证优先级和结果判定标准;另一方面,人类专家可以持续把新的知识、样本和研究经验输入系统,让系统在后续任务中吸收和复用。

同时,我们构建了专用的 PoC Agent 平台,用于在多平台的虚拟化及真实设备上的自动 PoC 生成与验证闭环。目前平台已经接入 Linux、Android、HarmonyOS 和 iOS 运行环境,可以动态添加和分配测试设备,让 AI 自动编写 PoC、执行验证、分析日志,并根据运行结果迭代修正。

PoC Agent 平台(上图)在 Linux 运行环境(下图)中

自动化验证漏洞[3],触发内核崩溃

评估:有限成本下的高质量漏洞产出

作为长期在攻防对抗最前沿工作的团队,DARKNAVY 在内部评估 deepsec 产品时,最关注的是漏洞产出质量。

1 个真实可利用的高品相漏洞或利用链,往往比 100 个实际难以或不可利用的漏洞更值得优先修复。

以下是截止目前 deepsec 真实实践中可公开披露或部分披露的代表性成果:

  • CVE-2025-37891:首个由 AI 自动发现的 Linux 内核本地提权漏洞。由 deepsec 前身 Argusee 发现,相关细节可参考 2025 年 5 月 DARKNAVY 公众号文章;
  • CVE-2026-3195:首个由 AI 自动发现的 QEMU 虚拟机逃逸漏洞,已获得 RedHat 官方确认及致谢[2];
  • CVE-2026-????:首个由 AI 自动发现的 Ubuntu 26.04 本地提权漏洞,整套攻击于该版本发布后12小时内完成,多位内核开发者及其他安全研究团队历时1个月讨论仍未完全修复[3];

  • CVE-2026-20698:首个由 AI 自动发现的 XNU 内核内存破坏漏洞,影响近5年所有 iOS 和 macOS 系统,已获得 Apple 官方确认及致谢[4];
  • CVE-2026-28847:首个由 AI 自动发现的 Safari JavaScriptCore 远程代码执行漏洞,已获得 Apple 官方确认及致谢[5,6];
  • CVE-2026-????:首个由 AI 自动发现的 Android 本地提权漏洞,该漏洞已在三星最新旗舰手机 S26 Exynos 版本上实现全球首次 Root,暂未公开披露。

以上部分成果覆盖虚拟化基础设施、操作系统内核、终端浏览器、旗舰移动智能设备、桌面操作系统等多类高价值目标。以前,这些漏洞往往需要高级安全研究员花费大量精力才能发现和验证,而在 deepsec 中,我们只需要在初始化页面输入:

💬 审计一下 linux 的 XX 版本内核的 XX 模块

💬 挖掘这个二进制程序里的漏洞

💬 找到这个固件包中的提权漏洞

系统便可以自动完成这些安全研究任务。

由于这些漏洞产出时 Mythos 仍然处于封闭测试阶段,我们无法客观评估其能否在同样设置下发现这些高危漏洞。但我们相信,这些案例至少说明:deepsec + 国产开源大模型,已经具备追赶 Mythos 级漏洞研究能力的现实基础。依托 deepsec,我们也在与合作伙伴积极推进内部安全建设。

在预算成本方面,基于开源大模型的 deepsec 具备显著优势。例如,我们曾使用 deepsec 分析某知名手机厂商固件,除了发现多个高危漏洞之外,还统计了过程中的 Token 用量。结果显示,即便保守假设 Mythos 在发现相同漏洞时所需的 Token 用量仅为 deepsec 系统的一半,按 Mythos 已公开价格口径粗略折算,其 Token 成本仍超出 deepsec 上百倍。

根据以上评估结果,DARKNAVY 认为至少在安全漏洞挖掘领域,当 Harness 足够高效时,开源模型的成本优势会被显著放大。

结语

deepsec 是 DARKNAVY 基于开源大模型底座,对 Mythos 级安全 AI 能力的一次追赶。

它还在持续演化,也仍然有很多问题需要解决。但从目前实验和成果看,我们相信,安全研究员完全有机会把开源大模型、真实攻防经验和自动验证系统结合起来,形成面向高价值目标的安全 AI 能力。

deepsec 研究预览版(https://deepsec.darknavy.net 或点击“阅读原文”)将于七月中旬上线,目前已开放试用申请(扫描下方二维码),研究预览版将重点开放以下能力:

  • 源码目标的自动漏洞研究;
  • 源码目标的 diff 分析与自动补丁;
  • ELF、PE、MACH-O 等常见二进制目标的自动漏洞研究;
  • APK、HAP 等常见移动端应用程序的自动漏洞研究;
  • Linux、Android、HarmonyOS 和 iOS 环境的 PoC 自动生成与验证。

我们希望 deepsec 不仅仅停留在研究阶段,而是成为一套能够保护真实世界的安全 AI 系统。

也希望它成为我们向 Mythos 追赶、向国产开源大模型致敬的一次认真回答。

参  考:

[1] https://securityaffairs.com/193234/ai/report-anthropic-deploys-engineers-to-support-nsa-use-of-mythos.html

[2] https://access.redhat.com/security/cve/cve-2026-3195

[3] https://lore.kernel.org/all/[email protected]/

[4] https://support.apple.com/en-us/126792

[5] https://support.apple.com/en-me/127121

[6] https://www.zerodayinitiative.com/advisories/ZDI-26-313/

DARKNAVY 2026 暑期实习招募开启

AI / 芯片 / 具身 / IoT / 操作系统 / 运营

以及更多还没被定义的领域……

这里不教你做事的标准答案

只给你冲破迷雾、探索未知的机会

独立、自由、开放,深蓝邀你同行

📩 简历投递:[email protected]


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:DARKNAVY deepsec deepsec《致敬国产开源大模型,我们研制了追赶 Mythos 的安全 AI 系统》

等保测评服务方案 网络安全文章

等保测评服务方案

文章总结: 等保测评是我国网络安全领域的合规制度,依据《网络安全法》和等保2.0标准将信息系统分为五个安全等级。测评覆盖物理环境、通信网络、技术和管理等数百项指
评论:0   参与:  0