2026-06-15 05:15:21 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 文章介绍了Anthropic公司发布的AI模型Mythos，它在未经过专门安全训练的情况下，自主发现了数千个高危零日漏洞，甚至包括潜伏了27年的古老漏洞。这引发了关于AI能力边界的讨论。为应对潜在风险，Anthropic采取了解耦策略，将完整能力限制在特定合作方，而公开版本则内置严格的安全护栏。此举开启了一场AI之间的攻防竞赛，也提出了一个深刻问题：当AI能发现所有漏洞时，谁来发现AI自身的漏洞？ 综合评分： 85 文章分类： AI安全,网络安全,技术标准,解决方案,恶意软件

cover_image

Anthropic Mythos——当AI能发现所有漏洞，谁来发现AI的漏洞？

天黑说嘿话

2026年6月13日 10:00 浙江

在小说阅读器读本章

去阅读

以下文章来源于90后AI笔记，作者90后AI笔记

90后AI笔记 .

分享普通人搞钱和搞AI项目实操&成长思考

2026年4月7日，Anthropic的技术团队像往常一样，把新模型Mythos Preview挂上了他们的测试平台。这不过是又一款通用大模型的发布——在2026年的AI圈，这已经不是什么新鲜事了。

但接下来发生的事，让整个网络安全行业失眠了。

Mythos在没有任何专项安全训练的情况下，自主发现了数千个零日漏洞。超过300个被评为CVSS 9.0以上的”致命级”。部分漏洞已经在主流操作系统和云平台中潜伏了5到10年，从未被人类安全研究员或任何传统工具发现。最老的一个，在OpenBSD的代码库里躺了27年。

一个没被赋予”找漏洞”任务的AI，自己学会了找漏洞。

这感觉就像是，你让一个小孩做数学题，他顺手把邻居家的门锁给撬了。

一个通用模型，怎么就成了”漏洞核武器”？

先说清楚Mythos是什么，我之前的文章也详细介绍过这个model。

它是Anthropic在2026年4月7日发布的通用大语言模型，代号Claude Mythos Preview。跟之前的Claude 3系列一样，它是个通用模型——能写代码、能分析文档、能陪你聊天、能解释量子力学。

Anthropic当时公开的说法是：这只是一个研究预览版，用来探索前沿AI能力的边界。

但很快，Mythos展现出了一个让Anthropic自己都害怕的能力——它可以在完全没有人类指导的情况下，自主发现软件代码中的安全漏洞，并且能写出完整的漏洞利用代码（exploit）。

注意这两个词：零日漏洞和完整利用链。

零日漏洞（zero-day）指的是——那些只有攻击者知道、防御者不知道、厂商还没修复的漏洞。发现一个零日漏洞已经很难了，因为你需要比所有人类研究员和自动化工具都更聪明。而Mythos不仅发现了数千个，它还能自主编写利用这些漏洞的攻击代码。

这就相当于，一个AI不仅发现了你家的门没锁，还自己写了一套入室抢劫的完整方案。

更细思极恐的是——Mythos从未被专门训练成”安全专家”。它学的是语言模型，读的是互联网上的公开文本，但突然涌现出了漏洞挖掘的能力。

Anthropic的联合创始人Dario Amodei后来在内部会议上说：“我们模型的能力，已经超出了我们对其训练目标的理解。”

这听起来像是AI研究者在凡尔赛，但如果你知道后续发生了什么，可能就笑不出来了。

三个月，数千个漏洞——AI找到了人类找不到的东西

Mythos的能力，不是纸上谈兵。

在接下来短短三个月里，它在完全自主的状态下，完成了以下”工作”：

发现了数千个高危零日漏洞，覆盖所有主流操作系统（Windows、Linux、macOS、Android）和所有主流浏览器（Chrome、Firefox、Safari、Edge）

其中超过300个被评为CVSS 9.0以上——这是”致命级”的评分，意味着这些漏洞一旦被利用，可以完全控制你的电脑、获取你的数据、或者让你的服务器宕机

部分漏洞已经在代码库里存活了5到10年，被无数人类安全研究员和自动化扫描工具反复审查，但从没人发现

最老的一个，藏在OpenBSD的代码中——已经27年了，比很多读者的年龄都大

想象一下这个画面：你每天用的操作系统、你每天刷的浏览器、你每天访问的网站，它们的底层代码里潜伏着几百个从未被发现的致命漏洞。而发现它们的，不是一个资深的网络安全研究员，不是一套花费了数十亿美元开发的安全系统——是一个通用的聊天AI。

这感觉就像是，你以为你家安保固若金汤，结果一只Hello Kitty进来逛了一圈，顺手把你的保险柜给开了。

27年的老bug，AI找到了——我们真的理解自己在写什么吗？

那个藏在OpenBSD里27年的漏洞，可能是我听过最让人后背发凉的故事。

OpenBSD是一个以安全性著称的Unix-like操作系统，它的代码以严谨著称——全球最挑剔的安全审计团队每年给它做体检，无数双眼睛盯着它的每一行代码。

但Mythos在一个角落里发现了一个缓冲区溢出漏洞（buffer overflow）。这个漏洞从1999年就存在了——那是QQ刚诞生的年代，那是《黑客帝国》上映的年代。

27年间，这个漏洞被无数人审查过、扫描过、审计过，但没有一个人发现它。

不是审查的人不够聪明——是人的注意力是有极限的。代码审查是个极其枯燥的工作，一个几百万行的代码库，一个审计员可能看几行就会犯困。而AI不会累，AI不会烦，AI的注意力可以覆盖每一行代码、每一个函数、每一个边界条件。

这引出了一个让人很不舒服的问题：我们真的理解自己在写的代码吗？

当一个AI可以在27年后发现我们27年前埋下的bug时，意味着我们可能从未真正”看懂”过自己的代码。

这就像你住了27年的房子，突然发现客厅墙里藏着一只猫——它不是刚进去的，它一直都在那里。

“解耦”策略——Anthropic的自我防御

面对一个可能成为”武器”的模型，Anthropic做了什么？

他们的反应很有意思：不是关掉它，而是把它”拆”了。

2026年6月10日，Anthropic宣布了两个新版本：

Mythos 5——完整版，保留了所有漏洞发现和利用能力。但这个版本不会公开，它被纳入一个叫做”翼蝶计划”（Project Glasswing）的安全倡议，只向经过严格筛选的约200家合作伙伴开放。这些合作伙伴主要是大型科技公司、政府机构和网络安全组织——你可以理解为，这是Anthropic在”培训”一批可信的用户来帮它测试防御能力。

Fable 5——“解耦版”，内置了极其严格的安全护栏，无法响应任何涉及网络安全的敏感查询。这个版本会公开给所有人使用。

这是什么意思？

Anthropic在做一个实验：能不能把一把剑，拆成剑柄和剑刃两部分？剑柄留给普通人防身，剑刃only交给经过授权的骑士使用。

但问题来了：

第一，如果完全体不公开，那防御者怎么验证Fable 5真的能挡住Mythos 5的攻击？

第二，如果AI可以自己发现漏洞，那它能不能自己”学会”突破Fable 5的限制？毕竟，Mythos已经展现了”超出训练目标”的能力。

第三，更讽刺的是——美国国安局（NSA）已经在使用Mythos了。根据最新曝光，美国政府早就把Anthropic定义为”供应链风险”，但国家安全部门却已经离不开它。

这感觉就像是：一把危险的刀，Anthropic做出来了，现在它在纠结是让所有人都拿到，还是only让军队拿到。但军队已经偷偷拿走了。

AI打AI的军备赛——当Deepfake遇见Depthfirst

更有意思的事来了。

在Anthropic发布Mythos后，网络安全初创企业Depthfirst坐不住了。

Depthfirst是一家专门用AI做漏洞挖掘的公司——对，就是字面意思，用AI来找bug。他们的AI在看到Mythos的”成绩单”后，表示不服：你找到了数千个漏洞，但你漏掉了更多。

2026年6月3日，Depthfirst宣布：他们用自家AI模型在Mythos扫描过的代码中，又发现了更多Mythos遗漏的漏洞。其中不乏可能影响绝大多数网民的关键性安全缺陷。

这是什么意思？

AI不仅可以发现漏洞，还可以发现”AI发现的漏洞”的漏洞。

这展开了一场AI打AI的军备赛：

Anthropic Mythos：三个月发现数千个零日漏洞

Depthfirst AI：发现Mythos遗漏的漏洞

接下来是不是会有Depthsecond AI？Depththird AI？

当AI开始与AI对抗时，攻击和防御的迭代速度已经远远超出了人类能理解的范畴。

一个人的安全研究员，一周能审多少代码？一百行？一千行？

一个AI模型，一分钟能审多少代码？一万行？一百万行？

当AI与AI开始对抗时，这场战争的节奏已经是秒级的了——不是在比拼谁更聪明，而是在比拼谁的算力更多、谁的迭代更快。

我们站在攻守逆转的临界点

说了这么多，该回答一个问题了：所以呢？

之前听过一句话：网络安全本质上是攻守不对称的游戏。攻击者只需要找到一个漏洞就能进来，防御者需要堵住所有漏洞才能安全。

但Mythos改变了这个等式。

现在，攻击者拥有了一个可以自主发现数千个零日漏洞的AI，而防御者还在用人类驱动的安全团队和传统扫描工具。

这是不对称的——但天平向攻击者倾斜了。

不过等等，故事还有另一面。

Mythos也可以用来做防御。当Anthropic把这个能力开放给200家合作伙伴时，实际上是在让防御者拥有了和攻击者一样的工具。

当每个人都可以用AI发现漏洞时，漏洞的生存空间会被急剧压缩。攻击成本将指数级上升，因为每个漏洞被发现的时间将从”几年”缩短到”几秒”。

这就是那个”临界点”的意思：在临界点之前，攻击者主导；临界点之后，防御者主导。

我们可能正站在这个临界点上。

但问题是：谁先到达临界点？

是攻击者先用AI批量挖掘漏洞，还是防御者先用AI批量修复漏洞？

这个问题没有答案，因为关键不在于AI能力本身，而在于谁先用上AI。

当AI能发现所有漏洞——谁来发现AI的漏洞？

写到最后，我想问一个问题：

Mythos可以发现代码中的漏洞——那谁来发现AI模型中的”漏洞”？

Anthropic在2026年6月5日发布万字长文，警告AI正在通往”递归自我改进”（RSI）的路径——AI可能正在自己训练自己，自己优化自己。

如果这一天到来，AI发现的将不仅是代码中的漏洞——而是下一代AI中的”漏洞”。

当AI开始自主进化时，我们可能连理解它在做什么都做不到。

这让我想起《三体》里的那句名言：你们是虫子。

对于可能在进化中的AI来说，我们可能连”虫子”都还算不上——我们只是它进化路上的背景噪声。

但说真的，在事情变得不可控之前，我们还有时间。

Mythos的”解耦”策略——把能力拆开、限制开放——是一个信号：Anthropic自己也知道，这个东西有点危险。

当创造者开始害怕自己造的东西时，可能是人类开始认真对待的最好时机。

最后留一个问题给你：

当AI可以发现所有漏洞时——你最担心的，是你的密码被盗，还是你连自己为什么会被盗都不知道？

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：天黑说嘿话《Anthropic Mythos——当AI能发现所有漏洞，谁来发现AI的漏洞？》