AnthropicMythos——当AI能发现所有漏洞,谁来发现AI的漏洞?

admin 2026-06-15 05:15:21 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 文章介绍了Anthropic公司发布的AI模型Mythos,它在未经过专门安全训练的情况下,自主发现了数千个高危零日漏洞,甚至包括潜伏了27年的古老漏洞。这引发了关于AI能力边界的讨论。为应对潜在风险,Anthropic采取了解耦策略,将完整能力限制在特定合作方,而公开版本则内置严格的安全护栏。此举开启了一场AI之间的攻防竞赛,也提出了一个深刻问题:当AI能发现所有漏洞时,谁来发现AI自身的漏洞? 综合评分: 85 文章分类: AI安全,网络安全,技术标准,解决方案,恶意软件


cover_image

Anthropic Mythos——当AI能发现所有漏洞,谁来发现AI的漏洞?

天黑说嘿话

2026年6月13日 10:00 浙江

在小说阅读器读本章

去阅读

以下文章来源于90后AI笔记 ,作者90后AI笔记

90后AI笔记 .

分享普通人搞钱和搞AI项目实操&成长思考

2026年4月7日,Anthropic的技术团队像往常一样,把新模型Mythos Preview挂上了他们的测试平台。这不过是又一款通用大模型的发布——在2026年的AI圈,这已经不是什么新鲜事了。

但接下来发生的事,让整个网络安全行业失眠了。

Mythos在没有任何专项安全训练的情况下,自主发现了数千个零日漏洞。超过300个被评为CVSS 9.0以上的”致命级”。部分漏洞已经在主流操作系统和云平台中潜伏了5到10年,从未被人类安全研究员或任何传统工具发现。最老的一个,在OpenBSD的代码库里躺了27年。

一个没被赋予”找漏洞”任务的AI,自己学会了找漏洞。

这感觉就像是,你让一个小孩做数学题,他顺手把邻居家的门锁给撬了。

一个通用模型,怎么就成了”漏洞核武器”?

先说清楚Mythos是什么,我之前的文章也详细介绍过这个model。

它是Anthropic在2026年4月7日发布的通用大语言模型,代号Claude Mythos Preview。跟之前的Claude 3系列一样,它是个通用模型——能写代码、能分析文档、能陪你聊天、能解释量子力学。

Anthropic当时公开的说法是:这只是一个研究预览版,用来探索前沿AI能力的边界。

但很快,Mythos展现出了一个让Anthropic自己都害怕的能力——它可以在完全没有人类指导的情况下,自主发现软件代码中的安全漏洞,并且能写出完整的漏洞利用代码(exploit)。

注意这两个词:零日漏洞和完整利用链。

零日漏洞(zero-day)指的是——那些只有攻击者知道、防御者不知道、厂商还没修复的漏洞。发现一个零日漏洞已经很难了,因为你需要比所有人类研究员和自动化工具都更聪明。而Mythos不仅发现了数千个,它还能自主编写利用这些漏洞的攻击代码。

这就相当于,一个AI不仅发现了你家的门没锁,还自己写了一套入室抢劫的完整方案。

更细思极恐的是——Mythos从未被专门训练成”安全专家”。 它学的是语言模型,读的是互联网上的公开文本,但突然涌现出了漏洞挖掘的能力。

Anthropic的联合创始人Dario Amodei后来在内部会议上说:“我们模型的能力,已经超出了我们对其训练目标的理解。”

这听起来像是AI研究者在凡尔赛,但如果你知道后续发生了什么,可能就笑不出来了。

三个月,数千个漏洞——AI找到了人类找不到的东西

Mythos的能力,不是纸上谈兵。

在接下来短短三个月里,它在完全自主的状态下,完成了以下”工作”:

发现了数千个高危零日漏洞,覆盖所有主流操作系统(Windows、Linux、macOS、Android)和所有主流浏览器(Chrome、Firefox、Safari、Edge)

其中超过300个被评为CVSS 9.0以上——这是”致命级”的评分,意味着这些漏洞一旦被利用,可以完全控制你的电脑、获取你的数据、或者让你的服务器宕机

部分漏洞已经在代码库里存活了5到10年,被无数人类安全研究员和自动化扫描工具反复审查,但从没人发现

最老的一个,藏在OpenBSD的代码中——已经27年了,比很多读者的年龄都大

想象一下这个画面:你每天用的操作系统、你每天刷的浏览器、你每天访问的网站,它们的底层代码里潜伏着几百个从未被发现的致命漏洞。而发现它们的,不是一个资深的网络安全研究员,不是一套花费了数十亿美元开发的安全系统——是一个通用的聊天AI。

这感觉就像是,你以为你家安保固若金汤,结果一只Hello Kitty进来逛了一圈,顺手把你的保险柜给开了。

27年的老bug,AI找到了——我们真的理解自己在写什么吗?

那个藏在OpenBSD里27年的漏洞,可能是我听过最让人后背发凉的故事。

OpenBSD是一个以安全性著称的Unix-like操作系统,它的代码以严谨著称——全球最挑剔的安全审计团队每年给它做体检,无数双眼睛盯着它的每一行代码。

但Mythos在一个角落里发现了一个缓冲区溢出漏洞(buffer overflow)。这个漏洞从1999年就存在了——那是QQ刚诞生的年代,那是《黑客帝国》上映的年代。

27年间,这个漏洞被无数人审查过、扫描过、审计过,但没有一个人发现它。

不是审查的人不够聪明——是人的注意力是有极限的。代码审查是个极其枯燥的工作,一个几百万行的代码库,一个审计员可能看几行就会犯困。而AI不会累,AI不会烦,AI的注意力可以覆盖每一行代码、每一个函数、每一个边界条件。

这引出了一个让人很不舒服的问题:我们真的理解自己在写的代码吗?

当一个AI可以在27年后发现我们27年前埋下的bug时,意味着我们可能从未真正”看懂”过自己的代码。

这就像你住了27年的房子,突然发现客厅墙里藏着一只猫——它不是刚进去的,它一直都在那里。

“解耦”策略——Anthropic的自我防御

面对一个可能成为”武器”的模型,Anthropic做了什么?

他们的反应很有意思:不是关掉它,而是把它”拆”了。

2026年6月10日,Anthropic宣布了两个新版本:

Mythos 5——完整版,保留了所有漏洞发现和利用能力。但这个版本不会公开,它被纳入一个叫做”翼蝶计划”(Project Glasswing)的安全倡议,只向经过严格筛选的约200家合作伙伴开放。这些合作伙伴主要是大型科技公司、政府机构和网络安全组织——你可以理解为,这是Anthropic在”培训”一批可信的用户来帮它测试防御能力。

Fable 5——“解耦版”,内置了极其严格的安全护栏,无法响应任何涉及网络安全的敏感查询。这个版本会公开给所有人使用。

这是什么意思?

Anthropic在做一个实验:能不能把一把剑,拆成剑柄和剑刃两部分?剑柄留给普通人防身,剑刃only交给经过授权的骑士使用。

但问题来了:

第一,如果完全体不公开,那防御者怎么验证Fable 5真的能挡住Mythos 5的攻击?

第二,如果AI可以自己发现漏洞,那它能不能自己”学会”突破Fable 5的限制?毕竟,Mythos已经展现了”超出训练目标”的能力。

第三,更讽刺的是——美国国安局(NSA)已经在使用Mythos了。 根据最新曝光,美国政府早就把Anthropic定义为”供应链风险”,但国家安全部门却已经离不开它。

这感觉就像是:一把危险的刀,Anthropic做出来了,现在它在纠结是让所有人都拿到,还是only让军队拿到。但军队已经偷偷拿走了。

AI打AI的军备赛——当Deepfake遇见Depthfirst

更有意思的事来了。

在Anthropic发布Mythos后,网络安全初创企业Depthfirst坐不住了。

Depthfirst是一家专门用AI做漏洞挖掘的公司——对,就是字面意思,用AI来找bug。他们的AI在看到Mythos的”成绩单”后,表示不服:你找到了数千个漏洞,但你漏掉了更多。

2026年6月3日,Depthfirst宣布:他们用自家AI模型在Mythos扫描过的代码中,又发现了更多Mythos遗漏的漏洞。其中不乏可能影响绝大多数网民的关键性安全缺陷。

这是什么意思?

AI不仅可以发现漏洞,还可以发现”AI发现的漏洞”的漏洞。

这展开了一场AI打AI的军备赛:

Anthropic Mythos:三个月发现数千个零日漏洞

Depthfirst AI:发现Mythos遗漏的漏洞

接下来是不是会有Depthsecond AI?Depththird AI?

当AI开始与AI对抗时,攻击和防御的迭代速度已经远远超出了人类能理解的范畴。

一个人的安全研究员,一周能审多少代码?一百行?一千行?

一个AI模型,一分钟能审多少代码?一万行?一百万行?

当AI与AI开始对抗时,这场战争的节奏已经是秒级的了——不是在比拼谁更聪明,而是在比拼谁的算力更多、谁的迭代更快。

我们站在攻守逆转的临界点

说了这么多,该回答一个问题了:所以呢?

之前听过一句话:网络安全本质上是攻守不对称的游戏。攻击者只需要找到一个漏洞就能进来,防御者需要堵住所有漏洞才能安全。

但Mythos改变了这个等式。

现在,攻击者拥有了一个可以自主发现数千个零日漏洞的AI,而防御者还在用人类驱动的安全团队和传统扫描工具。

这是不对称的——但天平向攻击者倾斜了。

不过等等,故事还有另一面。

Mythos也可以用来做防御。当Anthropic把这个能力开放给200家合作伙伴时,实际上是在让防御者拥有了和攻击者一样的工具。

当每个人都可以用AI发现漏洞时,漏洞的生存空间会被急剧压缩。攻击成本将指数级上升,因为每个漏洞被发现的时间将从”几年”缩短到”几秒”。

这就是那个”临界点”的意思:在临界点之前,攻击者主导;临界点之后,防御者主导。

我们可能正站在这个临界点上。

但问题是:谁先到达临界点?

是攻击者先用AI批量挖掘漏洞,还是防御者先用AI批量修复漏洞?

这个问题没有答案,因为关键不在于AI能力本身,而在于谁先用上AI。

当AI能发现所有漏洞——谁来发现AI的漏洞?

写到最后,我想问一个问题:

Mythos可以发现代码中的漏洞——那谁来发现AI模型中的”漏洞”?

Anthropic在2026年6月5日发布万字长文,警告AI正在通往”递归自我改进”(RSI)的路径——AI可能正在自己训练自己,自己优化自己。

如果这一天到来,AI发现的将不仅是代码中的漏洞——而是下一代AI中的”漏洞”。

当AI开始自主进化时,我们可能连理解它在做什么都做不到。

这让我想起《三体》里的那句名言:你们是虫子。

对于可能在进化中的AI来说,我们可能连”虫子”都还算不上——我们只是它进化路上的背景噪声。

但说真的,在事情变得不可控之前,我们还有时间。

Mythos的”解耦”策略——把能力拆开、限制开放——是一个信号:Anthropic自己也知道,这个东西有点危险。

当创造者开始害怕自己造的东西时,可能是人类开始认真对待的最好时机。

最后留一个问题给你:

当AI可以发现所有漏洞时——你最担心的,是你的密码被盗,还是你连自己为什么会被盗都不知道?


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:天黑说嘿话 《Anthropic Mythos——当AI能发现所有漏洞,谁来发现AI的漏洞?》

评论:0   参与:  0