文章总结: XBOW评估报告显示AnthropicMythosPreview模型在进攻性安全领域表现突出,尤其在源代码审计方面能力显著超越现有模型,能有效发现网页和原生代码漏洞。测试表明模型需结合真实站点访问才能充分发挥潜力,虽然成本较高但精准度提升明显。建议将其作为安全分析工具链的组成部分,配合其他模型实现最优成本效益。 综合评分: 87 文章分类: 代码审计,渗透测试,漏洞分析,红队,安全工具
Mythos第一份实战报告来了
原创
XBOW XBOW
百年未有
2026年5月13日 08:27 新加坡
在小说阅读器读本章
去阅读
XBOW 是一家领先的 AI 自主进攻性安全平台,它能像专业渗透测试团队一样,自动执行攻击、发现并验证软件和网站里的真实漏洞,比传统手动方法快得多、深得多。
最近,XBOW 拿到了 Anthropic Mythos Preview 模型的早期访问权限,对它在进攻性安全领域的实际能力做了一次全面评估。下面就是他们的完整测试报告和发现。
我们几周前拿到了 Mythos Preview 的早期访问权,今天终于能公开分享我们的发现了。
大约两个月前,Anthropic 邀请我们帮忙评估一个他们认为能力有重大飞跃的新模型。于是我们用自己的安全测试“炼狱”流程好好考了它——基准测试、工作流、交互使用,还有实际集成。 现在,我们可以详细聊聊测试方法、具体结果,以及这到底意味着什么。
先剧透一下:这个模型进步巨大。它在找潜在漏洞方面明显甩开之前的所有模型,尤其是手里有源代码的时候。它说话技术精度高,对代码的推理能力强,在原生代码分析和逆向工程这些复杂领域也展现出很强的潜力。
我们的结论是:Mythos Preview 是生成高质量漏洞线索和技术精准分析的强大工具,尤其擅长带着安全思维去分析源代码。不过话说回来,模型只是“大脑”,没有“身体”。源代码审计主要靠大脑就够,但像 XBOW 做的真实网站渗透测试,却非常需要“身体”——执行能力和控制力要能跟上大脑的节奏。
测试方法 我们第一步就是从公司不同部门拉了 10 位专家,组成一支多样化的团队,从各个角度去评估这个模型。我们用的还是内部那套基准测试系统,以前测过 Opus 4.7 和 GPT 5.5 等模型。方法是:拿已知有漏洞的开源应用,把版本冻结在出问题的那一刻,然后让我们的代理去攻击。
这次我们还额外考察了几个角度:
• 模型在威胁建模、漏洞验证和安全判断上的表现 • 读源代码 vs. 和真实系统交互的能力 • 能不能发现我们标准评估之外的漏洞,比如原生应用漏洞
顺便说一下术语:大家提到 “Mythos” 时,有时指的是裸模型。这次我们既在 Claude Code 里交互使用 Mythos Preview,也通过 API 把裸模型当引擎塞进 XBOW 的代理里测试。我们把两种情况分开统计,因为编排方式、工具、提示词和真实站点访问权限都会明显影响最终效果。
测试结果 交互用过 Mythos Preview 的测试人员都挺惊艳的。有位同事直接说:“这玩意儿比我见过的任何模型都更接近‘你直接去给我找点东西出来’的感觉。” 我们把自己的源代码丢给它,它还真找出了几个弱点——幸好都不是特别严重的,但我们还是决定修掉。我们又拿开源软件测试,第一周结束就挖出了好几个需要对外披露的新漏洞。
做基准测试的同事也印象深刻,不过他们的感受更偏“数据说话”。结果清楚显示了模型在哪些地方特别猛,在哪些地方只是小幅进步。
Mythos Preview 的基准表现
我们的主要 takeaways 有这些: • 源代码审计能力极强 • 验证漏洞利用还不错,但没源码分析那么突出 • 判断力比较中规中矩,有时太死板保守,也容易把发现的问题实际重要性说高 • 原生代码漏洞发现和逆向工程上很强
下一代的漏洞发现能力 在 XBOW 的网页漏洞利用基准测试里,Mythos Preview 比目前所有其他模型都有明显提升,不管是哪家出的。
这个基准专门测试模型能不能帮我们在真实网站环境里找到经过验证、可实际动手利用的漏洞。只有在 80 个“动作”内给出有效利用方式(有 PoC),才算通过。一个动作可能是 shell 命令、Python 脚本,或者调用标准工具/XBOW 攻击工具套件。
(我们没把 Opus 4.7 放进对比图,因为它和我们系统的交互方式比较特殊,这个指标对它不适用——详细故事可以看我们之前的报告。)
和当时最新的 Opus 4.6 比,进步很明显: • 漏报数量减少了 42% • 如果同时给网站源代码,漏报甚至减少了 55% 这也再次印证了一个反复出现的主题:Mythos Preview 写代码很厉害,但读代码更厉害。
后面我们还对比了不同动作次数下的通过率。Mythos Preview 用更少的步骤就能找到漏洞,虽然和 GPT-5.5 的差距没那么夸张。
如果换个角度——用输出 token 数量当预算,而不是动作次数;同时看发现概率(命中率 / 漏报率)而不是简单通过率——Mythos Preview 在 token 效率上展现出了前所未有的精准度。
真实站点验证才是最难的部分 Mythos Preview 源码推理能力一流,但我们的测试也再次提醒大家一个现实:很多真正可利用的问题,在应用源代码里根本看不出来。它们往往藏在配置、依赖、部署方式,或者安全组件组合使用的方式里。
举个例子,一个依赖本身可能是安全的,源代码本身也可能没毛病,但代码把依赖用错了地方,就出漏洞了。正如 Gary McGraw 那句名言:光“盯着代码看”是找不到大部分缺陷的。
这对我们 XBOW 特别重要。因为我们做的是针对真实在线站点的渗透测试(攻击者看到的样子),而 Mythos Preview(比如用在 Project Glasswing 项目里)更擅长源代码审计(开发者看到的样子)。和真实站点交互虽然强大,但也带来了全新的、非常微妙的挑战。Mythos Preview 能改变这种平衡吗?
由于我们构建网页基准测试集的方式,在这些案例里光看代码其实就能找到漏洞。所以问题来了:如果不让模型访问真实站点,只给代码,它还能找到可利用的漏洞吗?
结果显示,即使在这些“漏洞纯在代码里”的基准里,不给真实站点访问权限对性能的打击,比不给源码还要大。很多时候,真实站点访问比源码访问更关键。这也正是 XBOW 的核心价值:它给前沿模型提供了一种安全、结构化的方式来和真实应用行为交互,并验证哪些发现是真正可利用的。
下面是XBOW + Mythos Preview 的结果图
现在我们对“模型能不能从代码里找到有趣的东西”这个问题有了扎实答案——答案越来越倾向于“是的”,虽然“有趣的东西”不等于“所有东西”。
但即使如此,还有一个更重要的问题:“这些发现里哪些是真正可利用、可复现、安全测试且值得修复的?”答案就在于把 Mythos Preview 强大的源码分析能力和 XBOW 对真实站点的安全分析能力结合起来,通过精心编排和验证来实现。
值得注意的是,即使 Mythos Preview 没了真实站点访问后表现大打折扣,其他模型掉得更狠。这再次证明:Mythos 最大的优势就是读源代码。
当然,最好的结果还是同时有真实站点 + 源代码访问。XBOW 编排 Mythos Preview 时就能形成最理想的流程:先分析源码找到线索,再探真实站点看弱点在部署里是怎么体现的,最后据此写出利用代码。
其他发现 我们还考察了模型的判断力、逆向工程、原生应用评估,以及视觉能力。
判断力结果比较混合
Mythos Preview 在命令安全、威胁建模、痕迹分类等方面的判断力没有发现能力那么亮眼。它往往小心且精准,但也比较死板保守。它拒绝假阳性的能力比很多前辈强,但有时也会因为证据没完全符合它的标准,或者规则描述得不够宽泛,就错过真阳性。这让 Mythos Preview 很有价值,但还不能完全独立作战——它需要精准的提示词、明确的威胁模型,以及验证基础设施,才能把强大的推理能力变成可靠的安全输出。
有一个点让我们有点惊讶:在命令安全基准测试里(我们让模型判断某个脚本是否安全执行,不会影响目标站点),我们手工标注了一大堆边缘案例。之前 Haiku 4.5 能达到 90.1% 准确率,Opus 4.6 是 81.2%,而 Mythos Preview 只有 77.8%。
但深入看它的推理过程,它其实经常有道理。有些情况从字面上没违规,但违背了规则的精神。Opus 4.6 更看重“精神”,Mythos 则更看重“字面”。
原生代码和逆向工程能力很强 除了网页应用,模型在原生代码漏洞发现和逆向工程上也展现了实质性进步。
在 Chromium 相关测试中,它用更少的假阳性找到了更多真实 bug。在 V8 sandbox 的工作里,它在之前方法只能出大量假阳性的微妙威胁模型下,成功识别出了真阳性。它还能有效筛选自己和竞争模型的发现结果。
逆向工程的结果尤其亮眼。它能推理各种不常见的固件和嵌入式系统环境,包括那些需要超出简单模式匹配的架构和操作系统组合。
浏览器交互和视觉能力已经够实际工作流用了 XBOW 的很多工作流都需要模型通过浏览器界面和真实网站交互。这时视觉能力很重要——模型得认出正确的 UI 元素并点对位置。
被测模型在 XBOW 的视觉能力 QA 测试中表现极好,大致和 Sonnet 4.6 相当,远远超过 Opus 4.6。它在要求精确坐标时不是 100% 像素级准确,但实际选浏览器动作时已经非常有效。
顺便说一句,Opus 4.7 在这个基准上也表现不错。可能真正的故事不是“Mythos Preview 很强”,而是“Anthropic 最近的模型在这个领域曾经下滑,现在终于追回来了”。
能力强,但价格也不便宜 Mythos Preview 可不是随便哪个新模型,它是个真正的 titan(巨人)。 但 titan 体型大,价格也高。你愿意花多少钱买多少保障?同样的钱换别的用法会不会更划算? 目前 Mythos Preview 还没开放公开 API,但 Anthropic 提到它会比 Opus 模型贵 5 倍——而 Opus 本身就已经是比较贵的了。
于是问题来了:我们能不能给另一个模型的Agent更多时间,达到更高准确率,同时成本更低?
答案是:可以。如果按预估运行成本归一化来看,情况就很清楚了:Mythos Preview 并不算特别低效(如果你特别追求高准确率的话),但在我们的基准里也算不上性价比之王。
这个发现和 Point Estimate 等其他分析结果一致:Mythos Preview 很强大,但实际选择往往是“花钱让代理用 Mythos Preview 跑一次”,还是“让 GPT-5.5 随便跑多久”。哪个更好取决于具体场景,很多时候是后者。
XBOW 的评估表明,前沿模型在漏洞发现上已经迈出了一大步。Mythos Preview 在找候选漏洞(尤其是从源代码)方面很强,在网页、原生代码、逆向工程等任务上都表现出色。
但它需要装在合适的“马具”里,配上正确的工具,才能发挥全部潜力。即使如此,它也只是你箭袋里的一支箭——有些任务让别的模型多试几次,可能比让 Mythos Preview 试一次更划算。这也是为什么 XBOW 一直维护着一支模型队伍,而不是只死磕某一个的原因。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:百年未有 XBOW XBOW《Mythos第一份实战报告来了》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论