2026-06-11 04:46:07 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： Anthropic发布ClaudeFable5作为全新Mythos能力层级首款模型，定位超越ClaudeOpus系列，擅长复杂多步推理任务。该模型具备挖掘利用软件漏洞的潜在能力，但采用独特安全机制：对敏感请求不直接拒绝，而是降级交由ClaudeOpus4.8处理，误伤率低于5%。内部评估及超1000小时外部测试未发现通用越狱方法。同时推出移除网络限制的Mythos5版本，通过玻璃翼计划定向提供给政府及关键基础设施防御方。 综合评分： 91 文章分类： AI安全,漏洞分析,网络安全

cover_image

Anthropic发布Claude Fable 5：能力越强，安全越狠

小雪小雪

看雪学苑

2026年6月10日 18:00 上海

在小说阅读器读本章

去阅读

近日，Anthropic 正式发布了 Claude Fable 5 —— 这是其全新 “神话级”（Mythos）能力层级中的首款公开模型。

比 Opus 更强，专啃“硬骨头”

Fable 5 的定位非常清晰——稳稳踩在 Claude Opus 系列之上。

在绝大多数能力基准测试中，它都拿下了 SOTA（最先进水平），尤其擅长那些又长又绕、需要多步推理的复杂任务。简单说：普通模型干不了的脏活累活，Fable 5 反而最拿手。

但问题也随之而来。Anthropic 内部评估发现，Mythos 级别的模型在挖掘和利用软件漏洞方面天赋异禀，甚至能玩转“代理黑客”——把侦察、渗透、横向移动、漏洞利用串成一条完整的攻击链。

这能力，既是神兵，也是魔刃。

不直接拒绝，而是“巧妙降级”

换作别家，可能会选择一刀切：凡是危险请求，统统拒掉。但 Anthropic 这次换了个思路。

Fable 5 不会直接对你说“不”。当系统检测到请求可能涉及网络安全、生物化学、模型蒸馏等敏感领域时，它会悄悄把会话转交给一个能力更弱的模型 —— Claude Opus 4.8 来接手。

用户只会收到一条通知：当前已切换到备选模型。这招比粗暴拒绝更聪明：既保留了 Fable 5 的正常使用体验，又给危险请求上了一道隐形闸门。

误伤率低于5%，超过1000小时没人越狱成功

Anthropic 把分类器的阈值设得相当保守，承认会误伤一小部分正常请求。但数据显示：

触发降级机制的会话占比不到 5% —— 也就是说，超过 95% 的会话都能在 Fable 5 的满血能力下运行。

安全测试结果也相当能打：

内部评估：分类器成功阻止 Fable 5 在进攻性任务上取得任何有意义的进展。
外部漏洞赏金计划：累计超过 1000 小时的暴力测试，没有发现任何通用越狱方法。
外部红队测试：在长格式代理任务上，同样无人找到通用越狱。

唯一值得留意的“瑕疵”是：英国 AI 安全研究所在较短的测试窗口期内，曾取得过早期越狱进展。但与此同时，另一家外部合作伙伴却表示：在他们测试过的所有模型中，Fable 5 的防御是最坚固的 —— 即便是搭配 30 种公开越狱技巧，涉及攻击规划、漏洞利用、防御逃逸的单轮有害请求，Fable 5 的合规响应率为 0。

同一模型，两个“面孔”

Anthropic 还留了一手。

他们推出了Claude Mythos 5 —— 和 Fable 5 相同的底层模型，但移除了网络安全方面的限制。

这个“无限制版本”不会对公众开放，而是通过“玻璃翼计划”（Project Glasswing），与美国政府合作，定向提供给网络防御者和关键基础设施提供商。未来，这一访问权限将通过“信任访问计划”逐步扩大。

定价与数据政策：每百万token最高50美元

两个版本的定价完全一致：

输入：每百万 token 10 美元
输出：每百万 token 50 美元

另外，Anthropic 新增了一条硬性规定：所有 Mythos 级别的模型流量，必须保留 30 天日志。

这些数据仅用于安全目的 —— 检测新型越狱、多轮攻击、假阳性案例，绝不会用于模型训练。

Claude Fable 5 的发布，其实释放了一个很清晰的信号：

当 AI 能力强到足以“作恶”时，最好的防御不是禁用能力，而是给能力装上开关。

这套机制到底能防住多少真正的攻击？或许只有时间能给出答案。

但至少目前来看，超过 1000 小时没有通用越狱 —— 这个开局，已经足够让很多人闭嘴了。

资讯来源：Anthropic 官方发布信息及公开技术文档

球分享

球点赞

球在看

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：看雪学苑小雪小雪《Anthropic发布Claude Fable 5：能力越强，安全越狠》