文章总结: Anthropic发布ClaudeFable5作为全新Mythos能力层级首款模型,定位超越ClaudeOpus系列,擅长复杂多步推理任务。该模型具备挖掘利用软件漏洞的潜在能力,但采用独特安全机制:对敏感请求不直接拒绝,而是降级交由ClaudeOpus4.8处理,误伤率低于5%。内部评估及超1000小时外部测试未发现通用越狱方法。同时推出移除网络限制的Mythos5版本,通过玻璃翼计划定向提供给政府及关键基础设施防御方。
综合评分: 91
文章分类: AI安全,漏洞分析,网络安全
Anthropic发布Claude Fable 5:能力越强,安全越狠
小雪 小雪
看雪学苑
2026年6月10日 18:00 上海
在小说阅读器读本章
去阅读
近日,Anthropic 正式发布了 Claude Fable 5 —— 这是其全新 “神话级”(Mythos)能力层级中的首款公开模型。
1
比 Opus 更强,专啃“硬骨头”
Fable 5 的定位非常清晰——稳稳踩在 Claude Opus 系列之上。
在绝大多数能力基准测试中,它都拿下了 SOTA(最先进水平),尤其擅长那些又长又绕、需要多步推理的复杂任务。简单说:普通模型干不了的脏活累活,Fable 5 反而最拿手。
但问题也随之而来。Anthropic 内部评估发现,Mythos 级别的模型在挖掘和利用软件漏洞方面天赋异禀,甚至能玩转“代理黑客”——把侦察、渗透、横向移动、漏洞利用串成一条完整的攻击链。
这能力,既是神兵,也是魔刃。
2
不直接拒绝,而是“巧妙降级”
换作别家,可能会选择一刀切:凡是危险请求,统统拒掉。但 Anthropic 这次换了个思路。
Fable 5 不会直接对你说“不”。当系统检测到请求可能涉及网络安全、生物化学、模型蒸馏等敏感领域时,它会悄悄把会话转交给一个能力更弱的模型 —— Claude Opus 4.8 来接手。
用户只会收到一条通知:当前已切换到备选模型。这招比粗暴拒绝更聪明:既保留了 Fable 5 的正常使用体验,又给危险请求上了一道隐形闸门。
3
误伤率低于5%,超过1000小时没人越狱成功
Anthropic 把分类器的阈值设得相当保守,承认会误伤一小部分正常请求。但数据显示:
触发降级机制的会话占比不到 5% —— 也就是说,超过 95% 的会话都能在 Fable 5 的满血能力下运行。
安全测试结果也相当能打:
-
内部评估:分类器成功阻止 Fable 5 在进攻性任务上取得任何有意义的进展。
-
外部漏洞赏金计划:累计超过 1000 小时的暴力测试,没有发现任何通用越狱方法。
-
外部红队测试:在长格式代理任务上,同样无人找到通用越狱。
唯一值得留意的“瑕疵”是:英国 AI 安全研究所在较短的测试窗口期内,曾取得过早期越狱进展。但与此同时,另一家外部合作伙伴却表示:在他们测试过的所有模型中,Fable 5 的防御是最坚固的 —— 即便是搭配 30 种公开越狱技巧,涉及攻击规划、漏洞利用、防御逃逸的单轮有害请求,Fable 5 的合规响应率为 0。
4
同一模型,两个“面孔”
Anthropic 还留了一手。
他们推出了Claude Mythos 5 —— 和 Fable 5 相同的底层模型,但移除了网络安全方面的限制。
这个“无限制版本”不会对公众开放,而是通过“玻璃翼计划”(Project Glasswing),与美国政府合作,定向提供给网络防御者和关键基础设施提供商。未来,这一访问权限将通过“信任访问计划”逐步扩大。
5
定价与数据政策:每百万token最高50美元
两个版本的定价完全一致:
- 输入:每百万 token 10 美元
- 输出:每百万 token 50 美元
另外,Anthropic 新增了一条硬性规定:所有 Mythos 级别的模型流量,必须保留 30 天日志。
这些数据仅用于安全目的 —— 检测新型越狱、多轮攻击、假阳性案例,绝不会用于模型训练。
Claude Fable 5 的发布,其实释放了一个很清晰的信号:
当 AI 能力强到足以“作恶”时,最好的防御不是禁用能力,而是给能力装上开关。
这套机制到底能防住多少真正的攻击?或许只有时间能给出答案。
但至少目前来看,超过 1000 小时没有通用越狱 —— 这个开局,已经足够让很多人闭嘴了。
资讯来源:Anthropic 官方发布信息及公开技术文档
球分享
球点赞
球在看
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:看雪学苑 小雪 小雪《Anthropic发布Claude Fable 5:能力越强,安全越狠》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论