文章总结: Anthropic下一代安全模型Oceanus在2026年6月3日开启红队测试数小时后,API访问权限被内部人员违规倒卖至第三方代理平台,模型输出样本在社交媒体大量泄露。事件暴露AI安全评估存在分发管控失效、灰色产业链成型和安全护栏可逆性三大系统漏洞,凸显红队测试需建立端到端权限追踪、降级模型测试和实时滥用检测机制。建议行业制定红队测试行为准则并强化法律约束。 综合评分: 85 文章分类: 红队,AI安全,漏洞分析,安全建设,政策法规
红队测试刚开几小时就泄露!Anthropic Oceanus模型管控翻车
原创
ladon ladon
306Safe
2026年6月12日 16:12 北京
在小说阅读器读本章
去阅读
6月3日,Anthropic下一代安全模型Oceanus-v1-p刚开启红队测试数小时,访问权限就被第三方API代理以每百万token 16美元的价格公然转售,模型输出样本在社交媒体上大量流传。一场本应高度受控的安全评估,瞬间变成”越狱现场”。
一、事件经过:红队测试几小时即遭”破门”
6月3日,Anthropic下一代模型标识符claude-oceanus-v1-p出现在Claude Console中,随即开放红队测试。然而:
- 模型API接口被内部人员违规打包,倒卖给API代购服务商
- 中国API代理开始公开转售Oceanus访问权限,输入token定价16美元/百万,输出80美元/百万——约为Claude Opus的三倍
- 模型输出样本在X/Twitter上大量流传,用户纷纷晒出”越狱成果”
- Anthropic管理层发现后,全面叫停红队测试项目
Oceanus对外以”Mythos”名称发布,后以Fable 5正式上线并加装安全护栏。但红队测试阶段的泄露已成事实。
二、Oceanus有多强?为什么泄露如此危险
上一代安全模型在内部测试中已可发现超过10000个零日漏洞,恢复率超过99%。Oceanus被描述为”被囚禁”的强大模型,可能具备自归式自我改进能力。
这意味着:如果这类模型在红队测试阶段就失去管控,其能力可能被恶意利用——自动化漏洞挖掘、武器级代码生成、社会工程攻击……后果不堪设想。
三、红队测试的系统性漏洞
此次事件暴露了AI安全评估的三个深层问题:
-
分发管控失效
:红队测试本应是受控环境,但API密钥的分发和流转缺乏有效监控。参与测试的人员可以将权限转售,说明缺乏使用端的技术约束
-
灰色产业链已成型
:API中转站已成规模,从Claude到GPT-4,几乎所有前沿模型的非官方渠道都在运转。这些灰色渠道既服务普通用户,也为恶意行为者提供入口
-
安全护栏的可逆性
:即使正式发布时加装了安全护栏,红队测试阶段的无护栏版本已流出。一旦模型权重或接口被复制,后续加装的护栏形同虚设
四、给AI安全从业者的启示
- 红队测试必须建立端到端的权限追踪:每个API密钥绑定身份、限速、可追溯
- 测试阶段应使用降级模型或能力受限版本,而非全量模型
- 建立实时滥用检测机制,异常调用模式应自动触发密钥吊销
- 行业需要建立红队测试行为准则,违规转售应承担法律后果
讽刺的是,Anthropic CEO Amodei刚刚呼吁政府强制测试AI模型——而自家模型的测试管控就先翻车了。这恰恰证明了他的观点:仅靠企业自律,远远不够。
参考来源:知乎AI早报、网易科技、CSDN
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:306Safe ladon ladon《红队测试刚开几小时就泄露!Anthropic Oceanus模型管控翻车》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论