红队测试刚开几小时就泄露!AnthropicOceanus模型管控翻车

admin 2026-06-13 04:16:59 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: Anthropic下一代安全模型Oceanus在2026年6月3日开启红队测试数小时后,API访问权限被内部人员违规倒卖至第三方代理平台,模型输出样本在社交媒体大量泄露。事件暴露AI安全评估存在分发管控失效、灰色产业链成型和安全护栏可逆性三大系统漏洞,凸显红队测试需建立端到端权限追踪、降级模型测试和实时滥用检测机制。建议行业制定红队测试行为准则并强化法律约束。 综合评分: 85 文章分类: 红队,AI安全,漏洞分析,安全建设,政策法规


cover_image

红队测试刚开几小时就泄露!Anthropic Oceanus模型管控翻车

原创

ladon ladon

306Safe

2026年6月12日 16:12 北京

在小说阅读器读本章

去阅读

6月3日,Anthropic下一代安全模型Oceanus-v1-p刚开启红队测试数小时,访问权限就被第三方API代理以每百万token 16美元的价格公然转售,模型输出样本在社交媒体上大量流传。一场本应高度受控的安全评估,瞬间变成”越狱现场”。

一、事件经过:红队测试几小时即遭”破门”

6月3日,Anthropic下一代模型标识符claude-oceanus-v1-p出现在Claude Console中,随即开放红队测试。然而:

  1. 模型API接口被内部人员违规打包,倒卖给API代购服务商
  2. 中国API代理开始公开转售Oceanus访问权限,输入token定价16美元/百万,输出80美元/百万——约为Claude Opus的三倍
  3. 模型输出样本在X/Twitter上大量流传,用户纷纷晒出”越狱成果”
  4. Anthropic管理层发现后,全面叫停红队测试项目

Oceanus对外以”Mythos”名称发布,后以Fable 5正式上线并加装安全护栏。但红队测试阶段的泄露已成事实。

二、Oceanus有多强?为什么泄露如此危险

上一代安全模型在内部测试中已可发现超过10000个零日漏洞,恢复率超过99%。Oceanus被描述为”被囚禁”的强大模型,可能具备自归式自我改进能力。

这意味着:如果这类模型在红队测试阶段就失去管控,其能力可能被恶意利用——自动化漏洞挖掘、武器级代码生成、社会工程攻击……后果不堪设想。

三、红队测试的系统性漏洞

此次事件暴露了AI安全评估的三个深层问题:

  1. 分发管控失效

    :红队测试本应是受控环境,但API密钥的分发和流转缺乏有效监控。参与测试的人员可以将权限转售,说明缺乏使用端的技术约束

  2. 灰色产业链已成型

    :API中转站已成规模,从Claude到GPT-4,几乎所有前沿模型的非官方渠道都在运转。这些灰色渠道既服务普通用户,也为恶意行为者提供入口

  3. 安全护栏的可逆性

    :即使正式发布时加装了安全护栏,红队测试阶段的无护栏版本已流出。一旦模型权重或接口被复制,后续加装的护栏形同虚设

四、给AI安全从业者的启示

  • 红队测试必须建立端到端的权限追踪:每个API密钥绑定身份、限速、可追溯
  • 测试阶段应使用降级模型能力受限版本,而非全量模型
  • 建立实时滥用检测机制,异常调用模式应自动触发密钥吊销
  • 行业需要建立红队测试行为准则,违规转售应承担法律后果

讽刺的是,Anthropic CEO Amodei刚刚呼吁政府强制测试AI模型——而自家模型的测试管控就先翻车了。这恰恰证明了他的观点:仅靠企业自律,远远不够

参考来源:知乎AI早报、网易科技、CSDN


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:306Safe ladon ladon《红队测试刚开几小时就泄露!Anthropic Oceanus模型管控翻车》

评论:0   参与:  0