2026-03-31 11:47:19 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文指出大模型强化学习的泛化能力正颠覆网络安全。结合泄露的Anthropic新模型Capybara信息，说明其漏洞利用能力远超防御水平，官方被迫优先让防御方提前打疫苗。文章认为RL飞轮将快速涌现超越人类的黑客思维，垂直安全模型毫无护城河，从业者须正视AI降维打击风险。 综合评分： 55 文章分类： AI安全,威胁情报,漏洞预警,安全意识

cover_image

网络安全和Capybara

xsser xsser

xsser的博客

2026年3月27日 16:41 浙江

其实在24年的时候我就觉得网络安全可能没了，24年2月，deepseek的r1论文出来，在后续的博客里我依然会嘲讽那些没看过这个论文的人，包括现在可能你在看我文章你依然不知道这个论文的存在也不知道他带来的冲击。

deepseek的论文除了说明了sft-rl这样的训练方式可以保持在后训练过程中提升模型scaling law效果，还有一个点，其实一直隐藏但是我发现很少有人理解，除了做模型训练的人，网安的人现在研究的很少了。RL可以提升模型的泛化能力，之前我调研了下anthropic的论文，也发现他们在说这个事情，这也就是为什么大厂在追求rl，rl的核心是靶场的稳定性，这个在glm5论文也提到了，各种rl训练的问题什么训推分离，更稳定的实验环境等等。

其实很大的威胁来自于rl的这个泛化能力，之前很多人吹什么垂直领域的模型能巴拉巴拉，要知道，在计算机里能被形式化的任何计算和结果不存在什么避雷，只是时间罢了，claude这样的模型互相自我对抗攻防，skill-rl 还需要什么人类介入验证吗，不需要了。不断的积累rl数据最后实现涌现出一些前面没有的能力，你认为模型做不到的能力是指当下做不到，下次能做到的时间比你啃哧啃吃做个垂直模型时间短。你以为ai有缺陷，其实就是飞轮的时间和速度罢了，claude跑2个月，2个月后你说的模型缺陷就没了，而你，2个月融资都没融到，还在那扯什么垂直领域有护城河，大模型做不到。

第一个做出飞轮的就可以吊打一切后面的，那就是anthropic。他的飞轮已经实现了。更多的用户更好的模型，现在封号都封不过来，pmf强烈到G点了。计算机领域的一切都没了。

打破这个飞轮的唯一手段就是切断需求，切断供应链，切断电力。最近的新闻已经爆出来了：

Capybara 是 Claude 下一代全新旗舰层级，Mythos 是它的代号，能力比 Opus 4.6 有阶跃式提升，网络安全能力尤其突出到让 Anthropic 自己都担心——是目前已知最接近 AGI 级别安全风险的商业模型。 3月26日，Anthropic 因 CMS（内容管理系统）配置错误，意外将约 3000 个未发布资产（包括一篇草稿博客）暴露在公开可搜索的数据缓存中。两位网络安全研究员（LayerX Security 的 Roy Paz + 剑桥大学的 Alexandre Pauwels）独立发现，Fortune 独家报道。Anthropic 被通知后迅速关闭了访问权限。

该模型「在网络安全能力上目前远超任何其他 AI 模型」 – 它「预示着即将到来的一波 AI 模型，其漏洞利用能力将远超防御者的努力」 – 因此发布策略极为谨慎：优先向网络安全防御机构提供早期访问权限，让防御者提前「给代码库打疫苗」

所以很多人对“涌现”是啥意思好像也不懂，涌现就是他的思考能力越来越强，一个菜的安全工程师和一个强的安全工程师是对软件架构和薄弱点的理解差异存在鸿沟，菜的连原理不懂，但是强的安全工程师能从架构整个攻击面，立体的思考整个薄弱点，把系统类比成水流。然后逐步哲学化，这种抽象能力就是涌现，见过几千人类的全部的幺蛾子的事情以后，它就可以预测一切，包括顶级专家的能力，只要模型无限逼近专家，顶级专家模型互相rl，就不存在什么专家不可替代的这种事情了。不存在的不要把人类的高傲和无知带进来，谦逊点，在大自然面前，你什么都不是，甚至不是一颗尘埃。所以编程的数据越来越多就自然会涌现出来超越人类的一些思路和思维。

这些其实来自于元思考能力，做黑客的人，其实很多性格是intj/entj/intp这样的，对于结构化有很强的理解能力，这些人泛化能力也很强。我最近和一个创业的同学聊天，他就觉得在社会上，搞安全的人能动性和学习能力很强，也就是在一个未知领域他们可以做的很好，这就是思维结构导致的，yc的创始人写了一个skill叫做gstack，我和它聊了下，发现yc就喜欢entj/intj这样的结构化思维的，但是更偏向于entj。我的想法是：entj就是现实社会的intj，商业的本质就是找到社会结构里的漏洞，放大杠杆实现商业价值。但是其实思维结构和intj差不多的。我接触的好几个搞安全的都是intj。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：xsser的博客 xsser xsser《网络安全和Capybara》