最强的安全AI模型,未来可能会长期受控使用

admin 2026-06-12 05:27:41 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 文档分析前沿AI安全模型ClaudeMythosPreview和GPT-5.5-Cyber的受控发布模式,指出网络安全行业正从漏洞发现瓶颈转向验证修复瓶颈。关键发现包括:Anthropic通过ProjectGlasswing让关键基础设施厂商优先使用模型发现超1万个高危漏洞,OpenAI采用分层信任访问机制,而CrowdStrike的QuiltWorks则通过整合模型、平台和服务形成产业级解决方案。建议安全公司需构建工程化harness系统将模型能力转化为可审计的安全产出。 综合评分: 85 文章分类: 漏洞分析,AI安全,安全建设,解决方案,威胁情报


cover_image

最强的安全 AI 模型,未来可能会长期受控使用

四楼南侧东 四楼南侧东

表图

2026年6月9日 21:07 北京

在小说阅读器读本章

去阅读

过去两个月,网络安全圈围绕 Anthropic 的 Claude Mythos Preview 讨论很多。Anthropic 对这个模型的描述很少见:它是一个未公开的通用前沿模型,但在网络安全任务上表现出明显跃迁,可以发现、验证,甚至串联软件漏洞。因此,Anthropic 没有把它作为普通模型开放,而是通过 Project Glasswing 让指定的关键软件厂商、基础设施公司和安全组织先用于防御场景。

这件事让安全行业第一次集中面对一个问题:当 AI 模型可以自动发现漏洞,并且有能力把多个小漏洞串成可工作的攻击链时,最强模型还能不能像其他 LLM 大模型一样开放?

我在之前那篇《讨论 AI 安全之前,先说清楚你相信什么样的 AI》里提过一个判断:网络安全是 AI 最早冲进去的比特世界之一。因为安全工作里有大量代码、日志、配置、漏洞描述和工具调用,它们都可以被读取、表达、推理和验证。攻击侧会一直追逐前沿模型,防守侧则会形成前沿能力和够用模型的分层。Mythos 之后,这个判断变得更具体了。前沿安全模型的重点,很可能会从“开放给所有人使用”,转向“先让可信防守方在受控环境里使用”。再往产业层面看,它也不会只停留在模型公司手里,而是会通过安全平台、harness工程、专业服务和修复闭环进入企业。

Mythos 和 GPT-5.5-Cyber 模型的受控发布

2026 年 2 月,OpenAI 先推出 Trusted Access for Cyber,核心想法是对网络安全能力做基于身份和信任的访问分层。OpenAI 当时的说法是,前沿模型已经可以在防御场景里加速漏洞发现和修复,但同样的能力也可能被滥用。因此,安全研究人员和企业安全团队可以通过身份验证或企业渠道申请更适合防御工作的访问权限,同时模型仍然拒绝凭证窃取、恶意软件部署、破坏性测试和未授权攻击等行为。

但破圈的消息,是 4 月 7 日 Anthropic 发布的 Project Glasswing,其做法是让 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks 等初始合作伙伴使用 Mythos Preview,先扫描和加固自己的关键软件。Anthropic 同时给 40 多个维护关键软件基础设施的组织开放访问,并承诺提供最高 1 亿美元的 Mythos Preview 使用额度,以及 400 万美元给开源安全组织。

Anthropic 没有将 Mythos 限制在实验室内部使用,也没有直接作为普通模型发布。它选择了一条中间路线:把能力交给最需要加固系统、也最有条件承担责任的防守方。它不是一个常规产品发布,而像是一次有组织的前沿能力释放:先找关键软件和关键基础设施的维护者,让他们在攻击者大规模获得同类能力之前,先把最重要的系统查一遍、修一遍。

4 月 23 日,CrowdStrike 发布 Project QuiltWorks,把这条线索往产业落地又推进了一步。QuiltWorks 没有被定义成一个单一产品或一项单独服务,而是 CrowdStrike 牵头的行业联盟。它把 OpenAI 和 Anthropic 的前沿模型、Accenture、EY、IBM Cybersecurity Services、Kroll 等系统集成和安全服务力量,以及 CrowdStrike 自己的 Falcon 平台放在一起,目标是帮助企业回答一个董事会层面的问题:我们是否暴露在这些 AI 发现的新漏洞风险之下?

到了 5 月 7 日,OpenAI 进一步发布 GPT-5.5 和 GPT-5.5-Cyber 的 Trusted Access 方案,把前沿安全模型的分层访问讲得更细。普通 GPT-5.5 保持标准安全限制;经过 Trusted Access for Cyber 验证的防守方,可以在授权环境里获得更适合安全工作的能力边界,用于安全代码审查、漏洞分诊、恶意软件分析、检测工程和补丁验证;GPT-5.5-Cyber 则是更小范围的 preview access,面向授权红队、渗透测试和受控验证等更高风险工作,并配套更强的身份验证、账户控制和使用监控。

OpenAI 后来又把这套思路整理成 Daybreak,把 OpenAI 模型、Codex 作为 agentic harness,以及安全生态伙伴结合起来,让防守方在日常开发循环里做安全代码审查、威胁建模、补丁验证、依赖风险分析、检测和修复指导。它强调三件事:更早看到风险,更快采取行动,并让软件从设计阶段就更有韧性。因为同样的能力可能被滥用,Daybreak 也明确把扩展防御能力和信任验证、比例化安全限制、责任机制放在一起。

5 月 18 日,Cloudflare 发布了自己参与 Project Glasswing 的经验,Cloudflare 把 Mythos Preview 指向 50 多个自己的代码仓库,测试它能发现什么,也测试它怎样工作。最后得到的结论很明确:Mythos 的能力确实比此前的通用前沿模型强很多,尤其是在构造漏洞利用链和验证漏洞可利用性上;但把一个通用 coding agent 丢到任意代码仓库里,让它“找漏洞”,效果并不好。模型需要被放进更好的工程系统里,才会产生稳定的安全产出。

5 月 22 日,Anthropic 发布 Project Glasswing 的初步更新,进一步把这个变化量化了。Anthropic 称,它和大约 50 个合作伙伴已经用 Claude Mythos Preview 在全球最重要的一批软件中发现了超过 1 万个高危或严重漏洞。Cloudflare 自己发现了 2,000 个漏洞,其中 400 个为高危或严重级别;Mozilla 在 Firefox 150 测试中发现并修复了 271 个漏洞;XBOW 也认为 Mythos 在其 web exploit benchmark 上相比已有模型有显著跃迁。Anthropic 同时披露,他们用 Mythos 扫描了 1,000 多个开源项目,模型估计发现了 6,202 个高危或严重漏洞,其中一部分经过外部安全团队验证后,真阳性率和高危确认比例都不低。

6 月 2 日,Anthropic 又把 Glasswing 扩大到约 150 个新组织,覆盖 15 个以上国家,新增领域包括电力、水务、医疗、通信和硬件制造等关键基础设施行业。Anthropic 在扩展公告里说,Project Glasswing 已经引发了软件行业和政府之间的大量讨论;他们希望这类项目推动机构形成新的运行规范,因为便宜、快速、具备强网络安全能力的 AI 模型很快就会出现。

把这些事情按时间顺序摆出来,会发现它们其实指向同一个方向:前沿模型公司并没有把最强安全能力简单公开,也没有把它彻底封存,而是在尝试一种受控释放模式。模型能力先交给可信防守方,访问权限按身份、场景和风险分层,安全平台和服务伙伴负责把发现转化成修复,整个过程逐渐形成可审计、可验证、可运营的工程闭环。

Mythos Moment 改变了安全行业的瓶颈

这轮变化之所以重要,是因为安全行业的瓶颈正在发生转移。过去很长时间里,漏洞发现是稀缺能力。高水平漏洞研究员少,自动化扫描器能力有限,很多深层漏洞需要长期经验、耐心和运气。Mythos Preview 的出现,让这个前提开始松动。Anthropic 在 Project Glasswing 的初步更新里说,软件安全进展过去受限于发现新漏洞的速度,现在受限于验证、披露和修补大量 AI 发现漏洞的速度。

这句话很重要。它意味着安全行业从“找不到洞”进入“处理不过来”的阶段。AI 不会自动让世界更安全,它先制造了一个新的能力差:谁能更早、更快、更系统地使用这种能力,谁就能先看到别人还没看到的风险。对防守方来说,这是机会;对攻击者来说,也是机会。

更麻烦的是,AI 发现漏洞的速度一旦提升,传统漏洞管理体系就会被推到极限。维护者要验证漏洞是否真实,要判断影响范围,要准备补丁,要协调披露窗口,还要面对大量质量不稳定的 AI 生成报告。Anthropic 在开源扫描部分提到,部分维护者甚至要求他们放慢披露速度,因为维护者需要时间设计补丁。也就是说,前沿模型把“发现”这一步大幅加速以后,后面的验证、沟通、修补和部署都会成为新的瓶颈。

但光有前沿模型还不够

Cloudflare 的经验说明,强模型本身还不是完整的安全能力。漏洞研究不是一个单线任务。一个真实代码库可能有几十万行代码,里面有复杂架构、依赖关系、信任边界和历史包袱。人类安全研究员也不会从头到尾漫无目的地看一遍代码。他会选一个攻击面、一个模块、一个漏洞类型,然后围绕它深挖。模型也一样。给它一个过大的任务,它会游走、猜测、产出大量噪声。把任务拆窄,给它明确上下文,让多个 agent 并行探索,再用独立 agent 反向验证,结果就会好很多。

Cloudflare 后来搭了一套 vulnerability discovery harness。它先让 agent 读代码、理解架构、生成攻击面,再把任务拆成许多窄问题并行搜索。发现问题后,再由另一个 agent 尝试推翻原始发现。随后做去重、追踪漏洞是否真的可达,并把结果写成结构化报告进入内部系统。到这一步,它已经脱离聊天框和普通代码助手,更像一套围绕模型搭出来的安全生产系统。

这里有一个很重要的产业判断:模型能力决定上限,工程系统决定产出。没有足够强的模型,很多复杂安全任务确实做不出来。但只有模型也不够。安全行业需要把模型包进流程里,让它能读代码、懂架构、调工具、跑测试、做验证、进工单,并且留下审计证据。这也是为什么我觉得 harness 这个词在接下来会变得很重要。它比提示词工程更重,接近模型进入专业场景的操作系统。谁能把模型的能力稳定地转化成结果,谁就掌握了商业价值。

为什么最强模型会长期受控

网络安全和很多 AI 应用不同,它天然是对抗性的。一个能发现复杂漏洞、构造 PoC、串联攻击链的模型,放在防守方手里可以修洞,放在攻击者手里也可以打洞。更麻烦的是,攻击者始终有动力使用能力最强的模型。

在防守侧,大量日常任务会逐渐被够用模型覆盖。比如告警摘要、资产分类、配置检查、检测规则初稿和报告生成,只要模型跨过可用线,企业就会更关心成本、稳定性、权限和集成。旧模型、小模型、本地模型都会有价值。但攻击侧不太一样。复杂漏洞利用、多漏洞链式组合、特定系统状态理解和长程攻击路径规划,都会受益于最强模型。领先模型多一点推理能力、多一点工具使用能力、多一点坚持到最后的能力,可能就意味着能不能把一个低危问题串成高危漏洞,能不能把一个理论缺陷变成可用 exploit。

所以,前沿模型如果先到攻击者手里,而大部分防守方还没来得及用同等能力检查和修补自己的系统,风险窗口会被迅速放大。即使防守方已经通过 Glasswing、Daybreak 或 QuiltWorks 这类项目加固了一轮系统,这个问题也不会一次性结束。下一代模型出来后,可能又能发现上一代模型和人类研究员没看出来的复杂漏洞。安全加固更像一场持续竞速,很难靠一轮行动彻底完成。

因此,对于最强安全 AI 模型的发布和使用,更可能出现的是多层控制:模型公司主动限制高风险能力,云平台和 API 账户做身份与权限控制,安全团队通过可信访问机制获得更高能力,关键基础设施和核心软件维护者优先使用,监管机构在模型上线、备案和风险评估中持续介入。美国现在看到的,主要是模型公司和生态伙伴主动组织受控释放。Anthropic 是 Glasswing,OpenAI 是 Trusted Access for Cyber 和 Daybreak。国内已有生成式 AI 服务备案、安全评估和算法备案机制,模型公司和监管部门在模型公开前本来就有互动空间。如果模型公司自己不对高风险攻防能力做分层管理,后续很可能会引发更强的外部监管压力。

QuiltWorks 更接近产业答案

前沿模型长期受控,不代表模型能力无法进入企业,重点在于它应该通过什么形态进入企业。CrowdStrike 的 Project QuiltWorks 很可能更接近产业答案。它要解决的问题,是前沿 AI 带来的 vulnerability gap:AI 可以更快发现漏洞,传统扫描器和人工审查跟不上。客户更关心的问题变成:我们暴露了吗?哪些漏洞真的可被攻击者利用?应该先修什么?谁来修?修完以后如何证明已经安全?

这就是安全公司的机会。客户并不缺一个会说“这里可能有漏洞”的模型。事实上,AI 生成的低质量漏洞报告已经让很多开源维护者和安全团队头疼。客户缺的是一套系统,能把模型发现转化成可信判断,再转化成修复动作。QuiltWorks 的结构正好覆盖这条链路:先评估组织当前安全状态和修复能力,再用前沿模型扫描代码和应用,随后结合真实攻击情报和业务影响做优先级排序,最后通过合作伙伴平台提供修复指导和管理层报告。

关键不在 CrowdStrike 自己有没有最强模型,更多在于它的安全平台位置。Falcon 本来就连接客户环境、终端数据、威胁情报和响应流程。模型可以发现更多东西,但哪些东西真的重要,哪些攻击者真的能触达,哪些资产关系到业务关键系统,这些判断需要安全平台里的上下文。这也是为什么网络安全公司不能只把前沿模型当成一个外部 API。API 可以被很多人调用,但客户环境、资产关系、漏洞生命周期、检测能力和修复服务,不会自动出现在模型里。安全公司如果能把这些上下文组织起来,就可能成为前沿安全模型进入企业的入口。

国内网安公司应该主动作为

放回国内看,这件事对网络安全公司尤其重要。过去几年,国内安全行业讨论 AI,很多时候停留在两个方向:一类是做安全大模型,另一类是把大模型接进现有产品,做告警总结、报告生成和问答助手。这些都可以做,但如果前沿安全模型真的进入 Mythos 这样的阶段,仅仅做助手就不够了。更关键的位置,是成为模型公司、监管机构和合法防守方之间的可信使用层。

国内模型公司未来如果训练出攻防能力很强的模型,应该主动做分层释放。哪些能力给普通开发者,哪些能力给经过验证的安全团队,哪些能力只在封闭环境里用于关键系统修复,这些都需要机制。网络安全公司可以参与能力评测、使用审计、授权验证和场景交付,也可以帮助模型公司证明这些能力正在被用于防御,而不是进入不可控的扩散路径。

这件事不能只停留在合规或流程层面,也需要安全公司的工程能力。模型接入只是开始。更关键的是让模型进入漏洞发现、资产关联、可达性分析、补丁验证和安全运营流程,让它能在客户真实环境里留下可追溯的证据,形成可复核的报告,并把发现的问题推进到修复。中国客户的环境往往更复杂,历史系统更多,私有化部署和本地数据要求更强。安全公司如果能把模型和客户现场的资产、代码、漏洞、流量和工单系统连起来,就更有资格成为这种可信使用机制的承载方。

这里还有一个现实问题,中国已经有生成式 AI 服务备案、安全评估和算法备案要求,尤其是面向公众提供服务时,模型公司不能只按商业节奏上线。攻防能力强的模型如果没有自我约束机制,很可能在备案、安全评估和实际运营中遇到更高压力。对国内模型公司来说,主动限制高风险能力并不保守,它是在争取发展空间;对国内网安公司来说,主动参与这种受控使用机制,也并非给自己找麻烦,它是在前沿模型时代重新定义行业位置。

写在最后

Mythos 引发的讨论,表面上看是一个模型发布事件,实质上是网络安全行业遇到的新拐点。前沿模型正在把漏洞发现能力放大。这个变化会帮助防守方,也会帮助攻击者。因为攻击者永远有动力追逐最强模型,所以最强攻防模型很难像其他 LLM 大模型一样直接开放。它更可能长期处在受控释放、可信访问和场景约束之中。

Anthropic 的 Glasswing、OpenAI 的 Daybreak 和 CrowdStrike 的 QuiltWorks,都在指向同一个方向:模型能力要进入安全工程系统,进入客户环境,进入修复闭环。对网络安全公司来说,这是一次重要机会。过去安全公司卖产品、卖服务、卖平台。未来,安全公司还可能成为前沿安全模型的可信部署者。它们不一定训练出最强模型,但可以把最强模型变成客户可用、可控、可验证的防御能力。

这件事国内也应该尽快研究起来。前沿攻防模型的管制不会只是政策问题,也会是产业问题。谁能先把受控访问、工程 harness、安全平台和修复服务组织起来,谁就更可能在下一轮安全 AI 竞争中站到关键位置。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:表图 四楼南侧东 四楼南侧东《最强的安全 AI 模型,未来可能会长期受控使用》

评论:0   参与:  0