2026-06-24 05:39:31 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本周AI领域聚焦Agent技术实用化进展，Z.ai开源GLM-5.2实现1M上下文长周期任务处理，Qwen推出机器人套件布局具身智能。ClaudeCode和Codex分别推出可分享Artifacts与流程录制功能，Block披露Builderbot已承担15%生产代码变更。技术趋势显示Agent正从单次对话转向可复用、可评估的工程化资产，建议开发者关注长上下文成本控制与多模型融合方案。 综合评分： 75 文章分类： AI安全,技术标准,解决方案,安全开发,安全工具

cover_image

ThinkInAI Weekly AI周刊 VOL.49：开源模型追到 1M 上下文，Agent 开始学会“把经验变成技能”

ThinkInAI社区

2026年6月22日 08:01 上海

在小说阅读器读本章

去阅读

这一周，AI 圈的关键词不是“又大了”，而是“更能干活了”。Z.ai 开源 GLM-5.2，把 1M 上下文、长周期编程和 MIT 许可一起端上桌；Qwen 把模型能力推进到机器人套件；Claude Code 和 Codex 都在把一次性对话变成可分享、可复用的工作资产。另一边，Block 说 Builderbot 已经写下约 15% 的生产代码变更，Vercel Eve 则试图把 Agent 像软件一样发布、评测和回滚。本周 2 个头条 + 6 个精选，一次看完。

本周头条

1. Z.ai GLM-5.2：开源长周期 Agent 模型，正式打到 1M 上下文

Z.ai 这周开源了 GLM-5.2。它不是单纯把窗口拉长，而是把“1M token 上下文 + 编程 Agent + 开源许可”放在同一张牌桌上。官方给出的定位很直接：面向 long-horizon tasks 的旗舰模型，首次在 GLM 系列里提供稳定 1M token context。

这件事为什么值得放头条？因为长上下文已经从“能塞多少 token”变成了“塞进去之后还能不能稳定干活”。GLM-5.2 的核心机制叫 IndexShare：在每 4 层 sparse attention 里复用同一个 indexer，官方称在 1M 上下文长度下把每 token FLOPs 降低 2.9x；同时改进 MTP layer，让 speculative decoding 的 acceptance length 最高提升 20%。这不是 PPT 参数，而是冲着长任务成本去的。

官方披露的编程成绩也很有攻击性：Terminal-Bench 2.1 从 GLM-5.1 的 63.5 拉到 81.0，SWE-bench Pro 从 58.4 到 62.1；在 FrontierSWE、PostTrainBench、SWE-Marathon 这类长周期编程基准里，Z.ai 称 GLM-5.2 是最高排名的开源模型。其中 FrontierSWE 上只落后 Claude Opus 4.8 约 1%，并小幅超过 GPT-5.5；SWE-Marathon 上仍落后 Opus 4.8 13%，但保持在开源模型第一梯队。

它还有一个很现实的产品点：effort level control。用户可以在速度、成本和能力之间调档，而不是每个任务都开最高推理预算。这对真实 coding agent 很关键，因为多数工程任务不是“越想越好”，而是“刚好够用且别太贵”。

需要冷静看的地方也很明确：这些 benchmark 数字主要来自官方披露，仍需第三方复测；1M 上下文能否稳定处理真实大型仓库、长调试链路和多轮工具调用，也要看开发者实测。但 GLM-5.2 把开源模型推进到一个新的参照系：不是只在单轮代码题上追闭源，而是在数小时级长任务上追。

一句话判断：GLM-5.2 的意义不是“开源模型又刷了榜”，而是开源阵营开始正面争夺长周期 Agent 的底座位置。

2. Qwen Robot Suite：Qwen 开始把模型送进物理世界

Qwen 这周推出 Qwen-Robot Suite，把战场从代码、聊天、多模态理解，继续推到具身智能。简单说，这不是“又一个机器人 Demo”，而是通义千问试图为真实物理环境里的 embodied agents 提供模型与工具底座。

官方材料把 Qwen-Robot 描述为一组面向工具使用的 VLA / embodied agent 模型，目标是让机器人在真实环境中完成复杂推理、感知、交互和动作执行。这里的关键词是“suite”：它不是只发一个模型权重，而是把视觉、语言、动作和工具调用放进同一个机器人任务框架里。

为什么本周值得看？因为大模型公司的下一步都在往“可执行任务”走。代码 Agent 是数字世界里的执行入口，机器人 Agent 则是物理世界里的执行入口。Qwen-Robot Suite 的信号是：国产模型厂商不满足于做通用聊天和 coding 模型，而是开始把能力迁移到 VLA、机器人策略、仿真/真实环境评测这些更硬的层面。

但这里不能写得太满。机器人真正落地还要过三关：硬件差异、真实数据闭环、安全验证。一个机器人模型能在演示里完成任务，不代表它能在工厂、仓库、家庭里稳定运行。Qwen-Robot Suite 的价值更像“统一底座”而不是“通用机器人已经到来”。

一句话判断：Qwen 这次不是在追聊天模型榜，而是在抢具身智能的接口标准。

信源

Qwen 官方博客：https://qwen.ai/blog?id=qwen-robotsuite
Alibaba Cloud 官方博客：https://www.alibabacloud.com/blog/entering-the-physical-ai-era-introducing-the-qwen-robot-suite_603261
Qwen-Robot GitHub 搜索入口：https://github.com/QwenLM

精选动态

3. Claude Code Artifacts：代码代理的输出，开始变成可分享页面

Anthropic 帮助中心本周更新的 Artifacts 文档里，有一句很关键：Artifacts in Claude Code are in beta on Team and Enterprise plans。也就是说，Claude Code 正在把一次 coding session 的输出变成可分享、可展示、可继续迭代的 artifact。

过去 coding agent 的产物大多藏在终端日志、patch、PR 或本地文件里。Artifacts 改变的是协作界面：一个工具、页面、可视化或执行结果，可以脱离聊天窗口被团队查看、评论和复用。这对产品、设计、运营参与代码工作流很重要，因为他们不一定要看完整 transcript，只要看结果能不能用。

边界也要写清楚：Claude Code Artifacts 仍是 Team/Enterprise beta，不是所有用户全量可用；普通 Claude 的 Artifacts 和 Claude Code 的 artifacts 也不是完全同一件事。前者偏内容/应用生成，后者更像 session output 的发布层。

信源

Anthropic Help Center：https://support.anthropic.com/en/articles/9487310-what-are-artifacts-and-how-do-i-use-them
Claude Code 文档：https://docs.anthropic.com/en/docs/claude-code

4. Codex Record & Replay：演示一次，生成一个可复用 Skill

Codex 的 Record & Replay 很像把“手把手教同事做事”产品化。用户在 Mac 上录一次真实工作流，Codex 观察动作和窗口内容，停止录制后把流程整理成 skill：什么时候用、需要什么输入、步骤怎么走、怎么验证结果。

这件事的重点不是录屏，而是知识沉淀。很多工作流很难用一句提示词讲清楚，比如报销、发视频、下载周期报告、创建符合团队规范的 issue。Record & Replay 让用户先做一遍，Codex 再把它变成可复用流程资产，并可结合 Computer Use、浏览器动作、连接的插件一起执行。

官方边界也很清楚：目前可用于 macOS，初始可用范围不含 EEA、英国和瑞士，并且需要 Computer Use 可用且启用。

信源

OpenAI Codex Record & Replay：https://developers.openai.com/codex/record-and-replay
Codex changelog：https://developers.openai.com/codex/changelog

5. Block Builderbot：每周合并 1,500 个 PR，约占生产代码变更 15%

Block 这周公开 Builderbot，最硬的数据是：每天执行超过 200,000 次操作，每周合并约 1,500 个 pull requests，约占 Block 全部生产代码变更的 15%。Block 还说，100% 的工程师都在定期使用 AI。

这不是“一个工程师用了 AI 写代码”的故事，而是 AI 进入工程组织流水线的故事。Builderbot 处理 scaffolding、重复性改动、CI 反馈迭代，人类工程师负责判断、产品取舍和最终质量。它构建在 Block 开源的 goose agent framework 上，而 goose 已贡献给 Linux Foundation 下的 Agentic AI Foundation。

需要避免误读：15% 生产代码变更不等于替代 15% 工程师。更准确的说法是，AI 已经在有权限、有 review、有 CI、有组织上下文的工程流程里，持续产出可合并代码。

信源

Block 官方文章：https://block.xyz/inside/block-rolls-out-builderbot-a-new-suite-of-ai-native-tools-that-changes-the-way-we-ship
goose：https://block.github.io/goose/

6. Vercel Eve：把 Agent 当成软件一样发布

Vercel 发布 Eve，最有意思的不是“又一个 Agent 框架”，而是它把 Agent 拉回了软件工程常识：文件、Git、commit、diff、review、eval、preview、rollback。

官方说，Eve agent 就是目录里的文件；新的 prompt、tool、skill 都可以是一次 commit。 eveeval 可以接入 CI，把评估变成部署门禁；每个 commit 还有 preview deployment，团队可以先和下一版 agent 对话，再决定是否替换生产版本。出问题时，也能像普通软件一样回滚。

Vercel 还披露，内部已经在生产运行 100 多个 agents；最常用的数据分析 agent 每月处理超过 30,000 个问题，并按提问者权限范围访问数据。这说明 Eve 的目标不是“让你玩 prompt”，而是让 agent 能被组织长期维护。

信源

Vercel Eve 官方博客：https://vercel.com/blog/introducing-eve

7. OpenRouter Fusion：模型选择题，变成模型组合题

OpenRouter Fusion 的思路很直接：一次请求不只给一个模型，而是给一组模型，再由 judge/synthesizer 融合答案。它把“我该选 GPT 还是 Claude 还是 Gemini”变成“哪些模型组合能互相补短板”。

官方在 100 个 DRACO deep research 任务上测试：Fable 5 + GPT-5.5 fusion 得分 69.0%，高于 Fable 5 单模型 65.3%；一个预算模型 panel（Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro）得分 64.7%，高于 GPT-5.5 的 60.0% 和 Claude Opus 4.8 的 58.8%。但也要注意，部分 Fable 5 任务因内容过滤未完成，直接横比并不完美。

Fusion 对普通问答未必划算，但对深度研究、复杂决策、需要多角度校验的任务很有价值。下一阶段的 API 竞争，可能不再只是“谁家单模型最强”，而是“谁能把多模型组合得最好”。

信源

OpenRouter Fusion 官方博客：https://openrouter.ai/blog/announcements/fusion-beats-frontier/
Fusion 产品页：https://openrouter.ai/fusion

8. Kimi K2.7 Code：开源 Coding Agent 继续追赶

Moonshot AI 发布 Kimi K2.7 Code，定位是 open-source agentic coding model。官方给出的主线是：相比 K2.6，K2.7 Code 在长周期 coding 和 agentic task execution 上明显提升，同时 thinking token 使用量减少约 30%。

官方表格里，Kimi Code Bench v2 从 50.9 提升到 62.0，Program Bench 从 48.3 到 53.6，MLS Bench Lite 从 26.7 到 35.1；Agentic 评测里，Kimi Claw 24/7 Bench 从 42.9 到 46.9，MCP Atlas 从 69.4 到 76.0，MCP Mark Verified 从 72.8 到 81.1。

但也要把边界说清楚：Kimi Code Bench v2 和 Kimi Claw 24/7 Bench 是 Moonshot 内部基准；表格中 GPT-5.5 和 Claude Opus 4.8 在多个项目仍保持领先。K2.7 Code 的价值是开源模型继续缩小差距，而不是已经全面超过闭源 coding 工具链。

信源

Kimi K2.7 Code 官方页面：https://www.kimi.com/resources/kimi-k2-7-code

快讯雷达

ENPIRE：NVIDIA/GEAR 团队发布真实机器人策略自改进系统，frontier coding agents 可在 PushT、pin insertion、zip-tie cutting 等任务上自动迭代策略，官方展示部分任务达到 99% pass@8。来源：https://research.nvidia.com/labs/gear/enpire
SpatialClaw：NVIDIA 相关研究提出用 coding-as-measurement 审计空间智能，正确论文号为 arXiv:2606.13673。来源：https://arxiv.org/abs/2606.13673
AgentPerf：NVIDIA Blackwell 与 Artificial Analysis 推进 agent performance 评估。来源：https://blogs.nvidia.com/blog/nvidia-blackwell-agentperf-artificial-analysis/
PawBench：AgentScope 相关多智能体/工具使用基准继续补齐 agent 评测生态。来源：https://github.com/agentscope-ai/PawBench
Sakana Marlin：Sakana AI 发布 Marlin。来源：https://sakana.ai/marlin
Open Knowledge Format：Google Cloud 讨论 OKF 如何改善数据共享。来源：https://cloud.google.com/blog/products/data-analytics/how-the-open-knowledge-format-can-improve-data-sharing
ARD Spec：Agentic Resource Discovery 试图标准化 Agent 发现外部资源的协议。来源：https://agenticresourcediscovery.org/spec
SkillOpt：Microsoft SkillOpt 聚焦 skill 优化与 agent skill 生态。来源：https://microsoft.github.io/SkillOpt
Copilot Cowork：Microsoft 宣布 Copilot Cowork GA。来源：https://www.microsoft.com/en-us/microsoft-365/blog/2026/06/16/copilot-cowork-is-now-generally-available

本周观察

这周最清晰的主线，是 AI 正在从“回答问题”变成“沉淀工作方法”。

GLM-5.2 和 Kimi K2.7 Code 说明，开源模型正在追长周期编程任务；Qwen Robot Suite 和 ENPIRE 说明，这条线正在往物理世界延伸；Claude Code Artifacts、Codex Record & Replay、Vercel Eve 则说明，Agent 的真正护城河不只是模型，而是工作流资产、评估体系和组织上下文。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：ThinkInAI社区《ThinkInAI Weekly AI周刊 VOL.49：开源模型追到 1M 上下文，Agent 开始学会“把经验变成技能”》