文章总结: 本周AI领域聚焦Agent技术实用化进展,Z.ai开源GLM-5.2实现1M上下文长周期任务处理,Qwen推出机器人套件布局具身智能。ClaudeCode和Codex分别推出可分享Artifacts与流程录制功能,Block披露Builderbot已承担15%生产代码变更。技术趋势显示Agent正从单次对话转向可复用、可评估的工程化资产,建议开发者关注长上下文成本控制与多模型融合方案。 综合评分: 75 文章分类: AI安全,技术标准,解决方案,安全开发,安全工具
ThinkInAI Weekly AI周刊 VOL.49:开源模型追到 1M 上下文,Agent 开始学会“把经验变成技能”
ThinkInAI社区
2026年6月22日 08:01 上海
在小说阅读器读本章
去阅读
这一周,AI 圈的关键词不是“又大了”,而是“更能干活了”。Z.ai 开源 GLM-5.2,把 1M 上下文、长周期编程和 MIT 许可一起端上桌;Qwen 把模型能力推进到机器人套件;Claude Code 和 Codex 都在把一次性对话变成可分享、可复用的工作资产。另一边,Block 说 Builderbot 已经写下约 15% 的生产代码变更,Vercel Eve 则试图把 Agent 像软件一样发布、评测和回滚。本周 2 个头条 + 6 个精选,一次看完。
本周头条
1. Z.ai GLM-5.2:开源长周期 Agent 模型,正式打到 1M 上下文
Z.ai 这周开源了 GLM-5.2。它不是单纯把窗口拉长,而是把“1M token 上下文 + 编程 Agent + 开源许可”放在同一张牌桌上。官方给出的定位很直接:面向 long-horizon tasks 的旗舰模型,首次在 GLM 系列里提供稳定 1M token context。
这件事为什么值得放头条?因为长上下文已经从“能塞多少 token”变成了“塞进去之后还能不能稳定干活”。GLM-5.2 的核心机制叫 IndexShare:在每 4 层 sparse attention 里复用同一个 indexer,官方称在 1M 上下文长度下把每 token FLOPs 降低 2.9x;同时改进 MTP layer,让 speculative decoding 的 acceptance length 最高提升 20%。这不是 PPT 参数,而是冲着长任务成本去的。
官方披露的编程成绩也很有攻击性:Terminal-Bench 2.1 从 GLM-5.1 的 63.5 拉到 81.0,SWE-bench Pro 从 58.4 到 62.1;在 FrontierSWE、PostTrainBench、SWE-Marathon 这类长周期编程基准里,Z.ai 称 GLM-5.2 是最高排名的开源模型。其中 FrontierSWE 上只落后 Claude Opus 4.8 约 1%,并小幅超过 GPT-5.5;SWE-Marathon 上仍落后 Opus 4.8 13%,但保持在开源模型第一梯队。
它还有一个很现实的产品点:effort level control。用户可以在速度、成本和能力之间调档,而不是每个任务都开最高推理预算。这对真实 coding agent 很关键,因为多数工程任务不是“越想越好”,而是“刚好够用且别太贵”。
需要冷静看的地方也很明确:这些 benchmark 数字主要来自官方披露,仍需第三方复测;1M 上下文能否稳定处理真实大型仓库、长调试链路和多轮工具调用,也要看开发者实测。但 GLM-5.2 把开源模型推进到一个新的参照系:不是只在单轮代码题上追闭源,而是在数小时级长任务上追。
一句话判断:GLM-5.2 的意义不是“开源模型又刷了榜”,而是开源阵营开始正面争夺长周期 Agent 的底座位置。
2. Qwen Robot Suite:Qwen 开始把模型送进物理世界
Qwen 这周推出 Qwen-Robot Suite,把战场从代码、聊天、多模态理解,继续推到具身智能。简单说,这不是“又一个机器人 Demo”,而是通义千问试图为真实物理环境里的 embodied agents 提供模型与工具底座。
官方材料把 Qwen-Robot 描述为一组面向工具使用的 VLA / embodied agent 模型,目标是让机器人在真实环境中完成复杂推理、感知、交互和动作执行。这里的关键词是“suite”:它不是只发一个模型权重,而是把视觉、语言、动作和工具调用放进同一个机器人任务框架里。
为什么本周值得看?因为大模型公司的下一步都在往“可执行任务”走。代码 Agent 是数字世界里的执行入口,机器人 Agent 则是物理世界里的执行入口。Qwen-Robot Suite 的信号是:国产模型厂商不满足于做通用聊天和 coding 模型,而是开始把能力迁移到 VLA、机器人策略、仿真/真实环境评测这些更硬的层面。
但这里不能写得太满。机器人真正落地还要过三关:硬件差异、真实数据闭环、安全验证。一个机器人模型能在演示里完成任务,不代表它能在工厂、仓库、家庭里稳定运行。Qwen-Robot Suite 的价值更像“统一底座”而不是“通用机器人已经到来”。
一句话判断:Qwen 这次不是在追聊天模型榜,而是在抢具身智能的接口标准。
信源
- Qwen 官方博客:https://qwen.ai/blog?id=qwen-robotsuite
- Alibaba Cloud 官方博客:https://www.alibabacloud.com/blog/entering-the-physical-ai-era-introducing-the-qwen-robot-suite_603261
- Qwen-Robot GitHub 搜索入口:https://github.com/QwenLM
精选动态
3. Claude Code Artifacts:代码代理的输出,开始变成可分享页面
Anthropic 帮助中心本周更新的 Artifacts 文档里,有一句很关键:Artifacts in Claude Code are in beta on Team and Enterprise plans。也就是说,Claude Code 正在把一次 coding session 的输出变成可分享、可展示、可继续迭代的 artifact。
过去 coding agent 的产物大多藏在终端日志、patch、PR 或本地文件里。Artifacts 改变的是协作界面:一个工具、页面、可视化或执行结果,可以脱离聊天窗口被团队查看、评论和复用。这对产品、设计、运营参与代码工作流很重要,因为他们不一定要看完整 transcript,只要看结果能不能用。
边界也要写清楚:Claude Code Artifacts 仍是 Team/Enterprise beta,不是所有用户全量可用;普通 Claude 的 Artifacts 和 Claude Code 的 artifacts 也不是完全同一件事。前者偏内容/应用生成,后者更像 session output 的发布层。
信源
- Anthropic Help Center:https://support.anthropic.com/en/articles/9487310-what-are-artifacts-and-how-do-i-use-them
- Claude Code 文档:https://docs.anthropic.com/en/docs/claude-code
4. Codex Record & Replay:演示一次,生成一个可复用 Skill
Codex 的 Record & Replay 很像把“手把手教同事做事”产品化。用户在 Mac 上录一次真实工作流,Codex 观察动作和窗口内容,停止录制后把流程整理成 skill:什么时候用、需要什么输入、步骤怎么走、怎么验证结果。
这件事的重点不是录屏,而是知识沉淀。很多工作流很难用一句提示词讲清楚,比如报销、发视频、下载周期报告、创建符合团队规范的 issue。Record & Replay 让用户先做一遍,Codex 再把它变成可复用流程资产,并可结合 Computer Use、浏览器动作、连接的插件一起执行。
官方边界也很清楚:目前可用于 macOS,初始可用范围不含 EEA、英国和瑞士,并且需要 Computer Use 可用且启用。
信源
- OpenAI Codex Record & Replay:https://developers.openai.com/codex/record-and-replay
- Codex changelog:https://developers.openai.com/codex/changelog
5. Block Builderbot:每周合并 1,500 个 PR,约占生产代码变更 15%
Block 这周公开 Builderbot,最硬的数据是:每天执行超过 200,000 次操作,每周合并约 1,500 个 pull requests,约占 Block 全部生产代码变更的 15%。Block 还说,100% 的工程师都在定期使用 AI。
这不是“一个工程师用了 AI 写代码”的故事,而是 AI 进入工程组织流水线的故事。Builderbot 处理 scaffolding、重复性改动、CI 反馈迭代,人类工程师负责判断、产品取舍和最终质量。它构建在 Block 开源的 goose agent framework 上,而 goose 已贡献给 Linux Foundation 下的 Agentic AI Foundation。
需要避免误读:15% 生产代码变更不等于替代 15% 工程师。更准确的说法是,AI 已经在有权限、有 review、有 CI、有组织上下文的工程流程里,持续产出可合并代码。
信源
- Block 官方文章:https://block.xyz/inside/block-rolls-out-builderbot-a-new-suite-of-ai-native-tools-that-changes-the-way-we-ship
- goose:https://block.github.io/goose/
6. Vercel Eve:把 Agent 当成软件一样发布
Vercel 发布 Eve,最有意思的不是“又一个 Agent 框架”,而是它把 Agent 拉回了软件工程常识:文件、Git、commit、diff、review、eval、preview、rollback。
官方说,Eve agent 就是目录里的文件;新的 prompt、tool、skill 都可以是一次 commit。 eveeval 可以接入 CI,把评估变成部署门禁;每个 commit 还有 preview deployment,团队可以先和下一版 agent 对话,再决定是否替换生产版本。出问题时,也能像普通软件一样回滚。
Vercel 还披露,内部已经在生产运行 100 多个 agents;最常用的数据分析 agent 每月处理超过 30,000 个问题,并按提问者权限范围访问数据。这说明 Eve 的目标不是“让你玩 prompt”,而是让 agent 能被组织长期维护。
信源
- Vercel Eve 官方博客:https://vercel.com/blog/introducing-eve
7. OpenRouter Fusion:模型选择题,变成模型组合题
OpenRouter Fusion 的思路很直接:一次请求不只给一个模型,而是给一组模型,再由 judge/synthesizer 融合答案。它把“我该选 GPT 还是 Claude 还是 Gemini”变成“哪些模型组合能互相补短板”。
官方在 100 个 DRACO deep research 任务上测试:Fable 5 + GPT-5.5 fusion 得分 69.0%,高于 Fable 5 单模型 65.3%;一个预算模型 panel(Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro)得分 64.7%,高于 GPT-5.5 的 60.0% 和 Claude Opus 4.8 的 58.8%。但也要注意,部分 Fable 5 任务因内容过滤未完成,直接横比并不完美。
Fusion 对普通问答未必划算,但对深度研究、复杂决策、需要多角度校验的任务很有价值。下一阶段的 API 竞争,可能不再只是“谁家单模型最强”,而是“谁能把多模型组合得最好”。
信源
- OpenRouter Fusion 官方博客:https://openrouter.ai/blog/announcements/fusion-beats-frontier/
- Fusion 产品页:https://openrouter.ai/fusion
8. Kimi K2.7 Code:开源 Coding Agent 继续追赶
Moonshot AI 发布 Kimi K2.7 Code,定位是 open-source agentic coding model。官方给出的主线是:相比 K2.6,K2.7 Code 在长周期 coding 和 agentic task execution 上明显提升,同时 thinking token 使用量减少约 30%。
官方表格里,Kimi Code Bench v2 从 50.9 提升到 62.0,Program Bench 从 48.3 到 53.6,MLS Bench Lite 从 26.7 到 35.1;Agentic 评测里,Kimi Claw 24/7 Bench 从 42.9 到 46.9,MCP Atlas 从 69.4 到 76.0,MCP Mark Verified 从 72.8 到 81.1。
但也要把边界说清楚:Kimi Code Bench v2 和 Kimi Claw 24/7 Bench 是 Moonshot 内部基准;表格中 GPT-5.5 和 Claude Opus 4.8 在多个项目仍保持领先。K2.7 Code 的价值是开源模型继续缩小差距,而不是已经全面超过闭源 coding 工具链。
信源
- Kimi K2.7 Code 官方页面:https://www.kimi.com/resources/kimi-k2-7-code
快讯雷达
- ENPIRE:NVIDIA/GEAR 团队发布真实机器人策略自改进系统,frontier coding agents 可在 PushT、pin insertion、zip-tie cutting 等任务上自动迭代策略,官方展示部分任务达到 99% pass@8。来源:https://research.nvidia.com/labs/gear/enpire
- SpatialClaw:NVIDIA 相关研究提出用 coding-as-measurement 审计空间智能,正确论文号为 arXiv:2606.13673。来源:https://arxiv.org/abs/2606.13673
- AgentPerf:NVIDIA Blackwell 与 Artificial Analysis 推进 agent performance 评估。来源:https://blogs.nvidia.com/blog/nvidia-blackwell-agentperf-artificial-analysis/
- PawBench:AgentScope 相关多智能体/工具使用基准继续补齐 agent 评测生态。来源:https://github.com/agentscope-ai/PawBench
- Sakana Marlin:Sakana AI 发布 Marlin。来源:https://sakana.ai/marlin
- Open Knowledge Format:Google Cloud 讨论 OKF 如何改善数据共享。来源:https://cloud.google.com/blog/products/data-analytics/how-the-open-knowledge-format-can-improve-data-sharing
- ARD Spec:Agentic Resource Discovery 试图标准化 Agent 发现外部资源的协议。来源:https://agenticresourcediscovery.org/spec
- SkillOpt:Microsoft SkillOpt 聚焦 skill 优化与 agent skill 生态。来源:https://microsoft.github.io/SkillOpt
- Copilot Cowork:Microsoft 宣布 Copilot Cowork GA。来源:https://www.microsoft.com/en-us/microsoft-365/blog/2026/06/16/copilot-cowork-is-now-generally-available
本周观察
这周最清晰的主线,是 AI 正在从“回答问题”变成“沉淀工作方法”。
GLM-5.2 和 Kimi K2.7 Code 说明,开源模型正在追长周期编程任务;Qwen Robot Suite 和 ENPIRE 说明,这条线正在往物理世界延伸;Claude Code Artifacts、Codex Record & Replay、Vercel Eve 则说明,Agent 的真正护城河不只是模型,而是工作流资产、评估体系和组织上下文。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:ThinkInAI社区 《ThinkInAI Weekly AI周刊 VOL.49:开源模型追到 1M 上下文,Agent 开始学会“把经验变成技能”》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。




![[极客大挑战2019]EasySQL](/images/random/titlepic/4.jpg)







评论