它用更小的身体,打爆了外国巨头的天花板——阿里Qwen3.6-Plus来了

admin 2026-04-07 00:48:15 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 阿里Qwen3.6-Plus于2026年4月2日上线,在Terminal-Bench2.0编程测试中以61.6分超越ClaudeOpus4.5,成为首款在参数量更小前提下超越国外旗舰的国产模型。该模型具备多模态VibeCoding功能,可将界面草图直接生成可运行代码,支持100万Token上下文窗口且无需额外收费。目前可通过千问APP、阿里云百炼等渠道使用,每百万Token输入成本仅2元,显著降低开发者使用门槛。 综合评分: 85 文章分类: AI安全,解决方案,安全工具,安全开发,其他


cover_image

它用更小的身体,打爆了外国巨头的天花板——阿里Qwen3.6-Plus来了

AI小智 AI小智

零知实验室

2026年4月5日 21:12 山东

阿里巴巴通义千问 · 2026.04.02

它用更小的身体

打爆了外国巨头的天花板

阿里 Qwen3.6-Plus 来了 — 国产大模型悄悄杀入决赛圈

2026年4月2日,阿里没有搞发布会,没有提前预热,就这么悄悄推送了一条技术公告——Qwen3.6-Plus,正式上线。然后,全球AI圈的评测榜单就开始变色了。

一、一个让外国人脸色难看的成绩单

Terminal-Bench 2.0,目前公认最能衡量编程AI真实水平的测试之一——不是填空题,而是给你一台电脑,让你自己想办法。

Terminal-Bench 2.0 编程评测

Qwen3.6-Plus(国产)

61.6  🏆 超越Claude

Claude Opus 4.5

59.3

GPT-5.4

75.1

国产模型,第一次,在这个维度上干过了 Anthropic 的旗舰。而且是在参数量更小的前提下做到的——以更轻的体量,打出对标甚至超越2-3倍参数量外国模型的成绩。这不是跟跑,这是降维。

二、说说它究竟能干什么

用一句话概括:目前国产最强的”会自己写代码、改代码、跑代码”的大模型。这三个词的差别,比看起来要大得多。

📝 会”写”代码

大家早就见识过了——但那是补全,是抄答案。Qwen3.6-Plus 的起点在这之上。

🔧 会”改”代码 — SWE-bench Verified 78.8 分

给你一个真实 GitHub 仓库,里面有 Bug,能否读懂整个项目、找到问题、修好它还不破坏其他功能。Qwen3.6-Plus 拿到 78.8,Claude 是 80.9,差距只剩最后一步。

🖥️ 会”跑”代码 — Terminal-Bench 全球第一梯队

给你一个任务,让你自己打开终端、执行命令、排查报错、反复迭代,直到任务完成。这就是 Qwen3.6-Plus 打穿天花板的地方。

三、截图扔给它,它帮你写前端

Qwen3.6-Plus 让开发者真正兴奋的特性叫做多模态 Vibe Coding——你在草稿纸上画了个 App 界面?截个图扔给它,它直接输出对应的 HTML/CSS/JS,能跑的那种。有人已经用它 8分钟做了个公司官网

多模态基准测试

MMMU 多模态理解

86.0

Claude Opus 4.5 仅 80.7,大幅领先

文档理解 OmniDocBench

91.2

文档解析能力突出

视频理解 Video-MME

87.8

视频内容理解表现优秀

这是一个真正的视觉语言模型,不是贴了多模态标签的语言模型。

四、100 万 Token,开箱就是,不收加班费

上下文窗口对比

Qwen3.6-Plus

100 万 Token

✅ 标配,无需额外付费

Claude Opus 4.5

20 万 Token

GPT-5.4

27.2 万 Token

扩展至 100 万需额外收费

100 万 Token 大概够塞进一个中等规模代码仓库的全部源码、完整文档和提交历史。让模型真正”读完”整个项目,再来帮你改 Bug——以前这是奢侈品,现在是 Qwen3.6-Plus 的标配。

五、现在怎么用?

Qwen3.6-Plus 上线第一天,OpenRouter 上预览版调用量排名日榜第二,前五名里有四个国产模型。全球开发者正在用脚投票。

千问 APP

直接对话体验,最低门槛

阿里云百炼

API 调用,每百万 Token 输入仅 2 元起

Qwen Code(VS Code 插件)

每日 1000 次免费调用

Claude Code / Cline

支持 Anthropic 协议,替换后端直接用

六、这一步,意味着什么

有人说,Qwen3.6-Plus 还不是”最强”。这话没错。稳定性、工具生态和 Claude 比还有差距。

但这不是重点。

重点是:国产大模型第一次在核心编程能力上和顶尖外国模型站在了同一个擂台上,而且打成平手甚至略胜。

这意味着你在国内平台上付 2 元 / 百万 Token 的钱,能买到的能力,和花更贵的价格调用 Claude 差距已经微乎其微。AI 的版图,正在被一个模型悄悄地重新划定。

你已经在用 Qwen 系列了吗?用来做什么?

👇 留言聊聊,国产模型弯道超车,你怎么看?


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:零知实验室 AI小智 AI小智《它用更小的身体,打爆了外国巨头的天花板——阿里Qwen3.6-Plus来了》

评论:0   参与:  0