6G显存跑35B大模型+本地AIAgent:Qwen3.6-35B-A3B部署全流程

admin 2026-06-03 04:09:40 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文详述在6G显存Windows环境部署Qwen3.6-35B-A3B多模态大模型与Agent的流程。核心发现是MoE架构仅激活3B参数,大幅降低硬件门槛且保持高性能。建议下载适配的llama.cpp与量化模型,启动时务必添加jinja参数防错,并先用低量化版本测试以避开中文路径等陷阱。 综合评分: 88 文章分类: AI安全,数据安全,终端安全


cover_image

6G 显存跑 35B 大模型 + 本地 AI Agent:Qwen3.6-35B-A3B 部署全流程

原创

AI赋能说 AI赋能说

AI赋能说

2026年5月27日 16:03 美国

在小说阅读器读本章

去阅读

读完这篇,你能做到一件事。

在你的 Windows 电脑上跑一个支持看图、能当 AI Agent 用的本地大模型。6G 显存就够。不花钱。不联网。没有 token 限制。

先看完成后的样子

浏览器打开 localhost:8080。能聊天。能上传图片让它分析。能接入 Hermes Agent 当本地 AI 助手。

完全本地运行。数据不出你的电脑。

为什么是这个模型

Qwen3.6-35B-A3B 是阿里通义千问 2026 年 4 月发布的 MoE 模型。Apache 2.0 协议。完全开源。

35B 总参数。但每次推理只激活 3B。

这意味着:它拥有 35B 模型的知识容量,但只消耗 3B 模型的算力。SWE-bench Verified 得分 73.4%,超过了全部激活 31B 参数的 Gemma 4-31B(52.0%)。

想了想,这就像一个公司有 35 个专家,但每个问题只派 3 个最合适的人去处理。效率极高。

在 Artificial Analysis 排行榜上,它在 40B 以内开源模型中属于第一梯队。中文理解、代码能力、多模态视觉、推理能力都很强。

前提条件

  • Windows 10/11(64 位)
  • 至少 6GB 显存(8GB 更舒服)
  • 至少 16GB 内存(32GB 更舒服)
  • 磁盘剩余 25GB 以上
  • 有 NVIDIA / AMD / Intel 独显更好,没有也能跑(纯 CPU 会慢)

阶段一:下载 llama.cpp

第一步:选对的包

打开 llama.cpp Releases[1],找最新版本。

根据你的显卡选:

| 显卡 | 下载哪个 | | — | — | | NVIDIA RTX 30/40 系列 | llama-b9326-bin-win-cuda-12.4-x64.zip | | AMD RX 系列 | llama-b9326-bin-win-hip-radeon-x64.zip | | Intel Arc | llama-b9326-bin-win-vulkan-x64.zip | | 没有独显 | llama-b9326-bin-win-cpu-x64.zip |

NVIDIA 用户还要下:cudart-llama-bin-win-cuda-12.4-x64.zip

第二步:解压到纯英文路径

解压到 D:\llama.cpp\。路径有中文会报错。

CUDA 用户把 DLL 包也解压到同一目录。

新建一个 models 文件夹:

D:\llama.cpp\
├── llama-server.exe
├── models\          ← 放模型的地方
└── ...

验证:文件夹里有 llama-server.exe 就对了。

阶段二:下载模型

第三步:选量化版本

去 HuggingFace 搜索 Qwen3.6-35B-A3B GGUF,推荐从 bartowski[2] 或 unsloth[3] 的仓库下载量化版。

| 你的显存 | 推荐量化 | 文件大小 | 内存要求 | 说明 | | — | — | — | — | — | | 24GB(4090) | Q4_K_M | ~21GB | 16GB+ | 模型全在 GPU,速度最快(~130 tok/s) | | 12-16GB | IQ4_XS | ~19GB | 32GB+ | 部分层走内存 | | 8GB | Q3_K_M | ~16GB | 32GB+ | 大部分走内存,Reddit 实测 8G 显存 + 32G 内存可跑 | | 6GB | IQ2_M | ~11GB | 16GB+ | 几乎全走内存,速度较慢 |

想要多模态看图能力,还要下对应的 mmproj 投影文件(约 1.3GB)。没有这个文件,上传图片按钮会灰掉。

全部放进 D:\llama.cpp\models\ 目录。

验证:models 文件夹里有 .gguf 文件。

阶段三:启动

第四步:一行命令跑起来

在 D:\llama.cpp\ 目录打开 PowerShell(Shift + 右键空白处)。

纯文本对话(不需要看图):

.\llama-server.exe -m "models\Qwen3.6-35B-A3B-Q4_K_M.gguf" -ngl 999 -c 32768 -n 8192 --jinja --port 8080

多模态(支持看图):

.\llama-server.exe -m "models\Qwen3.6-35B-A3B-Q4_K_M.gguf" --mmproj "models\mmproj-Qwen3.6-35B-A3B-f16.gguf" -ngl 999 -c 32768 -n 8192 --jinja --port 8080

6G 显存用户(用 IQ2_M,缩小 context):

.\llama-server.exe -m "models\Qwen3.6-35B-A3B-IQ2_M.gguf" -ngl 999 -c 8192 -n 4096 --jinja --port 8080

参数说明:

  • --mmproj:多模态投影文件。加了才能看图
  • -ngl 999:尽量把模型塞进显存。放不下的自动走内存
  • -c:上下文长度。显存小就设小一点
  • --jinja:Qwen3.6 必须加。不加会出现回复异常、无限重复

看到这行输出就成功了:

main: server is listening on http://127.0.0.1:8080

浏览器打开 http://localhost:8080。能聊天。能上传图片。

第五步:用一键启动脚本(可选)

每次敲命令太烦。新建 启动模型.cmd,粘贴以下内容:

@echo off
chcp 65001 >nul
cd /d "%~dp0"

echo ==========================================
echo  Qwen3.6-35B-A3B 本地大模型
echo ==========================================
echo.
echo [1] Q4_K_M(24G 显存推荐)
echo [2] IQ4_NL(8-12G 显存)
echo [3] IQ2_M(6G 显存)
echo.
set /p choice=请输入数字:

if "%choice%"=="1" set "MODEL=Qwen3.6-35B-A3B-Q4_K_M.gguf"& set "CTX=-c 32768 -n 8192"
if "%choice%"=="2" set "MODEL=Qwen3.6-35B-A3B-IQ4_NL.gguf"& set "CTX=-c 32768 -n 8192"
if "%choice%"=="3" set "MODEL=Qwen3.6-35B-A3B-IQ2_M.gguf"& set "CTX=-c 8192 -n 4096"

llama-server.exe -m "models\%MODEL%" -ngl 999 %CTX% --jinja --host 127.0.0.1 --port 8080
pause

放在 D:\llama.cpp\ 目录。双击选数字就能启动。

阶段四:接入 Hermes Agent

第六步:安装 Hermes Agent

pipx install hermes-agent

第七步:配置连接本地模型

hermes model

选 Custom endpoint

  • Base URL:http://127.0.0.1:8080/v1
  • API Key:随便填一个数字或留空
  • Model:留空即可

验证:输入 hermes,发一条消息。agent 正常回复,同时 llama-server 窗口有请求日志。

现在你有了一个完全本地的 AI Agent。能调用工具。能执行代码。能分析图片。没有 token 消耗。数据完全私有。

完整流程一览

第一次做的建议

  • 先用 IQ2_M 或 IQ4_NL 跑通流程。确认能聊天再换更大的量化版本
  • 第一次启动会慢几秒。模型要加载进显存。看到端口输出就好了
  • 先在浏览器里测试。确认没问题再接 Hermes Agent
  • --jinja 参数别忘。Qwen3.6 没有它会出各种奇怪问题

容易踩的坑

  • 路径有中文。 llama.cpp 放在中文目录下会报错。换纯英文路径
  • 没加 --jinja 回复异常、格式错乱、无限重复。加上就好
  • 没下 mmproj 文件。 上传图片按钮灰色不可点。必须下载多模态投影文件
  • CUDA 版缺 DLL。 启动时报找不到 .dll。把 cudart DLL 包解压到同一目录
  • 6G 显存设了太大的 context。-c 131072 在 6G 显存上会爆。改成 -c 8192
  • 模型文件只有几十字节。 HuggingFace 返回了 401/404。用 curl.exe -I URL 验证链接是否有效

MoE 为什么能这么省显存

传统模型:35B 参数全部参与每次推理。需要 70GB+ 显存。

MoE 模型:35B 参数分成 256 个专家组。每个 token 只路由到 9 个专家。实际激活约 3B 参数。

所以 Qwen3.6-35B-A3B 量化后只需要 6-20GB 显存。跑起来的速度接近 3B 模型。但输出质量接近 35B 模型。

这不是偷工减料。这是架构创新。

后来发现:MoE 对本地部署特别友好。因为你不需要为那些「没被激活的专家」付出推理成本。你只为实际干活的 3B 参数买单。

本地 AI 能做什么

跑起来之后,你的电脑就是一个完整的 AI 基础设施:

  • 当 ChatGPT 用。 浏览器打开 localhost:8080 就能聊
  • 当 Vision AI 用。 上传图片让它分析截图、翻译菜单、OCR 提取文字
  • 当 OpenAI API 用。 任何支持 OpenAI SDK 的工具,把 base_url 改成 http://localhost:8080/v1 就能接入
  • 当 AI Agent 用。 接入 Hermes Agent,自动执行任务、调用工具、写代码
  • 当本地知识库用。 喂入你的文档,完全私有,数据不出本机

一台电脑。零月费。无限 token。

参考资料

  • Qwen3.6-35B-A3B 官方模型 – HuggingFace[4]
  • llama.cpp Releases – GitHub[5]
  • Hermes Agent – GitHub[6]
  • Qwen3.6-35B-A3B Complete Review – DEV Community[7]
  • Artificial Analysis LLM 排行榜[8]

Reference

[1]

llama.cpp Releases: https://github.com/ggml-org/llama.cpp/releases

[2]

bartowski: https://huggingface.co/bartowski

[3]

unsloth: https://huggingface.co/unsloth

[4]

Qwen3.6-35B-A3B 官方模型 – HuggingFace: https://huggingface.co/Qwen/Qwen3.6-35B-A3B

[5]

llama.cpp Releases – GitHub: https://github.com/ggml-org/llama.cpp/releases

[6]

Hermes Agent – GitHub: https://github.com/NousResearch/hermes-agent

[7]

Qwen3.6-35B-A3B Complete Review – DEV Community: https://dev.to/czmilo/qwen36-35b-a3b-complete-review-alibabas-open-source-coding-model-that-beats-frontier-giants-4382

[8]

Artificial Analysis LLM 排行榜: https://artificialanalysis.ai/

下方是赋能君的AI学习交流永久免费星球,想学习更多内容,欢迎扫码加入。

🙌 如果你阅读到这里,说明我们对信息的认可区域是有一定交集的,可以说我们是同道中人,所以如果你有自认为不错的信息获取渠道,欢迎留言或者私聊我,谢谢。

都看到这里了,就给个关注吧👀:

喜欢我的文章,可以请你右下角顺手来一波点赞&在看&分享三连么👉


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:AI赋能说 AI赋能说 AI赋能说《6G 显存跑 35B 大模型 + 本地 AI Agent:Qwen3.6-35B-A3B 部署全流程》

评论:0   参与:  0