2026-03-05 19:39:18 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文介绍了利用本地算力卡结合ClaudeCode与OllamaAPI实现Token自由的方案。作者使用GLM-4.7-flash量化模型在A800显卡上运行，测试了编写Linuxtree命令的任务。结果表明，虽然量化模型精度受限，但配合工具能自动纠错，且具备响应快、无调用限制的优势，为拥有本地算力的开发者提供了可行的AI编程实践参考。 综合评分： 84 文章分类： 实战经验,安全开发,安全工具

cover_image

vibe coding 如何实现 token 自由

原创

hyang0 hyang0

生有可恋

2026年3月5日 10:18 湖北

现在使用 AI 编程除了使用第三方 API，剩下的唯一方式就是买算力卡。如果你刚好有算力卡，那么就基本上实现 token 自由了。

先说下方案：claude code + ollama api

选用的模型：glm-4.7-flash

先看下 glm-4.7-flash 模型的大小，q4 量化的模型有 19G 大小，跑起来后需要 40G 显存。

下面是跑起来后的样子：

实际效果如何？与16位精度的肯定没法比，也没法与官网的 GLM-5 比，但好在 token 无限。

由于是量化版本，4bit 精度下写代码还是会报错，配合 claude code 能自己改错。

我让其实现一个类 linux 下的 tree 命令，这个任务不难，主要是测试一下 glm-4.7-flash 的功能是否完备。

实际效果如下，程序写出来了，一次成功，中间有 bug 但 claude code 自己修复了。

对比了一下之前用 python 写的版本，没有完全还原 linux 下 tree 命令。

看下对照版本，下面是使用 python 实现的：

将标准输出给模型作参考，让修正代码错误。

本地运行的模型写代码挺快的，一轮下来差不多两分钟，比调用第三方 API 块，最主要的是可以无限调用，没有 token 焦虑。

如果你本地有算力卡，可以搞起来，爽的飞起。

最后说下运行环境：

算力卡：A800

ollama 版本：0.17.4

模型：glm-4.7-flash

claude code 配置：

export&nbsp;ANTHROPIC_AUTH_TOKEN="ollama"export&nbsp;ANTHROPIC_BASE_URL="http://ai.xyz.com:11434"export&nbsp;ANTHROPIC_MODEL="glm-4.7-flash:latest"

全文完。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：生有可恋 hyang0 hyang0《vibe coding 如何实现 token 自由》