文章总结: 本文介绍了利用本地算力卡结合ClaudeCode与OllamaAPI实现Token自由的方案。作者使用GLM-4.7-flash量化模型在A800显卡上运行,测试了编写Linuxtree命令的任务。结果表明,虽然量化模型精度受限,但配合工具能自动纠错,且具备响应快、无调用限制的优势,为拥有本地算力的开发者提供了可行的AI编程实践参考。 综合评分: 84 文章分类: 实战经验,安全开发,安全工具
vibe coding 如何实现 token 自由
原创
hyang0 hyang0
生有可恋
2026年3月5日 10:18 湖北
现在使用 AI 编程除了使用第三方 API,剩下的唯一方式就是买算力卡。如果你刚好有算力卡,那么就基本上实现 token 自由了。
先说下方案:claude code + ollama api
选用的模型:glm-4.7-flash
先看下 glm-4.7-flash 模型的大小,q4 量化的模型有 19G 大小,跑起来后需要 40G 显存。
下面是跑起来后的样子:
实际效果如何?与16位精度的肯定没法比,也没法与官网的 GLM-5 比,但好在 token 无限。
由于是量化版本,4bit 精度下写代码还是会报错,配合 claude code 能自己改错。
我让其实现一个类 linux 下的 tree 命令,这个任务不难,主要是测试一下 glm-4.7-flash 的功能是否完备。
实际效果如下,程序写出来了,一次成功,中间有 bug 但 claude code 自己修复了。
对比了一下之前用 python 写的版本,没有完全还原 linux 下 tree 命令。
看下对照版本,下面是使用 python 实现的:
将标准输出给模型作参考,让修正代码错误。
本地运行的模型写代码挺快的,一轮下来差不多两分钟,比调用第三方 API 块,最主要的是可以无限调用,没有 token 焦虑。
如果你本地有算力卡,可以搞起来,爽的飞起。
最后说下运行环境:
算力卡:A800
ollama 版本:0.17.4
模型:glm-4.7-flash
claude code 配置:
export ANTHROPIC_AUTH_TOKEN="ollama"export ANTHROPIC_BASE_URL="http://ai.xyz.com:11434"export ANTHROPIC_MODEL="glm-4.7-flash:latest"
全文完。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:生有可恋 hyang0 hyang0《vibe coding 如何实现 token 自由》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论