vibecoding如何实现token自由

admin 2026-03-05 19:39:18 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文介绍了利用本地算力卡结合ClaudeCode与OllamaAPI实现Token自由的方案。作者使用GLM-4.7-flash量化模型在A800显卡上运行,测试了编写Linuxtree命令的任务。结果表明,虽然量化模型精度受限,但配合工具能自动纠错,且具备响应快、无调用限制的优势,为拥有本地算力的开发者提供了可行的AI编程实践参考。 综合评分: 84 文章分类: 实战经验,安全开发,安全工具


cover_image

vibe coding 如何实现 token 自由

原创

hyang0 hyang0

生有可恋

2026年3月5日 10:18 湖北

现在使用 AI 编程除了使用第三方 API,剩下的唯一方式就是买算力卡。如果你刚好有算力卡,那么就基本上实现 token 自由了。

先说下方案:claude code + ollama api

选用的模型:glm-4.7-flash

先看下 glm-4.7-flash 模型的大小,q4 量化的模型有 19G 大小,跑起来后需要 40G 显存。

下面是跑起来后的样子:

实际效果如何?与16位精度的肯定没法比,也没法与官网的 GLM-5 比,但好在 token 无限。

由于是量化版本,4bit 精度下写代码还是会报错,配合 claude code 能自己改错。

我让其实现一个类 linux 下的 tree 命令,这个任务不难,主要是测试一下 glm-4.7-flash 的功能是否完备。

实际效果如下,程序写出来了,一次成功,中间有 bug 但 claude code 自己修复了。

对比了一下之前用 python 写的版本,没有完全还原 linux 下 tree 命令。

看下对照版本,下面是使用 python 实现的:

将标准输出给模型作参考,让修正代码错误。

本地运行的模型写代码挺快的,一轮下来差不多两分钟,比调用第三方 API 块,最主要的是可以无限调用,没有 token 焦虑。

如果你本地有算力卡,可以搞起来,爽的飞起。

最后说下运行环境:

算力卡:A800

ollama 版本:0.17.4

模型:glm-4.7-flash

claude code 配置:

export ANTHROPIC_AUTH_TOKEN="ollama"export ANTHROPIC_BASE_URL="http://ai.xyz.com:11434"export ANTHROPIC_MODEL="glm-4.7-flash:latest"

全文完。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:生有可恋 hyang0 hyang0《vibe coding 如何实现 token 自由》

年年缺口 网络安全文章

年年缺口

文章总结: 文档内容极简,仅包含标题年年缺口、问候语阿乐你好及未来日期2026年的地点信息,核心内容疑似缺失或为图片形式。由于缺乏实质文本与技术细节,无法获取有
评论:0   参与:  0