免费AI声音克隆神器Voicebox,本地部署,无隐私风险,支持23种不同语言

admin 2026-05-18 05:11:32 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: Voicebox是一款本地化部署的免费开源AI语音克隆工具,支持从短音频克隆声音、23种语言TTS合成及语音输入功能,强调隐私数据不离设备。文档详细介绍了其7个TTS引擎、多平台兼容性、CUDA加速配置及具体克隆操作流程,同时提醒技术使用的法律合规边界。 综合评分: 72 文章分类: AI安全,安全工具,技术标准,解决方案,其他


cover_image

免费AI声音克隆神器 Voicebox,本地部署,无隐私风险,支持23种不同语言

原创

W不懂安全 W不懂安全

W不懂安全

2026年5月16日 20:58 河北

在小说阅读器读本章

去阅读

Voicebox 是一款以本地化为核心的 AI 语音工作室,它是一款免费开源的应用程序,可以替代ElevenLabsWisprFlow。只需从几秒钟的音频中就可克隆语音,使用 7 个 TTS 引擎生成 23 种语言的语音,通过全局热键在任何文本字段中进行语音输入,并为任何支持 MCP 的 AI 代理赋予选择的声音。

两大云端语音处理服务商分别位于语音输入/输出回路的两端——ElevenLabs 负责输出,WisprFlow 负责输入。Voicebox 则兼顾两者,并通过捆绑的本地 LLM 实现语音精细化和个性化设置,所有功能都在本地计算机上运行。

优势:

  • 完全隐私:模型、语音数据和采集内容不会离开本地设备,不会上传到云端。
  • 7款 TTS 引擎:Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA 和 Kokoro。
  • 支持23种语言:从英语到阿拉伯语、日语、印地语、斯瓦希里语等等,包括中文。基本上主流的语言它都支持。
  • 长度不限:没有长度的限制,但要生成的越长,点设备所要的配置就越高。脚本、文章和章节自动分段并带有淡入淡出效果。
  • 语音输入:全局听写快捷键,支持按键说话和切换模式;macOS 系统下支持辅助功能验证的自动粘贴功能;每个文本字段都内置麦克风;支持基于 Whisper 的语音转文本功能。
  • API优先:REST API加上内置的MCP服务器,可将语音I/O集成到自己的应用程序和代理中。
  • 支持多平台运行:macOS(MLX/Metal)、Windows(CUDA)、Linux、Docker。
  • ……

声明:

本文基于开源项目 Voicebox(GitHub:jamiepine/voicebox)进行整理与实践记录,仅用于技术学习与交流用途,不涉及任何商业用途。

需要特别说明的是,Voicebox 虽然提供了声音克隆与语音生成能力,但这类技术本身具有一定敏感性。

在实际使用过程中,请务必遵守基本的法律与伦理规范:

  • 不得在未获得授权的情况下,克隆或模拟他人的声音用于商业用途或对外传播
  • 不得利用声音克隆技术冒充他人身份,或用于误导、欺骗性场景
  • 不得生成涉及侵权、违法或不当用途的语音内容
  • 建议仅使用本人声音或已获得明确授权的音频数据进行测试与创作

AI 语音技术本质上是一种工具,它的价值取决于使用方式。 在合理、合规的前提下,它可以极大提升创作效率;但如果越过边界,也可能带来不必要的风险。

本文仅作为技术学习与工具体验记录,不鼓励任何违规或不当使用行为。

项目地址:

https://github.com/jamiepine/voicebox

记得给作者点个 Star。

安装方法很简单,我的电脑是Windows系统。根据自己的电脑设备来对应下载安装包。

安装过程只需一路下一步就行,中间唯一需要改的就是安装路径,这个按需修改就行。

安装完成之后运行软件。进入这个软件的时间不同电脑配置时间上就不同,配置好点进入软件就快,配置不怎么好,就会进入慢点。

首先刚进入,也就是左边第一个标签页。这个页面就是我们要克隆的声音源。后边我们创建声音源和生成克隆声音,就是在这里。

第二个标签页,这里主要是提供了一个简单的时间线编辑器,让你可以同时编辑多段的语音。

第三个标签页,这个主要是实时监听你的麦克风,然后自动转文字,你说话后,Qwen3大模型或者其它模型,会帮你优化文本,最终输出自然语言。

第四个标签页,这个页面与第一个页面功能上有点重复,这里主要就是存放你要克隆声音的源文件。

第五个标签页,这里主要是给声音加音效,比如上边写着 机器人、收音机、低沉嗓音等音效。基本上正常是用不到,但你想个声音加个特殊的处理,那么可以使用这个功能。

第六个标签页,这里就是声音克隆的模型,要想克隆声音就要有一个大模型,第一次打开全部都是未下载的,选择一个去下载,建议选择 Qwen TTS 1.7B,这里1.7B是模型的数据集大小,参数越高,效果越好,但同时对硬件也越高。不同参数之间克隆出来的效果差距也是比较明显的。

选择好要下载的模型,点击它,然后点击下载。

下载好之后,它默认是下载到C盘,在上方可以看到存储位置,右侧可以更改存储位置,在别的磁盘创建好文件夹,更改存储位置迁移进去就行。

太方便了,打败了市面上百分之99的工具。

下方还有一个语音转录部分模型,这个主要是用于将你声音转文字。

最后就是设置页面,可以看到常规设置里,它会在后台启动一个服务,后期可以自己写代码使用API去调用访问。

之后重点看 GPU 这个页面,因为我是Windows电脑,用的是NVIDIA显卡,它会自动识别我使用的操作系统,来推荐我下载对应的CUDA。

这个功能主要是给 Voicebox 开启 NVIDIA CUDA 加速,因为 Whisper、TTS、声音克隆等,这些AI模型都非常吃算力,如果单靠CPU,那么就会出现:转录慢、生成慢、风扇狂转、延迟高等现象,但如果开启CUDA,启用GPU,速度就会直线提升多倍。

下载之前你先看看你电脑有没有NVIDIA 显卡,如果有你可以直接点击下载,这是必须的。如果你没有NVIDIA显卡,比如 AMD、Intel核显等,那就不用下载,因为 CUDA 只支持 NVIDIA,你就算下载了,也无法启用GPU,还是会使用CPU来跑模型。

你可以用下方步骤来确定有没有 NVIDIA 显卡👇适用于Windows,其它系统可自行百度。

最快方法,快捷键:

Ctrl + Shift + Esc

打开任务管理器。

然后:

性能 → GPU

如果看到:

  • NVIDIA RTX
  • NVIDIA GeForce

那就能用 CUDA。

Voicebox 这个设计其实很专业,它不是强制安装 CUDA。而是按需下载,因为CUDA Runtime 很大,很多AI软件安装包直接塞 5GB不等。非NVIDIA用户白白占空间,而Voicebox默认CPU,检测到NVIDIA再启用CUDA,这点Voicebox给我的感觉体验其实做的非常好。

安装完成之后就是这样:

软件到这里就算是介绍完了,现在简单演示一下声音克隆的操作。

回到第一个页面,点击创建声音。

它这里可以上传音频,也可以通过麦克风去录制一段声音,系统音频就是录制当前电脑播放的声音。参考文本里建议输入语音的文本,这样更好识别。右侧名称、描述、人物设定按需填写。

重点是语言这里,一定要选择与语音同语言,你语音是中文,你选择的语言就必须是中文,不能是其它语言。

创建好之后,选择刚刚创建的声音,然后在下方输入你要克隆声音所要说的文本,然后可以选择语言,这里语言就是你克隆声音的语言。模型就选择你下载的模型。模型不同,克隆出来的效果也有所不同。之后点击右侧的类似星星的按钮生成。

之后右侧就会出现生成的记录。现在的状态就是在加载模型,等Loading model…消失,会自动播放生成好的语音。

看效果👇

已关注

关注

重播 分享 赞

关闭

观看更多

更多

退出全屏

切换到竖屏全屏退出全屏

W不懂安全已关注

分享视频

,时长00:44

0/0

00:00/00:44

切换到横屏模式

继续播放

[ ]

进度条,百分之0

播放

00:00

/

00:44

00:44

倍速

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清 流畅

 您的浏览器不支持 video 标签

继续观看

免费AI声音克隆神器 Voicebox,本地部署,无隐私风险,支持23种不同语言

观看更多

原创

,

免费AI声音克隆神器 Voicebox,本地部署,无隐私风险,支持23种不同语言

W不懂安全已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

我提供的声音素材也是AI生成声音,模型用的是Qwen3-TTS 0.6B。整体来说还是挺不错的。要想效果更好,需要上传:清晰,没有杂音,最好10秒,吐字清晰的音频,然后模型选择参数高的模型,才能达到更好的效果。

生成这点语音,就快把我GPU占满了,可见有多吃显卡了,我显卡就4G,这要是换成CPU,风扇不得起飞啊!!!

本期内容到此结束。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:W不懂安全 W不懂安全 W不懂安全《免费AI声音克隆神器 Voicebox,本地部署,无隐私风险,支持23种不同语言》

评论:0   参与:  0