十一雷军AI骂人的声音火了,用GPT-SoVITS,你也可以做出来

威震华夏关云长 · 发表于 2025-8-7 16:52:58

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

登录/注册后可看大图

超详细保姆级教程：教你使用GPT-SoVITS-克隆你的声音-效果十分逼真-全干货教程

一、项目下载后压缩包放入一个非中文路径解压，解压后在文件夹找到go-webui.bat，双击运行即可如果长时间cmd没反应，可以尝试回车，或者在顶头右键属性，取消快速编辑模式并确定即可切记：不要以管理员身份运行！

1

如果没有.bat的后缀可以在查看里打开文件扩展名，后面也会遇到很多需要后缀的

2

这就是正常打开了，稍加等待就会弹出网页。如果没有弹出网页可以复制http://0.0.0.0:9874到浏览器打开打开后会自动在浏览器打开网页

3

注意啊：打开的bat不可以关闭！这个黑色的bat框就是控制台，所有的日志都会在这上面呈现，所有的信息以控制台为准。如果要向别人提问请写清楚：哪一步骤+网页端（方便看你填没填对）+控制台截图！所有的报错都在控制台上！你不给别人看控制台谁也不知道你是什么问题！Error后面的一般是报错

二

在切割音频前建议把所有音频拖进音频软件（如au、剪映）调整音量，最大音量调整至-9dB到-6dB，过高的删除首先输入原音频的文件夹路径（不要有中文），如果刚刚经过了UVR5处理那么就是uvr5_opt这个文件夹。然后建议可以调整的参数有min_length、min_interval和max_sil_kept单位都是ms。min_length根据显存大小调整，显存越小调越小。min_interval根据音频的平均间隔调整，如果音频太密集可以适当调低。max_sil_kept会影响句子的连贯性，不同音频不同调整，不会调的话保持默认。其他参数不建议调整。点击开启语音切割，马上就切割好了。默认输出路径在output/slicer_opt。当然也可以使用其他切分工具切分。

4

切分完后文件在outputslicer_opt。打开切分文件夹，排序方式选大小，将时长超过显存数秒的音频手动切分至显存数秒以下。比如显卡是4090 显存是24g，那么就要将超过24秒的音频手动切分至24s以下，音频时长太长的会爆显存。如果语音切割后还是一个文件，那是因为音频太密集了。可以调低min_interval，从300调到100基本能解决这问题。实在不行用au手动切分。

5

音频降噪（如果原音频足够干净可以跳过这步，比如游戏中提取的干声）如果你觉得你的音频足够清晰可以跳过这步，降噪对音质的破坏挺大的，谨慎使用。输入刚才切割完音频的文件夹，默认是output/slicer_opt文件夹。然后点击开启语音降噪。默认输出路径在output/denoise_opt。

打标：为什么要打标：打标就是给每个音频配上文字，这样才能让AI学习到每个字该怎么读。这里的标指的是标注如果你上一步切分了或者降噪了，那么已经自动帮你填充好路径了。然后选择达摩ASR或者fast whisper。达摩ASR只能用于识别汉语和粤语，效果也最好。fast whisper可以标注99种语言，是目前最好的英语和日语识别，模型尺寸选large V3，语种选auto自动。whisper可以选择精度，建议选float16，float16比float32快，int8速度几乎和float16一样。然后点开启离线批量ASR就好了，默认输出是output/asr_opt这个路径。ASR需要一些时间，看着控制台有没有报错就好了如果有字幕的可以用字幕标注，准确多了。内嵌字幕或者外挂字幕都可以

6

校对标注（这步比较费时间，如果不追求极致效果可以跳过）上一步打标完会自动填写list路径，你只需要点击开启打标webui打开后就是SubFix，从左往右从上到下依次意思是：跳转页码、保存修改、合并音频、删除音频、上一页、下一页、分割音频、保存文件、反向选择。每一页修改完都要点一下保存修改（Submit Text），如果没保存就翻页那么会重置文本，在完成退出前要点保存文件（Save File），做任何其他操作前最好先点一下保存修改（Submit Text）。合并音频和分割音频不建议使用，精度非常差，一堆bug。删除音频先要点击要删除的音频右边的yes，再点删除音频（Delete Audio）。删除完后文件夹中的音频不会删除但标注已经删除了，不会加入训练集的。这个SubFix一堆bug，任何操作前都多点两下保存。

7

这一步开始训练了

8

先设置实验名也就是模型名，理论上可以是中文！打标结束会自动填写路径，只要点下一键三连就好了如果是英语，日语，粤语或韩语的话logs里的3-bert文件夹是空的，是正常的不用管

下载链接：
下载1

夸克网盘

售价: 免费 下载: 0次 权限: 太初窥星

下载2

UC网盘

售价: 免费 下载: 0次 权限: 太初窥星

版权声明

1、转载或引用本网站内容(十一雷军AI骂人的声音火了,用GPT-SoVITS,你也可以做出来)须注明原网址及作者(威震华夏关云长)，并标明本网站网址(https://www.pixtech.cc/)。

2、对于不当转载或引用本网站内容而引起的民事纷争、行政处理或其他损失，本网站不承担责任。

3、对不遵守本声明或其他违法、恶意使用本网站内容者，本网站保留追究其法律责任的权利。

本文地址: https://www.pixtech.cc/thread-26744-1-1.html

	通知：是的！我们正在计划一个大动作！	11-02 12:46
	通知：Telegram 推送频道https://t.me/+2tB3a7aKXlw2YjA1 及时接收第一手论坛帖子信息～	10-23 09:32
	通知：本站资源由网友上传分享，如有违规等问题请到版务模块进行投诉，将及时处理！	10-23 09:31
	通知：加入QQ社群吧 https://qm.qq.com/q/QZibQd1hiq	10-23 09:28
	通知：签到时间调整为每日4:00（东八区）	10-23 09:26

活动公告

十一雷军AI骂人的声音火了,用GPT-SoVITS,你也可以做出来

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

版权声明

浏览过的版块

财Doro

三倍冰淇淋

无人之境【一阶】

立华奏

小樱（小丑装）

⑨的冰沙

以外的星空【二阶】

友情链接

频道订阅

加入社群