政安晨【零基础玩转各类开源AI项目】：基于Ubuntu系统本地部署使用GPT-SoVITS进行语音克隆与TTS语音生成-FreeNAS中文网

admin 管理员组

文章数量: 887016

介绍

什么是TTS

安装Miniconda

框架功能

测试通过的环境

开始

1. 安装好miniconda

2. 进入下载的GPT-SoVITS目录

3. 创建虚拟环境并执行脚本

4. 执行过程中可能会出错

5. 下载预训练模型

6. 训练过程中可能会报错

7. 使用过程中可能出错

8.以下是使用全过程

政安晨的个人主页：政安晨

欢迎 👍点赞✍评论⭐收藏

收录专栏: 零基础玩转各类开源AI项目

希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！

介绍

这是一款开源的AI音色克隆框架，目前只有TTS（文字转语音）功能，将来会更新变声功能。现在介绍如何搭建部署。

GPT-SoVITS的正确缩写应该是GSV，请不要用sovits来简称它，这会让人把它和So-VITS-SVC搞混，两者并没有什么关系

项目地址：GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

什么是TTS

TTS（Text-To-Speech）这是一种文字转语音的语音合成。

类似的还有SVC（歌声转换）、SVS（歌声合成）等。目前GPT-SoVITS只有TTS功能，也就是不能唱歌。

GPT-SoVITS实现了：

—— 由参考音频的情感、音色、语速控制合成音频的情感、音色、语速

—— 可以少量语音微调训练，也可不训练直接推理

—— 可以跨语种生成，即参考音频（训练集）和推理文本的语种为不同语种

安装Miniconda

这款开源音频克隆生成AI框架是基于conda的，在ubuntu系统中需要安装miniconda后再使用。

框架功能

零样本文本到语音（TTS）： 输入 5 秒的声音样本，即刻体验文本到语音转换。

少样本 TTS： 仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。

跨语言支持： 支持与训练数据集不同语言的推理，目前支持英语、日语和中文。

WebUI 工具： 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。

测试通过的环境

Python 3.9，PyTorch 2.0.1，CUDA 11
Python 3.10.13，PyTorch 2.1.2，CUDA 12.3
Python 3.9，Pytorch 2.2.2，macOS 14.4.1（Apple 芯片）
Python 3.9，PyTorch 2.2.2，CPU 设备

注: numba==0.56.4 需要 python<3.11

笔者政安晨在Ubuntu系统、128G内存、12核CPU的PC机上，用CPU跑起来使用，亲测可行。

（注：显卡是AMD的，2G显存，没啥用）

开始

1. 安装好miniconda

后在工作目录下将软件源码下载下来：

git clone git@github:RVC-Boss/GPT-SoVITS.git

2. 进入下载的GPT-SoVITS目录

cd GPT-SoVITS

3. 创建虚拟环境并执行脚本

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

4. 执行过程中可能会出错

注意网络情况。

5. 下载预训练模型

安装成功后，下载预训练模型

从 GPT-SoVITS Models 下载预训练模型，并将它们放置在 GPT_SoVITS\pretrained_models 中。

对于 UVR5（人声/伴奏分离和混响移除，附加），从 UVR5 Weights 下载模型，并将它们放置在 tools/uvr5/uvr5_weights 中。

中国地区用户可以进入以下链接并点击“下载副本”下载以上两个模型：

GPT-SoVITS Models
UVR5 Weights

对于中文自动语音识别（附加），从 Damo ASR Model, Damo VAD Model, 和 Damo Punc Model 下载模型，并将它们放置在 tools/asr/models 中。

对于英语与日语自动语音识别（附加),从 Faster Whisper Large V3 下载模型，并将它们放置在 tools/asr/models 中。此外，其他模型可能具有类似效果，但占用更小的磁盘空间。

6. 训练过程中可能会报错

发现nltk报错时，去它的github中下载package里面的tokenkey的东西，解压后连同文件夹一起拷贝到出错里展示的搜索文件夹的目录中，但要注意网络情况。

7. 使用过程中可能出错

解决方法：多尝试几次，笔者就是这样做的。

运行框架：

python webui.py

8.以下是使用全过程

数据集处理

请认真准备数据集！以免后面出现各种报错，和炼出不理想的模型！好的数据集是炼出好的模型的基础！

3.1：使用UVR5处理原音频（如果原音频足够干净可以跳过这步，比如游戏中提取的干声）

3.1.1：方法1：用自带的UVR5处理音频

点击开启UVR5-WebUI稍加等待就会自动弹出图二的网页，如果没有弹出复制http://0.0.0.0:9873到浏览器打开

首先输入音频文件夹路径或者直接选择文件（2选1）

文件夹上面那个地址框就是文件夹路径

如果要复制文件路径就是这样↓

先用HP2模型处理一遍（提取人声），然后将输出的干声音频再用onnx_dereverb最后用DeEcho-Aggressive（去混响），输出格式选wav。输出的文件默认在GPT-SoVITS-beta\GPT-SoVITS-beta\output\uvr5_opt这个文件夹下，建议不要改输出路径，到时候找不到文件谁也帮不了你。处理完的音频（vocal）的是人声，(instrument)是伴奏，(No Reverb)的没混响的，（Reverb）的是混响。（vocal）(No Reverb)才是要用的文件，其他都可以删除。结束后记得到WebUI关闭UVR5节省显存。

如果没有成功输出，报错了。那么推荐使用下面一种方法——UVR5客户端。（✅可能兼容性有问题，但是效果是和UVR5对齐的，不要瞎黑内置工具效果有问题）

报错原因

报错原因一般是音频太短了，导致音频缓冲区爆了。也有一些是因为显卡性能不够的。

3.1.2：方法2：使用UVR5客户端（没有bug，模型更多）

官方下载地址：Releases · TRvlvr/model_repo · GitHub（beta版）

https://github/Anjok07/ultimatevocalremovergui/releases（正式版）

macOS和Liunx的使用方法

由于苹果的严格管控应用程序的安全性，您可能需要按照以下步骤打开UVR：

首先，使用终端运行以下命令，允许应用程序从所有来源运行：

sudo spctl --master-disable

其次，运行以下命令来绕过验证：

sudo xattr -rd com.apple.quarantine /Applications/Ultimate\ Vocal\ Remover.app

Linux：嗯？都用Linux了，用Git拉代码自己部署不是难事吧？欸嘿~

为了最好的分离效果教程中使用的是beta版，网盘中的windows安装包是beta版

目前MAC使用beta版要自己拉代码装环境，或者等安装包制作完成

网盘中的安装包是正式版的

警告：安装路径必须为全英文！！！不推荐修改默认安装路径，否则会有权限问题！！！

打开UVR5首先要下载模型，建议下载我打包好的，里面有几乎所有模型，包含vip模型。下载解压后先把Ultimate Vocal Remover根目录的models文件夹删了，再把解压的文件夹直接拖进Ultimate Vocal Remover根目录替换models文件夹

如果觉得模型包太大，也可以自己下载（需要科学上网，且速度很慢，一次只能下一个）。点击左下角的小扳手，打开设置界面，点击第三个下载模型。需要下载的模型有：MDX-Net：model_bs_roformer_ep_317_sdr_12.9755、VR Architecture：UVR-De-Echo-Normal、UVR-De-Echo-Aggressive、UVR-De-Echo-Dereverb、UVR-DeNoise。

如果是A卡或I卡用户需要在第二个设置界面点上Use OpenCL

下载完模型后开始处理音频，select input选择输入文件，select output选择输出文件夹，输出格式选WAV，记得点上GPU Conversion（使用GPU），首先选择MDX-Net类型使用Bs-Roformer-Viperx-1297（目前最好的提取人声的模型，又快又好）提取人声。处理完的音频（vocals）的是人声。然后把人声再输入去混响（下面三选一）：VR Architecture：UVR-De-Echo-Normal（轻度混响）、UVR-De-Echo-Aggressive（重度混响）、UVR-De-Echo-Dereverb（变态混响），最后用UVR-DeNoise降噪一下。这套流程弄完会比自带的UVR5在人声提取方面好一点。

3.1.3：方法3：MDX23C（MAC用户暂时用）

因为目前MAC没有UVR5beta版的安装包，要么拉代码自己装，要么只能用5.6正式版

正式版目前最好的模型是MDX23C，流程和4.1.1.1.3.1一样的只是把Bs-Roformer-Viperx-1297换成MDX23C

3.2：切割音频

在切割音频前建议把所有音频拖进音频软件（如au、剪映）调整音量，最大音量调整至-9dB到-6dB，过高的删除

首先输入原音频的文件夹路径（不要有中文），如果刚刚经过了UVR5处理那么就是uvr5_opt这个文件夹。然后建议可以调整的参数有min_length、min_interval和max_sil_kept单位都是ms。min_length根据显存大小调整，显存越小调越小。min_interval根据音频的平均间隔调整，如果音频太密集可以适当调低。max_sil_kept会影响句子的连贯性，不同音频不同调整，不会调的话保持默认。其他参数不建议调整。点击开启语音切割，马上就切割好了。默认输出路径在output/slicer_opt。建议不要改输出路径，到时候找不到文件谁也帮不了你。当然也可以使用其他切分工具切分。

切分完后文件在\GPT-SoVITS-beta\GPT-SoVITS-beta\output\slicer_opt。打开切分文件夹，排序方式选大小，将时长超过显存数秒的音频手动切分至显存数秒以下。比如显卡是4090 显存是24g，那么就要将超过24秒的音频手动切分至24s以下，音频时长太长的会爆显存。如果语音切割后还是一个文件，那是因为音频太密集了。可以调低min_interval，实在不行用au手动切分。

3.3：音频降噪（如果原音频足够干净可以跳过这步，比如游戏中提取的干声）

在0221版本之后才有这个功能而且不太好用，对音质的破坏很大，谨慎使用。

输入刚才切割完音频的文件夹，默认是output/slicer_opt文件夹。然后点击开启语音降噪。默认输出路径在output/denoise_opt，建议不要改输出路径，到时候找不到文件谁也帮不了你。

3.4：打标

为什么要打标：打标就是给每个音频配上文字，这样才能让AI学习到每个字该怎么读。这里的标指的是标注

这步很简单只要把刚才的切分文件夹输入，如果你音频降噪过，那么默认是output/denoise_opt文件夹，如果你切分了没有降噪，那么默认是output/slicer_opt文件夹。然后选择达摩ASR或者fast whisper。达摩ASR只能用于识别中文，效果也最好。fast whisper可以标注99种语言，是目前最好的英语和日语识别，模型尺寸选large V3，语种选auto自动就好了。然后点开启离线批量ASR就好了，默认输出是output/asr_opt这个路径，建议不要改输出路径，到时候找不到文件谁也帮不了你。ASR需要一些时间，看着控制台有没有报错就好了

如果有字幕的可以用字幕标注，准确多了。内嵌字幕或者外挂字幕都可以，教程使用字幕标注（更准确）

3.5：校对标注（这步比较费时间，如果不追求极致效果可以跳过）

输入标注文件的文件路径，注意是文件路径！不是文件夹路径！示例：D:\GPT-SoVITS-beta\GPT-SoVITS-beta0128\output\asr_opt\slicer_opt.list 注意后面的文件名必须要输进去！打不开就再三检查路径是否正确！必须要有.list的后缀！！！然后开启打标webui

打开后就是SubFix，从左往右从上到下依次意思是：跳转页码、保存修改、合并音频、删除音频、上一页、下一页、分割音频、保存文件、反向选择。每一页修改完都要点一下保存修改（Submit Text），如果没保存就翻页那么会重置文本，在完成退出前要点保存文件（Save File），做任何其他操作前最好先点一下保存修改（Submit Text）。合并音频和分割音频不建议使用，精度非常差，一堆bug。删除音频先要点击要删除的音频右边的yes，再点删除音频（Delete Audio）。删除完后文件夹中的音频不会删除但标注已经删除了，不会加入训练集的。这个SubFix一堆bug，任何操作前都多点两下保存。

4：训练

4.1：输出logs

来到第二个页面

先设置实验名也就是模型名，不要有中文！然后第一个输入的是标注文件路径，注意是文件路径！不是文件夹路径！示例：D:\GPT-SoVITS-beta\GPT-SoVITS-beta0128\output\asr_opt\slicer_opt.list 注意后面的文件名必须要输进去！打不开就再三检查路径是否正确！必须要有.list的后缀！！！第二个输入的是切分音频文件夹路径示例：G:\GPT-SoVITS\output\slicer_opt。注意复制的路径都不能有引号！！！千万不能有引号！然后点一键三连。

如果是英语或日语的话logs里的3-bert文件夹是空的，是正常的不用管。

4.2：微调训练

首先设置batch_size，sovits训练建议batch_size设置为显存的一半以下，高了会爆显存。bs并不是越高越快！batch_size也需要根据数据集大小调整，也并不是严格按照显存数一半来设置，比如6g显存需要设置为1。如果爆显存就调低。当显卡3D占用100%的时候就是bs太高了，使用到了共享显存，速度会慢好几倍。

以下是切片长度为10s时实测的不同显存的sovits训练最大batch_size，可以对照这个设置。如果切片更长、数据集更大的话要适当减少。

显存	batch_size	切片长度
6g	1	10s
8g	2	10s
12g	5	10s
16g	8	10s
22g	12	10s
24g	14	10s
32g	18	10s
40g	24	10s
80g	48	10s

在0213版本之后添加了dpo训练。dpo大幅提升了模型的效果，几乎不会吞字和复读，能够推理的字数也翻了几倍，但同时训练时显存占用多了2倍多，训练速度慢了4倍，12g以下显卡无法训练。数据集质量要求也高了很多。如果数据集有杂音，有混响，音质差，不校对标注，那么会有负面效果。

如果你的显卡大于12g，且数据集质量较好，且愿意等待漫长的训练时间，那么可以开启dpo训练。否则请不要开启。下面是切片长度为10s时实测的不同显存的gpt训练最大batch_size。如果切片更长、数据集更大的话要适当减少。

显存	未开启dpo batch_size	开启dpo batch_size	切片长度
6g	1	无法训练	10s
8g	2	无法训练	10s
12g	4	1	10s
16g	7	1	10s
22g	10	4	10s
24g	11	6	10s
32g	16	6	10s
40g	21	8	10s
80g	44	18	10s

接着设置轮数，SoVITS模型轮数可以设置的高一点，反正训练的很快。GPT模型轮数千万不能高于20（一般情况下）建议设置10。然后先点开启SoVITS训练，训练完后再点开启GPT训练，不可以一起训练（除非你有两张卡）！如果中途中断了，直接再点开始训练就好了，会从最近的保存点开始训练。

训练的时候请ctrl+shift+esc打开任务管理器看，下拉打开选项，选择cuda。如果cuda占用为0那么就不在训练。专用GPU内存就是显存，其他的内存都是共享的，并不是真正的显存。爆显存了就调低bs。或者存在过长的音频，需要回到2.2步重新制作数据集。

win11没有cuda打开设置--系统--显示--显示卡--默认图形设置

关闭硬件加速GPU计划，并重启电脑

训练完成会显示训练完成，并且控制台显示的轮数停在设置的（总轮数-1）的轮数上。

看cuda占用需要下拉选择cuda，如果win11找不到cuda界面需要关闭硬件加速GPU计划并重启

关于学习率权重：

可以调低但不建议调高。直接听对比，自己听效果

关于高训练轮数：你可能会看见有人会说训练了几百轮，几千轮的（几万轮那就是搞错了轮数和步数）。但高轮数并不就是好。如果要训练高轮数请先保证数据集质量极好，标注全都经过手动校对，时长至少超过1小时才有必要拉高轮数。否则默认的十几轮效果已经很好了。

关于数据集长度：

请先保证质量！音频千万不能有杂音，要口齿清晰，响度统一，没有混响，每句话尽量完整，全部手动校对标注。30分钟内有明显提升，不建议再增加数据集长度（除非你有一堆4090）

模型怎样才算训练好了？

这是一个非常无聊且没有意义的问题。就好比上来就问老师我家孩子怎么才能学习好，谁都无法回答。

模型的训练关联于你的数据集质量、时长，轮数，甚至一些超自然的玄学因素；即便你有一个成品模型，最终的转换效果也要取决于你的参考音频以及推理参数。这不是一个线性的的过程，之间的变量实在是太多，所以你非得问“为什么我的模型出来不像啊”、“模型怎样才算训练好了”这样的问题。

但也不是一点办法没有，只能烧香拜佛了。我不否认烧香拜佛当然是一个有效的手段，但你也可以借助一些科学的工具，例如 Tensorboard 等，但还是戴上耳机，让你的耳朵告诉你吧。用耳朵听就是最科学的方式。

如果你的模型一直很差，那你该好好反思反思为什么不好好准备数据集了。

博主政安晨注：

在使用过程中有时会看到提示：

IMPORTANT: You are using gradio version 3.38.0, however version 4.29.0 is available, please upgrade.

放心更新它。

还是在conda环境中执行：

 pip show gradio

查看版本确实较旧时，执行：

pip install --upgrade gradio

（表示更新到最新版本）

另外，pip install gradio==<version>将“版本”替换为您要安装的 Gradio 版本。“<”和“>”是不需要的。

当然，如果更新之后，发现webui跑不起来，你由不愿意详细检查问题的话，就用上述命令更换回原来的版本。

另外，如果用的是ubuntu系统，先安装一遍cmake环境

sudo apt-get install cmake build-essential

本文标签：语音玩转开源基础项目

版权声明：本文标题：政安晨【零基础玩转各类开源AI项目】：基于Ubuntu系统本地部署使用GPT-SoVITS进行语音克隆与TTS语音生成内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1726435843h960203.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

技术交流 – FreeNAS中文网

政安晨【零基础玩转各类开源AI项目】：基于Ubuntu系统本地部署使用GPT-SoVITS进行语音克隆与TTS语音生成

介绍

什么是TTS

安装Miniconda

框架功能

测试通过的环境

开始

1. 安装好miniconda

2. 进入下载的GPT-SoVITS目录

3. 创建虚拟环境并执行脚本

4. 执行过程中可能会出错

5. 下载预训练模型

6. 训练过程中可能会报错

7. 使用过程中可能出错

8.以下是使用全过程

更多相关文章

3 -《本地部署开源大模型》win1011 下安装Ubuntu 22.04（桌面版）双系统教程

程序猿必看的 10 大 GitHub 开源项目_开源项目 github

开源机器人库orocos KDL 学习笔记（一）：win7VS2015环境搭建

python数据分析好项目

玩转 ChatGPT，看这条就够了，Prompt 最全中文合集

1800亿参数，支持中文，3.5万亿训练数据！开源类ChatGPT模型

java OA开源办公系统源码下载

轻量级开源文件共享系统PicoShare本地部署并实现公网环境文件共享

开源：教师评价系统

GITHUB开源SpringBoot2.0权限管理系统

idea建立springboot项目运行后浏览器访问不了

JavaScript 【基础】 浏览器执行脚本

解决windows下，Nginx启动项目后静态资源不加载的问题。

Windows系统下安装Docker并实现项目的部署发布

猫头虎分享HTTP教程 || 使用Telnet命令玩转HTTP

想要专升本你不得不看的全干货_吐血整理_专升本_计算机文化基础（十）

windows系统下web项目一键部署实现方法【持续更新中】

如何把 Kitten编程猫上开发出来的项目打包成安卓平台上可以安装的apk文件

一次Windows系统部署网站(flask项目)的详细过程

Mysql安全之基础合规配置

发表评论

推荐文章

ThinkPad T480升级改造实战：从屏幕到硬盘的全面升级指南

Windows下安装libiconv库教程(转换字符编码库)

在Windows系统安装Nmap

命令行中如何关闭代理服务器

清除Win7的SID工具Sysprep

热门文章

h510主板怎么装win7_h510装win7完美解决方案

计算机网络复习笔记（持续更新中）

windows下V-Rep下载及安装教程

安卓平板装windows系统模拟器

windows系统的平板2000元以内

双系统从Windows下分出空间给Ubuntu的空间不够的分区

【Jenkins】持续集成环境实战

windows7 embedded 初步了解

MySQL 8.0.27 下载、安装与配置 超详细教程（Windows64位）

分享几个纯净版Windows系统下载站

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

苹果电脑windows系统换苹果系统

Win11系统崩溃错误修复指南：三种实用方法详解

如何封装一个自己的win7系统并安装到电脑做成双系统

如何在Excel 2019中开启数据分析工具？

批量激活管理工具VAMT 3.0的安装与基本使用方法简介

JavaScript 【基础】浏览器执行脚本

MySQL 8.0.27 下载、安装与配置超详细教程（Windows64位）