admin 管理员组文章数量: 887629
一分钟教你使用GPT-SoVITS-克隆你的声音-效果十分逼真-全干货教程
一、GPT-SoVITS下载首先该模型是GitHub上的开源项目,可以直接下载GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)项目下载后压缩包放入一个非中文路径解压,解压后在文件夹找到go-webui.bat,双击运行即可,如果长时间cmd没反应,可以尝试回车,或者在顶头右键属性,取消快速编辑模式并确定即可启动成功后浏览器会自动打开这个UI界面,接下来我们就可以正式开始了二、GPT-SoVITS使用首先我们可以准备好一段音频,用于切割训练,我这里准备了四分钟,取自一个视频中的音频1.人声分离音频分离可以将“是否开启UVR5-WebUI”勾选上,等待几秒就会自动打开这个界面,选择需要处理的音频,选择好模型和输出的文件夹目录后就可以开始转换了2.音频处理得到需要训练的音频后,我们将音频的文件路径复制到第一个方框,然后在第二个方框选择输出的路径,其余不变即可,点击开启语音切割,耐心等待几秒钟,文件就会被切割成几秒钟的一句话随后下面找到ASR音频处理,文件路径选择刚刚切分好音频的文件夹,输出路径也选择一个文件夹用于存放生成的list文件注:ASR模型可以自己选择,只训练中文可以不修改,但如果想生成英文或者日语,可以自行选择生成好的文件最后我们在下方填入list的文件路径,点击下方开启语音文本校对标注工具,开始打标此操作也会启动一个新的界面3.音频打标进入如下界面后即可进行打标,左侧为自动生成的文字,中间为原音频,我们需要根据音频实际去修改左侧文字,看看是否有错误,错误一般为文字错误,标点错误,断句错误等,修改好后点击第二个Submit Test提交即可本页检查完,如果有第二页,则点击右上角Next跳转下一页进行打标,需要删除音频则勾选yes,然后点击顶部的Delete Audio进行删除文件全部打标完成,点击Save File即可,然后关闭页面,把上一个页面的“是否开启打标WebUI”勾给取消,滚动到界面上方跳转到TTS界面4.TTS处理这一步很简单,我们只需要使用更改这一个list文件夹目录即可随后找到最底下的一键三连!!!(疯狂暗示)文件处理完成后上方切换到1B-微调训练可以自己更改数值,一般不建议太大,以我笔记本3050为例,默认的数值保持不变如下,生成模型所需要的时间和轮数以及保存频率有关,模型数量可以自己计算模型数量=总训练轮数÷保存频率点击开启SoVITS训练,也点击GPT训练这一步耗时较长,我们在控制台可以看到运行的结果5.TTS推理训练结束后,点击跳转1C-推理同理,其他都不用动,模型列表我们默认选择最大的,我这里就是e15和e8,都选上之后,点击开启TTS推理webUI,耐心等待界面跳转跳转到此界面后我们可以详细看一看内容首先这里面也可以选择模型进行更改,这个设置也很不错看到下边,需要我们上传10秒以内的音频,注意了,这里是十秒音频,必须和前边训练的声音要一致,前边假如训练的是自己的声音,那这里也要上传自己的声音,而且此次生成的音频语气感情都会参照这10秒内的声音来合成看旁边,参考音频文本,就填这十秒音频的文本即可,要对应上下方需要合成的文本,我们可以自己填需要文本转语音的内容,可以长可以短,如果需要短句,则在底部输入,选择要切分的类型,切分好后再粘贴进需要生成的文本里最后点击合成语音,大功告成!在这个页面可以预览生成的语音,点击语音条旁边的三个点就可以下载如果不满意还可以重复生成文件夹里的output文件夹就是存放所有的输出,我们可以定期删除清理掉,减少磁盘占用(每次生成的语音都会保存在这里,所以也不用点击下载,会自动保存进文件夹中)
博客原文:专业人工智能技术社区
版权声明:本文标题:一分钟教你使用GPT-SoVITS-克隆你的声音-效果十分逼真-全干货教程 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1735051069h1695453.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论