MomoyamaSawa's picture
update README
07dbe8b
|
raw
history blame
2.48 kB

🥕

如果兔兔的仓库对你有帮助的话点个⭐喵~

If Tutu's repository is helpful to you, please give it a ⭐ meow~

もしうさぎのリポジトリが役に立った場合は、⭐をぽちっとしてくださいにゃん~

🍉

任何 ❓问题 / 💭思考 /💡想法 都欢迎提出!

Any ❓question / 💭thought /💡idea is welcome!

どんな ❓質問 / 💭考え /💡アイデア でも歓迎です!

简介

基于 GPT-SoVITS 项目训练的 草薙寧々 模型

经测试大部分情况下 nene30_e8_s328.pth > nene60_2_e4_s336.pth = nene60_test_e8_s280.pth > nene60_1_e8_s640.pth = nene60_2_e2_s168.pth,可以默认选择 nene30_e8_s328.pth,但在不同的情况下其他模型可能表现较好,在默认情况下表现不佳时可以切换模型 / 切换参考音频尝试

SoVITS 模型 介绍 对应 GPT 模型
nene30_e8_s328.pth 30min 训练集 8epoch nene30-e15.ckpt
nene60_1_e8_s640.pth 60min 训练集 8epoch nene60-1-e15.ckpt
nene60_2_e2_s168.pth 60min 训练集 2epoch nene60-2-e15.ckpt
nene60_2_e4_s336.pth 60min 训练集 4epoch nene60-2-e15.ckpt
nene60_test_e8_s280.pth 60min 训练集 8epoch nene60-test-e20.ckpt

训练 & 推理

  • 推理使用的参考音频对情感语气语调还有停顿影响很大,且必须使用原角色,不然效果会有点迷,建议不同情感语气语调抑扬,各种场合的干声存一份用作参考,平时大部分情况就用比较标准的陈述句当参考音频就好
  • 根据项目作者得知训练集边际效应大概为 1h,经实验保持默认参数情况下 30min 的干声素材 8epoch 这样的训练量对于这个数据集大概是效果比较好的了,多的训练量比较容易过拟合,这边只做了随机 10min | 30min | 60min 数据量的实验,有时间也可以再做做更多时间和 epoch 的组合 / 更多次随机实验来试试有没有效果更好的