简介 & 示例

基于 GPT-SoVITS 项目训练的草薙寧々声音模型

いいんじゃない。最近、一緒に歌ってる人の声に合わせられるようになってきたし

ざーーこ、お兄ちゃんざーーこ！（杂鱼~哥哥是杂鱼❤）

大家好，我是宁宁。我中文还不是很熟练，但是希望大家能喜欢我的声音，喵喵喵！

The sun is shining brightly in the clear blue sky.

可以默认选择 nene30_e8_s328.pth，经测试大部分情况下 nene30_e8_s328.pth > nene60_2_e4_s336.pth = nene60_test_e8_s280.pth > nene60_1_e8_s640.pth = nene60_2_e2_s168.pth，但在不同的情况下其他模型可能表现较好，在默认情况下表现不佳时可以切换模型 / 切换参考音频尝试

SoVITS 模型	介绍	对应 GPT 模型
nene30_e8_s328.pth	30min 训练集 8epoch	nene30-e15.ckpt
nene60_1_e8_s640.pth	60min 训练集 8epoch	nene60-1-e15.ckpt
nene60_2_e2_s168.pth	60min 训练集 2epoch	nene60-2-e15.ckpt
nene60_2_e4_s336.pth	60min 训练集 4epoch	nene60-2-e15.ckpt
nene60_test_e8_s280.pth	60min 训练集 8epoch	nene60-test-e20.ckpt

训练 & 推理

推理使用的参考音频对情感语气语调还有停顿影响很大，且必须使用原角色，不然效果会有点迷，建议不同情感语气语调抑扬，各种场合的干声存一份用作参考，平时大部分情况就用比较标准的陈述句当参考音频就好
根据项目作者得知训练集边际效应大概为 1h，经实验保持默认参数情况下 30min 的干声素材 8epoch 这样的训练量对于这个数据集大概是效果比较好的了，多的训练量比较容易过拟合，这边只做了随机 10min | 30min | 60min 数据量的实验，有时间也可以再做做更多时间和 epoch 和其他参数调参的组合 / 更多次随机实验来试试有没有效果更好的

TODO

（长期）测试优化模型，有时间可以再做做更多时间和 epoch 和其他参数调参的组合 / 更多次随机实验来试试有没有效果更好的

在线演示
web api

参考

声源归属：草薙寧々(CV:Machico)-「プロジェクトセカイカラフルステージ！ feat. 初音ミク」
GPT-SoVITS 项目
GPT-SoVITS 使用
数据集
训练相关代码

MomoyamaSawa
/

GPT-SoVITS_KusanagiNene

简介 & 示例

训练 & 推理

TODO

参考

Dataset used to train MomoyamaSawa/GPT-SoVITS_KusanagiNene

Space using MomoyamaSawa/GPT-SoVITS_KusanagiNene 1