MomoyamaSawa commited on
Commit
7437edf
1 Parent(s): 5eb8cf1

update README

Browse files
README.assets/tmp8ouz9kdr.wav ADDED
Binary file (191 kB). View file
 
README.assets/tmpb34bl0o0.wav ADDED
Binary file (398 kB). View file
 
README.assets/tmpmqxkbbgm.wav ADDED
Binary file (188 kB). View file
 
README.assets/tmpo1ftlmcz.wav ADDED
Binary file (598 kB). View file
 
README.md CHANGED
@@ -24,11 +24,31 @@ tags:
24
  <p align = 'center'> Any ❓question / 💭thought /💡idea is welcome! </p>
25
  <p align = 'center'> どんな ❓質問 / 💭考え /💡アイデア でも歓迎です! </p>
26
 
27
- # 简介
28
 
29
- 基于 [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) 项目训练的 [草薙寧々](https://zh.moegirl.org.cn/%E8%8D%89%E8%96%99%E5%AE%81%E5%AE%81) 模型
30
 
31
- 经测试大部分情况下 nene30_e8_s328.pth > nene60_2_e4_s336.pth = nene60_test_e8_s280.pth > nene60_1_e8_s640.pth = nene60_2_e2_s168.pth,可以默认选择 **nene30_e8_s328.pth**,但在不同的情况下其他模型可能表现较好,在默认情况下表现不佳时可以切换模型 / 切换参考音频尝试
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
32
 
33
  | SoVITS 模型 | 介绍 | 对应 GPT 模型 |
34
  | :---------------------: | :-----------------: | :------------------: |
@@ -41,4 +61,23 @@ tags:
41
  # 训练 & 推理
42
 
43
  * 推理使用的参考音频对情感语气语调还有停顿影响很大,且必须使用原角色,不然效果会有点迷,建议不同情感语气语调抑扬,各种场合的干声存一份用作参考,平时大部分情况就用比较标准的陈述句当参考音频就好
44
- * 根据项目作者得知训练集边际效应大概为 1h,经实验保持默认参数情况下 30min 的干声素材 8epoch 这样的训练量对于这个数据集大概是效果比较好的了,多的训练量比较容易过拟合,这边只做了随机 10min | 30min | 60min 数据量的实验,有时间也可以再做做更多时间和 epoch 的组合 / 更多次随机实验来试试有没有效果更好的
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
24
  <p align = 'center'> Any ❓question / 💭thought /💡idea is welcome! </p>
25
  <p align = 'center'> どんな ❓質問 / 💭考え /💡アイデア でも歓迎です! </p>
26
 
27
+ # 简介 & 示例
28
 
29
+ 基于 [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) 项目训练的 [草薙寧々(プロジェクトセカイ カラフルステージ! feat.初音ミク)](https://zh.moegirl.org.cn/%E8%8D%89%E8%96%99%E5%AE%81%E5%AE%81) 声音模型
30
 
31
+ <center>
32
+ <audio controls>
33
+ <source src="./README.assets/tmpb34bl0o0.wav" type="audio/mpeg">
34
+ </audio>
35
+ <p>いいんじゃない。最近、一緒に歌ってる人の声に合わせられるようになってきたし</p>
36
+ <audio controls>
37
+ <source src="./README.assets/tmpmqxkbbgm.wav" type="audio/mpeg">
38
+ </audio>
39
+ <p>ざーーこ、お兄ちゃんざーーこ!(杂鱼~哥哥是杂鱼❤)</p>
40
+ <audio controls>
41
+ <source src="./README.assets/tmpo1ftlmcz.wav" type="audio/mpeg">
42
+ </audio>
43
+ <p>大家好,我是宁宁。我中文还不是很熟练,但是希望大家能喜欢我的声音,喵喵喵!</p>
44
+ <audio controls>
45
+ <source src="./README.assets/tmp8ouz9kdr.wav" type="audio/mpeg">
46
+ </audio>
47
+ <p>The sun is shining brightly in the clear blue sky.</p>
48
+ </center>
49
+
50
+
51
+ 可以默认选择 **nene30_e8_s328.pth**,经测试大部分情况下 nene30_e8_s328.pth > nene60_2_e4_s336.pth = nene60_test_e8_s280.pth > nene60_1_e8_s640.pth = nene60_2_e2_s168.pth,但在不同的情况下其他模型可能表现较好,在默认情况下表现不佳时可以切换模型 / 切换参考音频尝试
52
 
53
  | SoVITS 模型 | 介绍 | 对应 GPT 模型 |
54
  | :---------------------: | :-----------------: | :------------------: |
 
61
  # 训练 & 推理
62
 
63
  * 推理使用的参考音频对情感语气语调还有停顿影响很大,且必须使用原角色,不然效果会有点迷,建议不同情感语气语调抑扬,各种场合的干声存一份用作参考,平时大部分情况就用比较标准的陈述句当参考音频就好
64
+ * 根据项目作者得知训练集边际效应大概为 1h,经实验保持默认参数情况下 30min 的干声素材 8epoch 这样的训练量对于这个数据集大概是效果比较好的了,多的训练量比较容易过拟合,这边只做了随机 10min | 30min | 60min 数据量的实验,有时间也可以再做做更多时间和 epoch 和其他参数调参的组合 / 更多次随机实验来试试有没有效果更好的
65
+
66
+ # TODO
67
+
68
+ * (长期)测试优化模型,有时间可以再做做更多时间和 epoch 和其他参数调参的组合 / 更多次随机实验来试试有没有效果更好的
69
+
70
+ - [ ] 在线演示
71
+ - [ ] web api
72
+
73
+ # 参考
74
+
75
+ * **训练声源归属**:草薙寧々(CV:Machico) -[「プロジェクトセカイ カラフルステージ! feat. 初音ミク」](https://pjsekai.sega.jp/)
76
+
77
+ * [GPT-SoVITS 项目](https://github.com/RVC-Boss/GPT-SoVITS)
78
+
79
+ * [GPT-SoVITS 使用](https://www.bilibili.com/video/BV12g4y1m7Uw?vd_source=c4c131fdd99dec0eaf4bf3e8cb419a9e)
80
+
81
+ * [数据集](https://huggingface.co/datasets/MomoyamaSawa/Voice-KusanagiNene)
82
+
83
+ * [训练相关代码](https://github.com/MomoyamaSawa/GPT_SoVITS_Colab)