update README

Browse files

Files changed (5) hide show

README.assets/tmp8ouz9kdr.wav +0 -0
README.assets/tmpb34bl0o0.wav +0 -0
README.assets/tmpmqxkbbgm.wav +0 -0
README.assets/tmpo1ftlmcz.wav +0 -0
README.md +43 -4

README.assets/tmp8ouz9kdr.wav ADDED Viewed

Binary file (191 kB). View file

README.assets/tmpb34bl0o0.wav ADDED Viewed

Binary file (398 kB). View file

README.assets/tmpmqxkbbgm.wav ADDED Viewed

Binary file (188 kB). View file

README.assets/tmpo1ftlmcz.wav ADDED Viewed

Binary file (598 kB). View file

README.md CHANGED Viewed

@@ -24,11 +24,31 @@ tags:
 <p align = 'center'> Any ❓question / 💭thought /💡idea  is welcome! </p>
 <p align = 'center'> どんな ❓質問 / 💭考え /💡アイデア でも歓迎です！ </p>
-# 简介
-基于 [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) 项目训练的 [草薙寧々](https://zh.moegirl.org.cn/%E8%8D%89%E8%96%99%E5%AE%81%E5%AE%81) 模型
-经测试大部分情况下 nene30_e8_s328.pth > nene60_2_e4_s336.pth = nene60_test_e8_s280.pth > nene60_1_e8_s640.pth = nene60_2_e2_s168.pth，可以默认选择 **nene30_e8_s328.pth**，但在不同的情况下其他模型可能表现较好，在默认情况下表现不佳时可以切换模型 / 切换参考音频尝试
 |       SoVITS 模型       |        介绍         |    对应 GPT 模型     |
 | :---------------------: | :-----------------: | :------------------: |
@@ -41,4 +61,23 @@ tags:
 # 训练 & 推理
 * 推理使用的参考音频对情感语气语调还有停顿影响很大，且必须使用原角色，不然效果会有点迷，建议不同情感语气语调抑扬，各种场合的干声存一份用作参考，平时大部分情况就用比较标准的陈述句当参考音频就好
-* 根据项目作者得知训练集边际效应大概为 1h，经实验保持默认参数情况下 30min 的干声素材 8epoch 这样的训练量对于这个数据集大概是效果比较好的了，多的训练量比较容易过拟合，这边只做了随机 10min | 30min | 60min 数据量的实验，有时间也可以再做做更多时间和 epoch 的组合 / 更多次随机实验来试试有没有效果更好的

 <p align = 'center'> Any ❓question / 💭thought /💡idea  is welcome! </p>
 <p align = 'center'> どんな ❓質問 / 💭考え /💡アイデア でも歓迎です！ </p>
+# 简介 & 示例
+基于 [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) 项目训练的 [草薙寧々(プロジェクトセカイ カラフルステージ！ feat.初音ミク)](https://zh.moegirl.org.cn/%E8%8D%89%E8%96%99%E5%AE%81%E5%AE%81) 声音模型
+<center>
+    <audio controls>
+        <source src="./README.assets/tmpb34bl0o0.wav" type="audio/mpeg">
+    </audio>
+    <p>いいんじゃない。最近、一緒に歌ってる人の声に合わせられるようになってきたし</p>
+    <audio controls>
+        <source src="./README.assets/tmpmqxkbbgm.wav" type="audio/mpeg">
+    </audio>
+    <p>ざーーこ、お兄ちゃんざーーこ！（杂鱼~哥哥是杂鱼❤）</p>
+    <audio controls>
+        <source src="./README.assets/tmpo1ftlmcz.wav" type="audio/mpeg">
+    </audio>
+    <p>大家好，我是宁宁。我中文还不是很熟练，但是希望大家能喜欢我的声音，喵喵喵！</p>
+    <audio controls>
+        <source src="./README.assets/tmp8ouz9kdr.wav" type="audio/mpeg">
+    </audio>
+    <p>The sun is shining brightly in the clear blue sky.</p>
+</center>
+可以默认选择 **nene30_e8_s328.pth**，经测试大部分情况下 nene30_e8_s328.pth > nene60_2_e4_s336.pth = nene60_test_e8_s280.pth > nene60_1_e8_s640.pth = nene60_2_e2_s168.pth，但在不同的情况下其他模型可能表现较好，在默认情况下表现不佳时可以切换模型 / 切换参考音频尝试
 |       SoVITS 模型       |        介绍         |    对应 GPT 模型     |
 | :---------------------: | :-----------------: | :------------------: |
 # 训练 & 推理
 * 推理使用的参考音频对情感语气语调还有停顿影响很大，且必须使用原角色，不然效果会有点迷，建议不同情感语气语调抑扬，各种场合的干声存一份用作参考，平时大部分情况就用比较标准的陈述句当参考音频就好
+* 根据项目作者得知训练集边际效应大概为 1h，经实验保持默认参数情况下 30min 的干声素材 8epoch 这样的训练量对于这个数据集大概是效果比较好的了，多的训练量比较容易过拟合，这边只做了随机 10min | 30min | 60min 数据量的实验，有时间也可以再做做更多时间和 epoch 和其他参数调参的组合 / 更多次随机实验来试试有没有效果更好的
+# TODO
+* （长期）测试优化模型，有时间可以再做做更多时间和 epoch 和其他参数调参的组合 / 更多次随机实验来试试有没有效果更好的
+- [ ] 在线演示
+- [ ] web api
+# 参考
+* **训练声源归属**：草薙寧々(CV:Machico) -[「プロジェクトセカイ カラフルステージ！ feat. 初音ミク」](https://pjsekai.sega.jp/)
+* [GPT-SoVITS 项目](https://github.com/RVC-Boss/GPT-SoVITS)
+* [GPT-SoVITS 使用](https://www.bilibili.com/video/BV12g4y1m7Uw?vd_source=c4c131fdd99dec0eaf4bf3e8cb419a9e)
+* [数据集](https://huggingface.co/datasets/MomoyamaSawa/Voice-KusanagiNene)
+* [训练相关代码](https://github.com/MomoyamaSawa/GPT_SoVITS_Colab)