File size: 4,417 Bytes
5eb8cf1
 
 
 
 
 
 
 
 
9c07bb9
f9b4817
 
 
 
4dd5b92
9c07bb9
 
5eb8cf1
07dbe8b
 
 
 
 
 
 
 
 
 
 
 
 
7d890ff
 
7437edf
07dbe8b
de81816
 
7d890ff
07dbe8b
7437edf
7cc51d9
7437edf
7cc51d9
7437edf
7cc51d9
7437edf
7cc51d9
7437edf
 
 
7d890ff
7437edf
de81816
07dbe8b
 
 
 
 
 
 
 
 
 
 
 
7437edf
 
 
 
 
 
 
 
 
 
 
cc1c427
7437edf
 
 
 
 
 
 
f9b4817
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
---
license: gpl-3.0
language:
- zh
- ja
- en
pipeline_tag: text-to-speech
tags:
- 草薙寧々
- GPT-SoVITS
- pjsk
- 草薙宁宁
- プロセカ
- prsk
- 宁宁
datasets:
- MomoyamaSawa/Voice-KusanagiNene
---
<p align = 'center'>
  <img width='150' src='./README.assets/stamp0570.png'>
</p>
<p align = 'center'> 🥕 </p>
<p align = 'center'> 如果兔兔的仓库对你有帮助的话点个⭐喵~ </p>
<p align = 'center'> If Tutu's repository is helpful to you, please give it a ⭐ meow~ </p>
<p align = 'center'> もしうさぎのリポジトリが役に立った場合は、⭐をぽちっとしてくださいにゃん~  </p>

<p align = 'center'> 🍉 </p>
<p align = 'center'> 任何 ❓问题 / 💭思考 /💡想法 都欢迎提出!</p>
<p align = 'center'> Any ❓question / 💭thought /💡idea  is welcome! </p>
<p align = 'center'> どんな ❓質問 / 💭考え /💡アイデア でも歓迎です! </p>

---

# 简介 & 示例

* 基于 [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) 项目训练的 [草薙寧々](https://zh.moegirl.org.cn/%E8%8D%89%E8%96%99%E5%AE%81%E5%AE%81) 声音模型

<br>

<center>
    <audio controls src="https://huggingface.co/MomoyamaSawa/GPT-SoVITS_KusanagiNene/resolve/main/README.assets/tmpb34bl0o0.wav"></audio>
    <p>いいんじゃない。最近、一緒に歌ってる人の声に合わせられるようになってきたし</p>
    <audio controls src="https://huggingface.co/MomoyamaSawa/GPT-SoVITS_KusanagiNene/resolve/main/README.assets/tmpmqxkbbgm.wav"></audio>
    <p>ざーーこ、お兄ちゃんざーーこ!(杂鱼~哥哥是杂鱼❤)</p>
    <audio controls src="https://huggingface.co/MomoyamaSawa/GPT-SoVITS_KusanagiNene/resolve/main/README.assets/tmpo1ftlmcz.wav"></audio>
    <p>大家好,我是宁宁。我中文还不是很熟练,但是希望大家能喜欢我的声音,喵喵喵!</p>
    <audio controls src="https://huggingface.co/MomoyamaSawa/GPT-SoVITS_KusanagiNene/resolve/main/README.assets/tmp8ouz9kdr.wav"></audio>
    <p>The sun is shining brightly in the clear blue sky.</p>
</center>

<br>

可以默认选择 **nene30_e8_s328.pth**,经测试大部分情况下 nene30_e8_s328.pth > nene60_2_e4_s336.pth = nene60_test_e8_s280.pth > nene60_1_e8_s640.pth = nene60_2_e2_s168.pth,但在不同的情况下其他模型可能表现较好,在默认情况下表现不佳时可以切换模型 / 切换参考音频尝试

|       SoVITS 模型       |        介绍         |    对应 GPT 模型     |
| :---------------------: | :-----------------: | :------------------: |
|   nene30_e8_s328.pth    | 30min 训练集 8epoch |   nene30-e15.ckpt    |
|  nene60_1_e8_s640.pth   | 60min 训练集 8epoch |  nene60-1-e15.ckpt   |
|  nene60_2_e2_s168.pth   | 60min 训练集 2epoch |  nene60-2-e15.ckpt   |
|  nene60_2_e4_s336.pth   | 60min 训练集 4epoch |  nene60-2-e15.ckpt   |
| nene60_test_e8_s280.pth | 60min 训练集 8epoch | nene60-test-e20.ckpt |

# 训练 & 推理

* 推理使用的参考音频对情感语气语调还有停顿影响很大,且必须使用原角色,不然效果会有点迷,建议不同情感语气语调抑扬,各种场合的干声存一份用作参考,平时大部分情况就用比较标准的陈述句当参考音频就好
* 根据项目作者得知训练集边际效应大概为 1h,经实验保持默认参数情况下 30min 的干声素材 8epoch 这样的训练量对于这个数据集大概是效果比较好的了,多的训练量比较容易过拟合,这边只做了随机 10min | 30min | 60min 数据量的实验,有时间也可以再做做更多时间和 epoch 和其他参数调参的组合 / 更多次随机实验来试试有没有效果更好的

# TODO

* (长期)测试优化模型,有时间可以再做做更多时间和 epoch 和其他参数调参的组合 / 更多次随机实验来试试有没有效果更好的

- [ ] 在线演示
- [ ] web api 

# 参考

* 声源归属:草薙寧々(CV:Machico)-[「プロジェクトセカイ カラフルステージ! feat. 初音ミク」](https://pjsekai.sega.jp/)

* [GPT-SoVITS 项目](https://github.com/RVC-Boss/GPT-SoVITS)

* [GPT-SoVITS 使用](https://www.bilibili.com/video/BV12g4y1m7Uw?vd_source=c4c131fdd99dec0eaf4bf3e8cb419a9e)

* [数据集](https://huggingface.co/datasets/MomoyamaSawa/Voice-KusanagiNene)

* [训练相关代码](https://github.com/MomoyamaSawa/GPT_SoVITS_Colab)