Update README.md

c92bad0 verified 10 months ago

4.35 kB

	---
	license: gpl-3.0
	language:
	- zh
	- ja
	- en
	pipeline_tag: text-to-speech
	tags:
	- 草薙寧々
	- GPT-SoVITS
	datasets:
	- MomoyamaSawa/Voice-KusanagiNene
	---
	<p align = 'center'>
	<img width='150' src='./README.assets/stamp0570.png'>
	</p>
	<p align = 'center'> 🥕 </p>
	<p align = 'center'> 如果兔兔的仓库对你有帮助的话点个⭐喵~ </p>
	<p align = 'center'> If Tutu's repository is helpful to you, please give it a ⭐ meow~ </p>
	<p align = 'center'> もしうさぎのリポジトリが役に立った場合は、⭐をぽちっとしてくださいにゃん~ </p>

	<p align = 'center'> 🍉 </p>
	<p align = 'center'> 任何 ❓问题 / 💭思考 /💡想法都欢迎提出！</p>
	<p align = 'center'> Any ❓question / 💭thought /💡idea is welcome! </p>
	<p align = 'center'> どんな ❓質問 / 💭考え /💡アイデアでも歓迎です！ </p>

	# 简介 & 示例

	基于 [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) 项目训练的 [草薙寧々](https://zh.moegirl.org.cn/%E8%8D%89%E8%96%99%E5%AE%81%E5%AE%81) 声音模型

	<center>
	<audio controls src="https://huggingface.co/MomoyamaSawa/GPT-SoVITS_KusanagiNene/resolve/main/README.assets/tmpb34bl0o0.mp3"></audio>
	<p>いいんじゃない。最近、一緒に歌ってる人の声に合わせられるようになってきたし</p>
	<audio controls src="https://huggingface.co/MomoyamaSawa/GPT-SoVITS_KusanagiNene/resolve/main/README.assets/tmpmqxkbbgm.mp3"></audio>
	<p>ざーーこ、お兄ちゃんざーーこ！（杂鱼~哥哥是杂鱼❤）</p>
	<audio controls src="https://huggingface.co/MomoyamaSawa/GPT-SoVITS_KusanagiNene/resolve/main/README.assets/tmpo1ftlmcz.mp3"></audio>
	<p>大家好，我是宁宁。我中文还不是很熟练，但是希望大家能喜欢我的声音，喵喵喵！</p>
	<audio controls src="https://huggingface.co/MomoyamaSawa/GPT-SoVITS_KusanagiNene/resolve/main/README.assets/tmp8ouz9kdr.mp3"></audio>
	<p>The sun is shining brightly in the clear blue sky.</p>
	</center>


	可以默认选择 nene30_e8_s328.pth，经测试大部分情况下 nene30_e8_s328.pth > nene60_2_e4_s336.pth = nene60_test_e8_s280.pth > nene60_1_e8_s640.pth = nene60_2_e2_s168.pth，但在不同的情况下其他模型可能表现较好，在默认情况下表现不佳时可以切换模型 / 切换参考音频尝试

	\| SoVITS 模型 \| 介绍 \| 对应 GPT 模型 \|
	\| :---------------------: \| :-----------------: \| :------------------: \|
	\| nene30_e8_s328.pth \| 30min 训练集 8epoch \| nene30-e15.ckpt \|
	\| nene60_1_e8_s640.pth \| 60min 训练集 8epoch \| nene60-1-e15.ckpt \|
	\| nene60_2_e2_s168.pth \| 60min 训练集 2epoch \| nene60-2-e15.ckpt \|
	\| nene60_2_e4_s336.pth \| 60min 训练集 4epoch \| nene60-2-e15.ckpt \|
	\| nene60_test_e8_s280.pth \| 60min 训练集 8epoch \| nene60-test-e20.ckpt \|

	# 训练 & 推理

	* 推理使用的参考音频对情感语气语调还有停顿影响很大，且必须使用原角色，不然效果会有点迷，建议不同情感语气语调抑扬，各种场合的干声存一份用作参考，平时大部分情况就用比较标准的陈述句当参考音频就好
	* 根据项目作者得知训练集边际效应大概为 1h，经实验保持默认参数情况下 30min 的干声素材 8epoch 这样的训练量对于这个数据集大概是效果比较好的了，多的训练量比较容易过拟合，这边只做了随机 10min \| 30min \| 60min 数据量的实验，有时间也可以再做做更多时间和 epoch 和其他参数调参的组合 / 更多次随机实验来试试有没有效果更好的

	# TODO

	* （长期）测试优化模型，有时间可以再做做更多时间和 epoch 和其他参数调参的组合 / 更多次随机实验来试试有没有效果更好的

	- [ ] 在线演示
	- [ ] web api

	# 参考

	* 训练声源归属：草薙寧々(CV:Machico)-[「プロジェクトセカイカラフルステージ！ feat. 初音ミク」](https://pjsekai.sega.jp/)

	* [GPT-SoVITS 项目](https://github.com/RVC-Boss/GPT-SoVITS)

	* [GPT-SoVITS 使用](https://www.bilibili.com/video/BV12g4y1m7Uw?vd_source=c4c131fdd99dec0eaf4bf3e8cb419a9e)

	* [数据集](https://huggingface.co/datasets/MomoyamaSawa/Voice-KusanagiNene)

	* [训练相关代码](https://github.com/MomoyamaSawa/GPT_SoVITS_Colab)