HuanLin
/

DiffSVCBaseModel

pre-trained_model

Model card Files Files and versions Community

DiffSVCBaseModel / README_CN.md

HuanLin's picture

Update README_CN.md

9766866 12 months ago

|

raw history blame contribute delete

2.27 kB

	---
	tags:
	- DiffSVC
	- pre-trained_model
	- basemodel
	- diff-svc
	license: "gpl"
	datasets:
	- 512rc_50k
	- 512rc_80k
	- 512rc_100k
	---
	[English](./README.md) \| 简体中文
	# DiffSVCBaseModel

	任何类型的音色都能用的大型底模!

	## 先康康效果

	\| 原始音频 \| 用纳西妲模型推理的 \|
	\| -------------- \| ------------------------------------ \|
	\| [点击播放](https://huggingface.co/HuanLin/DiffSVCBaseModel/resolve/main/gouzhiqishi.wav) \| [点击播放](https://huggingface.co/HuanLin/DiffSVCBaseModel/resolve/main/gouzhiqishi_-4key_nahida_384_20_348k_0x.flac) \|


	## 这玩意咋用?

	1. 按照你的数据挑选一个zip包,保存到你的电脑上

	2. 填好你的配置，把数据集丢到```(diffsvc 根目录)/data/raw/{角色名称}/```

	3. 把底模(仅丢 .ckpt 文件)丢到 ```(diffsvc 根目录)/checkpoints/{角色名称}```

	4. 向原仓库一样预处理和训练数据集,如果不是从step1开始,那就成功了

	## 我用了多少数据集?

	两份开源数据集(opencpop ,m4singer),40多个小时的音频

	## 我想演自己炼底模!

	邢，自己下载 [这个已预处理过的文件](./BaseModelBinary.tar.gz).

	## 下载专区

	选一个符合自己配置文件中 rc 值的模型

	\| 版本 \| 下载传送门 \| lr参考值
	\| -------------- \| ---------------------------------- \| --- \|
	\| 384rc,50k_step \| [传送](./384rc_50k_step.zip) \| 0.0016 \|
	\| 384rc,80k_step \| [传送](./384rc_80k_step.zip) \| 0.0032 \|
	\| 384rc,100k_step \| [传送](./384rc_100k_step.zip) \| 0.0032 \|

	更多版本还在路上

	> rc: 就是配置里的 residual_channels(中文特供翻译: 网格宽度, 简称网宽)

	## 涉及仓库

	\| 仓库 \| 传送门 \|
	\| --------------- \| ---------------------------------------------------- \|
	\| Diff-SVC \| [传送](https://github.com/prophesier/diff-svc) \|
	\| 44.1KHz声码器 \| [传送](https://openvpi.github.io/vocoders) \|
	\| M4Singer \| [传送](https://github.com/M4Singer/M4Singer) \|
	\| OpenCPOP \| [传送](https://github.com/wenet-e2e/opencpop) \|
	\| Pre-trained_Models(有更多RC版本的) \| [传送](https://huggingface.co/Erythrocyte/Pre-trained_Models) \|