File size: 4,540 Bytes
1b1bf1a
 
 
29aef4c
1b1bf1a
 
 
 
 
ccd5e1d
 
 
17280d0
ccd5e1d
 
 
 
dd6a81f
 
8d53d59
dd6a81f
 
a2382d6
 
8d53d59
a2382d6
 
8d53d59
a2382d6
 
 
8d53d59
 
 
 
 
a2382d6
 
 
 
dd6a81f
 
 
 
8d53d59
dd6a81f
 
 
 
 
 
 
 
 
ccd5e1d
 
 
dd6a81f
 
 
ccd5e1d
 
 
 
 
 
 
 
 
 
 
 
8d53d59
ccd5e1d
dd6a81f
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
---
language:
- jp
license: gpl-3.0
datasets:
- emu
metrics:
---

<div align="center">
  <img src="https://huggingface.co/MashiroSA/sovits-emu-model/resolve/main/favicon.png" height="200" alt="emu">
  <h1>MashiroSA/sovits-emu-model</h1>
  <b>一个高度可用的鳳えむ的sovits4.0模型</b>
</div>

## 特点

- 这是Project Sekai(PJSK)中的`鳳えむ`的用于`so-vits-svc 4.0`的人声模型。
- 训练集样本数量:1398。
- 拟合情况:在采集的样本下可能还可以优化,若您没有把握可以使用`4.0_voice_release/G_130400.pth`- 不定期更新,因为太喜欢emu惹😊。

## 文件结构
```
├── 4.0_basemodel #用于sovits4.0的通用底模,方便继续训练
│   ├── D_0.pth
│   └── G_0.pth
├── 4.0_voice_release #emu的4.0模型,稳定模型,基于语音生成,歌曲效果可能欠佳
│   ├── D_130400.pth #判别模型,无推理能力
│   ├── G_130400.pth #生成模型,如果需要推理(即使用变音)请下载这个模型
│   └── config.json #config,内记录了epoch、batch_size、step等信息,如果需要推理(即使用变音)也需要下载这个
├── 4.0_voice_canary #emu的4.0模型,测试模型,效果不详,基于语音生成,歌曲效果可能欠佳
│   ├── D_216800.pth #判别模型,功能同上述
│   ├── G_216800.pth #生成模型,功能同上述
│   └── config.json #config,功能同上述,注意不同版本的config可能不通用
├── 4.0_cluster #聚类模型,用于使用聚类功能
├── README.md #README
└── favicon.png #可爱的头像,我PS的,可爱吧
```

## 注意

- 在当前情况下,使用该模型时,你**必须允许共享你的HuggingFace账户名和邮箱**,才能访问到模型。我们不会泄漏您的邮箱信息,仅用于避免模型滥用。若您担心隐私,你可以使用可联系的非主要邮箱。
- 在用于推理时,请下载`G_x.pth``config.json`,切勿使用0模(即底模,音色不是emu)和D模(判别模,不具有任何推理能力)。
- 在用于继续训练时,请下载Repo里的basemodel(D_0.pth、G_0.pth)和你需要继续运算的模型(如4.0_voice_release/D_x.pth和4.0_voice_release/G_x.pth以及config.json),并将两个D模和两个G模都放在模型储存目录(通常是.../logs/),并(可选)将config.json放在配置文件目录(通常是.../configs/,非必要,因为通常sovits会依据你的训练集生成config),之后继续训练。
- 若您继续计算和有更优秀的模型,欢迎您提出PR更新模型,我在此也感谢每一位使用和贡献模型的开发者们。

## 建议

- 模型效果个人仍不理想,乐音转换音高低于C4失真可能性大。对话使用自动预测f0效果尚可。
- 你可以在HuggingFace的[Space在线使用](https://huggingface.co/spaces/MashiroSA/sovits-emu-voice-transform)试用一下(很慢)。
- 若您发现音色不像或发生爆音请用-t参数调整音调。抗干扰效果差,避免干声中存在和声或者背景乐否则会出现干扰。
- 欢迎大家提供建议。
- 若有DMCA问题请在模型的Community版块通知本人。

## 许可

在使用模型时,您必须同意以下内容:

该模型使用`GPL-3.0`许可开源,因而,你不可以使用该模型用于商业用途,不能用于盈利。
```TEXT
This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
    the Free Software Foundation, either version 3 of the License, or
    (at your option) any later version.

    This program is distributed in the hope that it will be useful,
    but WITHOUT ANY WARRANTY; without even the implied warranty of
    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
    GNU General Public License for more details.
```

此外:所有训练集归`SEGA,Project Sekai,鳳えむ的声优本人`所属,我们与SEGA无往来,无利益关系。
推导模型是基于公开传播的音声资源所做的训练集生成的,但是,它仍然与原角色的音色有差异,因而不会对角色构成危害。
使用该模型,即您同意所有风险自行承当,模型仅供学术交流,不可用于非法目的。

我们将获取您的用户名和邮箱,以避免模型滥用和模型泄漏(譬如转移到其他付费平台),我们不会主动泄漏您的隐私信息。