metadata

language:
  - jp
license: gpl-3.0
datasets:
  - emu
metrics: null

MashiroSA/sovits-emu-model

一个高度可用的鳳えむ的sovits4.0模型

特点

这是Project Sekai(PJSK)中的鳳えむ的用于so-vits-svc 4.0的人声模型。
训练集样本数量：1398。
拟合情况：在采集的样本下可能还可以优化，若您没有把握可以使用4.0_voice_release/G_130400.pth。
不定期更新，因为太喜欢emu惹😊。

文件结构

├── 4.0_basemodel #用于sovits4.0的通用底模，方便继续训练
│   ├── D_0.pth
│   └── G_0.pth
├── 4.0_voice_release #emu的4.0模型，稳定模型，基于语音生成，歌曲效果可能欠佳
│   ├── D_130400.pth #判别模型，无推理能力
│   ├── G_130400.pth #生成模型，如果需要推理（即使用变音）请下载这个模型
│   └── config.json #config，内记录了epoch、batch_size、step等信息，如果需要推理（即使用变音）也需要下载这个
├── 4.0_voice_canary #emu的4.0模型，测试模型，效果不详，基于语音生成，歌曲效果可能欠佳
│   ├── D_216800.pth #判别模型，功能同上述
│   ├── G_216800.pth #生成模型，功能同上述
│   └── config.json #config，功能同上述，注意不同版本的config可能不通用
├── 4.0_cluster #聚类模型，用于使用聚类功能
├── README.md #README
└── favicon.png #可爱的头像，我PS的，可爱吧

注意

在当前情况下，使用该模型时，你必须允许共享你的HuggingFace账户名和邮箱，才能访问到模型。我们不会泄漏您的邮箱信息，仅用于避免模型滥用。若您担心隐私，你可以使用可联系的非主要邮箱。
在用于推理时，请下载G_x.pth和config.json，切勿使用0模（即底模，音色不是emu）和D模（判别模，不具有任何推理能力）。
在用于继续训练时，请下载Repo里的basemodel(D_0.pth、G_0.pth)和你需要继续运算的模型（如4.0_voice_release/D_x.pth和4.0_voice_release/G_x.pth以及config.json），并将两个D模和两个G模都放在模型储存目录（通常是.../logs/），并（可选）将config.json放在配置文件目录（通常是.../configs/，非必要，因为通常sovits会依据你的训练集生成config），之后继续训练。
若您继续计算和有更优秀的模型，欢迎您提出PR更新模型，我在此也感谢每一位使用和贡献模型的开发者们。

建议

模型效果个人仍不理想，乐音转换音高低于C4失真可能性大。对话使用自动预测f0效果尚可。
你可以在HuggingFace的Space在线使用试用一下（很慢）。
若您发现音色不像或发生爆音请用-t参数调整音调。抗干扰效果差，避免干声中存在和声或者背景乐否则会出现干扰。
欢迎大家提供建议。
若有DMCA问题请在模型的Community版块通知本人。

许可

在使用模型时，您必须同意以下内容：

该模型使用GPL-3.0许可开源，因而，你不可以使用该模型用于商业用途，不能用于盈利。

This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
    the Free Software Foundation, either version 3 of the License, or
    (at your option) any later version.

    This program is distributed in the hope that it will be useful,
    but WITHOUT ANY WARRANTY; without even the implied warranty of
    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
    GNU General Public License for more details.

此外：所有训练集归SEGA，Project Sekai，鳳えむ的声优本人所属，我们与SEGA无往来，无利益关系。推导模型是基于公开传播的音声资源所做的训练集生成的，但是，它仍然与原角色的音色有差异，因而不会对角色构成危害。使用该模型，即您同意所有风险自行承当，模型仅供学术交流，不可用于非法目的。

我们将获取您的用户名和邮箱，以避免模型滥用和模型泄漏（譬如转移到其他付费平台），我们不会主动泄漏您的隐私信息。