アニメ声のようなわざとらしい声でもなく、ボカロなどのソフトを使ったいかにも合成の音声でもなく、クラスに一人くらいいそうな、自然で親しみやすい美少女の声を…。

本モデルは、そういうコンセプトで開発されたSo-vits-svc 4.0のモデルです。

一次音声は私自身の肉声から合成し、その素材をElevenLabsで1時間程度まで水増しし、水増しした音声データセットを学習させました。

innnky氏がG_0.pth、D_0.pthのあったrepoを削除してしまったようなので、学習用のベースとなったG_0.pthD_0.pthおよびhubertのチェックポイントも同梱しています。

また、推論や学習ができるように、notebookも同梱しています(利用時はconfig.jsonを置き換えることも必要です)。

注意

  • Sovitsの仕様で、音声の直前の無音部でノイズが発生することがあります。
  • 中国由来のモデルなので、日本語や英語の発音はたまにおかしくなります。
  • 自然な音声を目指したので、(もしかすると)実在人物の音声に類似している可能性があります。「歌わせてみた」など、平和的な内容での利用を推奨します。
    • (おそらく日本では)違法ではないですが、例えばどこかの4chan民のように『我が闘争』を読ませる使い方や、nsfw音声としての利用は推奨されません。

サンプル

God knows...

Speak softly love

Downloads last month
11
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no pipeline_tag.

Dataset used to train ThePioneer/NaturalGirlyVoice