アニメ声のようなわざとらしい声でもなく、ボカロなどのソフトを使ったいかにも合成の音声でもなく、クラスに一人くらいいそうな、自然で親しみやすい美少女の声を…。

本モデルは、そういうコンセプトで開発されたSo-vits-svc 4.0のモデルです。

一次音声は私自身の肉声から合成し、その素材をElevenLabsで1時間程度まで水増しし、水増しした音声データセットを学習させました。

innnky氏がG_0.pth、D_0.pthのあったrepoを削除してしまったようなので、学習用のベースとなったG_0.pthD_0.pthおよびhubertのチェックポイントも同梱しています。

また、推論や学習ができるように、notebookも同梱しています(利用時はconfig.jsonを置き換えることも必要です)。

注意

  • Sovitsの仕様で、音声の直前の無音部でノイズが発生することがあります。
  • 中国由来のモデルなので、日本語や英語の発音はたまにおかしくなります。
  • 自然な音声を目指したので、(もしかすると)実在人物の音声に類似している可能性があります。「歌わせてみた」など、平和的な内容での利用を推奨します。
    • (おそらく日本では)違法ではないですが、例えばどこかの4chan民のように『我が闘争』を読ませる使い方や、nsfw音声としての利用は推奨されません。

サンプル

God knows...

Speak softly love

Downloads last month
7
Inference API
Unable to determine this model’s pipeline type. Check the docs .

Dataset used to train ThePioneer/NaturalGirlyVoice