--- license: cc-by-sa-4.0 language: - ja pipeline_tag: text-to-speech --- # Rinne_Style-Bert-VITS2 ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/639304ba17d4d5a8696abed8/cgYHxLdesAdb885DSR4Xx.jpeg) [litagin](https://huggingface.co/litagin) さんの [Style-Bert-VITS2](https://github.com/litagin02/Style-Bert-VITS2) で利用できる Rinne の音声モデルです。 1. [Style-Bert-VITS2](https://github.com/litagin02/Style-Bert-VITS2) をインストールします。 - Style-Bert-VITS2 は bat ファイルを実行するだけで、簡単にインストールできます。 2. Rinne の音声モデルを配置します。 - Style-Bert-VITS2 インストール先の `model_assets/Rinne/` フォルダに [`config.json`](https://huggingface.co/RinneAi/Rinne_Style-Bert-VITS2/resolve/main/model_assets/Rinne/config.json?download=true), [`Rinne.safetensors`](https://huggingface.co/RinneAi/Rinne_Style-Bert-VITS2/resolve/main/model_assets/Rinne/Rinne.safetensors?download=true), [`style_vectors.npy`](https://huggingface.co/RinneAi/Rinne_Style-Bert-VITS2/resolve/main/model_assets/Rinne/style_vectors.npy?download=true) の 3ファイルを置きます。 - 3ファイルを zip でまとめたものは [こちら](https://huggingface.co/RinneAi/Rinne_Style-Bert-VITS2/resolve/main/Rinne.zip?download=true) です。 3. Style-Bert-VITS WebUI の `モデル一覧` の `更新` で `Rinne` を選んで `ロード` します。 `テキスト` を入力して `音声合成` をすると、文脈に応じた感情付きで音声が生成されます。 - WebUI が立ち上がっていない場合は、Style-Bert-VITS2 の `App.bat` を実行してください。 ## 技術情報 - [JVNV コーパス](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvnv_corpus) のみ(428音声、約 1 時間)バッチ 3 で 1000 エポック(138,000ステップ) 回し、96,000ステップを採用しています。 - 他の設定は Style-Bert-VITS2 のデフォルトのままです。 - ITA コーパスや Mana コーパスを混ぜないほうが、感情表現が豊かに聞こえました。 - スタイルは `Style.bat` で良い結果を得られなかったので用意していません。 - 自動判別では感情別の音声が混じってしまいました。 - 代表音声は代表をうまく選べませんでした。 - `Style.bat` で代表音声ではなく、[`clustering.ipynb`](https://github.com/litagin02/Style-Bert-VITS2/blob/master/clustering.ipynb) のようにファイル名のプレフィックスからスタイルを設定できると良いのかもしれません。