File size: 4,434 Bytes
6986744
 
899fbd2
 
 
 
 
 
 
 
 
 
 
ef8d19c
899fbd2
 
8c02568
 
 
 
899fbd2
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45

# Rinne を歌わせたい

[Retrieval-based-Voice-Conversion-WebUI](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI) で、すでにある曲を Rinne に歌わせます。

# つかいかた

1. 女性のボーカル付きの曲を mp3 形式や wav 形式で用意します。
2. `Sing.bat` をダブルクリックして、[Retrieval-based-Voice-Conversion-WebUI](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI) を立ち上げます。
	- Windowsファイアウォールで通信を許可しなくとも利用できるようです。
3. ブラウザに WebUI が表示されたら画面上部の、「伴奏とボーカルの分離」で、曲を伴奏とボーカルに分離します。
![Sing0](./Sing0.png)
	- 左下の「ここにファイルをドロップ -または- クリックしてアップロード」から mp3 形式や wav 形式の曲を登録できますが、**すぐ上の「フォルダパスを入力」を空欄にする必要があります**		- mp3 形式はファイルによってはエラーになる場合があります。エラーになる場合は [fre:ac](https://www.freac.org/) などのお好みのツールで、あらかじめ wav 形式に変換してください。
	- モデルを「HP5-~」にして「変換」すると `RVC-beta\opt\` 以下に伴奏とボーカルの wav が出力されます。
		- 曲によって相性があるようなので、「HP2-~」でも「変換」してどちらが伴奏とボーカルをキレイに分離できているかを比較します。
		- `RVC-beta\opt\``instrument_` で始まる伴奏の wav を確認し、曲の中の音量が大きなところでプチプチといったノイズがないかを確認します。
			- プチプチとしたノイズがあるなら [Audacity](https://www.audacityteam.org/) などのツールでノーマライズやコンプレッサーで分離前に最大振幅を抑えてから、もう一度分割します。
				- 邪道っぽくはありますが、コンプレッサーのほうが処理しやすい音になるためか?AIによる処理結果が良くなっている雰囲気がありました(気のせいかも?)。
				- [Audacity](https://www.audacityteam.org/) ではファイルを読み込んで Ctrl+A で全選択をして、メニューの「エフェクト」-「音量と音圧」にある「コンプレッサー(デフォルト設定のまま)」や「ノーマライズ」で対処します。
4. ボーカルが分離できたら上部の「モデル推論」で、ボーカルを Rinne の声に変換します。
![Sing1](./Sing1.png)
	- 「音源推論」を「Rinne.pth」にします。
	- 「処理対象音声ファイルのパス」にボーカルのwevのパスにします(フルパス可)。
	- 「ピッチ抽出アルゴリズム」を「harvest」にします。
	- 「特徴量検索データベースのファイルパス」を「..\Rinne.index」にします(フルパス可)。
	- 「特徴量ファイルのパス」を「..\Rinne.py」にします(フルパス可)。
5. 「変換」が成功したら、「出力音声」の「…」から変換したボーカルの wav をダウンロードします。
6. 変換したボーカルの wav と、分離した伴奏の wav を、[Audacity](https://www.audacityteam.org/) などのツールで結合します。
	- 例)[Audacity](https://www.audacityteam.org/) でボーカルと伴奏を開き、「ファイル」-「書き出し」-「MP3として書き出す」
![](./Sing2.png)

# 品質の向上

- 曲を伴奏とボーカルに分離する手段はたくさんあり、よりキレイに分離できる手法がありそうです。
	- 例)「[UVR5で高精度なBGM除去を行う方法](https://ddpn08.fanbox.cc/posts/5738173)」
- 曲や声の組み合わせによって、最適なパラメータは異なるようです。
	- 「ピッチ変更」を上げ下げしてみる
	- 「ピッチ抽出アルゴリズム」を「harvest」でなく「pm」にしてみる
	- 「检索特征占比(特徴量の検索割合?)」を上げ下げしてみる
- [Audacity](https://www.audacityteam.org/) などのサウンドツールでも、品質を向上できます。
	- ボーカルと伴奏のバランス調整やノイズの除去など

[戻る](./README.md)