Miuzarte
/

SUImodels

ONNX

Chinese

AIvtuber

VirtuaReal

Model card Files Files and versions Community

Miuzarte commited on Jul 13, 2023

Commit

7b9f580

•

1 Parent(s): e086908

Upload config.json

Browse files

本来想更新一下config但是忘记了旧版4.0v1和v2差了啥，摆了

Files changed (1) hide show

sovits4-v2_44k/v4/config.json +35 -36

sovits4-v2_44k/v4/config.json CHANGED Viewed

@@ -3,69 +3,68 @@
     "log_interval": 100,
     "eval_interval": 10000,
     "seed": 1234,
     "epochs": 10000,
-    "learning_rate": 0.0001,
     "betas": [
       0.8,
       0.99
     ],
     "eps": 1e-09,
     "batch_size": 12,
     "fp16_run": false,
-    "half_type": "fp16",
-    "lr_decay": 0.999875,
     "segment_size": 10240,
     "init_lr_ratio": 1,
     "warmup_epochs": 0,
     "c_mel": 45,
-    "c_kl": 1.0,
-    "use_sr": true,
-    "max_speclen": 512,
-    "port": "8001",
-    "keep_ckpts": 5,
-    "all_in_mem": false,
-    "vol_aug":false
   },
   "data": {
-    "training_files": "filelists/train.txt",
-    "validation_files": "filelists/val.txt",
     "max_wav_value": 32768.0,
     "sampling_rate": 44100,
-    "filter_length": 2048,
     "hop_length": 512,
-    "win_length": 2048,
-    "n_mel_channels": 80,
-    "mel_fmin": 0.0,
-    "mel_fmax": 22050,
-    "unit_interpolate_mode":"nearest"
   },
   "model": {
-    "inter_channels": 192,
     "hidden_channels": 192,
     "filter_channels": 768,
     "n_heads": 2,
-    "n_layers": 6,
     "kernel_size": 3,
     "p_dropout": 0.1,
     "resblock": "1",
     "resblock_kernel_sizes": [3,7,11],
     "resblock_dilation_sizes": [[1,3,5],[1,3,5],[1,3,5]],
-    "upsample_rates": [8,8,2,2,2],
-    "upsample_initial_channel": 512,
-    "upsample_kernel_sizes": [16,16,4,4,4],
-    "n_layers_q": 3,
-    "n_flow_layer": 4,
-    "use_spectral_norm": false,
-    "gin_channels": 256,
-    "ssl_dim": 256,
-    "n_speakers": 200,
-    "vocoder_name":"nsf-hifigan",
-    "speech_encoder":"vec256l9",
-    "speaker_embedding":false,
-    "vol_embedding":false,
-    "use_depthwise_conv":false,
-    "flow_share_parameter": false,
-    "use_automatic_f0_prediction": true
   },
   "spk": {
     "suijiSUI": 0

     "log_interval": 100,
     "eval_interval": 10000,
     "seed": 1234,
+    "port": 8001,
     "epochs": 10000,
+    "learning_rate": 0.0002,
     "betas": [
       0.8,
       0.99
     ],
     "eps": 1e-09,
     "batch_size": 12,
+    "accumulation_steps": 1,
     "fp16_run": false,
+    "lr_decay": 0.998,
     "segment_size": 10240,
     "init_lr_ratio": 1,
     "warmup_epochs": 0,
     "c_mel": 45,
+    "keep_ckpts": 6
   },
   "data": {
+    "data_dir": "dataset",
+    "dataset_type": "SingDataset",
+    "collate_type": "SingCollate",
+    "training_filelist": "filelists/train.txt",
+    "validation_filelist": "filelists/val.txt",
     "max_wav_value": 32768.0,
     "sampling_rate": 44100,
+    "n_fft": 2048,
+    "fmin": 0,
+    "fmax": 22050,
     "hop_length": 512,
+    "win_size": 2048,
+    "acoustic_dim": 80,
+    "c_dim": 256,
+    "min_level_db": -115,
+    "ref_level_db": 20,
+    "min_db": -115,
+    "max_abs_value": 4.0,
+    "n_speakers": 200
   },
   "model": {
     "hidden_channels": 192,
+    "spk_channels": 192,
     "filter_channels": 768,
     "n_heads": 2,
+    "n_layers": 4,
     "kernel_size": 3,
     "p_dropout": 0.1,
+    "prior_hidden_channels": 192,
+    "prior_filter_channels": 768,
+    "prior_n_heads": 2,
+    "prior_n_layers": 4,
+    "prior_kernel_size": 3,
+    "prior_p_dropout": 0.1,
     "resblock": "1",
+    "use_spectral_norm": false,
     "resblock_kernel_sizes": [3,7,11],
     "resblock_dilation_sizes": [[1,3,5],[1,3,5],[1,3,5]],
+    "upsample_rates": [8,8,4,2],
+    "upsample_initial_channel": 256,
+    "upsample_kernel_sizes": [16,16,8,4],
+    "n_harmonic": 64,
+    "n_bands": 65
   },
   "spk": {
     "suijiSUI": 0