Kamtera
/

persian-tts-multispeaker-vits

Transformers

TensorBoard

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

Kamtera commited on Mar 11, 2023

Commit

f3abfc1

•

1 Parent(s): a7ae07b

Upload config.json with huggingface_hub

Browse files

Files changed (1) hide show

config.json +7 -32

config.json CHANGED Viewed

@@ -27,8 +27,8 @@
     "batch_size": 8,
     "eval_batch_size": 4,
     "grad_clip": [
-        1000,
-        1000
     ],
     "scheduler_after_epoch": true,
     "lr": 0.001,
@@ -54,37 +54,12 @@
     "use_noise_augment": false,
     "audio": {
         "fft_size": 1024,
         "win_length": 1024,
         "hop_length": 256,
-        "frame_shift_ms": null,
-        "frame_length_ms": null,
-        "stft_pad_mode": "reflect",
-        "sample_rate": 22050,
-        "resample": false,
-        "preemphasis": 0.0,
-        "ref_level_db": 20,
-        "do_sound_norm": false,
-        "log_func": "np.log10",
-        "do_trim_silence": false,
-        "trim_db": 45,
-        "do_rms_norm": false,
-        "db_level": null,
-        "power": 1.5,
-        "griffin_lim_iters": 60,
         "num_mels": 80,
         "mel_fmin": 0,
-        "mel_fmax": null,
-        "spec_gain": 20,
-        "do_amp_to_db_linear": true,
-        "do_amp_to_db_mel": true,
-        "pitch_fmax": 640.0,
-        "pitch_fmin": 1.0,
-        "signal_norm": true,
-        "min_level_db": -100,
-        "symmetric_norm": true,
-        "max_norm": 4.0,
-        "clip_norm": true,
-        "stats_path": null
     },
     "use_phonemes": true,
     "phonemizer": "espeak",
@@ -244,7 +219,7 @@
         "use_sdp": true,
         "noise_scale": 1.0,
         "inference_noise_scale": 0.667,
-        "length_scale": 1,
         "noise_scale_dp": 1.0,
         "inference_noise_scale_dp": 1.0,
         "max_inference_len": null,
@@ -252,7 +227,7 @@
         "use_spectral_norm_disriminator": false,
         "use_speaker_embedding": false,
         "num_speakers": 0,
-        "speakers_file": "/kaggle/working/train_output/kagg/speakers.pth",
         "d_vector_file": null,
         "speaker_embedding_channels": 256,
         "use_d_vector_file": false,
@@ -302,7 +277,7 @@
     "r": 1,
     "num_speakers": 3,
     "use_speaker_embedding": false,
-    "speakers_file": "/kaggle/working/train_output/kagg/speakers.pth",
     "speaker_embedding_channels": 256,
     "language_ids_file": null,
     "use_language_embedding": false,

     "batch_size": 8,
     "eval_batch_size": 4,
     "grad_clip": [
+        1000.0,
+        1000.0
     ],
     "scheduler_after_epoch": true,
     "lr": 0.001,
     "use_noise_augment": false,
     "audio": {
         "fft_size": 1024,
+        "sample_rate": 22050,
         "win_length": 1024,
         "hop_length": 256,
         "num_mels": 80,
         "mel_fmin": 0,
+        "mel_fmax": null
     },
     "use_phonemes": true,
     "phonemizer": "espeak",
         "use_sdp": true,
         "noise_scale": 1.0,
         "inference_noise_scale": 0.667,
+        "length_scale": 1.0,
         "noise_scale_dp": 1.0,
         "inference_noise_scale_dp": 1.0,
         "max_inference_len": null,
         "use_spectral_norm_disriminator": false,
         "use_speaker_embedding": false,
         "num_speakers": 0,
+        "speakers_file": "train_output/kagg/speakers.pth",
         "d_vector_file": null,
         "speaker_embedding_channels": 256,
         "use_d_vector_file": false,
     "r": 1,
     "num_speakers": 3,
     "use_speaker_embedding": false,
+    "speakers_file": "train_output/kagg/speakers.pth",
     "speaker_embedding_channels": 256,
     "language_ids_file": null,
     "use_language_embedding": false,