rippertnt commited on Jan 29

Commit

3be3e3f

verified ·

1 Parent(s): 9c33103

Upload 27 files

Browse files

Files changed (27) hide show

ar_base.json +4 -4
cs_base.json +1 -1
de_base.json +4 -4
fa_base.json +4 -4
fi_base.json +62 -0
fil_base.json +62 -0
fr_base.json +4 -4
hi_base.json +3 -3
hu_base.json +1 -1
id_base.json +4 -4
it_base.json +62 -0
km_base.json +4 -4
mn_base.json +4 -4
ms_base.json +62 -0
nl_base.json +62 -0
pl_base.json +1 -1
pt_base.json +4 -4
ru_base.json +4 -4
si_base.json +62 -0
sv_base.json +62 -0
ta_base.json +62 -0
te_base.json +62 -0
th_base.json +4 -4
tr_base.json +4 -4
uk_base.json +1 -1
ur_base.json +62 -0
vi_base.json +4 -4

ar_base.json CHANGED Viewed

@@ -3,12 +3,12 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
-      "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 12,
-      "fp16_run": false,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 32,
+      "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 36,
+      "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

cs_base.json CHANGED Viewed

@@ -3,7 +3,7 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
       "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 64,
       "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,

de_base.json CHANGED Viewed

@@ -3,12 +3,12 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 64,
       "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 12,
-      "fp16_run": false,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,
@@ -30,7 +30,7 @@
       "mel_fmin": 0.0,
       "mel_fmax": null,
       "add_blank": false,
-      "n_speakers": 18,
       "cleaned_text": true
     },
     "model": {

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 32,
       "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 36,
+      "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,
       "mel_fmin": 0.0,
       "mel_fmax": null,
       "add_blank": false,
+      "n_speakers": 20,
       "cleaned_text": true
     },
     "model": {

fa_base.json CHANGED Viewed

@@ -3,12 +3,12 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
-      "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 8,
-      "fp16_run": false,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 64,
+      "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

fi_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 64,
+      "learning_rate": 2e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 64,
+      "fp16_run": true,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/fi_train.txt.cleaned",
+      "validation_files":"filelists/fi_valid.txt.cleaned",
+      "text_cleaners":["canvers_fi_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 3,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

fil_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 32,
+      "learning_rate": 2e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/fil_train.txt.cleaned",
+      "validation_files":"filelists/fil_valid.txt.cleaned",
+      "text_cleaners":["canvers_fil_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 2,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

fr_base.json CHANGED Viewed

@@ -3,12 +3,12 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
       "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 6,
-      "fp16_run": false,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,
@@ -30,7 +30,7 @@
       "mel_fmin": 0.0,
       "mel_fmax": null,
       "add_blank": false,
-      "n_speakers": 21,
       "cleaned_text": true
     },
     "model": {

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 32,
       "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 36,
+      "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,
       "mel_fmin": 0.0,
       "mel_fmax": null,
       "add_blank": false,
+      "n_speakers": 24,
       "cleaned_text": true
     },
     "model": {

hi_base.json CHANGED Viewed

@@ -3,11 +3,11 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
-      "learning_rate": 2e-5,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 24,
       "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 32,
+      "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 48,
       "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,

hu_base.json CHANGED Viewed

@@ -3,7 +3,7 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
       "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 64,
       "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,

id_base.json CHANGED Viewed

@@ -3,12 +3,12 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
-      "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 12,
-      "fp16_run": false,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 64,
+      "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

it_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 32,
+      "learning_rate": 1e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 36,
+      "fp16_run": false,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/it_train.txt.cleaned",
+      "validation_files":"filelists/it_valid.txt.cleaned",
+      "text_cleaners":["canvers_it_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 19,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

km_base.json CHANGED Viewed

@@ -3,12 +3,12 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
-      "learning_rate": 2e-5,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 12,
-      "fp16_run": false,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 64,
+      "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 64,
+      "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

mn_base.json CHANGED Viewed

@@ -3,12 +3,12 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
-      "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 12,
-      "fp16_run": false,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 64,
+      "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

ms_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 64,
+      "learning_rate": 2e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/ms_train.txt.cleaned",
+      "validation_files":"filelists/ms_valid.txt.cleaned",
+      "text_cleaners":["canvers_ms_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 2,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

nl_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 64,
+      "learning_rate": 2e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 64,
+      "fp16_run": true,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/pl_train.txt.cleaned",
+      "validation_files":"filelists/pl_valid.txt.cleaned",
+      "text_cleaners":["canvers_pl_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 5,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

pl_base.json CHANGED Viewed

@@ -3,7 +3,7 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
       "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 64,
       "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,

pt_base.json CHANGED Viewed

@@ -3,12 +3,12 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
       "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 12,
-      "fp16_run": false,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,
@@ -30,7 +30,7 @@
       "mel_fmin": 0.0,
       "mel_fmax": null,
       "add_blank": false,
-      "n_speakers": 19,
       "cleaned_text": true
     },
     "model": {

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 32,
       "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 36,
+      "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,
       "mel_fmin": 0.0,
       "mel_fmax": null,
       "add_blank": false,
+      "n_speakers": 21,
       "cleaned_text": true
     },
     "model": {

ru_base.json CHANGED Viewed

@@ -3,12 +3,12 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
-      "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 12,
-      "fp16_run": false,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 64,
+      "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

si_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 64,
+      "learning_rate": 2e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 64,
+      "fp16_run": true,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/si_train.txt.cleaned",
+      "validation_files":"filelists/si_valid.txt.cleaned",
+      "text_cleaners":["canvers_si_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 2,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

sv_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 32,
+      "learning_rate": 2e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/sv_train.txt.cleaned",
+      "validation_files":"filelists/sv_valid.txt.cleaned",
+      "text_cleaners":["canvers_sv_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 3,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

ta_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 128,
+      "learning_rate": 2e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/ta_train.txt.cleaned",
+      "validation_files":"filelists/ta_valid.txt.cleaned",
+      "text_cleaners":["canvers_ta_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 6,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

te_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 32,
+      "learning_rate": 2e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/te_train.txt.cleaned",
+      "validation_files":"filelists/te_valid.txt.cleaned",
+      "text_cleaners":["canvers_te_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 2,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

th_base.json CHANGED Viewed

@@ -3,12 +3,12 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
-      "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 8,
-      "fp16_run": false,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 64,
+      "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

tr_base.json CHANGED Viewed

@@ -3,12 +3,12 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
-      "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 12,
-      "fp16_run": false,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 64,
+      "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

uk_base.json CHANGED Viewed

@@ -3,7 +3,7 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
       "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 64,
       "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,

ur_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 32,
+      "learning_rate": 2e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/ur_train.txt.cleaned",
+      "validation_files":"filelists/ur_valid.txt.cleaned",
+      "text_cleaners":["canvers_ur_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 4,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

vi_base.json CHANGED Viewed

@@ -3,12 +3,12 @@
       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
-      "epochs": 128,
-      "learning_rate": 1e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
-      "batch_size": 12,
-      "fp16_run": false,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,

       "log_interval": 1000,
       "eval_interval": 5000,
       "seed": 1234,
+      "epochs": 64,
+      "learning_rate": 2e-4,
       "betas": [0.8, 0.99],
       "eps": 1e-9,
+      "batch_size": 48,
+      "fp16_run": true,
       "lr_decay": 0.999875,
       "segment_size": 8192,
       "init_lr_ratio": 1,