Codec-SUPERB
/

AudioDec

Model card Files Files and versions Community

voidful commited on Nov 11, 2023

Commit

63e3df4

•

1 Parent(s): 0b22158

Upload 21 files

Browse files

Files changed (21) hide show

autoencoder/symAD_libritts_24000_hop300/checkpoint-1000000steps.pkl +3 -0
autoencoder/symAD_libritts_24000_hop300/checkpoint-500000steps.pkl +3 -0
autoencoder/symAD_libritts_24000_hop300/config.yml +189 -0
autoencoder/symAD_vctk_48000_hop300/checkpoint-200000steps.pkl +3 -0
autoencoder/symAD_vctk_48000_hop300/checkpoint-700000steps.pkl +3 -0
autoencoder/symAD_vctk_48000_hop300/config.yml +194 -0
autoencoder/symADuniv_vctk_48000_hop300/checkpoint-1000000steps.pkl +3 -0
autoencoder/symADuniv_vctk_48000_hop300/checkpoint-500000steps.pkl +3 -0
autoencoder/symADuniv_vctk_48000_hop300/config.yml +206 -0
denoise/symAD_vctk_48000_hop300/checkpoint-200000steps.pkl +3 -0
denoise/symAD_vctk_48000_hop300/config.yml +192 -0
vocoder/AudioDec_v0_symAD_vctk_48000_hop300_clean/checkpoint-500000steps.pkl +3 -0
vocoder/AudioDec_v0_symAD_vctk_48000_hop300_clean/config.yml +198 -0
vocoder/AudioDec_v1_symAD_libritts_24000_hop300_clean/checkpoint-500000steps.pkl +3 -0
vocoder/AudioDec_v1_symAD_libritts_24000_hop300_clean/config.yml +190 -0
vocoder/AudioDec_v1_symAD_vctk_48000_hop300_clean/checkpoint-500000steps.pkl +3 -0
vocoder/AudioDec_v1_symAD_vctk_48000_hop300_clean/config.yml +190 -0
vocoder/AudioDec_v2_symAD_vctk_48000_hop300_clean/checkpoint-500000steps.pkl +3 -0
vocoder/AudioDec_v2_symAD_vctk_48000_hop300_clean/config.yml +190 -0
vocoder/AudioDec_v3_symADuniv_vctk_48000_hop300_clean/checkpoint-500000steps.pkl +3 -0
vocoder/AudioDec_v3_symADuniv_vctk_48000_hop300_clean/config.yml +207 -0

autoencoder/symAD_libritts_24000_hop300/checkpoint-1000000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bd3718a90e2cc885b5eb755cc35809560ddfccead323c8f2c1f3a293bdc99e5
+size 36366497

autoencoder/symAD_libritts_24000_hop300/checkpoint-500000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:563872c0c474205411cf637d3c512ba9c6d81f99526b29222a3bd81ae3be2a32
+size 36366367

autoencoder/symAD_libritts_24000_hop300/config.yml ADDED Viewed

	@@ -0,0 +1,189 @@

+batch_length: 9600
+batch_size: 16
+config: config/autoencoder/symAD_libritts_24000_hop300.yaml
+data:
+  path: /mnt/home/yichiaowu/datasets/LibriTTS/LibriTTS/24000
+  subset:
+    test: test-clean-1utt
+    train: train-clean-450
+    valid: dev-clean-1utt
+disable_cudnn: 'False'
+discriminator_adv_loss_params:
+  average_by_discriminators: false
+discriminator_grad_norm: -1
+discriminator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+discriminator_optimizer_type: Adam
+discriminator_params:
+  follow_official_norm: true
+  period_discriminator_params:
+    bias: true
+    channels: 32
+    downsample_scales:
+    - 3
+    - 3
+    - 3
+    - 3
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+    use_spectral_norm: false
+    use_weight_norm: true
+  periods:
+  - 2
+  - 3
+  - 5
+  - 7
+  - 11
+  scale_discriminator_params:
+    bias: true
+    channels: 128
+    downsample_scales:
+    - 4
+    - 4
+    - 4
+    - 4
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 15
+    - 41
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    max_groups: 16
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+  scale_downsample_pooling: AvgPool1d
+  scale_downsample_pooling_params:
+    kernel_size: 4
+    padding: 2
+    stride: 2
+  scales: 3
+discriminator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+discriminator_scheduler_type: MultiStepLR
+eval_interval_steps: 1000
+exp_root: exp
+feat_match_loss_params:
+  average_by_discriminators: false
+  average_by_layers: false
+  include_final_outputs: false
+generator_adv_loss_params:
+  average_by_discriminators: false
+generator_grad_norm: -1
+generator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0001
+  weight_decay: 0.0
+generator_optimizer_type: Adam
+generator_params:
+  bias: true
+  code_dim: 64
+  codebook_num: 8
+  codebook_size: 1024
+  codec: audiodec
+  dec_ratios:
+  - 16
+  - 8
+  - 4
+  - 2
+  dec_strides:
+  - 5
+  - 5
+  - 4
+  - 3
+  decode_channels: 32
+  enc_ratios:
+  - 2
+  - 4
+  - 8
+  - 16
+  enc_strides:
+  - 3
+  - 4
+  - 5
+  - 5
+  encode_channels: 32
+  input_channels: 1
+  mode: causal
+  output_channels: 1
+  projector: conv1d
+  quantier: residual_vq
+generator_scheduler_params:
+  gamma: 1.0
+  step_size: 200000
+generator_scheduler_type: StepLR
+lambda_adv: 1.0
+lambda_feat_match: 2.0
+lambda_mel_loss: 45.0
+lambda_shape_loss: 45.0
+lambda_stft_loss: 45.0
+lambda_vq_loss: 1.0
+log_interval_steps: 100
+mel_loss_params:
+  fft_size: 2048
+  fmax: 12000
+  fmin: 0
+  fs: 24000
+  hop_size: 300
+  log_base: null
+  num_mels: 80
+  win_length: null
+  window: hann
+model_type: symAudioDec
+num_workers: 2
+outdir: exp/autoencoder/symAD_libritts_24000_hop300
+paradigm: efficient
+pin_memory: true
+resume: ''
+sampling_rate: 24000
+save_interval_steps: 10000
+seed: 1337
+shape_loss_params:
+  winlen:
+  - 300
+start_steps:
+  discriminator: 500000
+  generator: 0
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+tag: autoencoder/symAD_libritts_24000_hop300
+train_max_steps: 1000000
+train_mode: autoencoder
+use_feat_match_loss: true
+use_mel_loss: true
+use_shape_loss: false
+use_stft_loss: false

autoencoder/symAD_vctk_48000_hop300/checkpoint-200000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d591fa4e564f90d1d777aa6329a088c39fa3fca18a3cb0ea1c7515faa4e4db04
+size 36366367

autoencoder/symAD_vctk_48000_hop300/checkpoint-700000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fbbef9aefa87c68cb3416fdf805bd2e54afd6d7a9d6a65adf5dcaeb220b0c9df
+size 36366367

autoencoder/symAD_vctk_48000_hop300/config.yml ADDED Viewed

	@@ -0,0 +1,194 @@

+adv_batch_length: 9600
+adv_train_max_steps: 700000
+batch_length: 9600
+batch_size: 16
+config: config/autoencoder/symAD_vctk_48000_hop300.yaml
+data:
+  path: /mnt/home/yichiaowu/datasets/vctk_noisy/48000
+  subset:
+    test: clean_testset_wav
+    train: clean_trainset_84spk_wav
+    valid: clean_validset_84spk_wav
+disable_cudnn: 'False'
+discriminator_adv_loss_params:
+  average_by_discriminators: false
+discriminator_grad_norm: -1
+discriminator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+discriminator_optimizer_type: Adam
+discriminator_params:
+  follow_official_norm: true
+  period_discriminator_params:
+    bias: true
+    channels: 32
+    downsample_scales:
+    - 3
+    - 3
+    - 3
+    - 3
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+    use_spectral_norm: false
+    use_weight_norm: true
+  periods:
+  - 2
+  - 3
+  - 5
+  - 7
+  - 11
+  scale_discriminator_params:
+    bias: true
+    channels: 128
+    downsample_scales:
+    - 4
+    - 4
+    - 4
+    - 4
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 15
+    - 41
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    max_groups: 16
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+  scale_downsample_pooling: AvgPool1d
+  scale_downsample_pooling_params:
+    kernel_size: 4
+    padding: 2
+    stride: 2
+  scales: 3
+discriminator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+discriminator_scheduler_type: MultiStepLR
+eval_interval_steps: 1000
+exp_root: exp
+feat_match_loss_params:
+  average_by_discriminators: false
+  average_by_layers: false
+  include_final_outputs: false
+generator_adv_loss_params:
+  average_by_discriminators: false
+generator_grad_norm: -1
+generator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0001
+  weight_decay: 0.0
+generator_optimizer_type: Adam
+generator_params:
+  bias: true
+  code_dim: 64
+  codebook_num: 8
+  codebook_size: 1024
+  codec: audiodec
+  dec_ratios:
+  - 16
+  - 8
+  - 4
+  - 2
+  dec_strides:
+  - 5
+  - 5
+  - 4
+  - 3
+  decode_channels: 32
+  enc_ratios:
+  - 2
+  - 4
+  - 8
+  - 16
+  enc_strides:
+  - 3
+  - 4
+  - 5
+  - 5
+  encode_channels: 32
+  input_channels: 1
+  mode: causal
+  output_channels: 1
+  projector: conv1d
+  quantier: residual_vq
+generator_scheduler_params:
+  gamma: 1.0
+  step_size: 200000
+generator_scheduler_type: StepLR
+lambda_adv: 1.0
+lambda_feat_match: 2.0
+lambda_mel_loss: 45.0
+lambda_shape_loss: 45.0
+lambda_stft_loss: 45.0
+lambda_vq_loss: 1.0
+log_interval_steps: 100
+mel_loss_params:
+  fft_sizes:
+  - 2048
+  fmax: 24000
+  fmin: 0
+  fs: 48000
+  hop_sizes:
+  - 300
+  log_base: null
+  num_mels: 80
+  win_lengths:
+  - 2048
+  window: hann_window
+model_type: symAudioDec
+num_workers: 2
+outdir: exp/autoencoder/symAD_vctk_48000_hop300
+paradigm: efficient
+pin_memory: true
+resume: exp/autoencoder/symAD_vctk_48000_hop300/checkpoint-200000steps.pkl
+sampling_rate: 48000
+save_interval_steps: 100000
+seed: 1337
+shape_loss_params:
+  winlen:
+  - 300
+start_steps:
+  discriminator: 200000
+  generator: 0
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+tag: autoencoder/symAD_vctk_48000_hop300
+train_max_steps: 200000
+train_mode: autoencoder
+use_feat_match_loss: true
+use_mel_loss: true
+use_shape_loss: false
+use_stft_loss: false

autoencoder/symADuniv_vctk_48000_hop300/checkpoint-1000000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccc9ef13cf2ff5a31f3b0d6e19252d5bd68e3ee83aeee3263c2e9fddf7ca8da6
+size 36366497

autoencoder/symADuniv_vctk_48000_hop300/checkpoint-500000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:937d96b0d9e4d9c6413ebc3039ef2049fdac6008fa98168d14f31e49d07b5e63
+size 36366367

autoencoder/symADuniv_vctk_48000_hop300/config.yml ADDED Viewed

	@@ -0,0 +1,206 @@

+batch_length: 9600
+batch_size: 16
+config: config/autoencoder/symADuniv_vctk_48000_hop300.yaml
+data:
+  path: /mnt/home/yichiaowu/datasets/vctk_noisy/48000
+  subset:
+    test: clean_testset_wav
+    train: clean_trainset_84spk_wav
+    valid: clean_validset_84spk_wav
+disable_cudnn: 'False'
+discriminator_adv_loss_params:
+  average_by_discriminators: false
+discriminator_grad_norm: -1
+discriminator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+discriminator_optimizer_type: Adam
+discriminator_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  period_discriminator_params:
+    bias: true
+    channels: 32
+    downsample_scales:
+    - 3
+    - 3
+    - 3
+    - 3
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+    use_spectral_norm: false
+    use_weight_norm: true
+  periods:
+  - 2
+  - 3
+  - 5
+  - 7
+  - 11
+  spectral_discriminator_params:
+    bias: true
+    channels: 32
+    kernel_sizes:
+    - - 3
+      - 9
+    - - 3
+      - 9
+    - - 3
+      - 9
+    - - 3
+      - 9
+    - - 3
+      - 3
+    - - 3
+      - 3
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.2
+    strides:
+    - - 1
+      - 1
+    - - 1
+      - 2
+    - - 1
+      - 2
+    - - 1
+      - 2
+    - - 1
+      - 1
+    - - 1
+      - 1
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+discriminator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+discriminator_scheduler_type: MultiStepLR
+eval_interval_steps: 1000
+exp_root: exp
+feat_match_loss_params:
+  average_by_discriminators: false
+  average_by_layers: false
+  include_final_outputs: false
+generator_adv_loss_params:
+  average_by_discriminators: false
+generator_grad_norm: -1
+generator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0001
+  weight_decay: 0.0
+generator_optimizer_type: Adam
+generator_params:
+  bias: true
+  code_dim: 64
+  codebook_num: 8
+  codebook_size: 1024
+  codec: audiodec
+  dec_ratios:
+  - 16
+  - 8
+  - 4
+  - 2
+  dec_strides:
+  - 5
+  - 5
+  - 4
+  - 3
+  decode_channels: 32
+  enc_ratios:
+  - 2
+  - 4
+  - 8
+  - 16
+  enc_strides:
+  - 3
+  - 4
+  - 5
+  - 5
+  encode_channels: 32
+  input_channels: 1
+  mode: causal
+  output_channels: 1
+  projector: conv1d
+  quantier: residual_vq
+generator_scheduler_params:
+  gamma: 1.0
+  step_size: 200000
+generator_scheduler_type: StepLR
+lambda_adv: 1.0
+lambda_feat_match: 2.0
+lambda_mel_loss: 45.0
+lambda_shape_loss: 45.0
+lambda_stft_loss: 45.0
+lambda_vq_loss: 1.0
+log_interval_steps: 100
+mel_loss_params:
+  fft_size: 2048
+  fmax: 24000
+  fmin: 0
+  fs: 48000
+  hop_size: 300
+  log_base: null
+  num_mels: 80
+  win_length: null
+  window: hann
+model_type: symAudioDecUniv
+num_workers: 2
+outdir: exp/autoencoder/symADuniv_vctk_48000_hop300
+paradigm: efficient
+pin_memory: true
+resume: ''
+sampling_rate: 48000
+save_interval_steps: 10000
+seed: 1337
+shape_loss_params:
+  winlen:
+  - 300
+start_steps:
+  discriminator: 500000
+  generator: 0
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+tag: autoencoder/symADuniv_vctk_48000_hop300
+train_max_steps: 1000000
+train_mode: autoencoder
+use_feat_match_loss: true
+use_mel_loss: true
+use_shape_loss: false
+use_stft_loss: false

denoise/symAD_vctk_48000_hop300/checkpoint-200000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04831490f33212cefdf58b53d50c612440bbfa1474a860ad9535a5dff99e0930
+size 36366367

denoise/symAD_vctk_48000_hop300/config.yml ADDED Viewed

	@@ -0,0 +1,192 @@

+batch_length: 96000
+batch_size: 16
+config: config/denoise/symAD_vctk_48000_hop300.yaml
+data:
+  path: /mnt/home/yichiaowu/datasets/vctk_noisy/48000
+  subset:
+    clean_test: clean_testset_wav
+    clean_train: clean_trainset_84spk_wav
+    clean_valid: clean_validset_84spk_wav
+    noisy_test: noisy_testset_wav
+    noisy_train: noisy_trainset_84spk_wav
+    noisy_valid: noisy_validset_84spk_wav
+disable_cudnn: 'False'
+discriminator_adv_loss_params:
+  average_by_discriminators: false
+discriminator_grad_norm: -1
+discriminator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+discriminator_optimizer_type: Adam
+discriminator_params:
+  follow_official_norm: true
+  period_discriminator_params:
+    bias: true
+    channels: 32
+    downsample_scales:
+    - 3
+    - 3
+    - 3
+    - 3
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+    use_spectral_norm: false
+    use_weight_norm: true
+  periods:
+  - 2
+  - 3
+  - 5
+  - 7
+  - 11
+  scale_discriminator_params:
+    bias: true
+    channels: 128
+    downsample_scales:
+    - 4
+    - 4
+    - 4
+    - 4
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 15
+    - 41
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    max_groups: 16
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+  scale_downsample_pooling: AvgPool1d
+  scale_downsample_pooling_params:
+    kernel_size: 4
+    padding: 2
+    stride: 2
+  scales: 3
+discriminator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+discriminator_scheduler_type: MultiStepLR
+eval_interval_steps: 1000
+exp_root: exp
+feat_match_loss_params:
+  average_by_discriminators: false
+  average_by_layers: false
+  include_final_outputs: false
+generator_adv_loss_params:
+  average_by_discriminators: false
+generator_grad_norm: -1
+generator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0001
+  weight_decay: 0.0
+generator_optimizer_type: Adam
+generator_params:
+  bias: true
+  code_dim: 64
+  codebook_num: 8
+  codebook_size: 1024
+  codec: audiodec
+  dec_ratios:
+  - 16
+  - 8
+  - 4
+  - 2
+  dec_strides:
+  - 5
+  - 5
+  - 4
+  - 3
+  decode_channels: 32
+  enc_ratios:
+  - 2
+  - 4
+  - 8
+  - 16
+  enc_strides:
+  - 3
+  - 4
+  - 5
+  - 5
+  encode_channels: 32
+  input_channels: 1
+  mode: causal
+  output_channels: 1
+  projector: conv1d
+  quantier: residual_vq
+generator_scheduler_params:
+  gamma: 1.0
+  step_size: 200000
+generator_scheduler_type: StepLR
+initial: exp/autoencoder/symAD_vctk_48000_hop300/checkpoint-200000steps.pkl
+lambda_adv: 1.0
+lambda_feat_match: 2.0
+lambda_mel_loss: 45.0
+lambda_shape_loss: 45.0
+lambda_stft_loss: 45.0
+lambda_vq_loss: 1.0
+log_interval_steps: 100
+mel_loss_params:
+  fft_size: 2048
+  fmax: 24000
+  fmin: 0
+  fs: 48000
+  hop_size: 300
+  log_base: null
+  num_mels: 80
+  win_length: null
+  window: hann
+model_type: symAudioDec
+num_workers: 2
+outdir: exp/denoise/symAD_vctk_48000_hop300
+pin_memory: true
+resume: ''
+sampling_rate: 48000
+save_interval_steps: 10000
+seed: 1337
+shape_loss_params:
+  winlen:
+  - 300
+start_steps:
+  discriminator: 200000
+  generator: 0
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+tag: denoise/symAD_vctk_48000_hop300
+train_max_steps: 200000
+train_mode: denoise
+use_feat_match_loss: true
+use_mel_loss: true
+use_shape_loss: false
+use_stft_loss: false

vocoder/AudioDec_v0_symAD_vctk_48000_hop300_clean/checkpoint-500000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09cf10d7c23beba1eaead494e487890d5f74766f3e56c58783de5baddc1a1a2d
+size 52266385

vocoder/AudioDec_v0_symAD_vctk_48000_hop300_clean/config.yml ADDED Viewed

	@@ -0,0 +1,198 @@

+analyzer: exp/autoencoder/symAD_vctk_48000_hop300/checkpoint-200000steps.pkl
+batch_length: 9600
+batch_size: 16
+config: config/vocoder/AudioDec_v0_symAD_vctk_48000_hop300_clean.yaml
+data:
+  path: /mnt/home/yichiaowu/datasets/vctk_noisy/48000
+  subset:
+    test: clean_testset_wav
+    train: clean_trainset_84spk_wav
+    valid: clean_validset_84spk_wav
+disable_cudnn: 'False'
+discriminator_adv_loss_params:
+  average_by_discriminators: false
+discriminator_grad_norm: -1
+discriminator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+discriminator_optimizer_type: Adam
+discriminator_params:
+  follow_official_norm: true
+  period_discriminator_params:
+    bias: true
+    channels: 32
+    downsample_scales:
+    - 3
+    - 3
+    - 3
+    - 3
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+    use_spectral_norm: false
+    use_weight_norm: true
+  periods:
+  - 2
+  - 3
+  - 5
+  - 7
+  - 11
+  scale_discriminator_params:
+    bias: true
+    channels: 128
+    downsample_scales:
+    - 4
+    - 4
+    - 4
+    - 4
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 15
+    - 41
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    max_groups: 16
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+  scale_downsample_pooling: AvgPool1d
+  scale_downsample_pooling_params:
+    kernel_size: 4
+    padding: 2
+    stride: 2
+  scales: 3
+discriminator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+discriminator_scheduler_type: MultiStepLR
+discriminator_train_start_steps: 0
+eval_interval_steps: 1000
+exp_root: exp
+feat_match_loss_params:
+  average_by_discriminators: false
+  average_by_layers: false
+  include_final_outputs: false
+generator_adv_loss_params:
+  average_by_discriminators: false
+generator_grad_norm: -1
+generator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+generator_optimizer_type: Adam
+generator_params:
+  bias: true
+  channels: 512
+  groups: 1
+  in_channels: 64
+  kernel_size: 7
+  nonlinear_activation: LeakyReLU
+  nonlinear_activation_params:
+    negative_slope: 0.1
+  out_channels: 1
+  resblock_dilations:
+  - - 1
+    - 3
+    - 5
+  - - 1
+    - 3
+    - 5
+  - - 1
+    - 3
+    - 5
+  resblock_kernel_sizes:
+  - 3
+  - 7
+  - 11
+  stats: stats/symAD_vctk_48000_hop300_clean.npy
+  upsample_kernel_sizes:
+  - 10
+  - 10
+  - 8
+  - 6
+  upsample_scales:
+  - 5
+  - 5
+  - 4
+  - 3
+  use_additional_convs: true
+  use_weight_norm: true
+generator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+generator_scheduler_type: MultiStepLR
+generator_train_start_steps: 1
+lambda_adv: 1.0
+lambda_feat_match: 2.0
+lambda_mel_loss: 45.0
+lambda_shape_loss: 45.0
+lambda_stft_loss: 45.0
+log_interval_steps: 100
+mel_loss_params:
+  fft_sizes:
+  - 2048
+  fmax: 24000
+  fmin: 0
+  fs: 48000
+  hop_sizes:
+  - 300
+  log_base: null
+  num_mels: 80
+  win_lengths:
+  - 2048
+  window: hann_window
+model_type: HiFiGAN
+num_workers: 2
+outdir: exp/vocoder/AudioDec_v0_symAD_vctk_48000_hop300_clean
+pin_memory: true
+resume: ''
+sampling_rate: 48000
+save_interval_steps: 100000
+seed: 1337
+shape_loss_params:
+  winlen:
+  - 300
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+tag: vocoder/AudioDec_v0_symAD_vctk_48000_hop300_clean
+train_max_steps: 500000
+train_mode: vocoder
+use_feat_match_loss: true
+use_mel_loss: true
+use_shape_loss: false
+use_stft_loss: false

vocoder/AudioDec_v1_symAD_libritts_24000_hop300_clean/checkpoint-500000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fa357fbad89213ab58c967598844f5f0ec77d6f0cfec31b285b252455eb5256
+size 78587449

vocoder/AudioDec_v1_symAD_libritts_24000_hop300_clean/config.yml ADDED Viewed

	@@ -0,0 +1,190 @@

+analyzer: exp/autoencoder/symAD_libritts_24000_hop300/checkpoint-500000steps.pkl
+batch_length: 9600
+batch_size: 16
+config: config/vocoder/AudioDec_v1_symAD_libritts_24000_hop300_clean.yaml
+data:
+  path: /mnt/home/yichiaowu/datasets/LibriTTS/LibriTTS/24000
+  subset:
+    test: test-clean-1utt
+    train: train-clean-450
+    valid: dev-clean-1utt
+disable_cudnn: 'False'
+discriminator_adv_loss_params:
+  average_by_discriminators: false
+discriminator_grad_norm: -1
+discriminator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+discriminator_optimizer_type: Adam
+discriminator_params:
+  follow_official_norm: true
+  period_discriminator_params:
+    bias: true
+    channels: 32
+    downsample_scales:
+    - 3
+    - 3
+    - 3
+    - 3
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+    use_spectral_norm: false
+    use_weight_norm: true
+  periods:
+  - 2
+  - 3
+  - 5
+  - 7
+  - 11
+  scale_discriminator_params:
+    bias: true
+    channels: 128
+    downsample_scales:
+    - 4
+    - 4
+    - 4
+    - 4
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 15
+    - 41
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    max_groups: 16
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+  scale_downsample_pooling: AvgPool1d
+  scale_downsample_pooling_params:
+    kernel_size: 4
+    padding: 2
+    stride: 2
+  scales: 3
+discriminator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+discriminator_scheduler_type: MultiStepLR
+discriminator_train_start_steps: 0
+eval_interval_steps: 1000
+exp_root: exp
+feat_match_loss_params:
+  average_by_discriminators: false
+  average_by_layers: false
+  include_final_outputs: false
+generator_adv_loss_params:
+  average_by_discriminators: false
+generator_grad_norm: -1
+generator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+generator_optimizer_type: Adam
+generator_params:
+  bias: true
+  channels: 512
+  groups: 3
+  in_channels: 64
+  kernel_size: 7
+  nonlinear_activation: LeakyReLU
+  nonlinear_activation_params:
+    negative_slope: 0.1
+  out_channels: 1
+  resblock_dilations:
+  - - 1
+    - 3
+    - 5
+  resblock_kernel_sizes:
+  - 11
+  stats: stats/symAD_libritts_24000_hop300_clean.npy
+  upsample_kernel_sizes:
+  - 10
+  - 10
+  - 8
+  - 6
+  upsample_scales:
+  - 5
+  - 5
+  - 4
+  - 3
+  use_additional_convs: true
+  use_weight_norm: true
+generator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+generator_scheduler_type: MultiStepLR
+generator_train_start_steps: 1
+lambda_adv: 1.0
+lambda_feat_match: 2.0
+lambda_mel_loss: 45.0
+lambda_shape_loss: 45.0
+lambda_stft_loss: 45.0
+log_interval_steps: 100
+mel_loss_params:
+  fft_sizes:
+  - 2048
+  fmax: 12000
+  fmin: 0
+  fs: 24000
+  hop_sizes:
+  - 300
+  log_base: null
+  num_mels: 80
+  win_lengths:
+  - 2048
+  window: hann_window
+model_type: HiFiGAN
+num_workers: 2
+outdir: exp/vocoder/AudioDec_v1_symAD_libritts_24000_hop300_clean
+pin_memory: true
+resume: ''
+sampling_rate: 24000
+save_interval_steps: 100000
+seed: 1337
+shape_loss_params:
+  winlen:
+  - 300
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+tag: vocoder/AudioDec_v1_symAD_libritts_24000_hop300_clean
+train_max_steps: 500000
+train_mode: vocoder
+use_feat_match_loss: true
+use_mel_loss: true
+use_shape_loss: false
+use_stft_loss: false

vocoder/AudioDec_v1_symAD_vctk_48000_hop300_clean/checkpoint-500000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa8fc5367217723a24786bc5eb350e5f8e039255669797873938ca3ba0d22b2d
+size 78587449

vocoder/AudioDec_v1_symAD_vctk_48000_hop300_clean/config.yml ADDED Viewed

	@@ -0,0 +1,190 @@

+analyzer: exp/autoencoder/symAD_vctk_48000_hop300/checkpoint-200000steps.pkl
+batch_length: 9600
+batch_size: 16
+config: config/vocoder/AudioDec_v1_symAD_vctk_48000_hop300_clean.yaml
+data:
+  path: /mnt/home/yichiaowu/datasets/vctk_noisy/48000
+  subset:
+    test: clean_testset_wav
+    train: clean_trainset_84spk_wav
+    valid: clean_validset_84spk_wav
+disable_cudnn: 'False'
+discriminator_adv_loss_params:
+  average_by_discriminators: false
+discriminator_grad_norm: -1
+discriminator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+discriminator_optimizer_type: Adam
+discriminator_params:
+  follow_official_norm: true
+  period_discriminator_params:
+    bias: true
+    channels: 32
+    downsample_scales:
+    - 3
+    - 3
+    - 3
+    - 3
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+    use_spectral_norm: false
+    use_weight_norm: true
+  periods:
+  - 2
+  - 3
+  - 5
+  - 7
+  - 11
+  scale_discriminator_params:
+    bias: true
+    channels: 128
+    downsample_scales:
+    - 4
+    - 4
+    - 4
+    - 4
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 15
+    - 41
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    max_groups: 16
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+  scale_downsample_pooling: AvgPool1d
+  scale_downsample_pooling_params:
+    kernel_size: 4
+    padding: 2
+    stride: 2
+  scales: 3
+discriminator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+discriminator_scheduler_type: MultiStepLR
+discriminator_train_start_steps: 0
+eval_interval_steps: 1000
+exp_root: exp
+feat_match_loss_params:
+  average_by_discriminators: false
+  average_by_layers: false
+  include_final_outputs: false
+generator_adv_loss_params:
+  average_by_discriminators: false
+generator_grad_norm: -1
+generator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+generator_optimizer_type: Adam
+generator_params:
+  bias: true
+  channels: 512
+  groups: 3
+  in_channels: 64
+  kernel_size: 7
+  nonlinear_activation: LeakyReLU
+  nonlinear_activation_params:
+    negative_slope: 0.1
+  out_channels: 1
+  resblock_dilations:
+  - - 1
+    - 3
+    - 5
+  resblock_kernel_sizes:
+  - 11
+  stats: stats/symAD_vctk_48000_hop300_clean.npy
+  upsample_kernel_sizes:
+  - 10
+  - 10
+  - 8
+  - 6
+  upsample_scales:
+  - 5
+  - 5
+  - 4
+  - 3
+  use_additional_convs: true
+  use_weight_norm: true
+generator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+generator_scheduler_type: MultiStepLR
+generator_train_start_steps: 1
+lambda_adv: 1.0
+lambda_feat_match: 2.0
+lambda_mel_loss: 45.0
+lambda_shape_loss: 45.0
+lambda_stft_loss: 45.0
+log_interval_steps: 100
+mel_loss_params:
+  fft_sizes:
+  - 2048
+  fmax: 24000
+  fmin: 0
+  fs: 48000
+  hop_sizes:
+  - 300
+  log_base: null
+  num_mels: 80
+  win_lengths:
+  - 2048
+  window: hann_window
+model_type: HiFiGAN
+num_workers: 2
+outdir: exp/vocoder/AudioDec_v1_symAD_vctk_48000_hop300_clean
+pin_memory: true
+resume: exp/vocoder/AudioDec_v1_symAD_vctk_48000_hop300_clean/checkpoint-100000steps.pkl
+sampling_rate: 48000
+save_interval_steps: 100000
+seed: 1337
+shape_loss_params:
+  winlen:
+  - 300
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+tag: vocoder/AudioDec_v1_symAD_vctk_48000_hop300_clean
+train_max_steps: 500000
+train_mode: vocoder
+use_feat_match_loss: true
+use_mel_loss: true
+use_shape_loss: false
+use_stft_loss: false

vocoder/AudioDec_v2_symAD_vctk_48000_hop300_clean/checkpoint-500000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57128a319bc38cbc77fada84dd10bca399f0b884d03f5e1635c17cef5fdfd1bd
+size 27899385

vocoder/AudioDec_v2_symAD_vctk_48000_hop300_clean/config.yml ADDED Viewed

	@@ -0,0 +1,190 @@

+analyzer: exp/autoencoder/symAD_vctk_48000_hop300/checkpoint-200000steps.pkl
+batch_length: 9600
+batch_size: 16
+config: config/vocoder/AudioDec_v2_symAD_vctk_48000_hop300_clean.yaml
+data:
+  path: /mnt/home/yichiaowu/datasets/vctk_noisy/48000
+  subset:
+    test: clean_testset_wav
+    train: clean_trainset_84spk_wav
+    valid: clean_validset_84spk_wav
+disable_cudnn: 'False'
+discriminator_adv_loss_params:
+  average_by_discriminators: false
+discriminator_grad_norm: -1
+discriminator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+discriminator_optimizer_type: Adam
+discriminator_params:
+  follow_official_norm: true
+  period_discriminator_params:
+    bias: true
+    channels: 32
+    downsample_scales:
+    - 3
+    - 3
+    - 3
+    - 3
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+    use_spectral_norm: false
+    use_weight_norm: true
+  periods:
+  - 2
+  - 3
+  - 5
+  - 7
+  - 11
+  scale_discriminator_params:
+    bias: true
+    channels: 128
+    downsample_scales:
+    - 4
+    - 4
+    - 4
+    - 4
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 15
+    - 41
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    max_groups: 16
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+  scale_downsample_pooling: AvgPool1d
+  scale_downsample_pooling_params:
+    kernel_size: 4
+    padding: 2
+    stride: 2
+  scales: 3
+discriminator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+discriminator_scheduler_type: MultiStepLR
+discriminator_train_start_steps: 0
+eval_interval_steps: 1000
+exp_root: exp
+feat_match_loss_params:
+  average_by_discriminators: false
+  average_by_layers: false
+  include_final_outputs: false
+generator_adv_loss_params:
+  average_by_discriminators: false
+generator_grad_norm: -1
+generator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+generator_optimizer_type: Adam
+generator_params:
+  bias: true
+  channels: 512
+  groups: 3
+  in_channels: 64
+  kernel_size: 7
+  nonlinear_activation: LeakyReLU
+  nonlinear_activation_params:
+    negative_slope: 0.1
+  out_channels: 1
+  resblock_dilations:
+  - - 1
+    - 3
+    - 5
+  resblock_kernel_sizes:
+  - 3
+  stats: stats/symAD_vctk_48000_hop300_clean.npy
+  upsample_kernel_sizes:
+  - 10
+  - 10
+  - 8
+  - 6
+  upsample_scales:
+  - 5
+  - 5
+  - 4
+  - 3
+  use_additional_convs: true
+  use_weight_norm: true
+generator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+generator_scheduler_type: MultiStepLR
+generator_train_start_steps: 1
+lambda_adv: 1.0
+lambda_feat_match: 2.0
+lambda_mel_loss: 45.0
+lambda_shape_loss: 45.0
+lambda_stft_loss: 45.0
+log_interval_steps: 100
+mel_loss_params:
+  fft_sizes:
+  - 2048
+  fmax: 24000
+  fmin: 0
+  fs: 48000
+  hop_sizes:
+  - 300
+  log_base: null
+  num_mels: 80
+  win_lengths:
+  - 2048
+  window: hann_window
+model_type: HiFiGAN
+num_workers: 2
+outdir: exp/vocoder/AudioDec_v2_symAD_vctk_48000_hop300_clean
+pin_memory: true
+resume: ''
+sampling_rate: 48000
+save_interval_steps: 100000
+seed: 1337
+shape_loss_params:
+  winlen:
+  - 300
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+tag: vocoder/AudioDec_v2_symAD_vctk_48000_hop300_clean
+train_max_steps: 500000
+train_mode: vocoder
+use_feat_match_loss: true
+use_mel_loss: true
+use_shape_loss: false
+use_stft_loss: false

vocoder/AudioDec_v3_symADuniv_vctk_48000_hop300_clean/checkpoint-500000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ae8e353621a10bbd130d81e4b85131eea25228c83ea9d21629af981f6a572b8
+size 78587449

vocoder/AudioDec_v3_symADuniv_vctk_48000_hop300_clean/config.yml ADDED Viewed

	@@ -0,0 +1,207 @@

+analyzer: exp/autoencoder/symADuniv_vctk_48000_hop300/checkpoint-500000steps.pkl
+batch_length: 9600
+batch_size: 16
+config: config/vocoder/AudioDec_v3_symADuniv_vctk_48000_hop300_clean.yaml
+data:
+  path: /mnt/home/yichiaowu/datasets/vctk_noisy/48000
+  subset:
+    test: clean_testset_wav
+    train: clean_trainset_84spk_wav
+    valid: clean_validset_84spk_wav
+disable_cudnn: 'False'
+discriminator_adv_loss_params:
+  average_by_discriminators: false
+discriminator_grad_norm: -1
+discriminator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+discriminator_optimizer_type: Adam
+discriminator_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  period_discriminator_params:
+    bias: true
+    channels: 32
+    downsample_scales:
+    - 3
+    - 3
+    - 3
+    - 3
+    - 1
+    in_channels: 1
+    kernel_sizes:
+    - 5
+    - 3
+    max_downsample_channels: 1024
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.1
+    out_channels: 1
+    use_spectral_norm: false
+    use_weight_norm: true
+  periods:
+  - 2
+  - 3
+  - 5
+  - 7
+  - 11
+  spectral_discriminator_params:
+    bias: true
+    channels: 32
+    kernel_sizes:
+    - - 3
+      - 9
+    - - 3
+      - 9
+    - - 3
+      - 9
+    - - 3
+      - 9
+    - - 3
+      - 3
+    - - 3
+      - 3
+    nonlinear_activation: LeakyReLU
+    nonlinear_activation_params:
+      negative_slope: 0.2
+    strides:
+    - - 1
+      - 1
+    - - 1
+      - 2
+    - - 1
+      - 2
+    - - 1
+      - 2
+    - - 1
+      - 1
+    - - 1
+      - 1
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+discriminator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+discriminator_scheduler_type: MultiStepLR
+discriminator_train_start_steps: 0
+eval_interval_steps: 1000
+exp_root: exp
+feat_match_loss_params:
+  average_by_discriminators: false
+  average_by_layers: false
+  include_final_outputs: false
+generator_adv_loss_params:
+  average_by_discriminators: false
+generator_grad_norm: -1
+generator_optimizer_params:
+  betas:
+  - 0.5
+  - 0.9
+  lr: 0.0002
+  weight_decay: 0.0
+generator_optimizer_type: Adam
+generator_params:
+  bias: true
+  channels: 512
+  groups: 3
+  in_channels: 64
+  kernel_size: 7
+  nonlinear_activation: LeakyReLU
+  nonlinear_activation_params:
+    negative_slope: 0.1
+  out_channels: 1
+  resblock_dilations:
+  - - 1
+    - 3
+    - 5
+  resblock_kernel_sizes:
+  - 11
+  stats: stats/symADuniv_vctk_48000_hop300_clean.npy
+  upsample_kernel_sizes:
+  - 10
+  - 10
+  - 8
+  - 6
+  upsample_scales:
+  - 5
+  - 5
+  - 4
+  - 3
+  use_additional_convs: true
+  use_weight_norm: true
+generator_scheduler_params:
+  gamma: 0.5
+  milestones:
+  - 200000
+  - 400000
+  - 600000
+  - 800000
+generator_scheduler_type: MultiStepLR
+generator_train_start_steps: 1
+lambda_adv: 1.0
+lambda_feat_match: 2.0
+lambda_mel_loss: 45.0
+lambda_shape_loss: 45.0
+lambda_stft_loss: 45.0
+log_interval_steps: 100
+mel_loss_params:
+  fft_sizes:
+  - 2048
+  fmax: 24000
+  fmin: 0
+  fs: 48000
+  hop_sizes:
+  - 300
+  log_base: null
+  num_mels: 80
+  win_lengths:
+  - 2048
+  window: hann_window
+model_type: UnivNet
+num_workers: 2
+outdir: exp/vocoder/AudioDec_v3_symADuniv_vctk_48000_hop300_clean
+pin_memory: true
+resume: ''
+sampling_rate: 48000
+save_interval_steps: 100000
+seed: 1337
+shape_loss_params:
+  winlen:
+  - 300
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+tag: vocoder/AudioDec_v3_symADuniv_vctk_48000_hop300_clean
+train_max_steps: 500000
+train_mode: vocoder
+use_feat_match_loss: true
+use_mel_loss: true
+use_shape_loss: false
+use_stft_loss: false