Spaces:

saefro991
/

aet_demo

Running

App Files Files Community

saeki commited on Mar 24, 2022

Commit

699157c

•

1 Parent(s): a6efb81

fix

Browse files

Files changed (18) hide show

configs/test/melspec/audio_effect_transfer.yaml +28 -0
configs/test/melspec/dual.yaml +12 -0
configs/test/melspec/pretrain_jvs.yaml +47 -0
configs/test/melspec/ssl_jsut.yaml +55 -0
configs/test/melspec/ssl_tono.yaml +54 -0
configs/test/vocfeats/audio_effect_transfer.yaml +28 -0
configs/test/vocfeats/dual.yaml +12 -0
configs/test/vocfeats/pretrain_jvs.yaml +49 -0
configs/test/vocfeats/ssl_jsut.yaml +57 -0
configs/test/vocfeats/ssl_tono.yaml +56 -0
configs/train/melspec/dual.yaml +13 -0
configs/train/melspec/pretrain_jvs.yaml +47 -0
configs/train/melspec/ssl_jsut.yaml +54 -0
configs/train/melspec/ssl_tono.yaml +54 -0
configs/train/vocfeats/dual.yaml +12 -0
configs/train/vocfeats/pretrain_jvs.yaml +49 -0
configs/train/vocfeats/ssl_jsut.yaml +56 -0
configs/train/vocfeats/ssl_tono.yaml +56 -0

configs/test/melspec/audio_effect_transfer.yaml ADDED Viewed

	@@ -0,0 +1,28 @@

+general:
+  preprocessed_path: "./preprocessed/audio_effect_transfer"
+  output_path: "./output/melspec/audio_effect_transfer"
+  feature_type: "melspec"
+  source:
+    dataset_path: "./data/tono"
+    config_path: "./configs/test/melspec/ssl_tono.yaml"
+    ckpt_path: "./ckpts_tono/tono_melspec_multi_nopre_0217.ckpt"
+  target:
+    dataset_path: "./data/jvs_22k-low"
+    config_path: "./configs/test/melspec/pretrain_jvs.yaml"
+  use_gst: False
+preprocess:
+  sampling_rate: 22050
+  segment_length: -1
+  frame_shift: 256
+model: null
+train:
+  epoch: 100
+  batchsize: 8
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.001
+  grad_clip_thresh: 1.0
+  logger_step: 1000

configs/test/melspec/dual.yaml ADDED Viewed

	@@ -0,0 +1,12 @@

+general:
+  stage: "pretrain"
+  corpus_type: "multi-unseen"
+  source_path: "./data/jvs_22k"
+  aux_path: null
+  preprocessed_path: "./preprocessed/dual"
+preprocess:
+  n_train: 90
+  n_val: 5
+  n_test: 5
+  sampling_rate: 22050
+  segment_length: 2

configs/test/melspec/pretrain_jvs.yaml ADDED Viewed

	@@ -0,0 +1,47 @@

+general:
+  stage: "pretrain"
+  corpus_type: "multi-unseen" # (single, multi-seen, multi-unseen)
+  source_path: "./data/jvs_22k-low"
+  aux_path: "./data/jvs_22k"
+  preprocessed_path: "./preprocessed/jvs"
+  output_path: "./output/melspec/pretrain"
+  test_wav_path: null
+  feature_type: "melspec"
+  hifigan_path: "./hifigan/hifigan_melspec_universal"
+  power_norm: True
+  use_gst: False
+preprocess:
+  n_train: 90
+  n_val: 5
+  n_test: 5
+  sampling_rate: 22050
+  frame_length: 1024
+  frame_shift: 256
+  fft_length: 1024
+  fmin: 0
+  fmax: 8000
+  n_mels: 80
+  comp_factor: 1.0
+  min_magnitude: 0.00001
+  max_wav_value: 32768.0
+  segment_length: -1
+train:
+  batchsize: 8
+  epoch: 50
+  alpha: 0.1
+  augment: True
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.005
+  grad_clip_thresh: 1.0
+  logger_step: 1000
+  load_pretrained: False
+  pretrained_path: null
+  early_stopping: False
+  multi_scale_loss:
+    use_linear: False
+    gamma: 1.0
+  feature_loss:
+    type: "mae"

configs/test/melspec/ssl_jsut.yaml ADDED Viewed

	@@ -0,0 +1,55 @@

+general:
+  stage: "ssl"
+  corpus_type: "single" # (single, multi-seen, multi-unseen)
+  source_path: "./data/jsut_22k-low"
+  aux_path: "./data/jsut_22k"
+  preprocessed_path: "./preprocessed/jsut-low"
+  output_path: "./output/melspec/jsut-low"
+  test_wav_path: null
+  feature_type: "melspec"
+  hifigan_path: "./hifigan/hifigan_melspec_universal"
+  power_norm: True
+  use_gst: False
+preprocess:
+  n_train: 4950
+  n_val: 25
+  n_test: 25
+  sampling_rate: 22050
+  frame_length: 1024
+  frame_shift: 256
+  fft_length: 1024
+  fmin: 0
+  fmax: 8000
+  n_mels: 80
+  comp_factor: 1.0
+  min_magnitude: 0.00001
+  bitrate: "16k"
+  max_wav_value: 32768.0
+  segment_length: -1
+train:
+  batchsize: 1
+  epoch: 50
+  epoch_channel: 25
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.001
+  alpha: 0.1
+  beta: 0.1
+  augment: False
+  grad_clip_thresh: 1.0
+  logger_step: 1000
+  load_pretrained: False
+  pretrained_path: null
+  fix_channel: False
+  early_stopping: False
+  multi_scale_loss:
+    use_linear: True
+    gamma: 1.0
+  feature_loss:
+    type: "mae"
+dual:
+  enable: True
+  config_path: ./configs/test/melspec/dual.yaml

configs/test/melspec/ssl_tono.yaml ADDED Viewed

	@@ -0,0 +1,54 @@

+general:
+  stage: "ssl"
+  corpus_type: "single" # (single, multi-seen, multi-unseen)
+  source_path: "./data/tono_22k"
+  aux_path: null
+  preprocessed_path: "./preprocessed/tono"
+  output_path: "./output/melspec/tono"
+  test_wav_path: null
+  feature_type: "melspec"
+  hifigan_path: "./hifigan/hifigan_melspec_universal"
+  power_norm: True
+  use_gst: False
+preprocess:
+  n_train: 270
+  n_val: 34
+  n_test: 30
+  sampling_rate: 22050
+  frame_length: 1024
+  frame_shift: 256
+  fft_length: 1024
+  fmin: 0
+  fmax: 8000
+  n_mels: 80
+  comp_factor: 1.0
+  min_magnitude: 0.00001
+  bitrate: "16k"
+  max_wav_value: 32768.0
+  segment_length: -1
+train:
+  batchsize: 4
+  epoch: 50
+  epoch_channel: 25
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.001
+  alpha: 0.1
+  beta: 0.1
+  grad_clip_thresh: 1.0
+  logger_step: 1000
+  load_pretrained: False
+  pretrained_path: null
+  fix_channel: False
+  early_stopping: False
+  multi_scale_loss:
+    use_linear: True
+    gamma: 1.0
+  feature_loss:
+    type: "mae"
+dual:
+  enable: True
+  config_path: ./configs/train/melspec/dual.yaml

configs/test/vocfeats/audio_effect_transfer.yaml ADDED Viewed

	@@ -0,0 +1,28 @@

+general:
+  preprocessed_path: "./preprocessed/audio_effect_transfer"
+  output_path: "./output/vocfeats/audio_effect_transfer"
+  feature_type: "vocfeats"
+  source:
+    dataset_path: "./data/tono"
+    config_path: "./configs/test/melspec/ssl_tono.yaml"
+    ckpt_path: "./ckpts_tono/tono_melspec_multi_nopre_0217.ckpt"
+  target:
+    dataset_path: "./data/jvs_22k-low"
+    config_path: "./configs/test/vocfeats/pretrain_jvs.yaml"
+  use_gst: False
+preprocess:
+  sampling_rate: 22050
+  segment_length: -1
+  frame_shift: 256
+model: null
+train:
+  epoch: 100
+  batchsize: 8
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.001
+  grad_clip_thresh: 1.0
+  logger_step: 1000

configs/test/vocfeats/dual.yaml ADDED Viewed

	@@ -0,0 +1,12 @@

+general:
+  stage: "pretrain"
+  corpus_type: "multi-unseen"
+  source_path: "./data/jvs_22k"
+  aux_path: null
+  preprocessed_path: "./preprocessed/dual"
+preprocess:
+  n_train: 90
+  n_val: 5
+  n_test: 5
+  sampling_rate: 22050
+  segment_length: 2

configs/test/vocfeats/pretrain_jvs.yaml ADDED Viewed

	@@ -0,0 +1,49 @@

+general:
+  stage: "pretrain"
+  corpus_type: "multi-unseen" # (single, multi-seen, multi-unseen)
+  source_path: "./data/jvs_22k-low"
+  aux_path: "./data/jvs_22k"
+  preprocessed_path: "./preprocessed/jvs"
+  output_path: "./output/vocfeats/pretrain"
+  test_wav_path: null
+  feature_type: "vocfeats"
+  hifigan_path: "./hifigan/hifigan_jvs_40d_600k"
+  power_norm: True
+  use_gst: False
+preprocess:
+  n_train: 90
+  n_val: 5
+  n_test: 5
+  sampling_rate: 22050
+  frame_length: 1024
+  frame_shift: 256
+  fft_length: 1024
+  fmin: 0
+  fmax: 8000
+  n_mels: 80
+  cep_order: 40
+  f0_extractor: "dio"
+  comp_factor: 1.0
+  min_magnitude: 0.00001
+  max_wav_value: 32768.0
+  segment_length: -1
+train:
+  batchsize: 8
+  epoch: 50
+  alpha: 0.1
+  augment: True
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.005
+  grad_clip_thresh: 1.0
+  logger_step: 1000
+  load_pretrained: False
+  pretrained_path: null
+  early_stopping: False
+  multi_scale_loss:
+    use_linear: True
+    gamma: 1.0
+  feature_loss:
+    type: "mae"

configs/test/vocfeats/ssl_jsut.yaml ADDED Viewed

	@@ -0,0 +1,57 @@

+general:
+  stage: "ssl"
+  corpus_type: "single" # (single, multi-seen, multi-unseen)
+  source_path: "./data/jsut_22k-low"
+  aux_path: "./data/jsut_22k"
+  preprocessed_path: "./preprocessed/jsut-low"
+  output_path: "./output/vocfeats/jsut-low"
+  test_wav_path: null
+  feature_type: "vocfeats"
+  hifigan_path: "./hifigan/hifigan_jvs_40d_600k"
+  power_norm: True
+  use_gst: False
+preprocess:
+  n_train: 4950
+  n_val: 25
+  n_test: 25
+  sampling_rate: 22050
+  frame_length: 1024
+  frame_shift: 256
+  fft_length: 1024
+  fmin: 0
+  fmax: 8000
+  n_mels: 80
+  cep_order: 40
+  f0_extractor: "harvest"
+  comp_factor: 1.0
+  min_magnitude: 0.00001
+  bitrate: "16k"
+  max_wav_value: 32768.0
+  segment_length: -1
+train:
+  batchsize: 1
+  epoch: 50
+  epoch_channel: 25
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.001
+  alpha: 0.1
+  beta: 0.1
+  augment: False
+  grad_clip_thresh: 1.0
+  logger_step: 1000
+  load_pretrained: False
+  pretrained_path: null
+  fix_channel: False
+  early_stopping: False
+  multi_scale_loss:
+    use_linear: True
+    gamma: 1.0
+  feature_loss:
+    type: "mae"
+dual:
+  enable: True
+  config_path: ./configs/test/vocfeats/dual.yaml

configs/test/vocfeats/ssl_tono.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+general:
+  stage: "ssl"
+  corpus_type: "single" # (single, multi-seen, multi-unseen)
+  source_path: "./data/tono"
+  aux_path: null
+  preprocessed_path: "./preprocessed/tono-denoise"
+  output_path: "./output/vocfeats/tono-denoise"
+  test_wav_path: null
+  feature_type: "vocfeats"
+  hifigan_path: "./hifigan/hifigan_jvs_40d_600k"
+  power_norm: True
+  use_gst: False
+preprocess:
+  n_train: 270
+  n_val: 34
+  n_test: 30
+  sampling_rate: 22050
+  frame_length: 1024
+  frame_shift: 256
+  fft_length: 1024
+  fmin: 0
+  fmax: 8000
+  n_mels: 80
+  cep_order: 40
+  comp_factor: 1.0
+  min_magnitude: 0.00001
+  bitrate: "16k"
+  f0_extractor: "harvest"
+  max_wav_value: 32768.0
+  segment_length: -1
+train:
+  batchsize: 4
+  epoch: 50
+  epoch_channel: 25
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.001
+  alpha: 0.1
+  beta: 0.1
+  grad_clip_thresh: 1.0
+  logger_step: 1000
+  load_pretrained: False
+  pretrained_path: null
+  fix_channel: False
+  early_stopping: False
+  multi_scale_loss:
+    use_linear: True
+    gamma: 1.0
+  feature_loss:
+    type: "mae"
+dual:
+  enable: True
+  config_path: ./configs/train/vocfeats/dual.yaml

configs/train/melspec/dual.yaml ADDED Viewed

	@@ -0,0 +1,13 @@

+general:
+  stage: "pretrain"
+  corpus_type: "multi-unseen"
+  source_path: "./data/jvs_22k"
+  aux_path: null
+  preprocessed_path: "./preprocessed/dual"
+preprocess:
+  n_train: 90
+  n_val: 5
+  n_test: 5
+  sampling_rate: 22050
+  segment_length: 2

configs/train/melspec/pretrain_jvs.yaml ADDED Viewed

	@@ -0,0 +1,47 @@

+general:
+  stage: "pretrain"
+  corpus_type: "multi-unseen" # (single, multi-seen, multi-unseen)
+  source_path: "./data/jvs_22k-low"
+  aux_path: ./data/jvs_22k"
+  preprocessed_path: "./preprocessed/jvs"
+  output_path: "./output/melspec/pretrain"
+  test_wav_path: null
+  feature_type: "melspec"
+  hifigan_path: "./hifigan/hifigan_melspec_universal"
+  power_norm: True
+  use_gst: False
+preprocess:
+  n_train: 90
+  n_val: 5
+  n_test: 5
+  sampling_rate: 22050
+  frame_length: 1024
+  frame_shift: 256
+  fft_length: 1024
+  fmin: 0
+  fmax: 8000
+  n_mels: 80
+  comp_factor: 1.0
+  min_magnitude: 0.00001
+  max_wav_value: 32768.0
+  segment_length: 2
+train:
+  batchsize: 8
+  epoch: 50
+  alpha: 0.1
+  augment: True
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.005
+  grad_clip_thresh: 1.0
+  logger_step: 1000
+  load_pretrained: False
+  pretrained_path: null
+  early_stopping: False
+  multi_scale_loss:
+    use_linear: False
+    gamma: 1.0
+  feature_loss:
+    type: "mae"

configs/train/melspec/ssl_jsut.yaml ADDED Viewed

	@@ -0,0 +1,54 @@

+general:
+  stage: "ssl"
+  corpus_type: "single" # (single, multi-seen, multi-unseen)
+  source_path: "./data/jsut_22k-low"
+  aux_path: "./data/jsut_22k"
+  preprocessed_path: "./preprocessed/jsut-low"
+  output_path: "./output/melspec/jsut-low"
+  test_wav_path: null
+  feature_type: "melspec"
+  hifigan_path: "./hifigan/hifigan_melspec_universal"
+  power_norm: True
+  use_gst: False
+preprocess:
+  n_train: 4950
+  n_val: 25
+  n_test: 25
+  sampling_rate: 22050
+  frame_length: 1024
+  frame_shift: 256
+  fft_length: 1024
+  fmin: 0
+  fmax: 8000
+  n_mels: 80
+  comp_factor: 1.0
+  min_magnitude: 0.00001
+  bitrate: "16k"
+  max_wav_value: 32768.0
+  segment_length: 2
+train:
+  batchsize: 4
+  epoch: 50
+  epoch_channel: 25
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.001
+  alpha: 0.1
+  beta: 0.1
+  grad_clip_thresh: 1.0
+  logger_step: 1000
+  load_pretrained: True
+  pretrained_path: null
+  fix_channel: False
+  early_stopping: False
+  multi_scale_loss:
+    use_linear: True
+    gamma: 1.0
+  feature_loss:
+    type: "mae"
+dual:
+  enable: True
+  config_path: ./configs/train/melspec/dual.yaml

configs/train/melspec/ssl_tono.yaml ADDED Viewed

	@@ -0,0 +1,54 @@

+general:
+  stage: "ssl"
+  corpus_type: "single" # (single, multi-seen, multi-unseen)
+  source_path: "./data/tono"
+  aux_path: null
+  preprocessed_path: "./preprocessed/tono"
+  output_path: "./output/melspec/tono"
+  test_wav_path: null
+  feature_type: "melspec"
+  hifigan_path: "./hifigan/hifigan_melspec_universal"
+  power_norm: True
+  use_gst: False
+preprocess:
+  n_train: 270
+  n_val: 34
+  n_test: 30
+  sampling_rate: 22050
+  frame_length: 1024
+  frame_shift: 256
+  fft_length: 1024
+  fmin: 0
+  fmax: 8000
+  n_mels: 80
+  comp_factor: 1.0
+  min_magnitude: 0.00001
+  bitrate: "16k"
+  max_wav_value: 32768.0
+  segment_length: 2
+train:
+  batchsize: 4
+  epoch: 50
+  epoch_channel: 25
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.001
+  alpha: 0.1
+  beta: 0.1
+  grad_clip_thresh: 1.0
+  logger_step: 1000
+  load_pretrained: False
+  pretrained_path: null
+  fix_channel: False
+  early_stopping: False
+  multi_scale_loss:
+    use_linear: True
+    gamma: 1.0
+  feature_loss:
+    type: "mae"
+dual:
+  enable: True
+  config_path: ./configs/train/melspec/dual.yaml

configs/train/vocfeats/dual.yaml ADDED Viewed

	@@ -0,0 +1,12 @@

+general:
+  stage: "pretrain"
+  corpus_type: "multi-unseen"
+  source_path: "./data/jvs_22k"
+  aux_path: null
+  preprocessed_path: "./preprocessed/dual"
+preprocess:
+  n_train: 90
+  n_val: 5
+  n_test: 5
+  sampling_rate: 22050
+  segment_length: 2

configs/train/vocfeats/pretrain_jvs.yaml ADDED Viewed

	@@ -0,0 +1,49 @@

+general:
+  stage: "pretrain"
+  corpus_type: "multi-unseen" # (single, multi-seen, multi-unseen)
+  source_path: "./data/jvs_22k-low"
+  aux_path: "./data/jvs_22k"
+  preprocessed_path: "./preprocessed/jvs"
+  output_path: "./output/vocfeats/pretrain"
+  test_wav_path: null
+  feature_type: "vocfeats"
+  hifigan_path: "./hifigan/hifigan_jvs_40d_600k"
+  power_norm: True
+  use_gst: False
+preprocess:
+  n_train: 90
+  n_val: 5
+  n_test: 5
+  sampling_rate: 22050
+  frame_length: 1024
+  frame_shift: 256
+  fft_length: 1024
+  fmin: 0
+  fmax: 8000
+  n_mels: 80
+  cep_order: 40
+  f0_extractor: "dio"
+  comp_factor: 1.0
+  min_magnitude: 0.00001
+  max_wav_value: 32768.0
+  segment_length: 2
+train:
+  batchsize: 8
+  epoch: 50
+  alpha: 0.1
+  augment: True
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.005
+  grad_clip_thresh: 1.0
+  logger_step: 1000
+  load_pretrained: False
+  pretrained_path: null
+  early_stopping: False
+  multi_scale_loss:
+    use_linear: True
+    gamma: 1.0
+  feature_loss:
+    type: "mae"

configs/train/vocfeats/ssl_jsut.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+general:
+  stage: "ssl"
+  corpus_type: "single" # (single, multi-seen, multi-unseen)
+  source_path: "./data/jsut_22k-low"
+  aux_path: "./data/jsut_22k"
+  preprocessed_path: "./preprocessed/jsut-low"
+  output_path: "./output/vocfeats/jsut-low"
+  test_wav_path: null
+  feature_type: "vocfeats"
+  hifigan_path: "./hifigan/hifigan_jvs_40d_600k"
+  power_norm: True
+  use_gst: False
+preprocess:
+  n_train: 4950
+  n_val: 25
+  n_test: 25
+  sampling_rate: 22050
+  frame_length: 1024
+  frame_shift: 256
+  fft_length: 1024
+  fmin: 0
+  fmax: 8000
+  n_mels: 80
+  cep_order: 40
+  comp_factor: 1.0
+  min_magnitude: 0.00001
+  bitrate: "16k"
+  f0_extractor: "harvest"
+  max_wav_value: 32768.0
+  segment_length: 2
+train:
+  batchsize: 4
+  epoch: 50
+  epoch_channel: 25
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.001
+  alpha: 0.1
+  beta: 0.1
+  grad_clip_thresh: 1.0
+  logger_step: 1000
+  load_pretrained: True
+  pretrained_path: null
+  fix_channel: False
+  early_stopping: False
+  multi_scale_loss:
+    use_linear: True
+    gamma: 1.0
+  feature_loss:
+    type: "mae"
+dual:
+  enable: True
+  config_path: ./configs/train/vocfeats/dual.yaml

configs/train/vocfeats/ssl_tono.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+general:
+  stage: "ssl"
+  corpus_type: "single" # (single, multi-seen, multi-unseen)
+  source_path: "./data/tono"
+  aux_path: null
+  preprocessed_path: "./preprocessed/tono"
+  output_path: "./output/vocfeats/tono"
+  test_wav_path: null
+  feature_type: "vocfeats"
+  hifigan_path: "./hifigan/hifigan_jvs_40d_600k"
+  power_norm: True
+  use_gst: False
+preprocess:
+  n_train: 270
+  n_val: 34
+  n_test: 30
+  sampling_rate: 22050
+  frame_length: 1024
+  frame_shift: 256
+  fft_length: 1024
+  fmin: 0
+  fmax: 8000
+  n_mels: 80
+  cep_order: 40
+  comp_factor: 1.0
+  min_magnitude: 0.00001
+  bitrate: "16k"
+  f0_extractor: "harvest"
+  max_wav_value: 32768.0
+  segment_length: 2
+train:
+  batchsize: 4
+  epoch: 50
+  epoch_channel: 25
+  multi_gpu_mode: False
+  num_workers: 4
+  learning_rate: 0.001
+  alpha: 0.1
+  beta: 0.1
+  grad_clip_thresh: 1.0
+  logger_step: 1000
+  load_pretrained: False
+  pretrained_path: null
+  fix_channel: False
+  early_stopping: False
+  multi_scale_loss:
+    use_linear: True
+    gamma: 1.0
+  feature_loss:
+    type: "mae"
+dual:
+  enable: True
+  config_path: ./configs/train/vocfeats/dual.yaml