jbetker
/

tortoise-filtering-models

Model card Files Files and versions Community

jbetker commited on Jun 2, 2022

Commit

55cc85f

•

1 Parent(s): 05a53d0

Initial commit

Browse files

Files changed (4) hide show

noisy_audio_clips_classifier.pth +3 -0
test_noisy_audio_clips_classifier.yml +105 -0
train_voice_voice_clip.yml +109 -0
voice_voice_clip.pth +3 -0

noisy_audio_clips_classifier.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6beb3ef287b2944f302be39821d13ca638f4a43278139707fea8e0a594f1b03
+size 169130277

test_noisy_audio_clips_classifier.yml ADDED Viewed

	@@ -0,0 +1,105 @@

+#### general settings
+name: test_noisy_audio_clips_classifier
+use_tb_logger: true
+model: extensibletrainer
+distortion: sr
+scale: 1
+gpu_ids: [0]
+start_step: 0
+checkpointing_enabled: true
+fp16: false
+wandb: true
+datasets:
+  test:
+    name: clips_val
+    n_workers: 1
+    batch_size: 16
+    mode: unsupervised_audio
+    path: [Z:\split\garbage-2\podcast_dump0_garbage]
+    cache_path: Z:\split\garbage-2\podcast_dump0_garbage_cache.pth
+    sampling_rate: 22050
+    do_augmentation: false
+    pad_to_samples: 65536
+    extra_samples: 0
+networks:
+  classifier:
+    type: generator
+    which_model_G: mini_audio_encoder_classifier
+    kwargs:
+      classes: 5
+      spec_dim: 80
+      embedding_dim: 1024
+      base_channels: 128
+      depth: 3
+      resnet_blocks: 2
+      attn_blocks: 8
+      num_attn_heads: 4
+      dropout: .1
+#### path
+path:
+  pretrain_model_classifier: noisy_audio_clips_classifier.pth
+  strict_load: true
+  #resume_state: ../experiments/train_noisy_audio_clips_classifier/training_state/51000.state
+steps:
+  classifier:
+    training: classifier
+    optimizer: adamw
+    optimizer_params:
+      lr: !!float 3e-4
+      weight_decay: !!float 1e-5
+      beta1: 0.9
+      beta2: 0.9999
+    clip_grad_eps: 1.0
+    injectors:
+      to_mel:
+        type: mel_spectrogram
+        in: clip
+        out: actual_mel
+      pad:
+        type: pad
+        multiple: 16
+        in: actual_mel
+        out: inp_mel
+      gen_inj_train:
+        type: generator
+        generator: classifier
+        in: inp_mel
+        out: logits
+    losses:
+      classification_loss:
+        type: crossentropy
+        weight: 1.0
+        logits: logits
+        labels: label
+train:
+  niter: 500000
+  warmup_iter: -1
+  mega_batch_factor: 1
+  val_freq: 2000
+  # Default LR scheduler options
+  default_lr_scheme: MultiStepLR
+  gen_lr_steps: [ 20000, 40000, 60000 ]
+  lr_gamma: 0.2
+eval:
+  path_key: path
+  classifier_logits_key: logits
+  output_dir: D:\tmp\podcasts_split
+  # Derived from audio_with_noise_dataset
+  output_labels: [fine, env_noise, music, two_voices, reverb]
+logger:
+  print_freq: 30
+  save_checkpoint_freq: 1000
+  visuals: []
+  is_mel_spectrogram: true
+  visual_debug_rate: 500

train_voice_voice_clip.yml ADDED Viewed

	@@ -0,0 +1,109 @@

+#### general settings
+name: train_voice_voice_clip
+use_tb_logger: true
+gpu_ids: [0]
+start_step: 0
+fp16: false
+checkpointing_enabled: true
+wandb: false
+datasets:
+  train:
+    name: clips
+    n_workers: 4
+    batch_size: 512
+    mode: unsupervised_audio
+    path: [/y/clips,
+           /y/bigasr_dataset/libritts/train-clean-100, /y/bigasr_dataset/libritts/train-clean-360,
+           /y/bigasr_dataset/libritts/train-other-500, /y/bigasr_dataset/ljspeech/wavs]
+    exclusions: [/y/clips/books1-hifreq.txt, /y/clips/podcasts-0-hifreq.txt,
+                 /y/clips/books2-hifreq.txt, /y/bigasr_dataset/libritts-hifreq.txt]
+    cache_path: /y/clips-cache-hifreq.pth
+    sampling_rate: 22050
+    do_augmentation: false
+    pad_to_samples: 80000
+    resample_clip: false
+    min_length: 40000
+    debug_loading_failures: false
+  val:
+    name: clips_val
+    n_workers: 1
+    batch_size: 512
+    mode: unsupervised_audio
+    path: [/h/libritts/test-clean]
+    cache_path: /h/libritts/test-clean/cache.pth
+    sampling_rate: 22050
+    do_augmentation: false
+    pad_to_samples: 80000
+    resample_clip: false
+    min_length: 40000
+    debug_loading_failures: false
+networks:
+  clip:
+    type: generator
+    which_model_G: voice_to_voice_clip
+    kwargs:
+      encoder_output: 512
+#### path
+path:
+  strict_load: true
+  #resume_state: ../experiments/train_voice_voice_clip/training_state/56000.state
+  pretrain_model_clip: voice_voice_clip.pth
+steps:
+  clip_train:
+    training: clip
+    loss_log_buffer: 250
+    # Generally follows the recipe from the DALLE paper.
+    optimizer: adamw
+    optimizer_params:
+      lr: !!float 1e-4
+      weight_decay: 0
+      beta1: 0.9
+      beta2: 0.99
+    clip_grad_eps: 4  # TODO: remove clipping after warmup steps.
+    injectors:
+      # Speech only
+      speech_to_mel:
+        type: torch_mel_spectrogram
+        mel_norm_file: ../experiments/clips_mel_norms.pth
+        in: clip
+        out: speech_mel
+      forward:
+        type: generator
+        generator: clip
+        in: [speech_mel, clip_lengths]
+        out: clip_loss
+    losses:
+      clip_loss_ce:
+        type: direct
+        weight: 1
+        key: clip_loss
+train:
+  niter: 500000
+  warmup_iter: -1
+  mega_batch_factor: 1
+  ema_rate: .999
+  val_freq: 500
+  default_lr_scheme: MultiStepLR
+  gen_lr_steps: [ 20000, 40000, 60000 ]
+  lr_gamma: 0.2
+  warmup_steps: 1000
+  #force_lr: !!float 4e-5
+eval:
+  pure: true
+logger:
+  print_freq: 10
+  save_checkpoint_freq: 500
+  visuals: []
+  is_mel_spectrogram: true
+  visual_debug_rate: 100

voice_voice_clip.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19792b3f75db1d8ad2c2553bbe82074396fd74d020266f30a45364c540b20b72
+size 26307225