Spaces:

hugggof
/

salad_bowl

Sleeping

App Files Files Community

Hugo Flores Garcia commited on Jan 4

Commit

4c17dbe

•

1 Parent(s): 9567041

models

Browse files

Files changed (43) hide show

runs/boleros/c2f/args.yml +825 -0
runs/boleros/c2f/latest/vampnet/weights.pth +3 -0
runs/boleros/c2f/model.txt +76 -0
runs/boleros/coarse/args.yml +825 -0
runs/boleros/coarse/latest/vampnet/weights.pth +3 -0
runs/boleros/coarse/model.txt +76 -0
runs/choir/c2f/latest/vampnet/weights.pth +3 -0
runs/choir/coarse/latest/vampnet/weights.pth +3 -0
runs/knower/c2f/args.yml +824 -0
runs/knower/c2f/best/vampnet/weights.pth +3 -0
runs/knower/c2f/latest/vampnet/weights.pth +3 -0
runs/knower/c2f/model.txt +76 -0
runs/knower/coarse/args.yml +824 -0
runs/knower/coarse/best/vampnet/weights.pth +3 -0
runs/knower/coarse/latest/vampnet/weights.pth +3 -0
runs/knower/coarse/model.txt +76 -0
runs/n64/c2f/args.yml +129 -0
runs/n64/c2f/latest/vampnet/weights.pth +3 -0
runs/n64/c2f/model.txt +76 -0
runs/n64/coarse/args.yml +129 -0
runs/n64/coarse/latest/vampnet/weights.pth +3 -0
runs/n64/coarse/model.txt +76 -0
runs/n64/n64/c2f/vampnet/weights.pth +3 -0
runs/n64/n64/coarse/latest/vampnet/weights.pth +3 -0
runs/opera/coarse/latest/vampnet/weights.pth +3 -0
runs/orchestral/c2f/args.yml +129 -0
runs/orchestral/c2f/latest/vampnet/weights.pth +3 -0
runs/orchestral/c2f/model.txt +76 -0
runs/orchestral/coarse/args.yml +129 -0
runs/orchestral/coarse/latest/vampnet/weights.pth +3 -0
runs/orchestral/coarse/model.txt +76 -0
runs/soundrangers-v2-v1/c2f/args.yml +851 -0
runs/soundrangers-v2-v1/c2f/latest/vampnet/weights.pth +3 -0
runs/soundrangers-v2-v1/c2f/model.txt +73 -0
runs/soundrangers-v2-v1/coarse/args.yml +851 -0
runs/soundrangers-v2-v1/coarse/latest/vampnet/weights.pth +3 -0
runs/soundrangers-v2-v1/coarse/model.txt +73 -0
runs/soundrangers-v2/c2f/args.yml +155 -0
runs/soundrangers-v2/c2f/latest/vampnet/weights.pth +3 -0
runs/soundrangers-v2/c2f/model.txt +76 -0
runs/soundrangers-v2/coarse/args.yml +155 -0
runs/soundrangers-v2/coarse/latest/vampnet/weights.pth +3 -0
runs/soundrangers-v2/coarse/model.txt +76 -0

runs/boleros/c2f/args.yml ADDED Viewed

	@@ -0,0 +1,825 @@

+AdamW.amsgrad: false
+AdamW.betas: !!python/tuple
+- 0.9
+- 0.999
+AdamW.capturable: false
+AdamW.differentiable: false
+AdamW.eps: 1.0e-08
+AdamW.lr: 0.0001
+AdamW.maximize: false
+AdamW.weight_decay: 0.01
+AudioDataset.aligned: false
+AudioDataset.duration: 3.0
+AudioDataset.loudness_cutoff: -40.0
+AudioDataset.n_examples: 1000
+AudioDataset.num_channels: 1
+AudioDataset.offset: null
+AudioDataset.shuffle_loaders: false
+AudioDataset.without_replacement: false
+AudioLoader.ext:
+- .wav
+- .flac
+- .mp3
+- .mp4
+AudioLoader.relative_path: ''
+AudioLoader.shuffle: true
+AudioLoader.shuffle_state: 0
+AudioLoader.sources: null
+AudioLoader.weights: null
+BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+BackgroundNoise.loudness_cutoff: null
+BackgroundNoise.n_bands: 3
+BackgroundNoise.name: null
+BackgroundNoise.prob: 1.0
+BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+BackgroundNoise.sources: null
+BackgroundNoise.weights: null
+BaseTransform.keys: []
+BaseTransform.name: null
+BaseTransform.prob: 1.0
+ClippingDistortion.name: null
+ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+ClippingDistortion.prob: 1.0
+CorruptPhase.name: null
+CorruptPhase.prob: 1
+CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+CrossEntropyLoss.ignore_index: -100
+CrossEntropyLoss.label_smoothing: 0.1
+CrossEntropyLoss.reduce: null
+CrossEntropyLoss.reduction: mean
+CrossEntropyLoss.size_average: null
+CrossTalk.loudness_cutoff: -40
+CrossTalk.name: null
+CrossTalk.prob: 1.0
+CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+CrossTalk.sources: null
+CrossTalk.weights: null
+Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+Equalizer.n_bands: 6
+Equalizer.name: null
+Equalizer.prob: 1.0
+FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+FrequencyMask.name: null
+FrequencyMask.prob: 1
+FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+FrequencyNoise.name: null
+FrequencyNoise.prob: 1
+GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+GlobalVolumeNorm.name: null
+GlobalVolumeNorm.prob: 1.0
+HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+HighPass.name: null
+HighPass.prob: 1
+HighPass.zeros: 51
+InvertPhase.name: null
+InvertPhase.prob: 1
+LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+LowPass.name: null
+LowPass.prob: 1
+LowPass.zeros: 51
+MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+MaskLowMagnitudes.name: null
+MaskLowMagnitudes.prob: 1
+MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+MuLawQuantization.name: null
+MuLawQuantization.prob: 1.0
+NoamScheduler.d_model: 512
+NoamScheduler.factor: 2.0
+NoamScheduler.warmup: 500
+NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+NoiseFloor.name: null
+NoiseFloor.prob: 1.0
+Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+Quantization.name: null
+Quantization.prob: 1.0
+Repeat.n_repeat: 1
+Repeat.name: null
+Repeat.prob: 1.0
+RepeatUpTo.max_repeat: 5
+RepeatUpTo.name: null
+RepeatUpTo.prob: 1.0
+RepeatUpTo.weights: null
+RescaleAudio.name: null
+RescaleAudio.prob: 1
+RescaleAudio.val: 1.0
+RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+RoomImpulseResponse.duration: 1.0
+RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+RoomImpulseResponse.n_bands: 6
+RoomImpulseResponse.name: null
+RoomImpulseResponse.offset: 0.0
+RoomImpulseResponse.prob: 1.0
+RoomImpulseResponse.sources: null
+RoomImpulseResponse.use_original_phase: false
+RoomImpulseResponse.weights: null
+ShiftPhase.name: null
+ShiftPhase.prob: 1
+ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+Silence.name: null
+Silence.prob: 0.1
+Smoothing.name: null
+Smoothing.prob: 1
+Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+Smoothing.window_type: !!python/tuple
+- const
+- average
+SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+SpectralDenoising.n_bands: 6
+SpectralDenoising.n_freq: 3
+SpectralDenoising.n_time: 5
+SpectralDenoising.name: null
+SpectralDenoising.nz_volume: -40
+SpectralDenoising.prob: 1
+TimeMask.name: null
+TimeMask.prob: 1
+TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+TimeNoise.name: null
+TimeNoise.prob: 1
+TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+VampNet.dropout: 0.1
+VampNet.embedding_dim: 1280
+VampNet.flash_attn: false
+VampNet.latent_dim: 8
+VampNet.n_codebooks: 14
+VampNet.n_conditioning_codebooks: 4
+VampNet.n_heads: 20
+VampNet.n_layers: 16
+VampNet.noise_mode: mask
+VampNet.r_cond_dim: 0
+VampNet.vocab_size: 1024
+VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+VolumeChange.name: null
+VolumeChange.prob: 1.0
+VolumeNorm.db: !!python/tuple
+- const
+- -24
+VolumeNorm.name: null
+VolumeNorm.prob: 1.0
+amp: false
+args.debug: true
+args.load: conf/generated/boleros/c2f.yml
+args.save: null
+batch_size: 7
+codec_ckpt: ./models/vampnet/codec.pth
+fine_tune: true
+fine_tune_checkpoint: ./models/vampnet/c2f.pth
+grad_clip_val: 5.0
+num_iters: 500000
+num_workers: 7
+resume: false
+sample_freq: 1000
+save_iters:
+- 10000
+- 20000
+- 30000
+- 40000
+- 50000
+- 100000
+save_path: ./runs/boleros/c2f
+seed: 0
+tag: latest
+train/AudioDataset.aligned: false
+train/AudioDataset.duration: 3.0
+train/AudioDataset.loudness_cutoff: -40.0
+train/AudioDataset.n_examples: 100000000
+train/AudioDataset.num_channels: 1
+train/AudioDataset.offset: null
+train/AudioDataset.shuffle_loaders: false
+train/AudioDataset.without_replacement: false
+train/AudioLoader.sources:
+- /media/CHONK/hugo/loras/boleros
+train/BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+train/BackgroundNoise.loudness_cutoff: null
+train/BackgroundNoise.n_bands: 3
+train/BackgroundNoise.name: null
+train/BackgroundNoise.prob: 1.0
+train/BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+train/BackgroundNoise.sources: null
+train/BackgroundNoise.weights: null
+train/BaseTransform.keys: []
+train/BaseTransform.name: null
+train/BaseTransform.prob: 1.0
+train/ClippingDistortion.name: null
+train/ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+train/ClippingDistortion.prob: 1.0
+train/CorruptPhase.name: null
+train/CorruptPhase.prob: 1
+train/CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+train/CrossTalk.loudness_cutoff: -40
+train/CrossTalk.name: null
+train/CrossTalk.prob: 1.0
+train/CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+train/CrossTalk.sources: null
+train/CrossTalk.weights: null
+train/Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+train/Equalizer.n_bands: 6
+train/Equalizer.name: null
+train/Equalizer.prob: 1.0
+train/FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+train/FrequencyMask.name: null
+train/FrequencyMask.prob: 1
+train/FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+train/FrequencyNoise.name: null
+train/FrequencyNoise.prob: 1
+train/GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+train/GlobalVolumeNorm.name: null
+train/GlobalVolumeNorm.prob: 1.0
+train/HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+train/HighPass.name: null
+train/HighPass.prob: 1
+train/HighPass.zeros: 51
+train/InvertPhase.name: null
+train/InvertPhase.prob: 1
+train/LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+train/LowPass.name: null
+train/LowPass.prob: 1
+train/LowPass.zeros: 51
+train/MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+train/MaskLowMagnitudes.name: null
+train/MaskLowMagnitudes.prob: 1
+train/MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+train/MuLawQuantization.name: null
+train/MuLawQuantization.prob: 1.0
+train/NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+train/NoiseFloor.name: null
+train/NoiseFloor.prob: 1.0
+train/Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+train/Quantization.name: null
+train/Quantization.prob: 1.0
+train/Repeat.n_repeat: 1
+train/Repeat.name: null
+train/Repeat.prob: 1.0
+train/RepeatUpTo.max_repeat: 5
+train/RepeatUpTo.name: null
+train/RepeatUpTo.prob: 1.0
+train/RepeatUpTo.weights: null
+train/RescaleAudio.name: null
+train/RescaleAudio.prob: 1
+train/RescaleAudio.val: 1.0
+train/RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+train/RoomImpulseResponse.duration: 1.0
+train/RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+train/RoomImpulseResponse.n_bands: 6
+train/RoomImpulseResponse.name: null
+train/RoomImpulseResponse.offset: 0.0
+train/RoomImpulseResponse.prob: 1.0
+train/RoomImpulseResponse.sources: null
+train/RoomImpulseResponse.use_original_phase: false
+train/RoomImpulseResponse.weights: null
+train/ShiftPhase.name: null
+train/ShiftPhase.prob: 1
+train/ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+train/Silence.name: null
+train/Silence.prob: 0.1
+train/Smoothing.name: null
+train/Smoothing.prob: 1
+train/Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+train/Smoothing.window_type: !!python/tuple
+- const
+- average
+train/SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+train/SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+train/SpectralDenoising.n_bands: 6
+train/SpectralDenoising.n_freq: 3
+train/SpectralDenoising.n_time: 5
+train/SpectralDenoising.name: null
+train/SpectralDenoising.nz_volume: -40
+train/SpectralDenoising.prob: 1
+train/TimeMask.name: null
+train/TimeMask.prob: 1
+train/TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+train/TimeNoise.name: null
+train/TimeNoise.prob: 1
+train/TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+train/VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+train/VolumeChange.name: null
+train/VolumeChange.prob: 1.0
+train/VolumeNorm.db: !!python/tuple
+- const
+- -24
+train/VolumeNorm.name: null
+train/VolumeNorm.prob: 1.0
+val/AudioDataset.aligned: false
+val/AudioDataset.duration: 3.0
+val/AudioDataset.loudness_cutoff: -40.0
+val/AudioDataset.n_examples: 500
+val/AudioDataset.num_channels: 1
+val/AudioDataset.offset: null
+val/AudioDataset.shuffle_loaders: false
+val/AudioDataset.without_replacement: false
+val/AudioLoader.sources:
+- /media/CHONK/hugo/loras/boleros
+val/BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+val/BackgroundNoise.loudness_cutoff: null
+val/BackgroundNoise.n_bands: 3
+val/BackgroundNoise.name: null
+val/BackgroundNoise.prob: 1.0
+val/BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+val/BackgroundNoise.sources: null
+val/BackgroundNoise.weights: null
+val/BaseTransform.keys: []
+val/BaseTransform.name: null
+val/BaseTransform.prob: 1.0
+val/ClippingDistortion.name: null
+val/ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+val/ClippingDistortion.prob: 1.0
+val/CorruptPhase.name: null
+val/CorruptPhase.prob: 1
+val/CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+val/CrossTalk.loudness_cutoff: -40
+val/CrossTalk.name: null
+val/CrossTalk.prob: 1.0
+val/CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+val/CrossTalk.sources: null
+val/CrossTalk.weights: null
+val/Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+val/Equalizer.n_bands: 6
+val/Equalizer.name: null
+val/Equalizer.prob: 1.0
+val/FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+val/FrequencyMask.name: null
+val/FrequencyMask.prob: 1
+val/FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+val/FrequencyNoise.name: null
+val/FrequencyNoise.prob: 1
+val/GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+val/GlobalVolumeNorm.name: null
+val/GlobalVolumeNorm.prob: 1.0
+val/HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+val/HighPass.name: null
+val/HighPass.prob: 1
+val/HighPass.zeros: 51
+val/InvertPhase.name: null
+val/InvertPhase.prob: 1
+val/LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+val/LowPass.name: null
+val/LowPass.prob: 1
+val/LowPass.zeros: 51
+val/MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+val/MaskLowMagnitudes.name: null
+val/MaskLowMagnitudes.prob: 1
+val/MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+val/MuLawQuantization.name: null
+val/MuLawQuantization.prob: 1.0
+val/NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+val/NoiseFloor.name: null
+val/NoiseFloor.prob: 1.0
+val/Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+val/Quantization.name: null
+val/Quantization.prob: 1.0
+val/Repeat.n_repeat: 1
+val/Repeat.name: null
+val/Repeat.prob: 1.0
+val/RepeatUpTo.max_repeat: 5
+val/RepeatUpTo.name: null
+val/RepeatUpTo.prob: 1.0
+val/RepeatUpTo.weights: null
+val/RescaleAudio.name: null
+val/RescaleAudio.prob: 1
+val/RescaleAudio.val: 1.0
+val/RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+val/RoomImpulseResponse.duration: 1.0
+val/RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+val/RoomImpulseResponse.n_bands: 6
+val/RoomImpulseResponse.name: null
+val/RoomImpulseResponse.offset: 0.0
+val/RoomImpulseResponse.prob: 1.0
+val/RoomImpulseResponse.sources: null
+val/RoomImpulseResponse.use_original_phase: false
+val/RoomImpulseResponse.weights: null
+val/ShiftPhase.name: null
+val/ShiftPhase.prob: 1
+val/ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+val/Silence.name: null
+val/Silence.prob: 0.1
+val/Smoothing.name: null
+val/Smoothing.prob: 1
+val/Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+val/Smoothing.window_type: !!python/tuple
+- const
+- average
+val/SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+val/SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+val/SpectralDenoising.n_bands: 6
+val/SpectralDenoising.n_freq: 3
+val/SpectralDenoising.n_time: 5
+val/SpectralDenoising.name: null
+val/SpectralDenoising.nz_volume: -40
+val/SpectralDenoising.prob: 1
+val/TimeMask.name: null
+val/TimeMask.prob: 1
+val/TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+val/TimeNoise.name: null
+val/TimeNoise.prob: 1
+val/TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+val/VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+val/VolumeChange.name: null
+val/VolumeChange.prob: 1.0
+val/VolumeNorm.db: !!python/tuple
+- const
+- -24
+val/VolumeNorm.name: null
+val/VolumeNorm.prob: 1.0
+val_freq: 500
+val_idx:
+- 0
+- 1
+- 2
+- 3
+- 4
+- 5
+- 6
+- 7
+- 8
+- 9

runs/boleros/c2f/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8408ab94ce858360744e6c7f8fe708e48926fd26f5021c8d13506d529e12ac68
+size 1111127537

runs/boleros/c2f/model.txt ADDED Viewed

	@@ -0,0 +1,76 @@

+OptimizedModule(
+   277.753M params.
+  (_orig_mod): VampNet(
+     277.753M params.
+    (embedding): CodebookEmbedding(
+       0.145M params.
+      (special): ParameterDict(  (MASK): Parameter containing: [torch.cuda.FloatTensor of size 14x8 (GPU 0)] 0.000M params.)
+      (out_proj): Conv1d(112, 1280, kernel_size=(1,), stride=(1,) 0.145M params.)
+    )
+    (transformer): TransformerStack(
+       264.481M params.
+      (layers): ModuleList(
+        (0): TransformerLayer(
+           16.531M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.616M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+            (relative_attention_bias): Embedding(32, 20 0.001M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+        (1-15): 15 x TransformerLayer(
+           16.530M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.615M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+      )
+      (norm): RMSNorm( 0.001M params.)
+    )
+    (classifier): SequentialWithFiLM(
+       13.128M params.
+      (layers): ModuleList(
+        (0): Conv1d(1280, 10240, kernel_size=(1,), stride=(1,), padding=same 13.128M params.)
+      )
+    )
+  )
+)

runs/boleros/coarse/args.yml ADDED Viewed

	@@ -0,0 +1,825 @@

+AdamW.amsgrad: false
+AdamW.betas: !!python/tuple
+- 0.9
+- 0.999
+AdamW.capturable: false
+AdamW.differentiable: false
+AdamW.eps: 1.0e-08
+AdamW.lr: 0.0001
+AdamW.maximize: false
+AdamW.weight_decay: 0.01
+AudioDataset.aligned: false
+AudioDataset.duration: 10.0
+AudioDataset.loudness_cutoff: -30.0
+AudioDataset.n_examples: 1000
+AudioDataset.num_channels: 1
+AudioDataset.offset: null
+AudioDataset.shuffle_loaders: false
+AudioDataset.without_replacement: false
+AudioLoader.ext:
+- .wav
+- .flac
+- .mp3
+- .mp4
+AudioLoader.relative_path: ''
+AudioLoader.shuffle: true
+AudioLoader.shuffle_state: 0
+AudioLoader.sources: null
+AudioLoader.weights: null
+BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+BackgroundNoise.loudness_cutoff: null
+BackgroundNoise.n_bands: 3
+BackgroundNoise.name: null
+BackgroundNoise.prob: 1.0
+BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+BackgroundNoise.sources: null
+BackgroundNoise.weights: null
+BaseTransform.keys: []
+BaseTransform.name: null
+BaseTransform.prob: 1.0
+ClippingDistortion.name: null
+ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+ClippingDistortion.prob: 1.0
+CorruptPhase.name: null
+CorruptPhase.prob: 1
+CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+CrossEntropyLoss.ignore_index: -100
+CrossEntropyLoss.label_smoothing: 0.1
+CrossEntropyLoss.reduce: null
+CrossEntropyLoss.reduction: mean
+CrossEntropyLoss.size_average: null
+CrossTalk.loudness_cutoff: -40
+CrossTalk.name: null
+CrossTalk.prob: 1.0
+CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+CrossTalk.sources: null
+CrossTalk.weights: null
+Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+Equalizer.n_bands: 6
+Equalizer.name: null
+Equalizer.prob: 1.0
+FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+FrequencyMask.name: null
+FrequencyMask.prob: 1
+FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+FrequencyNoise.name: null
+FrequencyNoise.prob: 1
+GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+GlobalVolumeNorm.name: null
+GlobalVolumeNorm.prob: 1.0
+HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+HighPass.name: null
+HighPass.prob: 1
+HighPass.zeros: 51
+InvertPhase.name: null
+InvertPhase.prob: 1
+LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+LowPass.name: null
+LowPass.prob: 1
+LowPass.zeros: 51
+MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+MaskLowMagnitudes.name: null
+MaskLowMagnitudes.prob: 1
+MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+MuLawQuantization.name: null
+MuLawQuantization.prob: 1.0
+NoamScheduler.d_model: 512
+NoamScheduler.factor: 2.0
+NoamScheduler.warmup: 500
+NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+NoiseFloor.name: null
+NoiseFloor.prob: 1.0
+Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+Quantization.name: null
+Quantization.prob: 1.0
+Repeat.n_repeat: 1
+Repeat.name: null
+Repeat.prob: 1.0
+RepeatUpTo.max_repeat: 5
+RepeatUpTo.name: null
+RepeatUpTo.prob: 1.0
+RepeatUpTo.weights: null
+RescaleAudio.name: null
+RescaleAudio.prob: 1
+RescaleAudio.val: 1.0
+RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+RoomImpulseResponse.duration: 1.0
+RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+RoomImpulseResponse.n_bands: 6
+RoomImpulseResponse.name: null
+RoomImpulseResponse.offset: 0.0
+RoomImpulseResponse.prob: 1.0
+RoomImpulseResponse.sources: null
+RoomImpulseResponse.use_original_phase: false
+RoomImpulseResponse.weights: null
+ShiftPhase.name: null
+ShiftPhase.prob: 1
+ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+Silence.name: null
+Silence.prob: 0.1
+Smoothing.name: null
+Smoothing.prob: 1
+Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+Smoothing.window_type: !!python/tuple
+- const
+- average
+SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+SpectralDenoising.n_bands: 6
+SpectralDenoising.n_freq: 3
+SpectralDenoising.n_time: 5
+SpectralDenoising.name: null
+SpectralDenoising.nz_volume: -40
+SpectralDenoising.prob: 1
+TimeMask.name: null
+TimeMask.prob: 1
+TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+TimeNoise.name: null
+TimeNoise.prob: 1
+TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+VampNet.dropout: 0.1
+VampNet.embedding_dim: 1280
+VampNet.flash_attn: false
+VampNet.latent_dim: 8
+VampNet.n_codebooks: 4
+VampNet.n_conditioning_codebooks: 0
+VampNet.n_heads: 20
+VampNet.n_layers: 20
+VampNet.noise_mode: mask
+VampNet.r_cond_dim: 0
+VampNet.vocab_size: 1024
+VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+VolumeChange.name: null
+VolumeChange.prob: 1.0
+VolumeNorm.db: !!python/tuple
+- const
+- -24
+VolumeNorm.name: null
+VolumeNorm.prob: 1.0
+amp: false
+args.debug: true
+args.load: conf/generated/boleros/coarse.yml
+args.save: null
+batch_size: 6
+codec_ckpt: ./models/vampnet/codec.pth
+fine_tune: true
+fine_tune_checkpoint: ./models/vampnet/coarse.pth
+grad_clip_val: 5.0
+num_iters: 500000
+num_workers: 7
+resume: false
+sample_freq: 1000
+save_iters:
+- 10000
+- 20000
+- 30000
+- 40000
+- 50000
+- 100000
+save_path: ./runs/boleros/coarse
+seed: 0
+tag: latest
+train/AudioDataset.aligned: false
+train/AudioDataset.duration: 10.0
+train/AudioDataset.loudness_cutoff: -30.0
+train/AudioDataset.n_examples: 100000000
+train/AudioDataset.num_channels: 1
+train/AudioDataset.offset: null
+train/AudioDataset.shuffle_loaders: false
+train/AudioDataset.without_replacement: false
+train/AudioLoader.sources:
+- /media/CHONK/hugo/loras/boleros
+train/BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+train/BackgroundNoise.loudness_cutoff: null
+train/BackgroundNoise.n_bands: 3
+train/BackgroundNoise.name: null
+train/BackgroundNoise.prob: 1.0
+train/BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+train/BackgroundNoise.sources: null
+train/BackgroundNoise.weights: null
+train/BaseTransform.keys: []
+train/BaseTransform.name: null
+train/BaseTransform.prob: 1.0
+train/ClippingDistortion.name: null
+train/ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+train/ClippingDistortion.prob: 1.0
+train/CorruptPhase.name: null
+train/CorruptPhase.prob: 1
+train/CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+train/CrossTalk.loudness_cutoff: -40
+train/CrossTalk.name: null
+train/CrossTalk.prob: 1.0
+train/CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+train/CrossTalk.sources: null
+train/CrossTalk.weights: null
+train/Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+train/Equalizer.n_bands: 6
+train/Equalizer.name: null
+train/Equalizer.prob: 1.0
+train/FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+train/FrequencyMask.name: null
+train/FrequencyMask.prob: 1
+train/FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+train/FrequencyNoise.name: null
+train/FrequencyNoise.prob: 1
+train/GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+train/GlobalVolumeNorm.name: null
+train/GlobalVolumeNorm.prob: 1.0
+train/HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+train/HighPass.name: null
+train/HighPass.prob: 1
+train/HighPass.zeros: 51
+train/InvertPhase.name: null
+train/InvertPhase.prob: 1
+train/LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+train/LowPass.name: null
+train/LowPass.prob: 1
+train/LowPass.zeros: 51
+train/MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+train/MaskLowMagnitudes.name: null
+train/MaskLowMagnitudes.prob: 1
+train/MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+train/MuLawQuantization.name: null
+train/MuLawQuantization.prob: 1.0
+train/NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+train/NoiseFloor.name: null
+train/NoiseFloor.prob: 1.0
+train/Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+train/Quantization.name: null
+train/Quantization.prob: 1.0
+train/Repeat.n_repeat: 1
+train/Repeat.name: null
+train/Repeat.prob: 1.0
+train/RepeatUpTo.max_repeat: 5
+train/RepeatUpTo.name: null
+train/RepeatUpTo.prob: 1.0
+train/RepeatUpTo.weights: null
+train/RescaleAudio.name: null
+train/RescaleAudio.prob: 1
+train/RescaleAudio.val: 1.0
+train/RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+train/RoomImpulseResponse.duration: 1.0
+train/RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+train/RoomImpulseResponse.n_bands: 6
+train/RoomImpulseResponse.name: null
+train/RoomImpulseResponse.offset: 0.0
+train/RoomImpulseResponse.prob: 1.0
+train/RoomImpulseResponse.sources: null
+train/RoomImpulseResponse.use_original_phase: false
+train/RoomImpulseResponse.weights: null
+train/ShiftPhase.name: null
+train/ShiftPhase.prob: 1
+train/ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+train/Silence.name: null
+train/Silence.prob: 0.1
+train/Smoothing.name: null
+train/Smoothing.prob: 1
+train/Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+train/Smoothing.window_type: !!python/tuple
+- const
+- average
+train/SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+train/SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+train/SpectralDenoising.n_bands: 6
+train/SpectralDenoising.n_freq: 3
+train/SpectralDenoising.n_time: 5
+train/SpectralDenoising.name: null
+train/SpectralDenoising.nz_volume: -40
+train/SpectralDenoising.prob: 1
+train/TimeMask.name: null
+train/TimeMask.prob: 1
+train/TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+train/TimeNoise.name: null
+train/TimeNoise.prob: 1
+train/TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+train/VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+train/VolumeChange.name: null
+train/VolumeChange.prob: 1.0
+train/VolumeNorm.db: !!python/tuple
+- const
+- -24
+train/VolumeNorm.name: null
+train/VolumeNorm.prob: 1.0
+val/AudioDataset.aligned: false
+val/AudioDataset.duration: 10.0
+val/AudioDataset.loudness_cutoff: -30.0
+val/AudioDataset.n_examples: 500
+val/AudioDataset.num_channels: 1
+val/AudioDataset.offset: null
+val/AudioDataset.shuffle_loaders: false
+val/AudioDataset.without_replacement: false
+val/AudioLoader.sources:
+- /media/CHONK/hugo/loras/boleros
+val/BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+val/BackgroundNoise.loudness_cutoff: null
+val/BackgroundNoise.n_bands: 3
+val/BackgroundNoise.name: null
+val/BackgroundNoise.prob: 1.0
+val/BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+val/BackgroundNoise.sources: null
+val/BackgroundNoise.weights: null
+val/BaseTransform.keys: []
+val/BaseTransform.name: null
+val/BaseTransform.prob: 1.0
+val/ClippingDistortion.name: null
+val/ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+val/ClippingDistortion.prob: 1.0
+val/CorruptPhase.name: null
+val/CorruptPhase.prob: 1
+val/CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+val/CrossTalk.loudness_cutoff: -40
+val/CrossTalk.name: null
+val/CrossTalk.prob: 1.0
+val/CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+val/CrossTalk.sources: null
+val/CrossTalk.weights: null
+val/Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+val/Equalizer.n_bands: 6
+val/Equalizer.name: null
+val/Equalizer.prob: 1.0
+val/FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+val/FrequencyMask.name: null
+val/FrequencyMask.prob: 1
+val/FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+val/FrequencyNoise.name: null
+val/FrequencyNoise.prob: 1
+val/GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+val/GlobalVolumeNorm.name: null
+val/GlobalVolumeNorm.prob: 1.0
+val/HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+val/HighPass.name: null
+val/HighPass.prob: 1
+val/HighPass.zeros: 51
+val/InvertPhase.name: null
+val/InvertPhase.prob: 1
+val/LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+val/LowPass.name: null
+val/LowPass.prob: 1
+val/LowPass.zeros: 51
+val/MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+val/MaskLowMagnitudes.name: null
+val/MaskLowMagnitudes.prob: 1
+val/MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+val/MuLawQuantization.name: null
+val/MuLawQuantization.prob: 1.0
+val/NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+val/NoiseFloor.name: null
+val/NoiseFloor.prob: 1.0
+val/Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+val/Quantization.name: null
+val/Quantization.prob: 1.0
+val/Repeat.n_repeat: 1
+val/Repeat.name: null
+val/Repeat.prob: 1.0
+val/RepeatUpTo.max_repeat: 5
+val/RepeatUpTo.name: null
+val/RepeatUpTo.prob: 1.0
+val/RepeatUpTo.weights: null
+val/RescaleAudio.name: null
+val/RescaleAudio.prob: 1
+val/RescaleAudio.val: 1.0
+val/RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+val/RoomImpulseResponse.duration: 1.0
+val/RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+val/RoomImpulseResponse.n_bands: 6
+val/RoomImpulseResponse.name: null
+val/RoomImpulseResponse.offset: 0.0
+val/RoomImpulseResponse.prob: 1.0
+val/RoomImpulseResponse.sources: null
+val/RoomImpulseResponse.use_original_phase: false
+val/RoomImpulseResponse.weights: null
+val/ShiftPhase.name: null
+val/ShiftPhase.prob: 1
+val/ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+val/Silence.name: null
+val/Silence.prob: 0.1
+val/Smoothing.name: null
+val/Smoothing.prob: 1
+val/Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+val/Smoothing.window_type: !!python/tuple
+- const
+- average
+val/SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+val/SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+val/SpectralDenoising.n_bands: 6
+val/SpectralDenoising.n_freq: 3
+val/SpectralDenoising.n_time: 5
+val/SpectralDenoising.name: null
+val/SpectralDenoising.nz_volume: -40
+val/SpectralDenoising.prob: 1
+val/TimeMask.name: null
+val/TimeMask.prob: 1
+val/TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+val/TimeNoise.name: null
+val/TimeNoise.prob: 1
+val/TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+val/VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+val/VolumeChange.name: null
+val/VolumeChange.prob: 1.0
+val/VolumeNorm.db: !!python/tuple
+- const
+- -24
+val/VolumeNorm.name: null
+val/VolumeNorm.prob: 1.0
+val_freq: 500
+val_idx:
+- 0
+- 1
+- 2
+- 3
+- 4
+- 5
+- 6
+- 7
+- 8
+- 9

runs/boleros/coarse/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4cab5127c211565b6c408d4affe734f07503935828422dcc958ff7d4c7cf4d5
+size 1343718241

runs/boleros/coarse/model.txt ADDED Viewed

	@@ -0,0 +1,76 @@

+OptimizedModule(
+   335.894M params.
+  (_orig_mod): VampNet(
+     335.894M params.
+    (embedding): CodebookEmbedding(
+       0.042M params.
+      (special): ParameterDict(  (MASK): Parameter containing: [torch.cuda.FloatTensor of size 4x8 (GPU 0)] 0.000M params.)
+      (out_proj): Conv1d(32, 1280, kernel_size=(1,), stride=(1,) 0.042M params.)
+    )
+    (transformer): TransformerStack(
+       330.600M params.
+      (layers): ModuleList(
+        (0): TransformerLayer(
+           16.531M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.616M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+            (relative_attention_bias): Embedding(32, 20 0.001M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+        (1-19): 19 x TransformerLayer(
+           16.530M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.615M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+      )
+      (norm): RMSNorm( 0.001M params.)
+    )
+    (classifier): SequentialWithFiLM(
+       5.251M params.
+      (layers): ModuleList(
+        (0): Conv1d(1280, 4096, kernel_size=(1,), stride=(1,), padding=same 5.251M params.)
+      )
+    )
+  )
+)

runs/choir/c2f/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fd753f116f3778c23380ab3d04de9c2525a7b80adb67290042abf7b55415da5
+size 1111127537

runs/choir/coarse/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c29a1dfe20e7ddcd6dc8a6a41015d3d63447d4363fde3c978684196b0e12b82d
+size 1343718241

runs/knower/c2f/args.yml ADDED Viewed

	@@ -0,0 +1,824 @@

+AdamW.amsgrad: false
+AdamW.betas: !!python/tuple
+- 0.9
+- 0.999
+AdamW.capturable: false
+AdamW.differentiable: false
+AdamW.eps: 1.0e-08
+AdamW.lr: 0.0001
+AdamW.maximize: false
+AdamW.weight_decay: 0.01
+AudioDataset.aligned: false
+AudioDataset.duration: 3.0
+AudioDataset.loudness_cutoff: -40.0
+AudioDataset.n_examples: 1000
+AudioDataset.num_channels: 1
+AudioDataset.offset: null
+AudioDataset.shuffle_loaders: false
+AudioDataset.without_replacement: false
+AudioLoader.ext:
+- .wav
+- .flac
+- .mp3
+- .mp4
+AudioLoader.relative_path: /data/
+AudioLoader.shuffle: true
+AudioLoader.shuffle_state: 0
+AudioLoader.sources: null
+AudioLoader.weights: null
+BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+BackgroundNoise.loudness_cutoff: null
+BackgroundNoise.n_bands: 3
+BackgroundNoise.name: null
+BackgroundNoise.prob: 1.0
+BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+BackgroundNoise.sources: null
+BackgroundNoise.weights: null
+BaseTransform.keys: []
+BaseTransform.name: null
+BaseTransform.prob: 1.0
+ClippingDistortion.name: null
+ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+ClippingDistortion.prob: 1.0
+CorruptPhase.name: null
+CorruptPhase.prob: 1
+CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+CrossEntropyLoss.ignore_index: -100
+CrossEntropyLoss.label_smoothing: 0.1
+CrossEntropyLoss.reduce: null
+CrossEntropyLoss.reduction: mean
+CrossEntropyLoss.size_average: null
+CrossTalk.loudness_cutoff: -40
+CrossTalk.name: null
+CrossTalk.prob: 1.0
+CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+CrossTalk.sources: null
+CrossTalk.weights: null
+Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+Equalizer.n_bands: 6
+Equalizer.name: null
+Equalizer.prob: 1.0
+FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+FrequencyMask.name: null
+FrequencyMask.prob: 1
+FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+FrequencyNoise.name: null
+FrequencyNoise.prob: 1
+GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+GlobalVolumeNorm.name: null
+GlobalVolumeNorm.prob: 1.0
+HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+HighPass.name: null
+HighPass.prob: 1
+HighPass.zeros: 51
+InvertPhase.name: null
+InvertPhase.prob: 1
+LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+LowPass.name: null
+LowPass.prob: 1
+LowPass.zeros: 51
+MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+MaskLowMagnitudes.name: null
+MaskLowMagnitudes.prob: 1
+MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+MuLawQuantization.name: null
+MuLawQuantization.prob: 1.0
+NoamScheduler.d_model: 512
+NoamScheduler.factor: 2.0
+NoamScheduler.warmup: 500
+NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+NoiseFloor.name: null
+NoiseFloor.prob: 1.0
+Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+Quantization.name: null
+Quantization.prob: 1.0
+Repeat.n_repeat: 1
+Repeat.name: null
+Repeat.prob: 1.0
+RepeatUpTo.max_repeat: 5
+RepeatUpTo.name: null
+RepeatUpTo.prob: 1.0
+RepeatUpTo.weights: null
+RescaleAudio.name: null
+RescaleAudio.prob: 1
+RescaleAudio.val: 1.0
+RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+RoomImpulseResponse.duration: 1.0
+RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+RoomImpulseResponse.n_bands: 6
+RoomImpulseResponse.name: null
+RoomImpulseResponse.offset: 0.0
+RoomImpulseResponse.prob: 1.0
+RoomImpulseResponse.sources: null
+RoomImpulseResponse.use_original_phase: false
+RoomImpulseResponse.weights: null
+ShiftPhase.name: null
+ShiftPhase.prob: 1
+ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+Silence.name: null
+Silence.prob: 0.1
+Smoothing.name: null
+Smoothing.prob: 1
+Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+Smoothing.window_type: !!python/tuple
+- const
+- average
+SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+SpectralDenoising.n_bands: 6
+SpectralDenoising.n_freq: 3
+SpectralDenoising.n_time: 5
+SpectralDenoising.name: null
+SpectralDenoising.nz_volume: -40
+SpectralDenoising.prob: 1
+TimeMask.name: null
+TimeMask.prob: 1
+TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+TimeNoise.name: null
+TimeNoise.prob: 1
+TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+VampNet.dropout: 0.1
+VampNet.embedding_dim: 1280
+VampNet.flash_attn: false
+VampNet.latent_dim: 8
+VampNet.n_codebooks: 14
+VampNet.n_conditioning_codebooks: 4
+VampNet.n_heads: 20
+VampNet.n_layers: 16
+VampNet.noise_mode: mask
+VampNet.r_cond_dim: 0
+VampNet.vocab_size: 1024
+VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+VolumeChange.name: null
+VolumeChange.prob: 1.0
+VolumeNorm.db: !!python/tuple
+- const
+- -24
+VolumeNorm.name: null
+VolumeNorm.prob: 1.0
+amp: false
+args.debug: true
+args.load: conf/generated/knower/c2f.yml
+args.save: null
+batch_size: 6
+codec_ckpt: ./models/vampnet/codec.pth
+fine_tune: true
+fine_tune_checkpoint: ./models/vampnet/c2f.pth
+grad_clip_val: 5.0
+num_iters: 500000
+num_workers: 7
+resume: true
+sample_freq: 1000
+save_iters:
+- 10000
+- 20000
+- 30000
+- 40000
+- 50000
+save_path: ./runs/knower/c2f
+seed: 0
+tag: latest
+train/AudioDataset.aligned: false
+train/AudioDataset.duration: 3.0
+train/AudioDataset.loudness_cutoff: -40.0
+train/AudioDataset.n_examples: 100000000
+train/AudioDataset.num_channels: 1
+train/AudioDataset.offset: null
+train/AudioDataset.shuffle_loaders: false
+train/AudioDataset.without_replacement: false
+train/AudioLoader.sources:
+- /media/CHONK/hugo/knower
+train/BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+train/BackgroundNoise.loudness_cutoff: null
+train/BackgroundNoise.n_bands: 3
+train/BackgroundNoise.name: null
+train/BackgroundNoise.prob: 1.0
+train/BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+train/BackgroundNoise.sources: null
+train/BackgroundNoise.weights: null
+train/BaseTransform.keys: []
+train/BaseTransform.name: null
+train/BaseTransform.prob: 1.0
+train/ClippingDistortion.name: null
+train/ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+train/ClippingDistortion.prob: 1.0
+train/CorruptPhase.name: null
+train/CorruptPhase.prob: 1
+train/CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+train/CrossTalk.loudness_cutoff: -40
+train/CrossTalk.name: null
+train/CrossTalk.prob: 1.0
+train/CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+train/CrossTalk.sources: null
+train/CrossTalk.weights: null
+train/Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+train/Equalizer.n_bands: 6
+train/Equalizer.name: null
+train/Equalizer.prob: 1.0
+train/FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+train/FrequencyMask.name: null
+train/FrequencyMask.prob: 1
+train/FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+train/FrequencyNoise.name: null
+train/FrequencyNoise.prob: 1
+train/GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+train/GlobalVolumeNorm.name: null
+train/GlobalVolumeNorm.prob: 1.0
+train/HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+train/HighPass.name: null
+train/HighPass.prob: 1
+train/HighPass.zeros: 51
+train/InvertPhase.name: null
+train/InvertPhase.prob: 1
+train/LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+train/LowPass.name: null
+train/LowPass.prob: 1
+train/LowPass.zeros: 51
+train/MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+train/MaskLowMagnitudes.name: null
+train/MaskLowMagnitudes.prob: 1
+train/MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+train/MuLawQuantization.name: null
+train/MuLawQuantization.prob: 1.0
+train/NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+train/NoiseFloor.name: null
+train/NoiseFloor.prob: 1.0
+train/Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+train/Quantization.name: null
+train/Quantization.prob: 1.0
+train/Repeat.n_repeat: 1
+train/Repeat.name: null
+train/Repeat.prob: 1.0
+train/RepeatUpTo.max_repeat: 5
+train/RepeatUpTo.name: null
+train/RepeatUpTo.prob: 1.0
+train/RepeatUpTo.weights: null
+train/RescaleAudio.name: null
+train/RescaleAudio.prob: 1
+train/RescaleAudio.val: 1.0
+train/RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+train/RoomImpulseResponse.duration: 1.0
+train/RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+train/RoomImpulseResponse.n_bands: 6
+train/RoomImpulseResponse.name: null
+train/RoomImpulseResponse.offset: 0.0
+train/RoomImpulseResponse.prob: 1.0
+train/RoomImpulseResponse.sources: null
+train/RoomImpulseResponse.use_original_phase: false
+train/RoomImpulseResponse.weights: null
+train/ShiftPhase.name: null
+train/ShiftPhase.prob: 1
+train/ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+train/Silence.name: null
+train/Silence.prob: 0.1
+train/Smoothing.name: null
+train/Smoothing.prob: 1
+train/Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+train/Smoothing.window_type: !!python/tuple
+- const
+- average
+train/SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+train/SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+train/SpectralDenoising.n_bands: 6
+train/SpectralDenoising.n_freq: 3
+train/SpectralDenoising.n_time: 5
+train/SpectralDenoising.name: null
+train/SpectralDenoising.nz_volume: -40
+train/SpectralDenoising.prob: 1
+train/TimeMask.name: null
+train/TimeMask.prob: 1
+train/TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+train/TimeNoise.name: null
+train/TimeNoise.prob: 1
+train/TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+train/VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+train/VolumeChange.name: null
+train/VolumeChange.prob: 1.0
+train/VolumeNorm.db: !!python/tuple
+- const
+- -24
+train/VolumeNorm.name: null
+train/VolumeNorm.prob: 1.0
+val/AudioDataset.aligned: false
+val/AudioDataset.duration: 3.0
+val/AudioDataset.loudness_cutoff: -40.0
+val/AudioDataset.n_examples: 500
+val/AudioDataset.num_channels: 1
+val/AudioDataset.offset: null
+val/AudioDataset.shuffle_loaders: false
+val/AudioDataset.without_replacement: false
+val/AudioLoader.sources:
+- /media/CHONK/hugo/knower
+val/BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+val/BackgroundNoise.loudness_cutoff: null
+val/BackgroundNoise.n_bands: 3
+val/BackgroundNoise.name: null
+val/BackgroundNoise.prob: 1.0
+val/BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+val/BackgroundNoise.sources: null
+val/BackgroundNoise.weights: null
+val/BaseTransform.keys: []
+val/BaseTransform.name: null
+val/BaseTransform.prob: 1.0
+val/ClippingDistortion.name: null
+val/ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+val/ClippingDistortion.prob: 1.0
+val/CorruptPhase.name: null
+val/CorruptPhase.prob: 1
+val/CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+val/CrossTalk.loudness_cutoff: -40
+val/CrossTalk.name: null
+val/CrossTalk.prob: 1.0
+val/CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+val/CrossTalk.sources: null
+val/CrossTalk.weights: null
+val/Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+val/Equalizer.n_bands: 6
+val/Equalizer.name: null
+val/Equalizer.prob: 1.0
+val/FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+val/FrequencyMask.name: null
+val/FrequencyMask.prob: 1
+val/FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+val/FrequencyNoise.name: null
+val/FrequencyNoise.prob: 1
+val/GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+val/GlobalVolumeNorm.name: null
+val/GlobalVolumeNorm.prob: 1.0
+val/HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+val/HighPass.name: null
+val/HighPass.prob: 1
+val/HighPass.zeros: 51
+val/InvertPhase.name: null
+val/InvertPhase.prob: 1
+val/LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+val/LowPass.name: null
+val/LowPass.prob: 1
+val/LowPass.zeros: 51
+val/MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+val/MaskLowMagnitudes.name: null
+val/MaskLowMagnitudes.prob: 1
+val/MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+val/MuLawQuantization.name: null
+val/MuLawQuantization.prob: 1.0
+val/NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+val/NoiseFloor.name: null
+val/NoiseFloor.prob: 1.0
+val/Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+val/Quantization.name: null
+val/Quantization.prob: 1.0
+val/Repeat.n_repeat: 1
+val/Repeat.name: null
+val/Repeat.prob: 1.0
+val/RepeatUpTo.max_repeat: 5
+val/RepeatUpTo.name: null
+val/RepeatUpTo.prob: 1.0
+val/RepeatUpTo.weights: null
+val/RescaleAudio.name: null
+val/RescaleAudio.prob: 1
+val/RescaleAudio.val: 1.0
+val/RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+val/RoomImpulseResponse.duration: 1.0
+val/RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+val/RoomImpulseResponse.n_bands: 6
+val/RoomImpulseResponse.name: null
+val/RoomImpulseResponse.offset: 0.0
+val/RoomImpulseResponse.prob: 1.0
+val/RoomImpulseResponse.sources: null
+val/RoomImpulseResponse.use_original_phase: false
+val/RoomImpulseResponse.weights: null
+val/ShiftPhase.name: null
+val/ShiftPhase.prob: 1
+val/ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+val/Silence.name: null
+val/Silence.prob: 0.1
+val/Smoothing.name: null
+val/Smoothing.prob: 1
+val/Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+val/Smoothing.window_type: !!python/tuple
+- const
+- average
+val/SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+val/SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+val/SpectralDenoising.n_bands: 6
+val/SpectralDenoising.n_freq: 3
+val/SpectralDenoising.n_time: 5
+val/SpectralDenoising.name: null
+val/SpectralDenoising.nz_volume: -40
+val/SpectralDenoising.prob: 1
+val/TimeMask.name: null
+val/TimeMask.prob: 1
+val/TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+val/TimeNoise.name: null
+val/TimeNoise.prob: 1
+val/TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+val/VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+val/VolumeChange.name: null
+val/VolumeChange.prob: 1.0
+val/VolumeNorm.db: !!python/tuple
+- const
+- -24
+val/VolumeNorm.name: null
+val/VolumeNorm.prob: 1.0
+val_freq: 500
+val_idx:
+- 0
+- 1
+- 2
+- 3
+- 4
+- 5
+- 6
+- 7
+- 8
+- 9

runs/knower/c2f/best/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcf94cab2f8b30d063eb1c176b6e23ba41674d1db37183fc75250b09c536eec1
+size 1111127537

runs/knower/c2f/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34aaa7eeb26bf583637c5a1f4c7b7de23586ee60817bc9e87203442b5621699b
+size 1111127537

runs/knower/c2f/model.txt ADDED Viewed

	@@ -0,0 +1,76 @@

+OptimizedModule(
+   277.753M params.
+  (_orig_mod): VampNet(
+     277.753M params.
+    (embedding): CodebookEmbedding(
+       0.145M params.
+      (special): ParameterDict(  (MASK): Parameter containing: [torch.cuda.FloatTensor of size 14x8 (GPU 0)] 0.000M params.)
+      (out_proj): Conv1d(112, 1280, kernel_size=(1,), stride=(1,) 0.145M params.)
+    )
+    (transformer): TransformerStack(
+       264.481M params.
+      (layers): ModuleList(
+        (0): TransformerLayer(
+           16.531M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.616M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+            (relative_attention_bias): Embedding(32, 20 0.001M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+        (1-15): 15 x TransformerLayer(
+           16.530M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.615M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+      )
+      (norm): RMSNorm( 0.001M params.)
+    )
+    (classifier): SequentialWithFiLM(
+       13.128M params.
+      (layers): ModuleList(
+        (0): Conv1d(1280, 10240, kernel_size=(1,), stride=(1,), padding=same 13.128M params.)
+      )
+    )
+  )
+)

runs/knower/coarse/args.yml ADDED Viewed

	@@ -0,0 +1,824 @@

+AdamW.amsgrad: false
+AdamW.betas: !!python/tuple
+- 0.9
+- 0.999
+AdamW.capturable: false
+AdamW.differentiable: false
+AdamW.eps: 1.0e-08
+AdamW.lr: 0.0001
+AdamW.maximize: false
+AdamW.weight_decay: 0.01
+AudioDataset.aligned: false
+AudioDataset.duration: 10.0
+AudioDataset.loudness_cutoff: -30.0
+AudioDataset.n_examples: 1000
+AudioDataset.num_channels: 1
+AudioDataset.offset: null
+AudioDataset.shuffle_loaders: false
+AudioDataset.without_replacement: false
+AudioLoader.ext:
+- .wav
+- .flac
+- .mp3
+- .mp4
+AudioLoader.relative_path: /data/
+AudioLoader.shuffle: true
+AudioLoader.shuffle_state: 0
+AudioLoader.sources: null
+AudioLoader.weights: null
+BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+BackgroundNoise.loudness_cutoff: null
+BackgroundNoise.n_bands: 3
+BackgroundNoise.name: null
+BackgroundNoise.prob: 1.0
+BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+BackgroundNoise.sources: null
+BackgroundNoise.weights: null
+BaseTransform.keys: []
+BaseTransform.name: null
+BaseTransform.prob: 1.0
+ClippingDistortion.name: null
+ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+ClippingDistortion.prob: 1.0
+CorruptPhase.name: null
+CorruptPhase.prob: 1
+CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+CrossEntropyLoss.ignore_index: -100
+CrossEntropyLoss.label_smoothing: 0.1
+CrossEntropyLoss.reduce: null
+CrossEntropyLoss.reduction: mean
+CrossEntropyLoss.size_average: null
+CrossTalk.loudness_cutoff: -40
+CrossTalk.name: null
+CrossTalk.prob: 1.0
+CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+CrossTalk.sources: null
+CrossTalk.weights: null
+Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+Equalizer.n_bands: 6
+Equalizer.name: null
+Equalizer.prob: 1.0
+FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+FrequencyMask.name: null
+FrequencyMask.prob: 1
+FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+FrequencyNoise.name: null
+FrequencyNoise.prob: 1
+GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+GlobalVolumeNorm.name: null
+GlobalVolumeNorm.prob: 1.0
+HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+HighPass.name: null
+HighPass.prob: 1
+HighPass.zeros: 51
+InvertPhase.name: null
+InvertPhase.prob: 1
+LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+LowPass.name: null
+LowPass.prob: 1
+LowPass.zeros: 51
+MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+MaskLowMagnitudes.name: null
+MaskLowMagnitudes.prob: 1
+MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+MuLawQuantization.name: null
+MuLawQuantization.prob: 1.0
+NoamScheduler.d_model: 512
+NoamScheduler.factor: 2.0
+NoamScheduler.warmup: 500
+NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+NoiseFloor.name: null
+NoiseFloor.prob: 1.0
+Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+Quantization.name: null
+Quantization.prob: 1.0
+Repeat.n_repeat: 1
+Repeat.name: null
+Repeat.prob: 1.0
+RepeatUpTo.max_repeat: 5
+RepeatUpTo.name: null
+RepeatUpTo.prob: 1.0
+RepeatUpTo.weights: null
+RescaleAudio.name: null
+RescaleAudio.prob: 1
+RescaleAudio.val: 1.0
+RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+RoomImpulseResponse.duration: 1.0
+RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+RoomImpulseResponse.n_bands: 6
+RoomImpulseResponse.name: null
+RoomImpulseResponse.offset: 0.0
+RoomImpulseResponse.prob: 1.0
+RoomImpulseResponse.sources: null
+RoomImpulseResponse.use_original_phase: false
+RoomImpulseResponse.weights: null
+ShiftPhase.name: null
+ShiftPhase.prob: 1
+ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+Silence.name: null
+Silence.prob: 0.1
+Smoothing.name: null
+Smoothing.prob: 1
+Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+Smoothing.window_type: !!python/tuple
+- const
+- average
+SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+SpectralDenoising.n_bands: 6
+SpectralDenoising.n_freq: 3
+SpectralDenoising.n_time: 5
+SpectralDenoising.name: null
+SpectralDenoising.nz_volume: -40
+SpectralDenoising.prob: 1
+TimeMask.name: null
+TimeMask.prob: 1
+TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+TimeNoise.name: null
+TimeNoise.prob: 1
+TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+VampNet.dropout: 0.1
+VampNet.embedding_dim: 1280
+VampNet.flash_attn: false
+VampNet.latent_dim: 8
+VampNet.n_codebooks: 4
+VampNet.n_conditioning_codebooks: 0
+VampNet.n_heads: 20
+VampNet.n_layers: 20
+VampNet.noise_mode: mask
+VampNet.r_cond_dim: 0
+VampNet.vocab_size: 1024
+VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+VolumeChange.name: null
+VolumeChange.prob: 1.0
+VolumeNorm.db: !!python/tuple
+- const
+- -24
+VolumeNorm.name: null
+VolumeNorm.prob: 1.0
+amp: false
+args.debug: true
+args.load: conf/generated/knower/coarse.yml
+args.save: null
+batch_size: 6
+codec_ckpt: ./models/vampnet/codec.pth
+fine_tune: true
+fine_tune_checkpoint: ./models/vampnet/coarse.pth
+grad_clip_val: 5.0
+num_iters: 500000
+num_workers: 7
+resume: true
+sample_freq: 1000
+save_iters:
+- 10000
+- 20000
+- 30000
+- 40000
+- 50000
+save_path: ./runs/knower/coarse
+seed: 0
+tag: latest
+train/AudioDataset.aligned: false
+train/AudioDataset.duration: 10.0
+train/AudioDataset.loudness_cutoff: -30.0
+train/AudioDataset.n_examples: 100000000
+train/AudioDataset.num_channels: 1
+train/AudioDataset.offset: null
+train/AudioDataset.shuffle_loaders: false
+train/AudioDataset.without_replacement: false
+train/AudioLoader.sources:
+- /media/CHONK/hugo/knower
+train/BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+train/BackgroundNoise.loudness_cutoff: null
+train/BackgroundNoise.n_bands: 3
+train/BackgroundNoise.name: null
+train/BackgroundNoise.prob: 1.0
+train/BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+train/BackgroundNoise.sources: null
+train/BackgroundNoise.weights: null
+train/BaseTransform.keys: []
+train/BaseTransform.name: null
+train/BaseTransform.prob: 1.0
+train/ClippingDistortion.name: null
+train/ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+train/ClippingDistortion.prob: 1.0
+train/CorruptPhase.name: null
+train/CorruptPhase.prob: 1
+train/CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+train/CrossTalk.loudness_cutoff: -40
+train/CrossTalk.name: null
+train/CrossTalk.prob: 1.0
+train/CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+train/CrossTalk.sources: null
+train/CrossTalk.weights: null
+train/Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+train/Equalizer.n_bands: 6
+train/Equalizer.name: null
+train/Equalizer.prob: 1.0
+train/FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+train/FrequencyMask.name: null
+train/FrequencyMask.prob: 1
+train/FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+train/FrequencyNoise.name: null
+train/FrequencyNoise.prob: 1
+train/GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+train/GlobalVolumeNorm.name: null
+train/GlobalVolumeNorm.prob: 1.0
+train/HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+train/HighPass.name: null
+train/HighPass.prob: 1
+train/HighPass.zeros: 51
+train/InvertPhase.name: null
+train/InvertPhase.prob: 1
+train/LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+train/LowPass.name: null
+train/LowPass.prob: 1
+train/LowPass.zeros: 51
+train/MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+train/MaskLowMagnitudes.name: null
+train/MaskLowMagnitudes.prob: 1
+train/MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+train/MuLawQuantization.name: null
+train/MuLawQuantization.prob: 1.0
+train/NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+train/NoiseFloor.name: null
+train/NoiseFloor.prob: 1.0
+train/Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+train/Quantization.name: null
+train/Quantization.prob: 1.0
+train/Repeat.n_repeat: 1
+train/Repeat.name: null
+train/Repeat.prob: 1.0
+train/RepeatUpTo.max_repeat: 5
+train/RepeatUpTo.name: null
+train/RepeatUpTo.prob: 1.0
+train/RepeatUpTo.weights: null
+train/RescaleAudio.name: null
+train/RescaleAudio.prob: 1
+train/RescaleAudio.val: 1.0
+train/RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+train/RoomImpulseResponse.duration: 1.0
+train/RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+train/RoomImpulseResponse.n_bands: 6
+train/RoomImpulseResponse.name: null
+train/RoomImpulseResponse.offset: 0.0
+train/RoomImpulseResponse.prob: 1.0
+train/RoomImpulseResponse.sources: null
+train/RoomImpulseResponse.use_original_phase: false
+train/RoomImpulseResponse.weights: null
+train/ShiftPhase.name: null
+train/ShiftPhase.prob: 1
+train/ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+train/Silence.name: null
+train/Silence.prob: 0.1
+train/Smoothing.name: null
+train/Smoothing.prob: 1
+train/Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+train/Smoothing.window_type: !!python/tuple
+- const
+- average
+train/SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+train/SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+train/SpectralDenoising.n_bands: 6
+train/SpectralDenoising.n_freq: 3
+train/SpectralDenoising.n_time: 5
+train/SpectralDenoising.name: null
+train/SpectralDenoising.nz_volume: -40
+train/SpectralDenoising.prob: 1
+train/TimeMask.name: null
+train/TimeMask.prob: 1
+train/TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+train/TimeNoise.name: null
+train/TimeNoise.prob: 1
+train/TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+train/VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+train/VolumeChange.name: null
+train/VolumeChange.prob: 1.0
+train/VolumeNorm.db: !!python/tuple
+- const
+- -24
+train/VolumeNorm.name: null
+train/VolumeNorm.prob: 1.0
+val/AudioDataset.aligned: false
+val/AudioDataset.duration: 10.0
+val/AudioDataset.loudness_cutoff: -30.0
+val/AudioDataset.n_examples: 500
+val/AudioDataset.num_channels: 1
+val/AudioDataset.offset: null
+val/AudioDataset.shuffle_loaders: false
+val/AudioDataset.without_replacement: false
+val/AudioLoader.sources:
+- /media/CHONK/hugo/knower
+val/BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+val/BackgroundNoise.loudness_cutoff: null
+val/BackgroundNoise.n_bands: 3
+val/BackgroundNoise.name: null
+val/BackgroundNoise.prob: 1.0
+val/BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+val/BackgroundNoise.sources: null
+val/BackgroundNoise.weights: null
+val/BaseTransform.keys: []
+val/BaseTransform.name: null
+val/BaseTransform.prob: 1.0
+val/ClippingDistortion.name: null
+val/ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+val/ClippingDistortion.prob: 1.0
+val/CorruptPhase.name: null
+val/CorruptPhase.prob: 1
+val/CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+val/CrossTalk.loudness_cutoff: -40
+val/CrossTalk.name: null
+val/CrossTalk.prob: 1.0
+val/CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+val/CrossTalk.sources: null
+val/CrossTalk.weights: null
+val/Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+val/Equalizer.n_bands: 6
+val/Equalizer.name: null
+val/Equalizer.prob: 1.0
+val/FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+val/FrequencyMask.name: null
+val/FrequencyMask.prob: 1
+val/FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+val/FrequencyNoise.name: null
+val/FrequencyNoise.prob: 1
+val/GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+val/GlobalVolumeNorm.name: null
+val/GlobalVolumeNorm.prob: 1.0
+val/HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+val/HighPass.name: null
+val/HighPass.prob: 1
+val/HighPass.zeros: 51
+val/InvertPhase.name: null
+val/InvertPhase.prob: 1
+val/LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+val/LowPass.name: null
+val/LowPass.prob: 1
+val/LowPass.zeros: 51
+val/MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+val/MaskLowMagnitudes.name: null
+val/MaskLowMagnitudes.prob: 1
+val/MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+val/MuLawQuantization.name: null
+val/MuLawQuantization.prob: 1.0
+val/NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+val/NoiseFloor.name: null
+val/NoiseFloor.prob: 1.0
+val/Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+val/Quantization.name: null
+val/Quantization.prob: 1.0
+val/Repeat.n_repeat: 1
+val/Repeat.name: null
+val/Repeat.prob: 1.0
+val/RepeatUpTo.max_repeat: 5
+val/RepeatUpTo.name: null
+val/RepeatUpTo.prob: 1.0
+val/RepeatUpTo.weights: null
+val/RescaleAudio.name: null
+val/RescaleAudio.prob: 1
+val/RescaleAudio.val: 1.0
+val/RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+val/RoomImpulseResponse.duration: 1.0
+val/RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+val/RoomImpulseResponse.n_bands: 6
+val/RoomImpulseResponse.name: null
+val/RoomImpulseResponse.offset: 0.0
+val/RoomImpulseResponse.prob: 1.0
+val/RoomImpulseResponse.sources: null
+val/RoomImpulseResponse.use_original_phase: false
+val/RoomImpulseResponse.weights: null
+val/ShiftPhase.name: null
+val/ShiftPhase.prob: 1
+val/ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+val/Silence.name: null
+val/Silence.prob: 0.1
+val/Smoothing.name: null
+val/Smoothing.prob: 1
+val/Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+val/Smoothing.window_type: !!python/tuple
+- const
+- average
+val/SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+val/SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+val/SpectralDenoising.n_bands: 6
+val/SpectralDenoising.n_freq: 3
+val/SpectralDenoising.n_time: 5
+val/SpectralDenoising.name: null
+val/SpectralDenoising.nz_volume: -40
+val/SpectralDenoising.prob: 1
+val/TimeMask.name: null
+val/TimeMask.prob: 1
+val/TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+val/TimeNoise.name: null
+val/TimeNoise.prob: 1
+val/TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+val/VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+val/VolumeChange.name: null
+val/VolumeChange.prob: 1.0
+val/VolumeNorm.db: !!python/tuple
+- const
+- -24
+val/VolumeNorm.name: null
+val/VolumeNorm.prob: 1.0
+val_freq: 500
+val_idx:
+- 0
+- 1
+- 2
+- 3
+- 4
+- 5
+- 6
+- 7
+- 8
+- 9

runs/knower/coarse/best/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cdf46139e0a9b6ff93f954f037a05f8dfcd574180ed1732d61abbe3c75c696b4
+size 1343718241

runs/knower/coarse/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e11462551537ffe62fd3c579473ffe5da73d0149d9a956d8e3448ada9a8b85c0
+size 1343718241

runs/knower/coarse/model.txt ADDED Viewed

	@@ -0,0 +1,76 @@

+OptimizedModule(
+   335.894M params.
+  (_orig_mod): VampNet(
+     335.894M params.
+    (embedding): CodebookEmbedding(
+       0.042M params.
+      (special): ParameterDict(  (MASK): Parameter containing: [torch.cuda.FloatTensor of size 4x8 (GPU 0)] 0.000M params.)
+      (out_proj): Conv1d(32, 1280, kernel_size=(1,), stride=(1,) 0.042M params.)
+    )
+    (transformer): TransformerStack(
+       330.600M params.
+      (layers): ModuleList(
+        (0): TransformerLayer(
+           16.531M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.616M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+            (relative_attention_bias): Embedding(32, 20 0.001M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+        (1-19): 19 x TransformerLayer(
+           16.530M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.615M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+      )
+      (norm): RMSNorm( 0.001M params.)
+    )
+    (classifier): SequentialWithFiLM(
+       5.251M params.
+      (layers): ModuleList(
+        (0): Conv1d(1280, 4096, kernel_size=(1,), stride=(1,), padding=same 5.251M params.)
+      )
+    )
+  )
+)

runs/n64/c2f/args.yml ADDED Viewed

	@@ -0,0 +1,129 @@

+AdamW.amsgrad: false
+AdamW.betas: !!python/tuple
+- 0.9
+- 0.999
+AdamW.capturable: false
+AdamW.differentiable: false
+AdamW.eps: 1.0e-08
+AdamW.lr: 0.0001
+AdamW.maximize: false
+AdamW.weight_decay: 0.01
+AudioDataset.aligned: false
+AudioDataset.duration: 3.0
+AudioDataset.loudness_cutoff: -40.0
+AudioDataset.n_examples: 1000
+AudioDataset.num_channels: 1
+AudioDataset.offset: null
+AudioDataset.shuffle_loaders: false
+AudioDataset.without_replacement: false
+AudioLoader.ext:
+- .wav
+- .flac
+- .mp3
+- .mp4
+AudioLoader.relative_path: ''
+AudioLoader.shuffle: true
+AudioLoader.shuffle_state: 0
+AudioLoader.sources: null
+AudioLoader.weights: null
+CrossEntropyLoss.ignore_index: -100
+CrossEntropyLoss.label_smoothing: 0.1
+CrossEntropyLoss.reduce: null
+CrossEntropyLoss.reduction: mean
+CrossEntropyLoss.size_average: null
+NoamScheduler.d_model: 512
+NoamScheduler.factor: 2.0
+NoamScheduler.warmup: 500
+VampNet.dropout: 0.1
+VampNet.embedding_dim: 1280
+VampNet.flash_attn: false
+VampNet.latent_dim: 8
+VampNet.n_codebooks: 14
+VampNet.n_conditioning_codebooks: 4
+VampNet.n_heads: 20
+VampNet.n_layers: 16
+VampNet.noise_mode: mask
+VampNet.r_cond_dim: 0
+VampNet.vocab_size: 1024
+amp: false
+args.debug: true
+args.load: conf/generated/n64/c2f.yml
+args.save: null
+batch_size: 6
+codec_ckpt: ./models/vampnet/codec.pth
+fine_tune: true
+fine_tune_checkpoint: ./models/vampnet/c2f.pth
+grad_clip_val: 5.0
+num_iters: 500000
+num_workers: 7
+resume: false
+sample_freq: 2000
+save_iters:
+- 2000
+- 4000
+- 10000
+- 20000
+- 40000
+- 100000
+save_path: ./runs/n64/c2f
+seed: 0
+tag: latest
+train/AudioDataset.aligned: false
+train/AudioDataset.duration: 3.0
+train/AudioDataset.loudness_cutoff: -40.0
+train/AudioDataset.n_examples: 100000000
+train/AudioDataset.num_channels: 1
+train/AudioDataset.offset: null
+train/AudioDataset.shuffle_loaders: false
+train/AudioDataset.without_replacement: false
+train/AudioLoader.sources:
+- data/salad-bowl/n64-jungle/n64-jungle-mix.wav
+val/AudioDataset.aligned: false
+val/AudioDataset.duration: 3.0
+val/AudioDataset.loudness_cutoff: -40.0
+val/AudioDataset.n_examples: 500
+val/AudioDataset.num_channels: 1
+val/AudioDataset.offset: null
+val/AudioDataset.shuffle_loaders: false
+val/AudioDataset.without_replacement: false
+val/AudioLoader.sources:
+- data/salad-bowl/n64-jungle/n64-jungle-mix.wav
+val_freq: 1000
+val_idx:
+- 0
+- 1
+- 2
+- 3
+- 4
+- 5
+- 6
+- 7
+- 8
+- 9

runs/n64/c2f/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6af65912cdf28c67af5a6bb146270f2f6e3a66f8ef831d6387b282796099eb9e
+size 1111127537

runs/n64/c2f/model.txt ADDED Viewed

	@@ -0,0 +1,76 @@

+OptimizedModule(
+   277.753M params.
+  (_orig_mod): VampNet(
+     277.753M params.
+    (embedding): CodebookEmbedding(
+       0.145M params.
+      (special): ParameterDict(  (MASK): Parameter containing: [torch.cuda.FloatTensor of size 14x8 (GPU 0)] 0.000M params.)
+      (out_proj): Conv1d(112, 1280, kernel_size=(1,), stride=(1,) 0.145M params.)
+    )
+    (transformer): TransformerStack(
+       264.481M params.
+      (layers): ModuleList(
+        (0): TransformerLayer(
+           16.531M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.616M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+            (relative_attention_bias): Embedding(32, 20 0.001M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+        (1-15): 15 x TransformerLayer(
+           16.530M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.615M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+      )
+      (norm): RMSNorm( 0.001M params.)
+    )
+    (classifier): SequentialWithFiLM(
+       13.128M params.
+      (layers): ModuleList(
+        (0): Conv1d(1280, 10240, kernel_size=(1,), stride=(1,), padding=same 13.128M params.)
+      )
+    )
+  )
+)

runs/n64/coarse/args.yml ADDED Viewed

	@@ -0,0 +1,129 @@

+AdamW.amsgrad: false
+AdamW.betas: !!python/tuple
+- 0.9
+- 0.999
+AdamW.capturable: false
+AdamW.differentiable: false
+AdamW.eps: 1.0e-08
+AdamW.lr: 0.0001
+AdamW.maximize: false
+AdamW.weight_decay: 0.01
+AudioDataset.aligned: false
+AudioDataset.duration: 10.0
+AudioDataset.loudness_cutoff: -30.0
+AudioDataset.n_examples: 1000
+AudioDataset.num_channels: 1
+AudioDataset.offset: null
+AudioDataset.shuffle_loaders: false
+AudioDataset.without_replacement: false
+AudioLoader.ext:
+- .wav
+- .flac
+- .mp3
+- .mp4
+AudioLoader.relative_path: ''
+AudioLoader.shuffle: true
+AudioLoader.shuffle_state: 0
+AudioLoader.sources: null
+AudioLoader.weights: null
+CrossEntropyLoss.ignore_index: -100
+CrossEntropyLoss.label_smoothing: 0.1
+CrossEntropyLoss.reduce: null
+CrossEntropyLoss.reduction: mean
+CrossEntropyLoss.size_average: null
+NoamScheduler.d_model: 512
+NoamScheduler.factor: 2.0
+NoamScheduler.warmup: 500
+VampNet.dropout: 0.1
+VampNet.embedding_dim: 1280
+VampNet.flash_attn: false
+VampNet.latent_dim: 8
+VampNet.n_codebooks: 4
+VampNet.n_conditioning_codebooks: 0
+VampNet.n_heads: 20
+VampNet.n_layers: 20
+VampNet.noise_mode: mask
+VampNet.r_cond_dim: 0
+VampNet.vocab_size: 1024
+amp: false
+args.debug: true
+args.load: conf/generated/n64/coarse.yml
+args.save: null
+batch_size: 6
+codec_ckpt: ./models/vampnet/codec.pth
+fine_tune: true
+fine_tune_checkpoint: ./models/vampnet/coarse.pth
+grad_clip_val: 5.0
+num_iters: 500000
+num_workers: 7
+resume: false
+sample_freq: 2000
+save_iters:
+- 2000
+- 4000
+- 10000
+- 20000
+- 40000
+- 100000
+save_path: ./runs/n64/coarse
+seed: 0
+tag: latest
+train/AudioDataset.aligned: false
+train/AudioDataset.duration: 10.0
+train/AudioDataset.loudness_cutoff: -30.0
+train/AudioDataset.n_examples: 100000000
+train/AudioDataset.num_channels: 1
+train/AudioDataset.offset: null
+train/AudioDataset.shuffle_loaders: false
+train/AudioDataset.without_replacement: false
+train/AudioLoader.sources:
+- data/salad-bowl/n64-jungle/n64-jungle-mix.wav
+val/AudioDataset.aligned: false
+val/AudioDataset.duration: 10.0
+val/AudioDataset.loudness_cutoff: -30.0
+val/AudioDataset.n_examples: 500
+val/AudioDataset.num_channels: 1
+val/AudioDataset.offset: null
+val/AudioDataset.shuffle_loaders: false
+val/AudioDataset.without_replacement: false
+val/AudioLoader.sources:
+- data/salad-bowl/n64-jungle/n64-jungle-mix.wav
+val_freq: 1000
+val_idx:
+- 0
+- 1
+- 2
+- 3
+- 4
+- 5
+- 6
+- 7
+- 8
+- 9

runs/n64/coarse/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d2d95c5ac4b80d62cffaf6e054f47b16fdef156ef567db6a6499faf801e67ab
+size 1343718241

runs/n64/coarse/model.txt ADDED Viewed

	@@ -0,0 +1,76 @@

+OptimizedModule(
+   335.894M params.
+  (_orig_mod): VampNet(
+     335.894M params.
+    (embedding): CodebookEmbedding(
+       0.042M params.
+      (special): ParameterDict(  (MASK): Parameter containing: [torch.cuda.FloatTensor of size 4x8 (GPU 0)] 0.000M params.)
+      (out_proj): Conv1d(32, 1280, kernel_size=(1,), stride=(1,) 0.042M params.)
+    )
+    (transformer): TransformerStack(
+       330.600M params.
+      (layers): ModuleList(
+        (0): TransformerLayer(
+           16.531M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.616M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+            (relative_attention_bias): Embedding(32, 20 0.001M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+        (1-19): 19 x TransformerLayer(
+           16.530M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.615M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+      )
+      (norm): RMSNorm( 0.001M params.)
+    )
+    (classifier): SequentialWithFiLM(
+       5.251M params.
+      (layers): ModuleList(
+        (0): Conv1d(1280, 4096, kernel_size=(1,), stride=(1,), padding=same 5.251M params.)
+      )
+    )
+  )
+)

runs/n64/n64/c2f/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6af65912cdf28c67af5a6bb146270f2f6e3a66f8ef831d6387b282796099eb9e
+size 1111127537

runs/n64/n64/coarse/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d2d95c5ac4b80d62cffaf6e054f47b16fdef156ef567db6a6499faf801e67ab
+size 1343718241

runs/opera/coarse/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7cc5874ba4b168b002ea4219b75552cdacef27a7d1077c025bf7b197e464b1ba
+size 1343718241

runs/orchestral/c2f/args.yml ADDED Viewed

	@@ -0,0 +1,129 @@

+AdamW.amsgrad: false
+AdamW.betas: !!python/tuple
+- 0.9
+- 0.999
+AdamW.capturable: false
+AdamW.differentiable: false
+AdamW.eps: 1.0e-08
+AdamW.lr: 0.0001
+AdamW.maximize: false
+AdamW.weight_decay: 0.01
+AudioDataset.aligned: false
+AudioDataset.duration: 3.0
+AudioDataset.loudness_cutoff: -40.0
+AudioDataset.n_examples: 1000
+AudioDataset.num_channels: 1
+AudioDataset.offset: null
+AudioDataset.shuffle_loaders: false
+AudioDataset.without_replacement: false
+AudioLoader.ext:
+- .wav
+- .flac
+- .mp3
+- .mp4
+AudioLoader.relative_path: ''
+AudioLoader.shuffle: true
+AudioLoader.shuffle_state: 0
+AudioLoader.sources: null
+AudioLoader.weights: null
+CrossEntropyLoss.ignore_index: -100
+CrossEntropyLoss.label_smoothing: 0.1
+CrossEntropyLoss.reduce: null
+CrossEntropyLoss.reduction: mean
+CrossEntropyLoss.size_average: null
+NoamScheduler.d_model: 512
+NoamScheduler.factor: 2.0
+NoamScheduler.warmup: 500
+VampNet.dropout: 0.1
+VampNet.embedding_dim: 1280
+VampNet.flash_attn: false
+VampNet.latent_dim: 8
+VampNet.n_codebooks: 14
+VampNet.n_conditioning_codebooks: 4
+VampNet.n_heads: 20
+VampNet.n_layers: 16
+VampNet.noise_mode: mask
+VampNet.r_cond_dim: 0
+VampNet.vocab_size: 1024
+amp: false
+args.debug: true
+args.load: conf/generated/orchestral/c2f.yml
+args.save: null
+batch_size: 6
+codec_ckpt: ./models/vampnet/codec.pth
+fine_tune: true
+fine_tune_checkpoint: ./models/vampnet/c2f.pth
+grad_clip_val: 5.0
+num_iters: 500000
+num_workers: 7
+resume: false
+sample_freq: 2000
+save_iters:
+- 2000
+- 4000
+- 10000
+- 20000
+- 40000
+- 100000
+save_path: ./runs/orchestral/c2f
+seed: 0
+tag: latest
+train/AudioDataset.aligned: false
+train/AudioDataset.duration: 3.0
+train/AudioDataset.loudness_cutoff: -40.0
+train/AudioDataset.n_examples: 100000000
+train/AudioDataset.num_channels: 1
+train/AudioDataset.offset: null
+train/AudioDataset.shuffle_loaders: false
+train/AudioDataset.without_replacement: false
+train/AudioLoader.sources:
+- /media/CHONK/hugo/loras/salad-bowl/chicago-symphony-orchestra/
+val/AudioDataset.aligned: false
+val/AudioDataset.duration: 3.0
+val/AudioDataset.loudness_cutoff: -40.0
+val/AudioDataset.n_examples: 500
+val/AudioDataset.num_channels: 1
+val/AudioDataset.offset: null
+val/AudioDataset.shuffle_loaders: false
+val/AudioDataset.without_replacement: false
+val/AudioLoader.sources:
+- /media/CHONK/hugo/loras/salad-bowl/chicago-symphony-orchestra/
+val_freq: 1000
+val_idx:
+- 0
+- 1
+- 2
+- 3
+- 4
+- 5
+- 6
+- 7
+- 8
+- 9

runs/orchestral/c2f/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58a0e9cb777bc5a91835a48e77510d18a049295eab3ff7f23537581c6b3d390f
+size 1111127537

runs/orchestral/c2f/model.txt ADDED Viewed

	@@ -0,0 +1,76 @@

+OptimizedModule(
+   277.753M params.
+  (_orig_mod): VampNet(
+     277.753M params.
+    (embedding): CodebookEmbedding(
+       0.145M params.
+      (special): ParameterDict(  (MASK): Parameter containing: [torch.cuda.FloatTensor of size 14x8 (GPU 0)] 0.000M params.)
+      (out_proj): Conv1d(112, 1280, kernel_size=(1,), stride=(1,) 0.145M params.)
+    )
+    (transformer): TransformerStack(
+       264.481M params.
+      (layers): ModuleList(
+        (0): TransformerLayer(
+           16.531M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.616M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+            (relative_attention_bias): Embedding(32, 20 0.001M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+        (1-15): 15 x TransformerLayer(
+           16.530M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.615M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+      )
+      (norm): RMSNorm( 0.001M params.)
+    )
+    (classifier): SequentialWithFiLM(
+       13.128M params.
+      (layers): ModuleList(
+        (0): Conv1d(1280, 10240, kernel_size=(1,), stride=(1,), padding=same 13.128M params.)
+      )
+    )
+  )
+)

runs/orchestral/coarse/args.yml ADDED Viewed

	@@ -0,0 +1,129 @@

+AdamW.amsgrad: false
+AdamW.betas: !!python/tuple
+- 0.9
+- 0.999
+AdamW.capturable: false
+AdamW.differentiable: false
+AdamW.eps: 1.0e-08
+AdamW.lr: 0.0001
+AdamW.maximize: false
+AdamW.weight_decay: 0.01
+AudioDataset.aligned: false
+AudioDataset.duration: 10.0
+AudioDataset.loudness_cutoff: -30.0
+AudioDataset.n_examples: 1000
+AudioDataset.num_channels: 1
+AudioDataset.offset: null
+AudioDataset.shuffle_loaders: false
+AudioDataset.without_replacement: false
+AudioLoader.ext:
+- .wav
+- .flac
+- .mp3
+- .mp4
+AudioLoader.relative_path: ''
+AudioLoader.shuffle: true
+AudioLoader.shuffle_state: 0
+AudioLoader.sources: null
+AudioLoader.weights: null
+CrossEntropyLoss.ignore_index: -100
+CrossEntropyLoss.label_smoothing: 0.1
+CrossEntropyLoss.reduce: null
+CrossEntropyLoss.reduction: mean
+CrossEntropyLoss.size_average: null
+NoamScheduler.d_model: 512
+NoamScheduler.factor: 2.0
+NoamScheduler.warmup: 500
+VampNet.dropout: 0.1
+VampNet.embedding_dim: 1280
+VampNet.flash_attn: false
+VampNet.latent_dim: 8
+VampNet.n_codebooks: 4
+VampNet.n_conditioning_codebooks: 0
+VampNet.n_heads: 20
+VampNet.n_layers: 20
+VampNet.noise_mode: mask
+VampNet.r_cond_dim: 0
+VampNet.vocab_size: 1024
+amp: false
+args.debug: true
+args.load: conf/generated/orchestral/coarse.yml
+args.save: null
+batch_size: 6
+codec_ckpt: ./models/vampnet/codec.pth
+fine_tune: true
+fine_tune_checkpoint: ./models/vampnet/coarse.pth
+grad_clip_val: 5.0
+num_iters: 500000
+num_workers: 7
+resume: false
+sample_freq: 2000
+save_iters:
+- 2000
+- 4000
+- 10000
+- 20000
+- 40000
+- 100000
+save_path: ./runs/orchestral/coarse
+seed: 0
+tag: latest
+train/AudioDataset.aligned: false
+train/AudioDataset.duration: 10.0
+train/AudioDataset.loudness_cutoff: -30.0
+train/AudioDataset.n_examples: 100000000
+train/AudioDataset.num_channels: 1
+train/AudioDataset.offset: null
+train/AudioDataset.shuffle_loaders: false
+train/AudioDataset.without_replacement: false
+train/AudioLoader.sources:
+- /media/CHONK/hugo/loras/salad-bowl/chicago-symphony-orchestra/
+val/AudioDataset.aligned: false
+val/AudioDataset.duration: 10.0
+val/AudioDataset.loudness_cutoff: -30.0
+val/AudioDataset.n_examples: 500
+val/AudioDataset.num_channels: 1
+val/AudioDataset.offset: null
+val/AudioDataset.shuffle_loaders: false
+val/AudioDataset.without_replacement: false
+val/AudioLoader.sources:
+- /media/CHONK/hugo/loras/salad-bowl/chicago-symphony-orchestra/
+val_freq: 1000
+val_idx:
+- 0
+- 1
+- 2
+- 3
+- 4
+- 5
+- 6
+- 7
+- 8
+- 9

runs/orchestral/coarse/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19699c048342df79196a2f558e66038561068b0d4790080990906194652b58bf
+size 1343718241

runs/orchestral/coarse/model.txt ADDED Viewed

	@@ -0,0 +1,76 @@

+OptimizedModule(
+   335.894M params.
+  (_orig_mod): VampNet(
+     335.894M params.
+    (embedding): CodebookEmbedding(
+       0.042M params.
+      (special): ParameterDict(  (MASK): Parameter containing: [torch.cuda.FloatTensor of size 4x8 (GPU 0)] 0.000M params.)
+      (out_proj): Conv1d(32, 1280, kernel_size=(1,), stride=(1,) 0.042M params.)
+    )
+    (transformer): TransformerStack(
+       330.600M params.
+      (layers): ModuleList(
+        (0): TransformerLayer(
+           16.531M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.616M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+            (relative_attention_bias): Embedding(32, 20 0.001M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+        (1-19): 19 x TransformerLayer(
+           16.530M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.615M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+      )
+      (norm): RMSNorm( 0.001M params.)
+    )
+    (classifier): SequentialWithFiLM(
+       5.251M params.
+      (layers): ModuleList(
+        (0): Conv1d(1280, 4096, kernel_size=(1,), stride=(1,), padding=same 5.251M params.)
+      )
+    )
+  )
+)

runs/soundrangers-v2-v1/c2f/args.yml ADDED Viewed

	@@ -0,0 +1,851 @@

+AdamW.amsgrad: false
+AdamW.betas: !!python/tuple
+- 0.9
+- 0.999
+AdamW.capturable: false
+AdamW.differentiable: false
+AdamW.eps: 1.0e-08
+AdamW.lr: 0.0001
+AdamW.maximize: false
+AdamW.weight_decay: 0.01
+AudioDataset.aligned: false
+AudioDataset.duration: 3.0
+AudioDataset.loudness_cutoff: -40.0
+AudioDataset.n_examples: 1000
+AudioDataset.num_channels: 1
+AudioDataset.offset: null
+AudioDataset.shuffle_loaders: false
+AudioDataset.without_replacement: false
+AudioLoader.ext:
+- .wav
+- .flac
+- .mp3
+- .mp4
+AudioLoader.relative_path: ''
+AudioLoader.shuffle: true
+AudioLoader.shuffle_state: 0
+AudioLoader.sources: null
+AudioLoader.weights: null
+BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+BackgroundNoise.loudness_cutoff: null
+BackgroundNoise.n_bands: 3
+BackgroundNoise.name: null
+BackgroundNoise.prob: 1.0
+BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+BackgroundNoise.sources: null
+BackgroundNoise.weights: null
+BaseTransform.keys: []
+BaseTransform.name: null
+BaseTransform.prob: 1.0
+ClippingDistortion.name: null
+ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+ClippingDistortion.prob: 1.0
+CorruptPhase.name: null
+CorruptPhase.prob: 1
+CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+CrossEntropyLoss.ignore_index: -100
+CrossEntropyLoss.label_smoothing: 0.1
+CrossEntropyLoss.reduce: null
+CrossEntropyLoss.reduction: mean
+CrossEntropyLoss.size_average: null
+CrossTalk.loudness_cutoff: -40
+CrossTalk.name: null
+CrossTalk.prob: 1.0
+CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+CrossTalk.sources: null
+CrossTalk.weights: null
+Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+Equalizer.n_bands: 6
+Equalizer.name: null
+Equalizer.prob: 1.0
+FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+FrequencyMask.name: null
+FrequencyMask.prob: 1
+FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+FrequencyNoise.name: null
+FrequencyNoise.prob: 1
+GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+GlobalVolumeNorm.name: null
+GlobalVolumeNorm.prob: 1.0
+HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+HighPass.name: null
+HighPass.prob: 1
+HighPass.zeros: 51
+InvertPhase.name: null
+InvertPhase.prob: 1
+LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+LowPass.name: null
+LowPass.prob: 1
+LowPass.zeros: 51
+MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+MaskLowMagnitudes.name: null
+MaskLowMagnitudes.prob: 1
+MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+MuLawQuantization.name: null
+MuLawQuantization.prob: 1.0
+NoamScheduler.d_model: 512
+NoamScheduler.factor: 2.0
+NoamScheduler.warmup: 500
+NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+NoiseFloor.name: null
+NoiseFloor.prob: 1.0
+Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+Quantization.name: null
+Quantization.prob: 1.0
+Repeat.n_repeat: 1
+Repeat.name: null
+Repeat.prob: 1.0
+RepeatUpTo.max_repeat: 5
+RepeatUpTo.name: null
+RepeatUpTo.prob: 1.0
+RepeatUpTo.weights: null
+RescaleAudio.name: null
+RescaleAudio.prob: 1
+RescaleAudio.val: 1.0
+RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+RoomImpulseResponse.duration: 1.0
+RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+RoomImpulseResponse.n_bands: 6
+RoomImpulseResponse.name: null
+RoomImpulseResponse.offset: 0.0
+RoomImpulseResponse.prob: 1.0
+RoomImpulseResponse.sources: null
+RoomImpulseResponse.use_original_phase: false
+RoomImpulseResponse.weights: null
+ShiftPhase.name: null
+ShiftPhase.prob: 1
+ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+Silence.name: null
+Silence.prob: 0.1
+Smoothing.name: null
+Smoothing.prob: 1
+Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+Smoothing.window_type: !!python/tuple
+- const
+- average
+SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+SpectralDenoising.n_bands: 6
+SpectralDenoising.n_freq: 3
+SpectralDenoising.n_time: 5
+SpectralDenoising.name: null
+SpectralDenoising.nz_volume: -40
+SpectralDenoising.prob: 1
+TimeMask.name: null
+TimeMask.prob: 1
+TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+TimeNoise.name: null
+TimeNoise.prob: 1
+TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+VampNet.dropout: 0.1
+VampNet.embedding_dim: 1280
+VampNet.flash_attn: false
+VampNet.latent_dim: 8
+VampNet.n_codebooks: 14
+VampNet.n_conditioning_codebooks: 4
+VampNet.n_heads: 20
+VampNet.n_layers: 16
+VampNet.noise_mode: mask
+VampNet.r_cond_dim: 0
+VampNet.vocab_size: 1024
+VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+VolumeChange.name: null
+VolumeChange.prob: 1.0
+VolumeNorm.db: !!python/tuple
+- const
+- -24
+VolumeNorm.name: null
+VolumeNorm.prob: 1.0
+amp: false
+args.debug: true
+args.load: conf/generated/soundrangers2/c2f.yml
+args.save: null
+batch_size: 6
+codec_ckpt: ./models/vampnet/codec.pth
+fine_tune: true
+fine_tune_checkpoint: ./models/vampnet/c2f.pth
+grad_clip_val: 5.0
+num_iters: 500000
+num_workers: 7
+resume: true
+sample_freq: 2000
+save_iters:
+- 2000
+- 4000
+- 10000
+- 20000
+- 40000
+- 100000
+save_path: ./runs/soundrangers-v2/c2f
+seed: 0
+tag: latest
+train/AudioDataset.aligned: false
+train/AudioDataset.duration: 3.0
+train/AudioDataset.loudness_cutoff: -40.0
+train/AudioDataset.n_examples: 100000000
+train/AudioDataset.num_channels: 1
+train/AudioDataset.offset: null
+train/AudioDataset.shuffle_loaders: false
+train/AudioDataset.without_replacement: false
+train/AudioLoader.sources:
+- /media/CHONK2/prosound_redacted/Soundrangers Complete
+- /media/CHONK2/prosound_redacted/Soundrangers Update 2018
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Animals
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Birds
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Foley
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Musical
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Dogs
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Farm
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Horses
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Rodents
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Wild
+- /media/CHONK2/prosound_redacted/Big Room Complete/Bells
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Chimes
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Instruments
+train/BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+train/BackgroundNoise.loudness_cutoff: null
+train/BackgroundNoise.n_bands: 3
+train/BackgroundNoise.name: null
+train/BackgroundNoise.prob: 1.0
+train/BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+train/BackgroundNoise.sources: null
+train/BackgroundNoise.weights: null
+train/BaseTransform.keys: []
+train/BaseTransform.name: null
+train/BaseTransform.prob: 1.0
+train/ClippingDistortion.name: null
+train/ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+train/ClippingDistortion.prob: 1.0
+train/CorruptPhase.name: null
+train/CorruptPhase.prob: 1
+train/CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+train/CrossTalk.loudness_cutoff: -40
+train/CrossTalk.name: null
+train/CrossTalk.prob: 1.0
+train/CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+train/CrossTalk.sources: null
+train/CrossTalk.weights: null
+train/Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+train/Equalizer.n_bands: 6
+train/Equalizer.name: null
+train/Equalizer.prob: 1.0
+train/FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+train/FrequencyMask.name: null
+train/FrequencyMask.prob: 1
+train/FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+train/FrequencyNoise.name: null
+train/FrequencyNoise.prob: 1
+train/GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+train/GlobalVolumeNorm.name: null
+train/GlobalVolumeNorm.prob: 1.0
+train/HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+train/HighPass.name: null
+train/HighPass.prob: 1
+train/HighPass.zeros: 51
+train/InvertPhase.name: null
+train/InvertPhase.prob: 1
+train/LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+train/LowPass.name: null
+train/LowPass.prob: 1
+train/LowPass.zeros: 51
+train/MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+train/MaskLowMagnitudes.name: null
+train/MaskLowMagnitudes.prob: 1
+train/MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+train/MuLawQuantization.name: null
+train/MuLawQuantization.prob: 1.0
+train/NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+train/NoiseFloor.name: null
+train/NoiseFloor.prob: 1.0
+train/Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+train/Quantization.name: null
+train/Quantization.prob: 1.0
+train/Repeat.n_repeat: 1
+train/Repeat.name: null
+train/Repeat.prob: 1.0
+train/RepeatUpTo.max_repeat: 5
+train/RepeatUpTo.name: null
+train/RepeatUpTo.prob: 1.0
+train/RepeatUpTo.weights: null
+train/RescaleAudio.name: null
+train/RescaleAudio.prob: 1
+train/RescaleAudio.val: 1.0
+train/RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+train/RoomImpulseResponse.duration: 1.0
+train/RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+train/RoomImpulseResponse.n_bands: 6
+train/RoomImpulseResponse.name: null
+train/RoomImpulseResponse.offset: 0.0
+train/RoomImpulseResponse.prob: 1.0
+train/RoomImpulseResponse.sources: null
+train/RoomImpulseResponse.use_original_phase: false
+train/RoomImpulseResponse.weights: null
+train/ShiftPhase.name: null
+train/ShiftPhase.prob: 1
+train/ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+train/Silence.name: null
+train/Silence.prob: 0.1
+train/Smoothing.name: null
+train/Smoothing.prob: 1
+train/Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+train/Smoothing.window_type: !!python/tuple
+- const
+- average
+train/SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+train/SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+train/SpectralDenoising.n_bands: 6
+train/SpectralDenoising.n_freq: 3
+train/SpectralDenoising.n_time: 5
+train/SpectralDenoising.name: null
+train/SpectralDenoising.nz_volume: -40
+train/SpectralDenoising.prob: 1
+train/TimeMask.name: null
+train/TimeMask.prob: 1
+train/TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+train/TimeNoise.name: null
+train/TimeNoise.prob: 1
+train/TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+train/VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+train/VolumeChange.name: null
+train/VolumeChange.prob: 1.0
+train/VolumeNorm.db: !!python/tuple
+- const
+- -24
+train/VolumeNorm.name: null
+train/VolumeNorm.prob: 1.0
+val/AudioDataset.aligned: false
+val/AudioDataset.duration: 3.0
+val/AudioDataset.loudness_cutoff: -40.0
+val/AudioDataset.n_examples: 500
+val/AudioDataset.num_channels: 1
+val/AudioDataset.offset: null
+val/AudioDataset.shuffle_loaders: false
+val/AudioDataset.without_replacement: false
+val/AudioLoader.sources:
+- /media/CHONK2/prosound_redacted/Soundrangers Complete
+- /media/CHONK2/prosound_redacted/Soundrangers Update 2018
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Animals
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Birds
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Foley
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Musical
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Dogs
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Farm
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Horses
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Rodents
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Wild
+- /media/CHONK2/prosound_redacted/Big Room Complete/Bells
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Chimes
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Instruments
+val/BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+val/BackgroundNoise.loudness_cutoff: null
+val/BackgroundNoise.n_bands: 3
+val/BackgroundNoise.name: null
+val/BackgroundNoise.prob: 1.0
+val/BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+val/BackgroundNoise.sources: null
+val/BackgroundNoise.weights: null
+val/BaseTransform.keys: []
+val/BaseTransform.name: null
+val/BaseTransform.prob: 1.0
+val/ClippingDistortion.name: null
+val/ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+val/ClippingDistortion.prob: 1.0
+val/CorruptPhase.name: null
+val/CorruptPhase.prob: 1
+val/CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+val/CrossTalk.loudness_cutoff: -40
+val/CrossTalk.name: null
+val/CrossTalk.prob: 1.0
+val/CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+val/CrossTalk.sources: null
+val/CrossTalk.weights: null
+val/Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+val/Equalizer.n_bands: 6
+val/Equalizer.name: null
+val/Equalizer.prob: 1.0
+val/FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+val/FrequencyMask.name: null
+val/FrequencyMask.prob: 1
+val/FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+val/FrequencyNoise.name: null
+val/FrequencyNoise.prob: 1
+val/GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+val/GlobalVolumeNorm.name: null
+val/GlobalVolumeNorm.prob: 1.0
+val/HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+val/HighPass.name: null
+val/HighPass.prob: 1
+val/HighPass.zeros: 51
+val/InvertPhase.name: null
+val/InvertPhase.prob: 1
+val/LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+val/LowPass.name: null
+val/LowPass.prob: 1
+val/LowPass.zeros: 51
+val/MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+val/MaskLowMagnitudes.name: null
+val/MaskLowMagnitudes.prob: 1
+val/MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+val/MuLawQuantization.name: null
+val/MuLawQuantization.prob: 1.0
+val/NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+val/NoiseFloor.name: null
+val/NoiseFloor.prob: 1.0
+val/Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+val/Quantization.name: null
+val/Quantization.prob: 1.0
+val/Repeat.n_repeat: 1
+val/Repeat.name: null
+val/Repeat.prob: 1.0
+val/RepeatUpTo.max_repeat: 5
+val/RepeatUpTo.name: null
+val/RepeatUpTo.prob: 1.0
+val/RepeatUpTo.weights: null
+val/RescaleAudio.name: null
+val/RescaleAudio.prob: 1
+val/RescaleAudio.val: 1.0
+val/RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+val/RoomImpulseResponse.duration: 1.0
+val/RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+val/RoomImpulseResponse.n_bands: 6
+val/RoomImpulseResponse.name: null
+val/RoomImpulseResponse.offset: 0.0
+val/RoomImpulseResponse.prob: 1.0
+val/RoomImpulseResponse.sources: null
+val/RoomImpulseResponse.use_original_phase: false
+val/RoomImpulseResponse.weights: null
+val/ShiftPhase.name: null
+val/ShiftPhase.prob: 1
+val/ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+val/Silence.name: null
+val/Silence.prob: 0.1
+val/Smoothing.name: null
+val/Smoothing.prob: 1
+val/Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+val/Smoothing.window_type: !!python/tuple
+- const
+- average
+val/SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+val/SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+val/SpectralDenoising.n_bands: 6
+val/SpectralDenoising.n_freq: 3
+val/SpectralDenoising.n_time: 5
+val/SpectralDenoising.name: null
+val/SpectralDenoising.nz_volume: -40
+val/SpectralDenoising.prob: 1
+val/TimeMask.name: null
+val/TimeMask.prob: 1
+val/TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+val/TimeNoise.name: null
+val/TimeNoise.prob: 1
+val/TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+val/VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+val/VolumeChange.name: null
+val/VolumeChange.prob: 1.0
+val/VolumeNorm.db: !!python/tuple
+- const
+- -24
+val/VolumeNorm.name: null
+val/VolumeNorm.prob: 1.0
+val_freq: 1000
+val_idx:
+- 0
+- 1
+- 2
+- 3
+- 4
+- 5
+- 6
+- 7
+- 8
+- 9

runs/soundrangers-v2-v1/c2f/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82d83c323601ef3ae23d574cde1f93539bb3f057451d3e0a495b562fcc96deaa
+size 1111127537

runs/soundrangers-v2-v1/c2f/model.txt ADDED Viewed

	@@ -0,0 +1,73 @@

+VampNet(
+   277.753M params.
+  (embedding): CodebookEmbedding(
+     0.145M params.
+    (special): ParameterDict(  (MASK): Parameter containing: [torch.cuda.FloatTensor of size 14x8 (GPU 0)] 0.000M params.)
+    (out_proj): Conv1d(112, 1280, kernel_size=(1,), stride=(1,) 0.145M params.)
+  )
+  (transformer): TransformerStack(
+     264.481M params.
+    (layers): ModuleList(
+      (0): TransformerLayer(
+         16.531M params.
+        (norm_1): RMSNorm( 0.001M params.)
+        (film_1): FiLM( 0.000M params.)
+        (self_attn): MultiHeadRelativeAttention(
+           6.616M params.
+          (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+          (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+          (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+          (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+          (relative_attention_bias): Embedding(32, 20 0.001M params.)
+        )
+        (norm_3): RMSNorm( 0.001M params.)
+        (film_3): FiLM( 0.000M params.)
+        (feed_forward): FeedForward(
+           9.912M params.
+          (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+          (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+          (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+          (act): GatedGELU(
+             0.000M params.
+            (gelu): NewGELU( 0.000M params.)
+          )
+        )
+        (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+      )
+      (1-15): 15 x TransformerLayer(
+         16.530M params.
+        (norm_1): RMSNorm( 0.001M params.)
+        (film_1): FiLM( 0.000M params.)
+        (self_attn): MultiHeadRelativeAttention(
+           6.615M params.
+          (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+          (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+          (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+          (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+        (norm_3): RMSNorm( 0.001M params.)
+        (film_3): FiLM( 0.000M params.)
+        (feed_forward): FeedForward(
+           9.912M params.
+          (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+          (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+          (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+          (act): GatedGELU(
+             0.000M params.
+            (gelu): NewGELU( 0.000M params.)
+          )
+        )
+        (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+      )
+    )
+    (norm): RMSNorm( 0.001M params.)
+  )
+  (classifier): SequentialWithFiLM(
+     13.128M params.
+    (layers): ModuleList(
+      (0): Conv1d(1280, 10240, kernel_size=(1,), stride=(1,), padding=same 13.128M params.)
+    )
+  )
+)

runs/soundrangers-v2-v1/coarse/args.yml ADDED Viewed

	@@ -0,0 +1,851 @@

+AdamW.amsgrad: false
+AdamW.betas: !!python/tuple
+- 0.9
+- 0.999
+AdamW.capturable: false
+AdamW.differentiable: false
+AdamW.eps: 1.0e-08
+AdamW.lr: 0.0001
+AdamW.maximize: false
+AdamW.weight_decay: 0.01
+AudioDataset.aligned: false
+AudioDataset.duration: 10.0
+AudioDataset.loudness_cutoff: -30.0
+AudioDataset.n_examples: 1000
+AudioDataset.num_channels: 1
+AudioDataset.offset: null
+AudioDataset.shuffle_loaders: false
+AudioDataset.without_replacement: false
+AudioLoader.ext:
+- .wav
+- .flac
+- .mp3
+- .mp4
+AudioLoader.relative_path: ''
+AudioLoader.shuffle: true
+AudioLoader.shuffle_state: 0
+AudioLoader.sources: null
+AudioLoader.weights: null
+BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+BackgroundNoise.loudness_cutoff: null
+BackgroundNoise.n_bands: 3
+BackgroundNoise.name: null
+BackgroundNoise.prob: 1.0
+BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+BackgroundNoise.sources: null
+BackgroundNoise.weights: null
+BaseTransform.keys: []
+BaseTransform.name: null
+BaseTransform.prob: 1.0
+ClippingDistortion.name: null
+ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+ClippingDistortion.prob: 1.0
+CorruptPhase.name: null
+CorruptPhase.prob: 1
+CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+CrossEntropyLoss.ignore_index: -100
+CrossEntropyLoss.label_smoothing: 0.1
+CrossEntropyLoss.reduce: null
+CrossEntropyLoss.reduction: mean
+CrossEntropyLoss.size_average: null
+CrossTalk.loudness_cutoff: -40
+CrossTalk.name: null
+CrossTalk.prob: 1.0
+CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+CrossTalk.sources: null
+CrossTalk.weights: null
+Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+Equalizer.n_bands: 6
+Equalizer.name: null
+Equalizer.prob: 1.0
+FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+FrequencyMask.name: null
+FrequencyMask.prob: 1
+FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+FrequencyNoise.name: null
+FrequencyNoise.prob: 1
+GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+GlobalVolumeNorm.name: null
+GlobalVolumeNorm.prob: 1.0
+HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+HighPass.name: null
+HighPass.prob: 1
+HighPass.zeros: 51
+InvertPhase.name: null
+InvertPhase.prob: 1
+LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+LowPass.name: null
+LowPass.prob: 1
+LowPass.zeros: 51
+MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+MaskLowMagnitudes.name: null
+MaskLowMagnitudes.prob: 1
+MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+MuLawQuantization.name: null
+MuLawQuantization.prob: 1.0
+NoamScheduler.d_model: 512
+NoamScheduler.factor: 2.0
+NoamScheduler.warmup: 500
+NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+NoiseFloor.name: null
+NoiseFloor.prob: 1.0
+Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+Quantization.name: null
+Quantization.prob: 1.0
+Repeat.n_repeat: 1
+Repeat.name: null
+Repeat.prob: 1.0
+RepeatUpTo.max_repeat: 5
+RepeatUpTo.name: null
+RepeatUpTo.prob: 1.0
+RepeatUpTo.weights: null
+RescaleAudio.name: null
+RescaleAudio.prob: 1
+RescaleAudio.val: 1.0
+RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+RoomImpulseResponse.duration: 1.0
+RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+RoomImpulseResponse.n_bands: 6
+RoomImpulseResponse.name: null
+RoomImpulseResponse.offset: 0.0
+RoomImpulseResponse.prob: 1.0
+RoomImpulseResponse.sources: null
+RoomImpulseResponse.use_original_phase: false
+RoomImpulseResponse.weights: null
+ShiftPhase.name: null
+ShiftPhase.prob: 1
+ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+Silence.name: null
+Silence.prob: 0.1
+Smoothing.name: null
+Smoothing.prob: 1
+Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+Smoothing.window_type: !!python/tuple
+- const
+- average
+SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+SpectralDenoising.n_bands: 6
+SpectralDenoising.n_freq: 3
+SpectralDenoising.n_time: 5
+SpectralDenoising.name: null
+SpectralDenoising.nz_volume: -40
+SpectralDenoising.prob: 1
+TimeMask.name: null
+TimeMask.prob: 1
+TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+TimeNoise.name: null
+TimeNoise.prob: 1
+TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+VampNet.dropout: 0.1
+VampNet.embedding_dim: 1280
+VampNet.flash_attn: false
+VampNet.latent_dim: 8
+VampNet.n_codebooks: 4
+VampNet.n_conditioning_codebooks: 0
+VampNet.n_heads: 20
+VampNet.n_layers: 20
+VampNet.noise_mode: mask
+VampNet.r_cond_dim: 0
+VampNet.vocab_size: 1024
+VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+VolumeChange.name: null
+VolumeChange.prob: 1.0
+VolumeNorm.db: !!python/tuple
+- const
+- -24
+VolumeNorm.name: null
+VolumeNorm.prob: 1.0
+amp: false
+args.debug: true
+args.load: conf/generated/soundrangers2/coarse.yml
+args.save: null
+batch_size: 6
+codec_ckpt: ./models/vampnet/codec.pth
+fine_tune: true
+fine_tune_checkpoint: ./models/vampnet/coarse.pth
+grad_clip_val: 5.0
+num_iters: 500000
+num_workers: 7
+resume: true
+sample_freq: 2000
+save_iters:
+- 2000
+- 4000
+- 10000
+- 20000
+- 40000
+- 100000
+save_path: ./runs/soundrangers-v2/coarse
+seed: 0
+tag: latest
+train/AudioDataset.aligned: false
+train/AudioDataset.duration: 10.0
+train/AudioDataset.loudness_cutoff: -30.0
+train/AudioDataset.n_examples: 100000000
+train/AudioDataset.num_channels: 1
+train/AudioDataset.offset: null
+train/AudioDataset.shuffle_loaders: false
+train/AudioDataset.without_replacement: false
+train/AudioLoader.sources:
+- /media/CHONK2/prosound_redacted/Soundrangers Complete
+- /media/CHONK2/prosound_redacted/Soundrangers Update 2018
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Animals
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Birds
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Foley
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Musical
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Dogs
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Farm
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Horses
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Rodents
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Wild
+- /media/CHONK2/prosound_redacted/Big Room Complete/Bells
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Chimes
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Instruments
+train/BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+train/BackgroundNoise.loudness_cutoff: null
+train/BackgroundNoise.n_bands: 3
+train/BackgroundNoise.name: null
+train/BackgroundNoise.prob: 1.0
+train/BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+train/BackgroundNoise.sources: null
+train/BackgroundNoise.weights: null
+train/BaseTransform.keys: []
+train/BaseTransform.name: null
+train/BaseTransform.prob: 1.0
+train/ClippingDistortion.name: null
+train/ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+train/ClippingDistortion.prob: 1.0
+train/CorruptPhase.name: null
+train/CorruptPhase.prob: 1
+train/CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+train/CrossTalk.loudness_cutoff: -40
+train/CrossTalk.name: null
+train/CrossTalk.prob: 1.0
+train/CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+train/CrossTalk.sources: null
+train/CrossTalk.weights: null
+train/Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+train/Equalizer.n_bands: 6
+train/Equalizer.name: null
+train/Equalizer.prob: 1.0
+train/FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+train/FrequencyMask.name: null
+train/FrequencyMask.prob: 1
+train/FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+train/FrequencyNoise.name: null
+train/FrequencyNoise.prob: 1
+train/GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+train/GlobalVolumeNorm.name: null
+train/GlobalVolumeNorm.prob: 1.0
+train/HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+train/HighPass.name: null
+train/HighPass.prob: 1
+train/HighPass.zeros: 51
+train/InvertPhase.name: null
+train/InvertPhase.prob: 1
+train/LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+train/LowPass.name: null
+train/LowPass.prob: 1
+train/LowPass.zeros: 51
+train/MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+train/MaskLowMagnitudes.name: null
+train/MaskLowMagnitudes.prob: 1
+train/MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+train/MuLawQuantization.name: null
+train/MuLawQuantization.prob: 1.0
+train/NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+train/NoiseFloor.name: null
+train/NoiseFloor.prob: 1.0
+train/Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+train/Quantization.name: null
+train/Quantization.prob: 1.0
+train/Repeat.n_repeat: 1
+train/Repeat.name: null
+train/Repeat.prob: 1.0
+train/RepeatUpTo.max_repeat: 5
+train/RepeatUpTo.name: null
+train/RepeatUpTo.prob: 1.0
+train/RepeatUpTo.weights: null
+train/RescaleAudio.name: null
+train/RescaleAudio.prob: 1
+train/RescaleAudio.val: 1.0
+train/RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+train/RoomImpulseResponse.duration: 1.0
+train/RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+train/RoomImpulseResponse.n_bands: 6
+train/RoomImpulseResponse.name: null
+train/RoomImpulseResponse.offset: 0.0
+train/RoomImpulseResponse.prob: 1.0
+train/RoomImpulseResponse.sources: null
+train/RoomImpulseResponse.use_original_phase: false
+train/RoomImpulseResponse.weights: null
+train/ShiftPhase.name: null
+train/ShiftPhase.prob: 1
+train/ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+train/Silence.name: null
+train/Silence.prob: 0.1
+train/Smoothing.name: null
+train/Smoothing.prob: 1
+train/Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+train/Smoothing.window_type: !!python/tuple
+- const
+- average
+train/SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+train/SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+train/SpectralDenoising.n_bands: 6
+train/SpectralDenoising.n_freq: 3
+train/SpectralDenoising.n_time: 5
+train/SpectralDenoising.name: null
+train/SpectralDenoising.nz_volume: -40
+train/SpectralDenoising.prob: 1
+train/TimeMask.name: null
+train/TimeMask.prob: 1
+train/TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+train/TimeNoise.name: null
+train/TimeNoise.prob: 1
+train/TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+train/TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+train/VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+train/VolumeChange.name: null
+train/VolumeChange.prob: 1.0
+train/VolumeNorm.db: !!python/tuple
+- const
+- -24
+train/VolumeNorm.name: null
+train/VolumeNorm.prob: 1.0
+val/AudioDataset.aligned: false
+val/AudioDataset.duration: 10.0
+val/AudioDataset.loudness_cutoff: -30.0
+val/AudioDataset.n_examples: 500
+val/AudioDataset.num_channels: 1
+val/AudioDataset.offset: null
+val/AudioDataset.shuffle_loaders: false
+val/AudioDataset.without_replacement: false
+val/AudioLoader.sources:
+- /media/CHONK2/prosound_redacted/Soundrangers Complete
+- /media/CHONK2/prosound_redacted/Soundrangers Update 2018
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Animals
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Birds
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Foley
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Musical
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Dogs
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Farm
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Horses
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Rodents
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Wild
+- /media/CHONK2/prosound_redacted/Big Room Complete/Bells
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Chimes
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Instruments
+val/BackgroundNoise.eq_amount: !!python/tuple
+- const
+- 1.0
+val/BackgroundNoise.loudness_cutoff: null
+val/BackgroundNoise.n_bands: 3
+val/BackgroundNoise.name: null
+val/BackgroundNoise.prob: 1.0
+val/BackgroundNoise.snr: !!python/tuple
+- uniform
+- 10.0
+- 30.0
+val/BackgroundNoise.sources: null
+val/BackgroundNoise.weights: null
+val/BaseTransform.keys: []
+val/BaseTransform.name: null
+val/BaseTransform.prob: 1.0
+val/ClippingDistortion.name: null
+val/ClippingDistortion.perc: !!python/tuple
+- uniform
+- 0.0
+- 0.1
+val/ClippingDistortion.prob: 1.0
+val/CorruptPhase.name: null
+val/CorruptPhase.prob: 1
+val/CorruptPhase.scale: !!python/tuple
+- uniform
+- 0
+- 3.141592653589793
+val/CrossTalk.loudness_cutoff: -40
+val/CrossTalk.name: null
+val/CrossTalk.prob: 1.0
+val/CrossTalk.snr: !!python/tuple
+- uniform
+- 0.0
+- 10.0
+val/CrossTalk.sources: null
+val/CrossTalk.weights: null
+val/Equalizer.eq_amount: !!python/tuple
+- const
+- 1.0
+val/Equalizer.n_bands: 6
+val/Equalizer.name: null
+val/Equalizer.prob: 1.0
+val/FrequencyMask.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/FrequencyMask.f_width: !!python/tuple
+- const
+- 0.1
+val/FrequencyMask.name: null
+val/FrequencyMask.prob: 1
+val/FrequencyNoise.f_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/FrequencyNoise.f_width: !!python/tuple
+- const
+- 0.1
+val/FrequencyNoise.name: null
+val/FrequencyNoise.prob: 1
+val/GlobalVolumeNorm.db: !!python/tuple
+- const
+- -24
+val/GlobalVolumeNorm.name: null
+val/GlobalVolumeNorm.prob: 1.0
+val/HighPass.cutoff: !!python/tuple
+- choice
+- - 50
+  - 100
+  - 250
+  - 500
+  - 1000
+val/HighPass.name: null
+val/HighPass.prob: 1
+val/HighPass.zeros: 51
+val/InvertPhase.name: null
+val/InvertPhase.prob: 1
+val/LowPass.cutoff: !!python/tuple
+- choice
+- - 4000
+  - 8000
+  - 16000
+val/LowPass.name: null
+val/LowPass.prob: 1
+val/LowPass.zeros: 51
+val/MaskLowMagnitudes.db_cutoff: !!python/tuple
+- uniform
+- -10
+- 10
+val/MaskLowMagnitudes.name: null
+val/MaskLowMagnitudes.prob: 1
+val/MuLawQuantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+val/MuLawQuantization.name: null
+val/MuLawQuantization.prob: 1.0
+val/NoiseFloor.db: !!python/tuple
+- const
+- -50.0
+val/NoiseFloor.name: null
+val/NoiseFloor.prob: 1.0
+val/Quantization.channels: !!python/tuple
+- choice
+- - 8
+  - 32
+  - 128
+  - 256
+  - 1024
+val/Quantization.name: null
+val/Quantization.prob: 1.0
+val/Repeat.n_repeat: 1
+val/Repeat.name: null
+val/Repeat.prob: 1.0
+val/RepeatUpTo.max_repeat: 5
+val/RepeatUpTo.name: null
+val/RepeatUpTo.prob: 1.0
+val/RepeatUpTo.weights: null
+val/RescaleAudio.name: null
+val/RescaleAudio.prob: 1
+val/RescaleAudio.val: 1.0
+val/RoomImpulseResponse.drr: !!python/tuple
+- uniform
+- 0.0
+- 30.0
+val/RoomImpulseResponse.duration: 1.0
+val/RoomImpulseResponse.eq_amount: !!python/tuple
+- const
+- 1.0
+val/RoomImpulseResponse.n_bands: 6
+val/RoomImpulseResponse.name: null
+val/RoomImpulseResponse.offset: 0.0
+val/RoomImpulseResponse.prob: 1.0
+val/RoomImpulseResponse.sources: null
+val/RoomImpulseResponse.use_original_phase: false
+val/RoomImpulseResponse.weights: null
+val/ShiftPhase.name: null
+val/ShiftPhase.prob: 1
+val/ShiftPhase.shift: !!python/tuple
+- uniform
+- -3.141592653589793
+- 3.141592653589793
+val/Silence.name: null
+val/Silence.prob: 0.1
+val/Smoothing.name: null
+val/Smoothing.prob: 1
+val/Smoothing.window_length: !!python/tuple
+- choice
+- - 8
+  - 16
+  - 32
+  - 64
+  - 128
+  - 256
+  - 512
+val/Smoothing.window_type: !!python/tuple
+- const
+- average
+val/SpectralDenoising.denoise_amount: !!python/tuple
+- uniform
+- 0.8
+- 1.0
+val/SpectralDenoising.eq_amount: !!python/tuple
+- const
+- 1.0
+val/SpectralDenoising.n_bands: 6
+val/SpectralDenoising.n_freq: 3
+val/SpectralDenoising.n_time: 5
+val/SpectralDenoising.name: null
+val/SpectralDenoising.nz_volume: -40
+val/SpectralDenoising.prob: 1
+val/TimeMask.name: null
+val/TimeMask.prob: 1
+val/TimeMask.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/TimeMask.t_width: !!python/tuple
+- const
+- 0.025
+val/TimeNoise.name: null
+val/TimeNoise.prob: 1
+val/TimeNoise.t_center: !!python/tuple
+- uniform
+- 0.0
+- 1.0
+val/TimeNoise.t_width: !!python/tuple
+- const
+- 0.025
+val/VolumeChange.db: !!python/tuple
+- uniform
+- -12.0
+- 0.0
+val/VolumeChange.name: null
+val/VolumeChange.prob: 1.0
+val/VolumeNorm.db: !!python/tuple
+- const
+- -24
+val/VolumeNorm.name: null
+val/VolumeNorm.prob: 1.0
+val_freq: 1000
+val_idx:
+- 0
+- 1
+- 2
+- 3
+- 4
+- 5
+- 6
+- 7
+- 8
+- 9

runs/soundrangers-v2-v1/coarse/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3809d9bbaa27f5ad1d409945180e11f5420c3c765e09d185fa1dbdd2ee77c59f
+size 1343718241

runs/soundrangers-v2-v1/coarse/model.txt ADDED Viewed

	@@ -0,0 +1,73 @@

+VampNet(
+   335.894M params.
+  (embedding): CodebookEmbedding(
+     0.042M params.
+    (special): ParameterDict(  (MASK): Parameter containing: [torch.cuda.FloatTensor of size 4x8 (GPU 0)] 0.000M params.)
+    (out_proj): Conv1d(32, 1280, kernel_size=(1,), stride=(1,) 0.042M params.)
+  )
+  (transformer): TransformerStack(
+     330.600M params.
+    (layers): ModuleList(
+      (0): TransformerLayer(
+         16.531M params.
+        (norm_1): RMSNorm( 0.001M params.)
+        (film_1): FiLM( 0.000M params.)
+        (self_attn): MultiHeadRelativeAttention(
+           6.616M params.
+          (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+          (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+          (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+          (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+          (relative_attention_bias): Embedding(32, 20 0.001M params.)
+        )
+        (norm_3): RMSNorm( 0.001M params.)
+        (film_3): FiLM( 0.000M params.)
+        (feed_forward): FeedForward(
+           9.912M params.
+          (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+          (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+          (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+          (act): GatedGELU(
+             0.000M params.
+            (gelu): NewGELU( 0.000M params.)
+          )
+        )
+        (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+      )
+      (1-19): 19 x TransformerLayer(
+         16.530M params.
+        (norm_1): RMSNorm( 0.001M params.)
+        (film_1): FiLM( 0.000M params.)
+        (self_attn): MultiHeadRelativeAttention(
+           6.615M params.
+          (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+          (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+          (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+          (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+        (norm_3): RMSNorm( 0.001M params.)
+        (film_3): FiLM( 0.000M params.)
+        (feed_forward): FeedForward(
+           9.912M params.
+          (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+          (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+          (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+          (act): GatedGELU(
+             0.000M params.
+            (gelu): NewGELU( 0.000M params.)
+          )
+        )
+        (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+      )
+    )
+    (norm): RMSNorm( 0.001M params.)
+  )
+  (classifier): SequentialWithFiLM(
+     5.251M params.
+    (layers): ModuleList(
+      (0): Conv1d(1280, 4096, kernel_size=(1,), stride=(1,), padding=same 5.251M params.)
+    )
+  )
+)

runs/soundrangers-v2/c2f/args.yml ADDED Viewed

	@@ -0,0 +1,155 @@

+AdamW.amsgrad: false
+AdamW.betas: !!python/tuple
+- 0.9
+- 0.999
+AdamW.capturable: false
+AdamW.differentiable: false
+AdamW.eps: 1.0e-08
+AdamW.lr: 0.0001
+AdamW.maximize: false
+AdamW.weight_decay: 0.01
+AudioDataset.aligned: false
+AudioDataset.duration: 3.0
+AudioDataset.loudness_cutoff: -40.0
+AudioDataset.n_examples: 1000
+AudioDataset.num_channels: 1
+AudioDataset.offset: null
+AudioDataset.shuffle_loaders: false
+AudioDataset.without_replacement: false
+AudioLoader.ext:
+- .wav
+- .flac
+- .mp3
+- .mp4
+AudioLoader.relative_path: ''
+AudioLoader.shuffle: true
+AudioLoader.shuffle_state: 0
+AudioLoader.sources: null
+AudioLoader.weights: null
+CrossEntropyLoss.ignore_index: -100
+CrossEntropyLoss.label_smoothing: 0.1
+CrossEntropyLoss.reduce: null
+CrossEntropyLoss.reduction: mean
+CrossEntropyLoss.size_average: null
+NoamScheduler.d_model: 512
+NoamScheduler.factor: 2.0
+NoamScheduler.warmup: 500
+VampNet.dropout: 0.1
+VampNet.embedding_dim: 1280
+VampNet.flash_attn: false
+VampNet.latent_dim: 8
+VampNet.n_codebooks: 14
+VampNet.n_conditioning_codebooks: 4
+VampNet.n_heads: 20
+VampNet.n_layers: 16
+VampNet.noise_mode: mask
+VampNet.r_cond_dim: 0
+VampNet.vocab_size: 1024
+amp: false
+args.debug: true
+args.load: conf/generated/natural-sounds/c2f.yml
+args.save: null
+batch_size: 6
+codec_ckpt: ./models/vampnet/codec.pth
+fine_tune: true
+fine_tune_checkpoint: ./models/vampnet/c2f.pth
+grad_clip_val: 5.0
+num_iters: 500000
+num_workers: 7
+resume: false
+sample_freq: 2000
+save_iters:
+- 2000
+- 4000
+- 10000
+- 20000
+- 40000
+- 100000
+save_path: ./runs/soundrangers-v2/c2f
+seed: 0
+tag: latest
+train/AudioDataset.aligned: false
+train/AudioDataset.duration: 3.0
+train/AudioDataset.loudness_cutoff: -40.0
+train/AudioDataset.n_examples: 100000000
+train/AudioDataset.num_channels: 1
+train/AudioDataset.offset: null
+train/AudioDataset.shuffle_loaders: false
+train/AudioDataset.without_replacement: false
+train/AudioLoader.sources:
+- /media/CHONK2/prosound_redacted/Soundrangers Complete
+- /media/CHONK2/prosound_redacted/Soundrangers Update 2018
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Animals
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Birds
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Foley
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Musical
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Dogs
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Farm
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Horses
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Rodents
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Wild
+- /media/CHONK2/prosound_redacted/Big Room Complete/Bells
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Chimes
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Instruments
+val/AudioDataset.aligned: false
+val/AudioDataset.duration: 3.0
+val/AudioDataset.loudness_cutoff: -40.0
+val/AudioDataset.n_examples: 500
+val/AudioDataset.num_channels: 1
+val/AudioDataset.offset: null
+val/AudioDataset.shuffle_loaders: false
+val/AudioDataset.without_replacement: false
+val/AudioLoader.sources:
+- /media/CHONK2/prosound_redacted/Soundrangers Complete
+- /media/CHONK2/prosound_redacted/Soundrangers Update 2018
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Animals
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Birds
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Foley
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Musical
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Dogs
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Farm
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Horses
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Rodents
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Wild
+- /media/CHONK2/prosound_redacted/Big Room Complete/Bells
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Chimes
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Instruments
+val_freq: 1000
+val_idx:
+- 0
+- 1
+- 2
+- 3
+- 4
+- 5
+- 6
+- 7
+- 8
+- 9

runs/soundrangers-v2/c2f/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f483e7eaa0ea690c30a805936226833ccd2066db4b4309d2edcb542545bd1d62
+size 1111127537

runs/soundrangers-v2/c2f/model.txt ADDED Viewed

	@@ -0,0 +1,76 @@

+OptimizedModule(
+   277.753M params.
+  (_orig_mod): VampNet(
+     277.753M params.
+    (embedding): CodebookEmbedding(
+       0.145M params.
+      (special): ParameterDict(  (MASK): Parameter containing: [torch.cuda.FloatTensor of size 14x8 (GPU 0)] 0.000M params.)
+      (out_proj): Conv1d(112, 1280, kernel_size=(1,), stride=(1,) 0.145M params.)
+    )
+    (transformer): TransformerStack(
+       264.481M params.
+      (layers): ModuleList(
+        (0): TransformerLayer(
+           16.531M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.616M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+            (relative_attention_bias): Embedding(32, 20 0.001M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+        (1-15): 15 x TransformerLayer(
+           16.530M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.615M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+      )
+      (norm): RMSNorm( 0.001M params.)
+    )
+    (classifier): SequentialWithFiLM(
+       13.128M params.
+      (layers): ModuleList(
+        (0): Conv1d(1280, 10240, kernel_size=(1,), stride=(1,), padding=same 13.128M params.)
+      )
+    )
+  )
+)

runs/soundrangers-v2/coarse/args.yml ADDED Viewed

	@@ -0,0 +1,155 @@

+AdamW.amsgrad: false
+AdamW.betas: !!python/tuple
+- 0.9
+- 0.999
+AdamW.capturable: false
+AdamW.differentiable: false
+AdamW.eps: 1.0e-08
+AdamW.lr: 0.0001
+AdamW.maximize: false
+AdamW.weight_decay: 0.01
+AudioDataset.aligned: false
+AudioDataset.duration: 10.0
+AudioDataset.loudness_cutoff: -30.0
+AudioDataset.n_examples: 1000
+AudioDataset.num_channels: 1
+AudioDataset.offset: null
+AudioDataset.shuffle_loaders: false
+AudioDataset.without_replacement: false
+AudioLoader.ext:
+- .wav
+- .flac
+- .mp3
+- .mp4
+AudioLoader.relative_path: ''
+AudioLoader.shuffle: true
+AudioLoader.shuffle_state: 0
+AudioLoader.sources: null
+AudioLoader.weights: null
+CrossEntropyLoss.ignore_index: -100
+CrossEntropyLoss.label_smoothing: 0.1
+CrossEntropyLoss.reduce: null
+CrossEntropyLoss.reduction: mean
+CrossEntropyLoss.size_average: null
+NoamScheduler.d_model: 512
+NoamScheduler.factor: 2.0
+NoamScheduler.warmup: 500
+VampNet.dropout: 0.1
+VampNet.embedding_dim: 1280
+VampNet.flash_attn: false
+VampNet.latent_dim: 8
+VampNet.n_codebooks: 4
+VampNet.n_conditioning_codebooks: 0
+VampNet.n_heads: 20
+VampNet.n_layers: 20
+VampNet.noise_mode: mask
+VampNet.r_cond_dim: 0
+VampNet.vocab_size: 1024
+amp: false
+args.debug: true
+args.load: conf/generated/natural-sounds/coarse.yml
+args.save: null
+batch_size: 6
+codec_ckpt: ./models/vampnet/codec.pth
+fine_tune: true
+fine_tune_checkpoint: ./models/vampnet/coarse.pth
+grad_clip_val: 5.0
+num_iters: 500000
+num_workers: 7
+resume: false
+sample_freq: 2000
+save_iters:
+- 2000
+- 4000
+- 10000
+- 20000
+- 40000
+- 100000
+save_path: ./runs/soundrangers-v2/coarse
+seed: 0
+tag: latest
+train/AudioDataset.aligned: false
+train/AudioDataset.duration: 10.0
+train/AudioDataset.loudness_cutoff: -30.0
+train/AudioDataset.n_examples: 100000000
+train/AudioDataset.num_channels: 1
+train/AudioDataset.offset: null
+train/AudioDataset.shuffle_loaders: false
+train/AudioDataset.without_replacement: false
+train/AudioLoader.sources:
+- /media/CHONK2/prosound_redacted/Soundrangers Complete
+- /media/CHONK2/prosound_redacted/Soundrangers Update 2018
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Animals
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Birds
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Foley
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Musical
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Dogs
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Farm
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Horses
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Rodents
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Wild
+- /media/CHONK2/prosound_redacted/Big Room Complete/Bells
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Chimes
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Instruments
+val/AudioDataset.aligned: false
+val/AudioDataset.duration: 10.0
+val/AudioDataset.loudness_cutoff: -30.0
+val/AudioDataset.n_examples: 500
+val/AudioDataset.num_channels: 1
+val/AudioDataset.offset: null
+val/AudioDataset.shuffle_loaders: false
+val/AudioDataset.without_replacement: false
+val/AudioLoader.sources:
+- /media/CHONK2/prosound_redacted/Soundrangers Complete
+- /media/CHONK2/prosound_redacted/Soundrangers Update 2018
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Animals
+- /media/CHONK2/prosound_redacted/BBC Nature Sound Effects Library/Birds
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Foley
+- /media/CHONK2/prosound_redacted/BBC Historical and 1-166 Sound Effects Library/Musical
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Dogs
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Farm
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Horses
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Rodents
+- /media/CHONK2/prosound_redacted/Big Room Complete/Mammals - Wild
+- /media/CHONK2/prosound_redacted/Big Room Complete/Bells
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Chimes
+- /media/CHONK2/prosound_redacted/King Collection - Volume 1/Musical - Instruments
+val_freq: 1000
+val_idx:
+- 0
+- 1
+- 2
+- 3
+- 4
+- 5
+- 6
+- 7
+- 8
+- 9

runs/soundrangers-v2/coarse/latest/vampnet/weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:961d04558e809c3828b92526e9141be051bb9195144a7d598341d60eef5db90f
+size 1343718241

runs/soundrangers-v2/coarse/model.txt ADDED Viewed

	@@ -0,0 +1,76 @@

+OptimizedModule(
+   335.894M params.
+  (_orig_mod): VampNet(
+     335.894M params.
+    (embedding): CodebookEmbedding(
+       0.042M params.
+      (special): ParameterDict(  (MASK): Parameter containing: [torch.cuda.FloatTensor of size 4x8 (GPU 0)] 0.000M params.)
+      (out_proj): Conv1d(32, 1280, kernel_size=(1,), stride=(1,) 0.042M params.)
+    )
+    (transformer): TransformerStack(
+       330.600M params.
+      (layers): ModuleList(
+        (0): TransformerLayer(
+           16.531M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.616M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+            (relative_attention_bias): Embedding(32, 20 0.001M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+        (1-19): 19 x TransformerLayer(
+           16.530M params.
+          (norm_1): RMSNorm( 0.001M params.)
+          (film_1): FiLM( 0.000M params.)
+          (self_attn): MultiHeadRelativeAttention(
+             6.615M params.
+            (w_qs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (w_ks): Linear(in_features=1280, out_features=1280, bias=False 1.638M params.)
+            (w_vs): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (fc): Linear(in_features=1280, out_features=1280, bias=False 1.659M params.)
+            (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+          )
+          (norm_3): RMSNorm( 0.001M params.)
+          (film_3): FiLM( 0.000M params.)
+          (feed_forward): FeedForward(
+             9.912M params.
+            (w_1): Linear(in_features=1280, out_features=5120, bias=False 6.605M params.)
+            (w_2): Linear(in_features=2560, out_features=1280, bias=False 3.308M params.)
+            (drop): Dropout(p=0.1, inplace=False 0.000M params.)
+            (act): GatedGELU(
+               0.000M params.
+              (gelu): NewGELU( 0.000M params.)
+            )
+          )
+          (dropout): Dropout(p=0.1, inplace=False 0.000M params.)
+        )
+      )
+      (norm): RMSNorm( 0.001M params.)
+    )
+    (classifier): SequentialWithFiLM(
+       5.251M params.
+      (layers): ModuleList(
+        (0): Conv1d(1280, 4096, kernel_size=(1,), stride=(1,), padding=same 5.251M params.)
+      )
+    )
+  )
+)