Training in progress, step 150

Files changed (4) hide show

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2058472cc77971ab50e1ba117bbf18120c67a402a61522cdd51ffd6c354dc3e
 size 6173655480

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6ca9bec437c0cd91a8eeda2217dd1c4db24cd28a139cc75502b23adc9965093
 size 6173655480

run_speech_recognition_seq2seq_streaming.py CHANGED Viewed

@@ -50,6 +50,7 @@ from transformers.trainer_pt_utils import IterableDatasetShard
 from transformers.trainer_utils import get_last_checkpoint, is_main_process
 from transformers.utils import check_min_version, send_example_telemetry
 from transformers.utils.versions import require_version
 # Will error if the minimal version of Transformers is not installed. Remove at your own risks.
@@ -386,6 +387,26 @@ def main():
             f"{', '.join(raw_datasets_features)}."
         )
     # 5. Load pretrained model, tokenizer, and feature extractor
     #
     # Distributed training:

 from transformers.trainer_utils import get_last_checkpoint, is_main_process
 from transformers.utils import check_min_version, send_example_telemetry
 from transformers.utils.versions import require_version
+from audiomentations import Compose, AddGaussianNoise, TimeStretch, PitchShift, Shift
 # Will error if the minimal version of Transformers is not installed. Remove at your own risks.
             f"{', '.join(raw_datasets_features)}."
         )
+    augment_waveform = Compose([
+    AddGaussianNoise(min_amplitude=0.005, max_amplitude=0.015, p=0.2),
+    TimeStretch(min_rate=0.8, max_rate=1.25, p=0.2, leave_length_unchanged=False),
+    PitchShift(min_semitones=-4, max_semitones=4, p=0.2)
+    ,])
+    def augment_dataset(batch):
+        audio = batch["audio"]["array"]
+        # apply augmentation
+        augmented_audio = augment_waveform(samples=audio, sample_rate=16000)
+        batch["audio"]["array"] = augmented_audio
+        return batch
+    # call augment dataset on the training set
+    raw_datasets["train"] = raw_datasets["train"].map(augment_dataset)
     # 5. Load pretrained model, tokenizer, and feature extractor
     #
     # Distributed training:

runs/Dec20_13-35-03_0393d32b0779/events.out.tfevents.1671536148.0393d32b0779.2738.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33f0be47432bebad940f83bf1336d1178f196cdd1cb3dfc136682151cf9c1071
-size 5503

 version https://git-lfs.github.com/spec/v1
+oid sha256:08bcbacbcb00c4f7158b2e49a194b441dc14d855720e61e1f56bcb64ed52b1e5
+size 6132

train.sh CHANGED Viewed

@@ -16,7 +16,7 @@ python -m torch.distributed.launch --nproc_per_node 2 run_speech_recognition_seq
 	--per_device_eval_batch_size="16" \
 	--logging_steps="25" \
 	--learning_rate="1e-6" \
-	--warmup_steps="10" \
 	--evaluation_strategy="steps" \
 	--eval_steps="50" \
 	--save_strategy="steps" \

 	--per_device_eval_batch_size="16" \
 	--logging_steps="25" \
 	--learning_rate="1e-6" \
+	--warmup_steps="40" \
 	--evaluation_strategy="steps" \
 	--eval_steps="50" \
 	--save_strategy="steps" \