Saving train state of step 5

Browse files

Files changed (2) hide show

distil-whisper/events.out.tfevents.1715170439.server02.1907732.0 +3 -0
run_distillation.py +16 -9

distil-whisper/events.out.tfevents.1715170439.server02.1907732.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f244db9e60fe4f96d3efe5ffc86d99cdf07af033d92613ce0ebfc2522073a140
+size 392

run_distillation.py CHANGED Viewed

@@ -1567,6 +1567,7 @@ def main():
             train_dataloader = accelerator.skip_first_batches(train_dataloader, resume_step)
             resume_step = None
         for batch in train_dataloader:
             with accelerator.accumulate(student_model):
                 loss, train_metric = train_step(batch, temperature=training_args.temperature)
@@ -1615,29 +1616,34 @@ def main():
                             )
                 if training_args.do_eval and (cur_step % eval_steps == 0 or cur_step == total_train_steps):
                     train_time += time.time() - train_start
                     student_model.eval()
                     # ======================== Evaluating ==============================
                     for eval_split in all_eval_splits:
                         eval_metrics = []
                         eval_preds = []
                         eval_labels = []
                         eval_start = time.time()
-                        validation_dataloader = DataLoader(
-                            vectorized_datasets[eval_split],
-                            collate_fn=data_collator,
-                            batch_size=per_device_eval_batch_size,
-                            drop_last=False,
-                            num_workers=dataloader_num_workers,
-                            prefetch_factor=prefetch_factor,
                             pin_memory=training_args.dataloader_pin_memory,
                         )
-                        validation_dataloader = accelerator.prepare(validation_dataloader)
                         for batch in tqdm(
                             validation_dataloader,
-                            desc=f"Evaluating {eval_split}...",
                             position=2,
                             disable=not accelerator.is_local_main_process,
                         ):
@@ -1648,6 +1654,7 @@ def main():
                             # generation
                             if training_args.predict_with_generate:
                                 generated_ids = generate_step(batch)
                                 # Gather all predictions and targets
                                 generated_ids, labels = accelerator.gather_for_metrics(

             train_dataloader = accelerator.skip_first_batches(train_dataloader, resume_step)
             resume_step = None
         for batch in train_dataloader:
             with accelerator.accumulate(student_model):
                 loss, train_metric = train_step(batch, temperature=training_args.temperature)
                             )
                 if training_args.do_eval and (cur_step % eval_steps == 0 or cur_step == total_train_steps):
+                    print("evaluating dsakdlaskdfl;skl;afksdl;fdasl;fkdl;askfl;asdkfldskfl;das")
                     train_time += time.time() - train_start
                     student_model.eval()
                     # ======================== Evaluating ==============================
                     for eval_split in all_eval_splits:
                         eval_metrics = []
                         eval_preds = []
                         eval_labels = []
                         eval_start = time.time()
+                        validation_dataloader = DataLoader(
+                            vectorized_datasets[eval_split],
+                            collate_fn=data_collator,
+                            batch_size=per_device_eval_batch_size,
+                            drop_last=False,
+                            num_workers=dataloader_num_workers,
+                            prefetch_factor=prefetch_factor,
                             pin_memory=training_args.dataloader_pin_memory,
                         )
+                        validation_dataloader = accelerator.prepare(validation_dataloader)
                         for batch in tqdm(
                             validation_dataloader,
+                            desc=f"Evaluating {eval_split}...",
                             position=2,
                             disable=not accelerator.is_local_main_process,
                         ):
                             # generation
                             if training_args.predict_with_generate:
                                 generated_ids = generate_step(batch)
                                 # Gather all predictions and targets
                                 generated_ids, labels = accelerator.gather_for_metrics(