marinone94
/

whisper-tiny-sv

@@ -312,8 +312,8 @@ class DataCollatorSpeechSeq2SeqWithPadding:
         # if bos token is appended in previous tokenization step,
         # cut bos token here as it's append later anyways
-        if (labels[:, 0] == self.decoder_start_token_id).all().cpu().item():
-            labels = labels[:, 1:]
         # lang_token_ids = self.processor.tokenizer(lang_features).input_ids
         # # Replace language and task if they are in the beginning, otherwise add them
         # if (labels[:, 1] == self.task_id).all().cpu().item():
@@ -325,8 +325,8 @@ class DataCollatorSpeechSeq2SeqWithPadding:
         #     labels = torch.cat((lang_token_ids, task_id, labels), dim=1)
         # Set language and task to pad token
-        labels[:, 0] = torch.full_like(labels[:, 0], -100)
-        labels[:, 1] = torch.full_like(labels[:, 1], -100)
         batch["labels"] = labels
@@ -458,6 +458,15 @@ def load_maybe_streaming_dataset(
         return dataset
 def main():
     # 1. Parse input arguments
     # See all possible arguments in src/transformers/training_args.py
@@ -592,6 +601,7 @@ def main():
         use_auth_token=hf_token if model_args.use_auth_token else None
     )
     config.update({"forced_decoder_ids": model_args.forced_decoder_ids, "suppress_tokens": model_args.suppress_tokens})
     if training_args.gradient_checkpointing:
@@ -758,6 +768,7 @@ def main():
             elif isinstance(train_dataloader.dataset, IterableDataset):
                 train_dataloader.dataset.set_epoch(train_dataloader.dataset._epoch + 1)
     # Initialize Trainer
     logger.info("*** Init trainer ***")
     trainer = Seq2SeqTrainer(
@@ -775,6 +786,7 @@ def main():
     # 12. Training
     if training_args.do_train:
         logger.info("*** Train ***")
         checkpoint = None
         if training_args.resume_from_checkpoint is not None:
             checkpoint = training_args.resume_from_checkpoint
@@ -817,7 +829,8 @@ def main():
     pred_labels = [f"Prediction: {pred}\nLabel: {label}\n" for pred, label in zip(preds, labels)]
     logger.info("Before setting language and task")
     logger.info(f"{pred_labels}")
-    trainer.data_collator.processor.tokenizer.set_prefix_tokens(language=data_args.language_eval, task=data_args.task)
     preds = processor.batch_decode(predictions.predictions)
     labels = processor.batch_decode(predictions.label_ids)
     pred_labels = [f"Prediction: {pred}\nLabel: {label}\n" for pred, label in zip(preds, labels)]
@@ -828,7 +841,7 @@ def main():
     results = {}
     if training_args.do_eval:
         logger.info("*** Evaluate ***")
         metrics = trainer.evaluate(
             metric_key_prefix="eval",
             max_length=training_args.generation_max_length,

         # if bos token is appended in previous tokenization step,
         # cut bos token here as it's append later anyways
+        # if (labels[:, 0] == self.decoder_start_token_id).all().cpu().item():
+        #     labels = labels[:, 1:]
         # lang_token_ids = self.processor.tokenizer(lang_features).input_ids
         # # Replace language and task if they are in the beginning, otherwise add them
         # if (labels[:, 1] == self.task_id).all().cpu().item():
         #     labels = torch.cat((lang_token_ids, task_id, labels), dim=1)
         # Set language and task to pad token
+        # labels[:, 0] = torch.full_like(labels[:, 0], -100)
+        # labels[:, 1] = torch.full_like(labels[:, 1], -100)
         batch["labels"] = labels
         return dataset
+def print_data_samples(dataset, processor, max_samples=5):
+    shown_samples = 0
+    for batch in dataset:
+        print("Target: ", tokenizer.batch_decode(batch["labels"]))
+        shown_samples += len(batch)
+        if shown_samples >= max_samples:
+            break
 def main():
     # 1. Parse input arguments
     # See all possible arguments in src/transformers/training_args.py
         use_auth_token=hf_token if model_args.use_auth_token else None
     )
+    # Forced decoder ids will be overwritten before evaluation
     config.update({"forced_decoder_ids": model_args.forced_decoder_ids, "suppress_tokens": model_args.suppress_tokens})
     if training_args.gradient_checkpointing:
             elif isinstance(train_dataloader.dataset, IterableDataset):
                 train_dataloader.dataset.set_epoch(train_dataloader.dataset._epoch + 1)
     # Initialize Trainer
     logger.info("*** Init trainer ***")
     trainer = Seq2SeqTrainer(
     # 12. Training
     if training_args.do_train:
         logger.info("*** Train ***")
+        print_data_samples(vectorized_datasets["train"], processor)
         checkpoint = None
         if training_args.resume_from_checkpoint is not None:
             checkpoint = training_args.resume_from_checkpoint
     pred_labels = [f"Prediction: {pred}\nLabel: {label}\n" for pred, label in zip(preds, labels)]
     logger.info("Before setting language and task")
     logger.info(f"{pred_labels}")
+    trainer.model.config.forced_decoder_ids = \
+        processor.get_decoder_prompt_ids(language=data_args.language_eval, task=data_args.task, no_timestamps=True)
     preds = processor.batch_decode(predictions.predictions)
     labels = processor.batch_decode(predictions.label_ids)
     pred_labels = [f"Prediction: {pred}\nLabel: {label}\n" for pred, label in zip(preds, labels)]
     results = {}
     if training_args.do_eval:
         logger.info("*** Evaluate ***")
+        print_data_samples(vectorized_datasets["eval"], processor)
         metrics = trainer.evaluate(
             metric_key_prefix="eval",
             max_length=training_args.generation_max_length,