marinone94
/

whisper-tiny-sv

@@ -325,7 +325,9 @@ class DataCollatorSpeechSeq2SeqWithPadding:
         #     task_id = torch.full_like(labels[:, 0], self.task_id)
         #     labels = torch.cat((lang_token_ids, task_id, labels), dim=1)
-        # Set language and task to pad token
         # labels[:, 0] = torch.full_like(labels[:, 0], -100)
         # labels[:, 1] = torch.full_like(labels[:, 1], -100)
@@ -641,7 +643,7 @@ def main():
     if model_args.freeze_encoder:
         model.freeze_encoder()
-    tokenizer.set_prefix_tokens(language=data_args.language_train, task=data_args.task)
     # if data_args.language_train is not None and len(data_args.language_train.split(",")) == 1:
     #     # We only need to set the task id when the language is specified (i.e. in a multilingual setting)

         #     task_id = torch.full_like(labels[:, 0], self.task_id)
         #     labels = torch.cat((lang_token_ids, task_id, labels), dim=1)
+        # Set language to pad token
+        if (labels[:, 0] == self.decoder_start_token_id).all().cpu().item():
+            labels[:, 1] = torch.full_like(labels[:, 1], -100)
         # labels[:, 0] = torch.full_like(labels[:, 0], -100)
         # labels[:, 1] = torch.full_like(labels[:, 1], -100)
     if model_args.freeze_encoder:
         model.freeze_encoder()
+    tokenizer.set_prefix_tokens(language="swedish", task=data_args.task)
     # if data_args.language_train is not None and len(data_args.language_train.split(",")) == 1:
     #     # We only need to set the task id when the language is specified (i.e. in a multilingual setting)