marinone94
/

xls-r-300m-sv-robust

@@ -2,10 +2,10 @@ python run_speech_recognition_ctc.py \
 	--dataset_name="mozilla-foundation/common_voice_7_0,marinone94/nst_sv" \
 	--model_name_or_path="KBLab/wav2vec2-large-voxrex" \
 	--dataset_config_name="sv-SE,distant_channel" \
-	--train_split_name="train+validation,train" \
 	--eval_split_name="test,None" \
 	--output_dir="./" \
-	--preprocessing_only \
 	--num_train_epochs="3" \
 	--per_device_train_batch_size="32" \
 	--per_device_eval_batch_size="32" \
@@ -19,7 +19,7 @@ python run_speech_recognition_ctc.py \
 	--save_steps="100" \
 	--text_column_name="sentence" \
 	--chars_to_ignore , ? . ! \- \; \: \" “ % ‘ ” � — ’ … – \
-	--logging_steps="10" \
 	--dataset_seed="42" \
 	--layerdrop="0.0" \
 	--activation_dropout="0.1" \

 	--dataset_name="mozilla-foundation/common_voice_7_0,marinone94/nst_sv" \
 	--model_name_or_path="KBLab/wav2vec2-large-voxrex" \
 	--dataset_config_name="sv-SE,distant_channel" \
+	--train_split_name="None,train" \
 	--eval_split_name="test,None" \
 	--output_dir="./" \
+	--overwrite_output_dir \
 	--num_train_epochs="3" \
 	--per_device_train_batch_size="32" \
 	--per_device_eval_batch_size="32" \
 	--save_steps="100" \
 	--text_column_name="sentence" \
 	--chars_to_ignore , ? . ! \- \; \: \" “ % ‘ ” � — ’ … – \
+	--logging_steps="20" \
 	--dataset_seed="42" \
 	--layerdrop="0.0" \
 	--activation_dropout="0.1" \

run_speech_recognition_ctc.py CHANGED Viewed

@@ -371,10 +371,12 @@ def main():
     # TODO: Replace with check of wandb env vars
     try:
         repo_name = os.getcwd().split("/")[-1]
         os.environ["WANDB_PROJECT"] = repo_name
         wandb.login()
         training_args.report_to = ["wandb"]
-        training_args.run_name = f"{datetime.datetime.utcnow()}".replace(" ", "T")
     except:
         pass
@@ -544,6 +546,7 @@ def main():
                     .replace("î", "i") \
                     .replace("ü", "u") \
                     .replace("ÿ", "y") \
                     .replace("\\", "") \
                     .replace("/", "") \
                     .replace("|", "") \
@@ -557,6 +560,7 @@ def main():
                 .replace("î", "i") \
                 .replace("ü", "u") \
                 .replace("ÿ", "y") \
                 .replace("\\", "") \
                 .replace("/", "") \
                 .replace("|", "") \
@@ -754,8 +758,11 @@ def main():
     # Log sample of datasets
     pd_train = vectorized_datasets["train"].select(range(10)).to_pandas()
     pd_eval = vectorized_datasets["eval"].select(range(10)).to_pandas()
-    wandb.log({"train_sample": pd_train})
-    wandb.log("eval_sample": pd_eval)
     # for large datasets it is advised to run the preprocessing on a
     # single machine first with ``args.preprocessing_only`` since there will mostly likely

     # TODO: Replace with check of wandb env vars
     try:
         repo_name = os.getcwd().split("/")[-1]
+        run_name = f"{datetime.datetime.utcnow()}".replace(" ", "T")
         os.environ["WANDB_PROJECT"] = repo_name
         wandb.login()
         training_args.report_to = ["wandb"]
+        training_args.run_name = run_name
+        wandb.init()
     except:
         pass
                     .replace("î", "i") \
                     .replace("ü", "u") \
                     .replace("ÿ", "y") \
+                    .replace("ô", "o") \
                     .replace("\\", "") \
                     .replace("/", "") \
                     .replace("|", "") \
                 .replace("î", "i") \
                 .replace("ü", "u") \
                 .replace("ÿ", "y") \
+                .replace("ô", "o") \
                 .replace("\\", "") \
                 .replace("/", "") \
                 .replace("|", "") \
     # Log sample of datasets
     pd_train = vectorized_datasets["train"].select(range(10)).to_pandas()
     pd_eval = vectorized_datasets["eval"].select(range(10)).to_pandas()
+    # wandb.log({"train_sample": pd_train})
+    # wandb.log({"eval_sample": pd_eval})
+    print(pd_train)
+    print(pd_eval)
     # for large datasets it is advised to run the preprocessing on a
     # single machine first with ``args.preprocessing_only`` since there will mostly likely