NbAiLab
/

whisper

Model card Files Files and versions Community

pere commited on Nov 15, 2022

Commit

f5c74a6

•

1 Parent(s): f583313

update

Browse files

Files changed (2) hide show

run_test.nst +41 -0
run_whisper_finetuning.py +21 -18

run_test.nst ADDED Viewed

	@@ -0,0 +1,41 @@

+# Whisper Finetuning script for the NST dataset
+# Currently for training on a 48GB
+# Reduce batch size and learning rate if training on smaller GPU
+python run_whisper_finetuning.py \
+	--model_name_or_path="openai/whisper-small" \
+	--output_dir="../whisper-test-delete" \
+	--overwrite_output_dir=True \
+	--language="Norwegian" \
+	--task="transcribe" \
+	--dataset_name="NbAiLab/NST" \
+	--dataset_config="no-close" \
+	--do_train=True \
+	--do_eval=True \
+	--audio_column_name="audio" \
+	--text_column_name="text" \
+	--per_device_train_batch_size=48 \
+    	--per_device_train_batch_size=48 \
+	--learning_rate=4e-5 \
+	--warmup_steps=5 \
+	--max_steps=50 \
+	--gradient_checkpointing=True \
+	--gradient_accumulation_steps=1 \
+	--group_by_length=False \
+	--evaluation_strategy="steps" \
+	--save_steps=10 \
+	--eval_steps=10 \
+	--max_eval_samples=10 \
+	--logging_steps=10 \
+	--fp16=True \
+	--load_best_model_at_end=True \
+	--metric_for_best_model="wer" \
+	--greater_is_better=False \
+	--report_to="tensorboard" \
+	--predict_with_generate=True \
+	--generation_max_length=225 \
+	--print_training_arguments=True \
+	--push_to_hub=True

run_whisper_finetuning.py CHANGED Viewed

@@ -408,6 +408,9 @@ def main():
         model_args.model_name_or_path, language=model_args.language, task=model_args.task)
     data_collator = DataCollatorSpeechSeq2SeqWithPadding(processor=processor)
     # Prepare data
     # TODO The casting of the  not working on the NPSC in 48K. It seems to be working for Common Voice
@@ -416,6 +419,7 @@ def main():
     # train_dataset = train_dataset.cast_column("audio", Audio(sampling_rate=16000))
     # eval_dataset = eval_dataset.cast_column("audio", Audio(sampling_rate=16000))
     # TODO I would really like to remove the non needed columns here. At least this cleans up the output.
     # I am unable to figure out how to do this Streaming mode. Can not find a way to list columns.
@@ -425,7 +429,7 @@ def main():
     eval_dataset = eval_dataset.map(prepare_dataset)
     # Metrics
-    metric = evaluate.load("wer","cer")
     # Detecting last checkpoint.
     last_checkpoint = None
@@ -476,11 +480,8 @@ def main():
         # Num Epochs = 9223372036854775807
         # Instantaneous batch size per device = 48
-        # Saving the processor since we need it later
-        processor.save_pretrained(training_args.output_dir)
-        # TODO - I can not get the max_eval_steps to run directly. I am therefore including it here. Not very elegant, but it works.
         trainer = Seq2SeqTrainer(
             args=training_args,
             model=model,
@@ -501,24 +502,26 @@ def main():
         # TODO What does this do? Does this also mean we can load the state? Can this be done per checkpoint?
         trainer.save_state()
         if training_args.push_to_hub:
             trainer.push_to_hub(**kwargs)
         else:
             trainer.create_model_card(**kwargs)
-    # TODO - Look closer into the model card writing.
-    # Write model card and (optionally) push to hub
-    config_name = data_args.dataset_config_name if data_args.dataset_config_name is not None else "na"
-    kwargs = {
-        "finetuned_from": model_args.model_name_or_path,
-        "tasks": "automatic-speech-recognition",
-        "tags": ["hf-asr-leaderboard", "automatic-speech-recognition", data_args.dataset_name],
-        "dataset_args": f"Config: {config_name}, Training split: {data_args.train_split_name}, Eval split: {data_args.eval_split_name}",
-        "dataset": f"{data_args.dataset_name.upper()} - {config_name.upper()}",
-        "language": model_args.language,
-    }
-    return results
 # XLA hook
 def _mp_fn(index):

         model_args.model_name_or_path, language=model_args.language, task=model_args.task)
     data_collator = DataCollatorSpeechSeq2SeqWithPadding(processor=processor)
+    # Saving the processor and the tokenizer
+    processor.save_pretrained(training_args.output_dir)
+    tokenizer.save_pretrained(training_args.output_dir)
     # Prepare data
     # TODO The casting of the  not working on the NPSC in 48K. It seems to be working for Common Voice
     # train_dataset = train_dataset.cast_column("audio", Audio(sampling_rate=16000))
     # eval_dataset = eval_dataset.cast_column("audio", Audio(sampling_rate=16000))
     # TODO I would really like to remove the non needed columns here. At least this cleans up the output.
     # I am unable to figure out how to do this Streaming mode. Can not find a way to list columns.
     eval_dataset = eval_dataset.map(prepare_dataset)
     # Metrics
+    metric = evaluate.load("wer")
     # Detecting last checkpoint.
     last_checkpoint = None
         # Num Epochs = 9223372036854775807
         # Instantaneous batch size per device = 48
         trainer = Seq2SeqTrainer(
             args=training_args,
             model=model,
         # TODO What does this do? Does this also mean we can load the state? Can this be done per checkpoint?
         trainer.save_state()
+        # TODO - Look closer into the model card writing.
+        # Write model card and (optionally) push to hub
+        config_name = data_args.dataset_config_name if data_args.dataset_config_name is not None else "na"
+        kwargs = {
+            "finetuned_from": model_args.model_name_or_path,
+            "tasks": "automatic-speech-recognition",
+            "tags": ["hf-asr-leaderboard", "automatic-speech-recognition", data_args.dataset_name],
+            "dataset_args": f"Config: {config_name}, Training split: {data_args.train_split_name}, Eval split: {data_args.eval_split_name}",
+            "dataset": f"{data_args.dataset_name.upper()} - {config_name.upper()}",
+            "language": model_args.language,
+        }
         if training_args.push_to_hub:
             trainer.push_to_hub(**kwargs)
         else:
             trainer.create_model_card(**kwargs)
+    return train_result
 # XLA hook
 def _mp_fn(index):