Rolv-Arild
/

xls-r-300m-npsc-seq2seq

@@ -1,7 +1,7 @@
 python run_speech_recognition_seq2seq.py \
 	--dataset_name="NbAiLab/NPSC" \
-        --dataset_config_name="16K_mp3" \
-        --data_cache_dir="/mnt/lv_ai_1_ficino/rolvb/cache" \
 	--model_name_or_path="./" \
 	--output_dir="./" \
 	--preprocessing_num_workers="16" \
@@ -12,7 +12,7 @@ python run_speech_recognition_seq2seq.py \
 	--per_device_eval_batch_size="8" \
 	--gradient_accumulation_steps="8" \
 	--learning_rate="3e-4" \
-	--warmup_steps="400" \
 	--evaluation_strategy="steps" \
 	--text_column_name="text" \
 	--save_steps="400" \
@@ -28,5 +28,4 @@ python run_speech_recognition_seq2seq.py \
 	--generation_num_beams="1" \
 	--do_train --do_eval \
 	--do_lower_case \
-        --preprocessing_num_workers="8" \
-        --push_to_hub

 python run_speech_recognition_seq2seq.py \
 	--dataset_name="NbAiLab/NPSC" \
+  --dataset_config_name="16K_mp3" \
+  --data_cache_dir="/mnt/lv_ai_1_ficino/rolvb/cache" \
 	--model_name_or_path="./" \
 	--output_dir="./" \
 	--preprocessing_num_workers="16" \
 	--per_device_eval_batch_size="8" \
 	--gradient_accumulation_steps="8" \
 	--learning_rate="3e-4" \
+	--warmup_steps="1000" \
 	--evaluation_strategy="steps" \
 	--text_column_name="text" \
 	--save_steps="400" \
 	--generation_num_beams="1" \
 	--do_train --do_eval \
 	--do_lower_case \
+  --push_to_hub

run_speech_recognition_seq2seq.py CHANGED Viewed

@@ -21,6 +21,7 @@ Fine-tuning the library models for sequence to sequence speech recognition.
 import logging
 import os
 import sys
 from dataclasses import dataclass, field
 from typing import Any, Dict, List, Optional, Union
@@ -355,7 +356,6 @@ def main():
     min_input_length = data_args.min_duration_in_seconds * feature_extractor.sampling_rate
     audio_column_name = data_args.audio_column_name
     num_workers = data_args.preprocessing_num_workers
-    text_column_name = data_args.text_column_name
     model_input_name = feature_extractor.model_input_names[0]
     do_lower_case = data_args.do_lower_case
@@ -373,8 +373,12 @@ def main():
         batch[model_input_name] = inputs.input_values[0]
         batch["input_length"] = len(batch["input_values"])
         # process targets
         input_str = batch[text_column_name].lower() if do_lower_case else batch[text_column_name]
         batch["labels"] = tokenizer(input_str).input_ids
         return batch
@@ -389,7 +393,7 @@ def main():
     # filter data that is shorter than min_input_length or longer than
     # max_input_length
     def is_audio_in_length_range(length):
-        return length > min_input_length and length < max_input_length
     vectorized_datasets = vectorized_datasets.filter(
         is_audio_in_length_range,

 import logging
 import os
+import re
 import sys
 from dataclasses import dataclass, field
 from typing import Any, Dict, List, Optional, Union
     min_input_length = data_args.min_duration_in_seconds * feature_extractor.sampling_rate
     audio_column_name = data_args.audio_column_name
     num_workers = data_args.preprocessing_num_workers
     model_input_name = feature_extractor.model_input_names[0]
     do_lower_case = data_args.do_lower_case
         batch[model_input_name] = inputs.input_values[0]
         batch["input_length"] = len(batch["input_values"])
+        text_column_name = "transsentence_text" if batch["sentence_language_code"] == "nn-NO" else "normsentence_text"
         # process targets
         input_str = batch[text_column_name].lower() if do_lower_case else batch[text_column_name]
+        input_str = re.sub(r"<\*?(ee|qq|mm|inaudible)>", "", input_str, re.IGNORECASE)
         batch["labels"] = tokenizer(input_str).input_ids
         return batch
     # filter data that is shorter than min_input_length or longer than
     # max_input_length
     def is_audio_in_length_range(length):
+        return min_input_length < length < max_input_length
     vectorized_datasets = vectorized_datasets.filter(
         is_audio_in_length_range,