othrif
/

wav2vec2-large-xlsr-arabic

Automatic Speech Recognition

xlsr-fine-tuning-week

Inference Endpoints

Model card Files Files and versions Community

othrif commited on Mar 27, 2021

Commit

cb918cb

•

1 Parent(s): 3e7d7b0

save all

Files changed (2) hide show

finetune.sh +4 -1
run_common_voice.py +3 -3

finetune.sh CHANGED Viewed

@@ -6,7 +6,6 @@ mkdir -p ${model_path}
 python run_common_voice.py \
     --dataloader_num_workers="8" \
     --model_name_or_path="facebook/wav2vec2-large-xlsr-53" \
-    #--overwrite_output_dir \
     --dataset_config_name="ar" \
     --output_dir=${model_path} \
     --num_train_epochs="50" \
@@ -32,6 +31,10 @@ python run_common_voice.py \
     --do_train --do_eval

 python run_common_voice.py \
     --dataloader_num_workers="8" \
     --model_name_or_path="facebook/wav2vec2-large-xlsr-53" \
     --dataset_config_name="ar" \
     --output_dir=${model_path} \
     --num_train_epochs="50" \
     --do_train --do_eval
+    #--model_name_or_path="facebook/wav2vec2-large-xlsr-53" \
+    #--overwrite_output_dir \
+    #--model_name_or_path="/home/othrif/projects/wav2vec2/finetune-xlsr/models/ar/msa/wav2vec2-large-xlsr-arabic" \

run_common_voice.py CHANGED Viewed

@@ -319,14 +319,14 @@ def main():
         batch["text"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).lower() + " "
         return batch
-    train_dataset = train_dataset.map(remove_special_characters, remove_columns=["sentence"])
-    eval_dataset = eval_dataset.map(remove_special_characters, remove_columns=["sentence"])
     # For arabic diacritics
     cleander = tn.Tnkeeh(remove_diacritics=True)
     train_dataset = cleander.clean_hf_dataset(train_dataset, 'sentence')
     eval_dataset = cleander.clean_hf_dataset(eval_dataset, 'sentence')
     def extract_all_chars(batch):
         all_text = " ".join(batch["text"])
         vocab = list(set(all_text))

         batch["text"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).lower() + " "
         return batch
     # For arabic diacritics
     cleander = tn.Tnkeeh(remove_diacritics=True)
     train_dataset = cleander.clean_hf_dataset(train_dataset, 'sentence')
     eval_dataset = cleander.clean_hf_dataset(eval_dataset, 'sentence')
+    train_dataset = train_dataset.map(remove_special_characters, remove_columns=["sentence"])
+    eval_dataset = eval_dataset.map(remove_special_characters, remove_columns=["sentence"])
     def extract_all_chars(batch):
         all_text = " ".join(batch["text"])
         vocab = list(set(all_text))