elgeish
/

wav2vec2-large-xlsr-53-arabic

@@ -24,7 +24,7 @@ model-index:
     metrics:
        - name: Test WER
          type: wer
-         value: 26.60
 ---
 # Wav2Vec2-Large-XLSR-53-Arabic
@@ -39,22 +39,27 @@ When using this model, make sure that your speech input is sampled at 16kHz.
 The model can be used directly (without a language model) as follows:
 ```python
-import librosa
 import torch
 from datasets import load_dataset
 from lang_trans.arabic import buckwalter
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 dataset = load_dataset("common_voice", "ar", split="test[:10]")
-processor = Wav2Vec2Processor.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic")
-model = Wav2Vec2ForCTC.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic")
-model.eval()
 def prepare_example(example):
-    example["speech"], _ = librosa.load(example["path"], sr=16000)
     return example
 dataset = dataset.map(prepare_example)
 def predict(batch):
     inputs = processor(batch["speech"], sampling_rate=16000, return_tensors="pt", padding=True)
@@ -113,17 +118,23 @@ The model can be evaluated as follows on the Arabic test data of Common Voice:
 ```python
 import jiwer
-import librosa
 import torch
 from datasets import load_dataset
 from lang_trans.arabic import buckwalter
 from transformers import set_seed, Wav2Vec2ForCTC, Wav2Vec2Processor
 set_seed(42)
 test_split = load_dataset("common_voice", "ar", split="test")
 def prepare_example(example):
-    example["speech"], _ = librosa.load(example["path"], sr=16000)
     return example
 test_split = test_split.map(prepare_example)
@@ -159,7 +170,7 @@ metrics = jiwer.compute_measures(
 print(f"WER: {metrics['wer']:.2%}")
 ```
-**Test Result**: 26.60%
 ## Training

     metrics:
        - name: Test WER
          type: wer
+         value: 26.55
 ---
 # Wav2Vec2-Large-XLSR-53-Arabic
 The model can be used directly (without a language model) as follows:
 ```python
 import torch
+import torchaudio
 from datasets import load_dataset
 from lang_trans.arabic import buckwalter
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 dataset = load_dataset("common_voice", "ar", split="test[:10]")
+resamplers = {  # all three sampling rates exist in test split
+    48000: torchaudio.transforms.Resample(48000, 16000),
+    44100: torchaudio.transforms.Resample(44100, 16000),
+    32000: torchaudio.transforms.Resample(32000, 16000),
+}
 def prepare_example(example):
+    speech, sampling_rate = torchaudio.load(example["path"])
+    example["speech"] = resamplers[sampling_rate](speech).squeeze().numpy()
     return example
 dataset = dataset.map(prepare_example)
+processor = Wav2Vec2Processor.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic")
+model = Wav2Vec2ForCTC.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic").eval()
 def predict(batch):
     inputs = processor(batch["speech"], sampling_rate=16000, return_tensors="pt", padding=True)
 ```python
 import jiwer
 import torch
+import torchaudio
 from datasets import load_dataset
 from lang_trans.arabic import buckwalter
 from transformers import set_seed, Wav2Vec2ForCTC, Wav2Vec2Processor
 set_seed(42)
 test_split = load_dataset("common_voice", "ar", split="test")
+resamplers = {  # all three sampling rates exist in test split
+    48000: torchaudio.transforms.Resample(48000, 16000),
+    44100: torchaudio.transforms.Resample(44100, 16000),
+    32000: torchaudio.transforms.Resample(32000, 16000),
+}
 def prepare_example(example):
+    speech, sampling_rate = torchaudio.load(example["path"])
+    example["speech"] = resamplers[sampling_rate](speech).squeeze().numpy()
     return example
 test_split = test_split.map(prepare_example)
 print(f"WER: {metrics['wer']:.2%}")
 ```
+**Test Result**: 26.55%
 ## Training