SLPL
/

Sharif-wav2vec2

Automatic Speech Recognition

Model card Files Files and versions Community

sadrasabouri commited on Sep 18, 2022

Commit

b8eb4fa

·

1 Parent(s): 177ebd7

Update README.md

Files changed (1) hide show

README.md +17 -8

README.md CHANGED Viewed

@@ -101,7 +101,10 @@ processor = Wav2Vec2ProcessorWithLM.from_pretrained("SLPL/Sharif-wav2vec2")
 def speech_file_to_array_fn(batch):
     speech_array, sampling_rate = torchaudio.load(batch["path"])
     speech_array = speech_array.squeeze().numpy()
-    speech_array = librosa.resample(np.asarray(speech_array), sampling_rate, processor.feature_extractor.sampling_rate)
     batch["speech"] = speech_array
     return batch
@@ -112,24 +115,30 @@ def predict(batch):
         return_tensors="pt",
         padding=True
     )
-    input_values = features.input_values
-    attention_mask = features.attention_mask
     with torch.no_grad():
-        logits = model(input_values, attention_mask=attention_mask).logits #when we are trying to load model with LM we have to use logits instead of argmax(logits)
     batch["prediction"] = processor.batch_decode(logits.numpy()).text
     return batch
-dataset = load_dataset("csv", data_files={"test":"path/to/your.csv"}, delimiter=",")["test"]
 dataset = dataset.map(speech_file_to_array_fn)
 result = dataset.map(predict, batched=True, batch_size=4)
 wer = load_metric("wer")
 cer = load_metric("cer")
-print("WER: {:.2f}".format(100 * wer.compute(predictions=result["prediction"], references=result["reference"])))
-print("CER: {:.2f}".format(100 * cer.compute(predictions=result["prediction"], references=result["reference"])))
 ```
 *Result (WER) on common-voice 6.1*:

 def speech_file_to_array_fn(batch):
     speech_array, sampling_rate = torchaudio.load(batch["path"])
     speech_array = speech_array.squeeze().numpy()
+    speech_array = librosa.resample(
+        np.asarray(speech_array),
+        sampling_rate,
+        processor.feature_extractor.sampling_rate)
     batch["speech"] = speech_array
     return batch
         return_tensors="pt",
         padding=True
     )
     with torch.no_grad():
+        logits = model(
+            features.input_values,
+            attention_mask=features.attention_mask).logits
     batch["prediction"] = processor.batch_decode(logits.numpy()).text
     return batch
+dataset = load_dataset(
+    "csv",
+    ata_files={"test":"dataset.eval.csv"},
+    delimiter=",")["test"]
 dataset = dataset.map(speech_file_to_array_fn)
 result = dataset.map(predict, batched=True, batch_size=4)
 wer = load_metric("wer")
 cer = load_metric("cer")
+print("WER: {:.2f}".format(wer.compute(
+    predictions=result["prediction"],
+    references=result["reference"])))
+print("CER: {:.2f}".format(cer.compute(
+    predictions=result["prediction"],
+    references=result["reference"])))
 ```
 *Result (WER) on common-voice 6.1*: