dmusingu
/

w2v-bert-2.0-luganda-CV-train-validation-7.0

Automatic Speech Recognition

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

dmusingu commited on Mar 3

Commit

ace64ac

•

1 Parent(s): ad21e49

Update README.md

Files changed (1) hide show

README.md +57 -0

README.md CHANGED Viewed

@@ -117,3 +117,60 @@ print("Reference:", test_dataset["sentence"][:2])
 ```
 ### Evaluation

 ```
 ### Evaluation
+The model can be evaluated as follows on the Luganda test dataset.
+```python
+import torch
+import torchaudio
+from datasets import load_dataset, load_metric
+from transformers import AutoModelForCTC, Wav2Vec2BertProcessor
+import re
+test_dataset = load_dataset("common_voice", "lg", split="test")
+wer = load_metric("wer")
+model = AutoModelForCTC.from_pretrained("dmusingu/w2v-bert-2.0-luganda-CV-train-validation-7.0").to('cuda')
+processor = Wav2Vec2BertProcessor.from_pretrained("dmusingu/w2v-bert-2.0-luganda-CV-train-validation-7.0")
+chars_to_remove_regex = '[\,\?\.\!\-\;\:\"\“\%\‘\”\�\'\»\«]'
+test_dataset = test_dataset.cast_column("audio", Audio(sampling_rate=16_000))
+def remove_special_characters(batch):
+    # remove special characters
+    batch["sentence"] = re.sub(chars_to_remove_regex, '', batch["sentence"]).lower()
+    return batch
+test_dataset = test_dataset.map(remove_special_characters)
+def prepare_dataset(batch):
+    audio = batch["audio"]
+    batch["input_features"] = processor(audio["array"], sampling_rate=audio["sampling_rate"]).input_features[0]
+    batch["input_length"] = len(batch["input_features"])
+    batch["labels"] = processor(text=batch["sentence"]).input_ids
+    return batch
+test_dataset = test_dataset.map(prepare_dataset, remove_columns=test_dataset.column_names)
+# Evaluation is carried out with a batch size of 1
+def map_to_result(batch):
+  with torch.no_grad():
+    input_values = torch.tensor(batch["input_features"], device="cuda").unsqueeze(0)
+    logits = model(input_values).logits
+  pred_ids = torch.argmax(logits, dim=-1)
+  batch["pred_str"] = processor.batch_decode(pred_ids)[0]
+  batch["text"] = processor.decode(batch["labels"], group_tokens=False)
+  return batch
+results = test_dataset.map(map_to_result)
+print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results["pred_str"], references=results["text"])))
+```
+### Test Result: 19.4%