cahya
/

wav2vec2-large-xlsr-indonesian

Automatic Speech Recognition

xlsr-fine-tuning-week

Inference Endpoints

Model card Files Files and versions Community

cahya commited on Mar 20, 2021

Commit

f33e29f

•

1 Parent(s): 238fcb5

Update README.md

Files changed (1) hide show

README.md +46 -1

README.md CHANGED Viewed

@@ -1,3 +1,4 @@
 language: id
 datasets:
 - common_voice
@@ -22,4 +23,48 @@ model-index:
     metrics:
        - name: Test WER
          type: wer
-         value: 0.40

+---
 language: id
 datasets:
 - common_voice
     metrics:
        - name: Test WER
          type: wer
+         value: 0.40
+---
+# Wav2Vec2-Large-XLSR-Indonesian
+Fine-tuned [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53)
+on the [Indonesian Common Voice dataset](https://huggingface.co/datasets/common_voice).
+When using this model, make sure that your speech input is sampled at 16kHz.
+## Usage
+The model can be used directly (without a language model) as follows:
+```python
+import librosa
+import torch
+from datasets import load_dataset
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+dataset = load_dataset("common_voice", "id", split="test")  # "test[:n]" for n examples
+processor = Wav2Vec2Processor.from_pretrained("cahya/wav2vec2-large-xlsr-indonesian")
+model = Wav2Vec2ForCTC.from_pretrained("cahya/wav2vec2-large-xlsr-indonesian")
+model.eval()
+def prepare_example(example):
+    example["speech"], _ = librosa.load(example["file"], sr=16000)
+    example["text"] = example["text"].replace("-", " ").replace('！ ', '')
+    example["text"] = " ".join(w for w in example["text"].split() if w != "sil")
+    return example
+dataset = dataset.map(prepare_example, remove_columns=["file", "orthographic", "phonetic"])
+def predict(batch):
+    inputs = processor(batch["speech"], sampling_rate=16000, return_tensors="pt", padding="longest")
+    with torch.no_grad():
+        predicted = torch.argmax(model(inputs.input_values).logits, dim=-1)
+    predicted[predicted == -100] = processor.tokenizer.pad_token_id  # see fine-tuning script
+    batch["predicted"] = processor.tokenizer.batch_decode(predicted)
+    return batch
+dataset = dataset.map(predict, batched=True, batch_size=1, remove_columns=["speech"])
+for reference, predicted in zip(dataset["text"], dataset["predicted"]):
+    print("reference:", reference)
+    print("predicted:", predicted)
+    #print("reference (untransliterated):", buckwalter.untrans(reference))
+    #print("predicted (untransliterated):", buckwalter.untrans(predicted))
+    print("--")
+```