kresnik
/

wav2vec2-large-xlsr-korean

Automatic Speech Recognition

Inference Endpoints

Model card Files Files and versions Community

kresnik commited on Jan 20, 2022

Commit

d058e04

•

1 Parent(s): b4cd658

Create README.md

Files changed (1) hide show

README.md +47 -0

README.md CHANGED Viewed

	@@ -0,0 +1,47 @@

+## Evaluation on Zeroth-Korean ASR corpus
+(Google colab notebook(Korean))[https://colab.research.google.com/github/indra622/tutorials/blob/master/wav2vec2_korean_tutorial.ipynb]
+```
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+from datasets import load_dataset
+import soundfile as sf
+import torch
+from jiwer import wer
+processor = Wav2Vec2Processor.from_pretrained("kresnik/wav2vec2-large-xlsr-korean")
+model = Wav2Vec2ForCTC.from_pretrained("kresnik/wav2vec2-large-xlsr-korean").to('cuda')
+ds = load_dataset("kresnik/zeroth_korean", "clean")
+test_ds = ds['test']
+def map_to_array(batch):
+    speech, _ = sf.read(batch["file"])
+    batch["speech"] = speech
+    return batch
+test_ds = test_ds.map(map_to_array)
+def map_to_pred(batch):
+    inputs = processor(batch["speech"], sampling_rate=16000, return_tensors="pt", padding="longest")
+    input_values = inputs.input_values.to("cuda")
+    #attention_mask = inputs.attention_mask.to("cuda")
+    with torch.no_grad():
+        #logits = model(input_values, attention_mask=attention_mask).logits
+        logits = model(input_values).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.batch_decode(predicted_ids)
+    batch["transcription"] = transcription
+    return batch
+result = test_ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=["speech"])
+print("WER:", wer(result["text"], result["transcription"]))
+```
+### Expected WER: 7.43%