voidful
/

wav2vec2-large-xlsr-53-hk

Automatic Speech Recognition

hf-asr-leaderboard

robust-speech-event

xlsr-fine-tuning-week

Inference Endpoints

Model card Files Files and versions Community

voidful commited on Mar 16, 2021

Commit

ecf47c2

•

1 Parent(s): 3f42bd2

Update README.md

Files changed (1) hide show

README.md +49 -0

README.md CHANGED Viewed

@@ -9,6 +9,55 @@ tags:
 license: apache-2.0
 ---
 ## Evaluation on Common Voice HK Test
 ```python
 import torchaudio

 license: apache-2.0
 ---
+## Colab trial with recording or voice file
+[Colab trial](https://colab.research.google.com/drive/1e_z5jQHYbO2YKEaUgzb1ww1WwiAyydAj?usp=sharing)
+```
+import torchaudio
+from datasets import load_dataset, load_metric
+from transformers import (
+    Wav2Vec2ForCTC,
+    Wav2Vec2Processor,
+)
+import torch
+import re
+import sys
+model_name = "voidful/wav2vec2-large-xlsr-53-hk"
+device = "cuda"
+processor_name = "voidful/wav2vec2-large-xlsr-53-hk"
+chars_to_ignore_regex = r"[¥•＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､　、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·'℃°•·．﹑︰〈〉─《﹖﹣﹂﹁﹔！？｡。＂＃＄％＆＇（）＊＋，﹐－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.．!\"#$%&()*+,\-.\:;<=>?@\[\]\\\/^_`{|}~]"
+model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
+processor = Wav2Vec2Processor.from_pretrained(processor_name)
+resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)
+def load_file_to_data(file):
+    batch = {}
+    speech, _ = torchaudio.load(file)
+    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
+    batch["sampling_rate"] = resampler.new_freq
+    return batch
+def predict(data):
+    features = processor(data["speech"], sampling_rate=data["sampling_rate"], padding=True, return_tensors="pt")
+    input_values = features.input_values.to(device)
+    attention_mask = features.attention_mask.to(device)
+    with torch.no_grad():
+        logits = model(input_values, attention_mask=attention_mask).logits
+    pred_ids = torch.argmax(logits, dim=-1)
+    return processor.batch_decode(pred_ids)
+```
+Predict
+```python
+predict(load_file_to_data('voice file path'))
+```
 ## Evaluation on Common Voice HK Test
 ```python
 import torchaudio