hf-test
/

xls-r-300m-sv

Automatic Speech Recognition

generated_from_trainer

hf-asr-leaderboard

mozilla-foundation/common_voice_7_0

robust-speech-event

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

hf-test commited on Jan 10, 2022

Commit

974dfd3

•

1 Parent(s): 488c40e

Update README.md

Files changed (1) hide show

README.md +6 -10

README.md CHANGED Viewed

@@ -99,7 +99,7 @@ The following hyperparameters were used during training:
 - Datasets 1.17.1.dev0
 - Tokenizers 0.10.3
-### Inference Without Decoder
 ```python
 import torch
@@ -108,9 +108,11 @@ from transformers import AutoModelForCTC, AutoProcessor
 import torchaudio.functional as F
-model_id = "patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm"
-sample = next(iter(load_dataset("common_voice", "es", split="test", streaming=True)))
 resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
 model = AutoModelForCTC.from_pretrained(model_id)
@@ -121,15 +123,9 @@ input_values = processor(resampled_audio, return_tensors="pt").input_values
 with torch.no_grad():
     logits = model(input_values).logits
--prediction_ids = torch.argmax(logits, dim=-1)
--transcription = processor.batch_decode(prediction_ids)
-+transcription = processor.batch_decode(logits.numpy()).text
 ```
-### Inference With Decoder
 ### Eval results on Common Voice 7 "test":
 **Without LM**: 27.30 WER

 - Datasets 1.17.1.dev0
 - Tokenizers 0.10.3
+### Inference With LM
 ```python
 import torch
 import torchaudio.functional as F
+model_id = "hf-test/xls-r-300m-sv"
+sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "sv-SE", split="test", streaming=True, use_auth_token=True))
+sample = next(sample_iter)
 resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
 model = AutoModelForCTC.from_pretrained(model_id)
 with torch.no_grad():
     logits = model(input_values).logits
+transcription = processor.batch_decode(logits.numpy()).text
 ```
 ### Eval results on Common Voice 7 "test":
 **Without LM**: 27.30 WER