gymeee
/

demo_code_switching

Automatic Speech Recognition

xlsr-fine-tuning-week

Inference Endpoints

Model card Files Files and versions Community

gymeee commited on Jan 12, 2023

Commit

eb4c285

•

1 Parent(s): d212694

README.md

Files changed (1) hide show

README.md +47 -0

README.md ADDED Viewed

	@@ -0,0 +1,47 @@

+---
+license: apache-2.0
+datasets:
+- ASCEND
+language:
+- zh
+metrics:
+- cer
+tags:
+- audio
+- automatic-speech-recognition
+- speech
+- xlsr-fine-tuning-week
+---
+## inference
+The model can be used directly (without a language model) as follows...
+Using the [HuggingSound](https://github.com/jonatasgrosman/huggingsound) library:
+```python
+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+from datasets import load_dataset
+import torch
+import torchaudio
+# load model and processor
+processor = Wav2Vec2Processor.from_pretrained("gymeee/demo_code_switching")
+model = Wav2Vec2ForCTC.from_pretrained("gymeee/demo_code_switching")
+# load speech
+speech_array, sampling_rate = torchaudio.load("speech.wav")
+# tokenize
+input_values = processor(speech_array[0], return_tensors="pt", padding="longest").input_values  # Batch size 1
+# retrieve logits
+logits = model(input_values).logits
+# take argmax and decode
+predicted_ids = torch.argmax(logits, dim=-1)
+transcription = processor.batch_decode(predicted_ids)
+print(transcription)