gymeee
/

demo_code_switching

Automatic Speech Recognition

xlsr-fine-tuning-week

Inference Endpoints

Model card Files Files and versions Community

demo_code_switching / README.md

gymeee's picture

Update README.md

15a14dc over 1 year ago

|

history blame contribute delete

No virus

1.03 kB

	---
	license: apache-2.0
	datasets:
	- ASCEND
	language:
	- zh
	metrics:
	- cer
	tags:
	- audio
	- automatic-speech-recognition
	- speech
	- xlsr-fine-tuning-week
	---


	## inference

	The model can be used directly (without a language model) as follows...

	Using the [HuggingSound](https://github.com/jonatasgrosman/huggingsound) library:

	```python
	from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
	from datasets import load_dataset
	import torch
	import torchaudio



	# load model and processor
	processor = Wav2Vec2Processor.from_pretrained("gymeee/demo_code_switching")
	model = Wav2Vec2ForCTC.from_pretrained("gymeee/demo_code_switching")

	# load speech
	speech_array, sampling_rate = torchaudio.load("speech.wav")
	# tokenize
	input_values = processor(speech_array[0], return_tensors="pt", padding="longest").input_values # Batch size 1

	# retrieve logits
	logits = model(input_values).logits

	# take argmax and decode
	predicted_ids = torch.argmax(logits, dim=-1)
	transcription = processor.batch_decode(predicted_ids)

	transcription