patrickvonplaten
/

wav2vec2-large-xlsr-53-spanish-with-lm

Automatic Speech Recognition

xlsr-fine-tuning-week

Inference Endpoints

Model card Files Files and versions Community

patrickvonplaten commited on Dec 2, 2021

Commit

2502577

•

1 Parent(s): 43b9e58

Update README.md

Files changed (1) hide show

README.md +7 -4

README.md CHANGED Viewed

@@ -27,7 +27,8 @@ In a nutshell: This PR adds a new Wav2Vec2WithLMProcessor class as drop-in repla
 The only change from the existing ASR pipeline will be:
 ```diff
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 from datasets import load_dataset
 ds = load_dataset("common_voice", "es", split="test", streaming=True)
@@ -35,14 +36,16 @@ ds = load_dataset("common_voice", "es", split="test", streaming=True)
 sample = next(iter(ds))
 model = Wav2Vec2ForCTC.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
-processor = Wav2Vec2Processor.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
 input_values = processor(sample["audio"]["array"], return_tensors="pt").input_values
 logits = model(input_values).logits
-prediction_ids = torch.argmax(logits, dim=-1)
-transcription = processor.batch_decode(prediction_ids)
 print(transcription)
 ```

 The only change from the existing ASR pipeline will be:
 ```diff
+-from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
++from transformers import Wav2Vec2ForCTC, Wav2Vec2ProcessorWithLM
 from datasets import load_dataset
 ds = load_dataset("common_voice", "es", split="test", streaming=True)
 sample = next(iter(ds))
 model = Wav2Vec2ForCTC.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
+-processor = Wav2Vec2Processor.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
++processor = Wav2Vec2ProcessorWithLM.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
 input_values = processor(sample["audio"]["array"], return_tensors="pt").input_values
 logits = model(input_values).logits
+-prediction_ids = torch.argmax(logits, dim=-1)
+-transcription = processor.batch_decode(prediction_ids)
++transcription = processor.batch_decode(logits)
 print(transcription)
 ```