Update Example Code Snippets

Fixes #5. Note that the `SpeechEncoderDecoderModel` allows for arbitrary combinations of speech encoders and text decoders. Hence, we have arbitrary combinations of feature extractors and tokenizers, meaning it's not possible to define a processor class (which requires fixed feature extractor and tokenizer classes). Thus, we explicitly define which feature extractor and tokenizer we are using the `AutoFeatureExtractor` and `AutoTokenizer` classes.

cc

@Changhan

- it would be great if you could merge this simple README update for Transformers usage! Thanks!

Files changed (1) hide show

README.md +9 -7

README.md CHANGED Viewed

@@ -106,7 +106,7 @@ from transformers import pipeline
 librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 audio_file = librispeech_en[0]["file"]
-asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-1b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-1b-21-to-en")
 translation = asr(audio_file)
 ```
@@ -115,17 +115,19 @@ or step-by-step as follows:
 ```python
 import torch
-from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
 from datasets import load_dataset
 model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
-processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
-ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
-inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
-generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
-transcription = processor.batch_decode(generated_ids)
 ```
 ## Results `{lang}` -> `en`

 librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 audio_file = librispeech_en[0]["file"]
+asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-1b-21-to-en")
 translation = asr(audio_file)
 ```
 ```python
 import torch
+from transformers import AutoFeatureExtractor, AutoTokenizer, SpeechEncoderDecoderModel
 from datasets import load_dataset
 model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
+feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
+tokenizer = AutoTokenizer.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
+librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
+sample = librispeech_en[0]["audio"]
+inputs = feature_extractor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt")
+generated_ids = model.generate(**inputs)
+transcription = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
 ```
 ## Results `{lang}` -> `en`