johntsi
/

ZeroSwot-Medium_asr-cv_en-to-200

Automatic Speech Recognition

zero_swot_encoder

feature-extraction

speech translation

Model card Files Files and versions Community

johntsi commited on 16 days ago

Commit

62a4416

•

1 Parent(s): eafabee

Update README.md

Files changed (1) hide show

README.md +13 -6

README.md CHANGED Viewed

@@ -255,6 +255,13 @@ This version of ZeroSwot is trained with ASR data from CommonVoice, and adapting
 ## Usage
 ```python
 from transformers import Wav2Vec2Processor, NllbTokenizer, AutoModel, AutoModelForSeq2SeqLM
 import torchaudio
@@ -271,21 +278,21 @@ processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60
 tokenizer = NllbTokenizer.from_pretrained("facebook/nllb-200-distilled-600M")
 # Load ZeroSwot Encoder
-commit_hash = "1d38f5dbf4f89adefe06961e4ec344b21f74ebae"
 zeroswot_encoder = AutoModel.from_pretrained(
     "johntsi/ZeroSwot-Medium_asr-cv_en-to-200", trust_remote_code=True, revision=commit_hash,
 )
-model.eval()
-model.to("cuda")
 # Load NLLB Model
 nllb_model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-distilled-600M")
 nllb_model.eval()
 nllb_model.to("cuda")
-# Load sample .wav
-audio = load_and_resample_audio("resources/sample.wav")
-input_values = processor(audio, sampling_rate=16000, return_tensors="pt").cuda()
 # translation to German
 compressed_embeds, attention_mask = zeroswot_encoder(**input_values)

 ## Usage
+The usage is tested with python 3.9.16 and Transformer v4.41.2. Install also torchaudio and sentencepiece for processing.
+```bash
+pip install transformers torchaudio sentencepiece
+```
 ```python
 from transformers import Wav2Vec2Processor, NllbTokenizer, AutoModel, AutoModelForSeq2SeqLM
 import torchaudio
 tokenizer = NllbTokenizer.from_pretrained("facebook/nllb-200-distilled-600M")
 # Load ZeroSwot Encoder
+commit_hash = "eafabee295ea1c8b45483d1fd26bd747d9a7d937"
 zeroswot_encoder = AutoModel.from_pretrained(
     "johntsi/ZeroSwot-Medium_asr-cv_en-to-200", trust_remote_code=True, revision=commit_hash,
 )
+zeroswot_encoder.eval()
+zeroswot_encoder.to("cuda")
 # Load NLLB Model
 nllb_model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-distilled-600M")
 nllb_model.eval()
 nllb_model.to("cuda")
+# Load audio file
+audio = load_and_resample_audio(path_to_audio_file)
+input_values = processor(audio, sampling_rate=16000, return_tensors="pt").to("cuda")
 # translation to German
 compressed_embeds, attention_mask = zeroswot_encoder(**input_values)