arijitx
/

wav2vec2-large-xlsr-bengali

@@ -42,7 +42,7 @@ from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 processor = Wav2Vec2Processor.from_pretrained("arijitx/wav2vec2-large-xlsr-bengali")
 model = Wav2Vec2ForCTC.from_pretrained("arijitx/wav2vec2-large-xlsr-bengali")
-model = model.to("cuda")
 resampler = torchaudio.transforms.Resample(TEST_AUDIO_SR, 16_000)
 def speech_file_to_array_fn(batch):
@@ -53,7 +53,7 @@ def speech_file_to_array_fn(batch):
 speech_array = speech_file_to_array_fn("test_file.wav")
 inputs = processor(speech_array, sampling_rate=16_000, return_tensors="pt", padding=True)
 with torch.no_grad():
-    logits = model(inputs.input_values.to('cuda')).logits
 predicted_ids = torch.argmax(logits, dim=-1)

 processor = Wav2Vec2Processor.from_pretrained("arijitx/wav2vec2-large-xlsr-bengali")
 model = Wav2Vec2ForCTC.from_pretrained("arijitx/wav2vec2-large-xlsr-bengali")
+# model = model.to("cuda")
 resampler = torchaudio.transforms.Resample(TEST_AUDIO_SR, 16_000)
 def speech_file_to_array_fn(batch):
 speech_array = speech_file_to_array_fn("test_file.wav")
 inputs = processor(speech_array, sampling_rate=16_000, return_tensors="pt", padding=True)
 with torch.no_grad():
+    logits = model(inputs.input_values).logits
 predicted_ids = torch.argmax(logits, dim=-1)