Spaces:

pratikshahp
/

speech-to-text

Sleeping

pratikshahp commited on Mar 26

Commit

1610c78

•

1 Parent(s): a006d14

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,7 +12,10 @@ def transcribe_audio(audio_bytes):
     # Convert bytes to numpy array
     audio_array = np.frombuffer(audio_bytes, dtype=np.int16)
-    input_values = processor(audio_array, return_tensors="pt", sampling_rate=16000).input_values
     logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.decode(predicted_ids[0])

     # Convert bytes to numpy array
     audio_array = np.frombuffer(audio_bytes, dtype=np.int16)
+    # Cast audio array to double precision and normalize
+    audio_tensor = torch.tensor(audio_array, dtype=torch.float64) / 32768.0
+    input_values = processor(audio_tensor, return_tensors="pt", sampling_rate=16000).input_values
     logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.decode(predicted_ids[0])