Spaces:

Baghdad99
/

ha-en

Sleeping

Baghdad99 commited on Dec 6, 2023

Commit

dd785c2

•

1 Parent(s): 0c9b489

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,6 +14,10 @@ tts_tokenizer = AutoTokenizer.from_pretrained("Baghdad99/english_voice_tts")
 tts_model = AutoModelForTextToWaveform.from_pretrained("Baghdad99/english_voice_tts")
 def translate_speech(speech):
     # Transcribe the speech to text
     inputs = asr_processor(speech, return_tensors="pt", padding=True)
     logits = asr_model(inputs.input_values).logits

 tts_model = AutoModelForTextToWaveform.from_pretrained("Baghdad99/english_voice_tts")
 def translate_speech(speech):
+    # Convert stereo to mono if necessary
+    if len(speech.shape) > 1:
+        speech = speech.mean(axis=0)
     # Transcribe the speech to text
     inputs = asr_processor(speech, return_tensors="pt", padding=True)
     logits = asr_model(inputs.input_values).logits