Spaces:

frogcho123
/

s2t2s

Running

App Files Files Community

frogcho123 commited on Jun 19, 2023

Commit

87d303a

•

1 Parent(s): bd97165

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -11

app.py CHANGED Viewed

@@ -7,20 +7,15 @@ import sentencepiece
 def translate_voice(file, target_lang):
-    try:
-        # Load the model and switch to float32
         model = whisper.load_model("base").float()
-        # Load the audio
         audio = whisper.load_audio(file.name)
-        # Pad or trim the audio
         audio = whisper.pad_or_trim(audio)
-        # Convert the audio to a log Mel spectrogram and move it to the same device as the model (CPU in your case)
-        mel = whisper.log_mel_spectrogram(audio).to(model.device).float()  # convert to full-precision float32
-        # Proceed with your language detection and decoding
         _, probs = model.detect_language(mel)
         options = whisper.DecodingOptions(fp16 = False)
         result = whisper.decode(model, mel, options)
@@ -28,7 +23,6 @@ def translate_voice(file, target_lang):
         text = result.text
         lang = max(probs, key=probs.get)
-        # Translate
         tokenizer = AutoTokenizer.from_pretrained("alirezamsh/small100")
         model = AutoModelForSeq2SeqLM.from_pretrained("alirezamsh/small100")
@@ -37,15 +31,12 @@ def translate_voice(file, target_lang):
         generated_tokens = model.generate(**encoded_bg)
         translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
-        # Text-to-audio (TTS)
         tts = gTTS(text=translated_text, lang=target_lang)
         filename = "to_speech.mp3"
         tts.save(filename)
         return filename, text, translated_text, target_lang
-    except Exception as e:
-        return str(e), "", "", ""
 iface = gr.Interface(
     fn=translate_voice,

 def translate_voice(file, target_lang):
         model = whisper.load_model("base").float()
         audio = whisper.load_audio(file.name)
         audio = whisper.pad_or_trim(audio)
+        mel = whisper.log_mel_spectrogram(audio).to(model.device).float()
         _, probs = model.detect_language(mel)
         options = whisper.DecodingOptions(fp16 = False)
         result = whisper.decode(model, mel, options)
         text = result.text
         lang = max(probs, key=probs.get)
         tokenizer = AutoTokenizer.from_pretrained("alirezamsh/small100")
         model = AutoModelForSeq2SeqLM.from_pretrained("alirezamsh/small100")
         generated_tokens = model.generate(**encoded_bg)
         translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
         tts = gTTS(text=translated_text, lang=target_lang)
         filename = "to_speech.mp3"
         tts.save(filename)
         return filename, text, translated_text, target_lang
 iface = gr.Interface(
     fn=translate_voice,