Spaces:

cotxetj
/

swedish-to-speech-or-text

Runtime error

cotxetj commited on Dec 2, 2023

Commit

58cb1a8

•

1 Parent(s): 1eac7b5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -33,18 +33,18 @@ pipe = pipeline("automatic-speech-recognition",
 )
 # Load the model checkpoint and tokenizer
-#model = VitsModel.from_pretrained("Matthijs/mms-tts-fra")
-#tokenizer = VitsTokenizer.from_pretrained("Matthijs/mms-tts-fra")
-model2 = VitsModel.from_pretrained("facebook/mms-tts-fra")
-tokenizer = VitsTokenizer.from_pretrained("facebook/mms-tts-fra")
 # Define a function to translate an audio, in english here
 def translate(audio):
-    return inference(audio)
-    # outputs = pipe(audio, max_new_tokens=256,
-    #                generate_kwargs={"task": "transcribe", "language": "english"})
-    # return outputs["text"]
 # Define function to generate the waveform output
@@ -70,7 +70,7 @@ def predict(transType, language, audio, audio_mic = None):
         print("debug1:", audio,"debug2", audio_mic)
         if not audio and audio_mic:
             audio = audio_mic
         if transType == "Text":
             return translate(audio), None
         if transType == "Audio":
@@ -95,7 +95,8 @@ demo = gr.Interface(
     inputs=[
         gr.Radio(label="Choose your output format", choices=transTypes),
         gr.Radio(label="Choose a source language", choices=supportLangs, value="Swedish"),
-        gr.Audio(label="Import an audio", sources="upload", type="filepath"),
         gr.Audio(label="Record an audio", sources="microphone", type="filepath"),
     ],
     outputs=[

 )
 # Load the model checkpoint and tokenizer
+#model = VitsModel.from_pretrained("Matthijs/mms-tts-eng")
+#tokenizer = VitsTokenizer.from_pretrained("Matthijs/mms-tts-eng")
+model2 = VitsModel.from_pretrained("facebook/mms-tts-eng")
+tokenizer = VitsTokenizer.from_pretrained("facebook/mms-tts-eng")
 # Define a function to translate an audio, in english here
 def translate(audio):
+    # return inference(audio)
+    outputs = pipe(audio, max_new_tokens=256,
+                   generate_kwargs={"task": "translate", "language": "swedish"})
+    return outputs["text"]
 # Define function to generate the waveform output
         print("debug1:", audio,"debug2", audio_mic)
         if not audio and audio_mic:
             audio = audio_mic
+        audio = audio[1]
         if transType == "Text":
             return translate(audio), None
         if transType == "Audio":
     inputs=[
         gr.Radio(label="Choose your output format", choices=transTypes),
         gr.Radio(label="Choose a source language", choices=supportLangs, value="Swedish"),
+        #gr.Audio(label="Import an audio", sources="upload", type="filepath"),
+        gr.Audio(label="Import an audio", sources="upload", type="numpy"),
         gr.Audio(label="Record an audio", sources="microphone", type="filepath"),
     ],
     outputs=[