Spaces:

Karthik64001
/

Voice-tamkl

Runtime error

Karthik64001 commited on Jun 7

Commit

460593c

•

1 Parent(s): e0640e9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,16 +1,16 @@
 import gradio as gr
-from transformers import VitsModel, AutoTokenizer
 import torch
 import scipy.io.wavfile
 from pydub import AudioSegment
-# Initialize the TTS model
 model_name = "facebook/mms-tts-tam"
-tts_model = VitsModel.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-def audio_to_waveform(audio):
-    audio = AudioSegment.from_file(audio)
     waveform = torch.FloatTensor(audio.get_array_of_samples()).view(1, -1)
     return waveform
@@ -20,17 +20,16 @@ def change_voice(input_audio, voice_sample, language):
     voice_waveform = audio_to_waveform(voice_sample)
     # Generate the new voice waveform
-    text = tokenizer.decode(tts_model.generate(input_waveform))
     inputs = tokenizer(text, return_tensors="pt")
     with torch.no_grad():
-        output = tts_model(**inputs).waveform
     # Save to output file
     output_path = "output.wav"
-    scipy.io.wavfile.write(output_path, rate=tts_model.config.sampling_rate, data=output.numpy())
     return output_path
-# Gradio interface
 def toggle(choice):
     if choice == "mic":
         return gr.update(visible=True, value=None), gr.update(visible=False, value=None)
@@ -49,4 +48,4 @@ with gr.Blocks() as demo:
     btn.click(change_voice, inputs=[input_audio, voice_sample, language], outputs=output_audio)
-demo.launch(enable_queue=True)

 import gradio as gr
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 import torch
 import scipy.io.wavfile
 from pydub import AudioSegment
+# Load the pre-trained model and tokenizer
 model_name = "facebook/mms-tts-tam"
+model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+def audio_to_waveform(audio_file):
+    audio = AudioSegment.from_file(audio_file)
     waveform = torch.FloatTensor(audio.get_array_of_samples()).view(1, -1)
     return waveform
     voice_waveform = audio_to_waveform(voice_sample)
     # Generate the new voice waveform
+    text = tokenizer.decode(model.generate(input_waveform))
     inputs = tokenizer(text, return_tensors="pt")
     with torch.no_grad():
+        output = model(**inputs).waveform
     # Save to output file
     output_path = "output.wav"
+    scipy.io.wavfile.write(output_path, rate=model.config.sampling_rate, data=output.numpy())
     return output_path
 def toggle(choice):
     if choice == "mic":
         return gr.update(visible=True, value=None), gr.update(visible=False, value=None)
     btn.click(change_voice, inputs=[input_audio, voice_sample, language], outputs=output_audio)
+demo.launch()