Spaces:

arham061
/

urdu_TTS

Sleeping

arham061 commited on Jul 16, 2023

Commit

bf20a09

•

1 Parent(s): a59ef1c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import torch
-from transformers import SpeechT5ForTextToSpeech, SpeechT5Processor
 import soundfile as sf
 import gradio as gr
 import scipy.io.wavfile as wav
@@ -10,6 +10,7 @@ checkpoint = "arham061/speecht5_finetuned_voxpopuli_nl"  # Replace with your act
 processor = SpeechT5Processor.from_pretrained(checkpoint)
 model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint)
 tokenizer = processor.tokenizer
 # Buckwalter to Unicode mapping
@@ -87,17 +88,14 @@ def generate_audio(text):
     roman_urdu = transString(text)
     # Tokenize the input text
-    inputs = tokenizer(roman_urdu, return_tensors="pt").input_values
-    # Generate speech from the model
     with torch.no_grad():
-        logits = model(inputs).logits
-    # Convert logits to audio waveform
-    predicted_ids = torch.argmax(logits, dim=-1)
-    audio = tokenizer.decode(predicted_ids[0], skip_special_tokens=True)
-    return audio
 def text_to_speech(text):
@@ -105,11 +103,12 @@ def text_to_speech(text):
     audio_output = generate_audio(text)
     # Save audio as a .wav file
-    wav.write("output.wav", 16000, audio_output.astype(np.int16))
     return "output.wav"
 # Define the Gradio interface
 inputs = gr.inputs.Textbox(label="Enter text in Urdu")
 outputs = gr.outputs.Audio(label="Audio")

 import torch
+from transformers import SpeechT5ForTextToSpeech, SpeechT5Processorf, SpeechT5HifiGan
 import soundfile as sf
 import gradio as gr
 import scipy.io.wavfile as wav
 processor = SpeechT5Processor.from_pretrained(checkpoint)
 model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint)
 tokenizer = processor.tokenizer
+vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
 # Buckwalter to Unicode mapping
     roman_urdu = transString(text)
     # Tokenize the input text
+    inputs = tokenizer(roman_urdu, return_tensors="pt")
+    # Generate speech from the SpeechT5 model
     with torch.no_grad():
+        speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
+    return speech
 def text_to_speech(text):
     audio_output = generate_audio(text)
     # Save audio as a .wav file
+    sf.write("output.wav", audio_output.numpy(), samplerate=16000)
     return "output.wav"
 # Define the Gradio interface
 inputs = gr.inputs.Textbox(label="Enter text in Urdu")
 outputs = gr.outputs.Audio(label="Audio")