Spaces:

DJONG-WANG
/

text-to-speech

Running

DJONG-WANG commited on Mar 5

Commit

1ae8d88

•

1 Parent(s): cc98606

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,15 +1,27 @@
 import gradio as gr
-from transformers import pipeline
-# Charger le modèle de synthèse vocale
-pipe = pipeline(task='text-to-speech', model='facebook/mms-tts-ukr')
-def text_to_speech(text):
-    # Utiliser le modèle pour convertir le texte en audio
-    audio = pipe(text)
-    # Retourner l'audio généré
-    return audio
-# Créer une interface Gradio pour tester le modèle
-iface = gr.Interface(fn=text_to_speech, inputs="text", outputs="audio", title="Test de Synthèse Vocale", description="Utilisez ce modèle pour convertir du texte en audio.")
 iface.launch()

 import gradio as gr
+from transformers import VitsModel, AutoTokenizer
+import torch
+import scipy.io.wavfile
+# Charger le modèle Vits
+model = VitsModel.from_pretrained("joefox/tts_vits_ru_hf")
+tokenizer = AutoTokenizer.from_pretrained("joefox/tts_vits_ru_hf")
+def generate_audio(text):
+    # Prétraiter le texte
+    text = text.lower()
+    inputs = tokenizer(text, return_tensors="pt")
+    inputs['speaker_id'] = 3
+    # Générer l'audio
+    with torch.no_grad():
+        output = model(**inputs).waveform
+    # Enregistrer l'audio dans un fichier
+    scipy.io.wavfile.write("output.wav", rate=model.config.sampling_rate, data=output[0].cpu().numpy())
+    return "output.wav"
+# Créer une interface Gradio
+iface = gr.Interface(fn=generate_audio, inputs="text", outputs="audio", title="Text to Speech (Vits)", description="Saisissez votre texte pour convertir en discours audio.")
 iface.launch()