Spaces:

DJONG-WANG
/

text-to-speech

Running

File size: 918 Bytes

cc98606
1ae8d88
 
 
cc98606
1ae8d88
 
 
cc98606
1ae8d88
 
 
 
 
 
 
 
 
 
 
 
 
 
cc98606
1ae8d88
 
cc98606

import gradio as gr
from transformers import VitsModel, AutoTokenizer
import torch
import scipy.io.wavfile

# Charger le modèle Vits
model = VitsModel.from_pretrained("joefox/tts_vits_ru_hf")
tokenizer = AutoTokenizer.from_pretrained("joefox/tts_vits_ru_hf")

def generate_audio(text):
    # Prétraiter le texte
    text = text.lower()
    inputs = tokenizer(text, return_tensors="pt")
    inputs['speaker_id'] = 3
    
    # Générer l'audio
    with torch.no_grad():
        output = model(**inputs).waveform
        
    # Enregistrer l'audio dans un fichier
    scipy.io.wavfile.write("output.wav", rate=model.config.sampling_rate, data=output[0].cpu().numpy())
    
    return "output.wav"

# Créer une interface Gradio
iface = gr.Interface(fn=generate_audio, inputs="text", outputs="audio", title="Text to Speech (Vits)", description="Saisissez votre texte pour convertir en discours audio.")
iface.launch()