dofbi
/

galsenai-xtts-v2-wolof-inference

Model card Files Files and versions Metrics Training metrics Community

dofbi commited on Dec 16, 2024

Commit

e285918

·

verified ·

1 Parent(s): 04ec52a

Add inference.py

Files changed (1) hide show

inference.py +71 -0

inference.py ADDED Viewed

	@@ -0,0 +1,71 @@

+import torch
+import os
+from TTS.tts.configs.xtts_config import XttsConfig
+from TTS.tts.models.xtts import Xtts
+import soundfile as sf
+from removesilence import detect_silence, remove_silence
+# Chargement du modèle
+def load_model(repo_id):
+    #Construction des chemins vers les fichiers
+    root_path       = "./"
+    checkpoint_path = root_path+"Anta_GPT_XTTS_Wo"
+    model_path      = "best_model_89250.pth"
+    xtts_checkpoint = os.path.join(checkpoint_path, model_path)
+    xtts_config     = os.path.join(checkpoint_path,"config.json")
+    xtts_vocab      = root_path+"XTTS_v2.0_original_model_files/vocab.json"
+    device = "cuda:0" if torch.cuda.is_available() else "cpu"
+    # Load model
+    config     = XttsConfig()
+    config.load_json(xtts_config)
+    XTTS_MODEL = Xtts.init_from_config(config)
+    XTTS_MODEL.load_checkpoint(config,
+                            checkpoint_path = xtts_checkpoint,
+                            vocab_path      = xtts_vocab,
+                            use_deepspeed   = False)
+    XTTS_MODEL.to(device)
+    print("Model loaded successfully!")
+    return XTTS_MODEL, device
+# Fonction principale d'inférence
+def inference(text, reference_audio, model, device):
+    # Prétraitement des données
+    reference = reference_audio
+    gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(
+        audio_path      = [reference],
+        gpt_cond_len    = model.config.gpt_cond_len,
+        max_ref_length  = model.config.max_ref_len,
+        sound_norm_refs = model.config.sound_norm_refs
+    )
+    #Inférence
+    result = model.inference(
+        text              = text.lower(),
+        gpt_cond_latent   = gpt_cond_latent,
+        speaker_embedding = speaker_embedding,
+        do_sample         = False,
+        speed             = 1.06,
+        language          = "wo",
+        enable_text_splitting=True
+    )
+    #Retour du résultat
+    sample_rate = model.config.audio.sample_rate
+    return result["wav"], sample_rate
+# Fonction pour générer l'audio à partir du texte et de l'audio de référence
+def generate_audio(text, reference_audio_path):
+    model, device = load_model("dofbi/galsenai-xtts-v2-wolof-inference")
+    audio_output, sample_rate = inference(text, reference_audio_path, model, device)
+    # Sauvegarde de l'audio temporaire pour le traitement du silence
+    temp_audio_path = "temp_audio.wav"
+    sf.write(temp_audio_path, audio_output, sample_rate)
+    # Post-traitement pour retirer le silence
+    lst = detect_silence(temp_audio_path)
+    output_audio = "audio_without_silence.wav"
+    remove_silence(temp_audio_path, lst, output_audio)
+    # Lecture du fichier audio pour le retour
+    audio, _ = sf.read(output_audio)
+    return audio, sample_rate