Spaces:

Flux9665
/

PoeticTTS

Runtime error

App Files Files

Flux9665 commited on Nov 3, 2022

Commit

1f52d1a

•

1 Parent(s): 509ace1

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -8

app.py CHANGED Viewed

@@ -1,3 +1,5 @@
 import os
 os.system("git clone --branch v2.3 https://github.com/DigitalPhonetics/IMS-Toucan.git toucan_codebase")
@@ -6,14 +8,15 @@ os.system("mv toucan_codebase/* .")
 from run_model_downloader import download_models
 download_models()
 import gradio as gr
 import numpy as np
 import torch
 from Preprocessing.TextFrontend import ArticulatoryCombinedTextFrontend
 from TrainingInterfaces.Text_to_Spectrogram.AutoAligner.Aligner import Aligner
 from TrainingInterfaces.Text_to_Spectrogram.FastSpeech2.DurationCalculator import DurationCalculator
-from InferenceInterfaces.UtteranceCloner import UtteranceCloner
 def float2pcm(sig, dtype='int16'):
@@ -42,10 +45,10 @@ class TTS_Interface:
         self.acoustic_model.load_state_dict(torch.load("Models/Aligner/aligner.pt", map_location='cpu')["asr_model"])
         self.acoustic_model = self.acoustic_model.to(self.device)
         self.dc = DurationCalculator(reduction_factor=1)
-        self.tf = ArticulatoryCombinedTextFrontend(language="en")
         self.text = "Quellen hattest du ihm, hattest dem Flüchtigen, kühle Schatten geschenkt, und die Gestade sahen, all ihm nach, und es bebte, aus den Wellen ihr lieblich Bild."
         reference_audio = "reference_audios/2.wav"
-        self.duration, self.pitch, self.energy, _, _ = self.utterance_cloner.extract_prosody(self.text, reference_audio, lang="de", on_line_fine_tune=False)
         self.phones = self.utterance_cloner.tts.text2phone.get_phone_string(self.text)
         #######
@@ -56,7 +59,7 @@ class TTS_Interface:
                                                             durations=self.duration,
                                                             pitch=self.pitch,
                                                             energy=self.energy,
-                                                            input_is_phones=True).cpu().numpy()
         self.utterance_cloner.tts.set_utterance_embedding("reference_audios/german_female.wav")
         self.current_voice = "female"
         self.cloned_speech_female = self.utterance_cloner.tts(self.phones,
@@ -64,7 +67,7 @@ class TTS_Interface:
                                                               durations=self.duration,
                                                               pitch=self.pitch,
                                                               energy=self.energy,
-                                                              input_is_phones=True).cpu().numpy()
         #######
         self.utterance_cloner.tts.set_utterance_embedding("reference_audios/german_male.wav")
@@ -89,7 +92,8 @@ class TTS_Interface:
         duration = self.duration.clone()
         # lengthening
-        lenghtening_candidates = [  # ('f', 27),
             # ('l', 28),
             ('ʏ', 29),
             ('ç', 30),
@@ -125,7 +129,8 @@ class TTS_Interface:
         pitch = self.pitch.clone()
         # pitch raise
-        pitch_candidates = [  # ('k', 37),
             ('y', 38),
             ('l', 39),
             ('ə', 40),

+"""
 import os
 os.system("git clone --branch v2.3 https://github.com/DigitalPhonetics/IMS-Toucan.git toucan_codebase")
 from run_model_downloader import download_models
 download_models()
+"""
 import gradio as gr
 import numpy as np
 import torch
+from InferenceInterfaces.UtteranceCloner import UtteranceCloner
 from Preprocessing.TextFrontend import ArticulatoryCombinedTextFrontend
 from TrainingInterfaces.Text_to_Spectrogram.AutoAligner.Aligner import Aligner
 from TrainingInterfaces.Text_to_Spectrogram.FastSpeech2.DurationCalculator import DurationCalculator
 def float2pcm(sig, dtype='int16'):
         self.acoustic_model.load_state_dict(torch.load("Models/Aligner/aligner.pt", map_location='cpu')["asr_model"])
         self.acoustic_model = self.acoustic_model.to(self.device)
         self.dc = DurationCalculator(reduction_factor=1)
         self.text = "Quellen hattest du ihm, hattest dem Flüchtigen, kühle Schatten geschenkt, und die Gestade sahen, all ihm nach, und es bebte, aus den Wellen ihr lieblich Bild."
         reference_audio = "reference_audios/2.wav"
+        self.duration, self.pitch, self.energy, _, _ = self.utterance_cloner.extract_prosody(self.text, reference_audio, lang="de", on_line_fine_tune=True)
+        self.utterance_cloner.tts.text2phone.use_word_boundaries = False
         self.phones = self.utterance_cloner.tts.text2phone.get_phone_string(self.text)
         #######
                                                             durations=self.duration,
                                                             pitch=self.pitch,
                                                             energy=self.energy,
+                                                            phones=True).cpu().numpy()
         self.utterance_cloner.tts.set_utterance_embedding("reference_audios/german_female.wav")
         self.current_voice = "female"
         self.cloned_speech_female = self.utterance_cloner.tts(self.phones,
                                                               durations=self.duration,
                                                               pitch=self.pitch,
                                                               energy=self.energy,
+                                                              phones=True).cpu().numpy()
         #######
         self.utterance_cloner.tts.set_utterance_embedding("reference_audios/german_male.wav")
         duration = self.duration.clone()
         # lengthening
+        lenghtening_candidates = [
+            # ('f', 27),
             # ('l', 28),
             ('ʏ', 29),
             ('ç', 30),
         pitch = self.pitch.clone()
         # pitch raise
+        pitch_candidates = [
+            # ('k', 37),
             ('y', 38),
             ('l', 39),
             ('ə', 40),