Spaces:

Flux9665
/

SpeechCloning

Running

Flux9665 commited on Nov 2, 2022

Commit

f360342

•

1 Parent(s): f9555c6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,11 +5,18 @@ import numpy as np
 import soundfile as sf
 import torch
-from Preprocessing.ArticulatoryCombinedTextFrontend import ArticulatoryCombinedTextFrontend
 from Preprocessing.AudioPreprocessor import AudioPreprocessor
 from TrainingInterfaces.Text_to_Spectrogram.AutoAligner.Aligner import Aligner
 from TrainingInterfaces.Text_to_Spectrogram.FastSpeech2.DurationCalculator import DurationCalculator
-from run_utterance_cloner import UtteranceCloner
 def float2pcm(sig, dtype='int16'):
@@ -32,7 +39,7 @@ class TTS_Interface:
     def __init__(self):
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
-        self.utterance_cloner = UtteranceCloner(device=self.device)
         self.speaker_path_lookup = {
             "Voice 1": "reference_audios/voice_1.flac",
             "Voice 2": "reference_audios/voice_2.wav",

 import soundfile as sf
 import torch
+os.system("git clone --branch v2.3 https://github.com/DigitalPhonetics/IMS-Toucan.git toucan_codebase")
+os.system("mv toucan_codebase/* .")
+from run_model_downloader import download_models
+download_models()
+from Preprocessing.TextFrontend import ArticulatoryCombinedTextFrontend
 from Preprocessing.AudioPreprocessor import AudioPreprocessor
 from TrainingInterfaces.Text_to_Spectrogram.AutoAligner.Aligner import Aligner
 from TrainingInterfaces.Text_to_Spectrogram.FastSpeech2.DurationCalculator import DurationCalculator
+from InferenceInterfaces.UtteranceCloner import UtteranceCloner
 def float2pcm(sig, dtype='int16'):
     def __init__(self):
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
+        self.utterance_cloner = UtteranceCloner(model_id="Meta", device=self.device)
         self.speaker_path_lookup = {
             "Voice 1": "reference_audios/voice_1.flac",
             "Voice 2": "reference_audios/voice_2.wav",