Spaces:

Flux9665
/

SpeechCloning

Running

App Files Files

Flux9665 commited on Nov 3, 2022

Commit

0d40f57

•

1 Parent(s): 52c413f

switch to oracle style demo rather than re-running everything everytime, because huggingface gives a lot less compute than it used to

Browse files

Files changed (1) hide show

app.py +68 -20

app.py CHANGED Viewed

@@ -96,29 +96,77 @@ class TTS_Interface:
         self.split_audio(reference_audio, text_list)
         # at this point, split_1.wav, split_2.wav and split_3.wav should exist.
     def read(self, _, speaker_1, speaker_2, speaker_3):
         reference_audio = "reference_audios/clone_me_5.wav"
-        prompt = "Betty Botter bought some butter, but she said the butters bitter. If I put it in my batter, it will make my batter bitter. But a bit of better butter will make my batter better."
-        text_list = prompt.replace(".", ".|").replace("?", "?|").replace("!", "!|").split("|")
-        # we don't split on the punctuation marks because we want to retain them.
-        self.utterance_cloner.tts.set_utterance_embedding(self.speaker_path_lookup[speaker_1])
-        part_1 = self.utterance_cloner.clone_utterance(path_to_reference_audio="split_1.wav",
-                                                       reference_transcription=text_list[0],
-                                                       clone_speaker_identity=False,
-                                                       lang="en")
-        self.utterance_cloner.tts.set_utterance_embedding(self.speaker_path_lookup[speaker_2])
-        part_2 = self.utterance_cloner.clone_utterance(path_to_reference_audio="split_2.wav",
-                                                       reference_transcription=text_list[1],
-                                                       clone_speaker_identity=False,
-                                                       lang="en")
-        self.utterance_cloner.tts.set_utterance_embedding(self.speaker_path_lookup[speaker_3])
-        part_3 = self.utterance_cloner.clone_utterance(path_to_reference_audio="split_3.wav",
-                                                       reference_transcription=text_list[2],
-                                                       clone_speaker_identity=False,
-                                                       lang="en")
         return "alignment.png", \
                reference_audio, \

         self.split_audio(reference_audio, text_list)
         # at this point, split_1.wav, split_2.wav and split_3.wav should exist.
+        self.utterance_cloner.tts.set_utterance_embedding("reference_audios/voice_1.flac")
+        self.part_1_voice_1 = self.utterance_cloner.clone_utterance(path_to_reference_audio="split_1.wav",
+                                                                    reference_transcription=text_list[0],
+                                                                    clone_speaker_identity=False,
+                                                                    lang="en")
+        self.utterance_cloner.tts.set_utterance_embedding("reference_audios/voice_2.wav")
+        self.part_1_voice_2 = self.utterance_cloner.clone_utterance(path_to_reference_audio="split_1.wav",
+                                                                    reference_transcription=text_list[0],
+                                                                    clone_speaker_identity=False,
+                                                                    lang="en")
+        self.utterance_cloner.tts.set_utterance_embedding("reference_audios/voice_3.wav")
+        self.part_1_voice_3 = self.utterance_cloner.clone_utterance(path_to_reference_audio="split_1.wav",
+                                                                    reference_transcription=text_list[0],
+                                                                    clone_speaker_identity=False,
+                                                                    lang="en")
+        self.utterance_cloner.tts.set_utterance_embedding("reference_audios/voice_1.flac")
+        self.part_2_voice_1 = self.utterance_cloner.clone_utterance(path_to_reference_audio="split_2.wav",
+                                                                    reference_transcription=text_list[1],
+                                                                    clone_speaker_identity=False,
+                                                                    lang="en")
+        self.utterance_cloner.tts.set_utterance_embedding("reference_audios/voice_2.wav")
+        self.part_2_voice_2 = self.utterance_cloner.clone_utterance(path_to_reference_audio="split_2.wav",
+                                                                    reference_transcription=text_list[1],
+                                                                    clone_speaker_identity=False,
+                                                                    lang="en")
+        self.utterance_cloner.tts.set_utterance_embedding("reference_audios/voice_3.wav")
+        self.part_2_voice_3 = self.utterance_cloner.clone_utterance(path_to_reference_audio="split_2.wav",
+                                                                    reference_transcription=text_list[1],
+                                                                    clone_speaker_identity=False,
+                                                                    lang="en")
+        self.utterance_cloner.tts.set_utterance_embedding("reference_audios/voice_1.flac")
+        self.part_3_voice_1 = self.utterance_cloner.clone_utterance(path_to_reference_audio="split_3.wav",
+                                                                    reference_transcription=text_list[2],
+                                                                    clone_speaker_identity=False,
+                                                                    lang="en")
+        self.utterance_cloner.tts.set_utterance_embedding("reference_audios/voice_2.wav")
+        self.part_3_voice_2 = self.utterance_cloner.clone_utterance(path_to_reference_audio="split_3.wav",
+                                                                    reference_transcription=text_list[2],
+                                                                    clone_speaker_identity=False,
+                                                                    lang="en")
+        self.utterance_cloner.tts.set_utterance_embedding("reference_audios/voice_3.wav")
+        self.part_3_voice_3 = self.utterance_cloner.clone_utterance(path_to_reference_audio="split_3.wav",
+                                                                    reference_transcription=text_list[2],
+                                                                    clone_speaker_identity=False,
+                                                                    lang="en")
     def read(self, _, speaker_1, speaker_2, speaker_3):
         reference_audio = "reference_audios/clone_me_5.wav"
+        if speaker_1 == "Voice 1":
+            part_1 = self.part_1_voice_1
+        elif speaker_1 == "Voice 2":
+            part_1 = self.part_1_voice_2
+        elif speaker_1 == "Voice 3":
+            part_1 = self.part_1_voice_3
+        if speaker_2 == "Voice 1":
+            part_2 = self.part_2_voice_1
+        elif speaker_2 == "Voice 2":
+            part_2 = self.part_2_voice_2
+        elif speaker_2 == "Voice 3":
+            part_2 = self.part_2_voice_3
+        if speaker_3 == "Voice 1":
+            part_3 = self.part_3_voice_1
+        elif speaker_3 == "Voice 2":
+            part_3 = self.part_3_voice_2
+        elif speaker_3 == "Voice 3":
+            part_3 = self.part_3_voice_3
         return "alignment.png", \
                reference_audio, \