Spaces:

konverner
/

deep-voice-cloning

Running

konverner commited on Aug 1, 2023

Commit

b8d1b27

•

1 Parent(s): c5f4f8c

gradio support updated

Files changed (5) hide show

README.md CHANGED Viewed

@@ -28,4 +28,42 @@ python scripts/cloning_inference.py --model_path "/content/deep-voice-cloning/mo
 --output_path "scripts/output/do_the_things.wav"
 ```
-Resulting audio file will be saved as `output_path` file.

 --output_path "scripts/output/do_the_things.wav"
 ```
+Resulting audio file will be saved as `output_path` file.
+# Docker
+To build docker image:
+```
+docker build -t deep-voice-cloning .
+```
+To pull docker image from Hub:
+```angular2html
+docker pull konverner/deep-voice-cloning:latest
+```
+To run image in a container:
+```
+docker run -it --entrypoint=/bin/bash konverner/deep-voice-cloning
+```
+To run training in a container for example:
+```
+python scripts/train.py --audio_path scripts/input/hank.mp3 --output_dir models
+```
+To run inference in a container for example:
+```
+python scripts/cloning_inference.py --model_path models/microsoft_speecht5_tts_hank --input_text "do the things, not because they are easy, but because they are hard" --output_path scripts/output/do_the_things.wav
+```
+# Notebook Examples
+Example of using CLI for training and inference can be found in [notebook](https://github.com/konverner/deep-voice-cloning/blob/main/notebooks/CLI_Example.ipynb)

app.py ADDED Viewed

+import os
+from pathlib import Path
+import gradio as gr
+def greet(text, audio_file_path):
+    text = "%s" % text
+    audio_file_path = "%s" % audio_file_path
+    out_path = Path("scripts/output/audio.wav")
+    os.system(f'python scripts/train.py --audio_path {audio_file_path}\
+     --output_dir "models"')
+    os.system(f'python scripts/cloning_inference.py --model_path "models/microsoft_speecht5_tts_{Path(audio_file_path).stem}"\
+     --input_text "{text}" --output_path "{str(out_path)}"')
+    return out_path
+demo = gr.Interface(
+    fn=greet,
+    inputs=[gr.Textbox(label='What would you like the voice to say? (max. 2000 characters per request)'),
+            gr.Audio(type="filepath", source="upload", label='Upload a voice to clone (max. 50mb)')],
+    outputs="audio",
+    title="Deep Voice Cloning Tool"
+    )
+demo.launch()

scripts/train.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import argparse
 import json
 import os
 import torch
 from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer
@@ -24,9 +25,9 @@ if __name__ == "__main__":
     if args.lang is not None:
         training_config['lang'] = args.lang
     if args.audio_path is not None:
-        training_config['audio_path'] = args.audio_path
     if args.output_dir is not None:
-        training_config['output_dir'] = args.output_dir
     transcriber_model = TranscriberModel(lang=training_config['lang'])
     cloning_model = CloningModel(lang=training_config['lang'])
@@ -64,6 +65,6 @@ if __name__ == "__main__":
     )
     trainer.train()
-    cloning_model.save_pretrained(training_config["output_dir"] +\
-                                  '/' + cloning_model.config['model_path'].replace('/', '_') +\
-                                  '_' + training_config['audio_path'].split('/')[-1].split('.')[0])

 import argparse
 import json
 import os
+from pathlib import Path
 import torch
 from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer
     if args.lang is not None:
         training_config['lang'] = args.lang
     if args.audio_path is not None:
+        training_config['audio_path'] = Path(args.audio_path)
     if args.output_dir is not None:
+        training_config['output_dir'] = Path(args.output_dir)
     transcriber_model = TranscriberModel(lang=training_config['lang'])
     cloning_model = CloningModel(lang=training_config['lang'])
     )
     trainer.train()
+    cloning_model.save_pretrained(Path(training_config["output_dir"]) /
+                                  Path(cloning_model.config['model_path'].replace('/', '_')) +\
+                                  '_' + Path(training_config['audio_path']).stem)

scripts/training_config.json CHANGED Viewed

@@ -4,6 +4,6 @@
     "lang": "en",
     "batch_size": 2,
     "learning_rate": 1e-4,
-    "max_steps": 1500,
-    "warmup_steps": 250
 }

     "lang": "en",
     "batch_size": 2,
     "learning_rate": 1e-4,
+    "max_steps": 15,
+    "warmup_steps": 2
 }

src/deep_voice_cloning/cloning/model.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import os
 import json
 from typing import Dict
 import numpy as np
 import torch
@@ -17,7 +18,7 @@ class CloningModel:
                 self.config = json.load(f)[lang]
         else:
             self.config = config
-            self.speaker_embedding = torch.load(self.config['model_path'] + "/speaker_embedding.pt")[0]
         self.processor = SpeechT5Processor.from_pretrained(self.config['model_path'])
         self.model = SpeechT5ForTextToSpeech.from_pretrained(self.config['model_path'])
         self.vocoder = SpeechT5HifiGan.from_pretrained(self.config['vocoder_name'])
@@ -25,6 +26,8 @@ class CloningModel:
         self.speaker_model = EncoderClassifier.from_hparams(source=self.config['speaker_model_name'])
         self.to(self.device)
     def to(self, device: torch.device):
         self.model = self.model.to(device)
         self.vocoder = self.vocoder.to(device)
@@ -32,7 +35,7 @@ class CloningModel:
     def save_pretrained(self, save_directory: str):
         self.model.save_pretrained(save_directory)
         self.processor.save_pretrained(save_directory)
-        torch.save(self.speaker_embedding, save_directory + "/speaker_embedding.pt")
     def forward(self, text: str) -> np.array:
         # tokenize text

 import os
 import json
 from typing import Dict
+from pathlib import Path
 import numpy as np
 import torch
                 self.config = json.load(f)[lang]
         else:
             self.config = config
+            self.speaker_embedding = torch.load(Path(self.config['model_path']) / "speaker_embedding.pt")[0]
         self.processor = SpeechT5Processor.from_pretrained(self.config['model_path'])
         self.model = SpeechT5ForTextToSpeech.from_pretrained(self.config['model_path'])
         self.vocoder = SpeechT5HifiGan.from_pretrained(self.config['vocoder_name'])
         self.speaker_model = EncoderClassifier.from_hparams(source=self.config['speaker_model_name'])
         self.to(self.device)
     def to(self, device: torch.device):
         self.model = self.model.to(device)
         self.vocoder = self.vocoder.to(device)
     def save_pretrained(self, save_directory: str):
         self.model.save_pretrained(save_directory)
         self.processor.save_pretrained(save_directory)
+        torch.save(self.speaker_embedding, Path(save_directory) / "speaker_embedding.pt")
     def forward(self, text: str) -> np.array:
         # tokenize text