Add voice assets

Browse files

Files changed (11) hide show

.gitattributes +2 -0
__pycache__/app.cpython-311.pyc +0 -0
app.py +45 -6
gradio_queue.db +0 -0
input/amitabh.mp3 +3 -0
input/amrish.mp3 +3 -0
input/obama.mp3 +3 -0
input/trump.wav +3 -0
input/z-default.wav +3 -0
output/output.wav +3 -0
tts_output.wav → output/tts_output.wav +2 -2

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tts_output.wav filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tts_output.wav filter=lfs diff=lfs merge=lfs -text
+*.mp3 filter=lfs diff=lfs merge=lfs -text
+*.wav filter=lfs diff=lfs merge=lfs -text

__pycache__/app.cpython-311.pyc ADDED Viewed

Binary file (1.83 kB). View file

app.py CHANGED Viewed

@@ -1,6 +1,21 @@
 from subprocess import call
 import gradio as gr
 import os
 def run_cmd(command):
@@ -12,19 +27,43 @@ def run_cmd(command):
         sys.exit(1)
-def inference(text):
-    cmd = ['tts', '--text', text]
-    run_cmd(cmd)
-    return 'tts_output.wav'
-inputs = gr.inputs.Textbox(lines=5, label="Input Text")
 outputs = gr.outputs.Audio(type="filepath", label="Output Audio")
 title = "Text To Speech"
 description = "An example of using TTS to generate speech from text."
 article = ""
 examples = [
-    ["This is an open-source library that generates synthetic speech!=1"]
 ]
 gr.Interface(
     inference,

 from subprocess import call
 import gradio as gr
 import os
+from TTS.api import TTS
+# List available 🐸TTS models and choose the first one
+all_models = TTS.list_models()
+# for model in all_models:
+#     print(model)
+# print("Using model: ", all_models[0])
+model_name = all_models[0]
+# Init TTS
+print("Downloading model...", '')
+voiceCloneModel = TTS('tts_models/multilingual/multi-dataset/your_tts')
 def run_cmd(command):
         sys.exit(1)
+def inference(text, speaker):
+    if (speaker == 'Speaker-1'):
+        speaker = 'input/amitabh.mp3'
+    elif (speaker == 'Speaker-2'):
+        speaker = 'input/amrish.mp3'
+    elif (speaker == 'Speaker-3'):
+        speaker = 'input/obama.mp3'
+    elif (speaker == 'Speaker-4'):
+        speaker = 'input/trump.wav'
+    else:
+        speaker = 'input/z-default.wav'
+    # print("speaker: ", speaker)
+    # cmd = ['tts', '--text', text, '--out_path', 'output/tts_output.wav']
+    # run_cmd(cmd)
+    # Text to speech to a file
+    # tts = TTS(model_name="tts_models/multilingual/multi-dataset/your_tts",
+    #           progress_bar=False, gpu=True)
+    voiceCloneModel.tts_to_file(text, speaker_wav=speaker,
+                                language="en", file_path="output/output.wav")
+    # for i in range(len(tts.languages)):
+    #     tts.tts_to_file(text=text,
+    #                     speaker=tts.speakers[i], language=tts.languages[0], file_path='output/output-'+str(i)+'.wav')
+    return 'output/output.wav'
+inputs = [gr.inputs.Textbox(lines=5, label="Input Text"),
+          gr.inputs.Dropdown(['Speaker-1', 'Speaker-2', 'Speaker-3',
+                              'Speaker-4'], label="Model")
+          ]
 outputs = gr.outputs.Audio(type="filepath", label="Output Audio")
 title = "Text To Speech"
 description = "An example of using TTS to generate speech from text."
 article = ""
 examples = [
+    ["This is an open-source library that generates synthetic speech"]
 ]
 gr.Interface(
     inference,

gradio_queue.db ADDED Viewed

Binary file (16.4 kB). View file

input/amitabh.mp3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a0c5aa3e3d7e9a26187bca7f1c7cec1be1df918e697ae921b9348adb69d15a0
+size 12735771

input/amrish.mp3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:915e1b84a482dac3d497cb3d44e9db1669e8c580499400a771b9b80ad363113a
+size 1321518

input/obama.mp3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a371205b2067c1b6e05cb5befec4fbeaedb97a3367065f74ff655c6a4d170e47
+size 28035585

input/trump.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f245a5ffc7adb79ef3a43c64a713472955c681a3f5c8c34f73f994c0fdf29d8
+size 30961742

input/z-default.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2b5a06bca26a00b069a455cff44a977cca57fbfc5078e64edbdfb764ccb5c07
+size 1504332

output/output.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddd247a0b637133326079fa149c85c8544671c92c0c7a78ec93952db3cc0dfb2
+size 132172

tts_output.wav → output/tts_output.wav RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b5ca414fb01823c7e62c09eb4d0dccfe9775023a658239e698d368881a25f7a
-size 5128268

 version https://git-lfs.github.com/spec/v1
+oid sha256:93d9cb433afdef64e85d65c1594202dc7fd784c14db651c8374f96f5ffaf2f63
+size 204364