Spaces:

lojban
/

text-to-speech

Running

App Files Files Community

lojban commited on Dec 24, 2022

Commit

11efcdb

•

1 Parent(s): e85d807

add wav/ogg option

Browse files

Files changed (3) hide show

app.py +7 -3
dev.sh +1 -0
prod.sh +0 -10

app.py CHANGED Viewed

@@ -134,7 +134,7 @@ def load_checkpoints():
     return model, hps, net_g_vctk, hps_vctk
-def inference(text, language, noise_scale, noise_scale_w, length_scale, voice):
     if len(text.strip())==0:
         return []
     language = language.split()[0]
@@ -145,7 +145,6 @@ def inference(text, language, noise_scale, noise_scale_w, length_scale, voice):
         result = generate_voice(lojban2ipa(text,'nix'), current+"/pretrained/nix-tts/nix-ljspeech-v0.1")
     elif voice == 'Nix-Stochastic' and language == 'jbo':
         result = generate_voice(lojban2ipa(text,'nix'), current+"/pretrained/nix-tts/nix-ljspeech-sdp-v0.1")
-        result = [result[0], wav2ogg(result[1][1], result[1][0], text, language)]
     elif voice == 'LJS':
         ipa_text, stn_tst = get_text(text, language, hps, mode="VITS")
         with torch.no_grad():
@@ -163,6 +162,9 @@ def inference(text, language, noise_scale, noise_scale_w, length_scale, voice):
             audio = model_vctk.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=noise_scale,
                                      noise_scale_w=noise_scale_w, length_scale=length_scale)[0][0, 0].data.cpu().float().numpy()
             result = [ipa_text, (hps_vctk.data.sampling_rate, float2pcm(audio))]
     return result
 # download_pretrained()
@@ -175,7 +177,7 @@ defaults = {
     "noise_scale_w": .8,
     "speed": 1.8,
     "voice": "LJS",
-    "example": ["", "Lojban", 0.667, 0.8, 1.8,"LJS"]
 }
 inputs = []
@@ -227,6 +229,8 @@ with gr.Blocks(css=css) as demo:
             ipa_block = gr.Textbox(label="International Phonetic Alphabet")
             audio = gr.Audio(type="numpy", label="Output audio")
             outputs = [ ipa_block, audio ]
             btn = gr.Button("Vocalize")
             btn.click(fn=inference, inputs=inputs, outputs=outputs, api_name="cupra")

     return model, hps, net_g_vctk, hps_vctk
+def inference(text, language, noise_scale, noise_scale_w, length_scale, voice, file_format):
     if len(text.strip())==0:
         return []
     language = language.split()[0]
         result = generate_voice(lojban2ipa(text,'nix'), current+"/pretrained/nix-tts/nix-ljspeech-v0.1")
     elif voice == 'Nix-Stochastic' and language == 'jbo':
         result = generate_voice(lojban2ipa(text,'nix'), current+"/pretrained/nix-tts/nix-ljspeech-sdp-v0.1")
     elif voice == 'LJS':
         ipa_text, stn_tst = get_text(text, language, hps, mode="VITS")
         with torch.no_grad():
             audio = model_vctk.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=noise_scale,
                                      noise_scale_w=noise_scale_w, length_scale=length_scale)[0][0, 0].data.cpu().float().numpy()
             result = [ipa_text, (hps_vctk.data.sampling_rate, float2pcm(audio))]
+    if file_format == 'ogg':
+        result = [result[0], wav2ogg(result[1][1], result[1][0], text, language)]
     return result
 # download_pretrained()
     "noise_scale_w": .8,
     "speed": 1.8,
     "voice": "LJS",
+    "example": ["", "Lojban", 0.667, 0.8, 1.8,"LJS","wav"]
 }
 inputs = []
             ipa_block = gr.Textbox(label="International Phonetic Alphabet")
             audio = gr.Audio(type="numpy", label="Output audio")
             outputs = [ ipa_block, audio ]
+            file_format = gr.Radio(["wav", "ogg"], value="wav", label="File format")
+            inputs.append(file_format)
             btn = gr.Button("Vocalize")
             btn.click(fn=inference, inputs=inputs, outputs=outputs, api_name="cupra")

dev.sh CHANGED Viewed

@@ -8,6 +8,7 @@ docker rm -f jboselvoha 2> /dev/null
 # -p 7860:7860 \
 # jboselvoha
 docker run -d -it --name jboselvoha  \
 -v $(pwd)/libs:/home/user/app/libs:Z \
 -v $(pwd)/assets:/home/user/app/assets:Z \
 -v $(pwd)/pretrained/nix-tts:/home/user/app/pretrained/nix-tts/:Z \

 # -p 7860:7860 \
 # jboselvoha
 docker run -d -it --name jboselvoha  \
+-v $(pwd)/lfs:/home/user/app/lfs:Z \
 -v $(pwd)/libs:/home/user/app/libs:Z \
 -v $(pwd)/assets:/home/user/app/assets:Z \
 -v $(pwd)/pretrained/nix-tts:/home/user/app/pretrained/nix-tts/:Z \

prod.sh DELETED Viewed

@@ -1,10 +0,0 @@
-docker kill jboselvoha 2> /dev/null
-docker rm -f jboselvoha 2> /dev/null
-docker run -it --name jboselvoha  \
--v $(pwd)/lfs:/home/user/app/lfs/:Z \
--v $(pwd)/app.py:/home/user/app/app.py:Z \
--v $(pwd)/lojban/lojban.py:/home/user/app/lojban/lojban.py:Z \
--v $(pwd)/vits:/home/user/app/vits:Z \
--v $(pwd)/nix-tts:/home/user/app/nix-tts:Z \
--p 7860:7860 \
-jboselvoha