Spaces:

haoheliu
/

audioldm-text-to-audio-generation

Running on A10G

App Files Files Community

374

haoheliu commited on Feb 7, 2023

Commit

56c7c7f

•

1 Parent(s): 08ae136

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -5

app.py CHANGED Viewed

@@ -26,12 +26,11 @@ audioldm = build_model()
 def text2audio(text, duration, guidance_scale, random_seed, n_candidates):
     # print(text, length, guidance_scale)
     waveform = text_to_audio(audioldm, text, random_seed, duration=duration, guidance_scale=guidance_scale, n_candidate_gen_per_text=int(n_candidates)) # [bs, 1, samples]
-    audio_out = waveform
     waveform = [gr.make_waveform((16000, wave[0]), bg_image="bg.png") for wave in waveform]
     # waveform = [(16000, np.random.randn(16000)), (16000, np.random.randn(16000))]
     if(len(waveform) == 1):
       waveform = waveform[0]
-    return waveform, audio_out
 # iface = gr.Interface(fn=text2audio, inputs=[
 #         gr.Textbox(value="A man is speaking in a huge room", max_lines=1),
@@ -226,7 +225,7 @@ with iface:
               n_candidates = gr.Slider(1, 5, value=3, step=1, label="Automatic quality control. This number control the number of candidates (e.g., generate three audios and choose the best to show you). A Larger value usually lead to better quality with heavier computation")
             ############# Output
             # outputs=gr.Audio(label="Output", type="numpy")
-            outputs=[gr.Video(label="Output", elem_id="output-video"), gr.Audio(visible=False)]
             # with gr.Group(elem_id="container-advanced-btns"):
             #   # advanced_button = gr.Button("Advanced options", elem_id="advanced-btn")
@@ -243,7 +242,7 @@ with iface:
             share_button = gr.Button("Share to community", elem_id="share-btn")
         btn.click(text2audio, inputs=[
-                  textbox, duration, guidance_scale, seed, n_candidates], outputs=outputs)
         share_button.click(None, [], [], _js=share_js)
         gr.HTML('''
@@ -264,7 +263,7 @@ with iface:
         ],
             fn=text2audio,
             inputs=[textbox, duration, guidance_scale, seed, n_candidates],
-            outputs=outputs,
             cache_examples=True,
         )
         gr.HTML('''

 def text2audio(text, duration, guidance_scale, random_seed, n_candidates):
     # print(text, length, guidance_scale)
     waveform = text_to_audio(audioldm, text, random_seed, duration=duration, guidance_scale=guidance_scale, n_candidate_gen_per_text=int(n_candidates)) # [bs, 1, samples]
     waveform = [gr.make_waveform((16000, wave[0]), bg_image="bg.png") for wave in waveform]
     # waveform = [(16000, np.random.randn(16000)), (16000, np.random.randn(16000))]
     if(len(waveform) == 1):
       waveform = waveform[0]
+    return waveform
 # iface = gr.Interface(fn=text2audio, inputs=[
 #         gr.Textbox(value="A man is speaking in a huge room", max_lines=1),
               n_candidates = gr.Slider(1, 5, value=3, step=1, label="Automatic quality control. This number control the number of candidates (e.g., generate three audios and choose the best to show you). A Larger value usually lead to better quality with heavier computation")
             ############# Output
             # outputs=gr.Audio(label="Output", type="numpy")
+            outputs=gr.Video(label="Output", elem_id="output-video")
             # with gr.Group(elem_id="container-advanced-btns"):
             #   # advanced_button = gr.Button("Advanced options", elem_id="advanced-btn")
             share_button = gr.Button("Share to community", elem_id="share-btn")
         btn.click(text2audio, inputs=[
+                  textbox, duration, guidance_scale, seed, n_candidates], outputs=[outputs])
         share_button.click(None, [], [], _js=share_js)
         gr.HTML('''
         ],
             fn=text2audio,
             inputs=[textbox, duration, guidance_scale, seed, n_candidates],
+            outputs=[outputs],
             cache_examples=True,
         )
         gr.HTML('''