Spaces:

fffiloni
/

image-to-sound-fx

Paused

fffiloni commited on Feb 8, 2023

Commit

a89612e

•

1 Parent(s): afd482c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,9 +10,14 @@ audio_gen = gr.Blocks.load(name="spaces/fffiloni/audioldm-text-to-audio-generati
 ph_message="If you're not happy with sound result, you can manually describe the scene depicted in your image :)"
-def clean():
-    return manual_cap.update(value="",placeholder=ph_message), caption_output.update(value=None), sound_output.update(value=None)
 def infer(image_input, manual_caption, duration_in, seed):
     print(duration_in)
@@ -22,7 +27,7 @@ def infer(image_input, manual_caption, duration_in, seed):
         ph_update = "gpt2 caption: '" + cap + "' • "
     else:
         cap = manual_caption
-        print("manual captiony: " + cap)
         ph_update=""
     sound = audio_gen(cap, duration_in, 2.5, seed, 3, fn_index=0)
@@ -105,7 +110,8 @@ with gr.Blocks(css="style.css") as demo:
         gr.HTML(article)
     clean_out = [manual_cap, caption_output, sound_output]
-    input_img.change(clean, None, clean_out)
     generate.click(infer, inputs=[input_img, manual_cap, duration_in, seed_in], outputs=[caption_output, sound_output, manual_cap, share_group], api_name="i2fx")
     share_button.click(None, [], [], _js=share_js)

 ph_message="If you're not happy with sound result, you can manually describe the scene depicted in your image :)"
+def clean(input_img):
+    if input_img.value == None:
+        return manual_cap.update(value="",placeholder=ph_message), caption_output.update(value=None), sound_output.update(value=None)
+    else:
+        cap = caption(input_img.value, fn_index=0)
+        print("gpt2 caption: '" + cap + "' • ")
+        ph_update = "gpt2 caption: '" + cap + "' • "
+        return manual_cap.update(value="",placeholder=f"{ph_update}{ph_message}"), caption_output.update(value=cap), sound_output.update(value=None)
 def infer(image_input, manual_caption, duration_in, seed):
     print(duration_in)
         ph_update = "gpt2 caption: '" + cap + "' • "
     else:
         cap = manual_caption
+        print("manual caption: " + cap)
         ph_update=""
     sound = audio_gen(cap, duration_in, 2.5, seed, 3, fn_index=0)
         gr.HTML(article)
     clean_out = [manual_cap, caption_output, sound_output]
+    input_img.change(clean, input_img, clean_out)
     generate.click(infer, inputs=[input_img, manual_cap, duration_in, seed_in], outputs=[caption_output, sound_output, manual_cap, share_group], api_name="i2fx")
     share_button.click(None, [], [], _js=share_js)