Spaces:

declare-lab
/

tango

Running on Zero

App Files Files Community

soujanyaporia commited on Apr 21

Commit

c463b7e

•

1 Parent(s): 0c677ad

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -6

app.py CHANGED Viewed

@@ -10,8 +10,16 @@ from audioldm.variational_autoencoder import AutoencoderKL
 from gradio import Markdown
 import spaces
 class Tango:
-    def __init__(self, name="declare-lab/tango-full-ft-audiocaps", device="cuda:0"):
         path = snapshot_download(repo_id=name)
@@ -70,9 +78,9 @@ class Tango:
 # Initialize TANGO
 tango = Tango(device="cpu")
-tango.vae.to("cuda")
-tango.stft.to("cuda")
-tango.model.to("cuda")
 @spaces.GPU(duration=60)
 def gradio_generate(prompt, steps, guidance):
@@ -102,7 +110,12 @@ def gradio_generate(prompt, steps, guidance):
 # Using this ChatGPT-generated description of the sound, TANGO provides superior results.
 # <p/>
 # """
-description_text = "Read the paper: https://arxiv.org/abs/2304.13731"
 # Gradio input and output components
 input_text = gr.Textbox(lines=2, label="Prompt")
 output_audio = gr.Audio(label="Generated Audio", type="filepath")
@@ -114,7 +127,7 @@ gr_interface = gr.Interface(
     fn=gradio_generate,
     inputs=[input_text, denoising_steps, guidance_scale],
     outputs=[output_audio],
-    title="TANGO: Text to Audio using Instruction-Guided Diffusion",
     description=description_text,
     allow_flagging=False,
     examples=[

 from gradio import Markdown
 import spaces
+# Automatic device detection
+if torch.cuda.is_available():
+    device_type = "cuda"
+    device_selection = "cuda:0"
+else:
+    device_type = "cpu"
+    device_selection = "cpu"
 class Tango:
+    def __init__(self, name="declare-lab/tango", device=device_selection):
         path = snapshot_download(repo_id=name)
 # Initialize TANGO
 tango = Tango(device="cpu")
+tango.vae.to(device_type)
+tango.stft.to(device_type)
+tango.model.to(device_type)
 @spaces.GPU(duration=60)
 def gradio_generate(prompt, steps, guidance):
 # Using this ChatGPT-generated description of the sound, TANGO provides superior results.
 # <p/>
 # """
+description_text = """
+<p><a href="https://huggingface.co/spaces/declare-lab/tango2/blob/main/app.py?duplicate=true"> <img style="margin-top: 0em; margin-bottom: 0em" src="https://bit.ly/3gLdBN6" alt="Duplicate Space"></a> For faster inference without waiting in queue, you may duplicate the space and upgrade to a GPU in the settings. <br/><br/>
+Generate audio using Tango2 by providing a text prompt. Tango2 was built from Tango and was trained on <a href="https://huggingface.co/datasets/declare-lab/audio-alpaca">Audio-alpaca</a>
+<br/><br/> This is the demo for Tango2 for text to audio generation: <a href="https://arxiv.org/abs/2404.09956">Read our paper.</a>
+<p/>
+"""
 # Gradio input and output components
 input_text = gr.Textbox(lines=2, label="Prompt")
 output_audio = gr.Audio(label="Generated Audio", type="filepath")
     fn=gradio_generate,
     inputs=[input_text, denoising_steps, guidance_scale],
     outputs=[output_audio],
+    title="Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization",
     description=description_text,
     allow_flagging=False,
     examples=[