Spaces:

DanLeBossDeESGI
/

Music3

Sleeping

App Files Files Community

DanLeBossDeESGI commited on Sep 25, 2023

Commit

beb5f8e

1 Parent(s): be80b10

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -34

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
-import streamlit as st
 import torch
 from diffusers import AudioLDMPipeline
 from transformers import AutoProcessor, ClapModel
@@ -22,21 +22,6 @@ processor = AutoProcessor.from_pretrained("sanchit-gandhi/clap-htsat-unfused-m-f
 generator = torch.Generator(device)
-# Streamlit app setup
-st.set_page_config(
-    page_title="Text to Music",
-    page_icon="🎵",
-)
-text_input = st.text_input("Input text", "A hammer is hitting a wooden surface")
-negative_prompt = st.text_input("Negative prompt", "low quality, average quality")
-st.markdown("### Configuration")
-seed = st.number_input("Seed", value=45)
-duration = st.slider("Duration (seconds)", 2.5, 10.0, 5.0, 2.5)
-guidance_scale = st.slider("Guidance scale", 0.0, 4.0, 2.5, 0.5)
-n_candidates = st.slider("Number waveforms to generate", 1, 3, 3, 1)
 def score_waveforms(text, waveforms):
     inputs = processor(text=text, audios=list(waveforms), return_tensors="pt", padding=True)
     inputs = {key: inputs[key].to(device) for key in inputs}
@@ -47,24 +32,39 @@ def score_waveforms(text, waveforms):
     waveform = waveforms[most_probable]
     return waveform
-if st.button("Submit"):
-    if text_input is None:
-        st.error("Please provide a text input.")
     else:
-        waveforms = pipe(
-            text_input,
-            audio_length_in_s=duration,
-            guidance_scale=guidance_scale,
-            num_inference_steps=100,
-            negative_prompt=negative_prompt,
-            num_waveforms_per_prompt=n_candidates if n_candidates else 1,
-            generator=generator.manual_seed(int(seed)),
-        )["audios"]
-        if waveforms.shape[0] > 1:
-            waveform = score_waveforms(text_input, waveforms)
-        else:
-            waveform = waveforms[0]
-        # Spécifiez le taux d'échantillonnage (sample_rate) et le format audio
-        st.audio(waveform, format="audio/wav", sample_rate=16000)

 import torch
+import gradio as gr
 from diffusers import AudioLDMPipeline
 from transformers import AutoProcessor, ClapModel
 generator = torch.Generator(device)
 def score_waveforms(text, waveforms):
     inputs = processor(text=text, audios=list(waveforms), return_tensors="pt", padding=True)
     inputs = {key: inputs[key].to(device) for key in inputs}
     waveform = waveforms[most_probable]
     return waveform
+def text_to_music(text_input, negative_prompt, seed, duration, guidance_scale, n_candidates):
+    waveforms = pipe(
+        text_input,
+        audio_length_in_s=duration,
+        guidance_scale=guidance_scale,
+        num_inference_steps=100,
+        negative_prompt=negative_prompt,
+        num_waveforms_per_prompt=n_candidates if n_candidates else 1,
+        generator=generator.manual_seed(int(seed)),
+    )["audios"]
+    if waveforms.shape[0] > 1:
+        waveform = score_waveforms(text_input, waveforms)
     else:
+        waveform = waveforms[0]
+    return waveform.detach().cpu().numpy()
+iface = gr.Interface(
+    fn=text_to_music,
+    inputs=[
+        gr.inputs.Textbox(label="Input text", default="A hammer is hitting a wooden surface"),
+        gr.inputs.Textbox(label="Negative prompt", default="low quality, average quality"),
+        gr.inputs.Number(label="Seed", default=45),
+        gr.inputs.Slider(label="Duration (seconds)", minimum=2.5, maximum=10.0, default=5.0, step=0.1),
+        gr.inputs.Slider(label="Guidance scale", minimum=0.0, maximum=4.0, default=2.5, step=0.1),
+        gr.inputs.Slider(label="Number waveforms to generate", minimum=1, maximum=3, default=3, step=1),
+    ],
+    outputs=gr.outputs.Audio(label="Generated Audio", type="numpy"),
+    live=True,
+    title="Text to Music",
+    description="Convert text into music using a pre-trained model.",
+    theme="default",
+)
+iface.launch()