longform-musicgen

Running on Zero

App Files Files Community

ylacombe commited on Apr 19, 2024

Commit

a204cc2

verified ·

1 Parent(s): da23db0

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -5

app.py CHANGED Viewed

@@ -35,7 +35,6 @@ logger = logging.get_logger(__name__)
 class MusicgenMelodyForLongFormConditionalGeneration(MusicgenMelodyForConditionalGeneration):
     stride_longform = 500
-    max_longform_generation_length = 4000
     def _prepare_audio_encoder_kwargs_for_longform_generation(
@@ -61,6 +60,7 @@ class MusicgenMelodyForLongFormConditionalGeneration(MusicgenMelodyForConditiona
         logits_processor: Optional[LogitsProcessorList] = None,
         stopping_criteria: Optional[StoppingCriteriaList] = None,
         synced_gpus: Optional[bool] = None,
         streamer: Optional["BaseStreamer"] = None,
         **kwargs,
     ):
@@ -638,13 +638,14 @@ def generate_audio(text_prompt, audio, audio_length_in_s=10.0, play_steps_in_s=2
             return_tensors="pt",
         )
-    streamer = MusicgenStreamer(model, device=device, play_steps=play_steps, is_longform=True)
     generation_kwargs = dict(
         **inputs.to(device),
         temperature=1.2,
         streamer=streamer,
-        max_new_tokens=max_new_tokens,
     )
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
@@ -666,9 +667,9 @@ demo = gr.Interface(
     inputs=[
         gr.Text(label="Prompt", value="80s pop track with synth and instrumentals"),
         gr.Audio(type="numpy", label="Conditioning audio"),
-        gr.Slider(10, 30, value=15, step=5, label="Audio length in seconds"),
         gr.Slider(0.5, 2.5, value=1.5, step=0.5, label="Streaming interval in seconds", info="Lower = shorter chunks, lower latency, more codec steps"),
-        gr.Slider(0, 10, value=5, step=1, label="Seed for random generations"),
     ],
     outputs=[
         gr.Audio(label="Generated Music", autoplay=True,  interactive=False, streaming=True)

 class MusicgenMelodyForLongFormConditionalGeneration(MusicgenMelodyForConditionalGeneration):
     stride_longform = 500
     def _prepare_audio_encoder_kwargs_for_longform_generation(
         logits_processor: Optional[LogitsProcessorList] = None,
         stopping_criteria: Optional[StoppingCriteriaList] = None,
         synced_gpus: Optional[bool] = None,
+        max_longform_generation_length: Optional[int] = 4000,
         streamer: Optional["BaseStreamer"] = None,
         **kwargs,
     ):
             return_tensors="pt",
         )
+    streamer = MusicgenStreamer(model, device=device, play_steps=play_steps, is_longform=True, )
     generation_kwargs = dict(
         **inputs.to(device),
         temperature=1.2,
         streamer=streamer,
+        max_new_tokens=min(max_new_tokens, 1500),
+        max_longform_generation_length=max_new_tokens,
     )
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
     inputs=[
         gr.Text(label="Prompt", value="80s pop track with synth and instrumentals"),
         gr.Audio(type="numpy", label="Conditioning audio"),
+        gr.Slider(15, 60, value=45, step=5, label="Audio length in seconds"),
         gr.Slider(0.5, 2.5, value=1.5, step=0.5, label="Streaming interval in seconds", info="Lower = shorter chunks, lower latency, more codec steps"),
+        gr.Number(value=5, precision=0, step=1, minimum=0, label="Seed for random generations"),
     ],
     outputs=[
         gr.Audio(label="Generated Music", autoplay=True,  interactive=False, streaming=True)