Spaces:

hugggof
/

nesquik

Sleeping

App Files Files Community

hugo flores garcia commited on Dec 22, 2023

Commit

3cd737d

•

1 Parent(s): b90b198

stuff

Browse files

Files changed (1) hide show

app.py +39 -51

app.py CHANGED Viewed

@@ -73,14 +73,8 @@ def load_example_audio():
     return "./assets/example.wav"
-def _vamp(data, return_mask=False):
-    # remove any old files in the output directory (from previous runs)
-    shutil.rmtree(OUT_DIR)
-    OUT_DIR.mkdir()
-    out_dir = OUT_DIR / str(uuid.uuid4())
-    out_dir.mkdir()
-    sig = at.AudioSignal(data[input_audio])
     sig = interface.preprocess(sig)
     loudness = sig.loudness()
@@ -103,16 +97,10 @@ def _vamp(data, return_mask=False):
     mask = pmask.codebook_mask(mask, int(data[n_mask_codebooks]))
     print(f"sampletemp {data[sampletemp]}")
-    print(f"top_p {data[top_p]}")
     print(f"num_steps {data[num_steps]}")
     print(f"periodic_p {data[periodic_p]}")
     print(f"seed {data[seed]}")
-    _top_p = data[top_p] if data[top_p] > 0 else None
-    # save the mask as a txt file
-    np.savetxt(out_dir / "mask.txt", mask[:,0,:].long().cpu().numpy())
     _seed = data[seed] if data[seed] > 0 else None
     print(f"processing coarse...")
     zv, mask_z = interface.coarse_vamp(
@@ -122,41 +110,44 @@ def _vamp(data, return_mask=False):
         mask_temperature=1.5*10,
         sampling_temperature=data[sampletemp],
         return_mask=True,
-        top_p=_top_p,
         gen_fn=interface.coarse.generate,
         seed=_seed,
         sample_cutoff=1.0,
     )
-    if use_coarse2fine:
-        print(f"processing coarse to fine...")
-        zv = interface.coarse_to_fine(
-            zv,
-            mask_temperature=1.5*10,
-            sampling_temperature=data[sampletemp],
-            mask=mask,
-            sampling_steps=data[num_steps] // 2,
-            sample_cutoff=1.0,
-            seed=_seed,
-        )
     sig = interface.to_signal(zv).cpu()
     print("done")
-    sig.write(out_dir / "output.wav")
-    if return_mask:
-        mask = interface.to_signal(mask_z).cpu()
-        mask.write(out_dir / "mask.wav")
-        return sig.path_to_file, mask.path_to_file
-    else:
-        return sig.path_to_file
-def vamp(data):
-    return _vamp(data, return_mask=True)
-def api_vamp(data):
-    return _vamp(data, return_mask=False)
 with gr.Blocks() as demo:
@@ -228,16 +219,16 @@ with gr.Blocks() as demo:
                 label="number of steps (should normally be between 12 and 36)",
                 minimum=1,
                 maximum=128,
-                step=1,
-                value=36
             )
-            dropout = gr.Slider(
-                label="mask dropout",
-                minimum=0.0,
-                maximum=1.0,
-                step=0.01,
-                value=0.0
             )
@@ -247,10 +238,8 @@ with gr.Blocks() as demo:
                 precision=0,
             )
-        # mask settings
-        with gr.Column():
-            vamp_button = gr.Button("generate (vamp)!!!")
             output_audio = gr.Audio(
                 label="output audio",
                 interactive=False,
@@ -262,23 +251,22 @@ with gr.Blocks() as demo:
             num_steps,
             sampletemp,
             periodic_p,
-            dropout,
             seed,
             n_mask_codebooks,
         }
     # connect widgets
     vamp_button.click(
-        fn=vamp,
         inputs=_inputs,
         outputs=[output_audio],
     )
     build_endpoint(
-        inputs=harp_inputs,
         output=output_audio,
-        process_fn=harp_vamp,
         card=ModelCard(
             name="vampnet",
             description="turn your music into NES music!! quick!! NOTE: vampnet's has a maximum context length of 10 seconds. Please split all audio clips into 10 second chunks, or processing will result in an error. ",

     return "./assets/example.wav"
+def _vamp(sig, data):
     sig = interface.preprocess(sig)
     loudness = sig.loudness()
     mask = pmask.codebook_mask(mask, int(data[n_mask_codebooks]))
     print(f"sampletemp {data[sampletemp]}")
     print(f"num_steps {data[num_steps]}")
     print(f"periodic_p {data[periodic_p]}")
     print(f"seed {data[seed]}")
     _seed = data[seed] if data[seed] > 0 else None
     print(f"processing coarse...")
     zv, mask_z = interface.coarse_vamp(
         mask_temperature=1.5*10,
         sampling_temperature=data[sampletemp],
         return_mask=True,
+        top_p=0.85,
         gen_fn=interface.coarse.generate,
         seed=_seed,
         sample_cutoff=1.0,
     )
+    print(f"processing coarse to fine...")
+    zv = interface.coarse_to_fine(
+        zv,
+        mask_temperature=1.5*10,
+        sampling_temperature=data[sampletemp],
+        mask=mask,
+        sampling_steps=data[num_steps] // 2,
+        sample_cutoff=1.0,
+        seed=_seed,
+    )
     sig = interface.to_signal(zv).cpu()
     print("done")
+    return sig
+def process_fn(data):
+    # remove any old files in the output directory (from previous runs)
+    shutil.rmtree(OUT_DIR)
+    OUT_DIR.mkdir()
+    out_dir = OUT_DIR / str(uuid.uuid4())
+    out_dir.mkdir()
+    sig = at.AudioSignal(data[input_audio])
+    for _pass in range(data[num_passes]):
+        pass
+    sig.write(out_dir / "output.wav")
+    return sig.path_to_file
 with gr.Blocks() as demo:
                 label="number of steps (should normally be between 12 and 36)",
                 minimum=1,
                 maximum=128,
+                step=6,
+                value=24
             )
+            num_passes = gr.Slider(
+                label="number of passes (more passes = more time, but better results)",
+                minimum=2,
+                maximum=8,
+                step=1,
+                value=4
             )
                 precision=0,
             )
+            vamp_button = gr.Button("nes, quick!!!!!")
             output_audio = gr.Audio(
                 label="output audio",
                 interactive=False,
             num_steps,
             sampletemp,
             periodic_p,
             seed,
             n_mask_codebooks,
         }
     # connect widgets
     vamp_button.click(
+        fn=process_fn,
         inputs=_inputs,
         outputs=[output_audio],
     )
     build_endpoint(
+        inputs=_inputs,
         output=output_audio,
+        process_fn=process_fn,
         card=ModelCard(
             name="vampnet",
             description="turn your music into NES music!! quick!! NOTE: vampnet's has a maximum context length of 10 seconds. Please split all audio clips into 10 second chunks, or processing will result in an error. ",