Spaces:

juancopi81
/

youtube-music-transcribe

Build error

juancopi81 commited on Nov 7, 2022

Commit

fa0462c

•

1 Parent(s): 7c627a2

Allow ismirmodel

Files changed (1) hide show

app.py CHANGED Viewed

@@ -53,7 +53,7 @@ def get_audio(url):
 def populate_metadata(link):
     yt = YouTube(link)
     audio = get_audio(link)
-    return yt.thumbnail_url, yt.title, audio, audio
 def inference(yt_audio_path):
@@ -67,7 +67,7 @@ def inference(yt_audio_path):
     note_seq.sequence_proto_to_midi_file(est_ns, "./transcribed.mid")
     synth = note_seq.midi_synth.fluidsynth
-    array_of_floats = synth(est_ns, sample_rate=SAMPLE_RATE)
     int16_data = note_seq.audio_io.float_samples_to_int16(array_of_floats)
     # piano_roll = create_image_from_note_sequence(note_sequence)
@@ -95,7 +95,7 @@ with demo:
         The mt3 model transcribes multiple simultaneous instruments, but without velocities.
         """
         model = gr.Radio(
-            ["mt3",],
             label=model_label,
             value="mt3"
         )
@@ -107,9 +107,8 @@ with demo:
             img = gr.Image(label="Thumbnail")
         with gr.Row():
             yt_audio = gr.Audio()
-            yt_audio_path = gr.Textbox(visible=False)
-        link.change(fn=populate_metadata, inputs=link, outputs=[img, title, yt_audio, yt_audio_path])
         with gr.Row():
             btn = gr.Button("Transcribe music")
@@ -119,7 +118,7 @@ with demo:
             midi_audio = gr.Audio()
         btn.click(inference,
-                  inputs=yt_audio_path,
                   outputs=[midi_file, midi_audio])
         gr.Markdown(article)

 def populate_metadata(link):
     yt = YouTube(link)
     audio = get_audio(link)
+    return yt.thumbnail_url, yt.title, audio
 def inference(yt_audio_path):
     note_seq.sequence_proto_to_midi_file(est_ns, "./transcribed.mid")
     synth = note_seq.midi_synth.fluidsynth
+    array_of_floats = synth(est_ns, sample_rate=SAMPLE_RATE, sf2_path=SF2_PATH)
     int16_data = note_seq.audio_io.float_samples_to_int16(array_of_floats)
     # piano_roll = create_image_from_note_sequence(note_sequence)
         The mt3 model transcribes multiple simultaneous instruments, but without velocities.
         """
         model = gr.Radio(
+            ["mt3", "ismir2021"],
             label=model_label,
             value="mt3"
         )
             img = gr.Image(label="Thumbnail")
         with gr.Row():
             yt_audio = gr.Audio()
+        link.change(fn=populate_metadata, inputs=link, outputs=[img, title, yt_audio])
         with gr.Row():
             btn = gr.Button("Transcribe music")
             midi_audio = gr.Audio()
         btn.click(inference,
+                  inputs="final_audio.wav",
                   outputs=[midi_file, midi_audio])
         gr.Markdown(article)