Spaces:

fffiloni
/

spectrogram-to-music

Running on T4

App Files Files Community

105

fffiloni commited on Dec 15, 2022

Commit

0c98d02

1 Parent(s): dba302c

Create app.py

Browse files

Files changed (1) hide show

app.py +63 -0

app.py ADDED Viewed

	@@ -0,0 +1,63 @@

+import gradio as gr
+"""
+Audio processing tools to convert between spectrogram images and waveforms.
+"""
+import io
+import typing as T
+import numpy as np
+from PIL import Image
+import pydub
+from scipy.io import wavfile
+import torch
+import torchaudio
+def wav_bytes_from_spectrogram_image(image: Image.Image) -> T.Tuple[io.BytesIO, float]:
+    """
+    Reconstruct a WAV audio clip from a spectrogram image. Also returns the duration in seconds.
+    """
+    max_volume = 50
+    power_for_image = 0.25
+    Sxx = spectrogram_from_image(image, max_volume=max_volume, power_for_image=power_for_image)
+    sample_rate = 44100  # [Hz]
+    clip_duration_ms = 5000  # [ms]
+    bins_per_image = 512
+    n_mels = 512
+    # FFT parameters
+    window_duration_ms = 100  # [ms]
+    padded_duration_ms = 400  # [ms]
+    step_size_ms = 10  # [ms]
+    # Derived parameters
+    num_samples = int(image.width / float(bins_per_image) * clip_duration_ms) * sample_rate
+    n_fft = int(padded_duration_ms / 1000.0 * sample_rate)
+    hop_length = int(step_size_ms / 1000.0 * sample_rate)
+    win_length = int(window_duration_ms / 1000.0 * sample_rate)
+    samples = waveform_from_spectrogram(
+        Sxx=Sxx,
+        n_fft=n_fft,
+        hop_length=hop_length,
+        win_length=win_length,
+        num_samples=num_samples,
+        sample_rate=sample_rate,
+        mel_scale=True,
+        n_mels=n_mels,
+        max_mel_iters=200,
+        num_griffin_lim_iters=32,
+    )
+    wav_bytes = io.BytesIO()
+    wavfile.write(wav_bytes, sample_rate, samples.astype(np.int16))
+    wav_bytes.seek(0)
+    duration_s = float(len(samples)) / sample_rate
+    return wav_bytes
+gr.Interface(fn=wav_bytes_from_spectrogram_image, inputs=[gr.Image()], outputs=[gr.Audio()]).launch()