Spaces:

kurianbenoy
/

audioclassification

Runtime error

kurianbenoy commited on May 2, 2022

Commit

f21fcbc

1 Parent(s): 84ee359

Add demo on recording voice functionality to gradio

Files changed (1) hide show

app.py CHANGED Viewed

@@ -22,6 +22,37 @@ interface_options = {
     "theme": "default",
 }
 def predict(img):
     img = PILImage.create(img)
@@ -30,8 +61,13 @@ def predict(img):
     return labels_probs
 demo = gradio.Interface(
-    fn=predict,
     inputs=gradio.inputs.Image(shape=(512, 512)),
     outputs=gradio.outputs.Label(num_top_classes=5),
     **interface_options,

     "theme": "default",
 }
+N_FFT = 2048
+HOP_LEN = 1024
+def create_spectrogram(filename):
+    audio, sr = torchaudio.load(filename)
+    specgram = torchaudio.transforms.MelSpectrogram(
+        sample_rate=sr,
+        n_fft=N_FFT,
+        win_length=N_FFT,
+        hop_length=HOP_LEN,
+        center=True,
+        pad_mode="reflect",
+        power=2.0,
+        norm="slaney",
+        onesided=True,
+        n_mels=224,
+        mel_scale="htk",
+    )(audio).mean(axis=0)
+    specgram = torchaudio.transforms.AmplitudeToDB()(specgram)
+    specgram = specgram - specgram.min()
+    specgram = specgram / specgram.max()
+    return specgram
+def create_image(filename):
+    specgram = create_spectrogram(filename)
+    dest = Path("temp.png")
+    save_image(specgram, "temp.png")
 def predict(img):
     img = PILImage.create(img)
     return labels_probs
+def end2endpipeline(filename):
+    create_image(filename)
+    return predict("temp.png")
 demo = gradio.Interface(
+    fn=end2endpipeline,
     inputs=gradio.inputs.Image(shape=(512, 512)),
     outputs=gradio.outputs.Label(num_top_classes=5),
     **interface_options,