Spaces:

Aniemore
/

Russian-Emotion-Recognition

Build error

Ar4ikov commited on Jun 10, 2022

Commit

e8122f3

•

1 Parent(s): 833d68e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,15 +12,16 @@ import numpy as np
 import subprocess
-def resample(speech_array, sampling_rate):
-    resampler = torchaudio.transforms.Resample(sampling_rate)
-    speech = resampler(speech_array).squeeze().astype("double")
     return speech
-def predict(speech_array, sampling_rate):
-    speech = resample(speech_array, sampling_rate)
-    inputs = feature_extractor(speech, sampling_rate=SR, return_tensors="pt", padding=True)
     inputs = {key: inputs[key].to(device) for key in inputs}
     with torch.no_grad():
@@ -41,27 +42,15 @@ feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("Aniemore/wav2vec2-
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-def transcribe(audio):
-    sr, audio = audio[0], audio[1]
-    return predict(audio, sr)
-def get_asr_interface():
-    return gr.Interface(
-        fn=transcribe,
-        inputs=[
-            gr.inputs.Audio(source="upload", type="numpy")
-        ],
-        outputs=[
-            "json"
-        ])
-interfaces = [
-    get_asr_interface()
-]
-names = [
-    "Russian Emotion Recognition"
-]
-gr.TabbedInterface(interfaces, names).launch(server_name = "0.0.0.0", enable_queue=False)

 import subprocess
+def resample(path, sampling_rate):
+    speech_array, _sampling_rate = torchaudio.load(path)
+    resampler = torchaudio.transforms.Resample(_sampling_rate)
+    speech = resampler(speech_array).squeeze().numpy()
     return speech
+def predict(path, sampling_rate=SR):
+    speech = resample(path, sampling_rate)
+    inputs = feature_extractor(speech, sampling_rate=sampling_rate, return_tensors="pt", padding=True)
     inputs = {key: inputs[key].to(device) for key in inputs}
     with torch.no_grad():
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+def recognize(audio_path):
+    return predict(audio_path)
+with gr.Blocks() as blocks:
+    audio = gr.Audio(source="microphone", type="filepath", label="Скажите что-нибудь...")
+    success_button = gr.Button('Распознать эмоции')
+    output = gr.JSON(label="Эмоции")
+    success_button.click(fn=recognize, inputs=[audio], outputs=[output])
+blocks.launch(enable_queue=True, debug=True)