Spaces:

SeaBenSea
/

Turkish-SER

Runtime error

App Files Files Community

SeaBenSea commited on Jun 26, 2024

Commit

6fa69eb

verified ·

1 Parent(s): e844ce1

Create app.py

Browse files

Files changed (1) hide show

app.py +50 -0

app.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import sys
+sys.path.insert(1, './HuBERT-SER/')
+import torch
+import torch.nn.functional as F
+import torchaudio
+from transformers import AutoConfig, Wav2Vec2FeatureExtractor
+from src.models import Wav2Vec2ForSpeechClassification, HubertForSpeechClassification
+import gradio as gr
+model_name_or_path = "SeaBenSea/hubert-large-turkish-speech-emotion-recognition"
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+config = AutoConfig.from_pretrained(model_name_or_path)
+feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name_or_path)
+sampling_rate = feature_extractor.sampling_rate
+model = HubertForSpeechClassification.from_pretrained(model_name_or_path).to(device)
+def speech_file_to_array_fn(path, sampling_rate):
+    speech_array, _sampling_rate = torchaudio.load(path)
+    resampler = torchaudio.transforms.Resample(_sampling_rate, sampling_rate)
+    speech = resampler(speech_array).squeeze().numpy()
+    return speech
+def predict(path, sampling_rate):
+    speech = speech_file_to_array_fn(path, sampling_rate)
+    inputs = feature_extractor(speech, sampling_rate=sampling_rate, return_tensors="pt", padding=True)
+    inputs = {key: inputs[key].to(device) for key in inputs}
+    with torch.no_grad():
+        logits = model(**inputs).logits
+    scores = F.softmax(logits, dim=1).detach().cpu().numpy()[0]
+    outputs = [{"Emotion": config.id2label[i], "Score": f"{round(score * 100, 3):.1f}%"} for i, score in
+               enumerate(scores)]
+    return outputs
+def classify_audio(audio):
+    return predict(audio, sampling_rate)
+iface = gr.Interface(
+    fn=classify_audio,
+    inputs=gr.Audio(sources="upload", type="filepath"),
+    outputs=gr.JSON(),
+    title="Speech Emotion Classification",
+    description="Upload an audio file to classify the emotion expressed in the speech."
+)
+iface.launch()