sts

Running

vineelpratap commited on Jun 24

Commit

d697dab

•

1 Parent(s): 90945f2

Update lid.py

Files changed (1) hide show

lid.py CHANGED Viewed

@@ -1,6 +1,7 @@
 from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
 import torch
 import librosa
 model_id = "facebook/mms-lid-1024"
@@ -19,21 +20,16 @@ with open(f"data/lid/all_langs.tsv") as f:
         LID_LANGUAGES[iso] = name
-def identify(audio_source=None, microphone=None, file_upload=None):
-    if audio_source is None and microphone is None and file_upload is None:
-        # HACK: need to handle this case for some reason
-        return {}
-    if type(microphone) is dict:
-        # HACK: microphone variable is a dict when running on examples
-        microphone = microphone["name"]
-    audio_fp = (
-        file_upload if "upload" in str(audio_source or "").lower() else microphone
-    )
-    if audio_fp is None:
-        return "ERROR: You have to either use the microphone or upload an audio file"
-    audio_samples = librosa.load(audio_fp, sr=LID_SAMPLING_RATE, mono=True)[0]
     inputs = processor(
         audio_samples, sampling_rate=LID_SAMPLING_RATE, return_tensors="pt"
@@ -67,7 +63,7 @@ def identify(audio_source=None, microphone=None, file_upload=None):
 LID_EXAMPLES = [
-    [None, "./assets/english.mp3", None],
-    [None, "./assets/tamil.mp3", None],
-    [None, "./assets/burmese.mp3", None],
-]

 from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
 import torch
 import librosa
+import numpy as np
 model_id = "facebook/mms-lid-1024"
         LID_LANGUAGES[iso] = name
+def identify(audio_data):
+    if isinstance(audio_data, tuple):
+        # microphone
+        sr, audio_samples = audio_data
+        audio_samples = (audio_samples / 32768.0).astype(np.float)
+        assert sr == LID_SAMPLING_RATE, "Invalid sampling rate"
+    else:
+        # file upload
+        isinstance(audio_data, str)
+        audio_samples = librosa.load(audio_data, sr=LID_SAMPLING_RATE, mono=True)[0]
     inputs = processor(
         audio_samples, sampling_rate=LID_SAMPLING_RATE, return_tensors="pt"
 LID_EXAMPLES = [
+    ["./assets/english.mp3"],
+    ["./assets/tamil.mp3"],
+    ["./assets/burmese.mp3"],
+]