Spaces:

qanastek
/

Alexa-NLU-Clone

Running

qanastek commited on May 21, 2022

Commit

2bc0b29

•

1 Parent(s): 535f2ec

Update

Files changed (1) hide show

app.py CHANGED Viewed

@@ -28,6 +28,11 @@ models_paths = {
     "el-GR": "jonatasgrosman/wav2vec2-large-xlsr-53-greek",
 }
 # Classifier Intent
 model_name = 'qanastek/XLMRoberta-Alexa-Intents-Classification'
 tokenizer_intent = AutoTokenizer.from_pretrained(model_name)
@@ -53,11 +58,6 @@ examples = [[e, e.split("=")[0].split("/")[-1]] for e in examples]
 def transcribe(audio_path, lang_code):
     speech_array, sampling_rate = librosa.load(audio_path, sr=16_000)
-    if lang_code not in models:
-        models[lang_code] = {}
-        models[lang_code]["processor"] = Wav2Vec2Processor.from_pretrained(models_paths[lang_code])
-        models[lang_code]["model"] = Wav2Vec2ForCTC.from_pretrained(models_paths[lang_code])
     # Load model
     processor_asr = models[lang_code]["processor"]
@@ -94,6 +94,11 @@ def getUniform(text):
 def predict(wav_file, lang_code):
     text = transcribe(wav_file, lang_code).replace("apizza","a pizza")

     "el-GR": "jonatasgrosman/wav2vec2-large-xlsr-53-greek",
 }
+for lang_code in models_paths.keys():
+    models[lang_code] = {}
+    models[lang_code]["processor"] = Wav2Vec2Processor.from_pretrained(models_paths[lang_code])
+    models[lang_code]["model"] = Wav2Vec2ForCTC.from_pretrained(models_paths[lang_code])
 # Classifier Intent
 model_name = 'qanastek/XLMRoberta-Alexa-Intents-Classification'
 tokenizer_intent = AutoTokenizer.from_pretrained(model_name)
 def transcribe(audio_path, lang_code):
     speech_array, sampling_rate = librosa.load(audio_path, sr=16_000)
     # Load model
     processor_asr = models[lang_code]["processor"]
 def predict(wav_file, lang_code):
+    if lang_code not in models_paths.keys():
+        return {
+            "The language code is unknown!"
+        }
     text = transcribe(wav_file, lang_code).replace("apizza","a pizza")