Spaces:

qanastek
/

Alexa-NLU-Clone

Running

qanastek commited on May 16, 2022

Commit

63deeee

1 Parent(s): bcf29d2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -27,6 +27,39 @@ tokenizer_ner = AutoTokenizer.from_pretrained(model_name)
 model_ner = AutoModelForTokenClassification.from_pretrained(model_name)
 predict_ner = TokenClassificationPipeline(model=model_ner, tokenizer=tokenizer_ner)
 def greet(name):
     return "Hello " + name + "!!"

 model_ner = AutoModelForTokenClassification.from_pretrained(model_name)
 predict_ner = TokenClassificationPipeline(model=model_ner, tokenizer=tokenizer_ner)
+def transcribe(audio_path):
+    speech_array, sampling_rate = librosa.load(audio_path, sr=16_000)
+    inputs = processor_asr(speech_array, sampling_rate=16_000, return_tensors="pt", padding=True)
+    with torch.no_grad():
+        logits = model_asr(inputs.input_values, attention_mask=inputs.attention_mask).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    return processor_asr.batch_decode(predicted_ids)[0]
+def getUniform(text):
+    idx = 0
+    res = {}
+    for t in text:
+        raw = t["entity"].replace("B-","").replace("I-","")
+        word = t["word"].replace("▁","")
+        if "B-" in t["entity"]:
+            res[f"{raw}|{idx}"] = [word]
+            idx += 1
+        else:
+            res[f"{raw}|{idx}"].append(word)
+    res = [(r.split("|")[0], res[r]) for r in res]
+    return res
 def greet(name):
     return "Hello " + name + "!!"