Spaces:

mrchan1207
/

phoneme_transciptor

Running

thanhhungtakeshi commited on Sep 22

Commit

7423626

1 Parent(s): 126a0a6

using levenshtein distance for similarity score

Files changed (3) hide show

app.py CHANGED Viewed

@@ -14,7 +14,7 @@ from g2p_en import G2p
 from minineedle import needle, smith, core
 from model import AlignmentRequest
-from utils import arpabet_to_ipa_seq, similarity_score
 from audio import decode_audio_bytes, preprocess_audio
 # Configure environment

 from minineedle import needle, smith, core
 from model import AlignmentRequest
+from utils import arpabet_to_ipa_seq, levenshtein_similarity_score as similarity_score
 from audio import decode_audio_bytes, preprocess_audio
 # Configure environment

requirements.txt CHANGED Viewed

@@ -1,11 +1,12 @@
-fastapi
-uvicorn
-transformers
-huggingface-hub
-soundfile
-av
-numpy
-python-multipart
 protobuf
 minineedle==3.1.5
-g2p-en==2.1.0

+fastapi==0.117.1
+uvicorn==0.36.0
+transformers==4.56.2
+huggingface-hub==0.35.0
+soundfile==0.13.1
+av==15.1.0
+numpy==2.3.3
+python-multipart==0.0.20
 protobuf
 minineedle==3.1.5
+g2p-en==2.1.0
+python-Levenshtein==0.27.1

utils.py CHANGED Viewed

@@ -1,3 +1,5 @@
 ARPABET_TO_IPA = {
     "AA": "ɑ",   # father
     "AE": "æ",   # cat
@@ -46,18 +48,24 @@ def arpabet_to_ipa_seq(arpabet_seq):
     return [ARPABET_TO_IPA.get(sym.rstrip("012").upper(), sym) for sym in arpabet_seq]
-def similarity_score(list1, list2):
     """
-    Calculate similarity score between two lists of characters (same length).
-    Score = matches / total
     """
-    if len(list1) != len(list2):
-        return 0
-    matches = sum(c1 == c2 for c1, c2 in zip(list1, list2))
-    score = matches / len(list1)
-    return int(round(score, 2) * 100)
 if __name__ == "__main__":
-    print(arpabet_to_ipa_seq(['ah', 'l', 'ow', 'ay', 'd', 'ow', 'n', 't', 'r', 'ih']))

+import Levenshtein
 ARPABET_TO_IPA = {
     "AA": "ɑ",   # father
     "AE": "æ",   # cat
     return [ARPABET_TO_IPA.get(sym.rstrip("012").upper(), sym) for sym in arpabet_seq]
+def levenshtein_similarity_score(seq1, seq2):
     """
+    Calculate the Levenshtein distance between two sequences.
     """
+    str1 = "".join(seq1)
+    str2 = "".join(seq2)
+    distance = Levenshtein.distance(str1, str2)
+    max_len = max(len(str1), len(str2))
+    if max_len == 0:  # Handle empty strings to prevent division by zero
+        normalized_distance = 0.0
+    else:
+        normalized_distance = distance / max_len
+    similarity_score = 1 - normalized_distance
+    return int(similarity_score * 100)
 if __name__ == "__main__":
+    # print(arpabet_to_ipa_seq(['ah', 'l', 'ow', 'ay', 'd', 'ow', 'n', 't', 'r', 'ih']))
+    corrected_ipa = ["ð", "ɛ", "ɹ"]
+    user_ipa = ["ʌ", "ð", "ɛ", "ɹ"]
+    print(levenshtein_similarity_score(corrected_ipa, user_ipa))