Spaces:

amosnbn
/

PapuaTranslate

Running

App Files Files Community

amosnbn commited on 3 days ago

Commit

25480c6

1 Parent(s): 548cd9e

final1.2

Browse files

Files changed (1) hide show

app.py +13 -13

app.py CHANGED Viewed

@@ -92,11 +92,11 @@ def login_required(fn):
 PRENORM_LEVEL = os.getenv("PRENORM_LEVEL", "basic").lower()
 PRENORM_DEBUG = os.getenv("PRENORM_DEBUG", "0") == "1"
-WS_RE    = re.compile(r"\s+")
-ELONG_RE = re.compile(r"([bcdfghjklmnpqrstvwxyz])\1{2,}", flags=re.IGNORECASE)
-PUNC_RE  = re.compile(r"[^\w\s,.;:?!%()\-\—/]|_")
-MULTI_PUNC = re.compile(r"([,.;:?!])\1+")
-DASH_SPACES= re.compile(r"\s*([-—/])\s*")
 WHITELIST_KEEP_ELONG = {"papua", "koteka", "wamena", "sarmi", "sorong"}
@@ -149,7 +149,7 @@ def _handle_pu_constructs(text: str) -> str:
         rest = m.group(2).strip()
         pron_std = PRON_MAP.get(pron, pron)
         return f"punya {pron_std} {rest}"
-    return re.sub(r"\b(sa|saya|ko|kamu|dia|dong|kam|kalian|kitong|kitorang|kita|torang)\s*pu\s+([^.,;:!?]+)",
                   repl, text, flags=re.IGNORECASE)
 def _handle_mo_bigram(text: str) -> str:
@@ -157,7 +157,7 @@ def _handle_mo_bigram(text: str) -> str:
         pron = m.group(1).lower()
         pron_std = PRON_MAP.get(pron, pron)
         return f"{pron_std} mau"
-    return re.sub(r"\b(sa|saya|ko|kamu|dia|dong|kam|kalian|kitong|kitorang|kita|torang)\s+mo\b",
                   repl, text, flags=re.IGNORECASE)
 def _handle_negation_bigrams(text: str) -> str:
@@ -165,13 +165,13 @@ def _handle_negation_bigrams(text: str) -> str:
         pron = m.group(1).lower()
         pron_std = PRON_MAP.get(pron, pron)
         return f"{pron_std} tidak"
-    text = re.sub(r"\b(sa|saya|ko|kamu|dia|dong|kam|kalian|kitong|kitorang|kita|torang)\s+(tra|ndak|son|tid)\b",
                   repl_pron, text, flags=re.IGNORECASE)
-    text = re.sub(r"\btra\s+ada\b", "tidak ada", text, flags=re.IGNORECASE)
-    text = re.sub(r"\bndak\s+ada\b", "tidak ada", text, flags=re.IGNORECASE)
-    text = re.sub(r"\btid\s+ada\b", "tidak ada", text, flags=re.IGNORECASE)
-    text = re.sub(r"\bson\s+ada\b", "tidak ada", text, flags=re.IGNORECASE)
-    text = re.sub(r"\btidak\s+tau\b", "tidak tahu", text, flags=re.IGNORECASE)
     return text
 def _token_level_ops(text: str, aggressive: bool) -> str:

 PRENORM_LEVEL = os.getenv("PRENORM_LEVEL", "basic").lower()
 PRENORM_DEBUG = os.getenv("PRENORM_DEBUG", "0") == "1"
+WS_RE    = re.compile("\s+")
+ELONG_RE = re.compile("([bcdfghjklmnpqrstvwxyz])\1{2,}", flags=re.IGNORECASE)
+PUNC_RE  = re.compile("[^\w\s,.;:?!%()\-\—/]|_")
+MULTI_PUNC = re.compile("([,.;:?!])\1+")
+DASH_SPACES= re.compile("\s*([-—/])\s*")
 WHITELIST_KEEP_ELONG = {"papua", "koteka", "wamena", "sarmi", "sorong"}
         rest = m.group(2).strip()
         pron_std = PRON_MAP.get(pron, pron)
         return f"punya {pron_std} {rest}"
+    return re.sub("\b(sa|saya|ko|kamu|dia|dong|kam|kalian|kitong|kitorang|kita|torang)\s*pu\s+([^.,;:!?]+)",
                   repl, text, flags=re.IGNORECASE)
 def _handle_mo_bigram(text: str) -> str:
         pron = m.group(1).lower()
         pron_std = PRON_MAP.get(pron, pron)
         return f"{pron_std} mau"
+    return re.sub("\b(sa|saya|ko|kamu|dia|dong|kam|kalian|kitong|kitorang|kita|torang)\s+mo\b",
                   repl, text, flags=re.IGNORECASE)
 def _handle_negation_bigrams(text: str) -> str:
         pron = m.group(1).lower()
         pron_std = PRON_MAP.get(pron, pron)
         return f"{pron_std} tidak"
+    text = re.sub("\b(sa|saya|ko|kamu|dia|dong|kam|kalian|kitong|kitorang|kita|torang)\s+(tra|ndak|son|tid)\b",
                   repl_pron, text, flags=re.IGNORECASE)
+    text = re.sub("\btra\s+ada\b", "tidak ada", text, flags=re.IGNORECASE)
+    text = re.sub("\bndak\s+ada\b", "tidak ada", text, flags=re.IGNORECASE)
+    text = re.sub("\btid\s+ada\b", "tidak ada", text, flags=re.IGNORECASE)
+    text = re.sub("\bson\s+ada\b", "tidak ada", text, flags=re.IGNORECASE)
+    text = re.sub("\btidak\s+tau\b", "tidak tahu", text, flags=re.IGNORECASE)
     return text
 def _token_level_ops(text: str, aggressive: bool) -> str: