Spaces:

amosnbn
/

PapuaTranslate

Sleeping

App Files Files Community

amosnbn commited on 17 days ago

Commit

7e72f13

1 Parent(s): 415e208

Update

Browse files

Files changed (1) hide show

app.py +19 -67

app.py CHANGED Viewed

@@ -16,10 +16,8 @@ log = logging.getLogger("papua-app")
 # ---------- Flask ----------
 app = Flask(__name__, template_folder="frontend", static_folder="static")
-# trust HF proxy (HTTPS/host), penting untuk cookie Secure & redirect
 app.wsgi_app = ProxyFix(app.wsgi_app, x_for=1, x_proto=1, x_host=1)
-# session config (HF Spaces iframe-friendly)
 app.config.update(
     SECRET_KEY=os.getenv("SECRET_KEY", "dev-secret-change-me"),
     SESSION_COOKIE_NAME="hfspace_session",
@@ -95,15 +93,12 @@ def login_required(fn):
         return fn(*args, **kwargs)
     return _wrap
-# ---------- Prenorm (enhanced, controllable via ENV) ----------
-# ENV:
-#   PRENORM_LEVEL = off | basic | aggressive   (default: basic)
-#   PRENORM_DEBUG = 1 to log internal trace (response API tidak berubah)
 PRENORM_LEVEL = os.getenv("PRENORM_LEVEL", "basic").lower()
 PRENORM_DEBUG = os.getenv("PRENORM_DEBUG", "0") == "1"
 WS_RE    = re.compile(r"\s+")
-ELONG_RE = re.compile(r"([bcdfghjklmnpqrstvwxyz])\1{2,}", flags=re.IGNORECASE)  # konsonan >=3x
 PUNC_RE  = re.compile(r"[^\w\s,.;:?!%()\-\—/]|_")
 MULTI_PUNC = re.compile(r"([,.;:?!])\1+")
 DASH_SPACES= re.compile(r"\s*([-—/])\s*")
@@ -122,7 +117,6 @@ PAPUA_MAP = {
     "ma": "sama", "deng": "dengan", "dgn": "dengan",
     "kira2": "kira-kira", "bgmn": "bagaimana", "gmn": "bagaimana",
 }
 PRON_MAP = {
     "sa": "saya", "saya": "saya",
     "ko": "kamu", "kamu": "kamu",
@@ -133,28 +127,21 @@ PRON_MAP = {
 def _normalize_unicode(text: str) -> str:
     return unicodedata.normalize("NFKC", text)
 def _strip_emoji_and_noise(text: str) -> str:
     text = PUNC_RE.sub(" ", text)
     text = MULTI_PUNC.sub(r"\1", text)
     text = DASH_SPACES.sub(r" \1 ", text)
     return text
 def _normalize_ws(text: str) -> str:
     return WS_RE.sub(" ", text).strip()
 def _reduce_elongation(token: str) -> str:
     base = token.lower()
-    if base in WHITELIST_KEEP_ELONG:
-        return token
     return ELONG_RE.sub(r"\1\1", token)
 def _apply_papua_map(token: str) -> str:
     low = token.lower()
     return PAPUA_MAP.get(low, token)
 def _handle_pu_constructs(text: str) -> str:
-    # "<pronoun> pu <X>" -> "punya <pronoun_std> <X>"
     def repl(m):
         pron = m.group(1).lower()
         rest = m.group(2).strip()
@@ -162,7 +149,6 @@ def _handle_pu_constructs(text: str) -> str:
         return f"punya {pron_std} {rest}"
     return re.sub(r"\b(sa|saya|ko|kamu|dia|dong|kam|kalian|kitong|kitorang|kita|torang)\s*pu\s+([^.,;:!?]+)",
                   repl, text, flags=re.IGNORECASE)
 def _token_level_ops(text: str, aggressive: bool) -> str:
     tokens = text.split()
     out = []
@@ -173,16 +159,9 @@ def _token_level_ops(text: str, aggressive: bool) -> str:
     return " ".join(out)
 def papua_prenorm(inp: str, level: str = "basic", return_trace: bool = False):
-    """
-    level:
-      - "off": tanpa perubahan
-      - "basic": unicode + ws + map slang + 'pu' constructs
-      - "aggressive": basic + reduksi huruf berulang + pembersihan simbol non-teks
-    """
     trace = {"level": level}
     if level == "off":
         return (inp, trace) if return_trace else inp
     s0 = inp
     s1 = _normalize_unicode(s0)
     s2 = _strip_emoji_and_noise(s1) if level == "aggressive" else s1
@@ -190,18 +169,14 @@ def papua_prenorm(inp: str, level: str = "basic", return_trace: bool = False):
     s4 = _handle_pu_constructs(s3)
     s5 = _token_level_ops(s4, aggressive=(level == "aggressive"))
     s6 = _normalize_ws(s5)
     if return_trace:
-        trace.update({
-            "original": s0, "unicode_norm": s1,
-            "strip_noise": s2 if level == "aggressive" else "(skip)",
-            "ws_norm_1": s3, "pu_constructs": s4,
-            "token_ops": s5, "final": s6,
-        })
         return s6, trace
     return s6
-# Wrapper publik yang dipakai endpoint
 def prenorm(text: str) -> str:
     if PRENORM_DEBUG:
         out, tr = papua_prenorm(text, level=PRENORM_LEVEL, return_trace=True)
@@ -209,8 +184,7 @@ def prenorm(text: str) -> str:
         return out
     return papua_prenorm(text, level=PRENORM_LEVEL, return_trace=False)
-# ---------- Model (lazy) + strip BOM + sanitize adapter ----------
-# Default diarahkan ke repo kamu di Hugging Face.
 BASE_MODEL_ID = os.getenv("BASE_MODEL_ID", "amosnbn/cendol-mt5-base-inst")
 ADAPTER_ID    = os.getenv("ADAPTER_ID", "amosnbn/papua-lora-ckpt-168")
 DEVICE        = "cuda" if os.getenv("DEVICE", "cpu") == "cuda" else "cpu"
@@ -271,27 +245,15 @@ def _sanitize_adapter_config(adapter_dir: str):
             json.dump(cleaned, f, ensure_ascii=False, indent=2)
 def _load_model():
-    """Download ke /tmp, strip BOM, sanitize adapter_config, lalu load."""
     global TOK, MODEL, _MODEL_READY, _MODEL_ERROR
     try:
         log.info("[MODEL] downloading base=%s adapter=%s", BASE_MODEL_ID, ADAPTER_ID or "-")
-        base_dir = snapshot_download(
-            repo_id=BASE_MODEL_ID,
-            local_dir="/tmp/hf_base",
-            local_dir_use_symlinks=False,
-            allow_patterns=None,
-        )
         _strip_bom_in_dir(base_dir)
         adapter_dir = None
         if ADAPTER_ID:
-            adapter_dir = snapshot_download(
-                repo_id=ADAPTER_ID,
-                local_dir="/tmp/hf_adapter",
-                local_dir_use_symlinks=False,
-                allow_patterns=None,
-            )
             _strip_bom_in_dir(adapter_dir)
             _sanitize_adapter_config(adapter_dir)
@@ -301,7 +263,6 @@ def _load_model():
         TOK = AutoTokenizer.from_pretrained(base_dir)
         base = AutoModelForSeq2SeqLM.from_pretrained(base_dir)
         MODEL = PeftModel.from_pretrained(base, adapter_dir) if adapter_dir else base
         MODEL.eval().to(DEVICE)
@@ -339,10 +300,8 @@ def translate_with_model(text: str, max_new_tokens: int = 48) -> str:
     return tok.decode(out[0], skip_special_tokens=True)
 def _preload_thread():
-    try:
-        _load_model()
-    except Exception:
-        pass
 if PRELOAD_MODEL:
     threading.Thread(target=_preload_thread, daemon=True).start()
@@ -382,17 +341,6 @@ def diag():
         "prenorm": {"level": PRENORM_LEVEL, "debug": PRENORM_DEBUG},
     })
-@app.get("/debug/session/set")
-def dbg_set():
-    session.permanent = True
-    session["uid"] = "test-user"
-    session["email"] = "test@example.com"
-    return {"ok": True, "set": True}
-@app.get("/debug/session/get")
-def dbg_get():
-    return {"uid": session.get("uid"), "email": session.get("email")}
 # ---------- Auth & Pages ----------
 @app.get("/health")
 @app.get("/ping")
@@ -401,6 +349,8 @@ def health():
 @app.get("/login")
 def login_get():
     return render_template("login.html")
 @app.post("/login")
@@ -424,6 +374,8 @@ def login_post():
 @app.get("/register")
 def register_get():
     return render_template("register.html")
 @app.post("/register")
@@ -440,10 +392,10 @@ def register_post():
             return redirect(url_for("register_get"))
         u = User(email=email); set_password(u, pwd)
         s.add(u); s.commit()
-        session.permanent = True
-        session["uid"], session["email"] = u.id, u.email
-    return redirect(url_for("index"))
 @app.get("/logout")
 def logout():

 # ---------- Flask ----------
 app = Flask(__name__, template_folder="frontend", static_folder="static")
 app.wsgi_app = ProxyFix(app.wsgi_app, x_for=1, x_proto=1, x_host=1)
 app.config.update(
     SECRET_KEY=os.getenv("SECRET_KEY", "dev-secret-change-me"),
     SESSION_COOKIE_NAME="hfspace_session",
         return fn(*args, **kwargs)
     return _wrap
+# ---------- Prenorm ----------
 PRENORM_LEVEL = os.getenv("PRENORM_LEVEL", "basic").lower()
 PRENORM_DEBUG = os.getenv("PRENORM_DEBUG", "0") == "1"
 WS_RE    = re.compile(r"\s+")
+ELONG_RE = re.compile(r"([bcdfghjklmnpqrstvwxyz])\1{2,}", flags=re.IGNORECASE)
 PUNC_RE  = re.compile(r"[^\w\s,.;:?!%()\-\—/]|_")
 MULTI_PUNC = re.compile(r"([,.;:?!])\1+")
 DASH_SPACES= re.compile(r"\s*([-—/])\s*")
     "ma": "sama", "deng": "dengan", "dgn": "dengan",
     "kira2": "kira-kira", "bgmn": "bagaimana", "gmn": "bagaimana",
 }
 PRON_MAP = {
     "sa": "saya", "saya": "saya",
     "ko": "kamu", "kamu": "kamu",
 def _normalize_unicode(text: str) -> str:
     return unicodedata.normalize("NFKC", text)
 def _strip_emoji_and_noise(text: str) -> str:
     text = PUNC_RE.sub(" ", text)
     text = MULTI_PUNC.sub(r"\1", text)
     text = DASH_SPACES.sub(r" \1 ", text)
     return text
 def _normalize_ws(text: str) -> str:
     return WS_RE.sub(" ", text).strip()
 def _reduce_elongation(token: str) -> str:
     base = token.lower()
+    if base in WHITELIST_KEEP_ELONG: return token
     return ELONG_RE.sub(r"\1\1", token)
 def _apply_papua_map(token: str) -> str:
     low = token.lower()
     return PAPUA_MAP.get(low, token)
 def _handle_pu_constructs(text: str) -> str:
     def repl(m):
         pron = m.group(1).lower()
         rest = m.group(2).strip()
         return f"punya {pron_std} {rest}"
     return re.sub(r"\b(sa|saya|ko|kamu|dia|dong|kam|kalian|kitong|kitorang|kita|torang)\s*pu\s+([^.,;:!?]+)",
                   repl, text, flags=re.IGNORECASE)
 def _token_level_ops(text: str, aggressive: bool) -> str:
     tokens = text.split()
     out = []
     return " ".join(out)
 def papua_prenorm(inp: str, level: str = "basic", return_trace: bool = False):
     trace = {"level": level}
     if level == "off":
         return (inp, trace) if return_trace else inp
     s0 = inp
     s1 = _normalize_unicode(s0)
     s2 = _strip_emoji_and_noise(s1) if level == "aggressive" else s1
     s4 = _handle_pu_constructs(s3)
     s5 = _token_level_ops(s4, aggressive=(level == "aggressive"))
     s6 = _normalize_ws(s5)
     if return_trace:
+        trace.update({"original": s0, "unicode_norm": s1,
+                      "strip_noise": s2 if level == "aggressive" else "(skip)",
+                      "ws_norm_1": s3, "pu_constructs": s4,
+                      "token_ops": s5, "final": s6})
         return s6, trace
     return s6
 def prenorm(text: str) -> str:
     if PRENORM_DEBUG:
         out, tr = papua_prenorm(text, level=PRENORM_LEVEL, return_trace=True)
         return out
     return papua_prenorm(text, level=PRENORM_LEVEL, return_trace=False)
+# ---------- Model (lazy) ----------
 BASE_MODEL_ID = os.getenv("BASE_MODEL_ID", "amosnbn/cendol-mt5-base-inst")
 ADAPTER_ID    = os.getenv("ADAPTER_ID", "amosnbn/papua-lora-ckpt-168")
 DEVICE        = "cuda" if os.getenv("DEVICE", "cpu") == "cuda" else "cpu"
             json.dump(cleaned, f, ensure_ascii=False, indent=2)
 def _load_model():
     global TOK, MODEL, _MODEL_READY, _MODEL_ERROR
     try:
         log.info("[MODEL] downloading base=%s adapter=%s", BASE_MODEL_ID, ADAPTER_ID or "-")
+        base_dir = snapshot_download(repo_id=BASE_MODEL_ID, local_dir="/tmp/hf_base", local_dir_use_symlinks=False)
         _strip_bom_in_dir(base_dir)
         adapter_dir = None
         if ADAPTER_ID:
+            adapter_dir = snapshot_download(repo_id=ADAPTER_ID, local_dir="/tmp/hf_adapter", local_dir_use_symlinks=False)
             _strip_bom_in_dir(adapter_dir)
             _sanitize_adapter_config(adapter_dir)
         TOK = AutoTokenizer.from_pretrained(base_dir)
         base = AutoModelForSeq2SeqLM.from_pretrained(base_dir)
         MODEL = PeftModel.from_pretrained(base, adapter_dir) if adapter_dir else base
         MODEL.eval().to(DEVICE)
     return tok.decode(out[0], skip_special_tokens=True)
 def _preload_thread():
+    try: _load_model()
+    except Exception: pass
 if PRELOAD_MODEL:
     threading.Thread(target=_preload_thread, daemon=True).start()
         "prenorm": {"level": PRENORM_LEVEL, "debug": PRENORM_DEBUG},
     })
 # ---------- Auth & Pages ----------
 @app.get("/health")
 @app.get("/ping")
 @app.get("/login")
 def login_get():
+    if session.get("uid"):  # sudah login → ke home
+        return redirect(url_for("index"))
     return render_template("login.html")
 @app.post("/login")
 @app.get("/register")
 def register_get():
+    if session.get("uid"):  # sudah login → ke home
+        return redirect(url_for("index"))
     return render_template("register.html")
 @app.post("/register")
             return redirect(url_for("register_get"))
         u = User(email=email); set_password(u, pwd)
         s.add(u); s.commit()
+    # BEDA DI SINI: tidak auto-login. Wajib login manual.
+    flash("Registrasi berhasil. Silakan login.", "success")
+    return redirect(url_for("login_get"))
 @app.get("/logout")
 def logout():