Spaces:

irhamni
/

predict

Running

App Files Files Community

irhamni commited on Feb 7

Commit

ee45588

verified ·

1 Parent(s): 868b61f

Update app.py

Browse files

Files changed (1) hide show

app.py +277 -254

app.py CHANGED Viewed

@@ -1,48 +1,83 @@
 # -*- coding: utf-8 -*-
 """
-IPLM 2025 — FINAL (NO UPLOAD) — FULL REWRITE (NO RINGKAS)
-✅ Jenis tampil: sekolah, umum, khusus (khusus ditampilkan sebagai jenis)
-✅ Indeks dasar per entitas: Yeo-Johnson + MinMax nasional per indikator
-✅ UPDATE UTAMA (REQUEST):
-   Penyesuaian berbasis target sampel **33.88%** (bukan 68%) untuk setiap jenis perpustakaan:
-   TARGET_RATIO = 0.3388
-   faktor_penyesuaian = min(n_terkumpul / target_33_88, 1.0)
-✅ AGREGAT WILAYAH (KESELURUHAN) — FIX UTAMA:
-   Semua kolom “keseluruhan” wilayah WAJIB diambil dari rata-rata 3 jenis
-   (sekolah + umum + khusus) ÷ 3 (missing=0, tetap ÷3)
-   -> termasuk Indeks_Dasar_Agregat_0_100 dan Indeks_Final_Wilayah_0_100
-✅ Agregat Wilayah × Jenis:
-   Indeks_Final_Agregat_0_100 = Indeks_Dasar_Agregat_0_100 × faktor_penyesuaian_jenis
-   (faktor per jenis berbasis target 33.88%)
-✅ Ringkasan (Jenis + Keseluruhan) selalu 4 baris: sekolah, umum, khusus, keseluruhan
-✅ Keseluruhan ringkasan = (final_sekolah+final_umum+final_khusus)/3 (missing=0, tetap ÷3)
-✅ Detail entitas: Indeks_Final_0_100 menempel dari Agregat Wilayah (Keseluruhan) (bukan per-row)
-✅ Bell curve per JENIS berbasis skor kinerja per entitas (row-level)
-✅ METODE PENILAIAN KINERJA (REKOMENDASI UTAMA):
-   - Tetap tampilkan skor absolut: Indeks_Final_... (disesuaikan target 33.88%)
-   - Tambahkan skor kinerja relatif yang stabil & audit-friendly:
-     1) Score_Kinerja_Percentile_0_100 (0–100)  ← utama
-     2) Score_Kinerja_RobustZ_0_100 (0–100; 50+10*z_robust) ← opsional, tahan outlier
-✅ Download (tanpa upload box)
-✅ Download Data Mentah (.xlsx) = RAW hasil filter (bukan agregat)
-FIX DISPLAY:
-✅ “null/NaN” untuk target/pop/coverage jenis -> dibuat 0 agar tidak tampil null
-✅ Verifikasi target 33.88% (tanpa koma untuk integer) -> target/pop/gap dibulatkan integer
-✅ TABEL "Agregat Wilayah × Jenis" (UI) hanya sampai kolom Indeks_Dasar_Agregat_0_100
-🔥 FIX PENTING (BUG YANG KAMU KENA):
-✅ Dashboard harus menampilkan Score_Kinerja_WilayahTotal_Percentile_0_100 yang dihitung GLOBAL (nasional),
-   bukan percentile dari data yang sudah terfilter (yang bisa jadi 100 kalau cuma 1 wilayah).
-   -> Implementasi: hitung agg_total_global (sesuai mode kewenangan) lalu merge ke agg_total filter.
 """
 import os
@@ -86,7 +121,7 @@ POP_KHUSUS  = os.getenv("POP_KHUSUS",  "Data_populasi_perp_khusus.xlsx")
 W_KEPATUHAN = float(os.getenv("W_KEPATUHAN", "0.30"))
 W_KINERJA   = float(os.getenv("W_KINERJA",   "0.70"))
-# ✅ target sampel 33.88%
 TARGET_RATIO = float(os.getenv("TARGET_RATIO", "0.3388"))
 # kinerja relatif
@@ -143,6 +178,7 @@ def coerce_num(val):
     t = t.replace("\u00a0", " ").replace("Rp", "").replace("%", "")
     t = re.sub(r"[^0-9,.\-]", "", t)
     if t.count(".") > 1 and t.count(",") == 1:
         t = t.replace(".", "").replace(",", ".")
     elif t.count(",") > 1 and t.count(".") == 1:
@@ -221,6 +257,10 @@ def safe_div(num, den):
     return float(num) / float(den)
 def faktor_penyesuaian_total(n_total: float, target_total: float) -> float:
     if target_total is None or pd.isna(target_total) or float(target_total) <= 0:
         return 1.0
     if n_total is None or pd.isna(n_total) or float(n_total) < 0:
@@ -234,10 +274,9 @@ def add_kinerja_scores(
     prefix: str = "Score_Kinerja"
 ) -> pd.DataFrame:
     """
-    Tambah:
-    - {prefix}_Percentile_0_100
-    - {prefix}_RobustZ_0_100 (50+10*z_robust, clip 0..100)
-    Grouping untuk fairness: misal per Jenis.
     """
     if df is None or df.empty or score_col not in df.columns:
         return df
@@ -253,6 +292,7 @@ def add_kinerja_scores(
             )
         else:
             out[f"{prefix}_Percentile_0_100"] = out[score_col].rank(pct=True, method="average") * 100.0
         out[f"{prefix}_Percentile_0_100"] = (
             pd.to_numeric(out[f"{prefix}_Percentile_0_100"], errors="coerce")
               .fillna(0.0).clip(0, 100).round(2)
@@ -265,8 +305,10 @@ def add_kinerja_scores(
             v = v.replace([np.inf, -np.inf], np.nan)
             if v.dropna().shape[0] < 2:
                 return pd.Series(50.0, index=v.index)
             med = float(np.nanmedian(v.values))
             mad = float(np.nanmedian(np.abs(v.values - med)))
             if (not np.isfinite(mad)) or mad <= 1e-12:
                 sd = float(np.nanstd(v.values, ddof=1))
                 if (not np.isfinite(sd)) or sd <= 1e-12:
@@ -274,6 +316,7 @@ def add_kinerja_scores(
                 z = (v - med) / sd
             else:
                 z = (v - med) / (1.4826 * mad)
             score = 50.0 + 10.0 * z
             return score.clip(0, 100).fillna(50.0)
@@ -316,6 +359,7 @@ pengelolaan_cols = [
 ]
 all_indicators = koleksi_cols + sdm_cols + pelayanan_cols + pengelolaan_cols
 alias_map_raw = {
     "j_judul_koleksi_tercetak": "JudulTercetak",
     "j_eksemplar_koleksi_tercetak": "EksemplarTercetak",
@@ -347,7 +391,7 @@ alias_map = {_canon(k): v for k, v in alias_map_raw.items()}
 # ============================================================
-# 4) PIPELINE NASIONAL (ENTITAS)
 # ============================================================
 def _mean_norm_cols(row, cols):
@@ -362,8 +406,17 @@ def _mean_norm_cols(row, cols):
     return float(np.mean(vals)) if vals else 0.0
 def prepare_global(df_src: pd.DataFrame) -> pd.DataFrame:
     if df_src is None or df_src.empty:
         return df_src
     df = df_src.copy()
     # rename indikator
@@ -428,6 +481,15 @@ _CACHE = {
 }
 def _parse_pop_khusus(path_xlsx: str) -> pd.DataFrame:
     df = pd.read_excel(path_xlsx)
     if df is None or df.empty:
         return pd.DataFrame()
@@ -483,6 +545,14 @@ def _parse_pop_khusus(path_xlsx: str) -> pd.DataFrame:
     return pop
 def load_default_files(force=False):
     key = (
         DATA_FILE, POP_KAB, POP_PROV, POP_KHUSUS,
         _mtime(DATA_FILE), _mtime(POP_KAB), _mtime(POP_PROV), _mtime(POP_KHUSUS)
@@ -518,6 +588,7 @@ def load_default_files(force=False):
         _CACHE.update({"key": key, "df_all": None, "df_raw": None, "pop_kab": None, "pop_prov": None, "pop_khusus": None, "meta": {}, "info": info})
         return None, None, None, None, None, {}, info
     val_map_jenis = {
         "PERPUSTAKAAN SEKOLAH": "sekolah", "SEKOLAH": "sekolah",
         "PERPUSTAKAAN UMUM": "umum", "UMUM": "umum", "PERPUSTAKAAN DAERAH": "umum",
@@ -531,7 +602,7 @@ def load_default_files(force=False):
     df_raw["prov_key"]  = df_raw["PROV_DISP"].apply(norm_prov_label)
     df_raw["kab_key"]   = df_raw["KAB_DISP"].apply(norm_kab_label)
-    # Dedup lebih aman
     if nama_col and nama_col in df_raw.columns:
         kcols = [prov_col, kab_col, kew_col, jenis_col, nama_col]
     else:
@@ -616,6 +687,12 @@ def build_faktor_wilayah_jenis(
     pop_khusus: pd.DataFrame,
     kew_value: str
 ):
     if df_filtered is None or df_filtered.empty:
         return pd.DataFrame()
@@ -627,7 +704,7 @@ def build_faktor_wilayah_jenis(
     jenis_list = ["sekolah", "umum", "khusus"]
-    # tentukan level
     if "PROV" in kew_norm:
         key_col, label_col, label_name, mode = "prov_key", "PROV_DISP", "Provinsi", "PROV"
         base_pop = pop_prov.copy() if (pop_prov is not None and not pop_prov.empty) else pd.DataFrame()
@@ -648,6 +725,7 @@ def build_faktor_wilayah_jenis(
         on="_tmp"
     ).drop(columns="_tmp")
     cnt = (
         df.groupby([key_col, label_col, "_dataset"], dropna=False)
           .size()
@@ -662,7 +740,7 @@ def build_faktor_wilayah_jenis(
     base_n["target_total_33_88_jenis"] = 0.0
     base_n["pop_total_jenis"] = 0.0
-    # SEKOLAH + UMUM dari POP_KAB / POP_PROV
     if not base_pop.empty:
         if mode == "KAB":
             pop_sekolah = pd.to_numeric(base_pop.get("jumlah_populasi_sekolah", 0), errors="coerce").fillna(0.0)
@@ -672,6 +750,8 @@ def build_faktor_wilayah_jenis(
             tgt_umum    = pop_umum * float(TARGET_RATIO)
         else:
             sma = pd.to_numeric(base_pop.get("sma ", base_pop.get("sma", 0)), errors="coerce").fillna(0.0)
             smk = pd.to_numeric(base_pop.get("smk", 0), errors="coerce").fillna(0.0)
             slb = pd.to_numeric(base_pop.get("slb", 0), errors="coerce").fillna(0.0)
@@ -716,6 +796,7 @@ def build_faktor_wilayah_jenis(
     m_need_pop = (base_n["pop_total_jenis"] <= 0) & (base_n["target_total_33_88_jenis"] > 0)
     base_n.loc[m_need_pop, "pop_total_jenis"] = base_n.loc[m_need_pop, "target_total_33_88_jenis"] / float(TARGET_RATIO)
     base_n["faktor_penyesuaian_jenis"] = [
         faktor_penyesuaian_total(n, t)
         for n, t in zip(
@@ -740,12 +821,12 @@ def build_faktor_wilayah_jenis(
         )
     ]
-    # display
     base_n["target_total_33_88_jenis"] = pd.to_numeric(base_n["target_total_33_88_jenis"], errors="coerce").fillna(0).round(0).astype(int)
-    base_n["pop_total_jenis"] = pd.to_numeric(base_n["pop_total_jenis"], errors="coerce").fillna(0).round(0).astype(int)
-    base_n["coverage_jenis_%"] = pd.to_numeric(base_n["coverage_jenis_%"], errors="coerce").fillna(0.0).round(2)
     base_n["faktor_penyesuaian_jenis"] = pd.to_numeric(base_n["faktor_penyesuaian_jenis"], errors="coerce").fillna(1.0).round(3)
-    base_n["gap_target33_88_jenis"] = pd.to_numeric(base_n["gap_target33_88_jenis"], errors="coerce").fillna(0).round(0).astype(int)
     return base_n
@@ -755,6 +836,16 @@ def build_faktor_wilayah_jenis(
 # ============================================================
 def build_agg_wilayah_jenis(df_filtered: pd.DataFrame, faktor_wilayah_jenis: pd.DataFrame, kew_value: str):
     if df_filtered is None or df_filtered.empty:
         return pd.DataFrame()
@@ -814,14 +905,13 @@ def build_agg_wilayah_jenis(df_filtered: pd.DataFrame, faktor_wilayah_jenis: pd.
         keep = ["group_key", label_name, "Jenis",
                 "faktor_penyesuaian_jenis", "target_total_33_88_jenis", "pop_total_jenis",
-                "coverage_jenis_%", "gap_target33_88_jenis"]
         fw = fw[[c for c in keep if c in fw.columns]].copy()
         agg = agg.merge(fw, on=["group_key", label_name, "Jenis"], how="left")
         agg["faktor_penyesuaian_jenis"] = pd.to_numeric(agg["faktor_penyesuaian_jenis"], errors="coerce").fillna(1.0)
-        for c in ["target_total_33_88_jenis","pop_total_jenis","gap_target33_88_jenis"]:
             if c in agg.columns:
                 agg[c] = pd.to_numeric(agg[c], errors="coerce").fillna(0).round(0).astype(int)
@@ -834,7 +924,7 @@ def build_agg_wilayah_jenis(df_filtered: pd.DataFrame, faktor_wilayah_jenis: pd.
         * pd.to_numeric(agg["faktor_penyesuaian_jenis"], errors="coerce").fillna(1.0)
     )
-    # Kinerja relatif per jenis (dibandingkan sesama jenis)
     agg = add_kinerja_scores(
         agg,
         score_col="Indeks_Final_Agregat_0_100",
@@ -855,7 +945,6 @@ def build_agg_wilayah_jenis(df_filtered: pd.DataFrame, faktor_wilayah_jenis: pd.
             agg[c] = pd.to_numeric(agg[c], errors="coerce").fillna(0.0).round(2)
     agg["faktor_penyesuaian_jenis"] = pd.to_numeric(agg["faktor_penyesuaian_jenis"], errors="coerce").fillna(1.0).round(3)
     return agg
@@ -864,6 +953,11 @@ def build_agg_wilayah_jenis(df_filtered: pd.DataFrame, faktor_wilayah_jenis: pd.
 # ============================================================
 def build_agg_wilayah_total_from_jenis(agg_jenis: pd.DataFrame, faktor_wilayah_jenis: pd.DataFrame, kew_value: str):
     if agg_jenis is None or agg_jenis.empty:
         return pd.DataFrame()
@@ -910,7 +1004,7 @@ def build_agg_wilayah_total_from_jenis(agg_jenis: pd.DataFrame, faktor_wilayah_j
         Indeks_Final_Wilayah_0_100=("Indeks_Final_Agregat_0_100", "mean"),
     )
-    # Tempel info Pop/Target/N per jenis + total
     if faktor_wilayah_jenis is not None and not faktor_wilayah_jenis.empty:
         fw = faktor_wilayah_jenis.copy()
         fw["Jenis"] = fw["Jenis"].astype(str).str.lower().str.strip()
@@ -959,15 +1053,8 @@ def build_agg_wilayah_total_from_jenis(agg_jenis: pd.DataFrame, faktor_wilayah_j
         )
         out["coverage_target33_88_all_%"] = pd.to_numeric(out["coverage_target33_88_all_%"], errors="coerce").fillna(0.0).round(2)
-    # Kinerja relatif keseluruhan (dibandingkan semua wilayah pada tabel ini)
-    out = add_kinerja_scores(
-        out,
-        score_col="Indeks_Final_Wilayah_0_100",
-        group_cols=None,
-        prefix="Score_Kinerja_WilayahTotal"
-    )
-    # rounding index
     for c in [
         "Rata2_sub_koleksi","Rata2_sub_sdm","Rata2_sub_pelayanan","Rata2_sub_pengelolaan",
         "Rata2_dim_kepatuhan","Rata2_dim_kinerja"
@@ -980,7 +1067,6 @@ def build_agg_wilayah_total_from_jenis(agg_jenis: pd.DataFrame, faktor_wilayah_j
             out[c] = pd.to_numeric(out[c], errors="coerce").fillna(0.0).round(2)
     out["n_total"] = pd.to_numeric(out["n_total"], errors="coerce").fillna(0).round(0).astype(int)
     return out
@@ -990,13 +1076,20 @@ def build_agg_wilayah_total_from_jenis(agg_jenis: pd.DataFrame, faktor_wilayah_j
 _GLOBAL_SCORE_CACHE = {}
-def compute_global_score_table(df_all, pop_kab, pop_prov, pop_khusus, kew_value: str):
     """
-    Buat agg_total GLOBAL (nasional) sesuai mode kewenangan (KAB/KOTA vs PROVINSI),
-    lalu percentilenya dihitung di sini dan dibawa ke hasil filter via merge.
     """
     cache_key = (
-        str(kew_value or "").upper(),
         _mtime(DATA_FILE), _mtime(POP_KAB), _mtime(POP_PROV), _mtime(POP_KHUSUS),
         float(TARGET_RATIO), float(W_KEPATUHAN), float(W_KINERJA),
         bool(USE_PERCENTILE), bool(USE_ROBUST_Z)
@@ -1005,21 +1098,49 @@ def compute_global_score_table(df_all, pop_kab, pop_prov, pop_khusus, kew_value:
         return _GLOBAL_SCORE_CACHE[cache_key]
     if df_all is None or df_all.empty:
-        return pd.DataFrame()
-    faktor_wilayah_jenis = build_faktor_wilayah_jenis(df_all, pop_kab, pop_prov, pop_khusus, kew_value)
-    agg_jenis_full = build_agg_wilayah_jenis(df_all, faktor_wilayah_jenis, kew_value)
-    agg_total_global = build_agg_wilayah_total_from_jenis(agg_jenis_full, faktor_wilayah_jenis, kew_value)
-    # keep minimal columns for merging
-    keep = ["group_key"]
-    for c in ["Score_Kinerja_WilayahTotal_Percentile_0_100", "Score_Kinerja_WilayahTotal_RobustZ_0_100"]:
-        if c in agg_total_global.columns:
-            keep.append(c)
-    out = agg_total_global[keep].copy() if (agg_total_global is not None and not agg_total_global.empty) else pd.DataFrame()
-    _GLOBAL_SCORE_CACHE[cache_key] = out
-    return out
 # ============================================================
@@ -1198,7 +1319,7 @@ def attach_final_to_detail(df_filtered: pd.DataFrame, agg_total: pd.DataFrame, m
 # ============================================================
-# 11) VERIFIKASI PER JENIS (TARGET 33.88%, TANPA KOMA UNTUK INTEGER)
 # ============================================================
 def build_verif_jenis(faktor_wilayah_jenis: pd.DataFrame, kew_value: str):
@@ -1231,7 +1352,7 @@ def build_verif_jenis(faktor_wilayah_jenis: pd.DataFrame, kew_value: str):
 # ============================================================
-# 12) BELL CURVE
 # ============================================================
 def _make_bell_curve(dfp: pd.DataFrame, xcol: str, title: str, label_col: str | None = None, hover_cols: list | None = None, min_points: int = 2):
@@ -1260,77 +1381,25 @@ def _make_bell_curve(dfp: pd.DataFrame, xcol: str, title: str, label_col: str |
     if len(d) < min_points:
         x_single = float(pd.to_numeric(d[xcol], errors="coerce").iloc[0])
-        hovertext = None
-        if label_col and label_col in d.columns:
-            hovertext = [f"{d[label_col].iloc[0]}<br>{xcol}: {x_single:.2f}"]
-        fig.add_trace(go.Scatter(
-            x=[x_single], y=[0], mode="markers", name="Data", marker=dict(size=10),
-            hovertext=hovertext,
-            hovertemplate="%{hovertext}<extra></extra>" if hovertext is not None else "Skor: %{x:.2f}<extra></extra>",
-            showlegend=False,
-        ))
         fig.add_vline(x=x_single, line_width=1, line_dash="dash", annotation_text=f"Nilai: {x_single:.1f}", annotation_position="top")
-        fig.add_annotation(text="Data hanya 1 titik (kurva normal tidak dibuat).", x=0.5, y=0.08, xref="paper", yref="paper", showarrow=False)
         fig.update_xaxes(range=[0, 100])
         fig.update_yaxes(rangemode="tozero")
         return fig
     x = pd.to_numeric(d[xcol], errors="coerce").astype(float).values
     x = x[np.isfinite(x)]
-    if len(x) < 2:
-        fig.add_annotation(text="Data tidak cukup untuk kurva.", x=0.5, y=0.5, xref="paper", yref="paper", showarrow=False)
-        fig.update_xaxes(range=[0, 100])
-        fig.update_yaxes(rangemode="tozero")
-        return fig
     mu = float(np.mean(x))
-    sigma = float(np.std(x, ddof=1)) if len(x) > 1 else 0.0
-    if not np.isfinite(sigma) or sigma <= 1e-6:
-        sigma = max(float(np.std(x, ddof=0)), 1e-3)
     xmin = max(0.0, float(np.min(x)) - 5.0)
     xmax = min(100.0, float(np.max(x)) + 5.0)
-    if xmax - xmin < 1e-6:
-        xmin = max(0.0, mu - 1.0)
-        xmax = min(100.0, mu + 1.0)
     xs = np.linspace(xmin, xmax, 250)
     pdf = (1.0 / (sigma * np.sqrt(2 * np.pi))) * np.exp(-0.5 * ((xs - mu) / sigma) ** 2)
-    fig.add_trace(go.Scatter(
-        x=xs, y=pdf, mode="lines", name="Kurva Normal (fit)",
-        hovertemplate="x=%{x:.2f}<br>pdf=%{y:.4f}<extra></extra>"
-    ))
-    hovertext = None
-    if label_col and label_col in d.columns:
-        hcols = hover_cols or []
-        parts = []
-        for _, r in d.iterrows():
-            try:
-                xv = float(pd.to_numeric(r.get(xcol, np.nan), errors="coerce"))
-            except Exception:
-                xv = np.nan
-            s = f"{r[label_col]}"
-            s += f"<br>{xcol}: {xv:.2f}" if np.isfinite(xv) else f"<br>{xcol}: NA"
-            for c in hcols:
-                if c in d.columns and pd.notna(r.get(c, np.nan)):
-                    v = r[c]
-                    if isinstance(v, (int, np.integer)):
-                        s += f"<br>{c}: {int(v)}"
-                    elif isinstance(v, (float, np.floating)):
-                        s += f"<br>{c}: {float(v):.3f}"
-                    else:
-                        s += f"<br>{c}: {v}"
-            parts.append(s)
-        hovertext = parts
-    fig.add_trace(go.Scatter(
-        x=x, y=np.zeros_like(x), mode="markers", name="Data", marker=dict(size=8),
-        hovertext=hovertext,
-        hovertemplate="%{hovertext}<extra></extra>" if hovertext is not None else "Skor: %{x:.2f}<extra></extra>",
-        showlegend=False
-    ))
     q1, q2, q3 = np.percentile(x, [25, 50, 75])
     for xv, lab in [(q1, "Q1"), (q2, "Q2 (Median)"), (q3, "Q3"), (mu, "Mean")]:
@@ -1342,7 +1411,7 @@ def _make_bell_curve(dfp: pd.DataFrame, xcol: str, title: str, label_col: str |
 # ============================================================
-# 13) KPI DASHBOARD (FINAL: skor absolut + percentile GLOBAL)
 # ============================================================
 def _safe_first(df, col, default=0.0, where=None):
@@ -1355,23 +1424,21 @@ def _safe_first(df, col, default=0.0, where=None):
         return default
     return float(pd.to_numeric(sub[col], errors="coerce").fillna(default).iloc[0])
-def _selected_percentile_from_agg_total(agg_total: pd.DataFrame, kew_value: str):
-    if agg_total is None or agg_total.empty:
-        return 0.0
-    # setelah difilter biasanya hanya 1 wilayah -> ambil baris pertama
-    if "Score_Kinerja_WilayahTotal_Percentile_0_100" not in agg_total.columns:
-        return 0.0
-    return float(pd.to_numeric(agg_total["Score_Kinerja_WilayahTotal_Percentile_0_100"], errors="coerce").fillna(0.0).iloc[0])
 def compute_dashboard_kpis(summary_jenis: pd.DataFrame, agg_total: pd.DataFrame):
     final_all = _safe_first(summary_jenis, "Indeks_Final_Disesuaikan_0_100", 0.0, where=summary_jenis["Jenis"].astype(str).str.lower().eq("keseluruhan"))
     dasar_all = _safe_first(summary_jenis, "Indeks_Dasar_0_100", 0.0, where=summary_jenis["Jenis"].astype(str).str.lower().eq("keseluruhan"))
-    pctl_sel  = _selected_percentile_from_agg_total(agg_total, "")
     return {"final_all": final_all, "dasar_all": dasar_all, "pctl_sel": pctl_sel}
 def build_kpi_markdown(summary_jenis: pd.DataFrame, agg_total: pd.DataFrame) -> str:
     if summary_jenis is None or summary_jenis.empty:
         return ""
     k = compute_dashboard_kpis(summary_jenis, agg_total)
     def fmt(x, nd=2):
@@ -1401,7 +1468,7 @@ def build_kpi_markdown(summary_jenis: pd.DataFrame, agg_total: pd.DataFrame) ->
 # ============================================================
-# 14) LLM + WORD (OPSIONAL, TIDAK MEMBLOK UI)
 # ============================================================
 _HF_CLIENT = None
@@ -1420,54 +1487,19 @@ def get_llm_client():
         _HF_CLIENT = None
         return None
-def build_context(summary_jenis: pd.DataFrame, agg_total: pd.DataFrame, verif_total: pd.DataFrame, wilayah: str, kew: str) -> str:
-    lines = []
-    lines.append(f"Wilayah filter: {wilayah}")
-    lines.append(f"Kewenangan: {kew}")
-    lines.append(f"Target sampel per jenis: {TARGET_RATIO*100:.2f}%")
-    if summary_jenis is not None and not summary_jenis.empty:
-        lines.append("\nRingkasan (jenis + keseluruhan):")
-        for _, r in summary_jenis.iterrows():
-            lines.append(
-                f"- {r['Jenis']}: pop={int(r.get('Pop_Total_Jenis',0))}, target33_88={int(r.get('Target33_88_Total_Jenis',0))}, "
-                f"terkumpul={int(r.get('Terkumpul_Jenis',0))}, coverage={float(r.get('Coverage_Target33_88_Jenis_%',0)):.2f}%, "
-                f"dasar={float(r.get('Indeks_Dasar_0_100',0)):.2f}, final={float(r.get('Indeks_Final_Disesuaikan_0_100',0)):.2f}"
-            )
-    if agg_total is not None and not agg_total.empty and "Indeks_Final_Wilayah_0_100" in agg_total.columns:
-        label_col = "Kab/Kota" if "Kab/Kota" in agg_total.columns else ("Provinsi" if "Provinsi" in agg_total.columns else None)
-        lines.append("\nWilayah terpilih:")
-        r = agg_total.iloc[0]
-        wl = r.get(label_col, "(wilayah)") if label_col else "(wilayah)"
-        pctl = r.get("Score_Kinerja_WilayahTotal_Percentile_0_100", 0.0)
-        lines.append(f"- {wl}: Final={float(r['Indeks_Final_Wilayah_0_100']):.2f} | Percentile(Global)={float(pctl):.2f}")
-    return "\n".join(lines)
 def generate_llm_analysis(summary_jenis, agg_total, verif_total, wilayah, kew):
-    ctx = build_context(summary_jenis, agg_total, verif_total, wilayah, kew)
     client = get_llm_client()
     if client is None or (not USE_LLM):
         return "Analisis otomatis (LLM) tidak digunakan / tidak tersedia."
-    system_prompt = "Anda adalah analis kebijakan perpustakaan di Indonesia. Tulis analisis ringkas berbasis data."
-    user_prompt = f"""
-DATA IPLM (RINGKAS):
-{ctx}
-Buat analisis 3 paragraf:
-1) Gambaran umum (skor absolut).
-2) Kinerja relatif (percentile global) + per jenis.
-3) Rekomendasi singkat.
-Catatan: target sampel yang digunakan adalah {TARGET_RATIO*100:.2f}% (bukan 68%).
-"""
     try:
         resp = client.chat_completion(
             model=LLM_MODEL_NAME,
-            messages=[{"role":"system","content":system_prompt},{"role":"user","content":user_prompt}],
-            max_tokens=700,
             temperature=0.25,
             top_p=0.9,
         )
@@ -1478,30 +1510,17 @@ Catatan: target sampel yang digunakan adalah {TARGET_RATIO*100:.2f}% (bukan 68%)
 def generate_word_report(wilayah, summary_jenis, analysis_text):
     if (not DOCX_AVAILABLE) or (Document is None):
-        # fallback: tidak bikin docx
         return None
     doc = Document()
     doc.add_heading(f"Laporan IPLM — {wilayah}", level=1)
     doc.add_paragraph(f"Target sampel per jenis: {TARGET_RATIO*100:.2f}%")
     doc.add_paragraph("Catatan: Percentile kinerja wilayah yang ditampilkan adalah percentile GLOBAL (nasional), bukan dari hasil filter.")
     doc.add_heading("Ringkasan (Jenis + Keseluruhan)", level=2)
-    show = summary_jenis.copy() if summary_jenis is not None else pd.DataFrame()
-    if not show.empty:
-        preferred = [
-            "Jenis","Jumlah_Wilayah","Total_Perpus",
-            "Pop_Total_Jenis","Target33_88_Total_Jenis","Terkumpul_Jenis","Coverage_Target33_88_Jenis_%",
-            "Indeks_Dasar_0_100","Indeks_Final_Disesuaikan_0_100","Penyesuaian_Poin"
-        ]
-        show = show[[c for c in preferred if c in show.columns]]
         table = doc.add_table(rows=1, cols=len(show.columns))
-        hdr = table.rows[0].cells
         for i, c in enumerate(show.columns):
-            hdr[i].text = str(c)
         for _, row in show.iterrows():
             cells = table.add_row().cells
             for i, c in enumerate(show.columns):
@@ -1514,12 +1533,10 @@ def generate_word_report(wilayah, summary_jenis, analysis_text):
                     cells[i].text = str(int(v))
                 else:
                     cells[i].text = str(v)
     doc.add_heading("Analisis (opsional)", level=2)
     for p in (analysis_text or "").split("\n"):
         if p.strip():
             doc.add_paragraph(p.strip())
     outpath = tempfile.mktemp(suffix=".docx")
     doc.save(outpath)
     return outpath
@@ -1546,7 +1563,7 @@ def run_calc(prov_value, kab_value, kew_value, df_all, df_raw, pop_kab, pop_prov
             return _empty_outputs("⚠️ Data belum ter-load. Pastikan file tersedia di repo/server.")
         # =========================================================
-        # 1) FILTER df_all (entitas)
         # =========================================================
         df = df_all.copy()
         if prov_value and prov_value != "(Semua)":
@@ -1560,32 +1577,43 @@ def run_calc(prov_value, kab_value, kew_value, df_all, df_raw, pop_kab, pop_prov
             return _empty_outputs("Tidak ada data untuk filter ini.")
         # =========================================================
-        # 2) PIPELINE FILTER
         # =========================================================
-        faktor_wilayah_jenis = build_faktor_wilayah_jenis(df, pop_kab, pop_prov, pop_khusus, kew_value or "(Semua)")
-        agg_jenis_full = build_agg_wilayah_jenis(df, faktor_wilayah_jenis, kew_value or "(Semua)")
-        agg_total = build_agg_wilayah_total_from_jenis(agg_jenis_full, faktor_wilayah_jenis, kew_value or "(Semua)")
         # =========================================================
-        # 3) FIX PERCENTILE: merge GLOBAL score table
-        #    (ini yang bikin Pangkal Pinang jadi 99-an, bukan 100)
         # =========================================================
-        global_scores = compute_global_score_table(df_all, pop_kab, pop_prov, pop_khusus, kew_value or "(Semua)")
-        if global_scores is not None and (not global_scores.empty) and (agg_total is not None) and (not agg_total.empty):
-            agg_total = agg_total.merge(global_scores, on="group_key", how="left")
         summary_jenis = build_summary_per_jenis(agg_jenis_full, agg_total)
-        verif_total = build_verif_jenis(faktor_wilayah_jenis, kew_value or "(Semua)")
-        detail_view = attach_final_to_detail(df, agg_total, meta, kew_value or "(Semua)")
         # =========================================================
-        # 4) agg_jenis view (UI hanya sampai indeks dasar)
         # =========================================================
         if agg_jenis_full is None or agg_jenis_full.empty:
             agg_jenis_view = agg_jenis_full
         else:
-            kew_norm = str(kew_value or "").upper()
-            label_name = "Kab/Kota" if ("KAB" in kew_norm or "KOTA" in kew_norm) else ("Provinsi" if "PROV" in kew_norm else "Kab/Kota")
             cols_upto = [
                 "group_key",
                 label_name,
@@ -1599,7 +1627,7 @@ def run_calc(prov_value, kab_value, kew_value, df_all, df_raw, pop_kab, pop_prov
             agg_jenis_view = agg_jenis_full[cols_upto].copy()
         # =========================================================
-        # 5) FILTER RAW DOWNLOAD
         # =========================================================
         raw = df_raw.copy()
         if prov_value and prov_value != "(Semua)":
@@ -1610,32 +1638,28 @@ def run_calc(prov_value, kab_value, kew_value, df_all, df_raw, pop_kab, pop_prov
             raw = raw[raw["KEW_NORM"] == kew_value]
         # =========================================================
-        # 6) Bell curve per jenis (entitas)
         # =========================================================
         if detail_view is None or detail_view.empty:
-            fig_sekolah = _make_bell_curve(pd.DataFrame(), "Score_Kinerja_Entitas_Percentile_0_100", "Bell Curve — Jenis: Sekolah", min_points=2)
             fig_umum = _make_bell_curve(pd.DataFrame(), "Score_Kinerja_Entitas_Percentile_0_100", "Bell Curve — Jenis: Umum", min_points=2)
             fig_khusus = _make_bell_curve(pd.DataFrame(), "Score_Kinerja_Entitas_Percentile_0_100", "Bell Curve — Jenis: Khusus", min_points=2)
         else:
             xcol_ent = "Score_Kinerja_Entitas_Percentile_0_100" if "Score_Kinerja_Entitas_Percentile_0_100" in detail_view.columns else "Indeks_Dasar_0_100"
-            label_col_e = "nm_perpustakaan" if "nm_perpustakaan" in detail_view.columns else None
-            hover_cols_e = [c for c in ["Provinsi", "Kab/Kota", "KEW_NORM", "Jenis", "Indeks_Dasar_0_100", "Indeks_Final_0_100", xcol_ent] if c in detail_view.columns]
-            def _fig_jenis_ent(jenis_key: str, judul: str):
-                d = detail_view[detail_view["Jenis"].astype(str).str.lower() == jenis_key].copy()
-                return _make_bell_curve(d, xcol=xcol_ent, title=judul, label_col=label_col_e, hover_cols=hover_cols_e, min_points=2)
-            fig_sekolah = _fig_jenis_ent("sekolah", f"Bell Curve — Jenis: Sekolah (Skor: {xcol_ent})")
-            fig_umum = _fig_jenis_ent("umum", f"Bell Curve — Jenis: Umum (Skor: {xcol_ent})")
-            fig_khusus = _fig_jenis_ent("khusus", f"Bell Curve — Jenis: Khusus (Skor: {xcol_ent})")
         # =========================================================
-        # 7) KPI (Sekarang sudah GLOBAL percentile)
         # =========================================================
         kpi_md = build_kpi_markdown(summary_jenis, agg_total)
         # =========================================================
-        # 8) Export
         # =========================================================
         tmpdir = tempfile.mkdtemp()
         prov_slug = (_canon(prov_value or "SEMUA").upper() or "SEMUA")
@@ -1656,7 +1680,6 @@ def run_calc(prov_value, kab_value, kew_value, df_all, df_raw, pop_kab, pop_prov
         wilayah_txt = kab_value if (kab_value and kab_value != "(Semua)") else (prov_value if (prov_value and prov_value != "(Semua)") else "Nasional/All")
         analysis_text = generate_llm_analysis(summary_jenis, agg_total, verif_total, wilayah_txt, kew_value or "(Semua)")
         word_path = generate_word_report(wilayah_txt, summary_jenis, analysis_text)
         msg = (
@@ -1732,12 +1755,12 @@ with gr.Blocks() as demo:
 ✅ Dashboard KPI menampilkan juga:
 - `Score_Kinerja_WilayahTotal_Percentile_0_100` (**GLOBAL nasional**; bukan hasil filter)
-**Kinerja Relatif (untuk evaluasi kinerja):**
-- `Score_Kinerja_*_Percentile_0_100` (utama, stabil tanpa asumsi normal)
-- `Score_Kinerja_*_RobustZ_0_100` (opsional, tahan outlier)
 **Skor Absolut (untuk akuntabilitas):**
 - `Indeks_Final_*` (sudah disesuaikan target 33.88%)
 """)
     state_df = gr.State(None)
@@ -1764,7 +1787,7 @@ with gr.Blocks() as demo:
     gr.Markdown("## Ringkasan (Jenis + Keseluruhan) — Pop/Target33.88/Terkumpul/Coverage + Penyesuaian")
     out_summary = gr.DataFrame(interactive=False)
-    gr.Markdown("## Agregat Wilayah (Keseluruhan) — FIX: avg3 dari 3 jenis + Skor Kinerja Relatif (GLOBAL Percentile)")
     out_agg_total = gr.DataFrame(interactive=False)
     gr.Markdown("## Agregat Wilayah × Jenis — (ditampilkan sampai Indeks_Dasar_Agregat_0_100)")
@@ -1776,7 +1799,7 @@ with gr.Blocks() as demo:
     gr.Markdown("## Kecukupan Sampel 33.88% (tanpa angka koma untuk integer)")
     out_verif = gr.DataFrame(interactive=False)
-    gr.Markdown("## Bell Curve — per Jenis (berbasis Score_Kinerja_Entitas_Percentile_0_100 jika tersedia)")
     gr.Markdown("### Perpustakaan Umum")
     bell_umum = gr.Plot(scale=1)

 # -*- coding: utf-8 -*-
 """
+IPLM 2025 — Final (Target Sampel 33.88% per Jenis) + Kinerja Relatif (Percentile)
+───────────────────────────────────────────────────────────────────────────────
+DOKUMENTASI / KONSEP (DIPERTAHANKAN + DIPERJELAS)
+A. Skor ABSOLUT (untuk akuntabilitas)
+------------------------------------
+1) Indeks_Dasar_0_100
+   - Dihitung pada LEVEL ENTITAS (baris perpustakaan) dari indikator:
+     Yeo-Johnson transform (per indikator) → MinMax global (0–1) → sub-indeks → dimensi → indeks.
+   - Rumus:
+     dim_kepatuhan = mean(sub_koleksi, sub_sdm)
+     dim_kinerja   = mean(sub_pelayanan, sub_pengelolaan)
+     Indeks_Dasar_0_100 = 100 * (W_KEPATUHAN*dim_kepatuhan + W_KINERJA*dim_kinerja)
+2) Penyesuaian kecukupan sampel berbasis TARGET 33.88% (per JENIS)
+   - TARGET_RATIO = 0.3388
+   - Untuk setiap wilayah × jenis:
+     pop_total_jenis = populasi perpustakaan jenis tsb (dari tabel POP)
+     target_total_33_88_jenis = pop_total_jenis * TARGET_RATIO
+     n_jenis = jumlah entitas (baris) terkumpul pada wilayah × jenis
+     faktor_penyesuaian_jenis = min(n_jenis / target_total_33_88_jenis, 1.0)
+   - Indeks_Final_Agregat_0_100 (wilayah×jenis):
+     Indeks_Final_Agregat_0_100 = Indeks_Dasar_Agregat_0_100 * faktor_penyesuaian_jenis
+3) AGREGAT WILAYAH (KESELURUHAN) = rata-rata 3 jenis (FIX)
+   - Keseluruhan wajib avg3:
+     Indeks_Dasar_Agregat_0_100(keseluruhan) = (dasar_sekolah + dasar_umum + dasar_khusus) / 3
+     Indeks_Final_Wilayah_0_100(keseluruhan) = (final_sekolah + final_umum + final_khusus) / 3
+   - Missing jenis dianggap 0 tetapi tetap dibagi 3 (sesuai requirement).
+B. Skor KINERJA RELATIF (untuk benchmarking, bukan pengganti skor absolut)
+---------------------------------------------------------------------------
+Kolom utama: Score_Kinerja_WilayahTotal_Percentile_0_100
+Definisi: posisi relatif suatu wilayah dibanding wilayah lain secara NASIONAL.
+Karakteristik utama percentile:
+• Skala 0–100
+• Tidak bergantung pada asumsi distribusi normal
+• Stabil terhadap nilai ekstrem (karena berbasis peringkat)
+• Mudah diinterpretasikan sebagai posisi peringkat
+RUMUS / IMPLEMENTASI (yang benar dan sesuai FIX bug):
+1) Tentukan "universe" perhitungan GLOBAL sesuai mode kewenangan:
+   - Jika kewenangan = "KAB/KOTA": universe = semua kab/kota (nasional) yang KEW_NORM == "KAB/KOTA"
+   - Jika kewenangan = "PROVINSI": universe = semua provinsi (nasional) yang KEW_NORM == "PROVINSI"
+   - Jika "(Semua)": default mengikuti pilihan (atau semua yang relevan) → pada UI kita pakai nilai dropdown.
+2) Hitung dulu agg_total_global untuk universe tersebut (tanpa filter prov/kab):
+   - Dari df_all (nasional) → faktor_wilayah_jenis → agg_jenis_global → agg_total_global
+3) Hitung percentile GLOBAL dari Indeks_Final_Wilayah_0_100 pada agg_total_global:
+   - Secara konsep:
+     Percentile(w) = 100 * (rank_w / N)
+   - Implementasi pandas yang audit-friendly:
+     rank(pct=True, method="average") * 100
+4) Tempelkan nilai percentile global itu ke hasil filter (agg_total yang biasanya hanya 1 baris):
+   - WAJIB pakai mapping by group_key (bukan merge yang bikin kolom _x/_y)
+   - Kenapa? agar tidak terjadi:
+     • percentile jadi 100 karena dihitung dari 1 baris filter
+     • atau KPI membaca kolom yang salah akibat suffix merge
+C. Bug yang kamu laporkan (0.00 / 100 semua)
+--------------------------------------------
+Kasus 1: "100 semua" untuk 1 wilayah yang difilter → terjadi jika percentile dihitung dari data filter.
+Solusi: percentile selalu dihitung di agg_total_global lalu ditempel.
+Kasus 2: KPI jadi 0.00 (padahal harus 99-an) → terjadi jika merge menghasilkan kolom
+Score_Kinerja_WilayahTotal_Percentile_0_100_x/_y sehingga kolom yang dibaca kosong/NaN.
+Solusi: mapping dengan dict (tidak ada suffix), dan pastikan KPI membaca kolom final.
+───────────────────────────────────────────────────────────────────────────────
+KODE DI BAWAH INI SUDAH FIX:
+✅ Score_Kinerja_WilayahTotal_Percentile_0_100 dihitung GLOBAL (nasional) sesuai kewenangan
+✅ Ditempel pakai MAP (no _x/_y)
+✅ KPI selalu baca kolom final yang benar
+✅ Tetap mempertahankan semua fitur: ringkasan, agregat, verif, detail, bell curve, export
 """
 import os
 W_KEPATUHAN = float(os.getenv("W_KEPATUHAN", "0.30"))
 W_KINERJA   = float(os.getenv("W_KINERJA",   "0.70"))
+# ✅ target sampel 33.88% per jenis
 TARGET_RATIO = float(os.getenv("TARGET_RATIO", "0.3388"))
 # kinerja relatif
     t = t.replace("\u00a0", " ").replace("Rp", "").replace("%", "")
     t = re.sub(r"[^0-9,.\-]", "", t)
+    # smart decimal
     if t.count(".") > 1 and t.count(",") == 1:
         t = t.replace(".", "").replace(",", ".")
     elif t.count(",") > 1 and t.count(".") == 1:
     return float(num) / float(den)
 def faktor_penyesuaian_total(n_total: float, target_total: float) -> float:
+    """
+    faktor = min(n / target, 1.0)
+    - Jika target <= 0 → default 1.0 (tidak menghukum)
+    """
     if target_total is None or pd.isna(target_total) or float(target_total) <= 0:
         return 1.0
     if n_total is None or pd.isna(n_total) or float(n_total) < 0:
     prefix: str = "Score_Kinerja"
 ) -> pd.DataFrame:
     """
+    Tambah kolom:
+    - {prefix}_Percentile_0_100 = rank(pct=True)*100
+    - {prefix}_RobustZ_0_100    = 50 + 10*z_robust (MAD-based), clip 0..100
     """
     if df is None or df.empty or score_col not in df.columns:
         return df
             )
         else:
             out[f"{prefix}_Percentile_0_100"] = out[score_col].rank(pct=True, method="average") * 100.0
         out[f"{prefix}_Percentile_0_100"] = (
             pd.to_numeric(out[f"{prefix}_Percentile_0_100"], errors="coerce")
               .fillna(0.0).clip(0, 100).round(2)
             v = v.replace([np.inf, -np.inf], np.nan)
             if v.dropna().shape[0] < 2:
                 return pd.Series(50.0, index=v.index)
             med = float(np.nanmedian(v.values))
             mad = float(np.nanmedian(np.abs(v.values - med)))
             if (not np.isfinite(mad)) or mad <= 1e-12:
                 sd = float(np.nanstd(v.values, ddof=1))
                 if (not np.isfinite(sd)) or sd <= 1e-12:
                 z = (v - med) / sd
             else:
                 z = (v - med) / (1.4826 * mad)
             score = 50.0 + 10.0 * z
             return score.clip(0, 100).fillna(50.0)
 ]
 all_indicators = koleksi_cols + sdm_cols + pelayanan_cols + pengelolaan_cols
+# alias kolom DM → nama baku indikator
 alias_map_raw = {
     "j_judul_koleksi_tercetak": "JudulTercetak",
     "j_eksemplar_koleksi_tercetak": "EksemplarTercetak",
 # ============================================================
+# 4) PIPELINE NASIONAL (LEVEL ENTITAS)
 # ============================================================
 def _mean_norm_cols(row, cols):
     return float(np.mean(vals)) if vals else 0.0
 def prepare_global(df_src: pd.DataFrame) -> pd.DataFrame:
+    """
+    Transform + normalisasi indikator pada level entitas:
+    - rename kolom indikator (alias)
+    - coerce numeric
+    - Yeo-Johnson per indikator (standardize=False)
+    - MinMax global 0-1
+    - hitung sub_*, dim_*, Indeks_Dasar_0_100
+    """
     if df_src is None or df_src.empty:
         return df_src
     df = df_src.copy()
     # rename indikator
 }
 def _parse_pop_khusus(path_xlsx: str) -> pd.DataFrame:
+    """
+    POP_KHUSUS memiliki format campuran:
+    - Baris 'PROVINSI X' → dianggap level PROV
+    - Baris berikutnya → dianggap KAB/KOTA di bawah prov tersebut
+    Output distandarkan:
+    LEVEL: PROV / KAB
+    prov_key / kab_key
+    Pop_Total_Jenis
+    """
     df = pd.read_excel(path_xlsx)
     if df is None or df.empty:
         return pd.DataFrame()
     return pop
 def load_default_files(force=False):
+    """
+    Load 4 file:
+    - DM (DATA_FILE) bisa multi-sheet → concat
+    - POP_KAB, POP_PROV, POP_KHUSUS
+    + Standarisasi kolom wilayah & jenis
+    + Dedup baris DM
+    + prepare_global() (YJ+MinMax+Indeks_Dasar)
+    """
     key = (
         DATA_FILE, POP_KAB, POP_PROV, POP_KHUSUS,
         _mtime(DATA_FILE), _mtime(POP_KAB), _mtime(POP_PROV), _mtime(POP_KHUSUS)
         _CACHE.update({"key": key, "df_all": None, "df_raw": None, "pop_kab": None, "pop_prov": None, "pop_khusus": None, "meta": {}, "info": info})
         return None, None, None, None, None, {}, info
+    # mapping jenis → baku (sekolah/umum/khusus)
     val_map_jenis = {
         "PERPUSTAKAAN SEKOLAH": "sekolah", "SEKOLAH": "sekolah",
         "PERPUSTAKAAN UMUM": "umum", "UMUM": "umum", "PERPUSTAKAAN DAERAH": "umum",
     df_raw["prov_key"]  = df_raw["PROV_DISP"].apply(norm_prov_label)
     df_raw["kab_key"]   = df_raw["KAB_DISP"].apply(norm_kab_label)
+    # Dedup aman berdasarkan (prov,kab,kew,jenis,nama_perpus)
     if nama_col and nama_col in df_raw.columns:
         kcols = [prov_col, kab_col, kew_col, jenis_col, nama_col]
     else:
     pop_khusus: pd.DataFrame,
     kew_value: str
 ):
+    """
+    Output tabel:
+    group_key + (Kab/Kota atau Provinsi) + Jenis
+    n_jenis, pop_total_jenis, target_total_33_88_jenis,
+    coverage_jenis_%, faktor_penyesuaian_jenis, gap_target33_88_jenis
+    """
     if df_filtered is None or df_filtered.empty:
         return pd.DataFrame()
     jenis_list = ["sekolah", "umum", "khusus"]
+    # tentukan level berdasarkan kewenangan
     if "PROV" in kew_norm:
         key_col, label_col, label_name, mode = "prov_key", "PROV_DISP", "Provinsi", "PROV"
         base_pop = pop_prov.copy() if (pop_prov is not None and not pop_prov.empty) else pd.DataFrame()
         on="_tmp"
     ).drop(columns="_tmp")
+    # count entitas per wilayah×jenis
     cnt = (
         df.groupby([key_col, label_col, "_dataset"], dropna=False)
           .size()
     base_n["target_total_33_88_jenis"] = 0.0
     base_n["pop_total_jenis"] = 0.0
+    # SEKOLAH + UMUM dari POP_KAB/POP_PROV
     if not base_pop.empty:
         if mode == "KAB":
             pop_sekolah = pd.to_numeric(base_pop.get("jumlah_populasi_sekolah", 0), errors="coerce").fillna(0.0)
             tgt_umum    = pop_umum * float(TARGET_RATIO)
         else:
             sma = pd.to_numeric(base_pop.get("sma ", base_pop.get("sma", 0)), errors="coerce").fillna(0.0)
+            smk = pd.to_numeric(base_pop.get("smk", 0)),
+            slb = pd.to_numeric(base_pop.get("slb", 0)),
             smk = pd.to_numeric(base_pop.get("smk", 0), errors="coerce").fillna(0.0)
             slb = pd.to_numeric(base_pop.get("slb", 0), errors="coerce").fillna(0.0)
     m_need_pop = (base_n["pop_total_jenis"] <= 0) & (base_n["target_total_33_88_jenis"] > 0)
     base_n.loc[m_need_pop, "pop_total_jenis"] = base_n.loc[m_need_pop, "target_total_33_88_jenis"] / float(TARGET_RATIO)
+    # faktor penyesuaian
     base_n["faktor_penyesuaian_jenis"] = [
         faktor_penyesuaian_total(n, t)
         for n, t in zip(
         )
     ]
+    # display formatting
     base_n["target_total_33_88_jenis"] = pd.to_numeric(base_n["target_total_33_88_jenis"], errors="coerce").fillna(0).round(0).astype(int)
+    base_n["pop_total_jenis"]          = pd.to_numeric(base_n["pop_total_jenis"], errors="coerce").fillna(0).round(0).astype(int)
+    base_n["coverage_jenis_%"]         = pd.to_numeric(base_n["coverage_jenis_%"], errors="coerce").fillna(0.0).round(2)
     base_n["faktor_penyesuaian_jenis"] = pd.to_numeric(base_n["faktor_penyesuaian_jenis"], errors="coerce").fillna(1.0).round(3)
+    base_n["gap_target33_88_jenis"]    = pd.to_numeric(base_n["gap_target33_88_jenis"], errors="coerce").fillna(0).round(0).astype(int)
     return base_n
 # ============================================================
 def build_agg_wilayah_jenis(df_filtered: pd.DataFrame, faktor_wilayah_jenis: pd.DataFrame, kew_value: str):
+    """
+    Agregasi:
+    wilayah × jenis:
+      - Jumlah (n entitas)
+      - rata-rata sub/dim
+      - Indeks_Dasar_Agregat_0_100 = mean(Indeks_Dasar_0_100)
+      - Indeks_Final_Agregat_0_100 = Indeks_Dasar_Agregat_0_100 * faktor_penyesuaian_jenis
+    + score kinerja relatif per jenis:
+      Score_Kinerja_WilayahJenis_Percentile_0_100
+    """
     if df_filtered is None or df_filtered.empty:
         return pd.DataFrame()
         keep = ["group_key", label_name, "Jenis",
                 "faktor_penyesuaian_jenis", "target_total_33_88_jenis", "pop_total_jenis",
+                "coverage_jenis_%", "gap_target33_88_jenis", "n_jenis"]
         fw = fw[[c for c in keep if c in fw.columns]].copy()
         agg = agg.merge(fw, on=["group_key", label_name, "Jenis"], how="left")
         agg["faktor_penyesuaian_jenis"] = pd.to_numeric(agg["faktor_penyesuaian_jenis"], errors="coerce").fillna(1.0)
+        for c in ["target_total_33_88_jenis","pop_total_jenis","gap_target33_88_jenis","n_jenis"]:
             if c in agg.columns:
                 agg[c] = pd.to_numeric(agg[c], errors="coerce").fillna(0).round(0).astype(int)
         * pd.to_numeric(agg["faktor_penyesuaian_jenis"], errors="coerce").fillna(1.0)
     )
+    # Kinerja relatif per jenis
     agg = add_kinerja_scores(
         agg,
         score_col="Indeks_Final_Agregat_0_100",
             agg[c] = pd.to_numeric(agg[c], errors="coerce").fillna(0.0).round(2)
     agg["faktor_penyesuaian_jenis"] = pd.to_numeric(agg["faktor_penyesuaian_jenis"], errors="coerce").fillna(1.0).round(3)
     return agg
 # ============================================================
 def build_agg_wilayah_total_from_jenis(agg_jenis: pd.DataFrame, faktor_wilayah_jenis: pd.DataFrame, kew_value: str):
+    """
+    Membentuk tabel wilayah keseluruhan dari agg_jenis, dengan FIX avg3:
+      Indeks_Dasar_Agregat_0_100 (keseluruhan) = mean(dasar_3jenis)  [missing=0, tetap /3]
+      Indeks_Final_Wilayah_0_100 (keseluruhan) = mean(final_3jenis)  [missing=0, tetap /3]
+    """
     if agg_jenis is None or agg_jenis.empty:
         return pd.DataFrame()
         Indeks_Final_Wilayah_0_100=("Indeks_Final_Agregat_0_100", "mean"),
     )
+    # Tempel info Pop/Target/N per jenis + total (opsional)
     if faktor_wilayah_jenis is not None and not faktor_wilayah_jenis.empty:
         fw = faktor_wilayah_jenis.copy()
         fw["Jenis"] = fw["Jenis"].astype(str).str.lower().str.strip()
         )
         out["coverage_target33_88_all_%"] = pd.to_numeric(out["coverage_target33_88_all_%"], errors="coerce").fillna(0.0).round(2)
+    # NOTE: percentile global untuk wilayah keseluruhan tidak dihitung di sini.
+    #       Ia dihitung oleh fungsi global (compute_global_wilayah_scores) lalu ditempel.
     for c in [
         "Rata2_sub_koleksi","Rata2_sub_sdm","Rata2_sub_pelayanan","Rata2_sub_pengelolaan",
         "Rata2_dim_kepatuhan","Rata2_dim_kinerja"
             out[c] = pd.to_numeric(out[c], errors="coerce").fillna(0.0).round(2)
     out["n_total"] = pd.to_numeric(out["n_total"], errors="coerce").fillna(0).round(0).astype(int)
     return out
 _GLOBAL_SCORE_CACHE = {}
+def compute_global_wilayah_scores(df_all, pop_kab, pop_prov, pop_khusus, kew_value: str):
     """
+    FIX UTAMA:
+    - Hitung agg_total GLOBAL (nasional) sesuai mode kewenangan (KAB/KOTA vs PROVINSI)
+    - Lalu hitung Score_Kinerja_WilayahTotal_Percentile_0_100 pada agg_total_global
+    - Return mapping dict: group_key -> percentile (dan robustZ jika dipakai)
+    Kenapa mapping dict?
+    - Menghindari merge suffix _x/_y
+    - Mencegah KPI membaca kolom yang salah (0.00)
     """
+    kew_norm = str(kew_value or "").upper()
     cache_key = (
+        kew_norm,
         _mtime(DATA_FILE), _mtime(POP_KAB), _mtime(POP_PROV), _mtime(POP_KHUSUS),
         float(TARGET_RATIO), float(W_KEPATUHAN), float(W_KINERJA),
         bool(USE_PERCENTILE), bool(USE_ROBUST_Z)
         return _GLOBAL_SCORE_CACHE[cache_key]
     if df_all is None or df_all.empty:
+        _GLOBAL_SCORE_CACHE[cache_key] = ({}, {})
+        return {}, {}
+    # Universe global sesuai kewenangan
+    if kew_norm in {"KAB/KOTA", "PROVINSI"}:
+        df_univ = df_all[df_all["KEW_NORM"] == kew_norm].copy()
+    else:
+        # fallback: pakai semua (tapi tetap nanti label mengikuti agg_total yang dipakai)
+        df_univ = df_all.copy()
+    faktor = build_faktor_wilayah_jenis(df_univ, pop_kab, pop_prov, pop_khusus, kew_norm)
+    agg_jenis = build_agg_wilayah_jenis(df_univ, faktor, kew_norm)
+    agg_total = build_agg_wilayah_total_from_jenis(agg_jenis, faktor, kew_norm)
+    # Hitung score relatif global pada agg_total_global
+    agg_total = add_kinerja_scores(
+        agg_total,
+        score_col="Indeks_Final_Wilayah_0_100",
+        group_cols=None,
+        prefix="Score_Kinerja_WilayahTotal"
+    )
+    pctl_map = {}
+    rz_map = {}
+    if "group_key" in agg_total.columns and "Score_Kinerja_WilayahTotal_Percentile_0_100" in agg_total.columns:
+        pctl_map = (
+            agg_total[["group_key", "Score_Kinerja_WilayahTotal_Percentile_0_100"]]
+            .dropna(subset=["group_key"])
+            .set_index("group_key")["Score_Kinerja_WilayahTotal_Percentile_0_100"]
+            .to_dict()
+        )
+    if "group_key" in agg_total.columns and "Score_Kinerja_WilayahTotal_RobustZ_0_100" in agg_total.columns:
+        rz_map = (
+            agg_total[["group_key", "Score_Kinerja_WilayahTotal_RobustZ_0_100"]]
+            .dropna(subset=["group_key"])
+            .set_index("group_key")["Score_Kinerja_WilayahTotal_RobustZ_0_100"]
+            .to_dict()
+        )
+    _GLOBAL_SCORE_CACHE[cache_key] = (pctl_map, rz_map)
+    return pctl_map, rz_map
 # ============================================================
 # ============================================================
+# 11) VERIFIKASI PER JENIS (TARGET 33.88%)
 # ============================================================
 def build_verif_jenis(faktor_wilayah_jenis: pd.DataFrame, kew_value: str):
 # ============================================================
+# 12) BELL CURVE (sama seperti versi kamu, disederhanakan aman)
 # ============================================================
 def _make_bell_curve(dfp: pd.DataFrame, xcol: str, title: str, label_col: str | None = None, hover_cols: list | None = None, min_points: int = 2):
     if len(d) < min_points:
         x_single = float(pd.to_numeric(d[xcol], errors="coerce").iloc[0])
+        fig.add_trace(go.Scatter(x=[x_single], y=[0], mode="markers", showlegend=False))
         fig.add_vline(x=x_single, line_width=1, line_dash="dash", annotation_text=f"Nilai: {x_single:.1f}", annotation_position="top")
         fig.update_xaxes(range=[0, 100])
         fig.update_yaxes(rangemode="tozero")
         return fig
     x = pd.to_numeric(d[xcol], errors="coerce").astype(float).values
     x = x[np.isfinite(x)]
     mu = float(np.mean(x))
+    sigma = float(np.std(x, ddof=1)) if len(x) > 1 else 1.0
+    sigma = max(sigma, 1e-3)
     xmin = max(0.0, float(np.min(x)) - 5.0)
     xmax = min(100.0, float(np.max(x)) + 5.0)
     xs = np.linspace(xmin, xmax, 250)
     pdf = (1.0 / (sigma * np.sqrt(2 * np.pi))) * np.exp(-0.5 * ((xs - mu) / sigma) ** 2)
+    fig.add_trace(go.Scatter(x=xs, y=pdf, mode="lines", name="Kurva Normal (fit)"))
+    fig.add_trace(go.Scatter(x=x, y=np.zeros_like(x), mode="markers", showlegend=False))
     q1, q2, q3 = np.percentile(x, [25, 50, 75])
     for xv, lab in [(q1, "Q1"), (q2, "Q2 (Median)"), (q3, "Q3"), (mu, "Mean")]:
 # ============================================================
+# 13) KPI DASHBOARD (skor absolut + percentile GLOBAL)
 # ============================================================
 def _safe_first(df, col, default=0.0, where=None):
         return default
     return float(pd.to_numeric(sub[col], errors="coerce").fillna(default).iloc[0])
 def compute_dashboard_kpis(summary_jenis: pd.DataFrame, agg_total: pd.DataFrame):
     final_all = _safe_first(summary_jenis, "Indeks_Final_Disesuaikan_0_100", 0.0, where=summary_jenis["Jenis"].astype(str).str.lower().eq("keseluruhan"))
     dasar_all = _safe_first(summary_jenis, "Indeks_Dasar_0_100", 0.0, where=summary_jenis["Jenis"].astype(str).str.lower().eq("keseluruhan"))
+    # KPI percentile wilayah terpilih: di agg_total (sudah ditempel global)
+    pctl_sel = 0.0
+    if agg_total is not None and not agg_total.empty and "Score_Kinerja_WilayahTotal_Percentile_0_100" in agg_total.columns:
+        pctl_sel = float(pd.to_numeric(agg_total["Score_Kinerja_WilayahTotal_Percentile_0_100"], errors="coerce").fillna(0.0).iloc[0])
     return {"final_all": final_all, "dasar_all": dasar_all, "pctl_sel": pctl_sel}
 def build_kpi_markdown(summary_jenis: pd.DataFrame, agg_total: pd.DataFrame) -> str:
     if summary_jenis is None or summary_jenis.empty:
         return ""
     k = compute_dashboard_kpis(summary_jenis, agg_total)
     def fmt(x, nd=2):
 # ============================================================
+# 14) LLM + WORD (OPSIONAL)
 # ============================================================
 _HF_CLIENT = None
         _HF_CLIENT = None
         return None
 def generate_llm_analysis(summary_jenis, agg_total, verif_total, wilayah, kew):
     client = get_llm_client()
     if client is None or (not USE_LLM):
         return "Analisis otomatis (LLM) tidak digunakan / tidak tersedia."
+    ctx = f"Wilayah={wilayah} | Kewenangan={kew} | Target={TARGET_RATIO*100:.2f}%"
     try:
         resp = client.chat_completion(
             model=LLM_MODEL_NAME,
+            messages=[
+                {"role":"system","content":"Anda adalah analis kebijakan perpustakaan di Indonesia. Tulis analisis ringkas berbasis data."},
+                {"role":"user","content":f"{ctx}\nBuat analisis 3 paragraf: skor absolut, kinerja relatif percentile, rekomendasi singkat."}
+            ],
+            max_tokens=500,
             temperature=0.25,
             top_p=0.9,
         )
 def generate_word_report(wilayah, summary_jenis, analysis_text):
     if (not DOCX_AVAILABLE) or (Document is None):
         return None
     doc = Document()
     doc.add_heading(f"Laporan IPLM — {wilayah}", level=1)
     doc.add_paragraph(f"Target sampel per jenis: {TARGET_RATIO*100:.2f}%")
     doc.add_paragraph("Catatan: Percentile kinerja wilayah yang ditampilkan adalah percentile GLOBAL (nasional), bukan dari hasil filter.")
     doc.add_heading("Ringkasan (Jenis + Keseluruhan)", level=2)
+    if summary_jenis is not None and not summary_jenis.empty:
+        show = summary_jenis.copy()
         table = doc.add_table(rows=1, cols=len(show.columns))
         for i, c in enumerate(show.columns):
+            table.rows[0].cells[i].text = str(c)
         for _, row in show.iterrows():
             cells = table.add_row().cells
             for i, c in enumerate(show.columns):
                     cells[i].text = str(int(v))
                 else:
                     cells[i].text = str(v)
     doc.add_heading("Analisis (opsional)", level=2)
     for p in (analysis_text or "").split("\n"):
         if p.strip():
             doc.add_paragraph(p.strip())
     outpath = tempfile.mktemp(suffix=".docx")
     doc.save(outpath)
     return outpath
             return _empty_outputs("⚠️ Data belum ter-load. Pastikan file tersedia di repo/server.")
         # =========================================================
+        # 1) FILTER df_all (entitas) sesuai dropdown
         # =========================================================
         df = df_all.copy()
         if prov_value and prov_value != "(Semua)":
             return _empty_outputs("Tidak ada data untuk filter ini.")
         # =========================================================
+        # 2) PIPELINE FILTER → faktor → agg_jenis → agg_total
         # =========================================================
+        kew_norm = kew_value if (kew_value and kew_value != "(Semua)") else "(Semua)"
+        faktor_wilayah_jenis = build_faktor_wilayah_jenis(df, pop_kab, pop_prov, pop_khusus, kew_norm)
+        agg_jenis_full = build_agg_wilayah_jenis(df, faktor_wilayah_jenis, kew_norm)
+        agg_total = build_agg_wilayah_total_from_jenis(agg_jenis_full, faktor_wilayah_jenis, kew_norm)
         # =========================================================
+        # 3) FIX PERCENTILE: hitung GLOBAL dulu, lalu TEMPEL via MAP
+        #    (NO MERGE → no _x/_y, KPI tidak akan 0.00)
         # =========================================================
+        pctl_map, rz_map = compute_global_wilayah_scores(df_all, pop_kab, pop_prov, pop_khusus, kew_norm)
+        if agg_total is not None and not agg_total.empty and "group_key" in agg_total.columns:
+            agg_total["Score_Kinerja_WilayahTotal_Percentile_0_100"] = (
+                agg_total["group_key"].map(pctl_map).fillna(0.0).astype(float).round(2)
+            )
+            if USE_ROBUST_Z:
+                agg_total["Score_Kinerja_WilayahTotal_RobustZ_0_100"] = (
+                    agg_total["group_key"].map(rz_map).fillna(50.0).astype(float).round(2)
+                )
+        # =========================================================
+        # 4) OUTPUT TABLES
+        # =========================================================
         summary_jenis = build_summary_per_jenis(agg_jenis_full, agg_total)
+        verif_total = build_verif_jenis(faktor_wilayah_jenis, kew_norm)
+        detail_view = attach_final_to_detail(df, agg_total, meta, kew_norm)
         # =========================================================
+        # 5) agg_jenis view (UI hanya sampai indeks dasar)
         # =========================================================
         if agg_jenis_full is None or agg_jenis_full.empty:
             agg_jenis_view = agg_jenis_full
         else:
+            kew_norm2 = str(kew_norm).upper()
+            label_name = "Kab/Kota" if ("KAB" in kew_norm2 or "KOTA" in kew_norm2) else ("Provinsi" if "PROV" in kew_norm2 else "Kab/Kota")
             cols_upto = [
                 "group_key",
                 label_name,
             agg_jenis_view = agg_jenis_full[cols_upto].copy()
         # =========================================================
+        # 6) FILTER RAW DOWNLOAD (harus raw hasil filter)
         # =========================================================
         raw = df_raw.copy()
         if prov_value and prov_value != "(Semua)":
             raw = raw[raw["KEW_NORM"] == kew_value]
         # =========================================================
+        # 7) Bell curve per jenis (entitas)
         # =========================================================
         if detail_view is None or detail_view.empty:
             fig_umum = _make_bell_curve(pd.DataFrame(), "Score_Kinerja_Entitas_Percentile_0_100", "Bell Curve — Jenis: Umum", min_points=2)
+            fig_sekolah = _make_bell_curve(pd.DataFrame(), "Score_Kinerja_Entitas_Percentile_0_100", "Bell Curve — Jenis: Sekolah", min_points=2)
             fig_khusus = _make_bell_curve(pd.DataFrame(), "Score_Kinerja_Entitas_Percentile_0_100", "Bell Curve — Jenis: Khusus", min_points=2)
         else:
             xcol_ent = "Score_Kinerja_Entitas_Percentile_0_100" if "Score_Kinerja_Entitas_Percentile_0_100" in detail_view.columns else "Indeks_Dasar_0_100"
+            def _fig(j):
+                d = detail_view[detail_view["Jenis"].astype(str).str.lower() == j].copy()
+                return _make_bell_curve(d, xcol_ent, f"Bell Curve — Jenis: {j.title()} (Skor: {xcol_ent})", min_points=2)
+            fig_sekolah = _fig("sekolah")
+            fig_umum = _fig("umum")
+            fig_khusus = _fig("khusus")
         # =========================================================
+        # 8) KPI (percentile sudah GLOBAL)
         # =========================================================
         kpi_md = build_kpi_markdown(summary_jenis, agg_total)
         # =========================================================
+        # 9) Export (xlsx + opsional docx)
         # =========================================================
         tmpdir = tempfile.mkdtemp()
         prov_slug = (_canon(prov_value or "SEMUA").upper() or "SEMUA")
         wilayah_txt = kab_value if (kab_value and kab_value != "(Semua)") else (prov_value if (prov_value and prov_value != "(Semua)") else "Nasional/All")
         analysis_text = generate_llm_analysis(summary_jenis, agg_total, verif_total, wilayah_txt, kew_value or "(Semua)")
         word_path = generate_word_report(wilayah_txt, summary_jenis, analysis_text)
         msg = (
 ✅ Dashboard KPI menampilkan juga:
 - `Score_Kinerja_WilayahTotal_Percentile_0_100` (**GLOBAL nasional**; bukan hasil filter)
 **Skor Absolut (untuk akuntabilitas):**
 - `Indeks_Final_*` (sudah disesuaikan target 33.88%)
+**Skor Kinerja Relatif (untuk benchmarking):**
+- `Score_Kinerja_*_Percentile_0_100` (utama, stabil tanpa asumsi normal)
+- `Score_Kinerja_*_RobustZ_0_100` (opsional, tahan outlier)
 """)
     state_df = gr.State(None)
     gr.Markdown("## Ringkasan (Jenis + Keseluruhan) — Pop/Target33.88/Terkumpul/Coverage + Penyesuaian")
     out_summary = gr.DataFrame(interactive=False)
+    gr.Markdown("## Agregat Wilayah (Keseluruhan) — FIX avg3 + Score Kinerja Relatif (GLOBAL)")
     out_agg_total = gr.DataFrame(interactive=False)
     gr.Markdown("## Agregat Wilayah × Jenis — (ditampilkan sampai Indeks_Dasar_Agregat_0_100)")
     gr.Markdown("## Kecukupan Sampel 33.88% (tanpa angka koma untuk integer)")
     out_verif = gr.DataFrame(interactive=False)
+    gr.Markdown("## Bell Curve — per Jenis")
     gr.Markdown("### Perpustakaan Umum")
     bell_umum = gr.Plot(scale=1)