Spaces:

QSBench
/

Multi-Target_Regression

Running

App Files Files Community

QSBench commited on 4 days ago

Commit

3bf4374

verified ·

1 Parent(s): a1152bd

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -61

app.py CHANGED Viewed

@@ -7,10 +7,9 @@ from datasets import load_dataset
 from sklearn.ensemble import RandomForestRegressor
 from sklearn.metrics import mean_absolute_error, r2_score
 from sklearn.model_selection import train_test_split
-from pathlib import Path
 # =========================================================
-# CONFIG & REPOSITORIES
 # =========================================================
 DATASET_MAP = {
     "Core (Clean)": "QSBench/QSBench-Core-v1.0.0-demo",
@@ -21,7 +20,6 @@ DATASET_MAP = {
 TARGET_COL = "ideal_expval_Z_global"
-# Список не-числовых колонок и таргетов для исключения из обучения
 EXCLUDE_COLS = {
     "sample_id", "sample_seed", "circuit_hash", "split", "circuit_qasm",
     "qasm_raw", "qasm_transpiled", "circuit_type_resolved", "circuit_type_requested",
@@ -32,7 +30,7 @@ EXCLUDE_COLS = {
 dataset_cache = {}
 # =========================================================
-# DATA UTILS
 # =========================================================
 def get_df(dataset_key):
     if dataset_key not in dataset_cache:
@@ -43,37 +41,44 @@ def get_df(dataset_key):
 def get_numeric_feature_cols(df: pd.DataFrame) -> list[str]:
     numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
-    return [c for c in numeric_cols if c not in EXCLUDE_COLS and not c.startswith("error_") and not c.startswith("sign_")]
 # =========================================================
-# TAB FUNCTIONS
 # =========================================================
 def update_explorer(dataset_name, split_name):
     df = get_df(dataset_name)
-    # Пытаемся найти уникальные сплиты, если их нет — ставим 'train'
     splits = df["split"].unique().tolist() if "split" in df.columns else ["train"]
     filtered = df[df["split"] == split_name].head(10) if "split" in df.columns else df.head(10)
-    # Данные из ваших колонок в CSV
-    qasm_raw = filtered["qasm_raw"].iloc[0] if "qasm_raw" in filtered.columns else "// No raw QASM found"
-    qasm_tr = filtered["qasm_transpiled"].iloc[0] if "qasm_transpiled" in filtered.columns else "// No transpiled QASM found"
-    # Список признаков для вкладки ML
     features = get_numeric_feature_cols(df)
-    return gr.update(choices=splits), filtered, qasm_raw, qasm_tr, gr.update(choices=features, value=features[:5])
 def run_model_demo(dataset_name, selected_features):
-    if not selected_features or len(selected_features) == 0:
-        return None, "### ⚠️ Please select at least one feature from the list."
     df = get_df(dataset_name)
     target = TARGET_COL if TARGET_COL in df.columns else df.filter(like="expval").columns[0]
-    work_df = df.dropna(subset=selected_features + [target]).reset_index(drop=True)
-    X, y = work_df[selected_features], work_df[target]
     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
     model = RandomForestRegressor(n_estimators=50, max_depth=10, n_jobs=-1, random_state=42)
@@ -83,73 +88,61 @@ def run_model_demo(dataset_name, selected_features):
     sns.set_theme(style="whitegrid")
     fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(18, 5))
-    # 1. Parity Plot
     ax1.scatter(y_test, preds, alpha=0.4, color='#636EFA')
     ax1.plot([y.min(), y.max()], [y.min(), y.max()], 'r--', lw=2)
-    ax1.set_xlabel("Ground Truth")
-    ax1.set_ylabel("Predictions")
-    ax1.set_title(f"Prediction Accuracy (R²={r2_score(y_test, preds):.3f})")
-    # 2. Feature Importance
     importances = model.feature_importances_
-    indices = np.argsort(importances)
     ax2.barh(range(len(indices)), importances[indices], color='#EF553B')
     ax2.set_yticks(range(len(indices)))
-    ax2.set_yticklabels([selected_features[i] for i in indices])
-    ax2.set_title("Structural Feature Importance")
-    # 3. Residuals
     sns.histplot(y_test - preds, kde=True, ax=ax3, color='#00CC96')
-    ax3.set_title("Error Distribution (Residuals)")
     plt.tight_layout()
-    return fig, f"### Model performance on {dataset_name}\n**MAE:** {mean_absolute_error(y_test, preds):.4f} | **Features used:** {len(selected_features)}"
 # =========================================================
-# INTERFACE
 # =========================================================
-with gr.Blocks(title="QSBench Unified Explorer") as demo:
-    gr.Markdown("# 🌌 QSBench: Quantum Synthetic Benchmark Explorer")
     with gr.Tabs():
-        with gr.TabItem("🔎 Dataset Explorer"):
             with gr.Row():
-                ds_selector = gr.Dropdown(choices=list(DATASET_MAP.keys()), value="Core (Clean)", label="Select Dataset")
-                split_selector = gr.Dropdown(choices=["train"], value="train", label="Data Split")
-            # Параметр overflow_row_behaviour удален для совместимости с Gradio 6
             data_table = gr.Dataframe(interactive=False)
             with gr.Row():
-                qasm_raw_view = gr.Code(label="Raw QASM (Source)", language="python", lines=12)
-                qasm_tr_view = gr.Code(label="Transpiled QASM (Hardware-ready)", language="python", lines=12)
-        with gr.TabItem("🤖 ML Baseline Demo"):
             with gr.Row():
                 with gr.Column(scale=1):
-                    gr.Markdown("### Training Settings")
-                    model_ds_selector = gr.Dropdown(choices=list(DATASET_MAP.keys()), value="Core (Clean)", label="Dataset")
-                    feature_selector = gr.CheckboxGroup(label="Select Structural Metrics", choices=[])
-                    train_btn = gr.Button("Run Training", variant="primary")
                 with gr.Column(scale=2):
-                    plot_output = gr.Plot()
-                    text_output = gr.Markdown()
-    gr.Markdown("""
-    ---
-    ### 🔬 Research Resources
-    - **GitHub**: [QSBench/QSBench-Demo](https://github.com/QSBench/QSBench-Demo)
-    - **Website**: [qsbench.github.io](https://qsbench.github.io)
-    - **Hugging Face**: [Explore all datasets](https://huggingface.co/QSBench)
-    """)
-    # Связи событий
-    ds_selector.change(update_explorer, [ds_selector, split_selector], [split_selector, data_table, qasm_raw_view, qasm_tr_view, feature_selector])
-    split_selector.change(update_explorer, [ds_selector, split_selector], [split_selector, data_table, qasm_raw_view, qasm_tr_view, feature_selector])
-    train_btn.click(run_model_demo, [model_ds_selector, feature_selector], [plot_output, text_output])
-    # Начальная загрузка при старте Space
-    demo.load(update_explorer, [ds_selector, split_selector], [split_selector, data_table, qasm_raw_view, qasm_tr_view, feature_selector])
 if __name__ == "__main__":
     demo.launch(theme=gr.themes.Soft())

 from sklearn.ensemble import RandomForestRegressor
 from sklearn.metrics import mean_absolute_error, r2_score
 from sklearn.model_selection import train_test_split
 # =========================================================
+# CONFIG
 # =========================================================
 DATASET_MAP = {
     "Core (Clean)": "QSBench/QSBench-Core-v1.0.0-demo",
 TARGET_COL = "ideal_expval_Z_global"
 EXCLUDE_COLS = {
     "sample_id", "sample_seed", "circuit_hash", "split", "circuit_qasm",
     "qasm_raw", "qasm_transpiled", "circuit_type_resolved", "circuit_type_requested",
 dataset_cache = {}
 # =========================================================
+# UTILS
 # =========================================================
 def get_df(dataset_key):
     if dataset_key not in dataset_cache:
 def get_numeric_feature_cols(df: pd.DataFrame) -> list[str]:
     numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
+    # Убираем все таргеты и нерелевантные колонки
+    return [c for c in numeric_cols if c not in EXCLUDE_COLS and not c.startswith("error_") and "expval" not in c]
 # =========================================================
+# LOGIC
 # =========================================================
 def update_explorer(dataset_name, split_name):
     df = get_df(dataset_name)
     splits = df["split"].unique().tolist() if "split" in df.columns else ["train"]
     filtered = df[df["split"] == split_name].head(10) if "split" in df.columns else df.head(10)
+    qasm_raw = filtered["qasm_raw"].iloc[0] if "qasm_raw" in filtered.columns else "// N/A"
+    qasm_tr = filtered["qasm_transpiled"].iloc[0] if "qasm_transpiled" in filtered.columns else "// N/A"
     features = get_numeric_feature_cols(df)
+    # По умолчанию выбираем первые 8 признаков (обычно это n_qubits, depth и базовые гейты)
+    default_features = features[:8]
+    return gr.update(choices=splits), filtered, qasm_raw, qasm_tr, gr.update(choices=features, value=default_features)
 def run_model_demo(dataset_name, selected_features):
     df = get_df(dataset_name)
+    # КРИТИЧЕСКОЕ ИСПРАВЛЕНИЕ: фильтруем признаки, которые реально есть в этом датасете
+    valid_features = [f for f in selected_features if f in df.columns]
+    if not valid_features:
+        return None, "### ⚠️ No valid features selected for this dataset."
     target = TARGET_COL if TARGET_COL in df.columns else df.filter(like="expval").columns[0]
+    # Подготовка данных
+    work_df = df.dropna(subset=valid_features + [target]).reset_index(drop=True)
+    X, y = work_df[valid_features], work_df[target]
+    if len(work_df) < 50:
+        return None, "### ⚠️ Not enough data rows to train."
     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
     model = RandomForestRegressor(n_estimators=50, max_depth=10, n_jobs=-1, random_state=42)
     sns.set_theme(style="whitegrid")
     fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(18, 5))
+    # Parity
     ax1.scatter(y_test, preds, alpha=0.4, color='#636EFA')
     ax1.plot([y.min(), y.max()], [y.min(), y.max()], 'r--', lw=2)
+    ax1.set_title(f"R² = {r2_score(y_test, preds):.3f}")
+    ax1.set_xlabel("Actual")
+    ax1.set_ylabel("Predicted")
+    # Importance
     importances = model.feature_importances_
+    indices = np.argsort(importances)[-10:] # Только топ-10 для красоты
     ax2.barh(range(len(indices)), importances[indices], color='#EF553B')
     ax2.set_yticks(range(len(indices)))
+    ax2.set_yticklabels([valid_features[i] for i in indices])
+    ax2.set_title("Top Feature Importance")
+    # Residuals
     sns.histplot(y_test - preds, kde=True, ax=ax3, color='#00CC96')
+    ax3.set_title("Error Distribution")
     plt.tight_layout()
+    return fig, f"### Train Stats: {dataset_name}\n**MAE:** {mean_absolute_error(y_test, preds):.4f}"
 # =========================================================
+# UI
 # =========================================================
+with gr.Blocks() as demo:
+    gr.Markdown("# 🌌 QSBench Unified Explorer")
     with gr.Tabs():
+        with gr.TabItem("🔎 Explorer"):
             with gr.Row():
+                ds_selector = gr.Dropdown(choices=list(DATASET_MAP.keys()), value="Core (Clean)", label="Dataset")
+                split_selector = gr.Dropdown(choices=["train"], value="train", label="Split")
             data_table = gr.Dataframe(interactive=False)
             with gr.Row():
+                qasm_raw_view = gr.Code(label="Raw QASM", language="python", lines=10)
+                qasm_tr_view = gr.Code(label="Transpiled QASM", language="python", lines=10)
+        with gr.TabItem("🤖 ML Demo"):
             with gr.Row():
                 with gr.Column(scale=1):
+                    m_ds_selector = gr.Dropdown(choices=list(DATASET_MAP.keys()), value="Core (Clean)", label="Target Dataset")
+                    f_selector = gr.CheckboxGroup(label="Features", choices=[])
+                    train_btn = gr.Button("Train", variant="primary")
                 with gr.Column(scale=2):
+                    plot_out = gr.Plot()
+                    text_out = gr.Markdown()
+    # Ссылки
+    ds_selector.change(update_explorer, [ds_selector, split_selector], [split_selector, data_table, qasm_raw_view, qasm_tr_view, f_selector])
+    train_btn.click(run_model_demo, [m_ds_selector, f_selector], [plot_out, text_out])
+    demo.load(update_explorer, [ds_selector, split_selector], [split_selector, data_table, qasm_raw_view, qasm_tr_view, f_selector])
 if __name__ == "__main__":
     demo.launch(theme=gr.themes.Soft())