Upload GNN turn-level model artifacts

Files changed (3) hide show

README.md CHANGED Viewed

@@ -13,19 +13,19 @@ model-index:
         metrics:
           - name: F1
             type: f1
-            value: 0.8586
           - name: PR-AUC
             type: pr_auc
-            value: 0.9720
           - name: ROC-AUC
             type: roc_auc
-            value: 0.9772
           - name: Precision
             type: precision
-            value: 0.8589
           - name: Recall
             type: recall
-            value: 0.9158
 ---
 # GNN Jailbreak Prediction Model (phi4:14b)
@@ -35,17 +35,17 @@ Homogeneous GNN classifier for unsafe/jailbreak likelihood in multi-turn convers
 | Metric         | Value  |
 |----------------|--------|
-| F1             | 0.8586 |
-| PR-AUC         | 0.9720 |
-| ROC-AUC        | 0.9772 |
-| Precision      | 0.8589 |
-| Recall         | 0.9158 |
-| Best Threshold | 0.390 |
 ## Training Details
 - **Target model**: `phi4:14b`
-- **Datasets**: harmbench
 - **Split column**: `goal`
 - **Seed**: `42`
 - **Sentence model**: `sentence-transformers/all-MiniLM-L6-v2`
@@ -55,4 +55,4 @@ Homogeneous GNN classifier for unsafe/jailbreak likelihood in multi-turn convers
 ## Dataset Size (training samples)
-Prepared turn-level samples: 395

         metrics:
           - name: F1
             type: f1
+            value: 0.9411
           - name: PR-AUC
             type: pr_auc
+            value: 0.9782
           - name: ROC-AUC
             type: roc_auc
+            value: 0.9593
           - name: Precision
             type: precision
+            value: 0.9682
           - name: Recall
             type: recall
+            value: 0.9163
 ---
 # GNN Jailbreak Prediction Model (phi4:14b)
 | Metric         | Value  |
 |----------------|--------|
+| F1             | 0.9411 |
+| PR-AUC         | 0.9782 |
+| ROC-AUC        | 0.9593 |
+| Precision      | 0.9682 |
+| Recall         | 0.9163 |
+| Best Threshold | 0.270 |
 ## Training Details
 - **Target model**: `phi4:14b`
+- **Datasets**: harmbench, harmful_behaviors_1
 - **Split column**: `goal`
 - **Seed**: `42`
 - **Sentence model**: `sentence-transformers/all-MiniLM-L6-v2`
 ## Dataset Size (training samples)
+Prepared turn-level samples: 707

gnn_homo_payload.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edb1c160195c31c644ebb39468cbeed6ecfb41393cebc20f32c681f6161be870
-size 971461

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa9ce79e481cf9181e12aaa43775f560a0d317ff65ee43a5c82a7f9172d55228
+size 1454533

metadata.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
   "csv": "/home/digayona/multi_turn_jailbreak_RL/GNN/turns_table_llama3_8b_harmbench.csv",
   "target_model": "phi4:14b",
-  "threshold": 0.39,
   "sentence_model_name": "sentence-transformers/all-MiniLM-L6-v2",
-  "n_rows": 395,
   "n_models": 1,
   "split_col": "goal",
   "seed": 42,
   "turn_norm_mode": "dataset_max",
   "turn_norm_denom": 22.0,
   "session_len_norm_mode": "dataset_max",
-  "session_len_norm_denom": 20.0,
   "model_kwargs": {
     "hidden_channels": 128,
     "num_layers": 2,
@@ -20,10 +20,10 @@
   },
   "use_turn_bucket_features": false,
   "test_metrics": {
-    "roc_auc": 0.9772275091195899,
-    "pr_auc": 0.9720258299076259,
-    "f1": 0.8585849597195537,
-    "precision": 0.8589285714285715,
-    "recall": 0.9158333333333333
   }
 }

 {
   "csv": "/home/digayona/multi_turn_jailbreak_RL/GNN/turns_table_llama3_8b_harmbench.csv",
   "target_model": "phi4:14b",
+  "threshold": 0.27,
   "sentence_model_name": "sentence-transformers/all-MiniLM-L6-v2",
+  "n_rows": 707,
   "n_models": 1,
   "split_col": "goal",
   "seed": 42,
   "turn_norm_mode": "dataset_max",
   "turn_norm_denom": 22.0,
   "session_len_norm_mode": "dataset_max",
+  "session_len_norm_denom": 12.0,
   "model_kwargs": {
     "hidden_channels": 128,
     "num_layers": 2,
   },
   "use_turn_bucket_features": false,
   "test_metrics": {
+    "roc_auc": 0.9592919442561716,
+    "pr_auc": 0.9782228704301538,
+    "f1": 0.941144695354281,
+    "precision": 0.9681518630856448,
+    "recall": 0.9162547510892741
   }
 }