Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

artifacts/runs/20260426-060502-final-pass-32eval/api_errors.json +5 -0
artifacts/runs/20260426-060502-final-pass-32eval/benchmark_style_final.png +0 -0
artifacts/runs/20260426-060502-final-pass-32eval/checkpoint_leaderboard_final.png +0 -0
artifacts/runs/20260426-060502-final-pass-32eval/comparison_table.csv +6 -0
artifacts/runs/20260426-060502-final-pass-32eval/comparison_table.md +13 -0
artifacts/runs/20260426-060502-final-pass-32eval/final_metrics.json +48 -0
artifacts/runs/20260426-060502-final-pass-32eval/leaderboard.csv +4 -0
artifacts/runs/20260426-060502-final-pass-32eval/performance_comparison_final.png +0 -0
artifacts/runs/20260426-060502-final-pass-32eval/reward_distribution_shift_final.png +0 -0
artifacts/runs/20260426-060502-final-pass-32eval/task_delta_final.png +0 -0

artifacts/runs/20260426-060502-final-pass-32eval/api_errors.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "base": [],
+  "candidate_1": [],
+  "candidate_2": []
+}

artifacts/runs/20260426-060502-final-pass-32eval/benchmark_style_final.png ADDED Viewed

artifacts/runs/20260426-060502-final-pass-32eval/checkpoint_leaderboard_final.png ADDED Viewed

artifacts/runs/20260426-060502-final-pass-32eval/comparison_table.csv ADDED Viewed

	@@ -0,0 +1,6 @@

+task,baseline_reward,post_reward,delta,relative_delta_percent
+easy_syntax_fix,0.120287,0.129662,0.009375,7.79
+medium_logic_fix,0.117475,0.118725,0.001250,1.06
+hard_multi_bug,0.100600,0.100600,0.000000,0.00
+hard_finance_explosion,0.104584,0.108438,0.003853,3.68
+overall,0.110737,0.114356,0.003620,3.27

artifacts/runs/20260426-060502-final-pass-32eval/comparison_table.md ADDED Viewed

	@@ -0,0 +1,13 @@

+# Final Corrected Comparison (Base vs Winner)
+- winner_model: `md896/sql-debug-agent-qwen25-05b-grpo-wandb-continue-v2`
+- samples_per_task: 32
+- eval_best_of_n: 2
+| task | baseline | winner | delta | relative delta % |
+|---|---:|---:|---:|---:|
+| easy_syntax_fix | 0.120287 | 0.129662 | 0.009375 | 7.79% |
+| medium_logic_fix | 0.117475 | 0.118725 | 0.001250 | 1.06% |
+| hard_multi_bug | 0.100600 | 0.100600 | 0.000000 | 0.00% |
+| hard_finance_explosion | 0.104584 | 0.108438 | 0.003853 | 3.68% |
+| overall | 0.110737 | 0.114356 | 0.003620 | 3.27% |

artifacts/runs/20260426-060502-final-pass-32eval/final_metrics.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "task_ids": [
+    "easy_syntax_fix",
+    "medium_logic_fix",
+    "hard_multi_bug",
+    "hard_finance_explosion"
+  ],
+  "samples_per_task": 32,
+  "eval_best_of_n": 2,
+  "models": {
+    "base": {
+      "model_id": "Qwen/Qwen2.5-0.5B-Instruct",
+      "overall_reward": 0.11073671874999999,
+      "error_count": 0,
+      "per_task_reward": {
+        "easy_syntax_fix": 0.12028749999999996,
+        "medium_logic_fix": 0.11747499999999998,
+        "hard_multi_bug": 0.10060000000000001,
+        "hard_finance_explosion": 0.10458437500000003
+      }
+    },
+    "candidate_1": {
+      "model_id": "md896/sql-debug-agent-qwen25-05b-grpo-wandb-best",
+      "overall_reward": 0.11326249999999999,
+      "error_count": 0,
+      "per_task_reward": {
+        "easy_syntax_fix": 0.12591249999999996,
+        "medium_logic_fix": 0.1177875,
+        "hard_multi_bug": 0.10060000000000001,
+        "hard_finance_explosion": 0.10875000000000001
+      }
+    },
+    "candidate_2": {
+      "model_id": "md896/sql-debug-agent-qwen25-05b-grpo-wandb-continue-v2",
+      "overall_reward": 0.11435624999999999,
+      "error_count": 0,
+      "per_task_reward": {
+        "easy_syntax_fix": 0.12966249999999996,
+        "medium_logic_fix": 0.118725,
+        "hard_multi_bug": 0.10060000000000001,
+        "hard_finance_explosion": 0.10843750000000002
+      }
+    }
+  },
+  "winner_label": "candidate_2",
+  "winner_model_id": "md896/sql-debug-agent-qwen25-05b-grpo-wandb-continue-v2",
+  "winner_delta_vs_base": 0.003619531250000002
+}

artifacts/runs/20260426-060502-final-pass-32eval/leaderboard.csv ADDED Viewed

	@@ -0,0 +1,4 @@

+rank,label,model_id,overall_reward
+1,candidate_2,md896/sql-debug-agent-qwen25-05b-grpo-wandb-continue-v2,0.114356
+2,candidate_1,md896/sql-debug-agent-qwen25-05b-grpo-wandb-best,0.113262
+3,base,Qwen/Qwen2.5-0.5B-Instruct,0.110737

artifacts/runs/20260426-060502-final-pass-32eval/performance_comparison_final.png ADDED Viewed

artifacts/runs/20260426-060502-final-pass-32eval/reward_distribution_shift_final.png ADDED Viewed

artifacts/runs/20260426-060502-final-pass-32eval/task_delta_final.png ADDED Viewed