hazentr
/

Qwen2.5-1.5B-Instruct-Gensyn-Swarm-slender_grunting_koala

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44f3a685eb17c3e67b2edbe09a1dd10c49e344c3e8bf21b07081f4b556d340eb
 size 73911112

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c7b5c4caaadadc9c09f859e0a310752d019928bf81db375200e537ba03898a3
 size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 6.815025074047299e-07,
-    "train_runtime": 1180.0416,
     "train_samples": 11,
-    "train_samples_per_second": 0.271,
-    "train_steps_per_second": 0.017
 }

 {
     "total_flos": 0.0,
+    "train_loss": 8.676245840888441e-07,
+    "train_runtime": 1079.3,
     "train_samples": 11,
+    "train_samples_per_second": 0.296,
+    "train_steps_per_second": 0.019
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 6.815025074047299e-07,
-    "train_runtime": 1180.0416,
     "train_samples": 11,
-    "train_samples_per_second": 0.271,
-    "train_steps_per_second": 0.017
 }

 {
     "total_flos": 0.0,
+    "train_loss": 8.676245840888441e-07,
+    "train_runtime": 1079.3,
     "train_samples": 11,
+    "train_samples_per_second": 0.296,
+    "train_steps_per_second": 0.019
 }

trainer_state.json CHANGED Viewed

@@ -9,203 +9,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 508.21875,
       "epoch": 0.7272727272727273,
-      "grad_norm": 0.4091319143772125,
-      "kl": 0.0007149651682993863,
       "learning_rate": 4.965903258506806e-07,
       "loss": 0.0,
-      "reward": 0.46734179742634296,
-      "reward_std": 0.7034913524985313,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.4399667978286743,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": -0.1132500059902668,
       "step": 2
     },
     {
-      "completion_length": 532.5,
       "epoch": 1.3636363636363638,
-      "grad_norm": 0.36167478561401367,
-      "kl": 0.0010431851842440665,
       "learning_rate": 4.698684378016222e-07,
       "loss": 0.0,
-      "reward": 1.2440873043877738,
-      "reward_std": 1.0159797157560075,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.42857142857142855,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.38823013433388304,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.42728572871003834,
       "step": 4
     },
     {
-      "completion_length": 627.9285714285714,
       "epoch": 2.0,
-      "grad_norm": 0.24820180237293243,
-      "kl": 0.0006503500252230359,
       "learning_rate": 4.193203929064353e-07,
       "loss": 0.0,
-      "reward": 0.3999569181885038,
-      "reward_std": 1.3144908802849906,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.07142857142857142,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.4129926615527698,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.08446427966867175,
       "step": 6
     },
     {
-      "completion_length": 590.4375,
       "epoch": 2.7272727272727275,
-      "grad_norm": 0.3695061206817627,
-      "kl": 0.000727474907762371,
       "learning_rate": 3.5042385616324236e-07,
       "loss": 0.0,
-      "reward": 0.5934450421482325,
-      "reward_std": 0.9755645971745253,
-      "rewards/concensus_correctness_reward_func": 0.0036249998956918716,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5026637725532055,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.10034374333918095,
       "step": 8
     },
     {
-      "completion_length": 571.9285714285714,
       "epoch": 3.3636363636363638,
-      "grad_norm": 0.3335147500038147,
-      "kl": 0.0006040313164703548,
       "learning_rate": 2.706448363680831e-07,
       "loss": 0.0,
-      "reward": 0.7774789035320282,
-      "reward_std": 1.0534876585006714,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.4371217553104673,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.19750000536441803,
       "step": 10
     },
     {
-      "completion_length": 544.1428571428571,
       "epoch": 4.0,
-      "grad_norm": 0.41132229566574097,
-      "kl": 0.0010735353820824198,
       "learning_rate": 1.886286282148002e-07,
       "loss": 0.0,
-      "reward": 1.068406390292304,
-      "reward_std": 0.9618105930941445,
-      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.41076353405203136,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.017857142857142856,
-      "rewards/xmlcount_reward_func": 0.3540714383125305,
       "step": 12
     },
     {
-      "completion_length": 576.3125,
       "epoch": 4.7272727272727275,
-      "grad_norm": 0.3107761740684509,
-      "kl": 0.0006248628851608373,
       "learning_rate": 1.1326296046939333e-07,
       "loss": 0.0,
-      "reward": 0.7426850730553269,
-      "reward_std": 0.7855152189731598,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.42909131571650505,
-      "rewards/soft_format_reward_func": 0.015625,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.09484375361353159,
       "step": 14
     },
     {
-      "completion_length": 581.9642857142857,
       "epoch": 5.363636363636363,
-      "grad_norm": 0.5137450695037842,
-      "kl": 0.0006109345704317093,
       "learning_rate": 5.271487265090163e-08,
       "loss": 0.0,
-      "reward": 0.569231852889061,
-      "reward_std": 1.3280495234898158,
-      "rewards/concensus_correctness_reward_func": 0.0069285716329302105,
-      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5462318648185048,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.2696428426674434,
       "step": 16
     },
     {
-      "completion_length": 565.7857142857143,
       "epoch": 6.0,
-      "grad_norm": 0.2902137041091919,
-      "kl": 0.0006822941941209137,
       "learning_rate": 1.3545689574841341e-08,
       "loss": 0.0,
-      "reward": 0.3149234822818211,
-      "reward_std": 1.0513127403599876,
-      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.4591734771217619,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.3585357069969177,
       "step": 18
     },
     {
-      "completion_length": 595.5625,
       "epoch": 6.7272727272727275,
-      "grad_norm": 0.2633510231971741,
-      "kl": 0.0006653657765127718,
       "learning_rate": 0.0,
       "loss": 0.0,
-      "reward": 0.6152886636555195,
-      "reward_std": 1.1535739079117775,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.3791011737193912,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": -0.029437489807605743,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 6.815025074047299e-07,
-      "train_runtime": 1180.0416,
-      "train_samples_per_second": 0.271,
-      "train_steps_per_second": 0.017
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 409.5,
       "epoch": 0.7272727272727273,
+      "grad_norm": 0.4343891441822052,
+      "kl": 0.0007821403632988222,
       "learning_rate": 4.965903258506806e-07,
       "loss": 0.0,
+      "reward": 0.758910913951695,
+      "reward_std": 0.9026924595236778,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.35931719094514847,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.19646874582394958,
       "step": 2
     },
     {
+      "completion_length": 466.92857142857144,
       "epoch": 1.3636363636363638,
+      "grad_norm": 0.4033401906490326,
+      "kl": 0.0007768731780483254,
       "learning_rate": 4.698684378016222e-07,
       "loss": 0.0,
+      "reward": 1.1353230103850365,
+      "reward_std": 1.2951693896736418,
+      "rewards/concensus_correctness_reward_func": 0.029428571462631226,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.07142857142857142,
+      "rewards/question_recreation_reward_func": 0.34993019487176624,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.1666785856442792,
       "step": 4
     },
     {
+      "completion_length": 426.7142857142857,
       "epoch": 2.0,
+      "grad_norm": 0.38663896918296814,
+      "kl": 0.0008058734404455338,
       "learning_rate": 4.193203929064353e-07,
       "loss": 0.0,
+      "reward": 0.9899007028767041,
+      "reward_std": 1.3681557519095284,
+      "rewards/concensus_correctness_reward_func": 0.052214286157063076,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.3863649751458849,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.05132143199443817,
       "step": 6
     },
     {
+      "completion_length": 383.96875,
       "epoch": 2.7272727272727275,
+      "grad_norm": 0.4773660898208618,
+      "kl": 0.0008817740672384389,
       "learning_rate": 3.5042385616324236e-07,
       "loss": 0.0,
+      "reward": 0.8929834757000208,
+      "reward_std": 0.8532077670097351,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.3532647155225277,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.27409375831484795,
       "step": 8
     },
     {
+      "completion_length": 529.7857142857143,
       "epoch": 3.3636363636363638,
+      "grad_norm": 1.429701566696167,
+      "kl": 0.0015694323062364543,
       "learning_rate": 2.706448363680831e-07,
       "loss": 0.0,
+      "reward": 1.2543298218931471,
+      "reward_std": 1.171411571758134,
+      "rewards/concensus_correctness_reward_func": 0.05885714292526245,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.3772940848554884,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.3181785898549216,
       "step": 10
     },
     {
+      "completion_length": 459.2857142857143,
       "epoch": 4.0,
+      "grad_norm": 0.29276183247566223,
+      "kl": 0.0007172501812289868,
       "learning_rate": 1.886286282148002e-07,
       "loss": 0.0,
+      "reward": 0.7020246578114373,
+      "reward_std": 0.665808230638504,
+      "rewards/concensus_correctness_reward_func": 0.02278571469443185,
       "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.44752465401376995,
+      "rewards/soft_format_reward_func": 0.017857142857142856,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.07185715011187963,
       "step": 12
     },
     {
+      "completion_length": 447.0625,
       "epoch": 4.7272727272727275,
+      "grad_norm": 0.4309176802635193,
+      "kl": 0.0008279064204543829,
       "learning_rate": 1.1326296046939333e-07,
       "loss": 0.0,
+      "reward": 1.3554431721568108,
+      "reward_std": 1.0588620342314243,
+      "rewards/concensus_correctness_reward_func": 0.025750000029802322,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.4104431765154004,
+      "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.38800000213086605,
       "step": 14
     },
     {
+      "completion_length": 485.85714285714283,
       "epoch": 5.363636363636363,
+      "grad_norm": 0.48923608660697937,
+      "kl": 0.0015958319917055114,
       "learning_rate": 5.271487265090163e-08,
       "loss": 0.0,
+      "reward": 1.2559186049870081,
+      "reward_std": 1.0251037265573228,
+      "rewards/concensus_correctness_reward_func": 0.029428571462631226,
+      "rewards/consensus_reward_func": 0.6428571428571429,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.4494900501200131,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03571428571428571,
+      "rewards/xmlcount_reward_func": 0.0984285729272025,
       "step": 16
     },
     {
+      "completion_length": 415.5357142857143,
       "epoch": 6.0,
+      "grad_norm": 0.3563084900379181,
+      "kl": 0.0007512768747151963,
       "learning_rate": 1.3545689574841341e-08,
       "loss": 0.0,
+      "reward": 0.8440483425344739,
+      "reward_std": 0.7744771710463932,
+      "rewards/concensus_correctness_reward_func": 0.02278571469443185,
       "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.4731554814747402,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.11596427751438958,
       "step": 18
     },
     {
+      "completion_length": 445.71875,
       "epoch": 6.7272727272727275,
+      "grad_norm": 0.42769959568977356,
+      "kl": 0.0008261563343694434,
       "learning_rate": 0.0,
       "loss": 0.0,
+      "reward": 1.1794010773301125,
+      "reward_std": 0.8905268348753452,
+      "rewards/concensus_correctness_reward_func": 0.0950000025331974,
+      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.3941511157900095,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.2371250055730343,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 8.676245840888441e-07,
+      "train_runtime": 1079.3,
+      "train_samples_per_second": 0.296,
+      "train_steps_per_second": 0.019
     }
   ],
   "logging_steps": 2,