Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

checkpoint-100/adapter_config.json +3 -3
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/trainer_state.json +53 -53
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -20,10 +20,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "k_proj",
     "q_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:382e30330bcf16a31a9c77b85ae047dffe625857977f8280cc03e19970f6f020
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:9022a41c6a7725ac3af5b0936fc7e06fc2895c4a8da259582c34fce1136a0fd4
 size 54560368

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b62d24323a5fd9bf8c0fc65cdaa199e8690c7869635da47e5f7100fb8c16ea0
 size 109267450

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3821e0c5652183b68ba5df1fec03c5f08c944e6453f131c4b4c0eb3216f0912
 size 109267450

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.5443353056907654,
-  "best_model_checkpoint": "./zephyr/08-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.9-KTO_Hyperparameter search, altering desired and undesired weights for KTO task.-2_max_steps-145_batch_16_2024-04-08_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "global_step": 100,
@@ -10,42 +10,42 @@
   "log_history": [
     {
       "epoch": 0.14,
-      "grad_norm": 4.8340067863464355,
-      "kl": 27.297277450561523,
       "learning_rate": 0.00018,
-      "logps/chosen": -294.6091003417969,
-      "logps/rejected": -256.2513732910156,
-      "loss": 0.4863,
-      "rewards/chosen": 1.882211446762085,
-      "rewards/margins": 0.8332540392875671,
-      "rewards/rejected": 0.9183141589164734,
       "step": 20
     },
     {
       "epoch": 0.27,
       "grad_norm": 0.0,
-      "kl": 40.49668502807617,
       "learning_rate": 0.00015142857142857143,
-      "logps/chosen": -539.7681884765625,
-      "logps/rejected": -501.2303161621094,
-      "loss": 0.4555,
-      "rewards/chosen": -24.707237243652344,
-      "rewards/margins": -0.5242304801940918,
-      "rewards/rejected": -22.829710006713867,
       "step": 40
     },
     {
       "epoch": 0.34,
       "eval_kl": 0.0,
-      "eval_logps/chosen": -1786.45947265625,
-      "eval_logps/rejected": -1616.440185546875,
-      "eval_loss": 0.5443361401557922,
-      "eval_rewards/chosen": -148.88607788085938,
-      "eval_rewards/margins": -20.042972564697266,
-      "eval_rewards/rejected": -135.36317443847656,
-      "eval_runtime": 138.4944,
-      "eval_samples_per_second": 2.166,
-      "eval_steps_per_second": 0.542,
       "step": 50
     },
     {
@@ -53,12 +53,12 @@
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 0.00012285714285714287,
-      "logps/chosen": -1740.7340087890625,
-      "logps/rejected": -1820.6246337890625,
-      "loss": 0.5427,
-      "rewards/chosen": -146.22254943847656,
-      "rewards/margins": 5.4553728103637695,
-      "rewards/rejected": -151.97308349609375,
       "step": 60
     },
     {
@@ -66,12 +66,12 @@
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 9.428571428571429e-05,
-      "logps/chosen": -1711.9744873046875,
-      "logps/rejected": -1807.9703369140625,
-      "loss": 0.5427,
-      "rewards/chosen": -143.12269592285156,
-      "rewards/margins": 8.623757362365723,
-      "rewards/rejected": -150.7401885986328,
       "step": 80
     },
     {
@@ -79,26 +79,26 @@
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 6.571428571428571e-05,
-      "logps/chosen": -1719.2364501953125,
-      "logps/rejected": -1687.2681884765625,
-      "loss": 0.5714,
-      "rewards/chosen": -144.7313995361328,
-      "rewards/margins": -4.064985752105713,
-      "rewards/rejected": -140.0031280517578,
       "step": 100
     },
     {
       "epoch": 0.68,
       "eval_kl": 0.0,
-      "eval_logps/chosen": -1605.7635498046875,
-      "eval_logps/rejected": -1472.8948974609375,
-      "eval_loss": 0.5443353056907654,
-      "eval_rewards/chosen": -130.8164825439453,
-      "eval_rewards/margins": -16.295190811157227,
-      "eval_rewards/rejected": -121.00863647460938,
-      "eval_runtime": 138.4851,
-      "eval_samples_per_second": 2.166,
-      "eval_steps_per_second": 0.542,
       "step": 100
     }
   ],

 {
+  "best_metric": 0.544333279132843,
+  "best_model_checkpoint": "./zephyr/09-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.9-KTO_Hyperparameter search, altering desired and undesired weights for KTO task.-2_max_steps-145_batch_16_2024-04-09_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "global_step": 100,
   "log_history": [
     {
       "epoch": 0.14,
+      "grad_norm": 0.0,
+      "kl": 0.9986292123794556,
       "learning_rate": 0.00018,
+      "logps/chosen": -876.9887084960938,
+      "logps/rejected": -891.7728271484375,
+      "loss": 0.5066,
+      "rewards/chosen": -59.218875885009766,
+      "rewards/margins": 1.2524851560592651,
+      "rewards/rejected": -60.5962028503418,
       "step": 20
     },
     {
       "epoch": 0.27,
       "grad_norm": 0.0,
+      "kl": 0.0,
       "learning_rate": 0.00015142857142857143,
+      "logps/chosen": -1901.8116455078125,
+      "logps/rejected": -1940.32470703125,
+      "loss": 0.5606,
+      "rewards/chosen": -161.08740234375,
+      "rewards/margins": 2.580688953399658,
+      "rewards/rejected": -164.8165283203125,
       "step": 40
     },
     {
       "epoch": 0.34,
       "eval_kl": 0.0,
+      "eval_logps/chosen": -1797.90625,
+      "eval_logps/rejected": -1778.623291015625,
+      "eval_loss": 0.5443333983421326,
+      "eval_rewards/chosen": -151.05047607421875,
+      "eval_rewards/margins": 2.7896132469177246,
+      "eval_rewards/rejected": -151.03567504882812,
+      "eval_runtime": 138.2181,
+      "eval_samples_per_second": 2.17,
+      "eval_steps_per_second": 0.543,
       "step": 50
     },
     {
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 0.00012285714285714287,
+      "logps/chosen": -1852.9610595703125,
+      "logps/rejected": -1893.4521484375,
+      "loss": 0.5211,
+      "rewards/chosen": -157.99769592285156,
+      "rewards/margins": 3.8418266773223877,
+      "rewards/rejected": -160.36117553710938,
       "step": 60
     },
     {
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 9.428571428571429e-05,
+      "logps/chosen": -2051.344482421875,
+      "logps/rejected": -1892.0853271484375,
+      "loss": 0.5714,
+      "rewards/chosen": -176.026611328125,
+      "rewards/margins": -20.468326568603516,
+      "rewards/rejected": -161.7165069580078,
       "step": 80
     },
     {
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 6.571428571428571e-05,
+      "logps/chosen": -2035.6630859375,
+      "logps/rejected": -1939.001220703125,
+      "loss": 0.4995,
+      "rewards/chosen": -175.16189575195312,
+      "rewards/margins": -12.196085929870605,
+      "rewards/rejected": -165.23004150390625,
       "step": 100
     },
     {
       "epoch": 0.68,
       "eval_kl": 0.0,
+      "eval_logps/chosen": -1859.810791015625,
+      "eval_logps/rejected": -1831.84814453125,
+      "eval_loss": 0.544333279132843,
+      "eval_rewards/chosen": -157.24095153808594,
+      "eval_rewards/margins": 2.0474841594696045,
+      "eval_rewards/rejected": -156.35816955566406,
+      "eval_runtime": 138.0332,
+      "eval_samples_per_second": 2.173,
+      "eval_steps_per_second": 0.543,
       "step": 100
     }
   ],

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:208731d05bb926d0eed23087f8da51d3f9788681ea21fd406c1607c7f228f41f
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:610ac0203a49e0c4734b308d39dc63c437e14685b90417052adfcc16864e15eb
 size 5688