Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

checkpoint-100/adapter_config.json +2 -2
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/trainer_state.json +62 -62
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -20,10 +20,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "q_proj",
     "v_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "k_proj",
     "o_proj",
     "v_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:674904922c1114bca2b6962d0865c26cd6461c97c38b675a2f9cd49a1477127c
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:52990ac22b94270d636aea6ec8617aaacfa911c0126139ca1af3ecbef6bdb910
 size 54560368

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d1594d8c26c7cf16f63874394d9e1ee281367b7bf47fe000ce7b4c5d1bd3bf6
 size 109267450

 version https://git-lfs.github.com/spec/v1
+oid sha256:aee12a0aa0a7205759369bbb9ef004fc22850bd0b1f78cfa6bcd55938931fd60
 size 109267450

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.38888487219810486,
-  "best_model_checkpoint": "./zephyr/08-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.8-KTO_Hyperparameter search, altering desired and undesired weights for KTO task.-2_max_steps-145_batch_16_2024-04-08_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "global_step": 100,
@@ -10,95 +10,95 @@
   "log_history": [
     {
       "epoch": 0.14,
-      "grad_norm": 4.127615451812744,
-      "kl": 39.26093673706055,
       "learning_rate": 0.00018142857142857142,
-      "logps/chosen": -245.89620971679688,
-      "logps/rejected": -258.748779296875,
-      "loss": 0.4802,
-      "rewards/chosen": 4.086777210235596,
-      "rewards/margins": 0.9074667692184448,
-      "rewards/rejected": 3.135941743850708,
       "step": 20
     },
     {
       "epoch": 0.27,
-      "grad_norm": 5.660097122192383,
-      "kl": 59.82822799682617,
       "learning_rate": 0.00015285714285714287,
-      "logps/chosen": -209.38458251953125,
-      "logps/rejected": -248.3455047607422,
-      "loss": 0.4154,
-      "rewards/chosen": 6.526347637176514,
-      "rewards/margins": 2.00443172454834,
-      "rewards/rejected": 4.586952209472656,
       "step": 40
     },
     {
       "epoch": 0.34,
-      "eval_kl": 58.896419525146484,
-      "eval_logps/chosen": -219.6454315185547,
-      "eval_logps/rejected": -220.0347442626953,
-      "eval_loss": 0.4205213487148285,
-      "eval_rewards/chosen": 7.1839752197265625,
-      "eval_rewards/margins": 3.1912589073181152,
-      "eval_rewards/rejected": 4.228271961212158,
-      "eval_runtime": 138.6487,
-      "eval_samples_per_second": 2.164,
-      "eval_steps_per_second": 0.541,
       "step": 50
     },
     {
       "epoch": 0.41,
-      "grad_norm": 3.1389451026916504,
-      "kl": 57.303131103515625,
       "learning_rate": 0.00012428571428571428,
-      "logps/chosen": -229.5048370361328,
-      "logps/rejected": -248.27647399902344,
-      "loss": 0.3826,
-      "rewards/chosen": 7.161718368530273,
-      "rewards/margins": 2.8796584606170654,
-      "rewards/rejected": 4.1422295570373535,
       "step": 60
     },
     {
       "epoch": 0.55,
-      "grad_norm": 3.413207530975342,
-      "kl": 73.86964416503906,
       "learning_rate": 9.571428571428573e-05,
-      "logps/chosen": -207.4834747314453,
-      "logps/rejected": -261.6178894042969,
-      "loss": 0.4554,
-      "rewards/chosen": 8.253941535949707,
-      "rewards/margins": 2.003471851348877,
-      "rewards/rejected": 6.300358772277832,
       "step": 80
     },
     {
       "epoch": 0.68,
-      "grad_norm": 4.572467803955078,
-      "kl": 62.742340087890625,
       "learning_rate": 6.714285714285714e-05,
-      "logps/chosen": -211.75201416015625,
-      "logps/rejected": -226.812255859375,
-      "loss": 0.36,
-      "rewards/chosen": 7.574887752532959,
-      "rewards/margins": 2.8302791118621826,
-      "rewards/rejected": 4.788758277893066,
       "step": 100
     },
     {
       "epoch": 0.68,
-      "eval_kl": 57.12546157836914,
-      "eval_logps/chosen": -219.50518798828125,
-      "eval_logps/rejected": -215.76112365722656,
-      "eval_loss": 0.38888487219810486,
-      "eval_rewards/chosen": 7.198000431060791,
-      "eval_rewards/margins": 2.7296645641326904,
-      "eval_rewards/rejected": 4.65563440322876,
-      "eval_runtime": 138.5412,
-      "eval_samples_per_second": 2.165,
-      "eval_steps_per_second": 0.541,
       "step": 100
     }
   ],

 {
+  "best_metric": 0.6390000581741333,
+  "best_model_checkpoint": "./zephyr/09-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.8-KTO_Hyperparameter search, altering desired and undesired weights for KTO task.-2_max_steps-145_batch_16_2024-04-09_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "global_step": 100,
   "log_history": [
     {
       "epoch": 0.14,
+      "grad_norm": 0.0,
+      "kl": 7.392268180847168,
       "learning_rate": 0.00018142857142857142,
+      "logps/chosen": -556.1337890625,
+      "logps/rejected": -563.4813842773438,
+      "loss": 0.5396,
+      "rewards/chosen": -27.30255699157715,
+      "rewards/margins": 7.028589725494385,
+      "rewards/rejected": -27.570302963256836,
       "step": 20
     },
     {
       "epoch": 0.27,
+      "grad_norm": 0.0,
+      "kl": 0.0,
       "learning_rate": 0.00015285714285714287,
+      "logps/chosen": -1588.400634765625,
+      "logps/rejected": -1780.9019775390625,
+      "loss": 0.6413,
+      "rewards/chosen": -131.71377563476562,
+      "rewards/margins": 18.5042781829834,
+      "rewards/rejected": -147.60687255859375,
       "step": 40
     },
     {
       "epoch": 0.34,
+      "eval_kl": 0.0,
+      "eval_logps/chosen": -1972.53662109375,
+      "eval_logps/rejected": -1894.372314453125,
+      "eval_loss": 0.6390000581741333,
+      "eval_rewards/chosen": -168.53868103027344,
+      "eval_rewards/margins": -6.742273807525635,
+      "eval_rewards/rejected": -162.69952392578125,
+      "eval_runtime": 141.4233,
+      "eval_samples_per_second": 2.121,
+      "eval_steps_per_second": 0.53,
       "step": 50
     },
     {
       "epoch": 0.41,
+      "grad_norm": 0.0,
+      "kl": 0.0,
       "learning_rate": 0.00012428571428571428,
+      "logps/chosen": -2004.6998291015625,
+      "logps/rejected": -1917.18212890625,
+      "loss": 0.6159,
+      "rewards/chosen": -172.33108520507812,
+      "rewards/margins": -6.893044948577881,
+      "rewards/rejected": -164.2748260498047,
       "step": 60
     },
     {
       "epoch": 0.55,
+      "grad_norm": 0.0,
+      "kl": 0.0,
       "learning_rate": 9.571428571428573e-05,
+      "logps/chosen": -2267.27490234375,
+      "logps/rejected": -2191.0869140625,
+      "loss": 0.6539,
+      "rewards/chosen": -196.35650634765625,
+      "rewards/margins": -5.303529739379883,
+      "rewards/rejected": -189.41534423828125,
       "step": 80
     },
     {
       "epoch": 0.68,
+      "grad_norm": 0.0,
+      "kl": 0.0,
       "learning_rate": 6.714285714285714e-05,
+      "logps/chosen": -2088.027587890625,
+      "logps/rejected": -2137.646728515625,
+      "loss": 0.637,
+      "rewards/chosen": -180.6759796142578,
+      "rewards/margins": 5.185708045959473,
+      "rewards/rejected": -185.26431274414062,
       "step": 100
     },
     {
       "epoch": 0.68,
+      "eval_kl": 0.0,
+      "eval_logps/chosen": -2049.0234375,
+      "eval_logps/rejected": -1959.040283203125,
+      "eval_loss": 0.6390000581741333,
+      "eval_rewards/chosen": -176.1873779296875,
+      "eval_rewards/margins": -7.898090839385986,
+      "eval_rewards/rejected": -169.1663055419922,
+      "eval_runtime": 141.3411,
+      "eval_samples_per_second": 2.123,
+      "eval_steps_per_second": 0.531,
       "step": 100
     }
   ],

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec753cf81827293d67e1cd4dadda0709aa2933566f8a8859588f3e620859ca79
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:e88063efcf2e1044ae00909b776634bdd20170ee5677d970f3927f18fe89a355
 size 5688