Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

checkpoint-100/adapter_config.json +3 -3
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/trainer_state.json +62 -62
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -20,10 +20,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "k_proj",
     "v_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "o_proj",
+    "k_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1d26bc61e21d0b93fd9b446c555c662c0dced2ed04a45c6e79b26eeb3ee52e9
 size 6849416

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7cd70ce8242302b84492e870615155acf7a71718e051dfbaf76425667d74d71
 size 6849416

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a3d921e02a11aa9aed101e1624589a67a8ae88f444b6f2746ea10128ca55dc8
 size 13846266

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cf2261968b8d2e33b229a1338632b305db9baac4defb430ea87ed364d9acf5f
 size 13846266

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.3468475937843323,
-  "best_model_checkpoint": "./zephyr/08-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.18-KTO_Hyperparameter search, altering lora params for KTO task.-2_max_steps-145_batch_16_2024-04-08_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "global_step": 100,
@@ -10,95 +10,95 @@
   "log_history": [
     {
       "epoch": 0.14,
-      "grad_norm": 3.3949286937713623,
       "learning_rate": 0.00018142857142857142,
-      "loss": 0.4993,
       "step": 20,
-      "train/kl": 2.0773630142211914,
-      "train/logps/chosen": -280.7225560897436,
-      "train/logps/rejected": -280.629668445122,
-      "train/rewards/chosen": -0.4658302894005409,
-      "train/rewards/margins": 0.008156592134686835,
-      "train/rewards/rejected": -0.4739868815352277
     },
     {
       "epoch": 0.27,
-      "grad_norm": 2.1768083572387695,
       "learning_rate": 0.00015285714285714287,
-      "loss": 0.412,
       "step": 40,
-      "train/kl": 11.56242561340332,
-      "train/logps/chosen": -279.2820556640625,
-      "train/logps/rejected": -285.233056640625,
-      "train/rewards/chosen": 1.6047859191894531,
-      "train/rewards/margins": 1.591878777742386,
-      "train/rewards/rejected": 0.01290714144706726
     },
     {
       "epoch": 0.34,
-      "eval/kl": 34.189842224121094,
-      "eval/logps/chosen": -240.1980633802817,
-      "eval/logps/rejected": -241.65251681170886,
-      "eval/rewards/chosen": 4.346213757152289,
-      "eval/rewards/margins": 2.0745202015376725,
-      "eval/rewards/rejected": 2.2716935556146165,
-      "eval_loss": 0.3987465500831604,
-      "eval_runtime": 139.8252,
-      "eval_samples_per_second": 2.146,
-      "eval_steps_per_second": 0.536,
       "step": 50
     },
     {
       "epoch": 0.41,
-      "grad_norm": 3.7959017753601074,
       "learning_rate": 0.00012428571428571428,
-      "loss": 0.409,
       "step": 60,
-      "train/kl": 25.960163116455078,
-      "train/logps/chosen": -228.58444552951389,
-      "train/logps/rejected": -259.24209872159093,
-      "train/rewards/chosen": 3.7380718655056424,
-      "train/rewards/margins": 2.2719342395512747,
-      "train/rewards/rejected": 1.466137625954368
     },
     {
       "epoch": 0.55,
-      "grad_norm": 5.033076763153076,
       "learning_rate": 9.571428571428573e-05,
-      "loss": 0.3576,
       "step": 80,
-      "train/kl": 5.953394412994385,
-      "train/logps/chosen": -279.7611678685897,
-      "train/logps/rejected": -306.2880144817073,
-      "train/rewards/chosen": 1.7610896183894231,
-      "train/rewards/margins": 3.6376326169126703,
-      "train/rewards/rejected": -1.876542998523247
     },
     {
       "epoch": 0.68,
-      "grad_norm": 6.184478759765625,
       "learning_rate": 6.714285714285714e-05,
-      "loss": 0.3304,
       "step": 100,
-      "train/kl": 0.5991002321243286,
-      "train/logps/chosen": -307.0083233173077,
-      "train/logps/rejected": -345.8705592105263,
-      "train/rewards/chosen": -1.1401430570162259,
-      "train/rewards/margins": 4.161937278098906,
-      "train/rewards/rejected": -5.302080335115131
     },
     {
       "epoch": 0.68,
-      "eval/kl": 3.7238929271698,
-      "eval/logps/chosen": -265.10247029049293,
-      "eval/logps/rejected": -277.03555181962025,
-      "eval/rewards/chosen": 1.855774355606294,
-      "eval/rewards/margins": 3.1223836440754393,
-      "eval/rewards/rejected": -1.2666092884691456,
-      "eval_loss": 0.3468475937843323,
-      "eval_runtime": 139.8048,
-      "eval_samples_per_second": 2.146,
-      "eval_steps_per_second": 0.536,
       "step": 100
     }
   ],

 {
+  "best_metric": 0.35275527834892273,
+  "best_model_checkpoint": "./zephyr/09-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.18-KTO_Hyperparameter search, altering lora params for KTO task.-2_max_steps-145_batch_16_2024-04-09_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "global_step": 100,
   "log_history": [
     {
       "epoch": 0.14,
+      "grad_norm": 6.346695899963379,
       "learning_rate": 0.00018142857142857142,
+      "loss": 0.467,
       "step": 20,
+      "train/kl": 6.117425918579102,
+      "train/logps/chosen": -259.1842447916667,
+      "train/logps/rejected": -290.1948988970588,
+      "train/rewards/chosen": 0.930299072265625,
+      "train/rewards/margins": 0.5634524266860065,
+      "train/rewards/rejected": 0.36684664557961855
     },
     {
       "epoch": 0.27,
+      "grad_norm": 4.604153633117676,
       "learning_rate": 0.00015285714285714287,
+      "loss": 0.4224,
       "step": 40,
+      "train/kl": 6.080809116363525,
+      "train/logps/chosen": -274.32459677419354,
+      "train/logps/rejected": -291.6558948863636,
+      "train/rewards/chosen": 0.9791939027847782,
+      "train/rewards/margins": 1.6478286295692244,
+      "train/rewards/rejected": -0.668634726784446
     },
     {
       "epoch": 0.34,
+      "eval/kl": 7.511639595031738,
+      "eval/logps/chosen": -263.8732394366197,
+      "eval/logps/rejected": -268.6064082278481,
+      "eval/rewards/chosen": 1.9797810299295775,
+      "eval/rewards/margins": 2.403955568071142,
+      "eval/rewards/rejected": -0.42417453814156447,
+      "eval_loss": 0.3916032016277313,
+      "eval_runtime": 141.678,
+      "eval_samples_per_second": 2.117,
+      "eval_steps_per_second": 0.529,
       "step": 50
     },
     {
       "epoch": 0.41,
+      "grad_norm": 5.5113444328308105,
       "learning_rate": 0.00012428571428571428,
+      "loss": 0.3832,
       "step": 60,
+      "train/kl": 16.34114646911621,
+      "train/logps/chosen": -240.63917267628204,
+      "train/logps/rejected": -277.463486089939,
+      "train/rewards/chosen": 3.0404166197165465,
+      "train/rewards/margins": 2.3469540618075815,
+      "train/rewards/rejected": 0.6934625579089653
     },
     {
       "epoch": 0.55,
+      "grad_norm": 2.7619431018829346,
       "learning_rate": 9.571428571428573e-05,
+      "loss": 0.3233,
       "step": 80,
+      "train/kl": 0.7871202826499939,
+      "train/logps/chosen": -294.5624213506711,
+      "train/logps/rejected": -336.1468612938597,
+      "train/rewards/chosen": 0.5479572987396445,
+      "train/rewards/margins": 5.502926202933724,
+      "train/rewards/rejected": -4.954968904194079
     },
     {
       "epoch": 0.68,
+      "grad_norm": 4.996425151824951,
       "learning_rate": 6.714285714285714e-05,
+      "loss": 0.3749,
       "step": 100,
+      "train/kl": 6.590612888336182,
+      "train/logps/chosen": -265.2372325922819,
+      "train/logps/rejected": -300.5130665204678,
+      "train/rewards/chosen": 2.635832920970533,
+      "train/rewards/margins": 3.7929440163766914,
+      "train/rewards/rejected": -1.1571110954061585
     },
     {
       "epoch": 0.68,
+      "eval/kl": 2.193509817123413,
+      "eval/logps/chosen": -268.1729478433099,
+      "eval/logps/rejected": -291.57960838607596,
+      "eval/rewards/chosen": 1.5498130690883583,
+      "eval/rewards/margins": 4.271308299075008,
+      "eval/rewards/rejected": -2.7214952299866497,
+      "eval_loss": 0.35275527834892273,
+      "eval_runtime": 141.6617,
+      "eval_samples_per_second": 2.118,
+      "eval_steps_per_second": 0.529,
       "step": 100
     }
   ],

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38ae2e87f29eb2d5b20b8a1633c876370c1a196bac5b23847645ad024eea5fb3
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab74b0678263b82e3cef84b95bcb8d0582ce59316d01cb7ca3ea92557a3bcdfe
 size 5688