Training in progress, step 25, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +36 -336
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -16,13 +16,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "k_proj",
     "v_proj",
     "up_proj",
     "o_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "gate_proj",
     "up_proj",
+    "q_proj",
+    "k_proj",
     "o_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:661995d6fcb6405e7c8ad56ab888ddeab69ea83d2429fbf08b080ea5756f3eb6
 size 80013120

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a965a0e35eb565282b2b1fcfc122cb90b82d05bbb2e9f0b12b4691a072f4cb0
 size 80013120

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aea908c6d7c1a8815a3a34246a07b139da722c669d76b45323ce9a8b68a35787
 size 40570324

 version https://git-lfs.github.com/spec/v1
+oid sha256:1edde597d127de07be7f782f6dcaf35d1273cdd6b7b1b022121fc26ce68fd22e
 size 40570324

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7d8f7f8e1a76d94091cc701a4a00cc6fd2a3c1a746e29e297276a305cc6801f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d504d22c70365e955869229804fc73b5137014a18fd4465b41a6a55d0b2d969
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cb9069cac0762cbe9eda0682450e4a822dfd10b17c5f7335626649d1825624d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dec2630d82b42dc3f2af7f561c89bb49dcba8fb4678d8138315fec1825cabb01
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0018656716417910447,
   "eval_steps": 1000,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -23,447 +23,147 @@
     {
       "epoch": 0.0,
       "learning_rate": 0.00012,
-      "loss": 2.0252,
       "step": 3
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00016,
-      "loss": 1.9536,
       "step": 4
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.0002,
-      "loss": 2.1671,
       "step": 5
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00019789473684210526,
-      "loss": 1.6695,
       "step": 6
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00019578947368421054,
-      "loss": 1.7043,
       "step": 7
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.0001936842105263158,
-      "loss": 1.635,
       "step": 8
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00019157894736842104,
-      "loss": 1.5576,
       "step": 9
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00018947368421052632,
-      "loss": 1.5921,
       "step": 10
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.0001873684210526316,
-      "loss": 1.814,
       "step": 11
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00018526315789473685,
-      "loss": 1.7531,
       "step": 12
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.0001831578947368421,
-      "loss": 1.6155,
       "step": 13
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00018105263157894739,
-      "loss": 1.6424,
       "step": 14
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00017894736842105264,
-      "loss": 1.453,
       "step": 15
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001768421052631579,
-      "loss": 1.4445,
       "step": 16
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00017473684210526317,
-      "loss": 1.441,
       "step": 17
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00017263157894736842,
-      "loss": 1.5453,
       "step": 18
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001705263157894737,
-      "loss": 1.4167,
       "step": 19
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00016842105263157895,
-      "loss": 1.4823,
       "step": 20
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00016631578947368423,
-      "loss": 1.6061,
       "step": 21
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00016421052631578948,
-      "loss": 1.4348,
       "step": 22
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00016210526315789473,
-      "loss": 1.7074,
       "step": 23
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00016,
-      "loss": 1.7641,
       "step": 24
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00015789473684210527,
-      "loss": 1.694,
       "step": 25
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00015578947368421052,
-      "loss": 1.4779,
-      "step": 26
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.0001536842105263158,
-      "loss": 1.638,
-      "step": 27
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00015157894736842108,
-      "loss": 1.5519,
-      "step": 28
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00014947368421052633,
-      "loss": 1.7623,
-      "step": 29
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00014736842105263158,
-      "loss": 1.2871,
-      "step": 30
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00014526315789473686,
-      "loss": 1.5806,
-      "step": 31
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.0001431578947368421,
-      "loss": 1.5541,
-      "step": 32
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00014105263157894736,
-      "loss": 1.6991,
-      "step": 33
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00013894736842105264,
-      "loss": 1.5331,
-      "step": 34
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.0001368421052631579,
-      "loss": 1.9143,
-      "step": 35
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00013473684210526317,
-      "loss": 1.6051,
-      "step": 36
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00013263157894736842,
-      "loss": 1.6311,
-      "step": 37
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.0001305263157894737,
-      "loss": 1.4711,
-      "step": 38
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00012842105263157895,
-      "loss": 1.4644,
-      "step": 39
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.0001263157894736842,
-      "loss": 1.7623,
-      "step": 40
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00012421052631578949,
-      "loss": 1.5635,
-      "step": 41
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00012210526315789474,
-      "loss": 1.3194,
-      "step": 42
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00012,
-      "loss": 1.3296,
-      "step": 43
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00011789473684210525,
-      "loss": 1.6656,
-      "step": 44
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00011578947368421053,
-      "loss": 1.5584,
-      "step": 45
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.0001136842105263158,
-      "loss": 1.6557,
-      "step": 46
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00011157894736842105,
-      "loss": 1.4512,
-      "step": 47
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00010947368421052633,
-      "loss": 1.4563,
-      "step": 48
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00010736842105263158,
-      "loss": 1.4214,
-      "step": 49
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00010526315789473685,
-      "loss": 1.6556,
-      "step": 50
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00010315789473684211,
-      "loss": 1.5774,
-      "step": 51
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 0.00010105263157894738,
-      "loss": 1.5624,
-      "step": 52
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 9.894736842105263e-05,
-      "loss": 1.0224,
-      "step": 53
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 9.68421052631579e-05,
-      "loss": 1.5792,
-      "step": 54
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 9.473684210526316e-05,
-      "loss": 1.6203,
-      "step": 55
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 9.263157894736843e-05,
-      "loss": 1.6145,
-      "step": 56
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 9.052631578947369e-05,
-      "loss": 1.5488,
-      "step": 57
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 8.842105263157894e-05,
-      "loss": 1.7138,
-      "step": 58
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 8.631578947368421e-05,
-      "loss": 1.5731,
-      "step": 59
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 8.421052631578948e-05,
-      "loss": 1.2584,
-      "step": 60
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 8.210526315789474e-05,
-      "loss": 1.4644,
-      "step": 61
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 8e-05,
-      "loss": 1.4227,
-      "step": 62
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 7.789473684210526e-05,
-      "loss": 1.4762,
-      "step": 63
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 7.578947368421054e-05,
-      "loss": 1.6393,
-      "step": 64
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 7.368421052631579e-05,
-      "loss": 1.6137,
-      "step": 65
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 7.157894736842105e-05,
-      "loss": 1.4132,
-      "step": 66
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 6.947368421052632e-05,
-      "loss": 1.9143,
-      "step": 67
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 6.736842105263159e-05,
-      "loss": 1.2177,
-      "step": 68
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 6.526315789473685e-05,
-      "loss": 1.6103,
-      "step": 69
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 6.31578947368421e-05,
-      "loss": 1.3548,
-      "step": 70
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 6.105263157894737e-05,
-      "loss": 1.6381,
-      "step": 71
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 5.894736842105263e-05,
-      "loss": 1.6296,
-      "step": 72
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 5.68421052631579e-05,
-      "loss": 1.6071,
-      "step": 73
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 5.4736842105263165e-05,
-      "loss": 1.7263,
-      "step": 74
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 5.2631578947368424e-05,
-      "loss": 1.5891,
-      "step": 75
     }
   ],
   "logging_steps": 1,
   "max_steps": 100,
   "num_train_epochs": 1,
   "save_steps": 25,
-  "total_flos": 4183967298846720.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0006218905472636816,
   "eval_steps": 1000,
+  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.0,
       "learning_rate": 0.00012,
+      "loss": 2.0249,
       "step": 3
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00016,
+      "loss": 1.9519,
       "step": 4
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.0002,
+      "loss": 2.1586,
       "step": 5
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00019789473684210526,
+      "loss": 1.6571,
       "step": 6
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00019578947368421054,
+      "loss": 1.6994,
       "step": 7
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.0001936842105263158,
+      "loss": 1.6263,
       "step": 8
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00019157894736842104,
+      "loss": 1.5557,
       "step": 9
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00018947368421052632,
+      "loss": 1.5908,
       "step": 10
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.0001873684210526316,
+      "loss": 1.8123,
       "step": 11
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00018526315789473685,
+      "loss": 1.7386,
       "step": 12
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.0001831578947368421,
+      "loss": 1.6149,
       "step": 13
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00018105263157894739,
+      "loss": 1.6512,
       "step": 14
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00017894736842105264,
+      "loss": 1.4589,
       "step": 15
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00017894736842105264,
+      "loss": 1.4591,
       "step": 16
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0001768421052631579,
+      "loss": 1.4456,
       "step": 17
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00017473684210526317,
+      "loss": 1.5533,
       "step": 18
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00017263157894736842,
+      "loss": 1.424,
       "step": 19
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0001705263157894737,
+      "loss": 1.4817,
       "step": 20
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00016842105263157895,
+      "loss": 1.6008,
       "step": 21
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00016631578947368423,
+      "loss": 1.4342,
       "step": 22
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00016421052631578948,
+      "loss": 1.7079,
       "step": 23
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00016210526315789473,
+      "loss": 1.761,
       "step": 24
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00016,
+      "loss": 1.6936,
       "step": 25
     }
   ],
   "logging_steps": 1,
   "max_steps": 100,
   "num_train_epochs": 1,
   "save_steps": 25,
+  "total_flos": 1278571417288704.0,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:619cb7fe493d4c12996a60232bbe7210fa65382ffafcccaff8d4e67c6e0757fb
 size 4600

 version https://git-lfs.github.com/spec/v1
+oid sha256:64bc67c40371d89ad1c0c5799c319b73a6cbfb79d05d7cb27dd81ef6351298a8
 size 4600