Training in progress, step 170, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a76f914b47be02a1f65f43bf3479c04fbd79e2f88b877c3b16a685626b7ad331
 size 692136856

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7273ba923906b04b87992eae4005ab0c8dc4da4808ad7e8a3b8ab902f05d901
 size 692136856

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f257dd9e0289db79f785ec4853e1f1fd36aff06829c616d2869899bfbaee54d
 size 85723284

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4b08f6a6bee912a14eac6fe7863008999f3647480e4a08bce79f58c1b92e19e
 size 85723284

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99174d59b2f745e4fca8944695e995f5b82e2541faeac9696a55b797d641e61d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:34186b94f008aa4de4418533e839ad95cc0707e02f4933eee512f4e8d5d15989
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f676b917baa0a895f62d4ea12d985f19fe259f840a0ba6d41d00cece68314f5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f21ce5519aba36efeb75a8dad39ab6bd85bd42d0ae24cbc1f5cfa5d96741b8bc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.009163802978235968,
   "eval_steps": 34,
-  "global_step": 136,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -362,6 +362,91 @@
       "eval_samples_per_second": 14.026,
       "eval_steps_per_second": 1.754,
       "step": 136
     }
   ],
   "logging_steps": 3,
@@ -381,7 +466,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.912513331629916e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.011454753722794959,
   "eval_steps": 34,
+  "global_step": 170,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.026,
       "eval_steps_per_second": 1.754,
       "step": 136
+    },
+    {
+      "epoch": 0.009298564786739438,
+      "grad_norm": 0.6918753981590271,
+      "learning_rate": 3.784717029321922e-05,
+      "loss": 0.8194,
+      "step": 138
+    },
+    {
+      "epoch": 0.009500707499494642,
+      "grad_norm": 0.7483247518539429,
+      "learning_rate": 3.732519254757344e-05,
+      "loss": 0.8422,
+      "step": 141
+    },
+    {
+      "epoch": 0.009702850212249849,
+      "grad_norm": 0.7642280459403992,
+      "learning_rate": 3.679601723656205e-05,
+      "loss": 0.8222,
+      "step": 144
+    },
+    {
+      "epoch": 0.009904992925005053,
+      "grad_norm": 0.7145370244979858,
+      "learning_rate": 3.625995338366492e-05,
+      "loss": 0.8073,
+      "step": 147
+    },
+    {
+      "epoch": 0.01010713563776026,
+      "grad_norm": 0.732183039188385,
+      "learning_rate": 3.5717314035076355e-05,
+      "loss": 0.8163,
+      "step": 150
+    },
+    {
+      "epoch": 0.010309278350515464,
+      "grad_norm": 0.6954637765884399,
+      "learning_rate": 3.516841607689501e-05,
+      "loss": 0.7573,
+      "step": 153
+    },
+    {
+      "epoch": 0.01051142106327067,
+      "grad_norm": 0.7373840808868408,
+      "learning_rate": 3.461358005007128e-05,
+      "loss": 0.7868,
+      "step": 156
+    },
+    {
+      "epoch": 0.010713563776025874,
+      "grad_norm": 0.7047626376152039,
+      "learning_rate": 3.405312996322042e-05,
+      "loss": 0.821,
+      "step": 159
+    },
+    {
+      "epoch": 0.010915706488781079,
+      "grad_norm": 0.7702988982200623,
+      "learning_rate": 3.348739310341068e-05,
+      "loss": 0.8194,
+      "step": 162
+    },
+    {
+      "epoch": 0.011117849201536285,
+      "grad_norm": 0.7867685556411743,
+      "learning_rate": 3.2916699845036816e-05,
+      "loss": 0.7898,
+      "step": 165
+    },
+    {
+      "epoch": 0.01131999191429149,
+      "grad_norm": 0.7021005153656006,
+      "learning_rate": 3.234138345689077e-05,
+      "loss": 0.7621,
+      "step": 168
+    },
+    {
+      "epoch": 0.011454753722794959,
+      "eval_loss": 0.8163909316062927,
+      "eval_runtime": 1780.9274,
+      "eval_samples_per_second": 14.035,
+      "eval_steps_per_second": 1.755,
+      "step": 170
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 2.3906416645373952e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null