Training in progress, step 26, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7e0639ac94fd4f47d89f9f88a59fb68f10ce9dca775e9873dd045807ccd4070
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f8acbfded57331dc50dba4312b2ae6c80b8f014d9aff4a6e66701206d2adcea
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:329e67847e57f9cc347197b8f786ad8ad864584c161fd0298c812bfdbdebea47
 size 43122580

 version https://git-lfs.github.com/spec/v1
+oid sha256:924e352d853651ba0c20877af82d32fb1cc393aa95bcc6cfedbc8829af9de636
 size 43122580

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cc289ca89ed37bf50c2f838c7574993fbc613d6d7d723cf73cfe31d185c0abf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:92f9cf4d9a5473116427c25cd8c190945fbd751a93f90a6fee9c1aad7ed726a0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea3a68034a6fca5f7c1565a9344e41aadbdff3752a8799ae94336c8c84c6d63d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa0fde01e60897f55f4ebaca5a490a1a483a2c53b2ae8e7543860a62c5b3298c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.024832855778414518,
   "eval_steps": 13,
-  "global_step": 13,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -114,6 +114,105 @@
       "eval_samples_per_second": 17.241,
       "eval_steps_per_second": 8.66,
       "step": 13
     }
   ],
   "logging_steps": 1,
@@ -133,7 +232,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4808867045179392.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.049665711556829036,
   "eval_steps": 13,
+  "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.241,
       "eval_steps_per_second": 8.66,
       "step": 13
+    },
+    {
+      "epoch": 0.026743075453677174,
+      "grad_norm": 0.8471381068229675,
+      "learning_rate": 4.877641290737884e-05,
+      "loss": 2.6949,
+      "step": 14
+    },
+    {
+      "epoch": 0.02865329512893983,
+      "grad_norm": 0.766521692276001,
+      "learning_rate": 4.8096988312782174e-05,
+      "loss": 2.7781,
+      "step": 15
+    },
+    {
+      "epoch": 0.030563514804202482,
+      "grad_norm": 0.7984117865562439,
+      "learning_rate": 4.72751631047092e-05,
+      "loss": 2.76,
+      "step": 16
+    },
+    {
+      "epoch": 0.03247373447946514,
+      "grad_norm": 1.1073585748672485,
+      "learning_rate": 4.6316004108852305e-05,
+      "loss": 2.7066,
+      "step": 17
+    },
+    {
+      "epoch": 0.034383954154727794,
+      "grad_norm": 0.9880809187889099,
+      "learning_rate": 4.522542485937369e-05,
+      "loss": 2.7686,
+      "step": 18
+    },
+    {
+      "epoch": 0.03629417382999045,
+      "grad_norm": 0.9087245464324951,
+      "learning_rate": 4.401014914000078e-05,
+      "loss": 2.7358,
+      "step": 19
+    },
+    {
+      "epoch": 0.038204393505253106,
+      "grad_norm": 1.1556546688079834,
+      "learning_rate": 4.267766952966369e-05,
+      "loss": 2.8673,
+      "step": 20
+    },
+    {
+      "epoch": 0.04011461318051576,
+      "grad_norm": 0.7674556374549866,
+      "learning_rate": 4.123620120825459e-05,
+      "loss": 2.7329,
+      "step": 21
+    },
+    {
+      "epoch": 0.04202483285577841,
+      "grad_norm": 0.6524341106414795,
+      "learning_rate": 3.969463130731183e-05,
+      "loss": 2.5766,
+      "step": 22
+    },
+    {
+      "epoch": 0.04393505253104107,
+      "grad_norm": 0.6265513896942139,
+      "learning_rate": 3.8062464117898724e-05,
+      "loss": 2.6388,
+      "step": 23
+    },
+    {
+      "epoch": 0.045845272206303724,
+      "grad_norm": 0.572543740272522,
+      "learning_rate": 3.634976249348867e-05,
+      "loss": 2.5183,
+      "step": 24
+    },
+    {
+      "epoch": 0.04775549188156638,
+      "grad_norm": 0.5607729554176331,
+      "learning_rate": 3.456708580912725e-05,
+      "loss": 2.6954,
+      "step": 25
+    },
+    {
+      "epoch": 0.049665711556829036,
+      "grad_norm": 0.6020380258560181,
+      "learning_rate": 3.272542485937369e-05,
+      "loss": 2.6999,
+      "step": 26
+    },
+    {
+      "epoch": 0.049665711556829036,
+      "eval_loss": 2.671708106994629,
+      "eval_runtime": 12.8491,
+      "eval_samples_per_second": 17.2,
+      "eval_steps_per_second": 8.639,
+      "step": 26
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9617734090358784.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null