Training in progress, step 5500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d14537b53995f9eec671352e05766bafd657cddcc1b042f767d2dc4a340dfa1
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:74ff54a2686f1521c58b6326970f7c5b97a763b773d8cd479cdfad1ec0c3cac5
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16d1a46ec3ec7188b1c38e0f926a5647131015065a7410cd3b85a8c666c6f994
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:d03e40c8e5adedc33fcd43006e3bcf12cc5a6bb8492a828e2befbf798eee8cb0
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b46d8b0fbf8682c2d3e28711cf3edf74eeb431ca0deb04bd01f9c541d554bae1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:11239057f5c6fb1530932439ec947450720ad110d35f7557e8d43f46512ee240
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7da07b1c21adaaf08bce5759a258ff58ac2a661c73c83f77f0909a00a12b031
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:62d5b182b6f9100f7e6ff34153d4c2b85b65abf8d0d73f828512d9772061b995
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.39598318934440613,
   "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s8000/checkpoint-3500",
-  "epoch": 198.01980198019803,
   "eval_steps": 500,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -787,6 +787,84 @@
       "eval_samples_per_second": 25.915,
       "eval_steps_per_second": 3.311,
       "step": 5000
     }
   ],
   "logging_steps": 50,
@@ -806,7 +884,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.40291039934441e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.39598318934440613,
   "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s8000/checkpoint-3500",
+  "epoch": 217.82178217821783,
   "eval_steps": 500,
+  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.915,
       "eval_steps_per_second": 3.311,
       "step": 5000
+    },
+    {
+      "epoch": 200.0,
+      "grad_norm": 1.864687442779541,
+      "learning_rate": 4.9183333333333334e-05,
+      "loss": 0.3484,
+      "step": 5050
+    },
+    {
+      "epoch": 201.98019801980197,
+      "grad_norm": 1.406449556350708,
+      "learning_rate": 4.835e-05,
+      "loss": 0.345,
+      "step": 5100
+    },
+    {
+      "epoch": 203.96039603960395,
+      "grad_norm": 0.7522682547569275,
+      "learning_rate": 4.751666666666667e-05,
+      "loss": 0.3468,
+      "step": 5150
+    },
+    {
+      "epoch": 205.94059405940595,
+      "grad_norm": 0.5859296321868896,
+      "learning_rate": 4.6683333333333334e-05,
+      "loss": 0.3432,
+      "step": 5200
+    },
+    {
+      "epoch": 207.92079207920793,
+      "grad_norm": 0.6594001054763794,
+      "learning_rate": 4.585e-05,
+      "loss": 0.3417,
+      "step": 5250
+    },
+    {
+      "epoch": 209.9009900990099,
+      "grad_norm": 1.0125696659088135,
+      "learning_rate": 4.5016666666666665e-05,
+      "loss": 0.3428,
+      "step": 5300
+    },
+    {
+      "epoch": 211.88118811881188,
+      "grad_norm": 0.8519133925437927,
+      "learning_rate": 4.4183333333333334e-05,
+      "loss": 0.3424,
+      "step": 5350
+    },
+    {
+      "epoch": 213.86138613861385,
+      "grad_norm": 0.8138070106506348,
+      "learning_rate": 4.335e-05,
+      "loss": 0.3411,
+      "step": 5400
+    },
+    {
+      "epoch": 215.84158415841586,
+      "grad_norm": 1.7046844959259033,
+      "learning_rate": 4.251666666666667e-05,
+      "loss": 0.3418,
+      "step": 5450
+    },
+    {
+      "epoch": 217.82178217821783,
+      "grad_norm": 0.8346728682518005,
+      "learning_rate": 4.1683333333333335e-05,
+      "loss": 0.3439,
+      "step": 5500
+    },
+    {
+      "epoch": 217.82178217821783,
+      "eval_loss": 0.40201354026794434,
+      "eval_runtime": 7.7869,
+      "eval_samples_per_second": 23.116,
+      "eval_steps_per_second": 2.954,
+      "step": 5500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.943523141225296e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null