Training in progress, step 7500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a584a492538bb24e0beb0120c9e311383859fd9fcaa74b83cda8b091454f3999
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8d21651e5db2ed67f31319a652131e535151d2fbf4e6b24b3edeb923bb9d99f
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59681d4244706e73565370df5bf260b6b7fe82b1324c42724de2186ca2208b75
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9f742d32e28e8158fb337c29ed9b09546167bb83f74364f94ebdc185bff0685
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8e9e1cb9616c0992e8a53454fc42e93677bd4ae9b2b9c42178c1e894f2ad0e4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e7a2dc2fd34210e38a0dafa68768e7a8ac00e877b03b70d54a43bd027bc5930
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:507e305dfe4256b26c68fb0c82345ea0f5163e277ea888ae062da4422c6fa9ea
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cbb951fc4257a68dab12f51ae2258de85fc85dd8c8f4de0474b3e6fac987a51
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.39598318934440613,
   "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s8000/checkpoint-3500",
-  "epoch": 277.2277227722772,
   "eval_steps": 500,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1099,6 +1099,84 @@
       "eval_samples_per_second": 27.369,
       "eval_steps_per_second": 3.497,
       "step": 7000
     }
   ],
   "logging_steps": 50,
@@ -1118,7 +1196,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.563870212869475e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.39598318934440613,
   "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s8000/checkpoint-3500",
+  "epoch": 297.029702970297,
   "eval_steps": 500,
+  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.369,
       "eval_steps_per_second": 3.497,
       "step": 7000
+    },
+    {
+      "epoch": 279.2079207920792,
+      "grad_norm": 0.5922915935516357,
+      "learning_rate": 1.5850000000000002e-05,
+      "loss": 0.331,
+      "step": 7050
+    },
+    {
+      "epoch": 281.18811881188117,
+      "grad_norm": 0.49854084849357605,
+      "learning_rate": 1.5016666666666668e-05,
+      "loss": 0.3292,
+      "step": 7100
+    },
+    {
+      "epoch": 283.16831683168317,
+      "grad_norm": 0.534227192401886,
+      "learning_rate": 1.4183333333333335e-05,
+      "loss": 0.3295,
+      "step": 7150
+    },
+    {
+      "epoch": 285.1485148514852,
+      "grad_norm": 0.4879334568977356,
+      "learning_rate": 1.3350000000000001e-05,
+      "loss": 0.3295,
+      "step": 7200
+    },
+    {
+      "epoch": 287.1287128712871,
+      "grad_norm": 0.4761298596858978,
+      "learning_rate": 1.2516666666666668e-05,
+      "loss": 0.333,
+      "step": 7250
+    },
+    {
+      "epoch": 289.1089108910891,
+      "grad_norm": 0.5835270881652832,
+      "learning_rate": 1.1683333333333334e-05,
+      "loss": 0.3311,
+      "step": 7300
+    },
+    {
+      "epoch": 291.08910891089107,
+      "grad_norm": 0.5297247767448425,
+      "learning_rate": 1.0866666666666667e-05,
+      "loss": 0.333,
+      "step": 7350
+    },
+    {
+      "epoch": 293.0693069306931,
+      "grad_norm": 0.44668009877204895,
+      "learning_rate": 1.0033333333333333e-05,
+      "loss": 0.3282,
+      "step": 7400
+    },
+    {
+      "epoch": 295.0495049504951,
+      "grad_norm": 0.47231703996658325,
+      "learning_rate": 9.2e-06,
+      "loss": 0.3309,
+      "step": 7450
+    },
+    {
+      "epoch": 297.029702970297,
+      "grad_norm": 0.5559085011482239,
+      "learning_rate": 8.366666666666667e-06,
+      "loss": 0.3345,
+      "step": 7500
+    },
+    {
+      "epoch": 297.029702970297,
+      "eval_loss": 0.40512633323669434,
+      "eval_runtime": 6.9059,
+      "eval_samples_per_second": 26.065,
+      "eval_steps_per_second": 3.33,
+      "step": 7500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 8.103931252887646e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null