Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc7a6a2e6e7b62fbd609225b4ef13cc560a1bdbfacc8e4e1d9a6819fb94cf964
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ce54e79e12252bae59725175488c3040706f1f2b3d873b46e5f7b8b4f2a94b7
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08b27c615285457e7441da9c2fb2a172ce0b39f7d61bbc9a23922d06341c5ab0
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:daa35d4afe619e77f5e075540ee2f825ce0dd6443ebafffcbfc84cbf09c27f5f
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b9943bd76b37c5aac4ecb4b08c9fd6682c40531b6fe5d281bfdf022ed474fd2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eead311c135878827beadbd3c4b2cc7fba012f606f4bb99598cadd7e7cbf63b8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a1a187666ea0e44f9d015f844e1601f5b4c6844588e1b362a3c9b6a7527a74f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8210f8e2249c280ac4965b4cc059199e79e619c33beb58bb250012029c0aaadf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.41511112451553345,
-  "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s8000/checkpoint-500",
-  "epoch": 19.801980198019802,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -85,6 +85,84 @@
       "eval_samples_per_second": 24.011,
       "eval_steps_per_second": 3.068,
       "step": 500
     }
   ],
   "logging_steps": 50,
@@ -104,7 +182,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5396569205689728.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.39941468834877014,
+  "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s8000/checkpoint-1000",
+  "epoch": 39.603960396039604,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.011,
       "eval_steps_per_second": 3.068,
       "step": 500
+    },
+    {
+      "epoch": 21.782178217821784,
+      "grad_norm": 1.0462185144424438,
+      "learning_rate": 2.7450000000000003e-05,
+      "loss": 0.4465,
+      "step": 550
+    },
+    {
+      "epoch": 23.762376237623762,
+      "grad_norm": 1.103574275970459,
+      "learning_rate": 2.995e-05,
+      "loss": 0.4453,
+      "step": 600
+    },
+    {
+      "epoch": 25.742574257425744,
+      "grad_norm": 3.00575590133667,
+      "learning_rate": 3.245e-05,
+      "loss": 0.447,
+      "step": 650
+    },
+    {
+      "epoch": 27.722772277227723,
+      "grad_norm": 1.786911129951477,
+      "learning_rate": 3.495e-05,
+      "loss": 0.4351,
+      "step": 700
+    },
+    {
+      "epoch": 29.702970297029704,
+      "grad_norm": 1.236941933631897,
+      "learning_rate": 3.745e-05,
+      "loss": 0.4347,
+      "step": 750
+    },
+    {
+      "epoch": 31.683168316831683,
+      "grad_norm": 1.3743062019348145,
+      "learning_rate": 3.995e-05,
+      "loss": 0.4319,
+      "step": 800
+    },
+    {
+      "epoch": 33.663366336633665,
+      "grad_norm": 2.7615420818328857,
+      "learning_rate": 4.245e-05,
+      "loss": 0.4358,
+      "step": 850
+    },
+    {
+      "epoch": 35.64356435643565,
+      "grad_norm": 1.662369966506958,
+      "learning_rate": 4.495e-05,
+      "loss": 0.4276,
+      "step": 900
+    },
+    {
+      "epoch": 37.62376237623762,
+      "grad_norm": 1.0967382192611694,
+      "learning_rate": 4.745e-05,
+      "loss": 0.4267,
+      "step": 950
+    },
+    {
+      "epoch": 39.603960396039604,
+      "grad_norm": 2.530874252319336,
+      "learning_rate": 4.995e-05,
+      "loss": 0.4179,
+      "step": 1000
+    },
+    {
+      "epoch": 39.603960396039604,
+      "eval_loss": 0.39941468834877014,
+      "eval_runtime": 7.4617,
+      "eval_samples_per_second": 24.123,
+      "eval_steps_per_second": 3.082,
+      "step": 1000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.0803690034289064e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null