Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfdb7a77d08b547c9c6992da199c063102f2b6c903aeaded67a582185a7a9a63
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:669a57ca4489f0bb6c59a5df586177029446e718eaf5f36976301e8b45ee8cff
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2648dbe15b2f12a7a27e77dc5a033f32672097c1fa4da3c801f2f4394e3a081
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:6542f5072af4b2e256a0fa8b74a638fed9b1baded6c85cb5c87f84a103b9def4
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50c476b54e3f06971186d630174c9829d4b9b06eb8eab96946ff7745f50fcfcc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d829676cdf8691bbda647d4511205df943fb386c557381ba360dda2aff5f1227
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a94e74103068a5fb8b31be8524087df4f57bd43f07d1db2b9d36084882fdbb5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:15b560a9dc43b2ed5d8c7b0910cf19c12068f6e2db4cd26fd270e940d4d1787b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.39941468834877014,
   "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s4000/checkpoint-1000",
-  "epoch": 59.40594059405941,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -241,6 +241,84 @@
       "eval_samples_per_second": 27.134,
       "eval_steps_per_second": 3.467,
       "step": 1500
     }
   ],
   "logging_steps": 50,
@@ -260,7 +338,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6206373863449352e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.39941468834877014,
   "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s4000/checkpoint-1000",
+  "epoch": 79.20792079207921,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.134,
       "eval_steps_per_second": 3.467,
       "step": 1500
+    },
+    {
+      "epoch": 61.386138613861384,
+      "grad_norm": 2.3007051944732666,
+      "learning_rate": 7.745e-05,
+      "loss": 0.4067,
+      "step": 1550
+    },
+    {
+      "epoch": 63.366336633663366,
+      "grad_norm": 0.9966986179351807,
+      "learning_rate": 7.995e-05,
+      "loss": 0.4042,
+      "step": 1600
+    },
+    {
+      "epoch": 65.34653465346534,
+      "grad_norm": 1.4066482782363892,
+      "learning_rate": 8.245e-05,
+      "loss": 0.4079,
+      "step": 1650
+    },
+    {
+      "epoch": 67.32673267326733,
+      "grad_norm": 3.3195865154266357,
+      "learning_rate": 8.495e-05,
+      "loss": 0.4061,
+      "step": 1700
+    },
+    {
+      "epoch": 69.3069306930693,
+      "grad_norm": 2.83154559135437,
+      "learning_rate": 8.745000000000001e-05,
+      "loss": 0.4028,
+      "step": 1750
+    },
+    {
+      "epoch": 71.2871287128713,
+      "grad_norm": 1.5752816200256348,
+      "learning_rate": 8.995e-05,
+      "loss": 0.3977,
+      "step": 1800
+    },
+    {
+      "epoch": 73.26732673267327,
+      "grad_norm": 1.8909986019134521,
+      "learning_rate": 9.245e-05,
+      "loss": 0.4013,
+      "step": 1850
+    },
+    {
+      "epoch": 75.24752475247524,
+      "grad_norm": 4.082262992858887,
+      "learning_rate": 9.495e-05,
+      "loss": 0.3991,
+      "step": 1900
+    },
+    {
+      "epoch": 77.22772277227723,
+      "grad_norm": 1.8281221389770508,
+      "learning_rate": 9.745000000000001e-05,
+      "loss": 0.4011,
+      "step": 1950
+    },
+    {
+      "epoch": 79.20792079207921,
+      "grad_norm": 2.2827675342559814,
+      "learning_rate": 9.995e-05,
+      "loss": 0.3981,
+      "step": 2000
+    },
+    {
+      "epoch": 79.20792079207921,
+      "eval_loss": 0.40288153290748596,
+      "eval_runtime": 7.4596,
+      "eval_samples_per_second": 24.13,
+      "eval_steps_per_second": 3.083,
+      "step": 2000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.161155031107257e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null