Training in progress, step 2500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:669a57ca4489f0bb6c59a5df586177029446e718eaf5f36976301e8b45ee8cff
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:65cc40d94c31ec94c9b98763487736e129c44c2fd99d58b70a1ed20a361a1eaa
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6542f5072af4b2e256a0fa8b74a638fed9b1baded6c85cb5c87f84a103b9def4
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:adb391bb8e15ea2bb7244598232e46d31016900192d4dc478b9ba1a9edca860c
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d829676cdf8691bbda647d4511205df943fb386c557381ba360dda2aff5f1227
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:968291a21d5bd54cba05589e1f0110365f5d188066676d4b8853115288d17bb8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15b560a9dc43b2ed5d8c7b0910cf19c12068f6e2db4cd26fd270e940d4d1787b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a04aa548ba1997bc55fa261cc2851282a66f1a8d19fe3862e3573f33f7d76f5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.39941468834877014,
-  "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s4000/checkpoint-1000",
-  "epoch": 79.20792079207921,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -319,6 +319,84 @@
       "eval_samples_per_second": 24.13,
       "eval_steps_per_second": 3.083,
       "step": 2000
     }
   ],
   "logging_steps": 50,
@@ -338,7 +416,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.161155031107257e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3953019976615906,
+  "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s4000/checkpoint-2500",
+  "epoch": 99.00990099009901,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.13,
       "eval_steps_per_second": 3.083,
       "step": 2000
+    },
+    {
+      "epoch": 81.18811881188118,
+      "grad_norm": 2.13647723197937,
+      "learning_rate": 9.755000000000001e-05,
+      "loss": 0.3994,
+      "step": 2050
+    },
+    {
+      "epoch": 83.16831683168317,
+      "grad_norm": 1.8043389320373535,
+      "learning_rate": 9.505e-05,
+      "loss": 0.3982,
+      "step": 2100
+    },
+    {
+      "epoch": 85.14851485148515,
+      "grad_norm": 1.0940660238265991,
+      "learning_rate": 9.255e-05,
+      "loss": 0.3926,
+      "step": 2150
+    },
+    {
+      "epoch": 87.12871287128714,
+      "grad_norm": 2.0112838745117188,
+      "learning_rate": 9.005000000000001e-05,
+      "loss": 0.3822,
+      "step": 2200
+    },
+    {
+      "epoch": 89.10891089108911,
+      "grad_norm": 1.5353419780731201,
+      "learning_rate": 8.755e-05,
+      "loss": 0.3857,
+      "step": 2250
+    },
+    {
+      "epoch": 91.08910891089108,
+      "grad_norm": 2.0039117336273193,
+      "learning_rate": 8.505000000000001e-05,
+      "loss": 0.3887,
+      "step": 2300
+    },
+    {
+      "epoch": 93.06930693069307,
+      "grad_norm": 1.2098206281661987,
+      "learning_rate": 8.255e-05,
+      "loss": 0.3874,
+      "step": 2350
+    },
+    {
+      "epoch": 95.04950495049505,
+      "grad_norm": 0.9372404217720032,
+      "learning_rate": 8.005000000000001e-05,
+      "loss": 0.3816,
+      "step": 2400
+    },
+    {
+      "epoch": 97.02970297029702,
+      "grad_norm": 0.9278631806373596,
+      "learning_rate": 7.755e-05,
+      "loss": 0.3797,
+      "step": 2450
+    },
+    {
+      "epoch": 99.00990099009901,
+      "grad_norm": 1.0212403535842896,
+      "learning_rate": 7.505e-05,
+      "loss": 0.384,
+      "step": 2500
+    },
+    {
+      "epoch": 99.00990099009901,
+      "eval_loss": 0.3953019976615906,
+      "eval_runtime": 6.9648,
+      "eval_samples_per_second": 25.844,
+      "eval_steps_per_second": 3.302,
+      "step": 2500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.701326498107371e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null