Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65cc40d94c31ec94c9b98763487736e129c44c2fd99d58b70a1ed20a361a1eaa
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:51f6e02c9049d9eb2741a87e15c4995bca735aa623c1eacd8c972af7d785b970
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adb391bb8e15ea2bb7244598232e46d31016900192d4dc478b9ba1a9edca860c
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b0fe8f85e6ddb45c62b62781d7c657ebd54e09d3ba4af58ee61f07f59f2d325
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:968291a21d5bd54cba05589e1f0110365f5d188066676d4b8853115288d17bb8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:373099bcd0d3ee5ceb0d1d94a6fdc048cf24515e4576a9744fed78c8d5e543ab
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a04aa548ba1997bc55fa261cc2851282a66f1a8d19fe3862e3573f33f7d76f5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f37eacb952a10eea80d10445d29e75511960fff96b96070d64acac281d799da8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.3953019976615906,
   "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s4000/checkpoint-2500",
-  "epoch": 99.00990099009901,
   "eval_steps": 500,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -397,6 +397,84 @@
       "eval_samples_per_second": 25.844,
       "eval_steps_per_second": 3.302,
       "step": 2500
     }
   ],
   "logging_steps": 50,
@@ -416,7 +494,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.701326498107371e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.3953019976615906,
   "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s4000/checkpoint-2500",
+  "epoch": 118.81188118811882,
   "eval_steps": 500,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.844,
       "eval_steps_per_second": 3.302,
       "step": 2500
+    },
+    {
+      "epoch": 100.99009900990099,
+      "grad_norm": 2.3658339977264404,
+      "learning_rate": 7.255e-05,
+      "loss": 0.3793,
+      "step": 2550
+    },
+    {
+      "epoch": 102.97029702970298,
+      "grad_norm": 1.4890061616897583,
+      "learning_rate": 7.005000000000001e-05,
+      "loss": 0.3823,
+      "step": 2600
+    },
+    {
+      "epoch": 104.95049504950495,
+      "grad_norm": 2.134577512741089,
+      "learning_rate": 6.755e-05,
+      "loss": 0.3735,
+      "step": 2650
+    },
+    {
+      "epoch": 106.93069306930693,
+      "grad_norm": 1.2545772790908813,
+      "learning_rate": 6.505e-05,
+      "loss": 0.3788,
+      "step": 2700
+    },
+    {
+      "epoch": 108.91089108910892,
+      "grad_norm": 1.011292815208435,
+      "learning_rate": 6.255e-05,
+      "loss": 0.3762,
+      "step": 2750
+    },
+    {
+      "epoch": 110.89108910891089,
+      "grad_norm": 1.4628199338912964,
+      "learning_rate": 6.005000000000001e-05,
+      "loss": 0.3742,
+      "step": 2800
+    },
+    {
+      "epoch": 112.87128712871286,
+      "grad_norm": 1.661889910697937,
+      "learning_rate": 5.755e-05,
+      "loss": 0.3778,
+      "step": 2850
+    },
+    {
+      "epoch": 114.85148514851485,
+      "grad_norm": 1.1926722526550293,
+      "learning_rate": 5.505e-05,
+      "loss": 0.3713,
+      "step": 2900
+    },
+    {
+      "epoch": 116.83168316831683,
+      "grad_norm": 0.9905158877372742,
+      "learning_rate": 5.255e-05,
+      "loss": 0.3714,
+      "step": 2950
+    },
+    {
+      "epoch": 118.81188118811882,
+      "grad_norm": 0.7342912554740906,
+      "learning_rate": 5.005e-05,
+      "loss": 0.3688,
+      "step": 3000
+    },
+    {
+      "epoch": 118.81188118811882,
+      "eval_loss": 0.39639872312545776,
+      "eval_runtime": 7.0442,
+      "eval_samples_per_second": 25.553,
+      "eval_steps_per_second": 3.265,
+      "step": 3000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.2419037301352416e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null