Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbd982b8acccd1b2d14990bc63f8c329f2341fd56be13b837d9d0673ddbcc639
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a736e732330ece0b457cbaf5c5b4351b5d3db83c02791cf60a402f193e6be32
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ba982a667b225612226666295d284a7db39c4d14a96acdf4def9ad659ee35ee
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:621173d0409fc5035f339553890479dbf13f20436f2751f19fa0d3f772c19566
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:968291a21d5bd54cba05589e1f0110365f5d188066676d4b8853115288d17bb8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:373099bcd0d3ee5ceb0d1d94a6fdc048cf24515e4576a9744fed78c8d5e543ab
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b382f91d6a62c99969921e0d8014a3b1f89a198a6a81ab888e1194bc144c13d5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:71cdf44715446c06dd4fba004a7a18790345b0ae4b9e2bcb1cb99e4155dbc62d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.39783453941345215,
-  "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s8000/checkpoint-2500",
-  "epoch": 99.00990099009901,
   "eval_steps": 500,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -397,6 +397,84 @@
       "eval_samples_per_second": 23.289,
       "eval_steps_per_second": 2.976,
       "step": 2500
     }
   ],
   "logging_steps": 50,
@@ -416,7 +494,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.701326498107371e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3978251516819,
+  "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s8000/checkpoint-3000",
+  "epoch": 118.81188118811882,
   "eval_steps": 500,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.289,
       "eval_steps_per_second": 2.976,
       "step": 2500
+    },
+    {
+      "epoch": 100.99009900990099,
+      "grad_norm": 1.1166267395019531,
+      "learning_rate": 9.085e-05,
+      "loss": 0.3824,
+      "step": 2550
+    },
+    {
+      "epoch": 102.97029702970298,
+      "grad_norm": 1.4629709720611572,
+      "learning_rate": 9.001666666666667e-05,
+      "loss": 0.3829,
+      "step": 2600
+    },
+    {
+      "epoch": 104.95049504950495,
+      "grad_norm": 2.9931211471557617,
+      "learning_rate": 8.918333333333334e-05,
+      "loss": 0.3756,
+      "step": 2650
+    },
+    {
+      "epoch": 106.93069306930693,
+      "grad_norm": 1.6760491132736206,
+      "learning_rate": 8.834999999999999e-05,
+      "loss": 0.3815,
+      "step": 2700
+    },
+    {
+      "epoch": 108.91089108910892,
+      "grad_norm": 1.8942713737487793,
+      "learning_rate": 8.751666666666668e-05,
+      "loss": 0.3773,
+      "step": 2750
+    },
+    {
+      "epoch": 110.89108910891089,
+      "grad_norm": 1.110032081604004,
+      "learning_rate": 8.668333333333334e-05,
+      "loss": 0.3747,
+      "step": 2800
+    },
+    {
+      "epoch": 112.87128712871286,
+      "grad_norm": 1.3915964365005493,
+      "learning_rate": 8.585000000000001e-05,
+      "loss": 0.3796,
+      "step": 2850
+    },
+    {
+      "epoch": 114.85148514851485,
+      "grad_norm": 2.8676748275756836,
+      "learning_rate": 8.501666666666667e-05,
+      "loss": 0.3731,
+      "step": 2900
+    },
+    {
+      "epoch": 116.83168316831683,
+      "grad_norm": 1.0008431673049927,
+      "learning_rate": 8.418333333333334e-05,
+      "loss": 0.3747,
+      "step": 2950
+    },
+    {
+      "epoch": 118.81188118811882,
+      "grad_norm": 2.071352243423462,
+      "learning_rate": 8.335e-05,
+      "loss": 0.3726,
+      "step": 3000
+    },
+    {
+      "epoch": 118.81188118811882,
+      "eval_loss": 0.3978251516819,
+      "eval_runtime": 8.1696,
+      "eval_samples_per_second": 22.033,
+      "eval_steps_per_second": 2.815,
+      "step": 3000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.2419037301352416e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null