Training in progress, step 7000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c29a21f15225581fbb70a7d721f8157ec0c65b1f2548f53bcd908f348e9b6ec
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ffb8e39772cc3eedbcc25f5ce9b458d14a3f0a3a473dd8cff1f5898823ec1a8
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d61955690a0b31f077effc736b8ee15682b32c1efbd678ac49286e5a9a9b91b
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc6c03e31aa0f853402ce0829599343697da56c499480c398f89162a1e215b62
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ef9fc3da0d0a80b7fc1708d427165ee696af2ea29d5ff732e5ecb806ccbe22e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2aea31e4a563fe214da83b26d48a3300cae390596cf180e66c6eb45c76a1d83f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:935e716e26427b50d58301a89c5ac51882cf7f1f1087c9e92a9aedc9583a88dd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:99fe53e70f7d3663f3190692e038a033b96587726a76c7cd28c10e5edcb17fd7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.40983906388282776,
   "best_model_checkpoint": "mikhail-panzo/fil_b64_le5_s8000/checkpoint-5500",
-  "epoch": 282.60869565217394,
   "eval_steps": 500,
-  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1021,6 +1021,84 @@
       "eval_samples_per_second": 24.136,
       "eval_steps_per_second": 3.036,
       "step": 6500
     }
   ],
   "logging_steps": 50,
@@ -1040,7 +1118,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.648731372068483e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.40983906388282776,
   "best_model_checkpoint": "mikhail-panzo/fil_b64_le5_s8000/checkpoint-5500",
+  "epoch": 304.3478260869565,
   "eval_steps": 500,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.136,
       "eval_steps_per_second": 3.036,
       "step": 6500
+    },
+    {
+      "epoch": 284.7826086956522,
+      "grad_norm": 1.1955006122589111,
+      "learning_rate": 2.421666666666667e-06,
+      "loss": 0.4065,
+      "step": 6550
+    },
+    {
+      "epoch": 286.95652173913044,
+      "grad_norm": 1.8908520936965942,
+      "learning_rate": 2.3383333333333335e-06,
+      "loss": 0.4162,
+      "step": 6600
+    },
+    {
+      "epoch": 289.1304347826087,
+      "grad_norm": 1.1614066362380981,
+      "learning_rate": 2.2550000000000004e-06,
+      "loss": 0.4099,
+      "step": 6650
+    },
+    {
+      "epoch": 291.30434782608694,
+      "grad_norm": 0.8983772993087769,
+      "learning_rate": 2.171666666666667e-06,
+      "loss": 0.4121,
+      "step": 6700
+    },
+    {
+      "epoch": 293.4782608695652,
+      "grad_norm": 1.2100547552108765,
+      "learning_rate": 2.088333333333334e-06,
+      "loss": 0.4041,
+      "step": 6750
+    },
+    {
+      "epoch": 295.6521739130435,
+      "grad_norm": 1.1354186534881592,
+      "learning_rate": 2.006666666666667e-06,
+      "loss": 0.4127,
+      "step": 6800
+    },
+    {
+      "epoch": 297.82608695652175,
+      "grad_norm": 1.1679037809371948,
+      "learning_rate": 1.9233333333333333e-06,
+      "loss": 0.4068,
+      "step": 6850
+    },
+    {
+      "epoch": 300.0,
+      "grad_norm": 1.502341389656067,
+      "learning_rate": 1.8400000000000002e-06,
+      "loss": 0.4147,
+      "step": 6900
+    },
+    {
+      "epoch": 302.17391304347825,
+      "grad_norm": 0.9498834013938904,
+      "learning_rate": 1.7566666666666669e-06,
+      "loss": 0.4056,
+      "step": 6950
+    },
+    {
+      "epoch": 304.3478260869565,
+      "grad_norm": 0.8643518686294556,
+      "learning_rate": 1.6733333333333335e-06,
+      "loss": 0.4146,
+      "step": 7000
+    },
+    {
+      "epoch": 304.3478260869565,
+      "eval_loss": 0.41151124238967896,
+      "eval_runtime": 6.5375,
+      "eval_samples_per_second": 24.321,
+      "eval_steps_per_second": 3.059,
+      "step": 7000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.039188053667456e+17,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null