Training in progress, step 7500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ffb8e39772cc3eedbcc25f5ce9b458d14a3f0a3a473dd8cff1f5898823ec1a8
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:61b08b427524e889a0b8d382f9115eba3798ab208df96f84d67a1110d9c104b2
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc6c03e31aa0f853402ce0829599343697da56c499480c398f89162a1e215b62
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d219537847fbd7111b0d0cd3e7da18b22435bb3ca07d6d17301098b460ef335
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2aea31e4a563fe214da83b26d48a3300cae390596cf180e66c6eb45c76a1d83f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7fdad45a86febbfbf7416cb2067a77c42d668b5b524ad36010e05bf35427b6e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99fe53e70f7d3663f3190692e038a033b96587726a76c7cd28c10e5edcb17fd7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba9826396d1061aee6fdf7293fd789e47f8a5ac9db78d8396f43ecdcae9b12a2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.40983906388282776,
   "best_model_checkpoint": "mikhail-panzo/fil_b64_le5_s8000/checkpoint-5500",
-  "epoch": 304.3478260869565,
   "eval_steps": 500,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1099,6 +1099,84 @@
       "eval_samples_per_second": 24.321,
       "eval_steps_per_second": 3.059,
       "step": 7000
     }
   ],
   "logging_steps": 50,
@@ -1118,7 +1196,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.039188053667456e+17,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.40983906388282776,
   "best_model_checkpoint": "mikhail-panzo/fil_b64_le5_s8000/checkpoint-5500",
+  "epoch": 326.0869565217391,
   "eval_steps": 500,
+  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.321,
       "eval_steps_per_second": 3.059,
       "step": 7000
+    },
+    {
+      "epoch": 306.5217391304348,
+      "grad_norm": 0.9846628308296204,
+      "learning_rate": 1.5900000000000002e-06,
+      "loss": 0.4115,
+      "step": 7050
+    },
+    {
+      "epoch": 308.69565217391306,
+      "grad_norm": 1.0331532955169678,
+      "learning_rate": 1.506666666666667e-06,
+      "loss": 0.4143,
+      "step": 7100
+    },
+    {
+      "epoch": 310.8695652173913,
+      "grad_norm": 0.9437756538391113,
+      "learning_rate": 1.4233333333333336e-06,
+      "loss": 0.4109,
+      "step": 7150
+    },
+    {
+      "epoch": 313.04347826086956,
+      "grad_norm": 1.0904934406280518,
+      "learning_rate": 1.34e-06,
+      "loss": 0.4109,
+      "step": 7200
+    },
+    {
+      "epoch": 315.2173913043478,
+      "grad_norm": 0.9227349162101746,
+      "learning_rate": 1.2566666666666668e-06,
+      "loss": 0.406,
+      "step": 7250
+    },
+    {
+      "epoch": 317.39130434782606,
+      "grad_norm": 0.991308867931366,
+      "learning_rate": 1.1733333333333335e-06,
+      "loss": 0.4161,
+      "step": 7300
+    },
+    {
+      "epoch": 319.5652173913044,
+      "grad_norm": 0.9621168375015259,
+      "learning_rate": 1.0900000000000002e-06,
+      "loss": 0.4123,
+      "step": 7350
+    },
+    {
+      "epoch": 321.7391304347826,
+      "grad_norm": 1.1078619956970215,
+      "learning_rate": 1.0066666666666668e-06,
+      "loss": 0.4109,
+      "step": 7400
+    },
+    {
+      "epoch": 323.9130434782609,
+      "grad_norm": 0.8910597562789917,
+      "learning_rate": 9.233333333333334e-07,
+      "loss": 0.4052,
+      "step": 7450
+    },
+    {
+      "epoch": 326.0869565217391,
+      "grad_norm": 0.760857880115509,
+      "learning_rate": 8.400000000000001e-07,
+      "loss": 0.4116,
+      "step": 7500
+    },
+    {
+      "epoch": 326.0869565217391,
+      "eval_loss": 0.4111355245113373,
+      "eval_runtime": 6.8924,
+      "eval_samples_per_second": 23.069,
+      "eval_steps_per_second": 2.902,
+      "step": 7500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.1135871544625309e+17,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null