Training in progress, step 5500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f669e1edaf809ee0b127b9819fd1f231d281115cbf44cb10938e4e60a2d53f62
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fb3c1f0ffd677dd1e18b0a0cd845e96b87f7fdf03c822cec02fa8667483f911
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:943f2614f294b9345e99d0909b80fc9febf29a6705251ef48ff3aef917e58d2e
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f254b61c4507b59e81032985a4cb0722628542ccd373ac84e92ea094ff02541
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab3632b412639e7ce8b5588ff8a7239c0f85ee0022719040327317447154761e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:efed929dee4a1aac0c5831e57885f78fe28ba54e8eb45766e963ce584357222a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51ae9e871201b5140a75803631a3b447a66295ef984c1c9cd1719a8febdf7390
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f4ebc94f219234dc117648ea36b52869f5ad7c506a78e36de2ec35324b116e9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.41126948595046997,
-  "best_model_checkpoint": "mikhail-panzo/fil_b64_le5_s8000/checkpoint-5000",
-  "epoch": 217.3913043478261,
   "eval_steps": 500,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -787,6 +787,84 @@
       "eval_samples_per_second": 23.453,
       "eval_steps_per_second": 2.95,
       "step": 5000
     }
   ],
   "logging_steps": 50,
@@ -806,7 +884,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.422809573607754e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.40983906388282776,
+  "best_model_checkpoint": "mikhail-panzo/fil_b64_le5_s8000/checkpoint-5500",
+  "epoch": 239.1304347826087,
   "eval_steps": 500,
+  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.453,
       "eval_steps_per_second": 2.95,
       "step": 5000
+    },
+    {
+      "epoch": 219.56521739130434,
+      "grad_norm": 1.438590168952942,
+      "learning_rate": 4.921666666666666e-06,
+      "loss": 0.4114,
+      "step": 5050
+    },
+    {
+      "epoch": 221.7391304347826,
+      "grad_norm": 0.9894844889640808,
+      "learning_rate": 4.838333333333334e-06,
+      "loss": 0.413,
+      "step": 5100
+    },
+    {
+      "epoch": 223.91304347826087,
+      "grad_norm": 0.9712705612182617,
+      "learning_rate": 4.755e-06,
+      "loss": 0.4108,
+      "step": 5150
+    },
+    {
+      "epoch": 226.08695652173913,
+      "grad_norm": 0.9972001314163208,
+      "learning_rate": 4.671666666666667e-06,
+      "loss": 0.4173,
+      "step": 5200
+    },
+    {
+      "epoch": 228.2608695652174,
+      "grad_norm": 0.9916852116584778,
+      "learning_rate": 4.588333333333333e-06,
+      "loss": 0.426,
+      "step": 5250
+    },
+    {
+      "epoch": 230.43478260869566,
+      "grad_norm": 3.0285840034484863,
+      "learning_rate": 4.505e-06,
+      "loss": 0.4211,
+      "step": 5300
+    },
+    {
+      "epoch": 232.6086956521739,
+      "grad_norm": 0.8678073883056641,
+      "learning_rate": 4.421666666666667e-06,
+      "loss": 0.4165,
+      "step": 5350
+    },
+    {
+      "epoch": 234.7826086956522,
+      "grad_norm": 1.2311697006225586,
+      "learning_rate": 4.338333333333334e-06,
+      "loss": 0.4192,
+      "step": 5400
+    },
+    {
+      "epoch": 236.95652173913044,
+      "grad_norm": 1.1257262229919434,
+      "learning_rate": 4.255e-06,
+      "loss": 0.431,
+      "step": 5450
+    },
+    {
+      "epoch": 239.1304347826087,
+      "grad_norm": 0.9861388206481934,
+      "learning_rate": 4.171666666666667e-06,
+      "loss": 0.4104,
+      "step": 5500
+    },
+    {
+      "epoch": 239.1304347826087,
+      "eval_loss": 0.40983906388282776,
+      "eval_runtime": 6.76,
+      "eval_samples_per_second": 23.521,
+      "eval_steps_per_second": 2.959,
+      "step": 5500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 8.163798006962506e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null