Training in progress, step 7500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85d1a74bc5af66a461de0e178b62837c786f8cd06a64ffab26b7afea5c9b1805
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:f44041984529e3d1651d11cbed261b1dfcacb7ffef17a414df0f52a4da9bbbc0
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b8678575d864971a9e9382f17f7db4b6da1942e3c20bc746499b77b7c03619b
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:c76696460c5035e7be36105fcf57d1518b8088f7b053cf7bc3cee0f14a560b6f
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a353205a9e946b0d6bfafe9222097967c1d01fdf78572f24cfac13c67c821a4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c47459c0e2dffaed00a8dda72fc27b999da170e8df9b15995d74bf1989ecab4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79faef7859961c2a638e4312a796703fd0c86e5877b740a2ce8b47db225af025
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c124d5873e6dde5040a6a31973ca68127e3dfe277695e3cb113af8a1a01ff662
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.39249518513679504,
   "best_model_checkpoint": "mikhail-panzo/ceb_b64_le5_s8000/checkpoint-6000",
-  "epoch": 274.5098039215686,
   "eval_steps": 500,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1099,6 +1099,84 @@
       "eval_samples_per_second": 28.394,
       "eval_steps_per_second": 3.628,
       "step": 7000
     }
   ],
   "logging_steps": 50,
@@ -1118,7 +1196,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.61630362878591e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.39249518513679504,
   "best_model_checkpoint": "mikhail-panzo/ceb_b64_le5_s8000/checkpoint-6000",
+  "epoch": 294.11764705882354,
   "eval_steps": 500,
+  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 28.394,
       "eval_steps_per_second": 3.628,
       "step": 7000
+    },
+    {
+      "epoch": 276.47058823529414,
+      "grad_norm": 0.9707151651382446,
+      "learning_rate": 1.5883333333333333e-06,
+      "loss": 0.4001,
+      "step": 7050
+    },
+    {
+      "epoch": 278.4313725490196,
+      "grad_norm": 0.7843708395957947,
+      "learning_rate": 1.505e-06,
+      "loss": 0.3942,
+      "step": 7100
+    },
+    {
+      "epoch": 280.3921568627451,
+      "grad_norm": 0.900497555732727,
+      "learning_rate": 1.4216666666666667e-06,
+      "loss": 0.3981,
+      "step": 7150
+    },
+    {
+      "epoch": 282.3529411764706,
+      "grad_norm": 0.7594972848892212,
+      "learning_rate": 1.3383333333333334e-06,
+      "loss": 0.3961,
+      "step": 7200
+    },
+    {
+      "epoch": 284.3137254901961,
+      "grad_norm": 0.7281601428985596,
+      "learning_rate": 1.255e-06,
+      "loss": 0.394,
+      "step": 7250
+    },
+    {
+      "epoch": 286.27450980392155,
+      "grad_norm": 0.7863117456436157,
+      "learning_rate": 1.1716666666666667e-06,
+      "loss": 0.3899,
+      "step": 7300
+    },
+    {
+      "epoch": 288.2352941176471,
+      "grad_norm": 0.7224944233894348,
+      "learning_rate": 1.0883333333333334e-06,
+      "loss": 0.3993,
+      "step": 7350
+    },
+    {
+      "epoch": 290.19607843137254,
+      "grad_norm": 0.7235053181648254,
+      "learning_rate": 1.0050000000000001e-06,
+      "loss": 0.3928,
+      "step": 7400
+    },
+    {
+      "epoch": 292.15686274509807,
+      "grad_norm": 0.7260425686836243,
+      "learning_rate": 9.216666666666667e-07,
+      "loss": 0.3904,
+      "step": 7450
+    },
+    {
+      "epoch": 294.11764705882354,
+      "grad_norm": 0.7799311876296997,
+      "learning_rate": 8.383333333333334e-07,
+      "loss": 0.3955,
+      "step": 7500
+    },
+    {
+      "epoch": 294.11764705882354,
+      "eval_loss": 0.3945452570915222,
+      "eval_runtime": 6.6937,
+      "eval_samples_per_second": 26.891,
+      "eval_steps_per_second": 3.436,
+      "step": 7500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 8.159614773058426e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null