Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:300f56276c3a514bf70708a8fd2a15832cdabfd79a34db15e9375bb759f82046
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:abff6a3b395393232e5710d40106174e0677d0142a41784b9fb51f8489bb77ef
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7adadd55e13dda5b5576304be9f9d25d602232c8b7836ae1ebdd457cae1775c
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:9713c93771d1f6a6b574d01f234f860c1f651482faa1aaf4ab1ff6ee0fc8fbca
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a3754df990451ebe614fe25d701ee5b8ab09c1371a95284818d97437c907ed9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:17cf673186ae01f2692ea8b747e0fc3505fbc3d1d22ec482b81a3eae6d5672a0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a418aa2b52ddc8a5687aa016f6f0ba04d28b8859e9c0e71842a07e583777921
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2599834a5bb25566393aaf9a393926be754987442fa6dd0ec6e936958ebe0844
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.521294116973877,
-  "best_model_checkpoint": "mikhail-panzo/fil_b64_le5_s8000/checkpoint-500",
-  "epoch": 21.73913043478261,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -85,6 +85,84 @@
       "eval_samples_per_second": 23.927,
       "eval_steps_per_second": 3.01,
       "step": 500
     }
   ],
   "logging_steps": 50,
@@ -104,7 +182,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7441489834919712.0,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4506620466709137,
+  "best_model_checkpoint": "mikhail-panzo/fil_b64_le5_s8000/checkpoint-1000",
+  "epoch": 43.47826086956522,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.927,
       "eval_steps_per_second": 3.01,
       "step": 500
+    },
+    {
+      "epoch": 23.91304347826087,
+      "grad_norm": 1.9992552995681763,
+      "learning_rate": 2.7400000000000004e-06,
+      "loss": 0.5759,
+      "step": 550
+    },
+    {
+      "epoch": 26.08695652173913,
+      "grad_norm": 1.2594470977783203,
+      "learning_rate": 2.99e-06,
+      "loss": 0.56,
+      "step": 600
+    },
+    {
+      "epoch": 28.26086956521739,
+      "grad_norm": 1.0602363348007202,
+      "learning_rate": 3.2400000000000003e-06,
+      "loss": 0.5709,
+      "step": 650
+    },
+    {
+      "epoch": 30.434782608695652,
+      "grad_norm": 1.116231083869934,
+      "learning_rate": 3.49e-06,
+      "loss": 0.5322,
+      "step": 700
+    },
+    {
+      "epoch": 32.608695652173914,
+      "grad_norm": 1.5203620195388794,
+      "learning_rate": 3.74e-06,
+      "loss": 0.5264,
+      "step": 750
+    },
+    {
+      "epoch": 34.78260869565217,
+      "grad_norm": 1.6139357089996338,
+      "learning_rate": 3.990000000000001e-06,
+      "loss": 0.5191,
+      "step": 800
+    },
+    {
+      "epoch": 36.95652173913044,
+      "grad_norm": 1.436273217201233,
+      "learning_rate": 4.24e-06,
+      "loss": 0.5272,
+      "step": 850
+    },
+    {
+      "epoch": 39.130434782608695,
+      "grad_norm": 1.757323145866394,
+      "learning_rate": 4.49e-06,
+      "loss": 0.5016,
+      "step": 900
+    },
+    {
+      "epoch": 41.30434782608695,
+      "grad_norm": 0.9879368543624878,
+      "learning_rate": 4.74e-06,
+      "loss": 0.4975,
+      "step": 950
+    },
+    {
+      "epoch": 43.47826086956522,
+      "grad_norm": 1.3402222394943237,
+      "learning_rate": 4.9900000000000005e-06,
+      "loss": 0.5126,
+      "step": 1000
+    },
+    {
+      "epoch": 43.47826086956522,
+      "eval_loss": 0.4506620466709137,
+      "eval_runtime": 6.4644,
+      "eval_samples_per_second": 24.596,
+      "eval_steps_per_second": 3.094,
+      "step": 1000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.484313588256752e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null