Training in progress, step 7000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd6982ff60e76681cdea96533f303047c7f9b43cd64cfdb19cf0a9f1d94ff80e
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:b33eb734ff3c6509d7cf8201446914cc165199f2b27d28f8526dd06f36c4c3a3
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1316bfa6dd7cc4e4916a4fe92782056a65d891c7aa55ec7fda87d7140ddb5690
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:1be8b22777ae310af2ce894c83ae3165caa437666efbe62ef81d813a59a34364
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc4bf9efeacd197a3755be03d6b9b32a091466296d5d750906cf5632d21aec65
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a59b056016e351429f719aaf02cc6fa4544a2d92d2a3d69beeeb56674b12a1f2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:935e716e26427b50d58301a89c5ac51882cf7f1f1087c9e92a9aedc9583a88dd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:79faef7859961c2a638e4312a796703fd0c86e5877b740a2ce8b47db225af025
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.36852771043777466,
-  "best_model_checkpoint": "mikhail-panzo/zlm_b128_le5_s8000/checkpoint-6500",
-  "epoch": 10.890052356020943,
   "eval_steps": 500,
-  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1021,6 +1021,84 @@
       "eval_samples_per_second": 33.265,
       "eval_steps_per_second": 4.162,
       "step": 6500
     }
   ],
   "logging_steps": 50,
@@ -1040,7 +1118,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1645139306201984e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3675082325935364,
+  "best_model_checkpoint": "mikhail-panzo/zlm_b128_le5_s8000/checkpoint-7000",
+  "epoch": 11.727748691099476,
   "eval_steps": 500,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 33.265,
       "eval_steps_per_second": 4.162,
       "step": 6500
+    },
+    {
+      "epoch": 10.973821989528796,
+      "grad_norm": 1.0459740161895752,
+      "learning_rate": 2.421666666666667e-06,
+      "loss": 0.4074,
+      "step": 6550
+    },
+    {
+      "epoch": 11.057591623036648,
+      "grad_norm": 0.9029247760772705,
+      "learning_rate": 2.3383333333333335e-06,
+      "loss": 0.4075,
+      "step": 6600
+    },
+    {
+      "epoch": 11.141361256544503,
+      "grad_norm": 1.5372889041900635,
+      "learning_rate": 2.2550000000000004e-06,
+      "loss": 0.4088,
+      "step": 6650
+    },
+    {
+      "epoch": 11.225130890052355,
+      "grad_norm": 0.9959379434585571,
+      "learning_rate": 2.171666666666667e-06,
+      "loss": 0.4044,
+      "step": 6700
+    },
+    {
+      "epoch": 11.30890052356021,
+      "grad_norm": 1.3793728351593018,
+      "learning_rate": 2.088333333333334e-06,
+      "loss": 0.4034,
+      "step": 6750
+    },
+    {
+      "epoch": 11.392670157068062,
+      "grad_norm": 1.2086491584777832,
+      "learning_rate": 2.0050000000000003e-06,
+      "loss": 0.4073,
+      "step": 6800
+    },
+    {
+      "epoch": 11.476439790575917,
+      "grad_norm": 1.07647705078125,
+      "learning_rate": 1.9216666666666668e-06,
+      "loss": 0.405,
+      "step": 6850
+    },
+    {
+      "epoch": 11.56020942408377,
+      "grad_norm": 0.9849846363067627,
+      "learning_rate": 1.8383333333333334e-06,
+      "loss": 0.4037,
+      "step": 6900
+    },
+    {
+      "epoch": 11.643979057591624,
+      "grad_norm": 1.2623456716537476,
+      "learning_rate": 1.7550000000000001e-06,
+      "loss": 0.4042,
+      "step": 6950
+    },
+    {
+      "epoch": 11.727748691099476,
+      "grad_norm": 0.9488279819488525,
+      "learning_rate": 1.6716666666666666e-06,
+      "loss": 0.4069,
+      "step": 7000
+    },
+    {
+      "epoch": 11.727748691099476,
+      "eval_loss": 0.3675082325935364,
+      "eval_runtime": 257.7947,
+      "eval_samples_per_second": 32.929,
+      "eval_steps_per_second": 4.12,
+      "step": 7000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.2541009593096864e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null