Training in progress, step 7000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7a9ff8c6f099453e24c907ca48e18d629eeebd26b25e5d67dd78c92f08d9ec7
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:cce8730ec7977cf6faded9c8a64710dd40c64e82312111fdae82ba0e37b6fe02
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7dbfca172321951aa3408c63e50180be9688454b3122fc35e2e279441fcd5a2
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d0bacbf128b4eb958fabc358356f531f65f6bd424a2a9be5add80fa30ab7cff
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc4bf9efeacd197a3755be03d6b9b32a091466296d5d750906cf5632d21aec65
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a59b056016e351429f719aaf02cc6fa4544a2d92d2a3d69beeeb56674b12a1f2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9050220365c3d4317bfb9eee77e3abcc137e10ebf0d1b1a7e4370a6b88a28327
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a48d9034d2ce2771f0a840f8364e39645d6f213d3858f7f5342b741dc49975d2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.31707289814949036,
-  "best_model_checkpoint": "mikhail_panzo/zlm_b128_le4_s8000/checkpoint-6500",
-  "epoch": 10.890052356020943,
   "eval_steps": 500,
-  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1021,6 +1021,84 @@
       "eval_samples_per_second": 30.845,
       "eval_steps_per_second": 3.859,
       "step": 6500
     }
   ],
   "logging_steps": 50,
@@ -1040,7 +1118,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1645139306201984e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.31611359119415283,
+  "best_model_checkpoint": "mikhail_panzo/zlm_b128_le4_s8000/checkpoint-7000",
+  "epoch": 11.727748691099476,
   "eval_steps": 500,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 30.845,
       "eval_steps_per_second": 3.859,
       "step": 6500
+    },
+    {
+      "epoch": 10.973821989528796,
+      "grad_norm": 1.1960996389389038,
+      "learning_rate": 2.4200000000000002e-05,
+      "loss": 0.3478,
+      "step": 6550
+    },
+    {
+      "epoch": 11.057591623036648,
+      "grad_norm": 0.97001713514328,
+      "learning_rate": 2.3366666666666668e-05,
+      "loss": 0.3475,
+      "step": 6600
+    },
+    {
+      "epoch": 11.141361256544503,
+      "grad_norm": 1.1384519338607788,
+      "learning_rate": 2.2533333333333333e-05,
+      "loss": 0.3484,
+      "step": 6650
+    },
+    {
+      "epoch": 11.225130890052355,
+      "grad_norm": 0.9649496078491211,
+      "learning_rate": 2.1700000000000002e-05,
+      "loss": 0.3454,
+      "step": 6700
+    },
+    {
+      "epoch": 11.30890052356021,
+      "grad_norm": 1.0407809019088745,
+      "learning_rate": 2.0866666666666668e-05,
+      "loss": 0.3446,
+      "step": 6750
+    },
+    {
+      "epoch": 11.392670157068062,
+      "grad_norm": 1.087108850479126,
+      "learning_rate": 2.0033333333333334e-05,
+      "loss": 0.3475,
+      "step": 6800
+    },
+    {
+      "epoch": 11.476439790575917,
+      "grad_norm": 0.8870049715042114,
+      "learning_rate": 1.9200000000000003e-05,
+      "loss": 0.3454,
+      "step": 6850
+    },
+    {
+      "epoch": 11.56020942408377,
+      "grad_norm": 1.0377373695373535,
+      "learning_rate": 1.8366666666666668e-05,
+      "loss": 0.3447,
+      "step": 6900
+    },
+    {
+      "epoch": 11.643979057591624,
+      "grad_norm": 1.138604760169983,
+      "learning_rate": 1.7533333333333334e-05,
+      "loss": 0.345,
+      "step": 6950
+    },
+    {
+      "epoch": 11.727748691099476,
+      "grad_norm": 1.6464053392410278,
+      "learning_rate": 1.6700000000000003e-05,
+      "loss": 0.3465,
+      "step": 7000
+    },
+    {
+      "epoch": 11.727748691099476,
+      "eval_loss": 0.31611359119415283,
+      "eval_runtime": 271.5426,
+      "eval_samples_per_second": 31.262,
+      "eval_steps_per_second": 3.911,
+      "step": 7000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.2541009593096864e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null