Training in progress, step 225, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a53e67f900d6f4e2bbd3b35b2f81421df59c5d763fcedb22c671941b2b5c9e5
 size 536906096

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c78534400a8b1c3581b037edd215980d243e75564ee8c4dab60c5e0b53ebd30
 size 536906096

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8755246a4ea026b83dd138f2d34b63b1e024ea178cbd41ff82d4f069a99c1642
 size 269267284

 version https://git-lfs.github.com/spec/v1
+oid sha256:32d3d33718eff1a679f0a84edb0fd03bba3b66aa951fd597d58d8897db54c356
 size 269267284

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb19b4241f3fa973ce278cd7e299bf5c1382f2c8baefb52b4a8b59ee6a38edb4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3727d398dfb2cbe7ff900b8e204a6b14ee39eccffb766cfcfe7798fdd0682e50
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:859ff0676471245c9481ca25d6d6778d1c7963c39b7877af46bb8ca30a9ead21
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f59a103009f3230e51c40288ef6a33247523fa398934878b1e22a81660cbade8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8,
   "eval_steps": 500,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1207,13 +1207,163 @@
       "learning_rate": 0.0002,
       "loss": 0.3175,
       "step": 200
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 1,
   "save_steps": 25,
-  "total_flos": 1.553804770000896e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9,
   "eval_steps": 500,
+  "global_step": 225,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 0.3175,
       "step": 200
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0002,
+      "loss": 0.5803,
+      "step": 201
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0002,
+      "loss": 0.4885,
+      "step": 202
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0002,
+      "loss": 0.5339,
+      "step": 203
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0002,
+      "loss": 0.5641,
+      "step": 204
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0002,
+      "loss": 0.5516,
+      "step": 205
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0002,
+      "loss": 0.4112,
+      "step": 206
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0002,
+      "loss": 0.4119,
+      "step": 207
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0002,
+      "loss": 0.4461,
+      "step": 208
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0002,
+      "loss": 0.4085,
+      "step": 209
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0002,
+      "loss": 0.4434,
+      "step": 210
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0002,
+      "loss": 0.4333,
+      "step": 211
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0002,
+      "loss": 0.4078,
+      "step": 212
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0002,
+      "loss": 0.445,
+      "step": 213
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0002,
+      "loss": 0.4662,
+      "step": 214
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0002,
+      "loss": 0.4194,
+      "step": 215
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0002,
+      "loss": 0.4517,
+      "step": 216
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0002,
+      "loss": 0.4191,
+      "step": 217
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0002,
+      "loss": 0.4019,
+      "step": 218
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0002,
+      "loss": 0.4391,
+      "step": 219
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0002,
+      "loss": 0.4271,
+      "step": 220
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0002,
+      "loss": 0.4275,
+      "step": 221
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0002,
+      "loss": 0.3938,
+      "step": 222
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0002,
+      "loss": 0.4537,
+      "step": 223
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002,
+      "loss": 0.4199,
+      "step": 224
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002,
+      "loss": 0.4072,
+      "step": 225
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 1,
   "save_steps": 25,
+  "total_flos": 1.768010525835264e+16,
   "trial_name": null,
   "trial_params": null
 }