Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:674226647c0af0371804ab2d68e3d707974b6551b87819cd9b51eaf76d96623d
 size 1822093912

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae2eec5244c12cfc23d97a9e2c8e5f98d6a441ed54e5868a87af066796e63394
 size 1822093912

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed5cf37ce34fe8faf97f2f26392f8fe21ffa3a7dfbb31c731986c8abfcd99633
 size 651839518

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7d7c869d90bc65ff9162e260a3ad90b52db74336697ff0e09ff7df98ff31e84
 size 651839518

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:421f99707ecd0d99d7fb40197f028ceb02c2ffdc30698df74ad0b16e6900f2cf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:23cb5c1762800647eb12638185cb6ac240d9d76953826c534f216d71fcd80242
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f59a103009f3230e51c40288ef6a33247523fa398934878b1e22a81660cbade8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d1650f5062195d8ee65b24ab00a137ab48cccbff41f41ba060d4208547a763c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.8,
   "eval_steps": 500,
-  "global_step": 225,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1357,13 +1357,163 @@
       "learning_rate": 0.0002,
       "loss": 0.4529,
       "step": 225
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 2,
   "save_steps": 25,
-  "total_flos": 2.907887080911667e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 0.4529,
       "step": 225
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0002,
+      "loss": 0.4786,
+      "step": 226
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0002,
+      "loss": 0.4656,
+      "step": 227
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0002,
+      "loss": 0.4418,
+      "step": 228
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0002,
+      "loss": 0.4452,
+      "step": 229
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0002,
+      "loss": 0.4603,
+      "step": 230
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0002,
+      "loss": 0.4569,
+      "step": 231
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0002,
+      "loss": 0.4226,
+      "step": 232
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0002,
+      "loss": 0.402,
+      "step": 233
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.0002,
+      "loss": 0.4336,
+      "step": 234
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0002,
+      "loss": 0.4489,
+      "step": 235
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0002,
+      "loss": 0.4135,
+      "step": 236
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0002,
+      "loss": 0.411,
+      "step": 237
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0002,
+      "loss": 0.3589,
+      "step": 238
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0002,
+      "loss": 0.3683,
+      "step": 239
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0002,
+      "loss": 0.3443,
+      "step": 240
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0002,
+      "loss": 0.3332,
+      "step": 241
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0002,
+      "loss": 0.3668,
+      "step": 242
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0002,
+      "loss": 0.3168,
+      "step": 243
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0002,
+      "loss": 0.3434,
+      "step": 244
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0002,
+      "loss": 0.303,
+      "step": 245
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0002,
+      "loss": 0.2891,
+      "step": 246
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0002,
+      "loss": 0.3218,
+      "step": 247
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0002,
+      "loss": 0.3089,
+      "step": 248
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0002,
+      "loss": 0.3189,
+      "step": 249
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0002,
+      "loss": 0.4472,
+      "step": 250
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 2,
   "save_steps": 25,
+  "total_flos": 3.210168125010739e+16,
   "trial_name": null,
   "trial_params": null
 }