Training in progress, step 126, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +60 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff8ab265d07c6eecf718607b5120d82a9dd48aa873031f384d6025f0af085749
 size 191968

 version https://git-lfs.github.com/spec/v1
+oid sha256:e861928e1b2ca38a4a6746866d7d8f7b7ca001e137c5b880cdc7ca389cae56a0
 size 191968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6309403c2680202e09f8fd0c2a08f99dfe3acbfe19d3d0778c0665f7f005aed6
 size 253144

 version https://git-lfs.github.com/spec/v1
+oid sha256:d926fce7eee99bf36a4de34f618c75332ae83e4fbcc18a94351c99ca4b7722e1
 size 253144

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5b1aae0830d1010a88ca597c0f1ed03901b00f32510cacc8649169e36f65fbe
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5043a9d527c42b332561475083f4469c87b7663281bbf8ae1e7c09b5adbc61a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ecf5d3685ba2ba738f94f0ff54d87b59bd9a5e0c4c32dcfd75219f10311d69a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9350fe25e75c3aec8e0f08fabcc3ea69e0fa51f62eea810c9a733906e4363f8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2719033232628398,
   "eval_steps": 21,
-  "global_step": 105,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -300,6 +300,63 @@
       "eval_samples_per_second": 515.557,
       "eval_steps_per_second": 66.286,
       "step": 105
     }
   ],
   "logging_steps": 3,
@@ -319,7 +376,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 11712819363840.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.525679758308157,
   "eval_steps": 21,
+  "global_step": 126,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 515.557,
       "eval_steps_per_second": 66.286,
       "step": 105
+    },
+    {
+      "epoch": 1.308157099697885,
+      "grad_norm": 0.21600359678268433,
+      "learning_rate": 6.394324377647028e-05,
+      "loss": 10.1603,
+      "step": 108
+    },
+    {
+      "epoch": 1.3444108761329305,
+      "grad_norm": 0.24075965583324432,
+      "learning_rate": 6.203940082845144e-05,
+      "loss": 10.0864,
+      "step": 111
+    },
+    {
+      "epoch": 1.3806646525679758,
+      "grad_norm": 0.25287488102912903,
+      "learning_rate": 6.011683834586473e-05,
+      "loss": 10.6661,
+      "step": 114
+    },
+    {
+      "epoch": 1.4169184290030212,
+      "grad_norm": 0.2387695461511612,
+      "learning_rate": 5.8178545636514145e-05,
+      "loss": 9.6976,
+      "step": 117
+    },
+    {
+      "epoch": 1.4531722054380665,
+      "grad_norm": 0.21192365884780884,
+      "learning_rate": 5.622753646644102e-05,
+      "loss": 10.451,
+      "step": 120
+    },
+    {
+      "epoch": 1.4894259818731117,
+      "grad_norm": 0.18546977639198303,
+      "learning_rate": 5.426684437395196e-05,
+      "loss": 10.2875,
+      "step": 123
+    },
+    {
+      "epoch": 1.525679758308157,
+      "grad_norm": 0.2497938573360443,
+      "learning_rate": 5.229951795290353e-05,
+      "loss": 10.3627,
+      "step": 126
+    },
+    {
+      "epoch": 1.525679758308157,
+      "eval_loss": 10.205331802368164,
+      "eval_runtime": 0.2653,
+      "eval_samples_per_second": 527.718,
+      "eval_steps_per_second": 67.849,
+      "step": 126
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 14055383236608.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null