Training in progress, step 26, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac3aa62d979c4e426cb4fecbf637da28ae6c7361bd9deadeb415e8ca253cb38f
 size 125248064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9068ab8b12910134390193df6e671ee9804adf662d99ae80242950652f33de89
 size 125248064

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ade6d54fd574af188c07e6aed52ed40bbb6af62d5b0cb1c142928611f8b30ff5
 size 64219860

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a14b177ed9c9ec4660cb215498d18d35699f02daac2a5925d98f10b92bc75b5
 size 64219860

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4da6e48562da7a05e35e021a0a02d28a48ea6c6b1272620abd12d036496c250f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fbb9dcf0da2d9b5d3a9949a2085ac919ae660b7274cef9931a3a5782eab72ae
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35e92785679980f3fcd23b14ce1acaffcae115e3e9164492d0e4b31775d32447
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8712da1b2787df41952a507984ec77e0f72c59fac7ee6cf21606445686249de
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.004104507064488121,
   "eval_steps": 13,
-  "global_step": 13,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -114,6 +114,105 @@
       "eval_samples_per_second": 18.105,
       "eval_steps_per_second": 9.052,
       "step": 13
     }
   ],
   "logging_steps": 1,
@@ -133,7 +232,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4195247204597760.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.008209014128976242,
   "eval_steps": 13,
+  "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 18.105,
       "eval_steps_per_second": 9.052,
       "step": 13
+    },
+    {
+      "epoch": 0.004420238377141053,
+      "grad_norm": 2.3956403732299805,
+      "learning_rate": 0.00019510565162951537,
+      "loss": 5.4276,
+      "step": 14
+    },
+    {
+      "epoch": 0.004735969689793985,
+      "grad_norm": 2.0606181621551514,
+      "learning_rate": 0.0001923879532511287,
+      "loss": 5.2302,
+      "step": 15
+    },
+    {
+      "epoch": 0.005051701002446917,
+      "grad_norm": 2.8639981746673584,
+      "learning_rate": 0.0001891006524188368,
+      "loss": 5.1071,
+      "step": 16
+    },
+    {
+      "epoch": 0.00536743231509985,
+      "grad_norm": 2.9613735675811768,
+      "learning_rate": 0.00018526401643540922,
+      "loss": 4.8221,
+      "step": 17
+    },
+    {
+      "epoch": 0.005683163627752783,
+      "grad_norm": 2.5257747173309326,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 5.1752,
+      "step": 18
+    },
+    {
+      "epoch": 0.0059988949404057145,
+      "grad_norm": 2.4979665279388428,
+      "learning_rate": 0.0001760405965600031,
+      "loss": 5.448,
+      "step": 19
+    },
+    {
+      "epoch": 0.006314626253058647,
+      "grad_norm": 2.4641616344451904,
+      "learning_rate": 0.00017071067811865476,
+      "loss": 4.5116,
+      "step": 20
+    },
+    {
+      "epoch": 0.006630357565711579,
+      "grad_norm": 2.583629608154297,
+      "learning_rate": 0.00016494480483301836,
+      "loss": 4.3406,
+      "step": 21
+    },
+    {
+      "epoch": 0.006946088878364512,
+      "grad_norm": 2.122413158416748,
+      "learning_rate": 0.00015877852522924732,
+      "loss": 4.1938,
+      "step": 22
+    },
+    {
+      "epoch": 0.0072618201910174445,
+      "grad_norm": 1.9655640125274658,
+      "learning_rate": 0.0001522498564715949,
+      "loss": 4.2416,
+      "step": 23
+    },
+    {
+      "epoch": 0.007577551503670376,
+      "grad_norm": 2.496213912963867,
+      "learning_rate": 0.00014539904997395468,
+      "loss": 4.492,
+      "step": 24
+    },
+    {
+      "epoch": 0.007893282816323309,
+      "grad_norm": 2.098853349685669,
+      "learning_rate": 0.000138268343236509,
+      "loss": 4.0397,
+      "step": 25
+    },
+    {
+      "epoch": 0.008209014128976242,
+      "grad_norm": 2.3906338214874268,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 3.8275,
+      "step": 26
+    },
+    {
+      "epoch": 0.008209014128976242,
+      "eval_loss": 1.069798469543457,
+      "eval_runtime": 73.654,
+      "eval_samples_per_second": 18.112,
+      "eval_steps_per_second": 9.056,
+      "step": 26
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8311338801561600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null