Training in progress, step 125, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fab3134a73ebaab8fdd80b08e343af89a367abbf983975951d42305e9f4b1a19
 size 838904832

 version https://git-lfs.github.com/spec/v1
+oid sha256:2440a1d3e22839736f91530c2d0b5e782e46dd86e3e53bef2a6625a989fa1466
 size 838904832

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccb014d43e78a1ac6ee0fc089ed64494033b0ebbb44670a9ee58bb714125b84a
 size 420633876

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d641a4b63d536e0fd9d4977cc8e26c75ac197343f60b2667be917fff151993b
 size 420633876

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8972305b9bf020a4bb38ed00ecea6ce1d19052e69a3ddd5a8bf5840e137d0fb9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdbe66e8af9f834d341b8251d0055801aa4003f83845bb327b01afad2c063103
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aee2b620608ef64c9c8f70ed72f3a0e1bf233746a6ec27ad47abebf797bd2580
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:efdbfe8676cd24a75fed7e6e38125bb1bb838a4b70c0fbf7469557659d9b1fec
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3,
   "eval_steps": 500,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -457,13 +457,313 @@
       "learning_rate": 0.0002,
       "loss": 0.531,
       "step": 75
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 1,
   "save_steps": 25,
-  "total_flos": 9338307805470720.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5,
   "eval_steps": 500,
+  "global_step": 125,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 0.531,
       "step": 75
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0002,
+      "loss": 0.4584,
+      "step": 76
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0002,
+      "loss": 0.4835,
+      "step": 77
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0002,
+      "loss": 0.5493,
+      "step": 78
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0002,
+      "loss": 0.5379,
+      "step": 79
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0002,
+      "loss": 0.5795,
+      "step": 80
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0002,
+      "loss": 0.4421,
+      "step": 81
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0002,
+      "loss": 0.4947,
+      "step": 82
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0002,
+      "loss": 0.4997,
+      "step": 83
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0002,
+      "loss": 0.4571,
+      "step": 84
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0002,
+      "loss": 0.3947,
+      "step": 85
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0002,
+      "loss": 0.4796,
+      "step": 86
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002,
+      "loss": 0.3846,
+      "step": 87
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002,
+      "loss": 0.4606,
+      "step": 88
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0002,
+      "loss": 0.3776,
+      "step": 89
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0002,
+      "loss": 0.4627,
+      "step": 90
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0002,
+      "loss": 0.4095,
+      "step": 91
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0002,
+      "loss": 0.4047,
+      "step": 92
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0002,
+      "loss": 0.3684,
+      "step": 93
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0002,
+      "loss": 0.4086,
+      "step": 94
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0002,
+      "loss": 0.358,
+      "step": 95
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0002,
+      "loss": 0.3824,
+      "step": 96
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0002,
+      "loss": 0.3751,
+      "step": 97
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0002,
+      "loss": 0.3897,
+      "step": 98
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0002,
+      "loss": 0.349,
+      "step": 99
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0002,
+      "loss": 0.4674,
+      "step": 100
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0002,
+      "loss": 0.7479,
+      "step": 101
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002,
+      "loss": 0.7174,
+      "step": 102
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002,
+      "loss": 0.7081,
+      "step": 103
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002,
+      "loss": 0.6064,
+      "step": 104
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002,
+      "loss": 0.6217,
+      "step": 105
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002,
+      "loss": 0.5967,
+      "step": 106
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002,
+      "loss": 0.5808,
+      "step": 107
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002,
+      "loss": 0.5926,
+      "step": 108
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002,
+      "loss": 0.5861,
+      "step": 109
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002,
+      "loss": 0.5996,
+      "step": 110
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002,
+      "loss": 0.5933,
+      "step": 111
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002,
+      "loss": 0.5812,
+      "step": 112
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002,
+      "loss": 0.5401,
+      "step": 113
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002,
+      "loss": 0.5436,
+      "step": 114
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002,
+      "loss": 0.5415,
+      "step": 115
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002,
+      "loss": 0.5266,
+      "step": 116
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002,
+      "loss": 0.5048,
+      "step": 117
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002,
+      "loss": 0.5286,
+      "step": 118
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002,
+      "loss": 0.5292,
+      "step": 119
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002,
+      "loss": 0.594,
+      "step": 120
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002,
+      "loss": 0.5481,
+      "step": 121
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002,
+      "loss": 0.493,
+      "step": 122
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002,
+      "loss": 0.4596,
+      "step": 123
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002,
+      "loss": 0.5249,
+      "step": 124
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002,
+      "loss": 0.5121,
+      "step": 125
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 1,
   "save_steps": 25,
+  "total_flos": 1.527345774944256e+16,
   "trial_name": null,
   "trial_params": null
 }