Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +405 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:479253fb407c2b773aa0e4708b46fb1b01738cf207a50c9732ee33cfcb20e962
 size 134235712

 version https://git-lfs.github.com/spec/v1
+oid sha256:42786d11f6ee458da74cc52dba12b8136c7b1aaa16b346f8948136446d299a5b
 size 134235712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6d2a29607b68480488d20bc0ebae500791673df1131ed8ca6b8ed447c29c3c6
 size 268514874

 version https://git-lfs.github.com/spec/v1
+oid sha256:952af3a7b1da4a5221890b83d0c41ef1ff8ca9181518287a6daee7ed249efc0a
 size 268514874

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6723a233677874772314ee161275d22ba0b66952553e0d4e124483f43b2dc4f0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:171b2fdc32de12cb9b1d5d5e0d91528c102ced984ee42ec59c545d4841a2446c
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:824a429c5f95423b97fd2ff7dc1e1dffcd96691286babb37392f00bfcecaeb1b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:31ea39dd85d8fdd7963ae8fca104a21064c32ab31d9951bd542c75f5d686bcc7
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9990680335507922,
   "eval_steps": 500,
-  "global_step": 67,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -205,6 +205,408 @@
       "learning_rate": 0.0002,
       "loss": 1.8295,
       "step": 66
     }
   ],
   "logging_steps": 2,
@@ -212,7 +614,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 2957918219354112.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9972041006523766,
   "eval_steps": 500,
+  "global_step": 201,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 1.8295,
       "step": 66
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0002,
+      "loss": 1.9644,
+      "step": 68
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0002,
+      "loss": 2.1654,
+      "step": 70
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0002,
+      "loss": 1.5208,
+      "step": 72
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0002,
+      "loss": 1.6357,
+      "step": 74
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0002,
+      "loss": 1.6105,
+      "step": 76
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0002,
+      "loss": 1.3441,
+      "step": 78
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0002,
+      "loss": 1.3914,
+      "step": 80
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0002,
+      "loss": 1.5922,
+      "step": 82
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0002,
+      "loss": 1.7023,
+      "step": 84
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0002,
+      "loss": 1.9293,
+      "step": 86
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0002,
+      "loss": 1.6439,
+      "step": 88
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0002,
+      "loss": 1.7155,
+      "step": 90
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0002,
+      "loss": 1.4545,
+      "step": 92
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0002,
+      "loss": 1.3628,
+      "step": 94
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0002,
+      "loss": 1.4933,
+      "step": 96
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0002,
+      "loss": 1.6158,
+      "step": 98
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0002,
+      "loss": 1.9306,
+      "step": 100
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0002,
+      "loss": 1.833,
+      "step": 102
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0002,
+      "loss": 1.7259,
+      "step": 104
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0002,
+      "loss": 1.7295,
+      "step": 106
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0002,
+      "loss": 1.565,
+      "step": 108
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0002,
+      "loss": 1.4832,
+      "step": 110
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0002,
+      "loss": 1.6287,
+      "step": 112
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0002,
+      "loss": 1.5741,
+      "step": 114
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0002,
+      "loss": 1.6876,
+      "step": 116
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0002,
+      "loss": 2.1332,
+      "step": 118
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0002,
+      "loss": 1.6364,
+      "step": 120
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0002,
+      "loss": 1.5923,
+      "step": 122
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0002,
+      "loss": 1.6287,
+      "step": 124
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0002,
+      "loss": 1.1755,
+      "step": 126
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0002,
+      "loss": 1.2962,
+      "step": 128
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0002,
+      "loss": 1.5011,
+      "step": 130
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0002,
+      "loss": 1.6111,
+      "step": 132
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0002,
+      "loss": 1.4535,
+      "step": 134
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0002,
+      "loss": 1.9522,
+      "step": 136
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0002,
+      "loss": 1.7281,
+      "step": 138
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0002,
+      "loss": 1.627,
+      "step": 140
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0002,
+      "loss": 1.6289,
+      "step": 142
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0002,
+      "loss": 1.3753,
+      "step": 144
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0002,
+      "loss": 1.2593,
+      "step": 146
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.0002,
+      "loss": 1.325,
+      "step": 148
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0002,
+      "loss": 1.0968,
+      "step": 150
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0002,
+      "loss": 2.4315,
+      "step": 152
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0002,
+      "loss": 1.8723,
+      "step": 154
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0002,
+      "loss": 1.5438,
+      "step": 156
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.0002,
+      "loss": 1.4977,
+      "step": 158
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0002,
+      "loss": 1.2388,
+      "step": 160
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.0002,
+      "loss": 1.1567,
+      "step": 162
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.0002,
+      "loss": 1.3596,
+      "step": 164
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.0002,
+      "loss": 1.042,
+      "step": 166
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0002,
+      "loss": 2.2716,
+      "step": 168
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.0002,
+      "loss": 1.7662,
+      "step": 170
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.0002,
+      "loss": 1.5264,
+      "step": 172
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0002,
+      "loss": 1.6663,
+      "step": 174
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.0002,
+      "loss": 1.4936,
+      "step": 176
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.0002,
+      "loss": 1.2083,
+      "step": 178
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.0002,
+      "loss": 1.3731,
+      "step": 180
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0002,
+      "loss": 1.1085,
+      "step": 182
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0002,
+      "loss": 2.3146,
+      "step": 184
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0002,
+      "loss": 1.595,
+      "step": 186
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.0002,
+      "loss": 1.6255,
+      "step": 188
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.0002,
+      "loss": 1.5524,
+      "step": 190
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.0002,
+      "loss": 1.3783,
+      "step": 192
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.0002,
+      "loss": 1.1825,
+      "step": 194
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.0002,
+      "loss": 1.2739,
+      "step": 196
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.0002,
+      "loss": 1.2922,
+      "step": 198
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 0.0002,
+      "loss": 1.4653,
+      "step": 200
     }
   ],
   "logging_steps": 2,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 8872861344890880.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null