Upload folder using huggingface_hub (#2)

Browse files

- Upload folder using huggingface_hub (edb2131e1c3823ba72b1d279d10abad09a5f6533)

Files changed (4) hide show

adapter_model.bin +1 -1
optimizer.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +603 -3

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5d07783590970cc01440af02efb30baf84be013f42d6e324dbec3f1211d5743
 size 39409357

 version https://git-lfs.github.com/spec/v1
+oid sha256:b39b2ac3c3f75772f547048fda7ecb323076b9689db7d79915bba156dc508f2f
 size 39409357

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bb4e74f21744cbd194fc93b7a41891675165b22a0068ad1db19aeac49015587
 size 78844421

 version https://git-lfs.github.com/spec/v1
+oid sha256:c734ecaa394370ee4bcd94cc0b2ae016a26765122f3f76327b28c23f96a22732
 size 78844421

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49d3e390b4500e3448050a2123ac7e837c199dcd6015f166fda34e0372e32849
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d8dcaf05375bb59f736a94e8f8b03d33cdc87bc02411e6527a29996e0a68b3b
 size 627

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1173184357541899,
   "eval_steps": 500,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1207,13 +1207,613 @@
       "learning_rate": 0.0001441340782122905,
       "loss": 1.9591,
       "step": 200
     }
   ],
   "logging_steps": 1,
   "max_steps": 716,
   "num_train_epochs": 4,
   "save_steps": 100,
-  "total_flos": 1.0290223796256768e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.675977653631285,
   "eval_steps": 500,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0001441340782122905,
       "loss": 1.9591,
       "step": 200
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00014385474860335195,
+      "loss": 1.8722,
+      "step": 201
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00014357541899441342,
+      "loss": 1.8535,
+      "step": 202
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00014329608938547488,
+      "loss": 1.8676,
+      "step": 203
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00014301675977653632,
+      "loss": 1.8976,
+      "step": 204
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00014273743016759776,
+      "loss": 1.7723,
+      "step": 205
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00014245810055865923,
+      "loss": 1.8165,
+      "step": 206
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00014217877094972067,
+      "loss": 1.7811,
+      "step": 207
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00014189944134078214,
+      "loss": 1.908,
+      "step": 208
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00014162011173184357,
+      "loss": 1.7663,
+      "step": 209
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00014134078212290501,
+      "loss": 1.6779,
+      "step": 210
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.0001410614525139665,
+      "loss": 1.9039,
+      "step": 211
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00014078212290502795,
+      "loss": 1.8033,
+      "step": 212
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00014050279329608939,
+      "loss": 1.8251,
+      "step": 213
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00014022346368715085,
+      "loss": 1.8505,
+      "step": 214
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0001399441340782123,
+      "loss": 1.8147,
+      "step": 215
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00013966480446927376,
+      "loss": 1.8419,
+      "step": 216
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0001393854748603352,
+      "loss": 1.8401,
+      "step": 217
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00013910614525139664,
+      "loss": 1.8912,
+      "step": 218
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0001388268156424581,
+      "loss": 1.7548,
+      "step": 219
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00013854748603351957,
+      "loss": 1.8741,
+      "step": 220
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.000138268156424581,
+      "loss": 1.9549,
+      "step": 221
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00013798882681564248,
+      "loss": 1.9093,
+      "step": 222
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00013770949720670392,
+      "loss": 1.7896,
+      "step": 223
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00013743016759776538,
+      "loss": 1.8491,
+      "step": 224
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00013715083798882682,
+      "loss": 1.7851,
+      "step": 225
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00013687150837988826,
+      "loss": 1.6992,
+      "step": 226
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00013659217877094973,
+      "loss": 1.9765,
+      "step": 227
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00013631284916201117,
+      "loss": 1.8179,
+      "step": 228
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00013603351955307263,
+      "loss": 1.8548,
+      "step": 229
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0001357541899441341,
+      "loss": 1.8843,
+      "step": 230
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00013547486033519554,
+      "loss": 1.9105,
+      "step": 231
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00013519553072625698,
+      "loss": 1.8748,
+      "step": 232
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00013491620111731844,
+      "loss": 1.7976,
+      "step": 233
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00013463687150837988,
+      "loss": 1.7369,
+      "step": 234
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00013435754189944135,
+      "loss": 1.7808,
+      "step": 235
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0001340782122905028,
+      "loss": 1.8385,
+      "step": 236
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00013379888268156423,
+      "loss": 1.8295,
+      "step": 237
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00013351955307262572,
+      "loss": 1.757,
+      "step": 238
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00013324022346368716,
+      "loss": 1.7904,
+      "step": 239
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001329608938547486,
+      "loss": 1.7632,
+      "step": 240
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00013268156424581007,
+      "loss": 1.7867,
+      "step": 241
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0001324022346368715,
+      "loss": 1.8259,
+      "step": 242
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00013212290502793297,
+      "loss": 1.6655,
+      "step": 243
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0001318435754189944,
+      "loss": 1.6848,
+      "step": 244
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00013156424581005585,
+      "loss": 1.7931,
+      "step": 245
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00013128491620111732,
+      "loss": 1.7868,
+      "step": 246
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00013100558659217879,
+      "loss": 1.7732,
+      "step": 247
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00013072625698324022,
+      "loss": 1.7851,
+      "step": 248
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0001304469273743017,
+      "loss": 1.7406,
+      "step": 249
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00013016759776536313,
+      "loss": 1.5853,
+      "step": 250
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0001298882681564246,
+      "loss": 1.8271,
+      "step": 251
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00012960893854748604,
+      "loss": 1.6054,
+      "step": 252
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00012932960893854748,
+      "loss": 1.6884,
+      "step": 253
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00012905027932960894,
+      "loss": 1.7333,
+      "step": 254
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00012877094972067038,
+      "loss": 1.803,
+      "step": 255
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00012849162011173185,
+      "loss": 1.63,
+      "step": 256
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00012821229050279331,
+      "loss": 1.8023,
+      "step": 257
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00012793296089385475,
+      "loss": 1.762,
+      "step": 258
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00012765363128491622,
+      "loss": 1.7565,
+      "step": 259
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00012737430167597766,
+      "loss": 1.5937,
+      "step": 260
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0001270949720670391,
+      "loss": 1.7208,
+      "step": 261
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00012681564245810057,
+      "loss": 1.8097,
+      "step": 262
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.000126536312849162,
+      "loss": 1.7042,
+      "step": 263
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00012625698324022347,
+      "loss": 1.7892,
+      "step": 264
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00012597765363128494,
+      "loss": 1.752,
+      "step": 265
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.00012569832402234638,
+      "loss": 1.7333,
+      "step": 266
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.00012541899441340784,
+      "loss": 1.7492,
+      "step": 267
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00012513966480446928,
+      "loss": 1.818,
+      "step": 268
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00012486033519553072,
+      "loss": 1.7146,
+      "step": 269
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0001245810055865922,
+      "loss": 1.7958,
+      "step": 270
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00012430167597765363,
+      "loss": 1.7212,
+      "step": 271
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0001240223463687151,
+      "loss": 1.8835,
+      "step": 272
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00012374301675977656,
+      "loss": 1.7486,
+      "step": 273
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.000123463687150838,
+      "loss": 1.8103,
+      "step": 274
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00012318435754189944,
+      "loss": 1.7557,
+      "step": 275
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0001229050279329609,
+      "loss": 1.6198,
+      "step": 276
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00012262569832402235,
+      "loss": 1.6971,
+      "step": 277
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0001223463687150838,
+      "loss": 1.668,
+      "step": 278
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00012206703910614525,
+      "loss": 1.8795,
+      "step": 279
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0001217877094972067,
+      "loss": 1.6412,
+      "step": 280
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00012150837988826816,
+      "loss": 1.7497,
+      "step": 281
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00012122905027932962,
+      "loss": 1.5577,
+      "step": 282
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00012094972067039108,
+      "loss": 1.8049,
+      "step": 283
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00012067039106145253,
+      "loss": 1.6834,
+      "step": 284
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00012039106145251397,
+      "loss": 1.7978,
+      "step": 285
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00012011173184357542,
+      "loss": 1.6558,
+      "step": 286
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00011983240223463687,
+      "loss": 1.7561,
+      "step": 287
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.00011955307262569833,
+      "loss": 1.6807,
+      "step": 288
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.00011927374301675978,
+      "loss": 1.6937,
+      "step": 289
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00011899441340782122,
+      "loss": 1.6591,
+      "step": 290
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0001187150837988827,
+      "loss": 1.6771,
+      "step": 291
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00011843575418994415,
+      "loss": 1.7743,
+      "step": 292
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00011815642458100559,
+      "loss": 1.5857,
+      "step": 293
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00011787709497206705,
+      "loss": 1.6999,
+      "step": 294
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0001175977653631285,
+      "loss": 1.5661,
+      "step": 295
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00011731843575418995,
+      "loss": 1.7235,
+      "step": 296
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0001170391061452514,
+      "loss": 1.607,
+      "step": 297
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.00011675977653631284,
+      "loss": 1.68,
+      "step": 298
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0001164804469273743,
+      "loss": 1.6938,
+      "step": 299
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00011620111731843578,
+      "loss": 1.6315,
+      "step": 300
     }
   ],
   "logging_steps": 1,
   "max_steps": 716,
   "num_train_epochs": 4,
   "save_steps": 100,
+  "total_flos": 1.5369996759656448e+17,
   "trial_name": null,
   "trial_params": null
 }