huggingartists

Browse files

Files changed (8) hide show

evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +116 -370
training_args.bin +1 -1

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 1.~~6784825325012207~~, "eval_runtime": 1.~~6409~~, "eval_samples_per_second": 40.~~831~~, "eval_steps_per_second": 5.~~485~~, "epoch": 10.0}


1	+ {"eval_loss": 1.5699154138565063, "eval_runtime": 1.6396, "eval_samples_per_second": 40.864, "eval_steps_per_second": 5.489, "epoch": 19.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fecd751b5700963f44c2ee402ff0b7a4c67e61624a859a934f710eb191c45a74
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6c6d9455a9248044f8aa6d328cfc1cacfec66afa20d954f5b23c85da87bb276
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d097a87db35207ad3d05130da50e9ebb55fa07513c0df666ca52f27cb06b358
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:0547fe049e205f9d46a99245e89e28e83958fd72a8d9fa5b43bf74f1ac59c7d0
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90d824a120c62c3e83dd6a73c662684e5dbd1b4b707b29c9ebf5e0acf99da375
 size 510396521

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3b234073b5cdc8b007569ead18a8e3db6e74c4f98109b5edb6969fffac2bc99
 size 510396521

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66929c1ab9e7989bb184f169bf7f2442be88e09dfd4b503a328757b1b59345f6
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:48674dcd750e9b55c532cef24aef9f7d2e9eb9e19cbfa1a48641e0750f3f3e85
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48279aa48ac21cf8f06ef968c16ddaba90d867b569da938adf4544c7aea84cf0
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:425621844a56a29950ce1fbf1c301ca1c67a62f1420b3598db0e6910a94a3c8c
 size 623

trainer_state.json CHANGED Viewed

@@ -1,592 +1,338 @@
 {
-  "best_metric": 1.6784825325012207,
-  "best_model_checkpoint": "output/headie-one/checkpoint-423",
-  "epoch": 9.0,
-  "global_step": 423,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.11,
-      "learning_rate": 0.00013340429968430322,
-      "loss": 3.3897,
       "step": 5
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.00012243723783011615,
-      "loss": 3.2804,
       "step": 10
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.00010551244942700737,
-      "loss": 3.1867,
       "step": 15
     },
     {
       "epoch": 0.43,
-      "learning_rate": 8.450286230835245e-05,
-      "loss": 3.1078,
       "step": 20
     },
     {
       "epoch": 0.53,
-      "learning_rate": 6.173343555458685e-05,
-      "loss": 2.9997,
       "step": 25
     },
     {
       "epoch": 0.64,
-      "learning_rate": 3.972387529741623e-05,
-      "loss": 3.037,
       "step": 30
     },
     {
       "epoch": 0.74,
-      "learning_rate": 2.090979946151954e-05,
-      "loss": 2.8067,
       "step": 35
     },
     {
       "epoch": 0.85,
-      "learning_rate": 7.373207860012155e-06,
-      "loss": 2.6461,
       "step": 40
     },
     {
       "epoch": 0.96,
       "learning_rate": 6.1208431258209e-07,
-      "loss": 2.7311,
       "step": 45
     },
     {
       "epoch": 1.0,
-      "eval_loss": 2.646137237548828,
-      "eval_runtime": 1.4447,
-      "eval_samples_per_second": 46.378,
-      "eval_steps_per_second": 6.23,
       "step": 47
     },
     {
       "epoch": 1.06,
-      "learning_rate": 1.3746270344901413e-06,
-      "loss": 2.8414,
       "step": 50
     },
     {
       "epoch": 1.17,
-      "learning_rate": 9.576451662754438e-06,
-      "loss": 2.7047,
       "step": 55
     },
     {
       "epoch": 1.28,
-      "learning_rate": 2.4309929383066146e-05,
-      "loss": 2.7129,
       "step": 60
     },
     {
       "epoch": 1.38,
-      "learning_rate": 4.3944626783346644e-05,
-      "loss": 2.7639,
       "step": 65
     },
     {
       "epoch": 1.49,
-      "learning_rate": 6.630773257727353e-05,
-      "loss": 2.67,
       "step": 70
     },
     {
       "epoch": 1.6,
-      "learning_rate": 8.892450484875447e-05,
-      "loss": 2.4349,
       "step": 75
     },
     {
       "epoch": 1.7,
-      "learning_rate": 0.00010929213048843373,
-      "loss": 2.6474,
       "step": 80
     },
     {
       "epoch": 1.81,
-      "learning_rate": 0.00012515669103944476,
-      "loss": 2.741,
       "step": 85
     },
     {
       "epoch": 1.91,
       "learning_rate": 0.00013476258540873022,
-      "loss": 2.5921,
       "step": 90
     },
     {
       "epoch": 2.0,
-      "eval_loss": 2.3871500492095947,
-      "eval_runtime": 1.4491,
-      "eval_samples_per_second": 46.235,
-      "eval_steps_per_second": 6.211,
       "step": 94
     },
     {
       "epoch": 2.02,
       "learning_rate": 0.00013704680787354832,
-      "loss": 2.4265,
       "step": 95
     },
     {
       "epoch": 2.13,
       "learning_rate": 0.00013175658222600302,
-      "loss": 2.5165,
       "step": 100
     },
     {
       "epoch": 2.23,
-      "learning_rate": 0.00011947733444744994,
-      "loss": 2.1946,
       "step": 105
     },
     {
       "epoch": 2.34,
-      "learning_rate": 0.0001015679084058065,
-      "loss": 2.3182,
       "step": 110
     },
     {
       "epoch": 2.45,
-      "learning_rate": 8.001019372440279e-05,
-      "loss": 2.2781,
       "step": 115
     },
     {
       "epoch": 2.55,
-      "learning_rate": 5.718980627559731e-05,
-      "loss": 2.2824,
       "step": 120
     },
     {
       "epoch": 2.66,
-      "learning_rate": 3.563209159419354e-05,
-      "loss": 2.2139,
       "step": 125
     },
     {
       "epoch": 2.77,
-      "learning_rate": 1.772266555255008e-05,
-      "loss": 2.3554,
       "step": 130
     },
     {
       "epoch": 2.87,
-      "learning_rate": 5.443417773996978e-06,
-      "loss": 2.1634,
       "step": 135
     },
     {
       "epoch": 2.98,
-      "learning_rate": 1.5319212645169297e-07,
-      "loss": 2.2246,
       "step": 140
     },
     {
       "epoch": 3.0,
-      "eval_loss": 2.2159550189971924,
-      "eval_runtime": 1.505,
-      "eval_samples_per_second": 44.519,
-      "eval_steps_per_second": 5.98,
       "step": 141
     },
     {
       "epoch": 3.09,
-      "learning_rate": 2.4374145912697595e-06,
-      "loss": 2.0033,
       "step": 145
     },
     {
       "epoch": 3.19,
-      "learning_rate": 1.204330896055522e-05,
-      "loss": 2.1305,
       "step": 150
     },
     {
       "epoch": 3.3,
-      "learning_rate": 2.790786951156628e-05,
-      "loss": 2.0744,
       "step": 155
     },
     {
       "epoch": 3.4,
-      "learning_rate": 4.8275495151245426e-05,
-      "loss": 2.1473,
       "step": 160
     },
     {
       "epoch": 3.51,
-      "learning_rate": 7.089226742272638e-05,
-      "loss": 2.2506,
       "step": 165
     },
     {
       "epoch": 3.62,
-      "learning_rate": 9.325537321665337e-05,
-      "loss": 2.157,
       "step": 170
     },
     {
       "epoch": 3.72,
-      "learning_rate": 0.00011289007061693382,
-      "loss": 2.1313,
       "step": 175
     },
     {
       "epoch": 3.83,
-      "learning_rate": 0.00012762354833724553,
-      "loss": 2.0593,
       "step": 180
     },
     {
       "epoch": 3.94,
-      "learning_rate": 0.00013582537296550986,
-      "loss": 2.0425,
       "step": 185
     },
     {
       "epoch": 4.0,
-      "eval_loss": 2.1005759239196777,
-      "eval_runtime": 1.5665,
-      "eval_samples_per_second": 42.771,
-      "eval_steps_per_second": 5.745,
       "step": 188
     },
     {
       "epoch": 4.04,
-      "learning_rate": 0.0001365879156874179,
-      "loss": 1.9915,
       "step": 190
     },
     {
       "epoch": 4.15,
-      "learning_rate": 0.00012982679213998792,
-      "loss": 1.8713,
       "step": 195
     },
     {
       "epoch": 4.26,
-      "learning_rate": 0.00011629020053848047,
-      "loss": 1.8176,
       "step": 200
     },
     {
       "epoch": 4.36,
-      "learning_rate": 9.747612470258382e-05,
-      "loss": 1.8704,
       "step": 205
     },
     {
       "epoch": 4.47,
-      "learning_rate": 7.546656444541333e-05,
-      "loss": 1.9435,
       "step": 210
     },
     {
       "epoch": 4.57,
-      "learning_rate": 5.2697137691647635e-05,
-      "loss": 2.0704,
       "step": 215
     },
     {
       "epoch": 4.68,
-      "learning_rate": 3.1687550572992616e-05,
-      "loss": 2.0372,
       "step": 220
     },
     {
       "epoch": 4.79,
-      "learning_rate": 1.4762762169883855e-05,
-      "loss": 1.9286,
       "step": 225
     },
     {
       "epoch": 4.89,
-      "learning_rate": 3.795700315696817e-06,
-      "loss": 1.7845,
       "step": 230
     },
     {
       "epoch": 5.0,
       "learning_rate": 0.0,
-      "loss": 1.7819,
       "step": 235
     },
     {
       "epoch": 5.0,
-      "eval_loss": 1.9693368673324585,
-      "eval_runtime": 1.5591,
-      "eval_samples_per_second": 42.973,
-      "eval_steps_per_second": 5.772,
       "step": 235
-    },
-    {
-      "epoch": 5.11,
-      "learning_rate": 3.7957003156967485e-06,
-      "loss": 1.6773,
-      "step": 240
-    },
-    {
-      "epoch": 5.21,
-      "learning_rate": 1.4762762169883802e-05,
-      "loss": 1.9066,
-      "step": 245
-    },
-    {
-      "epoch": 5.32,
-      "learning_rate": 3.168755057299255e-05,
-      "loss": 1.7702,
-      "step": 250
-    },
-    {
-      "epoch": 5.43,
-      "learning_rate": 5.269713769164743e-05,
-      "loss": 1.7718,
-      "step": 255
-    },
-    {
-      "epoch": 5.53,
-      "learning_rate": 7.546656444541325e-05,
-      "loss": 1.6923,
-      "step": 260
-    },
-    {
-      "epoch": 5.64,
-      "learning_rate": 9.747612470258363e-05,
-      "loss": 1.8134,
-      "step": 265
-    },
-    {
-      "epoch": 5.74,
-      "learning_rate": 0.0001162902005384805,
-      "loss": 1.6943,
-      "step": 270
-    },
-    {
-      "epoch": 5.85,
-      "learning_rate": 0.00012982679213998787,
-      "loss": 1.7474,
-      "step": 275
-    },
-    {
-      "epoch": 5.96,
-      "learning_rate": 0.00013658791568741792,
-      "loss": 1.664,
-      "step": 280
-    },
-    {
-      "epoch": 6.0,
-      "eval_loss": 1.8830074071884155,
-      "eval_runtime": 1.6028,
-      "eval_samples_per_second": 41.801,
-      "eval_steps_per_second": 5.615,
-      "step": 282
-    },
-    {
-      "epoch": 6.06,
-      "learning_rate": 0.00013582537296550986,
-      "loss": 1.7593,
-      "step": 285
-    },
-    {
-      "epoch": 6.17,
-      "learning_rate": 0.00012762354833724559,
-      "loss": 1.68,
-      "step": 290
-    },
-    {
-      "epoch": 6.28,
-      "learning_rate": 0.0001128900706169339,
-      "loss": 1.5629,
-      "step": 295
-    },
-    {
-      "epoch": 6.38,
-      "learning_rate": 9.325537321665346e-05,
-      "loss": 1.5448,
-      "step": 300
-    },
-    {
-      "epoch": 6.49,
-      "learning_rate": 7.089226742272658e-05,
-      "loss": 1.5643,
-      "step": 305
-    },
-    {
-      "epoch": 6.6,
-      "learning_rate": 4.827549515124539e-05,
-      "loss": 1.5585,
-      "step": 310
-    },
-    {
-      "epoch": 6.7,
-      "learning_rate": 2.7907869511566348e-05,
-      "loss": 1.724,
-      "step": 315
-    },
-    {
-      "epoch": 6.81,
-      "learning_rate": 1.2043308960555334e-05,
-      "loss": 1.3896,
-      "step": 320
-    },
-    {
-      "epoch": 6.91,
-      "learning_rate": 2.437414591269752e-06,
-      "loss": 1.4656,
-      "step": 325
-    },
-    {
-      "epoch": 7.0,
-      "eval_loss": 1.7848814725875854,
-      "eval_runtime": 1.6359,
-      "eval_samples_per_second": 40.956,
-      "eval_steps_per_second": 5.502,
-      "step": 329
-    },
-    {
-      "epoch": 7.02,
-      "learning_rate": 1.5319212645167772e-07,
-      "loss": 1.4519,
-      "step": 330
-    },
-    {
-      "epoch": 7.13,
-      "learning_rate": 5.443417773996994e-06,
-      "loss": 1.5894,
-      "step": 335
-    },
-    {
-      "epoch": 7.23,
-      "learning_rate": 1.772266555255011e-05,
-      "loss": 1.377,
-      "step": 340
-    },
-    {
-      "epoch": 7.34,
-      "learning_rate": 3.563209159419346e-05,
-      "loss": 1.4357,
-      "step": 345
-    },
-    {
-      "epoch": 7.45,
-      "learning_rate": 5.718980627559723e-05,
-      "loss": 1.5269,
-      "step": 350
-    },
-    {
-      "epoch": 7.55,
-      "learning_rate": 8.001019372440265e-05,
-      "loss": 1.4501,
-      "step": 355
-    },
-    {
-      "epoch": 7.66,
-      "learning_rate": 0.00010156790840580641,
-      "loss": 1.2612,
-      "step": 360
-    },
-    {
-      "epoch": 7.77,
-      "learning_rate": 0.0001194773344474498,
-      "loss": 1.3453,
-      "step": 365
-    },
-    {
-      "epoch": 7.87,
-      "learning_rate": 0.00013175658222600294,
-      "loss": 1.4728,
-      "step": 370
-    },
-    {
-      "epoch": 7.98,
-      "learning_rate": 0.00013704680787354832,
-      "loss": 1.4687,
-      "step": 375
-    },
-    {
-      "epoch": 8.0,
-      "eval_loss": 1.76621675491333,
-      "eval_runtime": 1.6517,
-      "eval_samples_per_second": 40.565,
-      "eval_steps_per_second": 5.449,
-      "step": 376
-    },
-    {
-      "epoch": 8.09,
-      "learning_rate": 0.00013476258540873022,
-      "loss": 1.4856,
-      "step": 380
-    },
-    {
-      "epoch": 8.19,
-      "learning_rate": 0.00012515669103944473,
-      "loss": 1.2361,
-      "step": 385
-    },
-    {
-      "epoch": 8.3,
-      "learning_rate": 0.00010929213048843395,
-      "loss": 1.1886,
-      "step": 390
-    },
-    {
-      "epoch": 8.4,
-      "learning_rate": 8.892450484875472e-05,
-      "loss": 1.3658,
-      "step": 395
-    },
-    {
-      "epoch": 8.51,
-      "learning_rate": 6.630773257727356e-05,
-      "loss": 1.3489,
-      "step": 400
-    },
-    {
-      "epoch": 8.62,
-      "learning_rate": 4.394462678334666e-05,
-      "loss": 1.2336,
-      "step": 405
-    },
-    {
-      "epoch": 8.72,
-      "learning_rate": 2.4309929383066207e-05,
-      "loss": 1.2826,
-      "step": 410
-    },
-    {
-      "epoch": 8.83,
-      "learning_rate": 9.576451662754362e-06,
-      "loss": 1.381,
-      "step": 415
-    },
-    {
-      "epoch": 8.94,
-      "learning_rate": 1.3746270344902175e-06,
-      "loss": 1.2151,
-      "step": 420
-    },
-    {
-      "epoch": 9.0,
-      "eval_loss": 1.6784825325012207,
-      "eval_runtime": 1.678,
-      "eval_samples_per_second": 39.927,
-      "eval_steps_per_second": 5.363,
-      "step": 423
     }
   ],
-  "max_steps": 470,
-  "num_train_epochs": 10,
-  "total_flos": 439754489856000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.5699154138565063,
+  "best_model_checkpoint": "output/headie-one/checkpoint-235",
+  "epoch": 5.0,
+  "global_step": 235,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.11,
+      "learning_rate": 0.00013340429968430325,
+      "loss": 1.271,
       "step": 5
     },
     {
       "epoch": 0.21,
+      "learning_rate": 0.00012243723783011623,
+      "loss": 1.1922,
       "step": 10
     },
     {
       "epoch": 0.32,
+      "learning_rate": 0.00010551244942700729,
+      "loss": 1.0699,
       "step": 15
     },
     {
       "epoch": 0.43,
+      "learning_rate": 8.450286230835261e-05,
+      "loss": 1.0247,
       "step": 20
     },
     {
       "epoch": 0.53,
+      "learning_rate": 6.17334355545868e-05,
+      "loss": 0.9594,
       "step": 25
     },
     {
       "epoch": 0.64,
+      "learning_rate": 3.9723875297416415e-05,
+      "loss": 0.9693,
       "step": 30
     },
     {
       "epoch": 0.74,
+      "learning_rate": 2.090979946151953e-05,
+      "loss": 1.106,
       "step": 35
     },
     {
       "epoch": 0.85,
+      "learning_rate": 7.373207860012262e-06,
+      "loss": 1.0108,
       "step": 40
     },
     {
       "epoch": 0.96,
       "learning_rate": 6.1208431258209e-07,
+      "loss": 1.0614,
       "step": 45
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.6016333103179932,
+      "eval_runtime": 1.5387,
+      "eval_samples_per_second": 43.543,
+      "eval_steps_per_second": 5.849,
       "step": 47
     },
     {
       "epoch": 1.06,
+      "learning_rate": 1.3746270344901794e-06,
+      "loss": 1.1841,
       "step": 50
     },
     {
       "epoch": 1.17,
+      "learning_rate": 9.5764516627544e-06,
+      "loss": 1.0057,
       "step": 55
     },
     {
       "epoch": 1.28,
+      "learning_rate": 2.4309929383065895e-05,
+      "loss": 0.8867,
       "step": 60
     },
     {
       "epoch": 1.38,
+      "learning_rate": 4.394462678334651e-05,
+      "loss": 1.0264,
       "step": 65
     },
     {
       "epoch": 1.49,
+      "learning_rate": 6.630773257727362e-05,
+      "loss": 0.9567,
       "step": 70
     },
     {
       "epoch": 1.6,
+      "learning_rate": 8.892450484875433e-05,
+      "loss": 0.8565,
       "step": 75
     },
     {
       "epoch": 1.7,
+      "learning_rate": 0.00010929213048843382,
+      "loss": 1.0029,
       "step": 80
     },
     {
       "epoch": 1.81,
+      "learning_rate": 0.00012515669103944463,
+      "loss": 1.0274,
       "step": 85
     },
     {
       "epoch": 1.91,
       "learning_rate": 0.00013476258540873022,
+      "loss": 0.9839,
       "step": 90
     },
     {
       "epoch": 2.0,
+      "eval_loss": 1.6458494663238525,
+      "eval_runtime": 1.5583,
+      "eval_samples_per_second": 42.996,
+      "eval_steps_per_second": 5.776,
       "step": 94
     },
     {
       "epoch": 2.02,
       "learning_rate": 0.00013704680787354832,
+      "loss": 0.9767,
       "step": 95
     },
     {
       "epoch": 2.13,
       "learning_rate": 0.00013175658222600302,
+      "loss": 1.1312,
       "step": 100
     },
     {
       "epoch": 2.23,
+      "learning_rate": 0.00011947733444745008,
+      "loss": 0.7833,
       "step": 105
     },
     {
       "epoch": 2.34,
+      "learning_rate": 0.00010156790840580658,
+      "loss": 0.8376,
       "step": 110
     },
     {
       "epoch": 2.45,
+      "learning_rate": 8.001019372440257e-05,
+      "loss": 0.9393,
       "step": 115
     },
     {
       "epoch": 2.55,
+      "learning_rate": 5.71898062755974e-05,
+      "loss": 0.8203,
       "step": 120
     },
     {
       "epoch": 2.66,
+      "learning_rate": 3.5632091594193825e-05,
+      "loss": 0.9363,
       "step": 125
     },
     {
       "epoch": 2.77,
+      "learning_rate": 1.7722665552550217e-05,
+      "loss": 0.9023,
       "step": 130
     },
     {
       "epoch": 2.87,
+      "learning_rate": 5.443417773996963e-06,
+      "loss": 0.7999,
       "step": 135
     },
     {
       "epoch": 2.98,
+      "learning_rate": 1.5319212645170819e-07,
+      "loss": 0.8643,
       "step": 140
     },
     {
       "epoch": 3.0,
+      "eval_loss": 1.5993356704711914,
+      "eval_runtime": 1.5942,
+      "eval_samples_per_second": 42.027,
+      "eval_steps_per_second": 5.645,
       "step": 141
     },
     {
       "epoch": 3.09,
+      "learning_rate": 2.4374145912697747e-06,
+      "loss": 0.6501,
       "step": 145
     },
     {
       "epoch": 3.19,
+      "learning_rate": 1.204330896055538e-05,
+      "loss": 0.7052,
       "step": 150
     },
     {
       "epoch": 3.3,
+      "learning_rate": 2.7907869511566212e-05,
+      "loss": 0.9473,
       "step": 155
     },
     {
       "epoch": 3.4,
+      "learning_rate": 4.8275495151245236e-05,
+      "loss": 0.7318,
       "step": 160
     },
     {
       "epoch": 3.51,
+      "learning_rate": 7.08922674227264e-05,
+      "loss": 0.7595,
       "step": 165
     },
     {
       "epoch": 3.62,
+      "learning_rate": 9.325537321665307e-05,
+      "loss": 0.8141,
       "step": 170
     },
     {
       "epoch": 3.72,
+      "learning_rate": 0.00011289007061693377,
+      "loss": 0.7721,
       "step": 175
     },
     {
       "epoch": 3.83,
+      "learning_rate": 0.0001276235483372456,
+      "loss": 0.8703,
       "step": 180
     },
     {
       "epoch": 3.94,
+      "learning_rate": 0.00013582537296550983,
+      "loss": 0.8111,
       "step": 185
     },
     {
       "epoch": 4.0,
+      "eval_loss": 1.582382082939148,
+      "eval_runtime": 1.6284,
+      "eval_samples_per_second": 41.144,
+      "eval_steps_per_second": 5.527,
       "step": 188
     },
     {
       "epoch": 4.04,
+      "learning_rate": 0.00013658791568741795,
+      "loss": 0.8595,
       "step": 190
     },
     {
       "epoch": 4.15,
+      "learning_rate": 0.00012982679213998795,
+      "loss": 0.6313,
       "step": 195
     },
     {
       "epoch": 4.26,
+      "learning_rate": 0.00011629020053848043,
+      "loss": 0.8127,
       "step": 200
     },
     {
       "epoch": 4.36,
+      "learning_rate": 9.747612470258399e-05,
+      "loss": 0.8002,
       "step": 205
     },
     {
       "epoch": 4.47,
+      "learning_rate": 7.546656444541318e-05,
+      "loss": 0.7541,
       "step": 210
     },
     {
       "epoch": 4.57,
+      "learning_rate": 5.269713769164736e-05,
+      "loss": 0.7412,
       "step": 215
     },
     {
       "epoch": 4.68,
+      "learning_rate": 3.1687550572992684e-05,
+      "loss": 0.6833,
       "step": 220
     },
     {
       "epoch": 4.79,
+      "learning_rate": 1.4762762169884062e-05,
+      "loss": 0.7674,
       "step": 225
     },
     {
       "epoch": 4.89,
+      "learning_rate": 3.795700315696802e-06,
+      "loss": 0.6441,
       "step": 230
     },
     {
       "epoch": 5.0,
       "learning_rate": 0.0,
+      "loss": 0.761,
       "step": 235
     },
     {
       "epoch": 5.0,
+      "eval_loss": 1.5699154138565063,
+      "eval_runtime": 1.6286,
+      "eval_samples_per_second": 41.139,
+      "eval_steps_per_second": 5.526,
       "step": 235
     }
   ],
+  "max_steps": 893,
+  "num_train_epochs": 19,
+  "total_flos": 244308049920000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aaa944c20cbf502e00ccd36c3c1dbba26621b29241ccaca9e30360a750f15bf5
 size 3311

 version https://git-lfs.github.com/spec/v1
+oid sha256:069f57f162316ae065f1862c62495b43d5890dbecac1d9475fdbff65ca730f07
 size 3311