End of training

Browse files

Files changed (4) hide show

all_results.json +8 -0
runs/Jan04_13-50-37_DESKTOP-M04OTBM/events.out.tfevents.1704419031.DESKTOP-M04OTBM.10656.1 +2 -2
test_results.json +8 -0
trainer_state.json +2158 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 49.01,
+    "eval_accuracy": 0.7268518518518519,
+    "eval_loss": 0.7417604923248291,
+    "eval_runtime": 287.1389,
+    "eval_samples_per_second": 0.752,
+    "eval_steps_per_second": 0.094
+}

runs/Jan04_13-50-37_DESKTOP-M04OTBM/events.out.tfevents.1704419031.DESKTOP-M04OTBM.10656.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cf48249178a22dc387b72a8fe9ccff993b5c7df2385645c5b8b7786b9c52635
-size 411

 version https://git-lfs.github.com/spec/v1
+oid sha256:67b9950c017939cb4b5d31dd750a4d03a5f30814441b5a0fab3ae844166bb273
+size 734

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 49.01,
+    "eval_accuracy": 0.7268518518518519,
+    "eval_loss": 0.7417604923248291,
+    "eval_runtime": 287.1389,
+    "eval_samples_per_second": 0.752,
+    "eval_steps_per_second": 0.094
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2158 @@

+{
+  "best_metric": 0.7926267281105991,
+  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset-finetuned-subset-0401\\checkpoint-1568",
+  "epoch": 49.01117117117117,
+  "eval_steps": 500,
+  "global_step": 2775,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.7985611510791366e-06,
+      "loss": 1.7601,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 3.5971223021582732e-06,
+      "loss": 1.5976,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 5.3956834532374105e-06,
+      "loss": 1.6228,
+      "step": 30
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 7.1942446043165465e-06,
+      "loss": 1.6085,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 8.992805755395683e-06,
+      "loss": 1.6151,
+      "step": 50
+    },
+    {
+      "epoch": 0.02,
+      "eval_accuracy": 0.29493087557603687,
+      "eval_loss": 1.5566521883010864,
+      "eval_runtime": 274.0018,
+      "eval_samples_per_second": 0.792,
+      "eval_steps_per_second": 0.102,
+      "step": 56
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.0791366906474821e-05,
+      "loss": 1.5422,
+      "step": 60
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1.2589928057553957e-05,
+      "loss": 1.525,
+      "step": 70
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1.4388489208633093e-05,
+      "loss": 1.4889,
+      "step": 80
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1.618705035971223e-05,
+      "loss": 1.4371,
+      "step": 90
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1.7985611510791367e-05,
+      "loss": 1.3412,
+      "step": 100
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1.9784172661870504e-05,
+      "loss": 1.3399,
+      "step": 110
+    },
+    {
+      "epoch": 1.02,
+      "eval_accuracy": 0.3824884792626728,
+      "eval_loss": 1.292936086654663,
+      "eval_runtime": 271.8695,
+      "eval_samples_per_second": 0.798,
+      "eval_steps_per_second": 0.103,
+      "step": 112
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 2.1582733812949642e-05,
+      "loss": 1.2695,
+      "step": 120
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 2.3381294964028776e-05,
+      "loss": 1.468,
+      "step": 130
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 2.5179856115107914e-05,
+      "loss": 1.3363,
+      "step": 140
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 2.697841726618705e-05,
+      "loss": 1.3674,
+      "step": 150
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 2.8776978417266186e-05,
+      "loss": 1.2751,
+      "step": 160
+    },
+    {
+      "epoch": 2.02,
+      "eval_accuracy": 0.31336405529953915,
+      "eval_loss": 1.4618359804153442,
+      "eval_runtime": 266.4685,
+      "eval_samples_per_second": 0.814,
+      "eval_steps_per_second": 0.105,
+      "step": 168
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 3.0575539568345324e-05,
+      "loss": 1.2817,
+      "step": 170
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 3.237410071942446e-05,
+      "loss": 1.1931,
+      "step": 180
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 3.41726618705036e-05,
+      "loss": 1.2165,
+      "step": 190
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 3.597122302158273e-05,
+      "loss": 1.1886,
+      "step": 200
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 3.776978417266187e-05,
+      "loss": 1.1798,
+      "step": 210
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 3.956834532374101e-05,
+      "loss": 1.3725,
+      "step": 220
+    },
+    {
+      "epoch": 3.02,
+      "eval_accuracy": 0.6497695852534562,
+      "eval_loss": 0.9079896211624146,
+      "eval_runtime": 274.4774,
+      "eval_samples_per_second": 0.791,
+      "eval_steps_per_second": 0.102,
+      "step": 224
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 4.136690647482014e-05,
+      "loss": 1.1989,
+      "step": 230
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 4.3165467625899284e-05,
+      "loss": 1.162,
+      "step": 240
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 4.496402877697842e-05,
+      "loss": 1.0652,
+      "step": 250
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 4.676258992805755e-05,
+      "loss": 1.0403,
+      "step": 260
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 4.8561151079136694e-05,
+      "loss": 1.0948,
+      "step": 270
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 4.9959951942330803e-05,
+      "loss": 1.0782,
+      "step": 280
+    },
+    {
+      "epoch": 4.02,
+      "eval_accuracy": 0.5299539170506913,
+      "eval_loss": 1.1473454236984253,
+      "eval_runtime": 276.687,
+      "eval_samples_per_second": 0.784,
+      "eval_steps_per_second": 0.101,
+      "step": 280
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 4.975971165398479e-05,
+      "loss": 1.211,
+      "step": 290
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 4.955947136563877e-05,
+      "loss": 1.1643,
+      "step": 300
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 4.935923107729276e-05,
+      "loss": 1.2066,
+      "step": 310
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 4.915899078894674e-05,
+      "loss": 1.0381,
+      "step": 320
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 4.895875050060073e-05,
+      "loss": 1.1514,
+      "step": 330
+    },
+    {
+      "epoch": 5.02,
+      "eval_accuracy": 0.6359447004608295,
+      "eval_loss": 0.8952929377555847,
+      "eval_runtime": 268.376,
+      "eval_samples_per_second": 0.809,
+      "eval_steps_per_second": 0.104,
+      "step": 336
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 4.875851021225471e-05,
+      "loss": 1.2202,
+      "step": 340
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 4.8558269923908696e-05,
+      "loss": 1.0416,
+      "step": 350
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 4.835802963556268e-05,
+      "loss": 1.0473,
+      "step": 360
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 4.8157789347216665e-05,
+      "loss": 1.011,
+      "step": 370
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 4.795754905887065e-05,
+      "loss": 0.9304,
+      "step": 380
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 4.7757308770524635e-05,
+      "loss": 1.0593,
+      "step": 390
+    },
+    {
+      "epoch": 6.02,
+      "eval_accuracy": 0.4608294930875576,
+      "eval_loss": 1.3371587991714478,
+      "eval_runtime": 270.4609,
+      "eval_samples_per_second": 0.802,
+      "eval_steps_per_second": 0.104,
+      "step": 392
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 4.755706848217862e-05,
+      "loss": 1.1446,
+      "step": 400
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 4.7356828193832604e-05,
+      "loss": 0.9072,
+      "step": 410
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 4.715658790548659e-05,
+      "loss": 1.0265,
+      "step": 420
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 4.6956347617140574e-05,
+      "loss": 1.2447,
+      "step": 430
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 4.675610732879456e-05,
+      "loss": 1.1193,
+      "step": 440
+    },
+    {
+      "epoch": 7.02,
+      "eval_accuracy": 0.631336405529954,
+      "eval_loss": 0.9654818177223206,
+      "eval_runtime": 278.2137,
+      "eval_samples_per_second": 0.78,
+      "eval_steps_per_second": 0.101,
+      "step": 448
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 4.655586704044854e-05,
+      "loss": 1.1604,
+      "step": 450
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 4.635562675210253e-05,
+      "loss": 0.9825,
+      "step": 460
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 4.615538646375651e-05,
+      "loss": 0.9826,
+      "step": 470
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 4.59551461754105e-05,
+      "loss": 1.1202,
+      "step": 480
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 4.575490588706448e-05,
+      "loss": 0.8152,
+      "step": 490
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 4.5554665598718466e-05,
+      "loss": 0.719,
+      "step": 500
+    },
+    {
+      "epoch": 8.02,
+      "eval_accuracy": 0.6728110599078341,
+      "eval_loss": 0.8527050018310547,
+      "eval_runtime": 277.8107,
+      "eval_samples_per_second": 0.781,
+      "eval_steps_per_second": 0.101,
+      "step": 504
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 4.535442531037245e-05,
+      "loss": 0.8601,
+      "step": 510
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 4.5154185022026436e-05,
+      "loss": 1.1352,
+      "step": 520
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 4.495394473368042e-05,
+      "loss": 0.9668,
+      "step": 530
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 4.4753704445334405e-05,
+      "loss": 0.7672,
+      "step": 540
+    },
+    {
+      "epoch": 9.02,
+      "learning_rate": 4.455346415698839e-05,
+      "loss": 0.7687,
+      "step": 550
+    },
+    {
+      "epoch": 9.02,
+      "learning_rate": 4.4353223868642374e-05,
+      "loss": 1.0157,
+      "step": 560
+    },
+    {
+      "epoch": 9.02,
+      "eval_accuracy": 0.5023041474654378,
+      "eval_loss": 1.2763272523880005,
+      "eval_runtime": 272.8951,
+      "eval_samples_per_second": 0.795,
+      "eval_steps_per_second": 0.103,
+      "step": 560
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 4.415298358029636e-05,
+      "loss": 0.9306,
+      "step": 570
+    },
+    {
+      "epoch": 10.01,
+      "learning_rate": 4.3952743291950344e-05,
+      "loss": 0.9805,
+      "step": 580
+    },
+    {
+      "epoch": 10.01,
+      "learning_rate": 4.375250300360433e-05,
+      "loss": 0.9256,
+      "step": 590
+    },
+    {
+      "epoch": 10.01,
+      "learning_rate": 4.355226271525831e-05,
+      "loss": 0.8119,
+      "step": 600
+    },
+    {
+      "epoch": 10.02,
+      "learning_rate": 4.33520224269123e-05,
+      "loss": 0.6991,
+      "step": 610
+    },
+    {
+      "epoch": 10.02,
+      "eval_accuracy": 0.6405529953917051,
+      "eval_loss": 0.8840082287788391,
+      "eval_runtime": 280.3211,
+      "eval_samples_per_second": 0.774,
+      "eval_steps_per_second": 0.1,
+      "step": 616
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 4.315178213856628e-05,
+      "loss": 0.8636,
+      "step": 620
+    },
+    {
+      "epoch": 11.01,
+      "learning_rate": 4.295154185022027e-05,
+      "loss": 0.7816,
+      "step": 630
+    },
+    {
+      "epoch": 11.01,
+      "learning_rate": 4.275130156187425e-05,
+      "loss": 0.8792,
+      "step": 640
+    },
+    {
+      "epoch": 11.01,
+      "learning_rate": 4.2551061273528236e-05,
+      "loss": 0.712,
+      "step": 650
+    },
+    {
+      "epoch": 11.02,
+      "learning_rate": 4.235082098518222e-05,
+      "loss": 0.7734,
+      "step": 660
+    },
+    {
+      "epoch": 11.02,
+      "learning_rate": 4.2150580696836206e-05,
+      "loss": 0.9019,
+      "step": 670
+    },
+    {
+      "epoch": 11.02,
+      "eval_accuracy": 0.663594470046083,
+      "eval_loss": 0.8940696716308594,
+      "eval_runtime": 279.8573,
+      "eval_samples_per_second": 0.775,
+      "eval_steps_per_second": 0.1,
+      "step": 672
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 4.195034040849019e-05,
+      "loss": 0.7887,
+      "step": 680
+    },
+    {
+      "epoch": 12.01,
+      "learning_rate": 4.1750100120144175e-05,
+      "loss": 0.8002,
+      "step": 690
+    },
+    {
+      "epoch": 12.01,
+      "learning_rate": 4.154985983179816e-05,
+      "loss": 0.831,
+      "step": 700
+    },
+    {
+      "epoch": 12.01,
+      "learning_rate": 4.1349619543452144e-05,
+      "loss": 0.7228,
+      "step": 710
+    },
+    {
+      "epoch": 12.02,
+      "learning_rate": 4.114937925510613e-05,
+      "loss": 0.7456,
+      "step": 720
+    },
+    {
+      "epoch": 12.02,
+      "eval_accuracy": 0.6036866359447005,
+      "eval_loss": 1.0455368757247925,
+      "eval_runtime": 274.8884,
+      "eval_samples_per_second": 0.789,
+      "eval_steps_per_second": 0.102,
+      "step": 728
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 4.0949138966760114e-05,
+      "loss": 0.9421,
+      "step": 730
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 4.07488986784141e-05,
+      "loss": 0.7592,
+      "step": 740
+    },
+    {
+      "epoch": 13.01,
+      "learning_rate": 4.054865839006808e-05,
+      "loss": 0.8108,
+      "step": 750
+    },
+    {
+      "epoch": 13.01,
+      "learning_rate": 4.034841810172207e-05,
+      "loss": 0.9203,
+      "step": 760
+    },
+    {
+      "epoch": 13.02,
+      "learning_rate": 4.014817781337605e-05,
+      "loss": 0.8958,
+      "step": 770
+    },
+    {
+      "epoch": 13.02,
+      "learning_rate": 3.994793752503004e-05,
+      "loss": 0.6631,
+      "step": 780
+    },
+    {
+      "epoch": 13.02,
+      "eval_accuracy": 0.7557603686635944,
+      "eval_loss": 0.6456125974655151,
+      "eval_runtime": 277.0195,
+      "eval_samples_per_second": 0.783,
+      "eval_steps_per_second": 0.101,
+      "step": 784
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 3.974769723668402e-05,
+      "loss": 0.8673,
+      "step": 790
+    },
+    {
+      "epoch": 14.01,
+      "learning_rate": 3.9547456948338006e-05,
+      "loss": 0.8763,
+      "step": 800
+    },
+    {
+      "epoch": 14.01,
+      "learning_rate": 3.934721665999199e-05,
+      "loss": 0.8349,
+      "step": 810
+    },
+    {
+      "epoch": 14.01,
+      "learning_rate": 3.9146976371645976e-05,
+      "loss": 0.8159,
+      "step": 820
+    },
+    {
+      "epoch": 14.02,
+      "learning_rate": 3.894673608329996e-05,
+      "loss": 0.7039,
+      "step": 830
+    },
+    {
+      "epoch": 14.02,
+      "learning_rate": 3.8746495794953945e-05,
+      "loss": 0.7143,
+      "step": 840
+    },
+    {
+      "epoch": 14.02,
+      "eval_accuracy": 0.6682027649769585,
+      "eval_loss": 0.8886568546295166,
+      "eval_runtime": 286.2633,
+      "eval_samples_per_second": 0.758,
+      "eval_steps_per_second": 0.098,
+      "step": 840
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 3.854625550660793e-05,
+      "loss": 0.8193,
+      "step": 850
+    },
+    {
+      "epoch": 15.01,
+      "learning_rate": 3.8346015218261915e-05,
+      "loss": 0.8348,
+      "step": 860
+    },
+    {
+      "epoch": 15.01,
+      "learning_rate": 3.81457749299159e-05,
+      "loss": 0.7888,
+      "step": 870
+    },
+    {
+      "epoch": 15.01,
+      "learning_rate": 3.7945534641569884e-05,
+      "loss": 0.6679,
+      "step": 880
+    },
+    {
+      "epoch": 15.02,
+      "learning_rate": 3.774529435322387e-05,
+      "loss": 0.6639,
+      "step": 890
+    },
+    {
+      "epoch": 15.02,
+      "eval_accuracy": 0.7603686635944701,
+      "eval_loss": 0.686262845993042,
+      "eval_runtime": 285.4117,
+      "eval_samples_per_second": 0.76,
+      "eval_steps_per_second": 0.098,
+      "step": 896
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 3.754505406487785e-05,
+      "loss": 0.613,
+      "step": 900
+    },
+    {
+      "epoch": 16.01,
+      "learning_rate": 3.734481377653184e-05,
+      "loss": 0.6563,
+      "step": 910
+    },
+    {
+      "epoch": 16.01,
+      "learning_rate": 3.714457348818582e-05,
+      "loss": 0.6923,
+      "step": 920
+    },
+    {
+      "epoch": 16.01,
+      "learning_rate": 3.694433319983981e-05,
+      "loss": 0.7364,
+      "step": 930
+    },
+    {
+      "epoch": 16.02,
+      "learning_rate": 3.674409291149379e-05,
+      "loss": 0.6295,
+      "step": 940
+    },
+    {
+      "epoch": 16.02,
+      "learning_rate": 3.6543852623147777e-05,
+      "loss": 0.5195,
+      "step": 950
+    },
+    {
+      "epoch": 16.02,
+      "eval_accuracy": 0.6221198156682027,
+      "eval_loss": 0.9474737644195557,
+      "eval_runtime": 276.3588,
+      "eval_samples_per_second": 0.785,
+      "eval_steps_per_second": 0.101,
+      "step": 952
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 3.634361233480176e-05,
+      "loss": 0.6942,
+      "step": 960
+    },
+    {
+      "epoch": 17.01,
+      "learning_rate": 3.6143372046455746e-05,
+      "loss": 0.6058,
+      "step": 970
+    },
+    {
+      "epoch": 17.01,
+      "learning_rate": 3.594313175810973e-05,
+      "loss": 0.6432,
+      "step": 980
+    },
+    {
+      "epoch": 17.01,
+      "learning_rate": 3.5742891469763715e-05,
+      "loss": 0.7314,
+      "step": 990
+    },
+    {
+      "epoch": 17.02,
+      "learning_rate": 3.55426511814177e-05,
+      "loss": 0.9211,
+      "step": 1000
+    },
+    {
+      "epoch": 17.02,
+      "eval_accuracy": 0.7373271889400922,
+      "eval_loss": 0.7338827848434448,
+      "eval_runtime": 290.88,
+      "eval_samples_per_second": 0.746,
+      "eval_steps_per_second": 0.096,
+      "step": 1008
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 3.5342410893071685e-05,
+      "loss": 0.8028,
+      "step": 1010
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 3.514217060472567e-05,
+      "loss": 0.8868,
+      "step": 1020
+    },
+    {
+      "epoch": 18.01,
+      "learning_rate": 3.4941930316379654e-05,
+      "loss": 0.6356,
+      "step": 1030
+    },
+    {
+      "epoch": 18.01,
+      "learning_rate": 3.474169002803364e-05,
+      "loss": 0.761,
+      "step": 1040
+    },
+    {
+      "epoch": 18.02,
+      "learning_rate": 3.454144973968762e-05,
+      "loss": 0.6927,
+      "step": 1050
+    },
+    {
+      "epoch": 18.02,
+      "learning_rate": 3.434120945134161e-05,
+      "loss": 0.5328,
+      "step": 1060
+    },
+    {
+      "epoch": 18.02,
+      "eval_accuracy": 0.6543778801843319,
+      "eval_loss": 0.9085342288017273,
+      "eval_runtime": 286.8458,
+      "eval_samples_per_second": 0.757,
+      "eval_steps_per_second": 0.098,
+      "step": 1064
+    },
+    {
+      "epoch": 19.0,
+      "learning_rate": 3.414096916299559e-05,
+      "loss": 0.5897,
+      "step": 1070
+    },
+    {
+      "epoch": 19.01,
+      "learning_rate": 3.394072887464958e-05,
+      "loss": 0.828,
+      "step": 1080
+    },
+    {
+      "epoch": 19.01,
+      "learning_rate": 3.374048858630356e-05,
+      "loss": 0.645,
+      "step": 1090
+    },
+    {
+      "epoch": 19.01,
+      "learning_rate": 3.354024829795755e-05,
+      "loss": 0.5495,
+      "step": 1100
+    },
+    {
+      "epoch": 19.02,
+      "learning_rate": 3.334000800961153e-05,
+      "loss": 0.8181,
+      "step": 1110
+    },
+    {
+      "epoch": 19.02,
+      "learning_rate": 3.3139767721265516e-05,
+      "loss": 0.6818,
+      "step": 1120
+    },
+    {
+      "epoch": 19.02,
+      "eval_accuracy": 0.7096774193548387,
+      "eval_loss": 0.7976797223091125,
+      "eval_runtime": 278.2303,
+      "eval_samples_per_second": 0.78,
+      "eval_steps_per_second": 0.101,
+      "step": 1120
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 3.29395274329195e-05,
+      "loss": 0.6042,
+      "step": 1130
+    },
+    {
+      "epoch": 20.01,
+      "learning_rate": 3.2739287144573485e-05,
+      "loss": 0.6727,
+      "step": 1140
+    },
+    {
+      "epoch": 20.01,
+      "learning_rate": 3.253904685622747e-05,
+      "loss": 0.6864,
+      "step": 1150
+    },
+    {
+      "epoch": 20.01,
+      "learning_rate": 3.2338806567881455e-05,
+      "loss": 0.7044,
+      "step": 1160
+    },
+    {
+      "epoch": 20.02,
+      "learning_rate": 3.213856627953544e-05,
+      "loss": 0.6132,
+      "step": 1170
+    },
+    {
+      "epoch": 20.02,
+      "eval_accuracy": 0.7373271889400922,
+      "eval_loss": 0.711599588394165,
+      "eval_runtime": 282.6691,
+      "eval_samples_per_second": 0.768,
+      "eval_steps_per_second": 0.099,
+      "step": 1176
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 3.1938325991189424e-05,
+      "loss": 0.5863,
+      "step": 1180
+    },
+    {
+      "epoch": 21.01,
+      "learning_rate": 3.173808570284341e-05,
+      "loss": 0.7034,
+      "step": 1190
+    },
+    {
+      "epoch": 21.01,
+      "learning_rate": 3.1537845414497393e-05,
+      "loss": 0.5395,
+      "step": 1200
+    },
+    {
+      "epoch": 21.01,
+      "learning_rate": 3.133760512615138e-05,
+      "loss": 0.5865,
+      "step": 1210
+    },
+    {
+      "epoch": 21.02,
+      "learning_rate": 3.113736483780536e-05,
+      "loss": 0.8626,
+      "step": 1220
+    },
+    {
+      "epoch": 21.02,
+      "learning_rate": 3.0937124549459354e-05,
+      "loss": 0.4113,
+      "step": 1230
+    },
+    {
+      "epoch": 21.02,
+      "eval_accuracy": 0.5852534562211982,
+      "eval_loss": 1.0191233158111572,
+      "eval_runtime": 294.6201,
+      "eval_samples_per_second": 0.737,
+      "eval_steps_per_second": 0.095,
+      "step": 1232
+    },
+    {
+      "epoch": 22.0,
+      "learning_rate": 3.073688426111334e-05,
+      "loss": 0.5072,
+      "step": 1240
+    },
+    {
+      "epoch": 22.01,
+      "learning_rate": 3.0536643972767324e-05,
+      "loss": 0.4606,
+      "step": 1250
+    },
+    {
+      "epoch": 22.01,
+      "learning_rate": 3.0336403684421305e-05,
+      "loss": 0.5524,
+      "step": 1260
+    },
+    {
+      "epoch": 22.01,
+      "learning_rate": 3.013616339607529e-05,
+      "loss": 0.5717,
+      "step": 1270
+    },
+    {
+      "epoch": 22.02,
+      "learning_rate": 2.9935923107729274e-05,
+      "loss": 0.7443,
+      "step": 1280
+    },
+    {
+      "epoch": 22.02,
+      "eval_accuracy": 0.5714285714285714,
+      "eval_loss": 1.2705073356628418,
+      "eval_runtime": 293.0804,
+      "eval_samples_per_second": 0.74,
+      "eval_steps_per_second": 0.096,
+      "step": 1288
+    },
+    {
+      "epoch": 23.0,
+      "learning_rate": 2.973568281938326e-05,
+      "loss": 0.6123,
+      "step": 1290
+    },
+    {
+      "epoch": 23.0,
+      "learning_rate": 2.9535442531037244e-05,
+      "loss": 0.6612,
+      "step": 1300
+    },
+    {
+      "epoch": 23.01,
+      "learning_rate": 2.9335202242691228e-05,
+      "loss": 0.5372,
+      "step": 1310
+    },
+    {
+      "epoch": 23.01,
+      "learning_rate": 2.9134961954345213e-05,
+      "loss": 0.664,
+      "step": 1320
+    },
+    {
+      "epoch": 23.02,
+      "learning_rate": 2.8934721665999198e-05,
+      "loss": 0.554,
+      "step": 1330
+    },
+    {
+      "epoch": 23.02,
+      "learning_rate": 2.8734481377653182e-05,
+      "loss": 0.6904,
+      "step": 1340
+    },
+    {
+      "epoch": 23.02,
+      "eval_accuracy": 0.663594470046083,
+      "eval_loss": 0.8419041633605957,
+      "eval_runtime": 273.5294,
+      "eval_samples_per_second": 0.793,
+      "eval_steps_per_second": 0.102,
+      "step": 1344
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 2.8534241089307167e-05,
+      "loss": 0.4684,
+      "step": 1350
+    },
+    {
+      "epoch": 24.01,
+      "learning_rate": 2.833400080096115e-05,
+      "loss": 0.6528,
+      "step": 1360
+    },
+    {
+      "epoch": 24.01,
+      "learning_rate": 2.8133760512615136e-05,
+      "loss": 0.6146,
+      "step": 1370
+    },
+    {
+      "epoch": 24.01,
+      "learning_rate": 2.793352022426912e-05,
+      "loss": 0.6946,
+      "step": 1380
+    },
+    {
+      "epoch": 24.02,
+      "learning_rate": 2.7733279935923106e-05,
+      "loss": 0.7524,
+      "step": 1390
+    },
+    {
+      "epoch": 24.02,
+      "learning_rate": 2.753303964757709e-05,
+      "loss": 0.5888,
+      "step": 1400
+    },
+    {
+      "epoch": 24.02,
+      "eval_accuracy": 0.695852534562212,
+      "eval_loss": 0.7481154799461365,
+      "eval_runtime": 282.3869,
+      "eval_samples_per_second": 0.768,
+      "eval_steps_per_second": 0.099,
+      "step": 1400
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 2.7332799359231075e-05,
+      "loss": 0.5538,
+      "step": 1410
+    },
+    {
+      "epoch": 25.01,
+      "learning_rate": 2.713255907088506e-05,
+      "loss": 0.6264,
+      "step": 1420
+    },
+    {
+      "epoch": 25.01,
+      "learning_rate": 2.6932318782539044e-05,
+      "loss": 0.6003,
+      "step": 1430
+    },
+    {
+      "epoch": 25.01,
+      "learning_rate": 2.673207849419303e-05,
+      "loss": 0.3861,
+      "step": 1440
+    },
+    {
+      "epoch": 25.02,
+      "learning_rate": 2.6531838205847014e-05,
+      "loss": 0.6739,
+      "step": 1450
+    },
+    {
+      "epoch": 25.02,
+      "eval_accuracy": 0.7096774193548387,
+      "eval_loss": 0.9969804883003235,
+      "eval_runtime": 299.6469,
+      "eval_samples_per_second": 0.724,
+      "eval_steps_per_second": 0.093,
+      "step": 1456
+    },
+    {
+      "epoch": 26.0,
+      "learning_rate": 2.6331597917501e-05,
+      "loss": 0.5608,
+      "step": 1460
+    },
+    {
+      "epoch": 26.01,
+      "learning_rate": 2.613135762915499e-05,
+      "loss": 0.5111,
+      "step": 1470
+    },
+    {
+      "epoch": 26.01,
+      "learning_rate": 2.5931117340808974e-05,
+      "loss": 0.8708,
+      "step": 1480
+    },
+    {
+      "epoch": 26.01,
+      "learning_rate": 2.573087705246296e-05,
+      "loss": 0.4313,
+      "step": 1490
+    },
+    {
+      "epoch": 26.02,
+      "learning_rate": 2.5530636764116944e-05,
+      "loss": 0.6762,
+      "step": 1500
+    },
+    {
+      "epoch": 26.02,
+      "learning_rate": 2.533039647577093e-05,
+      "loss": 0.6595,
+      "step": 1510
+    },
+    {
+      "epoch": 26.02,
+      "eval_accuracy": 0.5806451612903226,
+      "eval_loss": 1.3474303483963013,
+      "eval_runtime": 295.6937,
+      "eval_samples_per_second": 0.734,
+      "eval_steps_per_second": 0.095,
+      "step": 1512
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 2.5130156187424913e-05,
+      "loss": 0.4747,
+      "step": 1520
+    },
+    {
+      "epoch": 27.01,
+      "learning_rate": 2.4929915899078894e-05,
+      "loss": 0.4853,
+      "step": 1530
+    },
+    {
+      "epoch": 27.01,
+      "learning_rate": 2.472967561073288e-05,
+      "loss": 0.7735,
+      "step": 1540
+    },
+    {
+      "epoch": 27.01,
+      "learning_rate": 2.4529435322386864e-05,
+      "loss": 0.6031,
+      "step": 1550
+    },
+    {
+      "epoch": 27.02,
+      "learning_rate": 2.432919503404085e-05,
+      "loss": 0.5574,
+      "step": 1560
+    },
+    {
+      "epoch": 27.02,
+      "eval_accuracy": 0.7926267281105991,
+      "eval_loss": 0.6245233416557312,
+      "eval_runtime": 272.7592,
+      "eval_samples_per_second": 0.796,
+      "eval_steps_per_second": 0.103,
+      "step": 1568
+    },
+    {
+      "epoch": 28.0,
+      "learning_rate": 2.4128954745694833e-05,
+      "loss": 0.5116,
+      "step": 1570
+    },
+    {
+      "epoch": 28.0,
+      "learning_rate": 2.3928714457348818e-05,
+      "loss": 0.4803,
+      "step": 1580
+    },
+    {
+      "epoch": 28.01,
+      "learning_rate": 2.3728474169002803e-05,
+      "loss": 0.6004,
+      "step": 1590
+    },
+    {
+      "epoch": 28.01,
+      "learning_rate": 2.3528233880656787e-05,
+      "loss": 0.6322,
+      "step": 1600
+    },
+    {
+      "epoch": 28.02,
+      "learning_rate": 2.3327993592310772e-05,
+      "loss": 0.6244,
+      "step": 1610
+    },
+    {
+      "epoch": 28.02,
+      "learning_rate": 2.3127753303964757e-05,
+      "loss": 0.5627,
+      "step": 1620
+    },
+    {
+      "epoch": 28.02,
+      "eval_accuracy": 0.7142857142857143,
+      "eval_loss": 0.771838366985321,
+      "eval_runtime": 280.8358,
+      "eval_samples_per_second": 0.773,
+      "eval_steps_per_second": 0.1,
+      "step": 1624
+    },
+    {
+      "epoch": 29.0,
+      "learning_rate": 2.292751301561874e-05,
+      "loss": 0.5542,
+      "step": 1630
+    },
+    {
+      "epoch": 29.01,
+      "learning_rate": 2.272727272727273e-05,
+      "loss": 0.5876,
+      "step": 1640
+    },
+    {
+      "epoch": 29.01,
+      "learning_rate": 2.2527032438926714e-05,
+      "loss": 0.6163,
+      "step": 1650
+    },
+    {
+      "epoch": 29.01,
+      "learning_rate": 2.23267921505807e-05,
+      "loss": 0.6306,
+      "step": 1660
+    },
+    {
+      "epoch": 29.02,
+      "learning_rate": 2.2126551862234683e-05,
+      "loss": 0.5298,
+      "step": 1670
+    },
+    {
+      "epoch": 29.02,
+      "learning_rate": 2.1926311573888668e-05,
+      "loss": 0.6417,
+      "step": 1680
+    },
+    {
+      "epoch": 29.02,
+      "eval_accuracy": 0.7603686635944701,
+      "eval_loss": 0.650582492351532,
+      "eval_runtime": 296.0664,
+      "eval_samples_per_second": 0.733,
+      "eval_steps_per_second": 0.095,
+      "step": 1680
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 2.1726071285542653e-05,
+      "loss": 0.5207,
+      "step": 1690
+    },
+    {
+      "epoch": 30.01,
+      "learning_rate": 2.1525830997196637e-05,
+      "loss": 0.6844,
+      "step": 1700
+    },
+    {
+      "epoch": 30.01,
+      "learning_rate": 2.1325590708850622e-05,
+      "loss": 0.5786,
+      "step": 1710
+    },
+    {
+      "epoch": 30.01,
+      "learning_rate": 2.1125350420504607e-05,
+      "loss": 0.6469,
+      "step": 1720
+    },
+    {
+      "epoch": 30.02,
+      "learning_rate": 2.092511013215859e-05,
+      "loss": 0.3854,
+      "step": 1730
+    },
+    {
+      "epoch": 30.02,
+      "eval_accuracy": 0.6543778801843319,
+      "eval_loss": 0.9524322152137756,
+      "eval_runtime": 299.1402,
+      "eval_samples_per_second": 0.725,
+      "eval_steps_per_second": 0.094,
+      "step": 1736
+    },
+    {
+      "epoch": 31.0,
+      "learning_rate": 2.0724869843812576e-05,
+      "loss": 0.5848,
+      "step": 1740
+    },
+    {
+      "epoch": 31.01,
+      "learning_rate": 2.052462955546656e-05,
+      "loss": 0.7229,
+      "step": 1750
+    },
+    {
+      "epoch": 31.01,
+      "learning_rate": 2.0324389267120545e-05,
+      "loss": 0.3224,
+      "step": 1760
+    },
+    {
+      "epoch": 31.01,
+      "learning_rate": 2.012414897877453e-05,
+      "loss": 0.6137,
+      "step": 1770
+    },
+    {
+      "epoch": 31.02,
+      "learning_rate": 1.9923908690428515e-05,
+      "loss": 0.6177,
+      "step": 1780
+    },
+    {
+      "epoch": 31.02,
+      "learning_rate": 1.9723668402082503e-05,
+      "loss": 0.354,
+      "step": 1790
+    },
+    {
+      "epoch": 31.02,
+      "eval_accuracy": 0.5944700460829493,
+      "eval_loss": 1.0662328004837036,
+      "eval_runtime": 276.3099,
+      "eval_samples_per_second": 0.785,
+      "eval_steps_per_second": 0.101,
+      "step": 1792
+    },
+    {
+      "epoch": 32.0,
+      "learning_rate": 1.9523428113736487e-05,
+      "loss": 0.5629,
+      "step": 1800
+    },
+    {
+      "epoch": 32.01,
+      "learning_rate": 1.9323187825390472e-05,
+      "loss": 0.5925,
+      "step": 1810
+    },
+    {
+      "epoch": 32.01,
+      "learning_rate": 1.9122947537044457e-05,
+      "loss": 0.5397,
+      "step": 1820
+    },
+    {
+      "epoch": 32.01,
+      "learning_rate": 1.892270724869844e-05,
+      "loss": 0.6561,
+      "step": 1830
+    },
+    {
+      "epoch": 32.02,
+      "learning_rate": 1.8722466960352426e-05,
+      "loss": 0.7568,
+      "step": 1840
+    },
+    {
+      "epoch": 32.02,
+      "eval_accuracy": 0.7603686635944701,
+      "eval_loss": 0.7328762412071228,
+      "eval_runtime": 283.5786,
+      "eval_samples_per_second": 0.765,
+      "eval_steps_per_second": 0.099,
+      "step": 1848
+    },
+    {
+      "epoch": 33.0,
+      "learning_rate": 1.852222667200641e-05,
+      "loss": 0.6542,
+      "step": 1850
+    },
+    {
+      "epoch": 33.0,
+      "learning_rate": 1.8321986383660396e-05,
+      "loss": 0.5953,
+      "step": 1860
+    },
+    {
+      "epoch": 33.01,
+      "learning_rate": 1.812174609531438e-05,
+      "loss": 0.6237,
+      "step": 1870
+    },
+    {
+      "epoch": 33.01,
+      "learning_rate": 1.7921505806968365e-05,
+      "loss": 0.4957,
+      "step": 1880
+    },
+    {
+      "epoch": 33.02,
+      "learning_rate": 1.772126551862235e-05,
+      "loss": 0.4511,
+      "step": 1890
+    },
+    {
+      "epoch": 33.02,
+      "learning_rate": 1.7521025230276334e-05,
+      "loss": 0.5359,
+      "step": 1900
+    },
+    {
+      "epoch": 33.02,
+      "eval_accuracy": 0.6774193548387096,
+      "eval_loss": 0.895764172077179,
+      "eval_runtime": 304.4353,
+      "eval_samples_per_second": 0.713,
+      "eval_steps_per_second": 0.092,
+      "step": 1904
+    },
+    {
+      "epoch": 34.0,
+      "learning_rate": 1.732078494193032e-05,
+      "loss": 0.4236,
+      "step": 1910
+    },
+    {
+      "epoch": 34.01,
+      "learning_rate": 1.7120544653584304e-05,
+      "loss": 0.5042,
+      "step": 1920
+    },
+    {
+      "epoch": 34.01,
+      "learning_rate": 1.6920304365238288e-05,
+      "loss": 0.3626,
+      "step": 1930
+    },
+    {
+      "epoch": 34.01,
+      "learning_rate": 1.6720064076892273e-05,
+      "loss": 0.4452,
+      "step": 1940
+    },
+    {
+      "epoch": 34.02,
+      "learning_rate": 1.6519823788546258e-05,
+      "loss": 0.41,
+      "step": 1950
+    },
+    {
+      "epoch": 34.02,
+      "learning_rate": 1.6319583500200242e-05,
+      "loss": 0.5946,
+      "step": 1960
+    },
+    {
+      "epoch": 34.02,
+      "eval_accuracy": 0.6912442396313364,
+      "eval_loss": 0.8311697244644165,
+      "eval_runtime": 308.1115,
+      "eval_samples_per_second": 0.704,
+      "eval_steps_per_second": 0.091,
+      "step": 1960
+    },
+    {
+      "epoch": 35.0,
+      "learning_rate": 1.6119343211854227e-05,
+      "loss": 0.3616,
+      "step": 1970
+    },
+    {
+      "epoch": 35.01,
+      "learning_rate": 1.591910292350821e-05,
+      "loss": 0.5359,
+      "step": 1980
+    },
+    {
+      "epoch": 35.01,
+      "learning_rate": 1.5718862635162196e-05,
+      "loss": 0.4199,
+      "step": 1990
+    },
+    {
+      "epoch": 35.01,
+      "learning_rate": 1.551862234681618e-05,
+      "loss": 0.6426,
+      "step": 2000
+    },
+    {
+      "epoch": 35.02,
+      "learning_rate": 1.5318382058470166e-05,
+      "loss": 0.5673,
+      "step": 2010
+    },
+    {
+      "epoch": 35.02,
+      "eval_accuracy": 0.7050691244239631,
+      "eval_loss": 0.7244735360145569,
+      "eval_runtime": 296.8166,
+      "eval_samples_per_second": 0.731,
+      "eval_steps_per_second": 0.094,
+      "step": 2016
+    },
+    {
+      "epoch": 36.0,
+      "learning_rate": 1.511814177012415e-05,
+      "loss": 0.5008,
+      "step": 2020
+    },
+    {
+      "epoch": 36.01,
+      "learning_rate": 1.4917901481778135e-05,
+      "loss": 0.618,
+      "step": 2030
+    },
+    {
+      "epoch": 36.01,
+      "learning_rate": 1.471766119343212e-05,
+      "loss": 0.4247,
+      "step": 2040
+    },
+    {
+      "epoch": 36.01,
+      "learning_rate": 1.4517420905086104e-05,
+      "loss": 0.4958,
+      "step": 2050
+    },
+    {
+      "epoch": 36.02,
+      "learning_rate": 1.4317180616740089e-05,
+      "loss": 0.5354,
+      "step": 2060
+    },
+    {
+      "epoch": 36.02,
+      "learning_rate": 1.4116940328394074e-05,
+      "loss": 0.4291,
+      "step": 2070
+    },
+    {
+      "epoch": 36.02,
+      "eval_accuracy": 0.6912442396313364,
+      "eval_loss": 0.8293845653533936,
+      "eval_runtime": 280.8321,
+      "eval_samples_per_second": 0.773,
+      "eval_steps_per_second": 0.1,
+      "step": 2072
+    },
+    {
+      "epoch": 37.0,
+      "learning_rate": 1.3916700040048058e-05,
+      "loss": 0.2799,
+      "step": 2080
+    },
+    {
+      "epoch": 37.01,
+      "learning_rate": 1.3716459751702043e-05,
+      "loss": 0.3613,
+      "step": 2090
+    },
+    {
+      "epoch": 37.01,
+      "learning_rate": 1.3516219463356028e-05,
+      "loss": 0.3897,
+      "step": 2100
+    },
+    {
+      "epoch": 37.01,
+      "learning_rate": 1.3315979175010012e-05,
+      "loss": 0.7273,
+      "step": 2110
+    },
+    {
+      "epoch": 37.02,
+      "learning_rate": 1.3115738886663997e-05,
+      "loss": 0.5245,
+      "step": 2120
+    },
+    {
+      "epoch": 37.02,
+      "eval_accuracy": 0.7004608294930875,
+      "eval_loss": 0.8930543661117554,
+      "eval_runtime": 291.8107,
+      "eval_samples_per_second": 0.744,
+      "eval_steps_per_second": 0.096,
+      "step": 2128
+    },
+    {
+      "epoch": 38.0,
+      "learning_rate": 1.2915498598317982e-05,
+      "loss": 0.4403,
+      "step": 2130
+    },
+    {
+      "epoch": 38.0,
+      "learning_rate": 1.2715258309971966e-05,
+      "loss": 0.47,
+      "step": 2140
+    },
+    {
+      "epoch": 38.01,
+      "learning_rate": 1.2515018021625951e-05,
+      "loss": 0.5665,
+      "step": 2150
+    },
+    {
+      "epoch": 38.01,
+      "learning_rate": 1.2314777733279936e-05,
+      "loss": 0.4663,
+      "step": 2160
+    },
+    {
+      "epoch": 38.02,
+      "learning_rate": 1.211453744493392e-05,
+      "loss": 0.5298,
+      "step": 2170
+    },
+    {
+      "epoch": 38.02,
+      "learning_rate": 1.1914297156587905e-05,
+      "loss": 0.4113,
+      "step": 2180
+    },
+    {
+      "epoch": 38.02,
+      "eval_accuracy": 0.6912442396313364,
+      "eval_loss": 0.7470101118087769,
+      "eval_runtime": 301.4121,
+      "eval_samples_per_second": 0.72,
+      "eval_steps_per_second": 0.093,
+      "step": 2184
+    },
+    {
+      "epoch": 39.0,
+      "learning_rate": 1.171405686824189e-05,
+      "loss": 0.5107,
+      "step": 2190
+    },
+    {
+      "epoch": 39.01,
+      "learning_rate": 1.1513816579895874e-05,
+      "loss": 0.3318,
+      "step": 2200
+    },
+    {
+      "epoch": 39.01,
+      "learning_rate": 1.131357629154986e-05,
+      "loss": 0.3652,
+      "step": 2210
+    },
+    {
+      "epoch": 39.01,
+      "learning_rate": 1.1113336003203845e-05,
+      "loss": 0.5929,
+      "step": 2220
+    },
+    {
+      "epoch": 39.02,
+      "learning_rate": 1.091309571485783e-05,
+      "loss": 0.6747,
+      "step": 2230
+    },
+    {
+      "epoch": 39.02,
+      "learning_rate": 1.0712855426511815e-05,
+      "loss": 0.456,
+      "step": 2240
+    },
+    {
+      "epoch": 39.02,
+      "eval_accuracy": 0.6728110599078341,
+      "eval_loss": 0.83251953125,
+      "eval_runtime": 296.4637,
+      "eval_samples_per_second": 0.732,
+      "eval_steps_per_second": 0.094,
+      "step": 2240
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 1.05126151381658e-05,
+      "loss": 0.4135,
+      "step": 2250
+    },
+    {
+      "epoch": 40.01,
+      "learning_rate": 1.0312374849819784e-05,
+      "loss": 0.4386,
+      "step": 2260
+    },
+    {
+      "epoch": 40.01,
+      "learning_rate": 1.0112134561473769e-05,
+      "loss": 0.3827,
+      "step": 2270
+    },
+    {
+      "epoch": 40.01,
+      "learning_rate": 9.911894273127754e-06,
+      "loss": 0.5813,
+      "step": 2280
+    },
+    {
+      "epoch": 40.02,
+      "learning_rate": 9.71165398478174e-06,
+      "loss": 0.6955,
+      "step": 2290
+    },
+    {
+      "epoch": 40.02,
+      "eval_accuracy": 0.7788018433179723,
+      "eval_loss": 0.6940905451774597,
+      "eval_runtime": 283.1651,
+      "eval_samples_per_second": 0.766,
+      "eval_steps_per_second": 0.099,
+      "step": 2296
+    },
+    {
+      "epoch": 41.0,
+      "learning_rate": 9.511413696435725e-06,
+      "loss": 0.6248,
+      "step": 2300
+    },
+    {
+      "epoch": 41.01,
+      "learning_rate": 9.31117340808971e-06,
+      "loss": 0.4685,
+      "step": 2310
+    },
+    {
+      "epoch": 41.01,
+      "learning_rate": 9.110933119743694e-06,
+      "loss": 0.5245,
+      "step": 2320
+    },
+    {
+      "epoch": 41.01,
+      "learning_rate": 8.910692831397679e-06,
+      "loss": 0.4043,
+      "step": 2330
+    },
+    {
+      "epoch": 41.02,
+      "learning_rate": 8.710452543051663e-06,
+      "loss": 0.5549,
+      "step": 2340
+    },
+    {
+      "epoch": 41.02,
+      "learning_rate": 8.510212254705648e-06,
+      "loss": 0.6283,
+      "step": 2350
+    },
+    {
+      "epoch": 41.02,
+      "eval_accuracy": 0.663594470046083,
+      "eval_loss": 0.966249406337738,
+      "eval_runtime": 294.1729,
+      "eval_samples_per_second": 0.738,
+      "eval_steps_per_second": 0.095,
+      "step": 2352
+    },
+    {
+      "epoch": 42.0,
+      "learning_rate": 8.309971966359633e-06,
+      "loss": 0.3517,
+      "step": 2360
+    },
+    {
+      "epoch": 42.01,
+      "learning_rate": 8.109731678013617e-06,
+      "loss": 0.3444,
+      "step": 2370
+    },
+    {
+      "epoch": 42.01,
+      "learning_rate": 7.909491389667602e-06,
+      "loss": 0.5992,
+      "step": 2380
+    },
+    {
+      "epoch": 42.01,
+      "learning_rate": 7.709251101321587e-06,
+      "loss": 0.4173,
+      "step": 2390
+    },
+    {
+      "epoch": 42.02,
+      "learning_rate": 7.509010812975571e-06,
+      "loss": 0.6465,
+      "step": 2400
+    },
+    {
+      "epoch": 42.02,
+      "eval_accuracy": 0.6129032258064516,
+      "eval_loss": 1.128628134727478,
+      "eval_runtime": 305.5849,
+      "eval_samples_per_second": 0.71,
+      "eval_steps_per_second": 0.092,
+      "step": 2408
+    },
+    {
+      "epoch": 43.0,
+      "learning_rate": 7.308770524629556e-06,
+      "loss": 0.4979,
+      "step": 2410
+    },
+    {
+      "epoch": 43.0,
+      "learning_rate": 7.108530236283541e-06,
+      "loss": 0.2924,
+      "step": 2420
+    },
+    {
+      "epoch": 43.01,
+      "learning_rate": 6.908289947937525e-06,
+      "loss": 0.4724,
+      "step": 2430
+    },
+    {
+      "epoch": 43.01,
+      "learning_rate": 6.70804965959151e-06,
+      "loss": 0.6343,
+      "step": 2440
+    },
+    {
+      "epoch": 43.02,
+      "learning_rate": 6.507809371245495e-06,
+      "loss": 0.3307,
+      "step": 2450
+    },
+    {
+      "epoch": 43.02,
+      "learning_rate": 6.307569082899479e-06,
+      "loss": 0.4387,
+      "step": 2460
+    },
+    {
+      "epoch": 43.02,
+      "eval_accuracy": 0.6175115207373272,
+      "eval_loss": 0.95246422290802,
+      "eval_runtime": 297.8793,
+      "eval_samples_per_second": 0.728,
+      "eval_steps_per_second": 0.094,
+      "step": 2464
+    },
+    {
+      "epoch": 44.0,
+      "learning_rate": 6.107328794553464e-06,
+      "loss": 0.297,
+      "step": 2470
+    },
+    {
+      "epoch": 44.01,
+      "learning_rate": 5.907088506207449e-06,
+      "loss": 0.2411,
+      "step": 2480
+    },
+    {
+      "epoch": 44.01,
+      "learning_rate": 5.706848217861433e-06,
+      "loss": 0.4188,
+      "step": 2490
+    },
+    {
+      "epoch": 44.01,
+      "learning_rate": 5.506607929515419e-06,
+      "loss": 0.2823,
+      "step": 2500
+    },
+    {
+      "epoch": 44.02,
+      "learning_rate": 5.306367641169404e-06,
+      "loss": 0.641,
+      "step": 2510
+    },
+    {
+      "epoch": 44.02,
+      "learning_rate": 5.106127352823388e-06,
+      "loss": 0.2879,
+      "step": 2520
+    },
+    {
+      "epoch": 44.02,
+      "eval_accuracy": 0.631336405529954,
+      "eval_loss": 1.0277422666549683,
+      "eval_runtime": 279.3381,
+      "eval_samples_per_second": 0.777,
+      "eval_steps_per_second": 0.1,
+      "step": 2520
+    },
+    {
+      "epoch": 45.0,
+      "learning_rate": 4.905887064477374e-06,
+      "loss": 0.4336,
+      "step": 2530
+    },
+    {
+      "epoch": 45.01,
+      "learning_rate": 4.7056467761313585e-06,
+      "loss": 0.4613,
+      "step": 2540
+    },
+    {
+      "epoch": 45.01,
+      "learning_rate": 4.505406487785343e-06,
+      "loss": 0.467,
+      "step": 2550
+    },
+    {
+      "epoch": 45.01,
+      "learning_rate": 4.305166199439328e-06,
+      "loss": 0.6047,
+      "step": 2560
+    },
+    {
+      "epoch": 45.02,
+      "learning_rate": 4.1049259110933125e-06,
+      "loss": 0.5188,
+      "step": 2570
+    },
+    {
+      "epoch": 45.02,
+      "eval_accuracy": 0.6359447004608295,
+      "eval_loss": 1.0630711317062378,
+      "eval_runtime": 289.6705,
+      "eval_samples_per_second": 0.749,
+      "eval_steps_per_second": 0.097,
+      "step": 2576
+    },
+    {
+      "epoch": 46.0,
+      "learning_rate": 3.904685622747297e-06,
+      "loss": 0.4725,
+      "step": 2580
+    },
+    {
+      "epoch": 46.01,
+      "learning_rate": 3.704445334401282e-06,
+      "loss": 0.3882,
+      "step": 2590
+    },
+    {
+      "epoch": 46.01,
+      "learning_rate": 3.5042050460552665e-06,
+      "loss": 0.554,
+      "step": 2600
+    },
+    {
+      "epoch": 46.01,
+      "learning_rate": 3.303964757709251e-06,
+      "loss": 0.3049,
+      "step": 2610
+    },
+    {
+      "epoch": 46.02,
+      "learning_rate": 3.103724469363236e-06,
+      "loss": 0.5718,
+      "step": 2620
+    },
+    {
+      "epoch": 46.02,
+      "learning_rate": 2.9034841810172205e-06,
+      "loss": 0.4464,
+      "step": 2630
+    },
+    {
+      "epoch": 46.02,
+      "eval_accuracy": 0.6359447004608295,
+      "eval_loss": 0.9313023090362549,
+      "eval_runtime": 308.1544,
+      "eval_samples_per_second": 0.704,
+      "eval_steps_per_second": 0.091,
+      "step": 2632
+    },
+    {
+      "epoch": 47.0,
+      "learning_rate": 2.7032438926712056e-06,
+      "loss": 0.5462,
+      "step": 2640
+    },
+    {
+      "epoch": 47.01,
+      "learning_rate": 2.5030036043251903e-06,
+      "loss": 0.286,
+      "step": 2650
+    },
+    {
+      "epoch": 47.01,
+      "learning_rate": 2.3027633159791754e-06,
+      "loss": 0.3264,
+      "step": 2660
+    },
+    {
+      "epoch": 47.01,
+      "learning_rate": 2.10252302763316e-06,
+      "loss": 0.3228,
+      "step": 2670
+    },
+    {
+      "epoch": 47.02,
+      "learning_rate": 1.9022827392871447e-06,
+      "loss": 0.6155,
+      "step": 2680
+    },
+    {
+      "epoch": 47.02,
+      "eval_accuracy": 0.6267281105990783,
+      "eval_loss": 0.9699475169181824,
+      "eval_runtime": 300.7358,
+      "eval_samples_per_second": 0.722,
+      "eval_steps_per_second": 0.093,
+      "step": 2688
+    },
+    {
+      "epoch": 48.0,
+      "learning_rate": 1.7020424509411294e-06,
+      "loss": 0.2717,
+      "step": 2690
+    },
+    {
+      "epoch": 48.0,
+      "learning_rate": 1.501802162595114e-06,
+      "loss": 0.3441,
+      "step": 2700
+    },
+    {
+      "epoch": 48.01,
+      "learning_rate": 1.301561874249099e-06,
+      "loss": 0.4568,
+      "step": 2710
+    },
+    {
+      "epoch": 48.01,
+      "learning_rate": 1.1013215859030839e-06,
+      "loss": 0.4951,
+      "step": 2720
+    },
+    {
+      "epoch": 48.02,
+      "learning_rate": 9.010812975570685e-07,
+      "loss": 0.3652,
+      "step": 2730
+    },
+    {
+      "epoch": 48.02,
+      "learning_rate": 7.008410092110533e-07,
+      "loss": 0.3921,
+      "step": 2740
+    },
+    {
+      "epoch": 48.02,
+      "eval_accuracy": 0.631336405529954,
+      "eval_loss": 1.0026726722717285,
+      "eval_runtime": 287.0603,
+      "eval_samples_per_second": 0.756,
+      "eval_steps_per_second": 0.098,
+      "step": 2744
+    },
+    {
+      "epoch": 49.0,
+      "learning_rate": 5.006007208650381e-07,
+      "loss": 0.4077,
+      "step": 2750
+    },
+    {
+      "epoch": 49.01,
+      "learning_rate": 3.003604325190229e-07,
+      "loss": 0.3483,
+      "step": 2760
+    },
+    {
+      "epoch": 49.01,
+      "learning_rate": 1.0012014417300761e-07,
+      "loss": 0.3345,
+      "step": 2770
+    },
+    {
+      "epoch": 49.01,
+      "eval_accuracy": 0.6221198156682027,
+      "eval_loss": 1.0278483629226685,
+      "eval_runtime": 278.1216,
+      "eval_samples_per_second": 0.78,
+      "eval_steps_per_second": 0.101,
+      "step": 2775
+    },
+    {
+      "epoch": 49.01,
+      "step": 2775,
+      "total_flos": 2.7602315185605673e+19,
+      "train_loss": 0.7044631591143908,
+      "train_runtime": 49084.8601,
+      "train_samples_per_second": 0.452,
+      "train_steps_per_second": 0.057
+    },
+    {
+      "epoch": 49.01,
+      "eval_accuracy": 0.7268518518518519,
+      "eval_loss": 0.7417604923248291,
+      "eval_runtime": 302.9136,
+      "eval_samples_per_second": 0.713,
+      "eval_steps_per_second": 0.089,
+      "step": 2775
+    },
+    {
+      "epoch": 49.01,
+      "eval_accuracy": 0.7268518518518519,
+      "eval_loss": 0.7417604923248291,
+      "eval_runtime": 287.1389,
+      "eval_samples_per_second": 0.752,
+      "eval_steps_per_second": 0.094,
+      "step": 2775
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2775,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 500,
+  "total_flos": 2.7602315185605673e+19,
+  "trial_name": null,
+  "trial_params": null
+}