diff --git "a/checkpoint-29800/trainer_state.json" "b/checkpoint-29800/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/checkpoint-29800/trainer_state.json"
@@ -0,0 +1,3741 @@
+{
+  "best_metric": 0.2396179437637329,
+  "best_model_checkpoint": "./vit-front-page-384-top-v2/checkpoint-29800",
+  "epoch": 63.40400013289478,
+  "global_step": 29800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.21,
+      "learning_rate": 7e-08,
+      "loss": 1.1579,
+      "step": 100
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 1.4e-07,
+      "loss": 1.0878,
+      "step": 200
+    },
+    {
+      "epoch": 0.43,
+      "eval_accuracy": 0.47199266883765073,
+      "eval_f1": 0.30458585117802356,
+      "eval_loss": 1.0330626964569092,
+      "eval_matthews_correlation": 0.06652323581980453,
+      "eval_precision": 0.31744913205816433,
+      "eval_recall": 0.3553557284231841,
+      "eval_runtime": 697.3486,
+      "eval_samples_per_second": 87.63,
+      "eval_steps_per_second": 10.954,
+      "step": 200
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 2.0999999999999997e-07,
+      "loss": 0.9749,
+      "step": 300
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 2.8e-07,
+      "loss": 0.8564,
+      "step": 400
+    },
+    {
+      "epoch": 0.85,
+      "eval_accuracy": 0.6716686576445368,
+      "eval_f1": 0.2862959733836089,
+      "eval_loss": 0.8043246269226074,
+      "eval_matthews_correlation": 0.02054232176534715,
+      "eval_precision": 0.3965367638489952,
+      "eval_recall": 0.3372454942697249,
+      "eval_runtime": 737.791,
+      "eval_samples_per_second": 82.827,
+      "eval_steps_per_second": 10.354,
+      "step": 400
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 3.5e-07,
+      "loss": 0.7595,
+      "step": 500
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 4.1999999999999995e-07,
+      "loss": 0.6686,
+      "step": 600
+    },
+    {
+      "epoch": 1.28,
+      "eval_accuracy": 0.7726685103667218,
+      "eval_f1": 0.5415520240343557,
+      "eval_loss": 0.6247742176055908,
+      "eval_matthews_correlation": 0.4840060501393934,
+      "eval_precision": 0.675520444855411,
+      "eval_recall": 0.549548707524528,
+      "eval_runtime": 748.1219,
+      "eval_samples_per_second": 81.683,
+      "eval_steps_per_second": 10.211,
+      "step": 600
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 4.9e-07,
+      "loss": 0.5908,
+      "step": 700
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 5.6e-07,
+      "loss": 0.5402,
+      "step": 800
+    },
+    {
+      "epoch": 1.7,
+      "eval_accuracy": 0.8031877464857877,
+      "eval_f1": 0.6064835974975745,
+      "eval_loss": 0.5200676918029785,
+      "eval_matthews_correlation": 0.5685671703134927,
+      "eval_precision": 0.7346226714541242,
+      "eval_recall": 0.623939460705213,
+      "eval_runtime": 747.2328,
+      "eval_samples_per_second": 81.78,
+      "eval_steps_per_second": 10.223,
+      "step": 800
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 6.3e-07,
+      "loss": 0.5092,
+      "step": 900
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 7e-07,
+      "loss": 0.4738,
+      "step": 1000
+    },
+    {
+      "epoch": 2.13,
+      "eval_accuracy": 0.8222847698375034,
+      "eval_f1": 0.656503045814189,
+      "eval_loss": 0.45921027660369873,
+      "eval_matthews_correlation": 0.6152769290835743,
+      "eval_precision": 0.7706297185314468,
+      "eval_recall": 0.6613208665680587,
+      "eval_runtime": 741.9279,
+      "eval_samples_per_second": 82.365,
+      "eval_steps_per_second": 10.296,
+      "step": 1000
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 6.975928473177441e-07,
+      "loss": 0.4505,
+      "step": 1100
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 6.951856946354883e-07,
+      "loss": 0.4334,
+      "step": 1200
+    },
+    {
+      "epoch": 2.55,
+      "eval_accuracy": 0.8358997856289581,
+      "eval_f1": 0.6933151931691204,
+      "eval_loss": 0.42466118931770325,
+      "eval_matthews_correlation": 0.6473298137474588,
+      "eval_precision": 0.8018420432885766,
+      "eval_recall": 0.6883870696562419,
+      "eval_runtime": 739.542,
+      "eval_samples_per_second": 82.631,
+      "eval_steps_per_second": 10.329,
+      "step": 1200
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 6.927785419532324e-07,
+      "loss": 0.421,
+      "step": 1300
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 6.903713892709766e-07,
+      "loss": 0.4096,
+      "step": 1400
+    },
+    {
+      "epoch": 2.98,
+      "eval_accuracy": 0.8459310412541524,
+      "eval_f1": 0.7259215048690799,
+      "eval_loss": 0.4023092985153198,
+      "eval_matthews_correlation": 0.6694736037554148,
+      "eval_precision": 0.817972095086389,
+      "eval_recall": 0.7115413009532899,
+      "eval_runtime": 742.9738,
+      "eval_samples_per_second": 82.249,
+      "eval_steps_per_second": 10.282,
+      "step": 1400
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 6.879642365887207e-07,
+      "loss": 0.399,
+      "step": 1500
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 6.855570839064649e-07,
+      "loss": 0.3911,
+      "step": 1600
+    },
+    {
+      "epoch": 3.4,
+      "eval_accuracy": 0.8531149257883455,
+      "eval_f1": 0.7472369760964189,
+      "eval_loss": 0.38542693853378296,
+      "eval_matthews_correlation": 0.6854869391821359,
+      "eval_precision": 0.8286984473444058,
+      "eval_recall": 0.728941183310836,
+      "eval_runtime": 750.7098,
+      "eval_samples_per_second": 81.402,
+      "eval_steps_per_second": 10.176,
+      "step": 1600
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 6.83149931224209e-07,
+      "loss": 0.3863,
+      "step": 1700
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 6.807427785419532e-07,
+      "loss": 0.374,
+      "step": 1800
+    },
+    {
+      "epoch": 3.83,
+      "eval_accuracy": 0.858727846961986,
+      "eval_f1": 0.7579728569088652,
+      "eval_loss": 0.3718436658382416,
+      "eval_matthews_correlation": 0.6985763451826267,
+      "eval_precision": 0.8419368842500098,
+      "eval_recall": 0.7379464209001965,
+      "eval_runtime": 743.1963,
+      "eval_samples_per_second": 82.225,
+      "eval_steps_per_second": 10.279,
+      "step": 1800
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 6.783356258596973e-07,
+      "loss": 0.373,
+      "step": 1900
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 6.759284731774416e-07,
+      "loss": 0.364,
+      "step": 2000
+    },
+    {
+      "epoch": 4.26,
+      "eval_accuracy": 0.8634243728419709,
+      "eval_f1": 0.7730246028265862,
+      "eval_loss": 0.3604389429092407,
+      "eval_matthews_correlation": 0.7086435730935319,
+      "eval_precision": 0.8446686042583251,
+      "eval_recall": 0.751376357217314,
+      "eval_runtime": 740.92,
+      "eval_samples_per_second": 82.477,
+      "eval_steps_per_second": 10.31,
+      "step": 2000
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 6.735213204951857e-07,
+      "loss": 0.361,
+      "step": 2100
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 6.711141678129298e-07,
+      "loss": 0.3515,
+      "step": 2200
+    },
+    {
+      "epoch": 4.68,
+      "eval_accuracy": 0.8670572256132485,
+      "eval_f1": 0.786935372106972,
+      "eval_loss": 0.35153478384017944,
+      "eval_matthews_correlation": 0.7164149373512902,
+      "eval_precision": 0.8431062825642964,
+      "eval_recall": 0.7655026420308885,
+      "eval_runtime": 744.262,
+      "eval_samples_per_second": 82.107,
+      "eval_steps_per_second": 10.264,
+      "step": 2200
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 6.68707015130674e-07,
+      "loss": 0.3474,
+      "step": 2300
+    },
+    {
+      "epoch": 5.11,
+      "learning_rate": 6.662998624484181e-07,
+      "loss": 0.3495,
+      "step": 2400
+    },
+    {
+      "epoch": 5.11,
+      "eval_accuracy": 0.8695445842674565,
+      "eval_f1": 0.7912078713980214,
+      "eval_loss": 0.3432447612285614,
+      "eval_matthews_correlation": 0.722187531750913,
+      "eval_precision": 0.8471645851807871,
+      "eval_recall": 0.7701986078087044,
+      "eval_runtime": 746.5629,
+      "eval_samples_per_second": 81.854,
+      "eval_steps_per_second": 10.232,
+      "step": 2400
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 6.638927097661623e-07,
+      "loss": 0.3393,
+      "step": 2500
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 6.614855570839064e-07,
+      "loss": 0.3394,
+      "step": 2600
+    },
+    {
+      "epoch": 5.53,
+      "eval_accuracy": 0.8722937701484234,
+      "eval_f1": 0.8014358996356167,
+      "eval_loss": 0.33667007088661194,
+      "eval_matthews_correlation": 0.7282296966850125,
+      "eval_precision": 0.8474604270710779,
+      "eval_recall": 0.7808572336828936,
+      "eval_runtime": 738.9406,
+      "eval_samples_per_second": 82.698,
+      "eval_steps_per_second": 10.338,
+      "step": 2600
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 6.590784044016506e-07,
+      "loss": 0.3322,
+      "step": 2700
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 6.566712517193947e-07,
+      "loss": 0.3292,
+      "step": 2800
+    },
+    {
+      "epoch": 5.96,
+      "eval_accuracy": 0.8754029684661834,
+      "eval_f1": 0.8057316783028342,
+      "eval_loss": 0.3303240239620209,
+      "eval_matthews_correlation": 0.7353280019112225,
+      "eval_precision": 0.8534328687035272,
+      "eval_recall": 0.7852621867922206,
+      "eval_runtime": 739.5259,
+      "eval_samples_per_second": 82.633,
+      "eval_steps_per_second": 10.33,
+      "step": 2800
+    },
+    {
+      "epoch": 6.17,
+      "learning_rate": 6.542640990371389e-07,
+      "loss": 0.3279,
+      "step": 2900
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 6.51856946354883e-07,
+      "loss": 0.3221,
+      "step": 3000
+    },
+    {
+      "epoch": 6.38,
+      "eval_accuracy": 0.8771048454401152,
+      "eval_f1": 0.8118912367116238,
+      "eval_loss": 0.325397253036499,
+      "eval_matthews_correlation": 0.7391493356040657,
+      "eval_precision": 0.8529734453691505,
+      "eval_recall": 0.7922690785460985,
+      "eval_runtime": 740.6825,
+      "eval_samples_per_second": 82.504,
+      "eval_steps_per_second": 10.313,
+      "step": 3000
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 6.494497936726272e-07,
+      "loss": 0.3198,
+      "step": 3100
+    },
+    {
+      "epoch": 6.81,
+      "learning_rate": 6.470426409903714e-07,
+      "loss": 0.3193,
+      "step": 3200
+    },
+    {
+      "epoch": 6.81,
+      "eval_accuracy": 0.8786430803973229,
+      "eval_f1": 0.8149222847393559,
+      "eval_loss": 0.32044103741645813,
+      "eval_matthews_correlation": 0.7425187249293684,
+      "eval_precision": 0.8557527653691984,
+      "eval_recall": 0.7949691401817414,
+      "eval_runtime": 746.3851,
+      "eval_samples_per_second": 81.873,
+      "eval_steps_per_second": 10.235,
+      "step": 3200
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 6.446354883081155e-07,
+      "loss": 0.3201,
+      "step": 3300
+    },
+    {
+      "epoch": 7.23,
+      "learning_rate": 6.422283356258597e-07,
+      "loss": 0.3132,
+      "step": 3400
+    },
+    {
+      "epoch": 7.23,
+      "eval_accuracy": 0.8806722414047031,
+      "eval_f1": 0.8174184090965871,
+      "eval_loss": 0.3158539831638336,
+      "eval_matthews_correlation": 0.7467975049519304,
+      "eval_precision": 0.8619184711052283,
+      "eval_recall": 0.795602570450299,
+      "eval_runtime": 738.2169,
+      "eval_samples_per_second": 82.779,
+      "eval_steps_per_second": 10.348,
+      "step": 3400
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 6.398211829436038e-07,
+      "loss": 0.3073,
+      "step": 3500
+    },
+    {
+      "epoch": 7.66,
+      "learning_rate": 6.37414030261348e-07,
+      "loss": 0.3132,
+      "step": 3600
+    },
+    {
+      "epoch": 7.66,
+      "eval_accuracy": 0.8820795627485313,
+      "eval_f1": 0.8206075847781881,
+      "eval_loss": 0.31192630529403687,
+      "eval_matthews_correlation": 0.7498734961565087,
+      "eval_precision": 0.8633026761277282,
+      "eval_recall": 0.7987569311521797,
+      "eval_runtime": 740.9094,
+      "eval_samples_per_second": 82.478,
+      "eval_steps_per_second": 10.31,
+      "step": 3600
+    },
+    {
+      "epoch": 7.87,
+      "learning_rate": 6.350068775790921e-07,
+      "loss": 0.3069,
+      "step": 3700
+    },
+    {
+      "epoch": 8.09,
+      "learning_rate": 6.326237964236588e-07,
+      "loss": 0.3025,
+      "step": 3800
+    },
+    {
+      "epoch": 8.09,
+      "eval_accuracy": 0.8831432358572388,
+      "eval_f1": 0.8196955655944261,
+      "eval_loss": 0.3085801303386688,
+      "eval_matthews_correlation": 0.7524770103029159,
+      "eval_precision": 0.8670221506031749,
+      "eval_recall": 0.7980346533793877,
+      "eval_runtime": 744.5383,
+      "eval_samples_per_second": 82.076,
+      "eval_steps_per_second": 10.26,
+      "step": 3800
+    },
+    {
+      "epoch": 8.3,
+      "learning_rate": 6.30216643741403e-07,
+      "loss": 0.3045,
+      "step": 3900
+    },
+    {
+      "epoch": 8.51,
+      "learning_rate": 6.278094910591471e-07,
+      "loss": 0.2985,
+      "step": 4000
+    },
+    {
+      "epoch": 8.51,
+      "eval_accuracy": 0.8848451128311705,
+      "eval_f1": 0.8224187877042858,
+      "eval_loss": 0.3054741322994232,
+      "eval_matthews_correlation": 0.7562553921752282,
+      "eval_precision": 0.8707087913084752,
+      "eval_recall": 0.8003224168402451,
+      "eval_runtime": 744.3622,
+      "eval_samples_per_second": 82.096,
+      "eval_steps_per_second": 10.262,
+      "step": 4000
+    },
+    {
+      "epoch": 8.72,
+      "learning_rate": 6.254023383768913e-07,
+      "loss": 0.3025,
+      "step": 4100
+    },
+    {
+      "epoch": 8.94,
+      "learning_rate": 6.229951856946355e-07,
+      "loss": 0.2935,
+      "step": 4200
+    },
+    {
+      "epoch": 8.94,
+      "eval_accuracy": 0.8856960513181364,
+      "eval_f1": 0.8270971016415025,
+      "eval_loss": 0.3019094467163086,
+      "eval_matthews_correlation": 0.7579503685116903,
+      "eval_precision": 0.8686093007370651,
+      "eval_recall": 0.8055890535079828,
+      "eval_runtime": 737.7079,
+      "eval_samples_per_second": 82.836,
+      "eval_steps_per_second": 10.355,
+      "step": 4200
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 6.205880330123796e-07,
+      "loss": 0.2922,
+      "step": 4300
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 6.181808803301237e-07,
+      "loss": 0.2972,
+      "step": 4400
+    },
+    {
+      "epoch": 9.36,
+      "eval_accuracy": 0.886726996023499,
+      "eval_f1": 0.8312888416170532,
+      "eval_loss": 0.29910609126091003,
+      "eval_matthews_correlation": 0.7602803738695297,
+      "eval_precision": 0.8670983019375994,
+      "eval_recall": 0.8110478011642049,
+      "eval_runtime": 740.1058,
+      "eval_samples_per_second": 82.568,
+      "eval_steps_per_second": 10.321,
+      "step": 4400
+    },
+    {
+      "epoch": 9.57,
+      "learning_rate": 6.15773727647868e-07,
+      "loss": 0.291,
+      "step": 4500
+    },
+    {
+      "epoch": 9.79,
+      "learning_rate": 6.133665749656121e-07,
+      "loss": 0.2842,
+      "step": 4600
+    },
+    {
+      "epoch": 9.79,
+      "eval_accuracy": 0.8881834099723445,
+      "eval_f1": 0.8288009711968476,
+      "eval_loss": 0.2969624698162079,
+      "eval_matthews_correlation": 0.7633162920871629,
+      "eval_precision": 0.87764007829966,
+      "eval_recall": 0.8043731442813558,
+      "eval_runtime": 741.7489,
+      "eval_samples_per_second": 82.385,
+      "eval_steps_per_second": 10.299,
+      "step": 4600
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 6.109594222833563e-07,
+      "loss": 0.2899,
+      "step": 4700
+    },
+    {
+      "epoch": 10.21,
+      "learning_rate": 6.085522696011004e-07,
+      "loss": 0.2817,
+      "step": 4800
+    },
+    {
+      "epoch": 10.21,
+      "eval_accuracy": 0.8889525274509483,
+      "eval_f1": 0.8315132262764084,
+      "eval_loss": 0.2943968176841736,
+      "eval_matthews_correlation": 0.7651421821245511,
+      "eval_precision": 0.8750942573381245,
+      "eval_recall": 0.8092884505952779,
+      "eval_runtime": 745.4507,
+      "eval_samples_per_second": 81.976,
+      "eval_steps_per_second": 10.247,
+      "step": 4800
+    },
+    {
+      "epoch": 10.43,
+      "learning_rate": 6.061451169188445e-07,
+      "loss": 0.2875,
+      "step": 4900
+    },
+    {
+      "epoch": 10.64,
+      "learning_rate": 6.037379642365887e-07,
+      "loss": 0.2835,
+      "step": 5000
+    },
+    {
+      "epoch": 10.64,
+      "eval_accuracy": 0.8902289351813972,
+      "eval_f1": 0.8358968469870814,
+      "eval_loss": 0.2914660573005676,
+      "eval_matthews_correlation": 0.7678325605146122,
+      "eval_precision": 0.8751855078748036,
+      "eval_recall": 0.8140379985221483,
+      "eval_runtime": 740.8099,
+      "eval_samples_per_second": 82.489,
+      "eval_steps_per_second": 10.312,
+      "step": 5000
+    },
+    {
+      "epoch": 10.85,
+      "learning_rate": 6.013308115543328e-07,
+      "loss": 0.2865,
+      "step": 5100
+    },
+    {
+      "epoch": 11.06,
+      "learning_rate": 5.98923658872077e-07,
+      "loss": 0.2785,
+      "step": 5200
+    },
+    {
+      "epoch": 11.06,
+      "eval_accuracy": 0.890376212996449,
+      "eval_f1": 0.8379544187375135,
+      "eval_loss": 0.2892487943172455,
+      "eval_matthews_correlation": 0.7683922526616379,
+      "eval_precision": 0.8718213134907034,
+      "eval_recall": 0.8183367928328248,
+      "eval_runtime": 743.5573,
+      "eval_samples_per_second": 82.185,
+      "eval_steps_per_second": 10.274,
+      "step": 5200
+    },
+    {
+      "epoch": 11.28,
+      "learning_rate": 5.965165061898212e-07,
+      "loss": 0.2806,
+      "step": 5300
+    },
+    {
+      "epoch": 11.49,
+      "learning_rate": 5.941093535075653e-07,
+      "loss": 0.277,
+      "step": 5400
+    },
+    {
+      "epoch": 11.49,
+      "eval_accuracy": 0.8905234908115007,
+      "eval_f1": 0.8422741485565478,
+      "eval_loss": 0.28853607177734375,
+      "eval_matthews_correlation": 0.7691630289472814,
+      "eval_precision": 0.867865425515812,
+      "eval_recall": 0.8254618782640463,
+      "eval_runtime": 744.2909,
+      "eval_samples_per_second": 82.104,
+      "eval_steps_per_second": 10.263,
+      "step": 5400
+    },
+    {
+      "epoch": 11.7,
+      "learning_rate": 5.91726272352132e-07,
+      "loss": 0.2756,
+      "step": 5500
+    },
+    {
+      "epoch": 11.91,
+      "learning_rate": 5.893191196698761e-07,
+      "loss": 0.2761,
+      "step": 5600
+    },
+    {
+      "epoch": 11.91,
+      "eval_accuracy": 0.8924708308105189,
+      "eval_f1": 0.8407206897924651,
+      "eval_loss": 0.2853315472602844,
+      "eval_matthews_correlation": 0.7728119384929814,
+      "eval_precision": 0.8769128232635235,
+      "eval_recall": 0.8197283860690042,
+      "eval_runtime": 745.7896,
+      "eval_samples_per_second": 81.939,
+      "eval_steps_per_second": 10.243,
+      "step": 5600
+    },
+    {
+      "epoch": 12.13,
+      "learning_rate": 5.869119669876203e-07,
+      "loss": 0.2707,
+      "step": 5700
+    },
+    {
+      "epoch": 12.34,
+      "learning_rate": 5.845048143053646e-07,
+      "loss": 0.2716,
+      "step": 5800
+    },
+    {
+      "epoch": 12.34,
+      "eval_accuracy": 0.8929453926590192,
+      "eval_f1": 0.8413825933753687,
+      "eval_loss": 0.28369224071502686,
+      "eval_matthews_correlation": 0.7738849095862524,
+      "eval_precision": 0.8776341480244246,
+      "eval_recall": 0.8205318685675761,
+      "eval_runtime": 740.9165,
+      "eval_samples_per_second": 82.478,
+      "eval_steps_per_second": 10.31,
+      "step": 5800
+    },
+    {
+      "epoch": 12.55,
+      "learning_rate": 5.820976616231087e-07,
+      "loss": 0.2712,
+      "step": 5900
+    },
+    {
+      "epoch": 12.77,
+      "learning_rate": 5.796905089408528e-07,
+      "loss": 0.2706,
+      "step": 6000
+    },
+    {
+      "epoch": 12.77,
+      "eval_accuracy": 0.893174491482433,
+      "eval_f1": 0.8403426048749795,
+      "eval_loss": 0.2822517454624176,
+      "eval_matthews_correlation": 0.7742762977153516,
+      "eval_precision": 0.880588737201879,
+      "eval_recall": 0.8178958665818555,
+      "eval_runtime": 738.4683,
+      "eval_samples_per_second": 82.751,
+      "eval_steps_per_second": 10.344,
+      "step": 6000
+    },
+    {
+      "epoch": 12.98,
+      "learning_rate": 5.77283356258597e-07,
+      "loss": 0.2694,
+      "step": 6100
+    },
+    {
+      "epoch": 13.19,
+      "learning_rate": 5.748762035763411e-07,
+      "loss": 0.2699,
+      "step": 6200
+    },
+    {
+      "epoch": 13.19,
+      "eval_accuracy": 0.8943363498011749,
+      "eval_f1": 0.8443115910170147,
+      "eval_loss": 0.28035762906074524,
+      "eval_matthews_correlation": 0.777057401011472,
+      "eval_precision": 0.8780772144476896,
+      "eval_recall": 0.824585718133633,
+      "eval_runtime": 742.9977,
+      "eval_samples_per_second": 82.247,
+      "eval_steps_per_second": 10.281,
+      "step": 6200
+    },
+    {
+      "epoch": 13.4,
+      "learning_rate": 5.724690508940853e-07,
+      "loss": 0.2678,
+      "step": 6300
+    },
+    {
+      "epoch": 13.62,
+      "learning_rate": 5.700618982118294e-07,
+      "loss": 0.2658,
+      "step": 6400
+    },
+    {
+      "epoch": 13.62,
+      "eval_accuracy": 0.8939763373643816,
+      "eval_f1": 0.8482864178784256,
+      "eval_loss": 0.279739111661911,
+      "eval_matthews_correlation": 0.7769030493211544,
+      "eval_precision": 0.871542005569914,
+      "eval_recall": 0.8327322280709701,
+      "eval_runtime": 743.5,
+      "eval_samples_per_second": 82.191,
+      "eval_steps_per_second": 10.274,
+      "step": 6400
+    },
+    {
+      "epoch": 13.83,
+      "learning_rate": 5.676547455295735e-07,
+      "loss": 0.2645,
+      "step": 6500
+    },
+    {
+      "epoch": 14.04,
+      "learning_rate": 5.652475928473177e-07,
+      "loss": 0.2641,
+      "step": 6600
+    },
+    {
+      "epoch": 14.04,
+      "eval_accuracy": 0.8951709240864685,
+      "eval_f1": 0.8478363991609905,
+      "eval_loss": 0.27740514278411865,
+      "eval_matthews_correlation": 0.7789944627888661,
+      "eval_precision": 0.8766918197263195,
+      "eval_recall": 0.8294813091251183,
+      "eval_runtime": 736.239,
+      "eval_samples_per_second": 83.002,
+      "eval_steps_per_second": 10.376,
+      "step": 6600
+    },
+    {
+      "epoch": 14.26,
+      "learning_rate": 5.628404401650618e-07,
+      "loss": 0.2613,
+      "step": 6700
+    },
+    {
+      "epoch": 14.47,
+      "learning_rate": 5.60433287482806e-07,
+      "loss": 0.2583,
+      "step": 6800
+    },
+    {
+      "epoch": 14.47,
+      "eval_accuracy": 0.8960054983717619,
+      "eval_f1": 0.8484009381961903,
+      "eval_loss": 0.2757231295108795,
+      "eval_matthews_correlation": 0.7807710754658247,
+      "eval_precision": 0.8788473802383798,
+      "eval_recall": 0.8296059132709127,
+      "eval_runtime": 737.7308,
+      "eval_samples_per_second": 82.834,
+      "eval_steps_per_second": 10.355,
+      "step": 6800
+    },
+    {
+      "epoch": 14.68,
+      "learning_rate": 5.580261348005502e-07,
+      "loss": 0.2622,
+      "step": 6900
+    },
+    {
+      "epoch": 14.89,
+      "learning_rate": 5.556189821182944e-07,
+      "loss": 0.2609,
+      "step": 7000
+    },
+    {
+      "epoch": 14.89,
+      "eval_accuracy": 0.8964636960185898,
+      "eval_f1": 0.8467878889818169,
+      "eval_loss": 0.274697482585907,
+      "eval_matthews_correlation": 0.7816126666488368,
+      "eval_precision": 0.8828935769496994,
+      "eval_recall": 0.825967453708594,
+      "eval_runtime": 745.3068,
+      "eval_samples_per_second": 81.992,
+      "eval_steps_per_second": 10.249,
+      "step": 7000
+    },
+    {
+      "epoch": 15.11,
+      "learning_rate": 5.532118294360385e-07,
+      "loss": 0.2623,
+      "step": 7100
+    },
+    {
+      "epoch": 15.32,
+      "learning_rate": 5.508046767537827e-07,
+      "loss": 0.2552,
+      "step": 7200
+    },
+    {
+      "epoch": 15.32,
+      "eval_accuracy": 0.8972000850938487,
+      "eval_f1": 0.8488471894918507,
+      "eval_loss": 0.27332302927970886,
+      "eval_matthews_correlation": 0.7831318513368358,
+      "eval_precision": 0.8836577049278613,
+      "eval_recall": 0.827858892352507,
+      "eval_runtime": 744.4826,
+      "eval_samples_per_second": 82.083,
+      "eval_steps_per_second": 10.261,
+      "step": 7200
+    },
+    {
+      "epoch": 15.53,
+      "learning_rate": 5.483975240715268e-07,
+      "loss": 0.2601,
+      "step": 7300
+    },
+    {
+      "epoch": 15.74,
+      "learning_rate": 5.45990371389271e-07,
+      "loss": 0.2565,
+      "step": 7400
+    },
+    {
+      "epoch": 15.74,
+      "eval_accuracy": 0.8969709862704348,
+      "eval_f1": 0.8464355744063914,
+      "eval_loss": 0.2729514539241791,
+      "eval_matthews_correlation": 0.7825953061295711,
+      "eval_precision": 0.8866637200187834,
+      "eval_recall": 0.8237014239383851,
+      "eval_runtime": 743.0997,
+      "eval_samples_per_second": 82.235,
+      "eval_steps_per_second": 10.28,
+      "step": 7400
+    },
+    {
+      "epoch": 15.96,
+      "learning_rate": 5.435832187070151e-07,
+      "loss": 0.2534,
+      "step": 7500
+    },
+    {
+      "epoch": 16.17,
+      "learning_rate": 5.411760660247592e-07,
+      "loss": 0.2542,
+      "step": 7600
+    },
+    {
+      "epoch": 16.17,
+      "eval_accuracy": 0.8977237395473662,
+      "eval_f1": 0.8506805656096144,
+      "eval_loss": 0.270821750164032,
+      "eval_matthews_correlation": 0.7844297352009149,
+      "eval_precision": 0.8822614346822268,
+      "eval_recall": 0.8312275513546116,
+      "eval_runtime": 741.166,
+      "eval_samples_per_second": 82.45,
+      "eval_steps_per_second": 10.307,
+      "step": 7600
+    },
+    {
+      "epoch": 16.38,
+      "learning_rate": 5.387689133425034e-07,
+      "loss": 0.2509,
+      "step": 7700
+    },
+    {
+      "epoch": 16.6,
+      "learning_rate": 5.363617606602475e-07,
+      "loss": 0.2558,
+      "step": 7800
+    },
+    {
+      "epoch": 16.6,
+      "eval_accuracy": 0.8981328445891767,
+      "eval_f1": 0.8532626854707139,
+      "eval_loss": 0.26965296268463135,
+      "eval_matthews_correlation": 0.7855245919617574,
+      "eval_precision": 0.8802239860976143,
+      "eval_recall": 0.8356030600335531,
+      "eval_runtime": 748.1086,
+      "eval_samples_per_second": 81.685,
+      "eval_steps_per_second": 10.211,
+      "step": 7800
+    },
+    {
+      "epoch": 16.81,
+      "learning_rate": 5.339546079779917e-07,
+      "loss": 0.2539,
+      "step": 7900
+    },
+    {
+      "epoch": 17.02,
+      "learning_rate": 5.315474552957359e-07,
+      "loss": 0.2477,
+      "step": 8000
+    },
+    {
+      "epoch": 17.02,
+      "eval_accuracy": 0.8987710484544011,
+      "eval_f1": 0.8545204466402865,
+      "eval_loss": 0.2690507769584656,
+      "eval_matthews_correlation": 0.7868961445247914,
+      "eval_precision": 0.8812243874345828,
+      "eval_recall": 0.8368239812000686,
+      "eval_runtime": 747.2219,
+      "eval_samples_per_second": 81.782,
+      "eval_steps_per_second": 10.223,
+      "step": 8000
+    },
+    {
+      "epoch": 17.23,
+      "learning_rate": 5.2914030261348e-07,
+      "loss": 0.2463,
+      "step": 8100
+    },
+    {
+      "epoch": 17.45,
+      "learning_rate": 5.267331499312242e-07,
+      "loss": 0.2502,
+      "step": 8200
+    },
+    {
+      "epoch": 17.45,
+      "eval_accuracy": 0.8990983324878495,
+      "eval_f1": 0.8546462671842509,
+      "eval_loss": 0.26760247349739075,
+      "eval_matthews_correlation": 0.7876851465411057,
+      "eval_precision": 0.8812407286161982,
+      "eval_recall": 0.8373995657726027,
+      "eval_runtime": 741.9382,
+      "eval_samples_per_second": 82.364,
+      "eval_steps_per_second": 10.296,
+      "step": 8200
+    },
+    {
+      "epoch": 17.66,
+      "learning_rate": 5.243259972489684e-07,
+      "loss": 0.251,
+      "step": 8300
+    },
+    {
+      "epoch": 17.87,
+      "learning_rate": 5.219188445667125e-07,
+      "loss": 0.2511,
+      "step": 8400
+    },
+    {
+      "epoch": 17.87,
+      "eval_accuracy": 0.8994092523196255,
+      "eval_f1": 0.8545339122334958,
+      "eval_loss": 0.2665061354637146,
+      "eval_matthews_correlation": 0.7882560569421876,
+      "eval_precision": 0.8828087230192415,
+      "eval_recall": 0.8365150750628026,
+      "eval_runtime": 740.5436,
+      "eval_samples_per_second": 82.519,
+      "eval_steps_per_second": 10.315,
+      "step": 8400
+    },
+    {
+      "epoch": 18.09,
+      "learning_rate": 5.195116918844567e-07,
+      "loss": 0.2408,
+      "step": 8500
+    },
+    {
+      "epoch": 18.3,
+      "learning_rate": 5.171045392022008e-07,
+      "loss": 0.2462,
+      "step": 8600
+    },
+    {
+      "epoch": 18.3,
+      "eval_accuracy": 0.90004745618485,
+      "eval_f1": 0.854345541460756,
+      "eval_loss": 0.26559463143348694,
+      "eval_matthews_correlation": 0.7894719027614444,
+      "eval_precision": 0.8859884402321344,
+      "eval_recall": 0.8347541294507611,
+      "eval_runtime": 750.3886,
+      "eval_samples_per_second": 81.436,
+      "eval_steps_per_second": 10.18,
+      "step": 8600
+    },
+    {
+      "epoch": 18.51,
+      "learning_rate": 5.146973865199449e-07,
+      "loss": 0.2444,
+      "step": 8700
+    },
+    {
+      "epoch": 18.72,
+      "learning_rate": 5.122902338376891e-07,
+      "loss": 0.2436,
+      "step": 8800
+    },
+    {
+      "epoch": 18.72,
+      "eval_accuracy": 0.8999819993781604,
+      "eval_f1": 0.8569867461994901,
+      "eval_loss": 0.264913409948349,
+      "eval_matthews_correlation": 0.7896869217134314,
+      "eval_precision": 0.8816538878944042,
+      "eval_recall": 0.8404004977379529,
+      "eval_runtime": 744.4344,
+      "eval_samples_per_second": 82.088,
+      "eval_steps_per_second": 10.261,
+      "step": 8800
+    },
+    {
+      "epoch": 18.94,
+      "learning_rate": 5.098830811554332e-07,
+      "loss": 0.2464,
+      "step": 8900
+    },
+    {
+      "epoch": 19.15,
+      "learning_rate": 5.074759284731774e-07,
+      "loss": 0.2464,
+      "step": 9000
+    },
+    {
+      "epoch": 19.15,
+      "eval_accuracy": 0.9005711106383675,
+      "eval_f1": 0.8562170006167902,
+      "eval_loss": 0.26369336247444153,
+      "eval_matthews_correlation": 0.7906712725947966,
+      "eval_precision": 0.8852868622867386,
+      "eval_recall": 0.8375004858208192,
+      "eval_runtime": 743.3786,
+      "eval_samples_per_second": 82.204,
+      "eval_steps_per_second": 10.276,
+      "step": 9000
+    },
+    {
+      "epoch": 19.36,
+      "learning_rate": 5.050687757909216e-07,
+      "loss": 0.2381,
+      "step": 9100
+    },
+    {
+      "epoch": 19.57,
+      "learning_rate": 5.026616231086657e-07,
+      "loss": 0.2437,
+      "step": 9200
+    },
+    {
+      "epoch": 19.57,
+      "eval_accuracy": 0.9009147588734884,
+      "eval_f1": 0.8571370437744039,
+      "eval_loss": 0.26282036304473877,
+      "eval_matthews_correlation": 0.7914882999582277,
+      "eval_precision": 0.8851775755386426,
+      "eval_recall": 0.8389657015963111,
+      "eval_runtime": 740.0577,
+      "eval_samples_per_second": 82.573,
+      "eval_steps_per_second": 10.322,
+      "step": 9200
+    },
+    {
+      "epoch": 19.79,
+      "learning_rate": 5.002544704264098e-07,
+      "loss": 0.2418,
+      "step": 9300
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 4.978473177441541e-07,
+      "loss": 0.241,
+      "step": 9400
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9013074997136264,
+      "eval_f1": 0.8579732984585191,
+      "eval_loss": 0.2618636190891266,
+      "eval_matthews_correlation": 0.7923310665266654,
+      "eval_precision": 0.8854615836013919,
+      "eval_recall": 0.839858651438767,
+      "eval_runtime": 748.2729,
+      "eval_samples_per_second": 81.667,
+      "eval_steps_per_second": 10.209,
+      "step": 9400
+    },
+    {
+      "epoch": 20.21,
+      "learning_rate": 4.954401650618982e-07,
+      "loss": 0.2406,
+      "step": 9500
+    },
+    {
+      "epoch": 20.43,
+      "learning_rate": 4.930330123796424e-07,
+      "loss": 0.2389,
+      "step": 9600
+    },
+    {
+      "epoch": 20.43,
+      "eval_accuracy": 0.9017002405537646,
+      "eval_f1": 0.8575329634536392,
+      "eval_loss": 0.261372447013855,
+      "eval_matthews_correlation": 0.7930363459247477,
+      "eval_precision": 0.888018208273173,
+      "eval_recall": 0.838029027266019,
+      "eval_runtime": 745.7008,
+      "eval_samples_per_second": 81.948,
+      "eval_steps_per_second": 10.244,
+      "step": 9600
+    },
+    {
+      "epoch": 20.64,
+      "learning_rate": 4.906258596973865e-07,
+      "loss": 0.237,
+      "step": 9700
+    },
+    {
+      "epoch": 20.85,
+      "learning_rate": 4.882427785419532e-07,
+      "loss": 0.2391,
+      "step": 9800
+    },
+    {
+      "epoch": 20.85,
+      "eval_accuracy": 0.9013565923186437,
+      "eval_f1": 0.8597863431938432,
+      "eval_loss": 0.2607530355453491,
+      "eval_matthews_correlation": 0.7927602334646836,
+      "eval_precision": 0.8827109469253611,
+      "eval_recall": 0.8439017966934105,
+      "eval_runtime": 742.1666,
+      "eval_samples_per_second": 82.339,
+      "eval_steps_per_second": 10.293,
+      "step": 9800
+    },
+    {
+      "epoch": 21.06,
+      "learning_rate": 4.858356258596974e-07,
+      "loss": 0.2357,
+      "step": 9900
+    },
+    {
+      "epoch": 21.28,
+      "learning_rate": 4.834284731774415e-07,
+      "loss": 0.2371,
+      "step": 10000
+    },
+    {
+      "epoch": 21.28,
+      "eval_accuracy": 0.9024039012256787,
+      "eval_f1": 0.8585350986459802,
+      "eval_loss": 0.25968602299690247,
+      "eval_matthews_correlation": 0.7945932525195208,
+      "eval_precision": 0.8889130473258957,
+      "eval_recall": 0.8392043038337625,
+      "eval_runtime": 741.2239,
+      "eval_samples_per_second": 82.443,
+      "eval_steps_per_second": 10.306,
+      "step": 10000
+    },
+    {
+      "epoch": 21.49,
+      "learning_rate": 4.810213204951857e-07,
+      "loss": 0.2315,
+      "step": 10100
+    },
+    {
+      "epoch": 21.7,
+      "learning_rate": 4.786141678129298e-07,
+      "loss": 0.235,
+      "step": 10200
+    },
+    {
+      "epoch": 21.7,
+      "eval_accuracy": 0.9023875370240063,
+      "eval_f1": 0.8579339604243469,
+      "eval_loss": 0.2591555118560791,
+      "eval_matthews_correlation": 0.7945022911900744,
+      "eval_precision": 0.8901148253384278,
+      "eval_recall": 0.8378479456567698,
+      "eval_runtime": 750.7123,
+      "eval_samples_per_second": 81.401,
+      "eval_steps_per_second": 10.176,
+      "step": 10200
+    },
+    {
+      "epoch": 21.91,
+      "learning_rate": 4.7620701513067397e-07,
+      "loss": 0.236,
+      "step": 10300
+    },
+    {
+      "epoch": 22.13,
+      "learning_rate": 4.737998624484181e-07,
+      "loss": 0.2337,
+      "step": 10400
+    },
+    {
+      "epoch": 22.13,
+      "eval_accuracy": 0.9021584382005924,
+      "eval_f1": 0.860737037506755,
+      "eval_loss": 0.25833263993263245,
+      "eval_matthews_correlation": 0.7944254210179659,
+      "eval_precision": 0.8843675846869027,
+      "eval_recall": 0.844477056198123,
+      "eval_runtime": 743.1068,
+      "eval_samples_per_second": 82.234,
+      "eval_steps_per_second": 10.28,
+      "step": 10400
+    },
+    {
+      "epoch": 22.34,
+      "learning_rate": 4.7139270976616234e-07,
+      "loss": 0.2375,
+      "step": 10500
+    },
+    {
+      "epoch": 22.55,
+      "learning_rate": 4.6898555708390644e-07,
+      "loss": 0.2281,
+      "step": 10600
+    },
+    {
+      "epoch": 22.55,
+      "eval_accuracy": 0.9028457346708341,
+      "eval_f1": 0.8598823495950803,
+      "eval_loss": 0.25760677456855774,
+      "eval_matthews_correlation": 0.7955802107006815,
+      "eval_precision": 0.8886009036729954,
+      "eval_recall": 0.8410807443232993,
+      "eval_runtime": 742.6712,
+      "eval_samples_per_second": 82.283,
+      "eval_steps_per_second": 10.286,
+      "step": 10600
+    },
+    {
+      "epoch": 22.77,
+      "learning_rate": 4.665784044016506e-07,
+      "loss": 0.2303,
+      "step": 10700
+    },
+    {
+      "epoch": 22.98,
+      "learning_rate": 4.6417125171939476e-07,
+      "loss": 0.2344,
+      "step": 10800
+    },
+    {
+      "epoch": 22.98,
+      "eval_accuracy": 0.9032384755109722,
+      "eval_f1": 0.8614877881378621,
+      "eval_loss": 0.25682786107063293,
+      "eval_matthews_correlation": 0.7966375034728815,
+      "eval_precision": 0.8871158453880478,
+      "eval_recall": 0.8443591875886006,
+      "eval_runtime": 739.46,
+      "eval_samples_per_second": 82.64,
+      "eval_steps_per_second": 10.331,
+      "step": 10800
+    },
+    {
+      "epoch": 23.19,
+      "learning_rate": 4.617881705639615e-07,
+      "loss": 0.23,
+      "step": 10900
+    },
+    {
+      "epoch": 23.4,
+      "learning_rate": 4.5938101788170567e-07,
+      "loss": 0.2272,
+      "step": 11000
+    },
+    {
+      "epoch": 23.4,
+      "eval_accuracy": 0.9034512101327137,
+      "eval_f1": 0.8610570534840231,
+      "eval_loss": 0.2564578950405121,
+      "eval_matthews_correlation": 0.7970282021069359,
+      "eval_precision": 0.8883674341834357,
+      "eval_recall": 0.8432709063754382,
+      "eval_runtime": 752.7164,
+      "eval_samples_per_second": 81.185,
+      "eval_steps_per_second": 10.149,
+      "step": 11000
+    },
+    {
+      "epoch": 23.62,
+      "learning_rate": 4.569738651994498e-07,
+      "loss": 0.2332,
+      "step": 11100
+    },
+    {
+      "epoch": 23.83,
+      "learning_rate": 4.5456671251719393e-07,
+      "loss": 0.2293,
+      "step": 11200
+    },
+    {
+      "epoch": 23.83,
+      "eval_accuracy": 0.9036148521494379,
+      "eval_f1": 0.8616572588260412,
+      "eval_loss": 0.25602078437805176,
+      "eval_matthews_correlation": 0.797432339957468,
+      "eval_precision": 0.888044730558219,
+      "eval_recall": 0.8443106476754284,
+      "eval_runtime": 742.2507,
+      "eval_samples_per_second": 82.329,
+      "eval_steps_per_second": 10.292,
+      "step": 11200
+    },
+    {
+      "epoch": 24.04,
+      "learning_rate": 4.521595598349381e-07,
+      "loss": 0.2294,
+      "step": 11300
+    },
+    {
+      "epoch": 24.26,
+      "learning_rate": 4.4975240715268225e-07,
+      "loss": 0.228,
+      "step": 11400
+    },
+    {
+      "epoch": 24.26,
+      "eval_accuracy": 0.9036803089561276,
+      "eval_f1": 0.863877165875425,
+      "eval_loss": 0.2554364502429962,
+      "eval_matthews_correlation": 0.7978497276838488,
+      "eval_precision": 0.8853713205361755,
+      "eval_recall": 0.8485692629483124,
+      "eval_runtime": 741.2199,
+      "eval_samples_per_second": 82.444,
+      "eval_steps_per_second": 10.306,
+      "step": 11400
+    },
+    {
+      "epoch": 24.47,
+      "learning_rate": 4.4734525447042636e-07,
+      "loss": 0.2285,
+      "step": 11500
+    },
+    {
+      "epoch": 24.68,
+      "learning_rate": 4.449381017881705e-07,
+      "loss": 0.2241,
+      "step": 11600
+    },
+    {
+      "epoch": 24.68,
+      "eval_accuracy": 0.9043839696280417,
+      "eval_f1": 0.8622166226518697,
+      "eval_loss": 0.25478339195251465,
+      "eval_matthews_correlation": 0.7990088010286016,
+      "eval_precision": 0.8902756572528782,
+      "eval_recall": 0.8440660279986302,
+      "eval_runtime": 744.3537,
+      "eval_samples_per_second": 82.097,
+      "eval_steps_per_second": 10.263,
+      "step": 11600
+    },
+    {
+      "epoch": 24.89,
+      "learning_rate": 4.425309491059147e-07,
+      "loss": 0.2268,
+      "step": 11700
+    },
+    {
+      "epoch": 25.11,
+      "learning_rate": 4.4012379642365883e-07,
+      "loss": 0.2245,
+      "step": 11800
+    },
+    {
+      "epoch": 25.11,
+      "eval_accuracy": 0.9046457968548004,
+      "eval_f1": 0.8637462915746076,
+      "eval_loss": 0.2541418671607971,
+      "eval_matthews_correlation": 0.7996477164682352,
+      "eval_precision": 0.8892718452758656,
+      "eval_recall": 0.8464763772370704,
+      "eval_runtime": 748.8427,
+      "eval_samples_per_second": 81.605,
+      "eval_steps_per_second": 10.201,
+      "step": 11800
+    },
+    {
+      "epoch": 25.32,
+      "learning_rate": 4.37716643741403e-07,
+      "loss": 0.225,
+      "step": 11900
+    },
+    {
+      "epoch": 25.53,
+      "learning_rate": 4.353094910591472e-07,
+      "loss": 0.2238,
+      "step": 12000
+    },
+    {
+      "epoch": 25.53,
+      "eval_accuracy": 0.903811222569507,
+      "eval_f1": 0.864660167207754,
+      "eval_loss": 0.25406739115715027,
+      "eval_matthews_correlation": 0.7983907547582928,
+      "eval_precision": 0.8839791554106121,
+      "eval_recall": 0.8508116086209433,
+      "eval_runtime": 745.3712,
+      "eval_samples_per_second": 81.985,
+      "eval_steps_per_second": 10.249,
+      "step": 12000
+    },
+    {
+      "epoch": 25.74,
+      "learning_rate": 4.3290233837689136e-07,
+      "loss": 0.2247,
+      "step": 12100
+    },
+    {
+      "epoch": 25.96,
+      "learning_rate": 4.3049518569463547e-07,
+      "loss": 0.225,
+      "step": 12200
+    },
+    {
+      "epoch": 25.96,
+      "eval_accuracy": 0.905054901896611,
+      "eval_f1": 0.8641024583307882,
+      "eval_loss": 0.25294584035873413,
+      "eval_matthews_correlation": 0.8004878158132844,
+      "eval_precision": 0.8903692184524515,
+      "eval_recall": 0.84646983821535,
+      "eval_runtime": 739.4176,
+      "eval_samples_per_second": 82.645,
+      "eval_steps_per_second": 10.331,
+      "step": 12200
+    },
+    {
+      "epoch": 26.17,
+      "learning_rate": 4.2808803301237963e-07,
+      "loss": 0.2232,
+      "step": 12300
+    },
+    {
+      "epoch": 26.38,
+      "learning_rate": 4.256808803301238e-07,
+      "loss": 0.2208,
+      "step": 12400
+    },
+    {
+      "epoch": 26.38,
+      "eval_accuracy": 0.9049894450899213,
+      "eval_f1": 0.8656264504704531,
+      "eval_loss": 0.2527241110801697,
+      "eval_matthews_correlation": 0.8005795279768213,
+      "eval_precision": 0.8879028249152308,
+      "eval_recall": 0.8498085009087021,
+      "eval_runtime": 738.7805,
+      "eval_samples_per_second": 82.716,
+      "eval_steps_per_second": 10.34,
+      "step": 12400
+    },
+    {
+      "epoch": 26.6,
+      "learning_rate": 4.2327372764786794e-07,
+      "loss": 0.227,
+      "step": 12500
+    },
+    {
+      "epoch": 26.81,
+      "learning_rate": 4.2086657496561205e-07,
+      "loss": 0.2213,
+      "step": 12600
+    },
+    {
+      "epoch": 26.81,
+      "eval_accuracy": 0.9055949205518009,
+      "eval_f1": 0.8659007593747939,
+      "eval_loss": 0.2519753873348236,
+      "eval_matthews_correlation": 0.8018946867846759,
+      "eval_precision": 0.8888062714711293,
+      "eval_recall": 0.8501058257883659,
+      "eval_runtime": 749.2751,
+      "eval_samples_per_second": 81.557,
+      "eval_steps_per_second": 10.195,
+      "step": 12600
+    },
+    {
+      "epoch": 27.02,
+      "learning_rate": 4.184594222833562e-07,
+      "loss": 0.2185,
+      "step": 12700
+    },
+    {
+      "epoch": 27.23,
+      "learning_rate": 4.1605226960110037e-07,
+      "loss": 0.2162,
+      "step": 12800
+    },
+    {
+      "epoch": 27.23,
+      "eval_accuracy": 0.9055458279467836,
+      "eval_f1": 0.8654050977825888,
+      "eval_loss": 0.251761794090271,
+      "eval_matthews_correlation": 0.8017166743761434,
+      "eval_precision": 0.8894291889404059,
+      "eval_recall": 0.8490704765886147,
+      "eval_runtime": 736.7918,
+      "eval_samples_per_second": 82.939,
+      "eval_steps_per_second": 10.368,
+      "step": 12800
+    },
+    {
+      "epoch": 27.45,
+      "learning_rate": 4.136451169188445e-07,
+      "loss": 0.2249,
+      "step": 12900
+    },
+    {
+      "epoch": 27.66,
+      "learning_rate": 4.112379642365887e-07,
+      "loss": 0.2191,
+      "step": 13000
+    },
+    {
+      "epoch": 27.66,
+      "eval_accuracy": 0.9057749267701976,
+      "eval_f1": 0.8640115443984718,
+      "eval_loss": 0.251422643661499,
+      "eval_matthews_correlation": 0.8019134866391471,
+      "eval_precision": 0.8934815340390392,
+      "eval_recall": 0.844930576575448,
+      "eval_runtime": 737.5683,
+      "eval_samples_per_second": 82.852,
+      "eval_steps_per_second": 10.357,
+      "step": 13000
+    },
+    {
+      "epoch": 27.87,
+      "learning_rate": 4.088308115543329e-07,
+      "loss": 0.2188,
+      "step": 13100
+    },
+    {
+      "epoch": 28.09,
+      "learning_rate": 4.0642365887207706e-07,
+      "loss": 0.2191,
+      "step": 13200
+    },
+    {
+      "epoch": 28.09,
+      "eval_accuracy": 0.9049894450899213,
+      "eval_f1": 0.8675464478616566,
+      "eval_loss": 0.2514873445034027,
+      "eval_matthews_correlation": 0.8011420603338137,
+      "eval_precision": 0.8844914181097606,
+      "eval_recall": 0.8548387805177459,
+      "eval_runtime": 745.343,
+      "eval_samples_per_second": 81.988,
+      "eval_steps_per_second": 10.249,
+      "step": 13200
+    },
+    {
+      "epoch": 28.3,
+      "learning_rate": 4.0401650618982116e-07,
+      "loss": 0.219,
+      "step": 13300
+    },
+    {
+      "epoch": 28.51,
+      "learning_rate": 4.016093535075653e-07,
+      "loss": 0.2205,
+      "step": 13400
+    },
+    {
+      "epoch": 28.51,
+      "eval_accuracy": 0.9057094699635079,
+      "eval_f1": 0.8676904171040173,
+      "eval_loss": 0.25054237246513367,
+      "eval_matthews_correlation": 0.8024081650223417,
+      "eval_precision": 0.8869776283900569,
+      "eval_recall": 0.8535847409175318,
+      "eval_runtime": 750.8946,
+      "eval_samples_per_second": 81.382,
+      "eval_steps_per_second": 10.173,
+      "step": 13400
+    },
+    {
+      "epoch": 28.72,
+      "learning_rate": 3.992022008253095e-07,
+      "loss": 0.216,
+      "step": 13500
+    },
+    {
+      "epoch": 28.94,
+      "learning_rate": 3.9679504814305364e-07,
+      "loss": 0.214,
+      "step": 13600
+    },
+    {
+      "epoch": 28.94,
+      "eval_accuracy": 0.9062331244170253,
+      "eval_f1": 0.867645791485915,
+      "eval_loss": 0.24997290968894958,
+      "eval_matthews_correlation": 0.8033874172790445,
+      "eval_precision": 0.8886721526351784,
+      "eval_recall": 0.852700998600651,
+      "eval_runtime": 745.2233,
+      "eval_samples_per_second": 82.001,
+      "eval_steps_per_second": 10.251,
+      "step": 13600
+    },
+    {
+      "epoch": 29.15,
+      "learning_rate": 3.943878954607978e-07,
+      "loss": 0.2144,
+      "step": 13700
+    },
+    {
+      "epoch": 29.36,
+      "learning_rate": 3.919807427785419e-07,
+      "loss": 0.2207,
+      "step": 13800
+    },
+    {
+      "epoch": 29.36,
+      "eval_accuracy": 0.9066913220638532,
+      "eval_f1": 0.8675697100687536,
+      "eval_loss": 0.2494281381368637,
+      "eval_matthews_correlation": 0.8042043740475852,
+      "eval_precision": 0.8908271504932497,
+      "eval_recall": 0.851473961737513,
+      "eval_runtime": 736.0083,
+      "eval_samples_per_second": 83.028,
+      "eval_steps_per_second": 10.379,
+      "step": 13800
+    },
+    {
+      "epoch": 29.57,
+      "learning_rate": 3.8957359009628606e-07,
+      "loss": 0.2122,
+      "step": 13900
+    },
+    {
+      "epoch": 29.79,
+      "learning_rate": 3.871664374140302e-07,
+      "loss": 0.219,
+      "step": 14000
+    },
+    {
+      "epoch": 29.79,
+      "eval_accuracy": 0.9062331244170253,
+      "eval_f1": 0.8687037334671018,
+      "eval_loss": 0.249604269862175,
+      "eval_matthews_correlation": 0.8036021820406698,
+      "eval_precision": 0.8873113636744671,
+      "eval_recall": 0.8550087041944906,
+      "eval_runtime": 741.2966,
+      "eval_samples_per_second": 82.435,
+      "eval_steps_per_second": 10.305,
+      "step": 14000
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 3.8475928473177443e-07,
+      "loss": 0.2116,
+      "step": 14100
+    },
+    {
+      "epoch": 30.21,
+      "learning_rate": 3.823521320495186e-07,
+      "loss": 0.2142,
+      "step": 14200
+    },
+    {
+      "epoch": 30.21,
+      "eval_accuracy": 0.906494951643784,
+      "eval_f1": 0.8680762828304092,
+      "eval_loss": 0.24876296520233154,
+      "eval_matthews_correlation": 0.8038881291758961,
+      "eval_precision": 0.8895630825937241,
+      "eval_recall": 0.852751783692581,
+      "eval_runtime": 754.682,
+      "eval_samples_per_second": 80.973,
+      "eval_steps_per_second": 10.122,
+      "step": 14200
+    },
+    {
+      "epoch": 30.43,
+      "learning_rate": 3.7996905089408523e-07,
+      "loss": 0.2134,
+      "step": 14300
+    },
+    {
+      "epoch": 30.64,
+      "learning_rate": 3.775618982118294e-07,
+      "loss": 0.2141,
+      "step": 14400
+    },
+    {
+      "epoch": 30.64,
+      "eval_accuracy": 0.9072640691223879,
+      "eval_f1": 0.8685185701276202,
+      "eval_loss": 0.2483629435300827,
+      "eval_matthews_correlation": 0.8053746864658841,
+      "eval_precision": 0.8919558059100855,
+      "eval_recall": 0.8520663663180831,
+      "eval_runtime": 738.298,
+      "eval_samples_per_second": 82.77,
+      "eval_steps_per_second": 10.347,
+      "step": 14400
+    },
+    {
+      "epoch": 30.85,
+      "learning_rate": 3.7515474552957355e-07,
+      "loss": 0.2114,
+      "step": 14500
+    },
+    {
+      "epoch": 31.06,
+      "learning_rate": 3.7274759284731776e-07,
+      "loss": 0.2126,
+      "step": 14600
+    },
+    {
+      "epoch": 31.06,
+      "eval_accuracy": 0.9075749889541639,
+      "eval_f1": 0.8683508503340195,
+      "eval_loss": 0.24826984107494354,
+      "eval_matthews_correlation": 0.8060075540928401,
+      "eval_precision": 0.8931309736871068,
+      "eval_recall": 0.8514670976479711,
+      "eval_runtime": 739.7867,
+      "eval_samples_per_second": 82.604,
+      "eval_steps_per_second": 10.326,
+      "step": 14600
+    },
+    {
+      "epoch": 31.28,
+      "learning_rate": 3.703404401650619e-07,
+      "loss": 0.2127,
+      "step": 14700
+    },
+    {
+      "epoch": 31.49,
+      "learning_rate": 3.679332874828061e-07,
+      "loss": 0.2109,
+      "step": 14800
+    },
+    {
+      "epoch": 31.49,
+      "eval_accuracy": 0.90734589013075,
+      "eval_f1": 0.8685226338776406,
+      "eval_loss": 0.24782830476760864,
+      "eval_matthews_correlation": 0.8055607272223679,
+      "eval_precision": 0.8920656839237181,
+      "eval_recall": 0.8521065453558755,
+      "eval_runtime": 749.8464,
+      "eval_samples_per_second": 81.495,
+      "eval_steps_per_second": 10.187,
+      "step": 14800
+    },
+    {
+      "epoch": 31.7,
+      "learning_rate": 3.655261348005502e-07,
+      "loss": 0.2129,
+      "step": 14900
+    },
+    {
+      "epoch": 31.91,
+      "learning_rate": 3.6311898211829434e-07,
+      "loss": 0.2112,
+      "step": 15000
+    },
+    {
+      "epoch": 31.91,
+      "eval_accuracy": 0.9076240815591812,
+      "eval_f1": 0.8678417140935201,
+      "eval_loss": 0.24749217927455902,
+      "eval_matthews_correlation": 0.8060172776856861,
+      "eval_precision": 0.894366472061838,
+      "eval_recall": 0.8500650948722064,
+      "eval_runtime": 752.8019,
+      "eval_samples_per_second": 81.175,
+      "eval_steps_per_second": 10.147,
+      "step": 15000
+    },
+    {
+      "epoch": 32.13,
+      "learning_rate": 3.607118294360385e-07,
+      "loss": 0.2096,
+      "step": 15100
+    },
+    {
+      "epoch": 32.34,
+      "learning_rate": 3.5830467675378266e-07,
+      "loss": 0.2101,
+      "step": 15200
+    },
+    {
+      "epoch": 32.34,
+      "eval_accuracy": 0.9075586247524915,
+      "eval_f1": 0.8688133561667789,
+      "eval_loss": 0.2471538633108139,
+      "eval_matthews_correlation": 0.8060577001402198,
+      "eval_precision": 0.8922446411765517,
+      "eval_recall": 0.8526258792755002,
+      "eval_runtime": 741.9397,
+      "eval_samples_per_second": 82.364,
+      "eval_steps_per_second": 10.296,
+      "step": 15200
+    },
+    {
+      "epoch": 32.55,
+      "learning_rate": 3.5589752407152677e-07,
+      "loss": 0.2103,
+      "step": 15300
+    },
+    {
+      "epoch": 32.77,
+      "learning_rate": 3.534903713892709e-07,
+      "loss": 0.2118,
+      "step": 15400
+    },
+    {
+      "epoch": 32.77,
+      "eval_accuracy": 0.9074440753407845,
+      "eval_f1": 0.8694313427193112,
+      "eval_loss": 0.24689117074012756,
+      "eval_matthews_correlation": 0.8059002977899355,
+      "eval_precision": 0.8910870495474871,
+      "eval_recall": 0.8539698095446958,
+      "eval_runtime": 743.6136,
+      "eval_samples_per_second": 82.178,
+      "eval_steps_per_second": 10.273,
+      "step": 15400
+    },
+    {
+      "epoch": 32.98,
+      "learning_rate": 3.510832187070151e-07,
+      "loss": 0.2063,
+      "step": 15500
+    },
+    {
+      "epoch": 33.19,
+      "learning_rate": 3.486760660247593e-07,
+      "loss": 0.2076,
+      "step": 15600
+    },
+    {
+      "epoch": 33.19,
+      "eval_accuracy": 0.9079350013909572,
+      "eval_f1": 0.8697927249175175,
+      "eval_loss": 0.24656882882118225,
+      "eval_matthews_correlation": 0.8068707039804212,
+      "eval_precision": 0.8925155749184236,
+      "eval_recall": 0.8537441567974152,
+      "eval_runtime": 742.1498,
+      "eval_samples_per_second": 82.341,
+      "eval_steps_per_second": 10.293,
+      "step": 15600
+    },
+    {
+      "epoch": 33.4,
+      "learning_rate": 3.462689133425034e-07,
+      "loss": 0.2083,
+      "step": 15700
+    },
+    {
+      "epoch": 33.62,
+      "learning_rate": 3.4386176066024756e-07,
+      "loss": 0.2045,
+      "step": 15800
+    },
+    {
+      "epoch": 33.62,
+      "eval_accuracy": 0.9080004581976469,
+      "eval_f1": 0.8675131816041591,
+      "eval_loss": 0.246909961104393,
+      "eval_matthews_correlation": 0.8067187118432039,
+      "eval_precision": 0.8969134215836245,
+      "eval_recall": 0.8483570812735763,
+      "eval_runtime": 754.8684,
+      "eval_samples_per_second": 80.953,
+      "eval_steps_per_second": 10.12,
+      "step": 15800
+    },
+    {
+      "epoch": 33.83,
+      "learning_rate": 3.4145460797799177e-07,
+      "loss": 0.2082,
+      "step": 15900
+    },
+    {
+      "epoch": 34.04,
+      "learning_rate": 3.390474552957359e-07,
+      "loss": 0.2085,
+      "step": 16000
+    },
+    {
+      "epoch": 34.04,
+      "eval_accuracy": 0.9081313718110262,
+      "eval_f1": 0.8710620558469785,
+      "eval_loss": 0.246111661195755,
+      "eval_matthews_correlation": 0.8075115150125068,
+      "eval_precision": 0.8909909483708672,
+      "eval_recall": 0.8565113019506504,
+      "eval_runtime": 738.1997,
+      "eval_samples_per_second": 82.781,
+      "eval_steps_per_second": 10.348,
+      "step": 16000
+    },
+    {
+      "epoch": 34.26,
+      "learning_rate": 3.3664030261348004e-07,
+      "loss": 0.2042,
+      "step": 16100
+    },
+    {
+      "epoch": 34.47,
+      "learning_rate": 3.342331499312242e-07,
+      "loss": 0.2058,
+      "step": 16200
+    },
+    {
+      "epoch": 34.47,
+      "eval_accuracy": 0.9084259274411298,
+      "eval_f1": 0.8703727106005682,
+      "eval_loss": 0.2457207441329956,
+      "eval_matthews_correlation": 0.8079506680918748,
+      "eval_precision": 0.8931130297108375,
+      "eval_recall": 0.8544519579982045,
+      "eval_runtime": 741.949,
+      "eval_samples_per_second": 82.363,
+      "eval_steps_per_second": 10.296,
+      "step": 16200
+    },
+    {
+      "epoch": 34.68,
+      "learning_rate": 3.3182599724896835e-07,
+      "loss": 0.2072,
+      "step": 16300
+    },
+    {
+      "epoch": 34.89,
+      "learning_rate": 3.2941884456671246e-07,
+      "loss": 0.2058,
+      "step": 16400
+    },
+    {
+      "epoch": 34.89,
+      "eval_accuracy": 0.9084913842478195,
+      "eval_f1": 0.8708104266168474,
+      "eval_loss": 0.2456207275390625,
+      "eval_matthews_correlation": 0.8081614856249896,
+      "eval_precision": 0.8925443643292025,
+      "eval_recall": 0.8554175551765084,
+      "eval_runtime": 746.0001,
+      "eval_samples_per_second": 81.916,
+      "eval_steps_per_second": 10.24,
+      "step": 16400
+    },
+    {
+      "epoch": 35.11,
+      "learning_rate": 3.2701169188445667e-07,
+      "loss": 0.2109,
+      "step": 16500
+    },
+    {
+      "epoch": 35.32,
+      "learning_rate": 3.2460453920220083e-07,
+      "loss": 0.207,
+      "step": 16600
+    },
+    {
+      "epoch": 35.32,
+      "eval_accuracy": 0.9085732052561816,
+      "eval_f1": 0.8695274706079684,
+      "eval_loss": 0.24534425139427185,
+      "eval_matthews_correlation": 0.80811600198511,
+      "eval_precision": 0.8951195580549336,
+      "eval_recall": 0.8522425039487266,
+      "eval_runtime": 751.7816,
+      "eval_samples_per_second": 81.286,
+      "eval_steps_per_second": 10.161,
+      "step": 16600
+    },
+    {
+      "epoch": 35.53,
+      "learning_rate": 3.22197386519945e-07,
+      "loss": 0.2051,
+      "step": 16700
+    },
+    {
+      "epoch": 35.74,
+      "learning_rate": 3.197902338376891e-07,
+      "loss": 0.1983,
+      "step": 16800
+    },
+    {
+      "epoch": 35.74,
+      "eval_accuracy": 0.907853180382595,
+      "eval_f1": 0.871964648841848,
+      "eval_loss": 0.24542571604251862,
+      "eval_matthews_correlation": 0.8072695576967016,
+      "eval_precision": 0.8884804951307341,
+      "eval_recall": 0.8593824892770483,
+      "eval_runtime": 746.5178,
+      "eval_samples_per_second": 81.859,
+      "eval_steps_per_second": 10.233,
+      "step": 16800
+    },
+    {
+      "epoch": 35.96,
+      "learning_rate": 3.1738308115543325e-07,
+      "loss": 0.2041,
+      "step": 16900
+    },
+    {
+      "epoch": 36.17,
+      "learning_rate": 3.1497592847317746e-07,
+      "loss": 0.2031,
+      "step": 17000
+    },
+    {
+      "epoch": 36.17,
+      "eval_accuracy": 0.9087859398779231,
+      "eval_f1": 0.8694601945231047,
+      "eval_loss": 0.24508897960186005,
+      "eval_matthews_correlation": 0.8085159705148504,
+      "eval_precision": 0.8963359573586805,
+      "eval_recall": 0.8515431618805932,
+      "eval_runtime": 741.3509,
+      "eval_samples_per_second": 82.429,
+      "eval_steps_per_second": 10.304,
+      "step": 17000
+    },
+    {
+      "epoch": 36.38,
+      "learning_rate": 3.1256877579092157e-07,
+      "loss": 0.2029,
+      "step": 17100
+    },
+    {
+      "epoch": 36.6,
+      "learning_rate": 3.1016162310866573e-07,
+      "loss": 0.2037,
+      "step": 17200
+    },
+    {
+      "epoch": 36.6,
+      "eval_accuracy": 0.90890048928963,
+      "eval_f1": 0.8713599651821928,
+      "eval_loss": 0.2446085512638092,
+      "eval_matthews_correlation": 0.8089947448606745,
+      "eval_precision": 0.8934233371557734,
+      "eval_recall": 0.8556962381944763,
+      "eval_runtime": 739.8731,
+      "eval_samples_per_second": 82.594,
+      "eval_steps_per_second": 10.325,
+      "step": 17200
+    },
+    {
+      "epoch": 36.81,
+      "learning_rate": 3.077544704264099e-07,
+      "loss": 0.2007,
+      "step": 17300
+    },
+    {
+      "epoch": 37.02,
+      "learning_rate": 3.0534731774415405e-07,
+      "loss": 0.2039,
+      "step": 17400
+    },
+    {
+      "epoch": 37.02,
+      "eval_accuracy": 0.9089495818946473,
+      "eval_f1": 0.8721432834897387,
+      "eval_loss": 0.24436742067337036,
+      "eval_matthews_correlation": 0.8092876273116901,
+      "eval_precision": 0.892041748943175,
+      "eval_recall": 0.8577428291713033,
+      "eval_runtime": 751.7628,
+      "eval_samples_per_second": 81.288,
+      "eval_steps_per_second": 10.161,
+      "step": 17400
+    },
+    {
+      "epoch": 37.23,
+      "learning_rate": 3.029401650618982e-07,
+      "loss": 0.2043,
+      "step": 17500
+    },
+    {
+      "epoch": 37.45,
+      "learning_rate": 3.0053301237964236e-07,
+      "loss": 0.1991,
+      "step": 17600
+    },
+    {
+      "epoch": 37.45,
+      "eval_accuracy": 0.9091132239113715,
+      "eval_f1": 0.8712923172635568,
+      "eval_loss": 0.24404539167881012,
+      "eval_matthews_correlation": 0.8093881662403425,
+      "eval_precision": 0.8943403115909888,
+      "eval_recall": 0.8551265425080193,
+      "eval_runtime": 740.8242,
+      "eval_samples_per_second": 82.488,
+      "eval_steps_per_second": 10.311,
+      "step": 17600
+    },
+    {
+      "epoch": 37.66,
+      "learning_rate": 2.981258596973865e-07,
+      "loss": 0.2039,
+      "step": 17700
+    },
+    {
+      "epoch": 37.87,
+      "learning_rate": 2.957187070151307e-07,
+      "loss": 0.1987,
+      "step": 17800
+    },
+    {
+      "epoch": 37.87,
+      "eval_accuracy": 0.9090804955080266,
+      "eval_f1": 0.8719347271029217,
+      "eval_loss": 0.24388256669044495,
+      "eval_matthews_correlation": 0.8094381432711057,
+      "eval_precision": 0.8931812855590735,
+      "eval_recall": 0.8566921567493543,
+      "eval_runtime": 744.8306,
+      "eval_samples_per_second": 82.044,
+      "eval_steps_per_second": 10.256,
+      "step": 17800
+    },
+    {
+      "epoch": 38.09,
+      "learning_rate": 2.933115543328748e-07,
+      "loss": 0.1994,
+      "step": 17900
+    },
+    {
+      "epoch": 38.3,
+      "learning_rate": 2.9090440165061894e-07,
+      "loss": 0.2029,
+      "step": 18000
+    },
+    {
+      "epoch": 38.3,
+      "eval_accuracy": 0.9086059336595265,
+      "eval_f1": 0.8729315195273094,
+      "eval_loss": 0.2439950406551361,
+      "eval_matthews_correlation": 0.8088593944730788,
+      "eval_precision": 0.8896414828192207,
+      "eval_recall": 0.8602966512277792,
+      "eval_runtime": 743.7981,
+      "eval_samples_per_second": 82.158,
+      "eval_steps_per_second": 10.27,
+      "step": 18000
+    },
+    {
+      "epoch": 38.51,
+      "learning_rate": 2.8849724896836316e-07,
+      "loss": 0.1999,
+      "step": 18100
+    },
+    {
+      "epoch": 38.72,
+      "learning_rate": 2.8609009628610726e-07,
+      "loss": 0.1979,
+      "step": 18200
+    },
+    {
+      "epoch": 38.72,
+      "eval_accuracy": 0.9096041499615442,
+      "eval_f1": 0.8726507105657216,
+      "eval_loss": 0.24374985694885254,
+      "eval_matthews_correlation": 0.8105181128329951,
+      "eval_precision": 0.8942523767849427,
+      "eval_recall": 0.8571308075255727,
+      "eval_runtime": 761.2563,
+      "eval_samples_per_second": 80.274,
+      "eval_steps_per_second": 10.035,
+      "step": 18200
+    },
+    {
+      "epoch": 38.94,
+      "learning_rate": 2.836829436038514e-07,
+      "loss": 0.1991,
+      "step": 18300
+    },
+    {
+      "epoch": 39.15,
+      "learning_rate": 2.812757909215956e-07,
+      "loss": 0.1976,
+      "step": 18400
+    },
+    {
+      "epoch": 39.15,
+      "eval_accuracy": 0.9094077795414751,
+      "eval_f1": 0.8727723424343431,
+      "eval_loss": 0.24345378577709198,
+      "eval_matthews_correlation": 0.8102216224369119,
+      "eval_precision": 0.892994687316735,
+      "eval_recall": 0.8580974781646172,
+      "eval_runtime": 745.8574,
+      "eval_samples_per_second": 81.931,
+      "eval_steps_per_second": 10.242,
+      "step": 18400
+    },
+    {
+      "epoch": 39.36,
+      "learning_rate": 2.7886863823933974e-07,
+      "loss": 0.1999,
+      "step": 18500
+    },
+    {
+      "epoch": 39.57,
+      "learning_rate": 2.764614855570839e-07,
+      "loss": 0.1998,
+      "step": 18600
+    },
+    {
+      "epoch": 39.57,
+      "eval_accuracy": 0.9093586869364578,
+      "eval_f1": 0.8731071210160151,
+      "eval_loss": 0.24329745769500732,
+      "eval_matthews_correlation": 0.810291015551236,
+      "eval_precision": 0.8918008827080101,
+      "eval_recall": 0.8594994809403819,
+      "eval_runtime": 743.2655,
+      "eval_samples_per_second": 82.217,
+      "eval_steps_per_second": 10.278,
+      "step": 18600
+    },
+    {
+      "epoch": 39.79,
+      "learning_rate": 2.7405433287482806e-07,
+      "loss": 0.1963,
+      "step": 18700
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 2.716471801925722e-07,
+      "loss": 0.1991,
+      "step": 18800
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.9097350635749235,
+      "eval_f1": 0.8721199545387476,
+      "eval_loss": 0.24315683543682098,
+      "eval_matthews_correlation": 0.8106751456907673,
+      "eval_precision": 0.8956919850283284,
+      "eval_recall": 0.8555874788532533,
+      "eval_runtime": 746.9224,
+      "eval_samples_per_second": 81.814,
+      "eval_steps_per_second": 10.227,
+      "step": 18800
+    },
+    {
+      "epoch": 40.21,
+      "learning_rate": 2.6924002751031637e-07,
+      "loss": 0.1975,
+      "step": 18900
+    },
+    {
+      "epoch": 40.43,
+      "learning_rate": 2.668328748280605e-07,
+      "loss": 0.1987,
+      "step": 19000
+    },
+    {
+      "epoch": 40.43,
+      "eval_accuracy": 0.9090477671046818,
+      "eval_f1": 0.8727541153629755,
+      "eval_loss": 0.24294930696487427,
+      "eval_matthews_correlation": 0.8095974827888198,
+      "eval_precision": 0.8914797277254355,
+      "eval_recall": 0.858983790728077,
+      "eval_runtime": 749.8186,
+      "eval_samples_per_second": 81.498,
+      "eval_steps_per_second": 10.188,
+      "step": 19000
+    },
+    {
+      "epoch": 40.64,
+      "learning_rate": 2.6442572214580464e-07,
+      "loss": 0.1952,
+      "step": 19100
+    },
+    {
+      "epoch": 40.85,
+      "learning_rate": 2.620426409903714e-07,
+      "loss": 0.1976,
+      "step": 19200
+    },
+    {
+      "epoch": 40.85,
+      "eval_accuracy": 0.9097841561799408,
+      "eval_f1": 0.872683199992249,
+      "eval_loss": 0.24285992980003357,
+      "eval_matthews_correlation": 0.8109297645828953,
+      "eval_precision": 0.8944717841896703,
+      "eval_recall": 0.8572710599613864,
+      "eval_runtime": 752.1052,
+      "eval_samples_per_second": 81.251,
+      "eval_steps_per_second": 10.157,
+      "step": 19200
+    },
+    {
+      "epoch": 41.06,
+      "learning_rate": 2.5963548830811555e-07,
+      "loss": 0.1961,
+      "step": 19300
+    },
+    {
+      "epoch": 41.28,
+      "learning_rate": 2.5722833562585965e-07,
+      "loss": 0.2017,
+      "step": 19400
+    },
+    {
+      "epoch": 41.28,
+      "eval_accuracy": 0.9099314339949925,
+      "eval_f1": 0.8730188066211935,
+      "eval_loss": 0.24267245829105377,
+      "eval_matthews_correlation": 0.8112522802158343,
+      "eval_precision": 0.8945637840197834,
+      "eval_recall": 0.8576804628217713,
+      "eval_runtime": 746.8685,
+      "eval_samples_per_second": 81.82,
+      "eval_steps_per_second": 10.228,
+      "step": 19400
+    },
+    {
+      "epoch": 41.49,
+      "learning_rate": 2.548211829436038e-07,
+      "loss": 0.1942,
+      "step": 19500
+    },
+    {
+      "epoch": 41.7,
+      "learning_rate": 2.52414030261348e-07,
+      "loss": 0.1971,
+      "step": 19600
+    },
+    {
+      "epoch": 41.7,
+      "eval_accuracy": 0.9096041499615442,
+      "eval_f1": 0.8735390507743382,
+      "eval_loss": 0.24244600534439087,
+      "eval_matthews_correlation": 0.8107460289807942,
+      "eval_precision": 0.8925036461858465,
+      "eval_recall": 0.8595422302247533,
+      "eval_runtime": 747.3405,
+      "eval_samples_per_second": 81.769,
+      "eval_steps_per_second": 10.222,
+      "step": 19600
+    },
+    {
+      "epoch": 41.91,
+      "learning_rate": 2.500068775790922e-07,
+      "loss": 0.1917,
+      "step": 19700
+    },
+    {
+      "epoch": 42.13,
+      "learning_rate": 2.475997248968363e-07,
+      "loss": 0.1946,
+      "step": 19800
+    },
+    {
+      "epoch": 42.13,
+      "eval_accuracy": 0.9096368783648889,
+      "eval_f1": 0.874113149714388,
+      "eval_loss": 0.24247263371944427,
+      "eval_matthews_correlation": 0.811004627436087,
+      "eval_precision": 0.8913735929095795,
+      "eval_recall": 0.861217775525328,
+      "eval_runtime": 756.2136,
+      "eval_samples_per_second": 80.809,
+      "eval_steps_per_second": 10.102,
+      "step": 19800
+    },
+    {
+      "epoch": 42.34,
+      "learning_rate": 2.4519257221458044e-07,
+      "loss": 0.195,
+      "step": 19900
+    },
+    {
+      "epoch": 42.55,
+      "learning_rate": 2.427854195323246e-07,
+      "loss": 0.1924,
+      "step": 20000
+    },
+    {
+      "epoch": 42.55,
+      "eval_accuracy": 0.9096696067682338,
+      "eval_f1": 0.8741752540282713,
+      "eval_loss": 0.24245992302894592,
+      "eval_matthews_correlation": 0.8110785773139436,
+      "eval_precision": 0.8913748490482861,
+      "eval_recall": 0.8613116349694508,
+      "eval_runtime": 742.7503,
+      "eval_samples_per_second": 82.274,
+      "eval_steps_per_second": 10.285,
+      "step": 20000
+    },
+    {
+      "epoch": 42.77,
+      "learning_rate": 2.4037826685006876e-07,
+      "loss": 0.197,
+      "step": 20100
+    },
+    {
+      "epoch": 42.98,
+      "learning_rate": 2.3797111416781292e-07,
+      "loss": 0.1941,
+      "step": 20200
+    },
+    {
+      "epoch": 42.98,
+      "eval_accuracy": 0.9098168845832856,
+      "eval_f1": 0.8738721398767385,
+      "eval_loss": 0.24205400049686432,
+      "eval_matthews_correlation": 0.8111798243968735,
+      "eval_precision": 0.8929678894520333,
+      "eval_recall": 0.8597504128283546,
+      "eval_runtime": 747.1909,
+      "eval_samples_per_second": 81.785,
+      "eval_steps_per_second": 10.224,
+      "step": 20200
+    },
+    {
+      "epoch": 43.19,
+      "learning_rate": 2.3556396148555708e-07,
+      "loss": 0.1945,
+      "step": 20300
+    },
+    {
+      "epoch": 43.4,
+      "learning_rate": 2.3315680880330124e-07,
+      "loss": 0.1925,
+      "step": 20400
+    },
+    {
+      "epoch": 43.4,
+      "eval_accuracy": 0.9098168845832856,
+      "eval_f1": 0.8737181606915122,
+      "eval_loss": 0.2419564574956894,
+      "eval_matthews_correlation": 0.811203316782751,
+      "eval_precision": 0.8928199742952545,
+      "eval_recall": 0.8597244835520194,
+      "eval_runtime": 751.5582,
+      "eval_samples_per_second": 81.31,
+      "eval_steps_per_second": 10.164,
+      "step": 20400
+    },
+    {
+      "epoch": 43.62,
+      "learning_rate": 2.3074965612104537e-07,
+      "loss": 0.1928,
+      "step": 20500
+    },
+    {
+      "epoch": 43.83,
+      "learning_rate": 2.2834250343878953e-07,
+      "loss": 0.193,
+      "step": 20600
+    },
+    {
+      "epoch": 43.83,
+      "eval_accuracy": 0.9097023351715786,
+      "eval_f1": 0.8739989567109828,
+      "eval_loss": 0.2419792115688324,
+      "eval_matthews_correlation": 0.811123761250777,
+      "eval_precision": 0.8915912375928783,
+      "eval_recall": 0.860990625992209,
+      "eval_runtime": 755.6743,
+      "eval_samples_per_second": 80.867,
+      "eval_steps_per_second": 10.109,
+      "step": 20600
+    },
+    {
+      "epoch": 44.04,
+      "learning_rate": 2.2593535075653371e-07,
+      "loss": 0.1952,
+      "step": 20700
+    },
+    {
+      "epoch": 44.26,
+      "learning_rate": 2.2352819807427785e-07,
+      "loss": 0.1928,
+      "step": 20800
+    },
+    {
+      "epoch": 44.26,
+      "eval_accuracy": 0.9099150697933202,
+      "eval_f1": 0.8742112339895834,
+      "eval_loss": 0.2418925017118454,
+      "eval_matthews_correlation": 0.8115406626215701,
+      "eval_precision": 0.8920952424009275,
+      "eval_recall": 0.8609913743851282,
+      "eval_runtime": 745.9913,
+      "eval_samples_per_second": 81.917,
+      "eval_steps_per_second": 10.24,
+      "step": 20800
+    },
+    {
+      "epoch": 44.47,
+      "learning_rate": 2.21121045392022e-07,
+      "loss": 0.1909,
+      "step": 20900
+    },
+    {
+      "epoch": 44.68,
+      "learning_rate": 2.1871389270976614e-07,
+      "loss": 0.1923,
+      "step": 21000
+    },
+    {
+      "epoch": 44.68,
+      "eval_accuracy": 0.9105041810535273,
+      "eval_f1": 0.874316975987767,
+      "eval_loss": 0.2416362762451172,
+      "eval_matthews_correlation": 0.812580262506876,
+      "eval_precision": 0.8944898131806891,
+      "eval_recall": 0.859724906877117,
+      "eval_runtime": 744.1718,
+      "eval_samples_per_second": 82.117,
+      "eval_steps_per_second": 10.265,
+      "step": 21000
+    },
+    {
+      "epoch": 44.89,
+      "learning_rate": 2.163067400275103e-07,
+      "loss": 0.1934,
+      "step": 21100
+    },
+    {
+      "epoch": 45.11,
+      "learning_rate": 2.1392365887207702e-07,
+      "loss": 0.1895,
+      "step": 21200
+    },
+    {
+      "epoch": 45.11,
+      "eval_accuracy": 0.9105205452551998,
+      "eval_f1": 0.8722078400643984,
+      "eval_loss": 0.2422172725200653,
+      "eval_matthews_correlation": 0.8122786320101358,
+      "eval_precision": 0.8983590023748841,
+      "eval_recall": 0.8545989459702907,
+      "eval_runtime": 741.2328,
+      "eval_samples_per_second": 82.442,
+      "eval_steps_per_second": 10.306,
+      "step": 21200
+    },
+    {
+      "epoch": 45.32,
+      "learning_rate": 2.1151650618982118e-07,
+      "loss": 0.191,
+      "step": 21300
+    },
+    {
+      "epoch": 45.53,
+      "learning_rate": 2.091093535075653e-07,
+      "loss": 0.192,
+      "step": 21400
+    },
+    {
+      "epoch": 45.53,
+      "eval_accuracy": 0.9102423538267685,
+      "eval_f1": 0.8743146922489909,
+      "eval_loss": 0.24138787388801575,
+      "eval_matthews_correlation": 0.8120982187500523,
+      "eval_precision": 0.8935139726217215,
+      "eval_recall": 0.8602445658645633,
+      "eval_runtime": 752.2607,
+      "eval_samples_per_second": 81.234,
+      "eval_steps_per_second": 10.155,
+      "step": 21400
+    },
+    {
+      "epoch": 45.74,
+      "learning_rate": 2.0670220082530947e-07,
+      "loss": 0.1913,
+      "step": 21500
+    },
+    {
+      "epoch": 45.96,
+      "learning_rate": 2.0429504814305363e-07,
+      "loss": 0.1912,
+      "step": 21600
+    },
+    {
+      "epoch": 45.96,
+      "eval_accuracy": 0.9101932612217513,
+      "eval_f1": 0.8748401862258565,
+      "eval_loss": 0.24133703112602234,
+      "eval_matthews_correlation": 0.8121627721616604,
+      "eval_precision": 0.8922978706813973,
+      "eval_recall": 0.8618021442983398,
+      "eval_runtime": 741.2809,
+      "eval_samples_per_second": 82.437,
+      "eval_steps_per_second": 10.305,
+      "step": 21600
+    },
+    {
+      "epoch": 46.17,
+      "learning_rate": 2.018878954607978e-07,
+      "loss": 0.1945,
+      "step": 21700
+    },
+    {
+      "epoch": 46.38,
+      "learning_rate": 1.9948074277854194e-07,
+      "loss": 0.1878,
+      "step": 21800
+    },
+    {
+      "epoch": 46.38,
+      "eval_accuracy": 0.9099641623983374,
+      "eval_f1": 0.8749444985348495,
+      "eval_loss": 0.2415376454591751,
+      "eval_matthews_correlation": 0.8117670504578143,
+      "eval_precision": 0.891458264723633,
+      "eval_recall": 0.8624156627299087,
+      "eval_runtime": 743.8046,
+      "eval_samples_per_second": 82.157,
+      "eval_steps_per_second": 10.27,
+      "step": 21800
+    },
+    {
+      "epoch": 46.6,
+      "learning_rate": 1.970735900962861e-07,
+      "loss": 0.1911,
+      "step": 21900
+    },
+    {
+      "epoch": 46.81,
+      "learning_rate": 1.9466643741403024e-07,
+      "loss": 0.1912,
+      "step": 22000
+    },
+    {
+      "epoch": 46.81,
+      "eval_accuracy": 0.9104387242468376,
+      "eval_f1": 0.8741819314594247,
+      "eval_loss": 0.24110712110996246,
+      "eval_matthews_correlation": 0.8124326381078381,
+      "eval_precision": 0.8944450308572095,
+      "eval_recall": 0.8595371879888715,
+      "eval_runtime": 742.2886,
+      "eval_samples_per_second": 82.325,
+      "eval_steps_per_second": 10.291,
+      "step": 22000
+    },
+    {
+      "epoch": 47.02,
+      "learning_rate": 1.922592847317744e-07,
+      "loss": 0.1906,
+      "step": 22100
+    },
+    {
+      "epoch": 47.23,
+      "learning_rate": 1.8985213204951858e-07,
+      "loss": 0.1905,
+      "step": 22200
+    },
+    {
+      "epoch": 47.23,
+      "eval_accuracy": 0.9106187304652342,
+      "eval_f1": 0.8742166094007501,
+      "eval_loss": 0.24093787372112274,
+      "eval_matthews_correlation": 0.8127323260629485,
+      "eval_precision": 0.8954204606441226,
+      "eval_recall": 0.8589773499636327,
+      "eval_runtime": 748.4618,
+      "eval_samples_per_second": 81.646,
+      "eval_steps_per_second": 10.206,
+      "step": 22200
+    },
+    {
+      "epoch": 47.45,
+      "learning_rate": 1.874449793672627e-07,
+      "loss": 0.1901,
+      "step": 22300
+    },
+    {
+      "epoch": 47.66,
+      "learning_rate": 1.8503782668500687e-07,
+      "loss": 0.1904,
+      "step": 22400
+    },
+    {
+      "epoch": 47.66,
+      "eval_accuracy": 0.9104059958434928,
+      "eval_f1": 0.8742663877233575,
+      "eval_loss": 0.24106551706790924,
+      "eval_matthews_correlation": 0.8123897699414998,
+      "eval_precision": 0.894213768652531,
+      "eval_recall": 0.8598063384134425,
+      "eval_runtime": 744.7161,
+      "eval_samples_per_second": 82.057,
+      "eval_steps_per_second": 10.258,
+      "step": 22400
+    },
+    {
+      "epoch": 47.87,
+      "learning_rate": 1.8263067400275103e-07,
+      "loss": 0.1863,
+      "step": 22500
+    },
+    {
+      "epoch": 48.09,
+      "learning_rate": 1.8022352132049516e-07,
+      "loss": 0.1897,
+      "step": 22600
+    },
+    {
+      "epoch": 48.09,
+      "eval_accuracy": 0.9108641934903206,
+      "eval_f1": 0.8748685488468945,
+      "eval_loss": 0.24090926349163055,
+      "eval_matthews_correlation": 0.8132937556039521,
+      "eval_precision": 0.8954126640738053,
+      "eval_recall": 0.8599276239197389,
+      "eval_runtime": 741.0969,
+      "eval_samples_per_second": 82.458,
+      "eval_steps_per_second": 10.308,
+      "step": 22600
+    },
+    {
+      "epoch": 48.3,
+      "learning_rate": 1.7781636863823935e-07,
+      "loss": 0.1874,
+      "step": 22700
+    },
+    {
+      "epoch": 48.51,
+      "learning_rate": 1.754092159559835e-07,
+      "loss": 0.1904,
+      "step": 22800
+    },
+    {
+      "epoch": 48.51,
+      "eval_accuracy": 0.9108805576919929,
+      "eval_f1": 0.8750717050514312,
+      "eval_loss": 0.24086318910121918,
+      "eval_matthews_correlation": 0.8133710577922498,
+      "eval_precision": 0.895092107684644,
+      "eval_recall": 0.8604283159776674,
+      "eval_runtime": 739.1681,
+      "eval_samples_per_second": 82.673,
+      "eval_steps_per_second": 10.335,
+      "step": 22800
+    },
+    {
+      "epoch": 48.72,
+      "learning_rate": 1.7300206327372764e-07,
+      "loss": 0.1902,
+      "step": 22900
+    },
+    {
+      "epoch": 48.94,
+      "learning_rate": 1.705949105914718e-07,
+      "loss": 0.188,
+      "step": 23000
+    },
+    {
+      "epoch": 48.94,
+      "eval_accuracy": 0.9103732674401479,
+      "eval_f1": 0.875369556789435,
+      "eval_loss": 0.2407529205083847,
+      "eval_matthews_correlation": 0.8125919221461162,
+      "eval_precision": 0.8922872454470531,
+      "eval_recall": 0.8625906286425353,
+      "eval_runtime": 747.8812,
+      "eval_samples_per_second": 81.71,
+      "eval_steps_per_second": 10.214,
+      "step": 23000
+    },
+    {
+      "epoch": 49.15,
+      "learning_rate": 1.6818775790921595e-07,
+      "loss": 0.1851,
+      "step": 23100
+    },
+    {
+      "epoch": 49.36,
+      "learning_rate": 1.657806052269601e-07,
+      "loss": 0.1909,
+      "step": 23200
+    },
+    {
+      "epoch": 49.36,
+      "eval_accuracy": 0.9109296502970102,
+      "eval_f1": 0.8746313053916013,
+      "eval_loss": 0.24063973128795624,
+      "eval_matthews_correlation": 0.8133910501963836,
+      "eval_precision": 0.8959133105343128,
+      "eval_recall": 0.859337464517926,
+      "eval_runtime": 742.5919,
+      "eval_samples_per_second": 82.292,
+      "eval_steps_per_second": 10.287,
+      "step": 23200
+    },
+    {
+      "epoch": 49.57,
+      "learning_rate": 1.6337345254470425e-07,
+      "loss": 0.187,
+      "step": 23300
+    },
+    {
+      "epoch": 49.79,
+      "learning_rate": 1.6099037138927097e-07,
+      "loss": 0.186,
+      "step": 23400
+    },
+    {
+      "epoch": 49.79,
+      "eval_accuracy": 0.9101768970200789,
+      "eval_f1": 0.8753978543653685,
+      "eval_loss": 0.24069301784038544,
+      "eval_matthews_correlation": 0.8122564726191961,
+      "eval_precision": 0.8915507771756968,
+      "eval_recall": 0.8630646430312097,
+      "eval_runtime": 744.7662,
+      "eval_samples_per_second": 82.051,
+      "eval_steps_per_second": 10.257,
+      "step": 23400
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 1.5858321870701513e-07,
+      "loss": 0.1877,
+      "step": 23500
+    },
+    {
+      "epoch": 50.21,
+      "learning_rate": 1.5617606602475929e-07,
+      "loss": 0.1881,
+      "step": 23600
+    },
+    {
+      "epoch": 50.21,
+      "eval_accuracy": 0.9105369094568722,
+      "eval_f1": 0.8752674535162299,
+      "eval_loss": 0.24077627062797546,
+      "eval_matthews_correlation": 0.8128808529504822,
+      "eval_precision": 0.8928712715800744,
+      "eval_recall": 0.8621524011914147,
+      "eval_runtime": 739.9032,
+      "eval_samples_per_second": 82.591,
+      "eval_steps_per_second": 10.324,
+      "step": 23600
+    },
+    {
+      "epoch": 50.43,
+      "learning_rate": 1.5376891334250342e-07,
+      "loss": 0.1856,
+      "step": 23700
+    },
+    {
+      "epoch": 50.64,
+      "learning_rate": 1.513617606602476e-07,
+      "loss": 0.1848,
+      "step": 23800
+    },
+    {
+      "epoch": 50.64,
+      "eval_accuracy": 0.9103896316418204,
+      "eval_f1": 0.875465347493809,
+      "eval_loss": 0.2406722754240036,
+      "eval_matthews_correlation": 0.8126619796181362,
+      "eval_precision": 0.8921096020639947,
+      "eval_recall": 0.862883886489782,
+      "eval_runtime": 749.2847,
+      "eval_samples_per_second": 81.556,
+      "eval_steps_per_second": 10.195,
+      "step": 23800
+    },
+    {
+      "epoch": 50.85,
+      "learning_rate": 1.4895460797799174e-07,
+      "loss": 0.1891,
+      "step": 23900
+    },
+    {
+      "epoch": 51.06,
+      "learning_rate": 1.465474552957359e-07,
+      "loss": 0.1863,
+      "step": 24000
+    },
+    {
+      "epoch": 51.06,
+      "eval_accuracy": 0.9103078106334582,
+      "eval_f1": 0.8753293970227211,
+      "eval_loss": 0.24059292674064636,
+      "eval_matthews_correlation": 0.812532435225692,
+      "eval_precision": 0.8916938221865601,
+      "eval_recall": 0.8629992831100012,
+      "eval_runtime": 739.941,
+      "eval_samples_per_second": 82.586,
+      "eval_steps_per_second": 10.324,
+      "step": 24000
+    },
+    {
+      "epoch": 51.28,
+      "learning_rate": 1.4414030261348005e-07,
+      "loss": 0.1844,
+      "step": 24100
+    },
+    {
+      "epoch": 51.49,
+      "learning_rate": 1.417331499312242e-07,
+      "loss": 0.1847,
+      "step": 24200
+    },
+    {
+      "epoch": 51.49,
+      "eval_accuracy": 0.9108641934903206,
+      "eval_f1": 0.8749605708498898,
+      "eval_loss": 0.24038459360599518,
+      "eval_matthews_correlation": 0.813382769196118,
+      "eval_precision": 0.8947204237006231,
+      "eval_recall": 0.8606017851044561,
+      "eval_runtime": 739.8088,
+      "eval_samples_per_second": 82.601,
+      "eval_steps_per_second": 10.326,
+      "step": 24200
+    },
+    {
+      "epoch": 51.7,
+      "learning_rate": 1.3932599724896834e-07,
+      "loss": 0.1887,
+      "step": 24300
+    },
+    {
+      "epoch": 51.91,
+      "learning_rate": 1.3691884456671253e-07,
+      "loss": 0.1871,
+      "step": 24400
+    },
+    {
+      "epoch": 51.91,
+      "eval_accuracy": 0.9113060269354759,
+      "eval_f1": 0.8751060690982179,
+      "eval_loss": 0.24039125442504883,
+      "eval_matthews_correlation": 0.8141588021164547,
+      "eval_precision": 0.8967775480498688,
+      "eval_recall": 0.8595482173681065,
+      "eval_runtime": 740.8776,
+      "eval_samples_per_second": 82.482,
+      "eval_steps_per_second": 10.311,
+      "step": 24400
+    },
+    {
+      "epoch": 52.13,
+      "learning_rate": 1.3451169188445666e-07,
+      "loss": 0.187,
+      "step": 24500
+    },
+    {
+      "epoch": 52.34,
+      "learning_rate": 1.3210453920220082e-07,
+      "loss": 0.1854,
+      "step": 24600
+    },
+    {
+      "epoch": 52.34,
+      "eval_accuracy": 0.9106841872719239,
+      "eval_f1": 0.8756565438291358,
+      "eval_loss": 0.24039310216903687,
+      "eval_matthews_correlation": 0.8132068008896376,
+      "eval_precision": 0.8930378738634004,
+      "eval_recall": 0.8626136626044701,
+      "eval_runtime": 754.0793,
+      "eval_samples_per_second": 81.038,
+      "eval_steps_per_second": 10.13,
+      "step": 24600
+    },
+    {
+      "epoch": 52.55,
+      "learning_rate": 1.2969738651994498e-07,
+      "loss": 0.1855,
+      "step": 24700
+    },
+    {
+      "epoch": 52.77,
+      "learning_rate": 1.272902338376891e-07,
+      "loss": 0.1847,
+      "step": 24800
+    },
+    {
+      "epoch": 52.77,
+      "eval_accuracy": 0.9111587491204242,
+      "eval_f1": 0.8745820046811602,
+      "eval_loss": 0.24042600393295288,
+      "eval_matthews_correlation": 0.8138215404157054,
+      "eval_precision": 0.8968482300783717,
+      "eval_recall": 0.8588017339153629,
+      "eval_runtime": 742.1234,
+      "eval_samples_per_second": 82.343,
+      "eval_steps_per_second": 10.293,
+      "step": 24800
+    },
+    {
+      "epoch": 52.98,
+      "learning_rate": 1.2490715268225583e-07,
+      "loss": 0.1876,
+      "step": 24900
+    },
+    {
+      "epoch": 53.19,
+      "learning_rate": 1.225e-07,
+      "loss": 0.186,
+      "step": 25000
+    },
+    {
+      "epoch": 53.19,
+      "eval_accuracy": 0.9108478292886482,
+      "eval_f1": 0.8756306261296279,
+      "eval_loss": 0.24016867578029633,
+      "eval_matthews_correlation": 0.8134681771839503,
+      "eval_precision": 0.8938238096788703,
+      "eval_recall": 0.8620717180480083,
+      "eval_runtime": 738.0424,
+      "eval_samples_per_second": 82.799,
+      "eval_steps_per_second": 10.35,
+      "step": 25000
+    },
+    {
+      "epoch": 53.4,
+      "learning_rate": 1.2009284731774415e-07,
+      "loss": 0.1849,
+      "step": 25100
+    },
+    {
+      "epoch": 53.62,
+      "learning_rate": 1.176856946354883e-07,
+      "loss": 0.1854,
+      "step": 25200
+    },
+    {
+      "epoch": 53.62,
+      "eval_accuracy": 0.9111914775237691,
+      "eval_f1": 0.8749684700070617,
+      "eval_loss": 0.24017079174518585,
+      "eval_matthews_correlation": 0.8139472964260621,
+      "eval_precision": 0.8963489801148983,
+      "eval_recall": 0.8596475423732087,
+      "eval_runtime": 739.6265,
+      "eval_samples_per_second": 82.621,
+      "eval_steps_per_second": 10.328,
+      "step": 25200
+    },
+    {
+      "epoch": 53.83,
+      "learning_rate": 1.1527854195323247e-07,
+      "loss": 0.184,
+      "step": 25300
+    },
+    {
+      "epoch": 54.04,
+      "learning_rate": 1.1287138927097661e-07,
+      "loss": 0.1858,
+      "step": 25400
+    },
+    {
+      "epoch": 54.04,
+      "eval_accuracy": 0.9111423849187518,
+      "eval_f1": 0.8750983580631472,
+      "eval_loss": 0.24004679918289185,
+      "eval_matthews_correlation": 0.8138717910322704,
+      "eval_precision": 0.8959739410784087,
+      "eval_recall": 0.8600123740955624,
+      "eval_runtime": 747.7449,
+      "eval_samples_per_second": 81.724,
+      "eval_steps_per_second": 10.216,
+      "step": 25400
+    },
+    {
+      "epoch": 54.26,
+      "learning_rate": 1.1046423658872076e-07,
+      "loss": 0.1828,
+      "step": 25500
+    },
+    {
+      "epoch": 54.47,
+      "learning_rate": 1.0805708390646493e-07,
+      "loss": 0.1857,
+      "step": 25600
+    },
+    {
+      "epoch": 54.47,
+      "eval_accuracy": 0.9108314650869758,
+      "eval_f1": 0.8760467483571004,
+      "eval_loss": 0.24011586606502533,
+      "eval_matthews_correlation": 0.8135914183834242,
+      "eval_precision": 0.8927898839248911,
+      "eval_recall": 0.8634120046098842,
+      "eval_runtime": 743.1897,
+      "eval_samples_per_second": 82.225,
+      "eval_steps_per_second": 10.279,
+      "step": 25600
+    },
+    {
+      "epoch": 54.68,
+      "learning_rate": 1.0564993122420908e-07,
+      "loss": 0.1846,
+      "step": 25700
+    },
+    {
+      "epoch": 54.89,
+      "learning_rate": 1.0324277854195322e-07,
+      "loss": 0.1834,
+      "step": 25800
+    },
+    {
+      "epoch": 54.89,
+      "eval_accuracy": 0.9111423849187518,
+      "eval_f1": 0.8748835890356302,
+      "eval_loss": 0.24021214246749878,
+      "eval_matthews_correlation": 0.8138675354624196,
+      "eval_precision": 0.8960648924130842,
+      "eval_recall": 0.8597271520558745,
+      "eval_runtime": 742.673,
+      "eval_samples_per_second": 82.283,
+      "eval_steps_per_second": 10.286,
+      "step": 25800
+    },
+    {
+      "epoch": 55.11,
+      "learning_rate": 1.008356258596974e-07,
+      "loss": 0.1841,
+      "step": 25900
+    },
+    {
+      "epoch": 55.32,
+      "learning_rate": 9.842847317744154e-08,
+      "loss": 0.1856,
+      "step": 26000
+    },
+    {
+      "epoch": 55.32,
+      "eval_accuracy": 0.9111751133220966,
+      "eval_f1": 0.8759753884674994,
+      "eval_loss": 0.2399187684059143,
+      "eval_matthews_correlation": 0.8141158746054352,
+      "eval_precision": 0.8946325772420679,
+      "eval_recall": 0.8621027878175015,
+      "eval_runtime": 741.8617,
+      "eval_samples_per_second": 82.372,
+      "eval_steps_per_second": 10.297,
+      "step": 26000
+    },
+    {
+      "epoch": 55.53,
+      "learning_rate": 9.602132049518568e-08,
+      "loss": 0.1832,
+      "step": 26100
+    },
+    {
+      "epoch": 55.74,
+      "learning_rate": 9.361416781292984e-08,
+      "loss": 0.1831,
+      "step": 26200
+    },
+    {
+      "epoch": 55.74,
+      "eval_accuracy": 0.9111587491204242,
+      "eval_f1": 0.876187515167234,
+      "eval_loss": 0.23990817368030548,
+      "eval_matthews_correlation": 0.8141847804240233,
+      "eval_precision": 0.8938979116586415,
+      "eval_recall": 0.8629504181290072,
+      "eval_runtime": 754.7989,
+      "eval_samples_per_second": 80.961,
+      "eval_steps_per_second": 10.121,
+      "step": 26200
+    },
+    {
+      "epoch": 55.96,
+      "learning_rate": 9.120701513067399e-08,
+      "loss": 0.182,
+      "step": 26300
+    },
+    {
+      "epoch": 56.17,
+      "learning_rate": 8.879986244841816e-08,
+      "loss": 0.1866,
+      "step": 26400
+    },
+    {
+      "epoch": 56.17,
+      "eval_accuracy": 0.9110278355070448,
+      "eval_f1": 0.8761487837478463,
+      "eval_loss": 0.23999524116516113,
+      "eval_matthews_correlation": 0.8139186941063224,
+      "eval_precision": 0.8936589268832552,
+      "eval_recall": 0.8629898487738804,
+      "eval_runtime": 741.1796,
+      "eval_samples_per_second": 82.448,
+      "eval_steps_per_second": 10.307,
+      "step": 26400
+    },
+    {
+      "epoch": 56.38,
+      "learning_rate": 8.63927097661623e-08,
+      "loss": 0.1824,
+      "step": 26500
+    },
+    {
+      "epoch": 56.6,
+      "learning_rate": 8.398555708390646e-08,
+      "loss": 0.1835,
+      "step": 26600
+    },
+    {
+      "epoch": 56.6,
+      "eval_accuracy": 0.9111423849187518,
+      "eval_f1": 0.8756141164672545,
+      "eval_loss": 0.23985013365745544,
+      "eval_matthews_correlation": 0.813993717251868,
+      "eval_precision": 0.8950094790718368,
+      "eval_recall": 0.8613866257413322,
+      "eval_runtime": 741.0623,
+      "eval_samples_per_second": 82.461,
+      "eval_steps_per_second": 10.308,
+      "step": 26600
+    },
+    {
+      "epoch": 56.81,
+      "learning_rate": 8.157840440165061e-08,
+      "loss": 0.1809,
+      "step": 26700
+    },
+    {
+      "epoch": 57.02,
+      "learning_rate": 7.917125171939477e-08,
+      "loss": 0.1854,
+      "step": 26800
+    },
+    {
+      "epoch": 57.02,
+      "eval_accuracy": 0.9113060269354759,
+      "eval_f1": 0.875421277692427,
+      "eval_loss": 0.23988887667655945,
+      "eval_matthews_correlation": 0.8142691695381462,
+      "eval_precision": 0.8958322440673258,
+      "eval_recall": 0.8606631762505234,
+      "eval_runtime": 743.0149,
+      "eval_samples_per_second": 82.245,
+      "eval_steps_per_second": 10.281,
+      "step": 26800
+    },
+    {
+      "epoch": 57.23,
+      "learning_rate": 7.676409903713893e-08,
+      "loss": 0.1864,
+      "step": 26900
+    },
+    {
+      "epoch": 57.45,
+      "learning_rate": 7.435694635488309e-08,
+      "loss": 0.1836,
+      "step": 27000
+    },
+    {
+      "epoch": 57.45,
+      "eval_accuracy": 0.9113551195404932,
+      "eval_f1": 0.8755706284668032,
+      "eval_loss": 0.2398097962141037,
+      "eval_matthews_correlation": 0.8143731570721386,
+      "eval_precision": 0.8959067974921013,
+      "eval_recall": 0.8608169300548751,
+      "eval_runtime": 755.7111,
+      "eval_samples_per_second": 80.863,
+      "eval_steps_per_second": 10.108,
+      "step": 27000
+    },
+    {
+      "epoch": 57.66,
+      "learning_rate": 7.194979367262723e-08,
+      "loss": 0.1832,
+      "step": 27100
+    },
+    {
+      "epoch": 57.87,
+      "learning_rate": 6.954264099037139e-08,
+      "loss": 0.1803,
+      "step": 27200
+    },
+    {
+      "epoch": 57.87,
+      "eval_accuracy": 0.9112078417254414,
+      "eval_f1": 0.8766829819833193,
+      "eval_loss": 0.2398734986782074,
+      "eval_matthews_correlation": 0.8144037096432566,
+      "eval_precision": 0.8932464422984686,
+      "eval_recall": 0.8641154137104348,
+      "eval_runtime": 743.4359,
+      "eval_samples_per_second": 82.198,
+      "eval_steps_per_second": 10.275,
+      "step": 27200
+    },
+    {
+      "epoch": 58.09,
+      "learning_rate": 6.713548830811555e-08,
+      "loss": 0.1835,
+      "step": 27300
+    },
+    {
+      "epoch": 58.3,
+      "learning_rate": 6.47283356258597e-08,
+      "loss": 0.1836,
+      "step": 27400
+    },
+    {
+      "epoch": 58.3,
+      "eval_accuracy": 0.9112732985321311,
+      "eval_f1": 0.8764331639044038,
+      "eval_loss": 0.23976343870162964,
+      "eval_matthews_correlation": 0.8144084809151402,
+      "eval_precision": 0.8941883616324207,
+      "eval_recall": 0.8630844566109225,
+      "eval_runtime": 741.7654,
+      "eval_samples_per_second": 82.383,
+      "eval_steps_per_second": 10.298,
+      "step": 27400
+    },
+    {
+      "epoch": 58.51,
+      "learning_rate": 6.232118294360385e-08,
+      "loss": 0.1802,
+      "step": 27500
+    },
+    {
+      "epoch": 58.72,
+      "learning_rate": 5.9914030261348e-08,
+      "loss": 0.184,
+      "step": 27600
+    },
+    {
+      "epoch": 58.72,
+      "eval_accuracy": 0.9111914775237691,
+      "eval_f1": 0.8763957508353747,
+      "eval_loss": 0.23981378972530365,
+      "eval_matthews_correlation": 0.8142917281911558,
+      "eval_precision": 0.8937138213627563,
+      "eval_recall": 0.8633813581654887,
+      "eval_runtime": 737.9501,
+      "eval_samples_per_second": 82.809,
+      "eval_steps_per_second": 10.352,
+      "step": 27600
+    },
+    {
+      "epoch": 58.94,
+      "learning_rate": 5.753094910591472e-08,
+      "loss": 0.181,
+      "step": 27700
+    },
+    {
+      "epoch": 59.15,
+      "learning_rate": 5.512379642365887e-08,
+      "loss": 0.1863,
+      "step": 27800
+    },
+    {
+      "epoch": 59.15,
+      "eval_accuracy": 0.9112732985321311,
+      "eval_f1": 0.8764471697031038,
+      "eval_loss": 0.23969484865665436,
+      "eval_matthews_correlation": 0.8144196501940248,
+      "eval_precision": 0.894127496044295,
+      "eval_recall": 0.8631622444399282,
+      "eval_runtime": 753.6879,
+      "eval_samples_per_second": 81.08,
+      "eval_steps_per_second": 10.135,
+      "step": 27800
+    },
+    {
+      "epoch": 59.36,
+      "learning_rate": 5.2716643741403025e-08,
+      "loss": 0.1819,
+      "step": 27900
+    },
+    {
+      "epoch": 59.57,
+      "learning_rate": 5.030949105914718e-08,
+      "loss": 0.1797,
+      "step": 28000
+    },
+    {
+      "epoch": 59.57,
+      "eval_accuracy": 0.9111423849187518,
+      "eval_f1": 0.8757162075593086,
+      "eval_loss": 0.2396748661994934,
+      "eval_matthews_correlation": 0.8140161582224527,
+      "eval_precision": 0.8947931225288825,
+      "eval_recall": 0.8616459185046849,
+      "eval_runtime": 740.934,
+      "eval_samples_per_second": 82.476,
+      "eval_steps_per_second": 10.31,
+      "step": 28000
+    },
+    {
+      "epoch": 59.79,
+      "learning_rate": 4.7902338376891336e-08,
+      "loss": 0.1835,
+      "step": 28100
+    },
+    {
+      "epoch": 60.0,
+      "learning_rate": 4.549518569463548e-08,
+      "loss": 0.1816,
+      "step": 28200
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.9111914775237691,
+      "eval_f1": 0.875684259377722,
+      "eval_loss": 0.23967032134532928,
+      "eval_matthews_correlation": 0.8140985991678936,
+      "eval_precision": 0.895037456074052,
+      "eval_recall": 0.8614625917166782,
+      "eval_runtime": 741.9954,
+      "eval_samples_per_second": 82.358,
+      "eval_steps_per_second": 10.295,
+      "step": 28200
+    },
+    {
+      "epoch": 60.21,
+      "learning_rate": 4.308803301237964e-08,
+      "loss": 0.1831,
+      "step": 28300
+    },
+    {
+      "epoch": 60.43,
+      "learning_rate": 4.068088033012379e-08,
+      "loss": 0.1783,
+      "step": 28400
+    },
+    {
+      "epoch": 60.43,
+      "eval_accuracy": 0.9110932923137345,
+      "eval_f1": 0.8756175323420491,
+      "eval_loss": 0.23969128727912903,
+      "eval_matthews_correlation": 0.813915664812348,
+      "eval_precision": 0.8946951899568988,
+      "eval_recall": 0.8615699525293389,
+      "eval_runtime": 743.6353,
+      "eval_samples_per_second": 82.176,
+      "eval_steps_per_second": 10.273,
+      "step": 28400
+    },
+    {
+      "epoch": 60.64,
+      "learning_rate": 3.827372764786795e-08,
+      "loss": 0.1828,
+      "step": 28500
+    },
+    {
+      "epoch": 60.85,
+      "learning_rate": 3.58665749656121e-08,
+      "loss": 0.184,
+      "step": 28600
+    },
+    {
+      "epoch": 60.85,
+      "eval_accuracy": 0.9113060269354759,
+      "eval_f1": 0.8762367531132061,
+      "eval_loss": 0.23966141045093536,
+      "eval_matthews_correlation": 0.8144473273801464,
+      "eval_precision": 0.8944561977906652,
+      "eval_recall": 0.8626856598046749,
+      "eval_runtime": 744.885,
+      "eval_samples_per_second": 82.038,
+      "eval_steps_per_second": 10.255,
+      "step": 28600
+    },
+    {
+      "epoch": 61.06,
+      "learning_rate": 3.3459422283356255e-08,
+      "loss": 0.1829,
+      "step": 28700
+    },
+    {
+      "epoch": 61.28,
+      "learning_rate": 3.105226960110041e-08,
+      "loss": 0.1875,
+      "step": 28800
+    },
+    {
+      "epoch": 61.28,
+      "eval_accuracy": 0.9112242059271138,
+      "eval_f1": 0.8758497580945278,
+      "eval_loss": 0.23964743316173553,
+      "eval_matthews_correlation": 0.8142105312256298,
+      "eval_precision": 0.8948033936113107,
+      "eval_recall": 0.8618935317531595,
+      "eval_runtime": 748.7394,
+      "eval_samples_per_second": 81.616,
+      "eval_steps_per_second": 10.202,
+      "step": 28800
+    },
+    {
+      "epoch": 61.49,
+      "learning_rate": 2.8645116918844566e-08,
+      "loss": 0.1791,
+      "step": 28900
+    },
+    {
+      "epoch": 61.7,
+      "learning_rate": 2.6237964236588718e-08,
+      "loss": 0.1838,
+      "step": 29000
+    },
+    {
+      "epoch": 61.7,
+      "eval_accuracy": 0.9111587491204242,
+      "eval_f1": 0.8760228033495788,
+      "eval_loss": 0.23964354395866394,
+      "eval_matthews_correlation": 0.8141091546113298,
+      "eval_precision": 0.8944177182411416,
+      "eval_recall": 0.8623281154969605,
+      "eval_runtime": 748.1941,
+      "eval_samples_per_second": 81.675,
+      "eval_steps_per_second": 10.21,
+      "step": 29000
+    },
+    {
+      "epoch": 61.91,
+      "learning_rate": 2.3830811554332873e-08,
+      "loss": 0.1785,
+      "step": 29100
+    },
+    {
+      "epoch": 62.13,
+      "learning_rate": 2.142365887207703e-08,
+      "loss": 0.1789,
+      "step": 29200
+    },
+    {
+      "epoch": 62.13,
+      "eval_accuracy": 0.9111587491204242,
+      "eval_f1": 0.8758841231334511,
+      "eval_loss": 0.23965215682983398,
+      "eval_matthews_correlation": 0.8141002784950974,
+      "eval_precision": 0.8944914970092818,
+      "eval_recall": 0.8621206812862784,
+      "eval_runtime": 749.2476,
+      "eval_samples_per_second": 81.56,
+      "eval_steps_per_second": 10.196,
+      "step": 29200
+    },
+    {
+      "epoch": 62.34,
+      "learning_rate": 1.9016506189821184e-08,
+      "loss": 0.1796,
+      "step": 29300
+    },
+    {
+      "epoch": 62.55,
+      "learning_rate": 1.6609353507565336e-08,
+      "loss": 0.1867,
+      "step": 29400
+    },
+    {
+      "epoch": 62.55,
+      "eval_accuracy": 0.9111751133220966,
+      "eval_f1": 0.875965589962468,
+      "eval_loss": 0.23963497579097748,
+      "eval_matthews_correlation": 0.8141472397026508,
+      "eval_precision": 0.8944009651598707,
+      "eval_recall": 0.8622842927518485,
+      "eval_runtime": 751.8905,
+      "eval_samples_per_second": 81.274,
+      "eval_steps_per_second": 10.16,
+      "step": 29400
+    },
+    {
+      "epoch": 62.77,
+      "learning_rate": 1.420220082530949e-08,
+      "loss": 0.184,
+      "step": 29500
+    },
+    {
+      "epoch": 62.98,
+      "learning_rate": 1.1795048143053644e-08,
+      "loss": 0.1786,
+      "step": 29600
+    },
+    {
+      "epoch": 62.98,
+      "eval_accuracy": 0.9112896627338035,
+      "eval_f1": 0.8760749417095012,
+      "eval_loss": 0.2396363765001297,
+      "eval_matthews_correlation": 0.8143793765063666,
+      "eval_precision": 0.8946518427392349,
+      "eval_recall": 0.8623146141284225,
+      "eval_runtime": 751.3146,
+      "eval_samples_per_second": 81.336,
+      "eval_steps_per_second": 10.168,
+      "step": 29600
+    },
+    {
+      "epoch": 63.19,
+      "learning_rate": 9.387895460797799e-09,
+      "loss": 0.1824,
+      "step": 29700
+    },
+    {
+      "epoch": 63.4,
+      "learning_rate": 7.004814305364511e-09,
+      "loss": 0.1844,
+      "step": 29800
+    },
+    {
+      "epoch": 63.4,
+      "eval_accuracy": 0.9112732985321311,
+      "eval_f1": 0.8761606783620112,
+      "eval_loss": 0.2396179437637329,
+      "eval_matthews_correlation": 0.8143620838003341,
+      "eval_precision": 0.8945106594084687,
+      "eval_recall": 0.8625140125315464,
+      "eval_runtime": 748.6773,
+      "eval_samples_per_second": 81.623,
+      "eval_steps_per_second": 10.203,
+      "step": 29800
+    }
+  ],
+  "max_steps": 30080,
+  "num_train_epochs": 64,
+  "total_flos": 3.4885742334268046e+21,
+  "trial_name": null,
+  "trial_params": null
+}