{ "best_metric": 0.8434039950370789, "best_model_checkpoint": "autotrain-5um8a-sa81u/checkpoint-7500", "epoch": 2.0, "eval_steps": 500, "global_step": 7500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.006666666666666667, "grad_norm": 3.13798189163208, "learning_rate": 1.1111111111111112e-06, "loss": 2.2931, "step": 25 }, { "epoch": 0.013333333333333334, "grad_norm": 3.3599817752838135, "learning_rate": 2.2222222222222225e-06, "loss": 2.2796, "step": 50 }, { "epoch": 0.02, "grad_norm": 2.9536943435668945, "learning_rate": 3.3333333333333333e-06, "loss": 2.2502, "step": 75 }, { "epoch": 0.02666666666666667, "grad_norm": 3.538480281829834, "learning_rate": 4.444444444444445e-06, "loss": 2.189, "step": 100 }, { "epoch": 0.03333333333333333, "grad_norm": 3.384152889251709, "learning_rate": 5.555555555555556e-06, "loss": 2.1509, "step": 125 }, { "epoch": 0.04, "grad_norm": 4.4334306716918945, "learning_rate": 6.666666666666667e-06, "loss": 2.0535, "step": 150 }, { "epoch": 0.04666666666666667, "grad_norm": 4.605741500854492, "learning_rate": 7.777777777777777e-06, "loss": 1.875, "step": 175 }, { "epoch": 0.05333333333333334, "grad_norm": 5.930888652801514, "learning_rate": 8.88888888888889e-06, "loss": 1.7946, "step": 200 }, { "epoch": 0.06, "grad_norm": 4.181428909301758, "learning_rate": 1e-05, "loss": 1.6376, "step": 225 }, { "epoch": 0.06666666666666667, "grad_norm": 7.74509334564209, "learning_rate": 1.1111111111111112e-05, "loss": 1.5804, "step": 250 }, { "epoch": 0.07333333333333333, "grad_norm": 4.1855669021606445, "learning_rate": 1.2177777777777778e-05, "loss": 1.5385, "step": 275 }, { "epoch": 0.08, "grad_norm": 5.815659999847412, "learning_rate": 1.328888888888889e-05, "loss": 1.4515, "step": 300 }, { "epoch": 0.08666666666666667, "grad_norm": 7.293570041656494, "learning_rate": 1.44e-05, "loss": 1.4399, "step": 325 }, { "epoch": 0.09333333333333334, "grad_norm": 9.302970886230469, "learning_rate": 1.5511111111111114e-05, "loss": 1.4602, "step": 350 }, { "epoch": 0.1, "grad_norm": 4.114165782928467, "learning_rate": 1.6622222222222223e-05, "loss": 1.3399, "step": 375 }, { "epoch": 0.10666666666666667, "grad_norm": 10.503884315490723, "learning_rate": 1.768888888888889e-05, "loss": 1.2846, "step": 400 }, { "epoch": 0.11333333333333333, "grad_norm": 6.395691871643066, "learning_rate": 1.88e-05, "loss": 1.178, "step": 425 }, { "epoch": 0.12, "grad_norm": 7.209555625915527, "learning_rate": 1.9911111111111112e-05, "loss": 1.1698, "step": 450 }, { "epoch": 0.12666666666666668, "grad_norm": 7.22865629196167, "learning_rate": 2.1022222222222225e-05, "loss": 1.1631, "step": 475 }, { "epoch": 0.13333333333333333, "grad_norm": 8.306069374084473, "learning_rate": 2.2133333333333334e-05, "loss": 1.1196, "step": 500 }, { "epoch": 0.14, "grad_norm": 5.044536590576172, "learning_rate": 2.3244444444444446e-05, "loss": 1.0854, "step": 525 }, { "epoch": 0.14666666666666667, "grad_norm": 8.39782428741455, "learning_rate": 2.4355555555555555e-05, "loss": 1.1724, "step": 550 }, { "epoch": 0.15333333333333332, "grad_norm": 7.276834011077881, "learning_rate": 2.5466666666666668e-05, "loss": 1.2506, "step": 575 }, { "epoch": 0.16, "grad_norm": 6.928461074829102, "learning_rate": 2.657777777777778e-05, "loss": 1.0995, "step": 600 }, { "epoch": 0.16666666666666666, "grad_norm": 5.020209789276123, "learning_rate": 2.7688888888888893e-05, "loss": 1.0529, "step": 625 }, { "epoch": 0.17333333333333334, "grad_norm": 4.41862154006958, "learning_rate": 2.8755555555555557e-05, "loss": 1.1523, "step": 650 }, { "epoch": 0.18, "grad_norm": 17.745071411132812, "learning_rate": 2.986666666666667e-05, "loss": 1.1962, "step": 675 }, { "epoch": 0.18666666666666668, "grad_norm": 5.518793106079102, "learning_rate": 3.0977777777777776e-05, "loss": 1.0913, "step": 700 }, { "epoch": 0.19333333333333333, "grad_norm": 10.203434944152832, "learning_rate": 3.208888888888889e-05, "loss": 1.108, "step": 725 }, { "epoch": 0.2, "grad_norm": 6.468237400054932, "learning_rate": 3.32e-05, "loss": 1.0822, "step": 750 }, { "epoch": 0.20666666666666667, "grad_norm": 6.182399272918701, "learning_rate": 3.431111111111111e-05, "loss": 1.1224, "step": 775 }, { "epoch": 0.21333333333333335, "grad_norm": 9.415875434875488, "learning_rate": 3.5422222222222226e-05, "loss": 0.9095, "step": 800 }, { "epoch": 0.22, "grad_norm": 17.09987449645996, "learning_rate": 3.653333333333334e-05, "loss": 1.1613, "step": 825 }, { "epoch": 0.22666666666666666, "grad_norm": 8.294900894165039, "learning_rate": 3.764444444444445e-05, "loss": 1.0934, "step": 850 }, { "epoch": 0.23333333333333334, "grad_norm": 13.019417762756348, "learning_rate": 3.8755555555555556e-05, "loss": 1.0647, "step": 875 }, { "epoch": 0.24, "grad_norm": 10.864327430725098, "learning_rate": 3.986666666666667e-05, "loss": 1.0718, "step": 900 }, { "epoch": 0.24666666666666667, "grad_norm": 9.016544342041016, "learning_rate": 4.097777777777778e-05, "loss": 0.9817, "step": 925 }, { "epoch": 0.25333333333333335, "grad_norm": 5.4241485595703125, "learning_rate": 4.208888888888889e-05, "loss": 1.003, "step": 950 }, { "epoch": 0.26, "grad_norm": 10.213274955749512, "learning_rate": 4.32e-05, "loss": 1.0223, "step": 975 }, { "epoch": 0.26666666666666666, "grad_norm": 15.214512825012207, "learning_rate": 4.431111111111111e-05, "loss": 1.0648, "step": 1000 }, { "epoch": 0.2733333333333333, "grad_norm": 3.9258694648742676, "learning_rate": 4.5422222222222225e-05, "loss": 0.9985, "step": 1025 }, { "epoch": 0.28, "grad_norm": 7.457239151000977, "learning_rate": 4.653333333333334e-05, "loss": 1.117, "step": 1050 }, { "epoch": 0.2866666666666667, "grad_norm": 12.809249877929688, "learning_rate": 4.764444444444445e-05, "loss": 1.0538, "step": 1075 }, { "epoch": 0.29333333333333333, "grad_norm": 18.092700958251953, "learning_rate": 4.875555555555556e-05, "loss": 1.0866, "step": 1100 }, { "epoch": 0.3, "grad_norm": 4.2002458572387695, "learning_rate": 4.986666666666667e-05, "loss": 0.9351, "step": 1125 }, { "epoch": 0.30666666666666664, "grad_norm": 9.016805648803711, "learning_rate": 4.9891358024691356e-05, "loss": 0.8765, "step": 1150 }, { "epoch": 0.31333333333333335, "grad_norm": 8.664179801940918, "learning_rate": 4.9767901234567903e-05, "loss": 1.1023, "step": 1175 }, { "epoch": 0.32, "grad_norm": 11.132316589355469, "learning_rate": 4.964444444444445e-05, "loss": 0.9903, "step": 1200 }, { "epoch": 0.32666666666666666, "grad_norm": 10.408929824829102, "learning_rate": 4.9520987654320985e-05, "loss": 0.9008, "step": 1225 }, { "epoch": 0.3333333333333333, "grad_norm": 15.614274978637695, "learning_rate": 4.939753086419753e-05, "loss": 1.002, "step": 1250 }, { "epoch": 0.34, "grad_norm": 11.449036598205566, "learning_rate": 4.927407407407408e-05, "loss": 0.959, "step": 1275 }, { "epoch": 0.3466666666666667, "grad_norm": 5.918100357055664, "learning_rate": 4.9150617283950614e-05, "loss": 0.9706, "step": 1300 }, { "epoch": 0.35333333333333333, "grad_norm": 6.706690788269043, "learning_rate": 4.902716049382716e-05, "loss": 0.9262, "step": 1325 }, { "epoch": 0.36, "grad_norm": 4.575336456298828, "learning_rate": 4.890370370370371e-05, "loss": 1.0084, "step": 1350 }, { "epoch": 0.36666666666666664, "grad_norm": 12.109813690185547, "learning_rate": 4.878024691358025e-05, "loss": 1.0407, "step": 1375 }, { "epoch": 0.37333333333333335, "grad_norm": 11.848983764648438, "learning_rate": 4.865679012345679e-05, "loss": 0.9616, "step": 1400 }, { "epoch": 0.38, "grad_norm": 11.87781047821045, "learning_rate": 4.853333333333334e-05, "loss": 1.0143, "step": 1425 }, { "epoch": 0.38666666666666666, "grad_norm": 8.980938911437988, "learning_rate": 4.840987654320988e-05, "loss": 0.9217, "step": 1450 }, { "epoch": 0.3933333333333333, "grad_norm": 8.561235427856445, "learning_rate": 4.828641975308642e-05, "loss": 1.1442, "step": 1475 }, { "epoch": 0.4, "grad_norm": 9.980470657348633, "learning_rate": 4.816296296296297e-05, "loss": 1.0186, "step": 1500 }, { "epoch": 0.4066666666666667, "grad_norm": 7.693286418914795, "learning_rate": 4.803950617283951e-05, "loss": 0.9953, "step": 1525 }, { "epoch": 0.41333333333333333, "grad_norm": 5.39948034286499, "learning_rate": 4.791604938271605e-05, "loss": 0.9544, "step": 1550 }, { "epoch": 0.42, "grad_norm": 7.7968549728393555, "learning_rate": 4.77925925925926e-05, "loss": 0.898, "step": 1575 }, { "epoch": 0.4266666666666667, "grad_norm": 3.694169044494629, "learning_rate": 4.766913580246914e-05, "loss": 1.0325, "step": 1600 }, { "epoch": 0.43333333333333335, "grad_norm": 10.049742698669434, "learning_rate": 4.754567901234568e-05, "loss": 0.9118, "step": 1625 }, { "epoch": 0.44, "grad_norm": 13.797918319702148, "learning_rate": 4.7422222222222226e-05, "loss": 0.9135, "step": 1650 }, { "epoch": 0.44666666666666666, "grad_norm": 7.2649688720703125, "learning_rate": 4.729876543209877e-05, "loss": 1.0054, "step": 1675 }, { "epoch": 0.4533333333333333, "grad_norm": 5.670660018920898, "learning_rate": 4.7175308641975314e-05, "loss": 0.9929, "step": 1700 }, { "epoch": 0.46, "grad_norm": 10.087015151977539, "learning_rate": 4.7051851851851855e-05, "loss": 1.1383, "step": 1725 }, { "epoch": 0.4666666666666667, "grad_norm": 6.2626800537109375, "learning_rate": 4.6928395061728396e-05, "loss": 1.1386, "step": 1750 }, { "epoch": 0.47333333333333333, "grad_norm": 11.429990768432617, "learning_rate": 4.6804938271604943e-05, "loss": 0.9042, "step": 1775 }, { "epoch": 0.48, "grad_norm": 6.389810085296631, "learning_rate": 4.6681481481481484e-05, "loss": 0.9631, "step": 1800 }, { "epoch": 0.4866666666666667, "grad_norm": 8.779641151428223, "learning_rate": 4.6558024691358025e-05, "loss": 1.1042, "step": 1825 }, { "epoch": 0.49333333333333335, "grad_norm": 8.273574829101562, "learning_rate": 4.643456790123457e-05, "loss": 0.9551, "step": 1850 }, { "epoch": 0.5, "grad_norm": 7.0266194343566895, "learning_rate": 4.6311111111111113e-05, "loss": 0.9846, "step": 1875 }, { "epoch": 0.5066666666666667, "grad_norm": 8.741957664489746, "learning_rate": 4.6187654320987654e-05, "loss": 1.0969, "step": 1900 }, { "epoch": 0.5133333333333333, "grad_norm": 17.768611907958984, "learning_rate": 4.60641975308642e-05, "loss": 0.844, "step": 1925 }, { "epoch": 0.52, "grad_norm": 9.893391609191895, "learning_rate": 4.594074074074074e-05, "loss": 0.9731, "step": 1950 }, { "epoch": 0.5266666666666666, "grad_norm": 5.22994327545166, "learning_rate": 4.5817283950617283e-05, "loss": 0.8226, "step": 1975 }, { "epoch": 0.5333333333333333, "grad_norm": 13.81772232055664, "learning_rate": 4.569382716049383e-05, "loss": 0.8015, "step": 2000 }, { "epoch": 0.54, "grad_norm": 5.9889302253723145, "learning_rate": 4.557037037037037e-05, "loss": 0.9881, "step": 2025 }, { "epoch": 0.5466666666666666, "grad_norm": 7.382312774658203, "learning_rate": 4.544691358024691e-05, "loss": 1.0753, "step": 2050 }, { "epoch": 0.5533333333333333, "grad_norm": 13.38068962097168, "learning_rate": 4.532345679012346e-05, "loss": 0.8732, "step": 2075 }, { "epoch": 0.56, "grad_norm": 18.700225830078125, "learning_rate": 4.52e-05, "loss": 0.9685, "step": 2100 }, { "epoch": 0.5666666666666667, "grad_norm": 9.365460395812988, "learning_rate": 4.507654320987654e-05, "loss": 1.0779, "step": 2125 }, { "epoch": 0.5733333333333334, "grad_norm": 8.056510925292969, "learning_rate": 4.495308641975309e-05, "loss": 0.9673, "step": 2150 }, { "epoch": 0.58, "grad_norm": 7.804261684417725, "learning_rate": 4.482962962962963e-05, "loss": 0.9461, "step": 2175 }, { "epoch": 0.5866666666666667, "grad_norm": 4.484943866729736, "learning_rate": 4.470617283950618e-05, "loss": 0.9341, "step": 2200 }, { "epoch": 0.5933333333333334, "grad_norm": 7.764664173126221, "learning_rate": 4.458271604938272e-05, "loss": 0.8104, "step": 2225 }, { "epoch": 0.6, "grad_norm": 6.613196849822998, "learning_rate": 4.44641975308642e-05, "loss": 1.0037, "step": 2250 }, { "epoch": 0.6066666666666667, "grad_norm": 5.951300144195557, "learning_rate": 4.4340740740740744e-05, "loss": 0.9785, "step": 2275 }, { "epoch": 0.6133333333333333, "grad_norm": 4.876894474029541, "learning_rate": 4.421728395061729e-05, "loss": 0.9276, "step": 2300 }, { "epoch": 0.62, "grad_norm": 9.433537483215332, "learning_rate": 4.4093827160493826e-05, "loss": 1.0004, "step": 2325 }, { "epoch": 0.6266666666666667, "grad_norm": 10.541296005249023, "learning_rate": 4.3970370370370374e-05, "loss": 1.0609, "step": 2350 }, { "epoch": 0.6333333333333333, "grad_norm": 6.446004390716553, "learning_rate": 4.384691358024692e-05, "loss": 0.9926, "step": 2375 }, { "epoch": 0.64, "grad_norm": 8.850340843200684, "learning_rate": 4.3723456790123455e-05, "loss": 0.9382, "step": 2400 }, { "epoch": 0.6466666666666666, "grad_norm": 6.004384517669678, "learning_rate": 4.36e-05, "loss": 1.1173, "step": 2425 }, { "epoch": 0.6533333333333333, "grad_norm": 10.950887680053711, "learning_rate": 4.3476543209876543e-05, "loss": 0.8673, "step": 2450 }, { "epoch": 0.66, "grad_norm": 5.736955642700195, "learning_rate": 4.3353086419753084e-05, "loss": 0.9869, "step": 2475 }, { "epoch": 0.6666666666666666, "grad_norm": 9.545438766479492, "learning_rate": 4.322962962962963e-05, "loss": 1.0109, "step": 2500 }, { "epoch": 0.6733333333333333, "grad_norm": 14.54963207244873, "learning_rate": 4.310617283950617e-05, "loss": 0.8774, "step": 2525 }, { "epoch": 0.68, "grad_norm": 6.30457067489624, "learning_rate": 4.298271604938272e-05, "loss": 0.8801, "step": 2550 }, { "epoch": 0.6866666666666666, "grad_norm": 6.858036041259766, "learning_rate": 4.285925925925926e-05, "loss": 0.727, "step": 2575 }, { "epoch": 0.6933333333333334, "grad_norm": 5.082749366760254, "learning_rate": 4.27358024691358e-05, "loss": 0.9237, "step": 2600 }, { "epoch": 0.7, "grad_norm": 7.5763936042785645, "learning_rate": 4.261234567901235e-05, "loss": 0.8342, "step": 2625 }, { "epoch": 0.7066666666666667, "grad_norm": 8.811793327331543, "learning_rate": 4.248888888888889e-05, "loss": 1.0076, "step": 2650 }, { "epoch": 0.7133333333333334, "grad_norm": 13.048144340515137, "learning_rate": 4.236543209876543e-05, "loss": 0.9556, "step": 2675 }, { "epoch": 0.72, "grad_norm": 11.870134353637695, "learning_rate": 4.224197530864198e-05, "loss": 1.0028, "step": 2700 }, { "epoch": 0.7266666666666667, "grad_norm": 12.326855659484863, "learning_rate": 4.211851851851852e-05, "loss": 0.8794, "step": 2725 }, { "epoch": 0.7333333333333333, "grad_norm": 7.567747116088867, "learning_rate": 4.199506172839506e-05, "loss": 0.8812, "step": 2750 }, { "epoch": 0.74, "grad_norm": 6.114919185638428, "learning_rate": 4.187160493827161e-05, "loss": 0.8974, "step": 2775 }, { "epoch": 0.7466666666666667, "grad_norm": 16.97509765625, "learning_rate": 4.1748148148148155e-05, "loss": 0.8895, "step": 2800 }, { "epoch": 0.7533333333333333, "grad_norm": 9.177389144897461, "learning_rate": 4.162469135802469e-05, "loss": 0.7692, "step": 2825 }, { "epoch": 0.76, "grad_norm": 7.463740348815918, "learning_rate": 4.150123456790124e-05, "loss": 0.9168, "step": 2850 }, { "epoch": 0.7666666666666667, "grad_norm": 8.774567604064941, "learning_rate": 4.1377777777777784e-05, "loss": 0.8709, "step": 2875 }, { "epoch": 0.7733333333333333, "grad_norm": 7.635562419891357, "learning_rate": 4.125432098765432e-05, "loss": 1.059, "step": 2900 }, { "epoch": 0.78, "grad_norm": 5.951021671295166, "learning_rate": 4.1130864197530866e-05, "loss": 0.7637, "step": 2925 }, { "epoch": 0.7866666666666666, "grad_norm": 9.935166358947754, "learning_rate": 4.1007407407407414e-05, "loss": 0.9919, "step": 2950 }, { "epoch": 0.7933333333333333, "grad_norm": 5.804830074310303, "learning_rate": 4.088395061728395e-05, "loss": 0.7903, "step": 2975 }, { "epoch": 0.8, "grad_norm": 5.533348560333252, "learning_rate": 4.0760493827160495e-05, "loss": 0.9898, "step": 3000 }, { "epoch": 0.8066666666666666, "grad_norm": 8.753861427307129, "learning_rate": 4.063703703703704e-05, "loss": 0.7716, "step": 3025 }, { "epoch": 0.8133333333333334, "grad_norm": 11.261335372924805, "learning_rate": 4.051358024691358e-05, "loss": 0.9554, "step": 3050 }, { "epoch": 0.82, "grad_norm": 10.08859920501709, "learning_rate": 4.0390123456790124e-05, "loss": 0.8887, "step": 3075 }, { "epoch": 0.8266666666666667, "grad_norm": 3.6686923503875732, "learning_rate": 4.026666666666667e-05, "loss": 0.8084, "step": 3100 }, { "epoch": 0.8333333333333334, "grad_norm": 7.54130220413208, "learning_rate": 4.014320987654321e-05, "loss": 1.0297, "step": 3125 }, { "epoch": 0.84, "grad_norm": 5.28485631942749, "learning_rate": 4.0019753086419753e-05, "loss": 0.8179, "step": 3150 }, { "epoch": 0.8466666666666667, "grad_norm": 5.715919494628906, "learning_rate": 3.98962962962963e-05, "loss": 0.8925, "step": 3175 }, { "epoch": 0.8533333333333334, "grad_norm": 12.822041511535645, "learning_rate": 3.977283950617284e-05, "loss": 0.8126, "step": 3200 }, { "epoch": 0.86, "grad_norm": 6.913020133972168, "learning_rate": 3.964938271604938e-05, "loss": 0.9576, "step": 3225 }, { "epoch": 0.8666666666666667, "grad_norm": 7.729150772094727, "learning_rate": 3.952592592592593e-05, "loss": 0.8019, "step": 3250 }, { "epoch": 0.8733333333333333, "grad_norm": 14.75147819519043, "learning_rate": 3.940246913580247e-05, "loss": 0.8749, "step": 3275 }, { "epoch": 0.88, "grad_norm": 6.890247344970703, "learning_rate": 3.927901234567901e-05, "loss": 0.8219, "step": 3300 }, { "epoch": 0.8866666666666667, "grad_norm": 14.082189559936523, "learning_rate": 3.915555555555556e-05, "loss": 0.9104, "step": 3325 }, { "epoch": 0.8933333333333333, "grad_norm": 14.824267387390137, "learning_rate": 3.90320987654321e-05, "loss": 1.0422, "step": 3350 }, { "epoch": 0.9, "grad_norm": 6.831472396850586, "learning_rate": 3.890864197530865e-05, "loss": 0.955, "step": 3375 }, { "epoch": 0.9066666666666666, "grad_norm": 12.86788558959961, "learning_rate": 3.878518518518519e-05, "loss": 0.8177, "step": 3400 }, { "epoch": 0.9133333333333333, "grad_norm": 5.384681224822998, "learning_rate": 3.866172839506173e-05, "loss": 1.0076, "step": 3425 }, { "epoch": 0.92, "grad_norm": 7.360981464385986, "learning_rate": 3.853827160493828e-05, "loss": 0.9525, "step": 3450 }, { "epoch": 0.9266666666666666, "grad_norm": 9.476499557495117, "learning_rate": 3.841481481481482e-05, "loss": 0.8705, "step": 3475 }, { "epoch": 0.9333333333333333, "grad_norm": 11.018596649169922, "learning_rate": 3.829135802469136e-05, "loss": 0.8799, "step": 3500 }, { "epoch": 0.94, "grad_norm": 9.566810607910156, "learning_rate": 3.8167901234567906e-05, "loss": 0.9072, "step": 3525 }, { "epoch": 0.9466666666666667, "grad_norm": 6.946780681610107, "learning_rate": 3.804444444444445e-05, "loss": 0.9795, "step": 3550 }, { "epoch": 0.9533333333333334, "grad_norm": 11.96141242980957, "learning_rate": 3.792098765432099e-05, "loss": 0.9398, "step": 3575 }, { "epoch": 0.96, "grad_norm": 6.139281749725342, "learning_rate": 3.7797530864197535e-05, "loss": 0.877, "step": 3600 }, { "epoch": 0.9666666666666667, "grad_norm": 8.848674774169922, "learning_rate": 3.7674074074074076e-05, "loss": 0.9407, "step": 3625 }, { "epoch": 0.9733333333333334, "grad_norm": 8.626237869262695, "learning_rate": 3.755061728395062e-05, "loss": 0.7231, "step": 3650 }, { "epoch": 0.98, "grad_norm": 8.904046058654785, "learning_rate": 3.7427160493827164e-05, "loss": 0.7771, "step": 3675 }, { "epoch": 0.9866666666666667, "grad_norm": 8.304384231567383, "learning_rate": 3.7303703703703705e-05, "loss": 0.8759, "step": 3700 }, { "epoch": 0.9933333333333333, "grad_norm": 3.275665283203125, "learning_rate": 3.7180246913580246e-05, "loss": 1.0953, "step": 3725 }, { "epoch": 1.0, "grad_norm": 9.612822532653809, "learning_rate": 3.7056790123456794e-05, "loss": 0.9654, "step": 3750 }, { "epoch": 1.0, "eval_accuracy": 0.7091666666666666, "eval_f1_macro": 0.6100324685442738, "eval_f1_micro": 0.7091666666666666, "eval_f1_weighted": 0.6820074793819821, "eval_loss": 0.8581413626670837, "eval_precision_macro": 0.6409039609039581, "eval_precision_micro": 0.7091666666666666, "eval_precision_weighted": 0.6788783926303716, "eval_recall_macro": 0.6173398268291092, "eval_recall_micro": 0.7091666666666666, "eval_recall_weighted": 0.7091666666666666, "eval_runtime": 17.7272, "eval_samples_per_second": 338.462, "eval_steps_per_second": 21.154, "step": 3750 }, { "epoch": 1.0066666666666666, "grad_norm": 4.440273761749268, "learning_rate": 3.6933333333333334e-05, "loss": 0.7425, "step": 3775 }, { "epoch": 1.0133333333333334, "grad_norm": 2.8456194400787354, "learning_rate": 3.6809876543209875e-05, "loss": 0.8552, "step": 3800 }, { "epoch": 1.02, "grad_norm": 7.814695358276367, "learning_rate": 3.668641975308642e-05, "loss": 0.7137, "step": 3825 }, { "epoch": 1.0266666666666666, "grad_norm": 15.144572257995605, "learning_rate": 3.6562962962962964e-05, "loss": 0.7113, "step": 3850 }, { "epoch": 1.0333333333333334, "grad_norm": 7.033264636993408, "learning_rate": 3.643950617283951e-05, "loss": 0.635, "step": 3875 }, { "epoch": 1.04, "grad_norm": 9.882685661315918, "learning_rate": 3.631604938271605e-05, "loss": 0.6947, "step": 3900 }, { "epoch": 1.0466666666666666, "grad_norm": 3.8773844242095947, "learning_rate": 3.619259259259259e-05, "loss": 0.7561, "step": 3925 }, { "epoch": 1.0533333333333332, "grad_norm": 13.235457420349121, "learning_rate": 3.606913580246914e-05, "loss": 0.8613, "step": 3950 }, { "epoch": 1.06, "grad_norm": 7.09820032119751, "learning_rate": 3.594567901234568e-05, "loss": 0.6555, "step": 3975 }, { "epoch": 1.0666666666666667, "grad_norm": 10.326157569885254, "learning_rate": 3.582222222222222e-05, "loss": 0.7023, "step": 4000 }, { "epoch": 1.0733333333333333, "grad_norm": 26.21095085144043, "learning_rate": 3.569876543209877e-05, "loss": 0.8392, "step": 4025 }, { "epoch": 1.08, "grad_norm": 8.45411205291748, "learning_rate": 3.557530864197531e-05, "loss": 0.6542, "step": 4050 }, { "epoch": 1.0866666666666667, "grad_norm": 9.493447303771973, "learning_rate": 3.545185185185185e-05, "loss": 0.6472, "step": 4075 }, { "epoch": 1.0933333333333333, "grad_norm": 6.964524745941162, "learning_rate": 3.53283950617284e-05, "loss": 0.8216, "step": 4100 }, { "epoch": 1.1, "grad_norm": 9.059328079223633, "learning_rate": 3.520493827160494e-05, "loss": 0.8314, "step": 4125 }, { "epoch": 1.1066666666666667, "grad_norm": 6.654369831085205, "learning_rate": 3.508148148148148e-05, "loss": 0.628, "step": 4150 }, { "epoch": 1.1133333333333333, "grad_norm": 13.223770141601562, "learning_rate": 3.495802469135803e-05, "loss": 0.8023, "step": 4175 }, { "epoch": 1.12, "grad_norm": 12.41712474822998, "learning_rate": 3.483456790123457e-05, "loss": 0.8411, "step": 4200 }, { "epoch": 1.1266666666666667, "grad_norm": 6.774609565734863, "learning_rate": 3.471111111111111e-05, "loss": 0.8376, "step": 4225 }, { "epoch": 1.1333333333333333, "grad_norm": 7.308166980743408, "learning_rate": 3.4592592592592594e-05, "loss": 0.7768, "step": 4250 }, { "epoch": 1.1400000000000001, "grad_norm": 7.681529521942139, "learning_rate": 3.4469135802469135e-05, "loss": 0.7728, "step": 4275 }, { "epoch": 1.1466666666666667, "grad_norm": 6.580010414123535, "learning_rate": 3.434567901234568e-05, "loss": 0.6793, "step": 4300 }, { "epoch": 1.1533333333333333, "grad_norm": 3.635303497314453, "learning_rate": 3.4222222222222224e-05, "loss": 0.7412, "step": 4325 }, { "epoch": 1.16, "grad_norm": 8.876466751098633, "learning_rate": 3.4098765432098764e-05, "loss": 0.6272, "step": 4350 }, { "epoch": 1.1666666666666667, "grad_norm": 7.696030139923096, "learning_rate": 3.397530864197531e-05, "loss": 0.6547, "step": 4375 }, { "epoch": 1.1733333333333333, "grad_norm": 8.832601547241211, "learning_rate": 3.385185185185185e-05, "loss": 0.5395, "step": 4400 }, { "epoch": 1.18, "grad_norm": 8.13397216796875, "learning_rate": 3.3728395061728394e-05, "loss": 0.7159, "step": 4425 }, { "epoch": 1.1866666666666668, "grad_norm": 13.775779724121094, "learning_rate": 3.360493827160494e-05, "loss": 0.827, "step": 4450 }, { "epoch": 1.1933333333333334, "grad_norm": 10.165814399719238, "learning_rate": 3.348148148148148e-05, "loss": 0.6612, "step": 4475 }, { "epoch": 1.2, "grad_norm": 16.018178939819336, "learning_rate": 3.335802469135802e-05, "loss": 0.6556, "step": 4500 }, { "epoch": 1.2066666666666666, "grad_norm": 1.3013031482696533, "learning_rate": 3.323456790123457e-05, "loss": 0.8252, "step": 4525 }, { "epoch": 1.2133333333333334, "grad_norm": 7.296039581298828, "learning_rate": 3.311111111111112e-05, "loss": 0.8382, "step": 4550 }, { "epoch": 1.22, "grad_norm": 6.962835788726807, "learning_rate": 3.298765432098765e-05, "loss": 0.7487, "step": 4575 }, { "epoch": 1.2266666666666666, "grad_norm": 4.2493062019348145, "learning_rate": 3.28641975308642e-05, "loss": 0.8383, "step": 4600 }, { "epoch": 1.2333333333333334, "grad_norm": 9.330086708068848, "learning_rate": 3.274074074074075e-05, "loss": 0.7768, "step": 4625 }, { "epoch": 1.24, "grad_norm": 10.251571655273438, "learning_rate": 3.261728395061728e-05, "loss": 0.867, "step": 4650 }, { "epoch": 1.2466666666666666, "grad_norm": 11.619964599609375, "learning_rate": 3.249382716049383e-05, "loss": 0.7623, "step": 4675 }, { "epoch": 1.2533333333333334, "grad_norm": 3.9532220363616943, "learning_rate": 3.2370370370370376e-05, "loss": 0.7566, "step": 4700 }, { "epoch": 1.26, "grad_norm": 4.52797794342041, "learning_rate": 3.224691358024691e-05, "loss": 0.6151, "step": 4725 }, { "epoch": 1.2666666666666666, "grad_norm": 5.5519118309021, "learning_rate": 3.212345679012346e-05, "loss": 0.6997, "step": 4750 }, { "epoch": 1.2733333333333334, "grad_norm": 16.9818172454834, "learning_rate": 3.2000000000000005e-05, "loss": 0.8484, "step": 4775 }, { "epoch": 1.28, "grad_norm": 9.749587059020996, "learning_rate": 3.1876543209876546e-05, "loss": 0.6278, "step": 4800 }, { "epoch": 1.2866666666666666, "grad_norm": 9.709831237792969, "learning_rate": 3.175308641975309e-05, "loss": 0.7075, "step": 4825 }, { "epoch": 1.2933333333333334, "grad_norm": 20.00463104248047, "learning_rate": 3.1629629629629634e-05, "loss": 0.5736, "step": 4850 }, { "epoch": 1.3, "grad_norm": 6.521317958831787, "learning_rate": 3.1506172839506175e-05, "loss": 0.778, "step": 4875 }, { "epoch": 1.3066666666666666, "grad_norm": 8.647531509399414, "learning_rate": 3.1382716049382716e-05, "loss": 0.6916, "step": 4900 }, { "epoch": 1.3133333333333335, "grad_norm": 6.482861042022705, "learning_rate": 3.1259259259259264e-05, "loss": 0.8645, "step": 4925 }, { "epoch": 1.32, "grad_norm": 11.362075805664062, "learning_rate": 3.1135802469135804e-05, "loss": 0.7179, "step": 4950 }, { "epoch": 1.3266666666666667, "grad_norm": 7.478168487548828, "learning_rate": 3.1012345679012345e-05, "loss": 0.7394, "step": 4975 }, { "epoch": 1.3333333333333333, "grad_norm": 8.96081256866455, "learning_rate": 3.088888888888889e-05, "loss": 0.796, "step": 5000 }, { "epoch": 1.34, "grad_norm": 7.8306450843811035, "learning_rate": 3.0765432098765434e-05, "loss": 0.6964, "step": 5025 }, { "epoch": 1.3466666666666667, "grad_norm": 10.186200141906738, "learning_rate": 3.064197530864198e-05, "loss": 0.66, "step": 5050 }, { "epoch": 1.3533333333333333, "grad_norm": 9.338884353637695, "learning_rate": 3.0518518518518515e-05, "loss": 0.7104, "step": 5075 }, { "epoch": 1.3599999999999999, "grad_norm": 13.582483291625977, "learning_rate": 3.0395061728395063e-05, "loss": 0.7455, "step": 5100 }, { "epoch": 1.3666666666666667, "grad_norm": 7.894265651702881, "learning_rate": 3.0271604938271607e-05, "loss": 0.7794, "step": 5125 }, { "epoch": 1.3733333333333333, "grad_norm": 2.8598034381866455, "learning_rate": 3.0148148148148148e-05, "loss": 0.685, "step": 5150 }, { "epoch": 1.38, "grad_norm": 2.645756244659424, "learning_rate": 3.0024691358024692e-05, "loss": 0.8207, "step": 5175 }, { "epoch": 1.3866666666666667, "grad_norm": 9.987272262573242, "learning_rate": 2.9901234567901236e-05, "loss": 0.7231, "step": 5200 }, { "epoch": 1.3933333333333333, "grad_norm": 12.924286842346191, "learning_rate": 2.9777777777777777e-05, "loss": 0.7388, "step": 5225 }, { "epoch": 1.4, "grad_norm": 16.83519744873047, "learning_rate": 2.965432098765432e-05, "loss": 0.7497, "step": 5250 }, { "epoch": 1.4066666666666667, "grad_norm": 7.9070587158203125, "learning_rate": 2.9530864197530865e-05, "loss": 0.8074, "step": 5275 }, { "epoch": 1.4133333333333333, "grad_norm": 4.564779758453369, "learning_rate": 2.9407407407407413e-05, "loss": 0.6971, "step": 5300 }, { "epoch": 1.42, "grad_norm": 8.644104957580566, "learning_rate": 2.928395061728395e-05, "loss": 0.7966, "step": 5325 }, { "epoch": 1.4266666666666667, "grad_norm": 11.114713668823242, "learning_rate": 2.9160493827160494e-05, "loss": 0.7489, "step": 5350 }, { "epoch": 1.4333333333333333, "grad_norm": 10.182296752929688, "learning_rate": 2.9037037037037042e-05, "loss": 0.5922, "step": 5375 }, { "epoch": 1.44, "grad_norm": 8.90845775604248, "learning_rate": 2.891358024691358e-05, "loss": 0.7728, "step": 5400 }, { "epoch": 1.4466666666666668, "grad_norm": 7.750247478485107, "learning_rate": 2.8790123456790124e-05, "loss": 0.7747, "step": 5425 }, { "epoch": 1.4533333333333334, "grad_norm": 5.938879489898682, "learning_rate": 2.8666666666666668e-05, "loss": 0.6753, "step": 5450 }, { "epoch": 1.46, "grad_norm": 9.088497161865234, "learning_rate": 2.854320987654321e-05, "loss": 0.6682, "step": 5475 }, { "epoch": 1.4666666666666668, "grad_norm": 18.685951232910156, "learning_rate": 2.8419753086419753e-05, "loss": 0.6772, "step": 5500 }, { "epoch": 1.4733333333333334, "grad_norm": 8.782575607299805, "learning_rate": 2.8296296296296297e-05, "loss": 0.6646, "step": 5525 }, { "epoch": 1.48, "grad_norm": 4.917479515075684, "learning_rate": 2.8172839506172845e-05, "loss": 0.7017, "step": 5550 }, { "epoch": 1.4866666666666668, "grad_norm": 8.09851360321045, "learning_rate": 2.8049382716049382e-05, "loss": 0.7154, "step": 5575 }, { "epoch": 1.4933333333333334, "grad_norm": 6.223681449890137, "learning_rate": 2.7925925925925926e-05, "loss": 0.7596, "step": 5600 }, { "epoch": 1.5, "grad_norm": 8.397703170776367, "learning_rate": 2.7802469135802474e-05, "loss": 0.809, "step": 5625 }, { "epoch": 1.5066666666666668, "grad_norm": 6.877397537231445, "learning_rate": 2.767901234567901e-05, "loss": 0.8519, "step": 5650 }, { "epoch": 1.5133333333333332, "grad_norm": 23.255901336669922, "learning_rate": 2.7555555555555555e-05, "loss": 0.5782, "step": 5675 }, { "epoch": 1.52, "grad_norm": 9.83711051940918, "learning_rate": 2.7432098765432103e-05, "loss": 0.6336, "step": 5700 }, { "epoch": 1.5266666666666666, "grad_norm": 5.23626708984375, "learning_rate": 2.730864197530864e-05, "loss": 0.7307, "step": 5725 }, { "epoch": 1.5333333333333332, "grad_norm": 9.331045150756836, "learning_rate": 2.7185185185185184e-05, "loss": 0.7259, "step": 5750 }, { "epoch": 1.54, "grad_norm": 8.801417350769043, "learning_rate": 2.7061728395061732e-05, "loss": 0.8571, "step": 5775 }, { "epoch": 1.5466666666666666, "grad_norm": 6.789374828338623, "learning_rate": 2.6938271604938276e-05, "loss": 0.7824, "step": 5800 }, { "epoch": 1.5533333333333332, "grad_norm": 10.509846687316895, "learning_rate": 2.6814814814814814e-05, "loss": 0.7399, "step": 5825 }, { "epoch": 1.56, "grad_norm": 8.728089332580566, "learning_rate": 2.669135802469136e-05, "loss": 0.742, "step": 5850 }, { "epoch": 1.5666666666666667, "grad_norm": 7.6164774894714355, "learning_rate": 2.6567901234567905e-05, "loss": 0.7879, "step": 5875 }, { "epoch": 1.5733333333333333, "grad_norm": 14.654951095581055, "learning_rate": 2.6444444444444443e-05, "loss": 0.63, "step": 5900 }, { "epoch": 1.58, "grad_norm": 5.373976707458496, "learning_rate": 2.632098765432099e-05, "loss": 0.7247, "step": 5925 }, { "epoch": 1.5866666666666667, "grad_norm": 6.956189155578613, "learning_rate": 2.6197530864197534e-05, "loss": 0.6052, "step": 5950 }, { "epoch": 1.5933333333333333, "grad_norm": 9.96907901763916, "learning_rate": 2.6074074074074072e-05, "loss": 0.8396, "step": 5975 }, { "epoch": 1.6, "grad_norm": 13.184568405151367, "learning_rate": 2.595061728395062e-05, "loss": 0.7757, "step": 6000 }, { "epoch": 1.6066666666666667, "grad_norm": 15.362314224243164, "learning_rate": 2.5827160493827164e-05, "loss": 0.893, "step": 6025 }, { "epoch": 1.6133333333333333, "grad_norm": 4.897271156311035, "learning_rate": 2.5703703703703708e-05, "loss": 0.6591, "step": 6050 }, { "epoch": 1.62, "grad_norm": 9.751553535461426, "learning_rate": 2.558024691358025e-05, "loss": 0.6348, "step": 6075 }, { "epoch": 1.6266666666666667, "grad_norm": 8.476768493652344, "learning_rate": 2.5456790123456793e-05, "loss": 0.6365, "step": 6100 }, { "epoch": 1.6333333333333333, "grad_norm": 8.62093734741211, "learning_rate": 2.5333333333333337e-05, "loss": 0.7576, "step": 6125 }, { "epoch": 1.6400000000000001, "grad_norm": 2.200514078140259, "learning_rate": 2.5209876543209874e-05, "loss": 0.6805, "step": 6150 }, { "epoch": 1.6466666666666665, "grad_norm": 2.226874828338623, "learning_rate": 2.5086419753086422e-05, "loss": 0.6033, "step": 6175 }, { "epoch": 1.6533333333333333, "grad_norm": 1.4179869890213013, "learning_rate": 2.4962962962962963e-05, "loss": 0.5945, "step": 6200 }, { "epoch": 1.6600000000000001, "grad_norm": 9.433260917663574, "learning_rate": 2.4839506172839507e-05, "loss": 0.7244, "step": 6225 }, { "epoch": 1.6666666666666665, "grad_norm": 10.319985389709473, "learning_rate": 2.471604938271605e-05, "loss": 0.6965, "step": 6250 }, { "epoch": 1.6733333333333333, "grad_norm": 13.357112884521484, "learning_rate": 2.4592592592592595e-05, "loss": 0.5875, "step": 6275 }, { "epoch": 1.6800000000000002, "grad_norm": 11.539891242980957, "learning_rate": 2.4469135802469136e-05, "loss": 0.5944, "step": 6300 }, { "epoch": 1.6866666666666665, "grad_norm": 5.3860344886779785, "learning_rate": 2.434567901234568e-05, "loss": 0.6623, "step": 6325 }, { "epoch": 1.6933333333333334, "grad_norm": 14.049308776855469, "learning_rate": 2.4222222222222224e-05, "loss": 0.6706, "step": 6350 }, { "epoch": 1.7, "grad_norm": 9.558539390563965, "learning_rate": 2.4098765432098765e-05, "loss": 0.7215, "step": 6375 }, { "epoch": 1.7066666666666666, "grad_norm": 13.506587028503418, "learning_rate": 2.397530864197531e-05, "loss": 0.6993, "step": 6400 }, { "epoch": 1.7133333333333334, "grad_norm": 9.131032943725586, "learning_rate": 2.3851851851851854e-05, "loss": 0.7986, "step": 6425 }, { "epoch": 1.72, "grad_norm": 3.78764009475708, "learning_rate": 2.3728395061728394e-05, "loss": 0.7608, "step": 6450 }, { "epoch": 1.7266666666666666, "grad_norm": 9.804962158203125, "learning_rate": 2.360493827160494e-05, "loss": 0.7245, "step": 6475 }, { "epoch": 1.7333333333333334, "grad_norm": 5.942134857177734, "learning_rate": 2.3481481481481483e-05, "loss": 0.6769, "step": 6500 }, { "epoch": 1.74, "grad_norm": 8.747697830200195, "learning_rate": 2.3358024691358027e-05, "loss": 0.7199, "step": 6525 }, { "epoch": 1.7466666666666666, "grad_norm": 6.169302940368652, "learning_rate": 2.3234567901234568e-05, "loss": 0.7633, "step": 6550 }, { "epoch": 1.7533333333333334, "grad_norm": 10.793547630310059, "learning_rate": 2.3111111111111112e-05, "loss": 0.543, "step": 6575 }, { "epoch": 1.76, "grad_norm": 12.748262405395508, "learning_rate": 2.2987654320987656e-05, "loss": 0.7764, "step": 6600 }, { "epoch": 1.7666666666666666, "grad_norm": 13.716763496398926, "learning_rate": 2.2864197530864197e-05, "loss": 0.7844, "step": 6625 }, { "epoch": 1.7733333333333334, "grad_norm": 14.565423011779785, "learning_rate": 2.2740740740740744e-05, "loss": 0.683, "step": 6650 }, { "epoch": 1.78, "grad_norm": 8.850066184997559, "learning_rate": 2.2617283950617285e-05, "loss": 0.6995, "step": 6675 }, { "epoch": 1.7866666666666666, "grad_norm": 12.295726776123047, "learning_rate": 2.2493827160493826e-05, "loss": 0.8103, "step": 6700 }, { "epoch": 1.7933333333333334, "grad_norm": 5.886265754699707, "learning_rate": 2.2370370370370374e-05, "loss": 0.6811, "step": 6725 }, { "epoch": 1.8, "grad_norm": 4.584556579589844, "learning_rate": 2.2246913580246914e-05, "loss": 0.6821, "step": 6750 }, { "epoch": 1.8066666666666666, "grad_norm": 10.706587791442871, "learning_rate": 2.212345679012346e-05, "loss": 0.7736, "step": 6775 }, { "epoch": 1.8133333333333335, "grad_norm": 9.361528396606445, "learning_rate": 2.2000000000000003e-05, "loss": 0.7977, "step": 6800 }, { "epoch": 1.8199999999999998, "grad_norm": 17.178653717041016, "learning_rate": 2.1876543209876544e-05, "loss": 0.8598, "step": 6825 }, { "epoch": 1.8266666666666667, "grad_norm": 7.339766979217529, "learning_rate": 2.1753086419753088e-05, "loss": 0.571, "step": 6850 }, { "epoch": 1.8333333333333335, "grad_norm": 6.615869045257568, "learning_rate": 2.162962962962963e-05, "loss": 0.6702, "step": 6875 }, { "epoch": 1.8399999999999999, "grad_norm": 10.113656997680664, "learning_rate": 2.1506172839506176e-05, "loss": 0.7777, "step": 6900 }, { "epoch": 1.8466666666666667, "grad_norm": 7.745372295379639, "learning_rate": 2.1382716049382717e-05, "loss": 0.7539, "step": 6925 }, { "epoch": 1.8533333333333335, "grad_norm": 7.907397747039795, "learning_rate": 2.1259259259259258e-05, "loss": 0.7244, "step": 6950 }, { "epoch": 1.8599999999999999, "grad_norm": 11.474489212036133, "learning_rate": 2.1135802469135805e-05, "loss": 0.7925, "step": 6975 }, { "epoch": 1.8666666666666667, "grad_norm": 11.150900840759277, "learning_rate": 2.1012345679012346e-05, "loss": 0.5607, "step": 7000 }, { "epoch": 1.8733333333333333, "grad_norm": 17.480403900146484, "learning_rate": 2.088888888888889e-05, "loss": 0.8783, "step": 7025 }, { "epoch": 1.88, "grad_norm": 10.300092697143555, "learning_rate": 2.0765432098765434e-05, "loss": 0.8025, "step": 7050 }, { "epoch": 1.8866666666666667, "grad_norm": 3.967689275741577, "learning_rate": 2.0641975308641975e-05, "loss": 0.7898, "step": 7075 }, { "epoch": 1.8933333333333333, "grad_norm": 8.212587356567383, "learning_rate": 2.051851851851852e-05, "loss": 0.6461, "step": 7100 }, { "epoch": 1.9, "grad_norm": 13.606761932373047, "learning_rate": 2.0395061728395064e-05, "loss": 0.651, "step": 7125 }, { "epoch": 1.9066666666666667, "grad_norm": 7.908700942993164, "learning_rate": 2.0271604938271608e-05, "loss": 0.6489, "step": 7150 }, { "epoch": 1.9133333333333333, "grad_norm": 11.340200424194336, "learning_rate": 2.014814814814815e-05, "loss": 0.7675, "step": 7175 }, { "epoch": 1.92, "grad_norm": 5.6627373695373535, "learning_rate": 2.0024691358024693e-05, "loss": 0.6732, "step": 7200 }, { "epoch": 1.9266666666666667, "grad_norm": 21.99058723449707, "learning_rate": 1.9901234567901237e-05, "loss": 0.7135, "step": 7225 }, { "epoch": 1.9333333333333333, "grad_norm": 17.246597290039062, "learning_rate": 1.9777777777777778e-05, "loss": 0.7077, "step": 7250 }, { "epoch": 1.94, "grad_norm": 6.322951316833496, "learning_rate": 1.9654320987654322e-05, "loss": 0.6163, "step": 7275 }, { "epoch": 1.9466666666666668, "grad_norm": 5.832266807556152, "learning_rate": 1.9530864197530866e-05, "loss": 0.642, "step": 7300 }, { "epoch": 1.9533333333333334, "grad_norm": 5.883837699890137, "learning_rate": 1.9407407407407407e-05, "loss": 0.6955, "step": 7325 }, { "epoch": 1.96, "grad_norm": 12.114556312561035, "learning_rate": 1.928395061728395e-05, "loss": 0.772, "step": 7350 }, { "epoch": 1.9666666666666668, "grad_norm": 4.3004350662231445, "learning_rate": 1.9160493827160495e-05, "loss": 0.7316, "step": 7375 }, { "epoch": 1.9733333333333334, "grad_norm": 8.095020294189453, "learning_rate": 1.903703703703704e-05, "loss": 0.623, "step": 7400 }, { "epoch": 1.98, "grad_norm": 10.078492164611816, "learning_rate": 1.891358024691358e-05, "loss": 0.8212, "step": 7425 }, { "epoch": 1.9866666666666668, "grad_norm": 6.047307968139648, "learning_rate": 1.8790123456790124e-05, "loss": 0.6209, "step": 7450 }, { "epoch": 1.9933333333333332, "grad_norm": 2.696333885192871, "learning_rate": 1.866666666666667e-05, "loss": 0.7312, "step": 7475 }, { "epoch": 2.0, "grad_norm": 2.4287543296813965, "learning_rate": 1.854320987654321e-05, "loss": 0.6442, "step": 7500 }, { "epoch": 2.0, "eval_accuracy": 0.7258333333333333, "eval_f1_macro": 0.6405635167768103, "eval_f1_micro": 0.7258333333333333, "eval_f1_weighted": 0.7031763861072888, "eval_loss": 0.8434039950370789, "eval_precision_macro": 0.6510401126834049, "eval_precision_micro": 0.7258333333333333, "eval_precision_weighted": 0.6973286083232175, "eval_recall_macro": 0.6512228541854506, "eval_recall_micro": 0.7258333333333333, "eval_recall_weighted": 0.7258333333333333, "eval_runtime": 17.4744, "eval_samples_per_second": 343.359, "eval_steps_per_second": 21.46, "step": 7500 } ], "logging_steps": 25, "max_steps": 11250, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "EarlyStoppingCallback": { "args": { "early_stopping_patience": 5, "early_stopping_threshold": 0.01 }, "attributes": { "early_stopping_patience_counter": 0 } }, "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1987294464000000.0, "train_batch_size": 8, "trial_name": null, "trial_params": null }