|
{ |
|
"best_metric": 0.8434039950370789, |
|
"best_model_checkpoint": "autotrain-5um8a-sa81u/checkpoint-7500", |
|
"epoch": 2.0, |
|
"eval_steps": 500, |
|
"global_step": 7500, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.006666666666666667, |
|
"grad_norm": 3.13798189163208, |
|
"learning_rate": 1.1111111111111112e-06, |
|
"loss": 2.2931, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.013333333333333334, |
|
"grad_norm": 3.3599817752838135, |
|
"learning_rate": 2.2222222222222225e-06, |
|
"loss": 2.2796, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 2.9536943435668945, |
|
"learning_rate": 3.3333333333333333e-06, |
|
"loss": 2.2502, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 0.02666666666666667, |
|
"grad_norm": 3.538480281829834, |
|
"learning_rate": 4.444444444444445e-06, |
|
"loss": 2.189, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.03333333333333333, |
|
"grad_norm": 3.384152889251709, |
|
"learning_rate": 5.555555555555556e-06, |
|
"loss": 2.1509, |
|
"step": 125 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 4.4334306716918945, |
|
"learning_rate": 6.666666666666667e-06, |
|
"loss": 2.0535, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.04666666666666667, |
|
"grad_norm": 4.605741500854492, |
|
"learning_rate": 7.777777777777777e-06, |
|
"loss": 1.875, |
|
"step": 175 |
|
}, |
|
{ |
|
"epoch": 0.05333333333333334, |
|
"grad_norm": 5.930888652801514, |
|
"learning_rate": 8.88888888888889e-06, |
|
"loss": 1.7946, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 4.181428909301758, |
|
"learning_rate": 1e-05, |
|
"loss": 1.6376, |
|
"step": 225 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"grad_norm": 7.74509334564209, |
|
"learning_rate": 1.1111111111111112e-05, |
|
"loss": 1.5804, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.07333333333333333, |
|
"grad_norm": 4.1855669021606445, |
|
"learning_rate": 1.2177777777777778e-05, |
|
"loss": 1.5385, |
|
"step": 275 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 5.815659999847412, |
|
"learning_rate": 1.328888888888889e-05, |
|
"loss": 1.4515, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.08666666666666667, |
|
"grad_norm": 7.293570041656494, |
|
"learning_rate": 1.44e-05, |
|
"loss": 1.4399, |
|
"step": 325 |
|
}, |
|
{ |
|
"epoch": 0.09333333333333334, |
|
"grad_norm": 9.302970886230469, |
|
"learning_rate": 1.5511111111111114e-05, |
|
"loss": 1.4602, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 4.114165782928467, |
|
"learning_rate": 1.6622222222222223e-05, |
|
"loss": 1.3399, |
|
"step": 375 |
|
}, |
|
{ |
|
"epoch": 0.10666666666666667, |
|
"grad_norm": 10.503884315490723, |
|
"learning_rate": 1.768888888888889e-05, |
|
"loss": 1.2846, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 0.11333333333333333, |
|
"grad_norm": 6.395691871643066, |
|
"learning_rate": 1.88e-05, |
|
"loss": 1.178, |
|
"step": 425 |
|
}, |
|
{ |
|
"epoch": 0.12, |
|
"grad_norm": 7.209555625915527, |
|
"learning_rate": 1.9911111111111112e-05, |
|
"loss": 1.1698, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 0.12666666666666668, |
|
"grad_norm": 7.22865629196167, |
|
"learning_rate": 2.1022222222222225e-05, |
|
"loss": 1.1631, |
|
"step": 475 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 8.306069374084473, |
|
"learning_rate": 2.2133333333333334e-05, |
|
"loss": 1.1196, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.14, |
|
"grad_norm": 5.044536590576172, |
|
"learning_rate": 2.3244444444444446e-05, |
|
"loss": 1.0854, |
|
"step": 525 |
|
}, |
|
{ |
|
"epoch": 0.14666666666666667, |
|
"grad_norm": 8.39782428741455, |
|
"learning_rate": 2.4355555555555555e-05, |
|
"loss": 1.1724, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 0.15333333333333332, |
|
"grad_norm": 7.276834011077881, |
|
"learning_rate": 2.5466666666666668e-05, |
|
"loss": 1.2506, |
|
"step": 575 |
|
}, |
|
{ |
|
"epoch": 0.16, |
|
"grad_norm": 6.928461074829102, |
|
"learning_rate": 2.657777777777778e-05, |
|
"loss": 1.0995, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"grad_norm": 5.020209789276123, |
|
"learning_rate": 2.7688888888888893e-05, |
|
"loss": 1.0529, |
|
"step": 625 |
|
}, |
|
{ |
|
"epoch": 0.17333333333333334, |
|
"grad_norm": 4.41862154006958, |
|
"learning_rate": 2.8755555555555557e-05, |
|
"loss": 1.1523, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 0.18, |
|
"grad_norm": 17.745071411132812, |
|
"learning_rate": 2.986666666666667e-05, |
|
"loss": 1.1962, |
|
"step": 675 |
|
}, |
|
{ |
|
"epoch": 0.18666666666666668, |
|
"grad_norm": 5.518793106079102, |
|
"learning_rate": 3.0977777777777776e-05, |
|
"loss": 1.0913, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 0.19333333333333333, |
|
"grad_norm": 10.203434944152832, |
|
"learning_rate": 3.208888888888889e-05, |
|
"loss": 1.108, |
|
"step": 725 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 6.468237400054932, |
|
"learning_rate": 3.32e-05, |
|
"loss": 1.0822, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 0.20666666666666667, |
|
"grad_norm": 6.182399272918701, |
|
"learning_rate": 3.431111111111111e-05, |
|
"loss": 1.1224, |
|
"step": 775 |
|
}, |
|
{ |
|
"epoch": 0.21333333333333335, |
|
"grad_norm": 9.415875434875488, |
|
"learning_rate": 3.5422222222222226e-05, |
|
"loss": 0.9095, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 0.22, |
|
"grad_norm": 17.09987449645996, |
|
"learning_rate": 3.653333333333334e-05, |
|
"loss": 1.1613, |
|
"step": 825 |
|
}, |
|
{ |
|
"epoch": 0.22666666666666666, |
|
"grad_norm": 8.294900894165039, |
|
"learning_rate": 3.764444444444445e-05, |
|
"loss": 1.0934, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 0.23333333333333334, |
|
"grad_norm": 13.019417762756348, |
|
"learning_rate": 3.8755555555555556e-05, |
|
"loss": 1.0647, |
|
"step": 875 |
|
}, |
|
{ |
|
"epoch": 0.24, |
|
"grad_norm": 10.864327430725098, |
|
"learning_rate": 3.986666666666667e-05, |
|
"loss": 1.0718, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 0.24666666666666667, |
|
"grad_norm": 9.016544342041016, |
|
"learning_rate": 4.097777777777778e-05, |
|
"loss": 0.9817, |
|
"step": 925 |
|
}, |
|
{ |
|
"epoch": 0.25333333333333335, |
|
"grad_norm": 5.4241485595703125, |
|
"learning_rate": 4.208888888888889e-05, |
|
"loss": 1.003, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 0.26, |
|
"grad_norm": 10.213274955749512, |
|
"learning_rate": 4.32e-05, |
|
"loss": 1.0223, |
|
"step": 975 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 15.214512825012207, |
|
"learning_rate": 4.431111111111111e-05, |
|
"loss": 1.0648, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.2733333333333333, |
|
"grad_norm": 3.9258694648742676, |
|
"learning_rate": 4.5422222222222225e-05, |
|
"loss": 0.9985, |
|
"step": 1025 |
|
}, |
|
{ |
|
"epoch": 0.28, |
|
"grad_norm": 7.457239151000977, |
|
"learning_rate": 4.653333333333334e-05, |
|
"loss": 1.117, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 0.2866666666666667, |
|
"grad_norm": 12.809249877929688, |
|
"learning_rate": 4.764444444444445e-05, |
|
"loss": 1.0538, |
|
"step": 1075 |
|
}, |
|
{ |
|
"epoch": 0.29333333333333333, |
|
"grad_norm": 18.092700958251953, |
|
"learning_rate": 4.875555555555556e-05, |
|
"loss": 1.0866, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"grad_norm": 4.2002458572387695, |
|
"learning_rate": 4.986666666666667e-05, |
|
"loss": 0.9351, |
|
"step": 1125 |
|
}, |
|
{ |
|
"epoch": 0.30666666666666664, |
|
"grad_norm": 9.016805648803711, |
|
"learning_rate": 4.9891358024691356e-05, |
|
"loss": 0.8765, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 0.31333333333333335, |
|
"grad_norm": 8.664179801940918, |
|
"learning_rate": 4.9767901234567903e-05, |
|
"loss": 1.1023, |
|
"step": 1175 |
|
}, |
|
{ |
|
"epoch": 0.32, |
|
"grad_norm": 11.132316589355469, |
|
"learning_rate": 4.964444444444445e-05, |
|
"loss": 0.9903, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 0.32666666666666666, |
|
"grad_norm": 10.408929824829102, |
|
"learning_rate": 4.9520987654320985e-05, |
|
"loss": 0.9008, |
|
"step": 1225 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"grad_norm": 15.614274978637695, |
|
"learning_rate": 4.939753086419753e-05, |
|
"loss": 1.002, |
|
"step": 1250 |
|
}, |
|
{ |
|
"epoch": 0.34, |
|
"grad_norm": 11.449036598205566, |
|
"learning_rate": 4.927407407407408e-05, |
|
"loss": 0.959, |
|
"step": 1275 |
|
}, |
|
{ |
|
"epoch": 0.3466666666666667, |
|
"grad_norm": 5.918100357055664, |
|
"learning_rate": 4.9150617283950614e-05, |
|
"loss": 0.9706, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 0.35333333333333333, |
|
"grad_norm": 6.706690788269043, |
|
"learning_rate": 4.902716049382716e-05, |
|
"loss": 0.9262, |
|
"step": 1325 |
|
}, |
|
{ |
|
"epoch": 0.36, |
|
"grad_norm": 4.575336456298828, |
|
"learning_rate": 4.890370370370371e-05, |
|
"loss": 1.0084, |
|
"step": 1350 |
|
}, |
|
{ |
|
"epoch": 0.36666666666666664, |
|
"grad_norm": 12.109813690185547, |
|
"learning_rate": 4.878024691358025e-05, |
|
"loss": 1.0407, |
|
"step": 1375 |
|
}, |
|
{ |
|
"epoch": 0.37333333333333335, |
|
"grad_norm": 11.848983764648438, |
|
"learning_rate": 4.865679012345679e-05, |
|
"loss": 0.9616, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 0.38, |
|
"grad_norm": 11.87781047821045, |
|
"learning_rate": 4.853333333333334e-05, |
|
"loss": 1.0143, |
|
"step": 1425 |
|
}, |
|
{ |
|
"epoch": 0.38666666666666666, |
|
"grad_norm": 8.980938911437988, |
|
"learning_rate": 4.840987654320988e-05, |
|
"loss": 0.9217, |
|
"step": 1450 |
|
}, |
|
{ |
|
"epoch": 0.3933333333333333, |
|
"grad_norm": 8.561235427856445, |
|
"learning_rate": 4.828641975308642e-05, |
|
"loss": 1.1442, |
|
"step": 1475 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 9.980470657348633, |
|
"learning_rate": 4.816296296296297e-05, |
|
"loss": 1.0186, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 0.4066666666666667, |
|
"grad_norm": 7.693286418914795, |
|
"learning_rate": 4.803950617283951e-05, |
|
"loss": 0.9953, |
|
"step": 1525 |
|
}, |
|
{ |
|
"epoch": 0.41333333333333333, |
|
"grad_norm": 5.39948034286499, |
|
"learning_rate": 4.791604938271605e-05, |
|
"loss": 0.9544, |
|
"step": 1550 |
|
}, |
|
{ |
|
"epoch": 0.42, |
|
"grad_norm": 7.7968549728393555, |
|
"learning_rate": 4.77925925925926e-05, |
|
"loss": 0.898, |
|
"step": 1575 |
|
}, |
|
{ |
|
"epoch": 0.4266666666666667, |
|
"grad_norm": 3.694169044494629, |
|
"learning_rate": 4.766913580246914e-05, |
|
"loss": 1.0325, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 0.43333333333333335, |
|
"grad_norm": 10.049742698669434, |
|
"learning_rate": 4.754567901234568e-05, |
|
"loss": 0.9118, |
|
"step": 1625 |
|
}, |
|
{ |
|
"epoch": 0.44, |
|
"grad_norm": 13.797918319702148, |
|
"learning_rate": 4.7422222222222226e-05, |
|
"loss": 0.9135, |
|
"step": 1650 |
|
}, |
|
{ |
|
"epoch": 0.44666666666666666, |
|
"grad_norm": 7.2649688720703125, |
|
"learning_rate": 4.729876543209877e-05, |
|
"loss": 1.0054, |
|
"step": 1675 |
|
}, |
|
{ |
|
"epoch": 0.4533333333333333, |
|
"grad_norm": 5.670660018920898, |
|
"learning_rate": 4.7175308641975314e-05, |
|
"loss": 0.9929, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 0.46, |
|
"grad_norm": 10.087015151977539, |
|
"learning_rate": 4.7051851851851855e-05, |
|
"loss": 1.1383, |
|
"step": 1725 |
|
}, |
|
{ |
|
"epoch": 0.4666666666666667, |
|
"grad_norm": 6.2626800537109375, |
|
"learning_rate": 4.6928395061728396e-05, |
|
"loss": 1.1386, |
|
"step": 1750 |
|
}, |
|
{ |
|
"epoch": 0.47333333333333333, |
|
"grad_norm": 11.429990768432617, |
|
"learning_rate": 4.6804938271604943e-05, |
|
"loss": 0.9042, |
|
"step": 1775 |
|
}, |
|
{ |
|
"epoch": 0.48, |
|
"grad_norm": 6.389810085296631, |
|
"learning_rate": 4.6681481481481484e-05, |
|
"loss": 0.9631, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 0.4866666666666667, |
|
"grad_norm": 8.779641151428223, |
|
"learning_rate": 4.6558024691358025e-05, |
|
"loss": 1.1042, |
|
"step": 1825 |
|
}, |
|
{ |
|
"epoch": 0.49333333333333335, |
|
"grad_norm": 8.273574829101562, |
|
"learning_rate": 4.643456790123457e-05, |
|
"loss": 0.9551, |
|
"step": 1850 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 7.0266194343566895, |
|
"learning_rate": 4.6311111111111113e-05, |
|
"loss": 0.9846, |
|
"step": 1875 |
|
}, |
|
{ |
|
"epoch": 0.5066666666666667, |
|
"grad_norm": 8.741957664489746, |
|
"learning_rate": 4.6187654320987654e-05, |
|
"loss": 1.0969, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 0.5133333333333333, |
|
"grad_norm": 17.768611907958984, |
|
"learning_rate": 4.60641975308642e-05, |
|
"loss": 0.844, |
|
"step": 1925 |
|
}, |
|
{ |
|
"epoch": 0.52, |
|
"grad_norm": 9.893391609191895, |
|
"learning_rate": 4.594074074074074e-05, |
|
"loss": 0.9731, |
|
"step": 1950 |
|
}, |
|
{ |
|
"epoch": 0.5266666666666666, |
|
"grad_norm": 5.22994327545166, |
|
"learning_rate": 4.5817283950617283e-05, |
|
"loss": 0.8226, |
|
"step": 1975 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 13.81772232055664, |
|
"learning_rate": 4.569382716049383e-05, |
|
"loss": 0.8015, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 0.54, |
|
"grad_norm": 5.9889302253723145, |
|
"learning_rate": 4.557037037037037e-05, |
|
"loss": 0.9881, |
|
"step": 2025 |
|
}, |
|
{ |
|
"epoch": 0.5466666666666666, |
|
"grad_norm": 7.382312774658203, |
|
"learning_rate": 4.544691358024691e-05, |
|
"loss": 1.0753, |
|
"step": 2050 |
|
}, |
|
{ |
|
"epoch": 0.5533333333333333, |
|
"grad_norm": 13.38068962097168, |
|
"learning_rate": 4.532345679012346e-05, |
|
"loss": 0.8732, |
|
"step": 2075 |
|
}, |
|
{ |
|
"epoch": 0.56, |
|
"grad_norm": 18.700225830078125, |
|
"learning_rate": 4.52e-05, |
|
"loss": 0.9685, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 0.5666666666666667, |
|
"grad_norm": 9.365460395812988, |
|
"learning_rate": 4.507654320987654e-05, |
|
"loss": 1.0779, |
|
"step": 2125 |
|
}, |
|
{ |
|
"epoch": 0.5733333333333334, |
|
"grad_norm": 8.056510925292969, |
|
"learning_rate": 4.495308641975309e-05, |
|
"loss": 0.9673, |
|
"step": 2150 |
|
}, |
|
{ |
|
"epoch": 0.58, |
|
"grad_norm": 7.804261684417725, |
|
"learning_rate": 4.482962962962963e-05, |
|
"loss": 0.9461, |
|
"step": 2175 |
|
}, |
|
{ |
|
"epoch": 0.5866666666666667, |
|
"grad_norm": 4.484943866729736, |
|
"learning_rate": 4.470617283950618e-05, |
|
"loss": 0.9341, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 0.5933333333333334, |
|
"grad_norm": 7.764664173126221, |
|
"learning_rate": 4.458271604938272e-05, |
|
"loss": 0.8104, |
|
"step": 2225 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 6.613196849822998, |
|
"learning_rate": 4.44641975308642e-05, |
|
"loss": 1.0037, |
|
"step": 2250 |
|
}, |
|
{ |
|
"epoch": 0.6066666666666667, |
|
"grad_norm": 5.951300144195557, |
|
"learning_rate": 4.4340740740740744e-05, |
|
"loss": 0.9785, |
|
"step": 2275 |
|
}, |
|
{ |
|
"epoch": 0.6133333333333333, |
|
"grad_norm": 4.876894474029541, |
|
"learning_rate": 4.421728395061729e-05, |
|
"loss": 0.9276, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 0.62, |
|
"grad_norm": 9.433537483215332, |
|
"learning_rate": 4.4093827160493826e-05, |
|
"loss": 1.0004, |
|
"step": 2325 |
|
}, |
|
{ |
|
"epoch": 0.6266666666666667, |
|
"grad_norm": 10.541296005249023, |
|
"learning_rate": 4.3970370370370374e-05, |
|
"loss": 1.0609, |
|
"step": 2350 |
|
}, |
|
{ |
|
"epoch": 0.6333333333333333, |
|
"grad_norm": 6.446004390716553, |
|
"learning_rate": 4.384691358024692e-05, |
|
"loss": 0.9926, |
|
"step": 2375 |
|
}, |
|
{ |
|
"epoch": 0.64, |
|
"grad_norm": 8.850340843200684, |
|
"learning_rate": 4.3723456790123455e-05, |
|
"loss": 0.9382, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 0.6466666666666666, |
|
"grad_norm": 6.004384517669678, |
|
"learning_rate": 4.36e-05, |
|
"loss": 1.1173, |
|
"step": 2425 |
|
}, |
|
{ |
|
"epoch": 0.6533333333333333, |
|
"grad_norm": 10.950887680053711, |
|
"learning_rate": 4.3476543209876543e-05, |
|
"loss": 0.8673, |
|
"step": 2450 |
|
}, |
|
{ |
|
"epoch": 0.66, |
|
"grad_norm": 5.736955642700195, |
|
"learning_rate": 4.3353086419753084e-05, |
|
"loss": 0.9869, |
|
"step": 2475 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 9.545438766479492, |
|
"learning_rate": 4.322962962962963e-05, |
|
"loss": 1.0109, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 0.6733333333333333, |
|
"grad_norm": 14.54963207244873, |
|
"learning_rate": 4.310617283950617e-05, |
|
"loss": 0.8774, |
|
"step": 2525 |
|
}, |
|
{ |
|
"epoch": 0.68, |
|
"grad_norm": 6.30457067489624, |
|
"learning_rate": 4.298271604938272e-05, |
|
"loss": 0.8801, |
|
"step": 2550 |
|
}, |
|
{ |
|
"epoch": 0.6866666666666666, |
|
"grad_norm": 6.858036041259766, |
|
"learning_rate": 4.285925925925926e-05, |
|
"loss": 0.727, |
|
"step": 2575 |
|
}, |
|
{ |
|
"epoch": 0.6933333333333334, |
|
"grad_norm": 5.082749366760254, |
|
"learning_rate": 4.27358024691358e-05, |
|
"loss": 0.9237, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"grad_norm": 7.5763936042785645, |
|
"learning_rate": 4.261234567901235e-05, |
|
"loss": 0.8342, |
|
"step": 2625 |
|
}, |
|
{ |
|
"epoch": 0.7066666666666667, |
|
"grad_norm": 8.811793327331543, |
|
"learning_rate": 4.248888888888889e-05, |
|
"loss": 1.0076, |
|
"step": 2650 |
|
}, |
|
{ |
|
"epoch": 0.7133333333333334, |
|
"grad_norm": 13.048144340515137, |
|
"learning_rate": 4.236543209876543e-05, |
|
"loss": 0.9556, |
|
"step": 2675 |
|
}, |
|
{ |
|
"epoch": 0.72, |
|
"grad_norm": 11.870134353637695, |
|
"learning_rate": 4.224197530864198e-05, |
|
"loss": 1.0028, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 0.7266666666666667, |
|
"grad_norm": 12.326855659484863, |
|
"learning_rate": 4.211851851851852e-05, |
|
"loss": 0.8794, |
|
"step": 2725 |
|
}, |
|
{ |
|
"epoch": 0.7333333333333333, |
|
"grad_norm": 7.567747116088867, |
|
"learning_rate": 4.199506172839506e-05, |
|
"loss": 0.8812, |
|
"step": 2750 |
|
}, |
|
{ |
|
"epoch": 0.74, |
|
"grad_norm": 6.114919185638428, |
|
"learning_rate": 4.187160493827161e-05, |
|
"loss": 0.8974, |
|
"step": 2775 |
|
}, |
|
{ |
|
"epoch": 0.7466666666666667, |
|
"grad_norm": 16.97509765625, |
|
"learning_rate": 4.1748148148148155e-05, |
|
"loss": 0.8895, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 0.7533333333333333, |
|
"grad_norm": 9.177389144897461, |
|
"learning_rate": 4.162469135802469e-05, |
|
"loss": 0.7692, |
|
"step": 2825 |
|
}, |
|
{ |
|
"epoch": 0.76, |
|
"grad_norm": 7.463740348815918, |
|
"learning_rate": 4.150123456790124e-05, |
|
"loss": 0.9168, |
|
"step": 2850 |
|
}, |
|
{ |
|
"epoch": 0.7666666666666667, |
|
"grad_norm": 8.774567604064941, |
|
"learning_rate": 4.1377777777777784e-05, |
|
"loss": 0.8709, |
|
"step": 2875 |
|
}, |
|
{ |
|
"epoch": 0.7733333333333333, |
|
"grad_norm": 7.635562419891357, |
|
"learning_rate": 4.125432098765432e-05, |
|
"loss": 1.059, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 0.78, |
|
"grad_norm": 5.951021671295166, |
|
"learning_rate": 4.1130864197530866e-05, |
|
"loss": 0.7637, |
|
"step": 2925 |
|
}, |
|
{ |
|
"epoch": 0.7866666666666666, |
|
"grad_norm": 9.935166358947754, |
|
"learning_rate": 4.1007407407407414e-05, |
|
"loss": 0.9919, |
|
"step": 2950 |
|
}, |
|
{ |
|
"epoch": 0.7933333333333333, |
|
"grad_norm": 5.804830074310303, |
|
"learning_rate": 4.088395061728395e-05, |
|
"loss": 0.7903, |
|
"step": 2975 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 5.533348560333252, |
|
"learning_rate": 4.0760493827160495e-05, |
|
"loss": 0.9898, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 0.8066666666666666, |
|
"grad_norm": 8.753861427307129, |
|
"learning_rate": 4.063703703703704e-05, |
|
"loss": 0.7716, |
|
"step": 3025 |
|
}, |
|
{ |
|
"epoch": 0.8133333333333334, |
|
"grad_norm": 11.261335372924805, |
|
"learning_rate": 4.051358024691358e-05, |
|
"loss": 0.9554, |
|
"step": 3050 |
|
}, |
|
{ |
|
"epoch": 0.82, |
|
"grad_norm": 10.08859920501709, |
|
"learning_rate": 4.0390123456790124e-05, |
|
"loss": 0.8887, |
|
"step": 3075 |
|
}, |
|
{ |
|
"epoch": 0.8266666666666667, |
|
"grad_norm": 3.6686923503875732, |
|
"learning_rate": 4.026666666666667e-05, |
|
"loss": 0.8084, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"grad_norm": 7.54130220413208, |
|
"learning_rate": 4.014320987654321e-05, |
|
"loss": 1.0297, |
|
"step": 3125 |
|
}, |
|
{ |
|
"epoch": 0.84, |
|
"grad_norm": 5.28485631942749, |
|
"learning_rate": 4.0019753086419753e-05, |
|
"loss": 0.8179, |
|
"step": 3150 |
|
}, |
|
{ |
|
"epoch": 0.8466666666666667, |
|
"grad_norm": 5.715919494628906, |
|
"learning_rate": 3.98962962962963e-05, |
|
"loss": 0.8925, |
|
"step": 3175 |
|
}, |
|
{ |
|
"epoch": 0.8533333333333334, |
|
"grad_norm": 12.822041511535645, |
|
"learning_rate": 3.977283950617284e-05, |
|
"loss": 0.8126, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 0.86, |
|
"grad_norm": 6.913020133972168, |
|
"learning_rate": 3.964938271604938e-05, |
|
"loss": 0.9576, |
|
"step": 3225 |
|
}, |
|
{ |
|
"epoch": 0.8666666666666667, |
|
"grad_norm": 7.729150772094727, |
|
"learning_rate": 3.952592592592593e-05, |
|
"loss": 0.8019, |
|
"step": 3250 |
|
}, |
|
{ |
|
"epoch": 0.8733333333333333, |
|
"grad_norm": 14.75147819519043, |
|
"learning_rate": 3.940246913580247e-05, |
|
"loss": 0.8749, |
|
"step": 3275 |
|
}, |
|
{ |
|
"epoch": 0.88, |
|
"grad_norm": 6.890247344970703, |
|
"learning_rate": 3.927901234567901e-05, |
|
"loss": 0.8219, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 0.8866666666666667, |
|
"grad_norm": 14.082189559936523, |
|
"learning_rate": 3.915555555555556e-05, |
|
"loss": 0.9104, |
|
"step": 3325 |
|
}, |
|
{ |
|
"epoch": 0.8933333333333333, |
|
"grad_norm": 14.824267387390137, |
|
"learning_rate": 3.90320987654321e-05, |
|
"loss": 1.0422, |
|
"step": 3350 |
|
}, |
|
{ |
|
"epoch": 0.9, |
|
"grad_norm": 6.831472396850586, |
|
"learning_rate": 3.890864197530865e-05, |
|
"loss": 0.955, |
|
"step": 3375 |
|
}, |
|
{ |
|
"epoch": 0.9066666666666666, |
|
"grad_norm": 12.86788558959961, |
|
"learning_rate": 3.878518518518519e-05, |
|
"loss": 0.8177, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 0.9133333333333333, |
|
"grad_norm": 5.384681224822998, |
|
"learning_rate": 3.866172839506173e-05, |
|
"loss": 1.0076, |
|
"step": 3425 |
|
}, |
|
{ |
|
"epoch": 0.92, |
|
"grad_norm": 7.360981464385986, |
|
"learning_rate": 3.853827160493828e-05, |
|
"loss": 0.9525, |
|
"step": 3450 |
|
}, |
|
{ |
|
"epoch": 0.9266666666666666, |
|
"grad_norm": 9.476499557495117, |
|
"learning_rate": 3.841481481481482e-05, |
|
"loss": 0.8705, |
|
"step": 3475 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"grad_norm": 11.018596649169922, |
|
"learning_rate": 3.829135802469136e-05, |
|
"loss": 0.8799, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 0.94, |
|
"grad_norm": 9.566810607910156, |
|
"learning_rate": 3.8167901234567906e-05, |
|
"loss": 0.9072, |
|
"step": 3525 |
|
}, |
|
{ |
|
"epoch": 0.9466666666666667, |
|
"grad_norm": 6.946780681610107, |
|
"learning_rate": 3.804444444444445e-05, |
|
"loss": 0.9795, |
|
"step": 3550 |
|
}, |
|
{ |
|
"epoch": 0.9533333333333334, |
|
"grad_norm": 11.96141242980957, |
|
"learning_rate": 3.792098765432099e-05, |
|
"loss": 0.9398, |
|
"step": 3575 |
|
}, |
|
{ |
|
"epoch": 0.96, |
|
"grad_norm": 6.139281749725342, |
|
"learning_rate": 3.7797530864197535e-05, |
|
"loss": 0.877, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 0.9666666666666667, |
|
"grad_norm": 8.848674774169922, |
|
"learning_rate": 3.7674074074074076e-05, |
|
"loss": 0.9407, |
|
"step": 3625 |
|
}, |
|
{ |
|
"epoch": 0.9733333333333334, |
|
"grad_norm": 8.626237869262695, |
|
"learning_rate": 3.755061728395062e-05, |
|
"loss": 0.7231, |
|
"step": 3650 |
|
}, |
|
{ |
|
"epoch": 0.98, |
|
"grad_norm": 8.904046058654785, |
|
"learning_rate": 3.7427160493827164e-05, |
|
"loss": 0.7771, |
|
"step": 3675 |
|
}, |
|
{ |
|
"epoch": 0.9866666666666667, |
|
"grad_norm": 8.304384231567383, |
|
"learning_rate": 3.7303703703703705e-05, |
|
"loss": 0.8759, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 0.9933333333333333, |
|
"grad_norm": 3.275665283203125, |
|
"learning_rate": 3.7180246913580246e-05, |
|
"loss": 1.0953, |
|
"step": 3725 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 9.612822532653809, |
|
"learning_rate": 3.7056790123456794e-05, |
|
"loss": 0.9654, |
|
"step": 3750 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"eval_accuracy": 0.7091666666666666, |
|
"eval_f1_macro": 0.6100324685442738, |
|
"eval_f1_micro": 0.7091666666666666, |
|
"eval_f1_weighted": 0.6820074793819821, |
|
"eval_loss": 0.8581413626670837, |
|
"eval_precision_macro": 0.6409039609039581, |
|
"eval_precision_micro": 0.7091666666666666, |
|
"eval_precision_weighted": 0.6788783926303716, |
|
"eval_recall_macro": 0.6173398268291092, |
|
"eval_recall_micro": 0.7091666666666666, |
|
"eval_recall_weighted": 0.7091666666666666, |
|
"eval_runtime": 17.7272, |
|
"eval_samples_per_second": 338.462, |
|
"eval_steps_per_second": 21.154, |
|
"step": 3750 |
|
}, |
|
{ |
|
"epoch": 1.0066666666666666, |
|
"grad_norm": 4.440273761749268, |
|
"learning_rate": 3.6933333333333334e-05, |
|
"loss": 0.7425, |
|
"step": 3775 |
|
}, |
|
{ |
|
"epoch": 1.0133333333333334, |
|
"grad_norm": 2.8456194400787354, |
|
"learning_rate": 3.6809876543209875e-05, |
|
"loss": 0.8552, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 1.02, |
|
"grad_norm": 7.814695358276367, |
|
"learning_rate": 3.668641975308642e-05, |
|
"loss": 0.7137, |
|
"step": 3825 |
|
}, |
|
{ |
|
"epoch": 1.0266666666666666, |
|
"grad_norm": 15.144572257995605, |
|
"learning_rate": 3.6562962962962964e-05, |
|
"loss": 0.7113, |
|
"step": 3850 |
|
}, |
|
{ |
|
"epoch": 1.0333333333333334, |
|
"grad_norm": 7.033264636993408, |
|
"learning_rate": 3.643950617283951e-05, |
|
"loss": 0.635, |
|
"step": 3875 |
|
}, |
|
{ |
|
"epoch": 1.04, |
|
"grad_norm": 9.882685661315918, |
|
"learning_rate": 3.631604938271605e-05, |
|
"loss": 0.6947, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 1.0466666666666666, |
|
"grad_norm": 3.8773844242095947, |
|
"learning_rate": 3.619259259259259e-05, |
|
"loss": 0.7561, |
|
"step": 3925 |
|
}, |
|
{ |
|
"epoch": 1.0533333333333332, |
|
"grad_norm": 13.235457420349121, |
|
"learning_rate": 3.606913580246914e-05, |
|
"loss": 0.8613, |
|
"step": 3950 |
|
}, |
|
{ |
|
"epoch": 1.06, |
|
"grad_norm": 7.09820032119751, |
|
"learning_rate": 3.594567901234568e-05, |
|
"loss": 0.6555, |
|
"step": 3975 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"grad_norm": 10.326157569885254, |
|
"learning_rate": 3.582222222222222e-05, |
|
"loss": 0.7023, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 1.0733333333333333, |
|
"grad_norm": 26.21095085144043, |
|
"learning_rate": 3.569876543209877e-05, |
|
"loss": 0.8392, |
|
"step": 4025 |
|
}, |
|
{ |
|
"epoch": 1.08, |
|
"grad_norm": 8.45411205291748, |
|
"learning_rate": 3.557530864197531e-05, |
|
"loss": 0.6542, |
|
"step": 4050 |
|
}, |
|
{ |
|
"epoch": 1.0866666666666667, |
|
"grad_norm": 9.493447303771973, |
|
"learning_rate": 3.545185185185185e-05, |
|
"loss": 0.6472, |
|
"step": 4075 |
|
}, |
|
{ |
|
"epoch": 1.0933333333333333, |
|
"grad_norm": 6.964524745941162, |
|
"learning_rate": 3.53283950617284e-05, |
|
"loss": 0.8216, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 1.1, |
|
"grad_norm": 9.059328079223633, |
|
"learning_rate": 3.520493827160494e-05, |
|
"loss": 0.8314, |
|
"step": 4125 |
|
}, |
|
{ |
|
"epoch": 1.1066666666666667, |
|
"grad_norm": 6.654369831085205, |
|
"learning_rate": 3.508148148148148e-05, |
|
"loss": 0.628, |
|
"step": 4150 |
|
}, |
|
{ |
|
"epoch": 1.1133333333333333, |
|
"grad_norm": 13.223770141601562, |
|
"learning_rate": 3.495802469135803e-05, |
|
"loss": 0.8023, |
|
"step": 4175 |
|
}, |
|
{ |
|
"epoch": 1.12, |
|
"grad_norm": 12.41712474822998, |
|
"learning_rate": 3.483456790123457e-05, |
|
"loss": 0.8411, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 1.1266666666666667, |
|
"grad_norm": 6.774609565734863, |
|
"learning_rate": 3.471111111111111e-05, |
|
"loss": 0.8376, |
|
"step": 4225 |
|
}, |
|
{ |
|
"epoch": 1.1333333333333333, |
|
"grad_norm": 7.308166980743408, |
|
"learning_rate": 3.4592592592592594e-05, |
|
"loss": 0.7768, |
|
"step": 4250 |
|
}, |
|
{ |
|
"epoch": 1.1400000000000001, |
|
"grad_norm": 7.681529521942139, |
|
"learning_rate": 3.4469135802469135e-05, |
|
"loss": 0.7728, |
|
"step": 4275 |
|
}, |
|
{ |
|
"epoch": 1.1466666666666667, |
|
"grad_norm": 6.580010414123535, |
|
"learning_rate": 3.434567901234568e-05, |
|
"loss": 0.6793, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 1.1533333333333333, |
|
"grad_norm": 3.635303497314453, |
|
"learning_rate": 3.4222222222222224e-05, |
|
"loss": 0.7412, |
|
"step": 4325 |
|
}, |
|
{ |
|
"epoch": 1.16, |
|
"grad_norm": 8.876466751098633, |
|
"learning_rate": 3.4098765432098764e-05, |
|
"loss": 0.6272, |
|
"step": 4350 |
|
}, |
|
{ |
|
"epoch": 1.1666666666666667, |
|
"grad_norm": 7.696030139923096, |
|
"learning_rate": 3.397530864197531e-05, |
|
"loss": 0.6547, |
|
"step": 4375 |
|
}, |
|
{ |
|
"epoch": 1.1733333333333333, |
|
"grad_norm": 8.832601547241211, |
|
"learning_rate": 3.385185185185185e-05, |
|
"loss": 0.5395, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 1.18, |
|
"grad_norm": 8.13397216796875, |
|
"learning_rate": 3.3728395061728394e-05, |
|
"loss": 0.7159, |
|
"step": 4425 |
|
}, |
|
{ |
|
"epoch": 1.1866666666666668, |
|
"grad_norm": 13.775779724121094, |
|
"learning_rate": 3.360493827160494e-05, |
|
"loss": 0.827, |
|
"step": 4450 |
|
}, |
|
{ |
|
"epoch": 1.1933333333333334, |
|
"grad_norm": 10.165814399719238, |
|
"learning_rate": 3.348148148148148e-05, |
|
"loss": 0.6612, |
|
"step": 4475 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 16.018178939819336, |
|
"learning_rate": 3.335802469135802e-05, |
|
"loss": 0.6556, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 1.2066666666666666, |
|
"grad_norm": 1.3013031482696533, |
|
"learning_rate": 3.323456790123457e-05, |
|
"loss": 0.8252, |
|
"step": 4525 |
|
}, |
|
{ |
|
"epoch": 1.2133333333333334, |
|
"grad_norm": 7.296039581298828, |
|
"learning_rate": 3.311111111111112e-05, |
|
"loss": 0.8382, |
|
"step": 4550 |
|
}, |
|
{ |
|
"epoch": 1.22, |
|
"grad_norm": 6.962835788726807, |
|
"learning_rate": 3.298765432098765e-05, |
|
"loss": 0.7487, |
|
"step": 4575 |
|
}, |
|
{ |
|
"epoch": 1.2266666666666666, |
|
"grad_norm": 4.2493062019348145, |
|
"learning_rate": 3.28641975308642e-05, |
|
"loss": 0.8383, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 1.2333333333333334, |
|
"grad_norm": 9.330086708068848, |
|
"learning_rate": 3.274074074074075e-05, |
|
"loss": 0.7768, |
|
"step": 4625 |
|
}, |
|
{ |
|
"epoch": 1.24, |
|
"grad_norm": 10.251571655273438, |
|
"learning_rate": 3.261728395061728e-05, |
|
"loss": 0.867, |
|
"step": 4650 |
|
}, |
|
{ |
|
"epoch": 1.2466666666666666, |
|
"grad_norm": 11.619964599609375, |
|
"learning_rate": 3.249382716049383e-05, |
|
"loss": 0.7623, |
|
"step": 4675 |
|
}, |
|
{ |
|
"epoch": 1.2533333333333334, |
|
"grad_norm": 3.9532220363616943, |
|
"learning_rate": 3.2370370370370376e-05, |
|
"loss": 0.7566, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 1.26, |
|
"grad_norm": 4.52797794342041, |
|
"learning_rate": 3.224691358024691e-05, |
|
"loss": 0.6151, |
|
"step": 4725 |
|
}, |
|
{ |
|
"epoch": 1.2666666666666666, |
|
"grad_norm": 5.5519118309021, |
|
"learning_rate": 3.212345679012346e-05, |
|
"loss": 0.6997, |
|
"step": 4750 |
|
}, |
|
{ |
|
"epoch": 1.2733333333333334, |
|
"grad_norm": 16.9818172454834, |
|
"learning_rate": 3.2000000000000005e-05, |
|
"loss": 0.8484, |
|
"step": 4775 |
|
}, |
|
{ |
|
"epoch": 1.28, |
|
"grad_norm": 9.749587059020996, |
|
"learning_rate": 3.1876543209876546e-05, |
|
"loss": 0.6278, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 1.2866666666666666, |
|
"grad_norm": 9.709831237792969, |
|
"learning_rate": 3.175308641975309e-05, |
|
"loss": 0.7075, |
|
"step": 4825 |
|
}, |
|
{ |
|
"epoch": 1.2933333333333334, |
|
"grad_norm": 20.00463104248047, |
|
"learning_rate": 3.1629629629629634e-05, |
|
"loss": 0.5736, |
|
"step": 4850 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"grad_norm": 6.521317958831787, |
|
"learning_rate": 3.1506172839506175e-05, |
|
"loss": 0.778, |
|
"step": 4875 |
|
}, |
|
{ |
|
"epoch": 1.3066666666666666, |
|
"grad_norm": 8.647531509399414, |
|
"learning_rate": 3.1382716049382716e-05, |
|
"loss": 0.6916, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 1.3133333333333335, |
|
"grad_norm": 6.482861042022705, |
|
"learning_rate": 3.1259259259259264e-05, |
|
"loss": 0.8645, |
|
"step": 4925 |
|
}, |
|
{ |
|
"epoch": 1.32, |
|
"grad_norm": 11.362075805664062, |
|
"learning_rate": 3.1135802469135804e-05, |
|
"loss": 0.7179, |
|
"step": 4950 |
|
}, |
|
{ |
|
"epoch": 1.3266666666666667, |
|
"grad_norm": 7.478168487548828, |
|
"learning_rate": 3.1012345679012345e-05, |
|
"loss": 0.7394, |
|
"step": 4975 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"grad_norm": 8.96081256866455, |
|
"learning_rate": 3.088888888888889e-05, |
|
"loss": 0.796, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 1.34, |
|
"grad_norm": 7.8306450843811035, |
|
"learning_rate": 3.0765432098765434e-05, |
|
"loss": 0.6964, |
|
"step": 5025 |
|
}, |
|
{ |
|
"epoch": 1.3466666666666667, |
|
"grad_norm": 10.186200141906738, |
|
"learning_rate": 3.064197530864198e-05, |
|
"loss": 0.66, |
|
"step": 5050 |
|
}, |
|
{ |
|
"epoch": 1.3533333333333333, |
|
"grad_norm": 9.338884353637695, |
|
"learning_rate": 3.0518518518518515e-05, |
|
"loss": 0.7104, |
|
"step": 5075 |
|
}, |
|
{ |
|
"epoch": 1.3599999999999999, |
|
"grad_norm": 13.582483291625977, |
|
"learning_rate": 3.0395061728395063e-05, |
|
"loss": 0.7455, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 1.3666666666666667, |
|
"grad_norm": 7.894265651702881, |
|
"learning_rate": 3.0271604938271607e-05, |
|
"loss": 0.7794, |
|
"step": 5125 |
|
}, |
|
{ |
|
"epoch": 1.3733333333333333, |
|
"grad_norm": 2.8598034381866455, |
|
"learning_rate": 3.0148148148148148e-05, |
|
"loss": 0.685, |
|
"step": 5150 |
|
}, |
|
{ |
|
"epoch": 1.38, |
|
"grad_norm": 2.645756244659424, |
|
"learning_rate": 3.0024691358024692e-05, |
|
"loss": 0.8207, |
|
"step": 5175 |
|
}, |
|
{ |
|
"epoch": 1.3866666666666667, |
|
"grad_norm": 9.987272262573242, |
|
"learning_rate": 2.9901234567901236e-05, |
|
"loss": 0.7231, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 1.3933333333333333, |
|
"grad_norm": 12.924286842346191, |
|
"learning_rate": 2.9777777777777777e-05, |
|
"loss": 0.7388, |
|
"step": 5225 |
|
}, |
|
{ |
|
"epoch": 1.4, |
|
"grad_norm": 16.83519744873047, |
|
"learning_rate": 2.965432098765432e-05, |
|
"loss": 0.7497, |
|
"step": 5250 |
|
}, |
|
{ |
|
"epoch": 1.4066666666666667, |
|
"grad_norm": 7.9070587158203125, |
|
"learning_rate": 2.9530864197530865e-05, |
|
"loss": 0.8074, |
|
"step": 5275 |
|
}, |
|
{ |
|
"epoch": 1.4133333333333333, |
|
"grad_norm": 4.564779758453369, |
|
"learning_rate": 2.9407407407407413e-05, |
|
"loss": 0.6971, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 1.42, |
|
"grad_norm": 8.644104957580566, |
|
"learning_rate": 2.928395061728395e-05, |
|
"loss": 0.7966, |
|
"step": 5325 |
|
}, |
|
{ |
|
"epoch": 1.4266666666666667, |
|
"grad_norm": 11.114713668823242, |
|
"learning_rate": 2.9160493827160494e-05, |
|
"loss": 0.7489, |
|
"step": 5350 |
|
}, |
|
{ |
|
"epoch": 1.4333333333333333, |
|
"grad_norm": 10.182296752929688, |
|
"learning_rate": 2.9037037037037042e-05, |
|
"loss": 0.5922, |
|
"step": 5375 |
|
}, |
|
{ |
|
"epoch": 1.44, |
|
"grad_norm": 8.90845775604248, |
|
"learning_rate": 2.891358024691358e-05, |
|
"loss": 0.7728, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 1.4466666666666668, |
|
"grad_norm": 7.750247478485107, |
|
"learning_rate": 2.8790123456790124e-05, |
|
"loss": 0.7747, |
|
"step": 5425 |
|
}, |
|
{ |
|
"epoch": 1.4533333333333334, |
|
"grad_norm": 5.938879489898682, |
|
"learning_rate": 2.8666666666666668e-05, |
|
"loss": 0.6753, |
|
"step": 5450 |
|
}, |
|
{ |
|
"epoch": 1.46, |
|
"grad_norm": 9.088497161865234, |
|
"learning_rate": 2.854320987654321e-05, |
|
"loss": 0.6682, |
|
"step": 5475 |
|
}, |
|
{ |
|
"epoch": 1.4666666666666668, |
|
"grad_norm": 18.685951232910156, |
|
"learning_rate": 2.8419753086419753e-05, |
|
"loss": 0.6772, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 1.4733333333333334, |
|
"grad_norm": 8.782575607299805, |
|
"learning_rate": 2.8296296296296297e-05, |
|
"loss": 0.6646, |
|
"step": 5525 |
|
}, |
|
{ |
|
"epoch": 1.48, |
|
"grad_norm": 4.917479515075684, |
|
"learning_rate": 2.8172839506172845e-05, |
|
"loss": 0.7017, |
|
"step": 5550 |
|
}, |
|
{ |
|
"epoch": 1.4866666666666668, |
|
"grad_norm": 8.09851360321045, |
|
"learning_rate": 2.8049382716049382e-05, |
|
"loss": 0.7154, |
|
"step": 5575 |
|
}, |
|
{ |
|
"epoch": 1.4933333333333334, |
|
"grad_norm": 6.223681449890137, |
|
"learning_rate": 2.7925925925925926e-05, |
|
"loss": 0.7596, |
|
"step": 5600 |
|
}, |
|
{ |
|
"epoch": 1.5, |
|
"grad_norm": 8.397703170776367, |
|
"learning_rate": 2.7802469135802474e-05, |
|
"loss": 0.809, |
|
"step": 5625 |
|
}, |
|
{ |
|
"epoch": 1.5066666666666668, |
|
"grad_norm": 6.877397537231445, |
|
"learning_rate": 2.767901234567901e-05, |
|
"loss": 0.8519, |
|
"step": 5650 |
|
}, |
|
{ |
|
"epoch": 1.5133333333333332, |
|
"grad_norm": 23.255901336669922, |
|
"learning_rate": 2.7555555555555555e-05, |
|
"loss": 0.5782, |
|
"step": 5675 |
|
}, |
|
{ |
|
"epoch": 1.52, |
|
"grad_norm": 9.83711051940918, |
|
"learning_rate": 2.7432098765432103e-05, |
|
"loss": 0.6336, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 1.5266666666666666, |
|
"grad_norm": 5.23626708984375, |
|
"learning_rate": 2.730864197530864e-05, |
|
"loss": 0.7307, |
|
"step": 5725 |
|
}, |
|
{ |
|
"epoch": 1.5333333333333332, |
|
"grad_norm": 9.331045150756836, |
|
"learning_rate": 2.7185185185185184e-05, |
|
"loss": 0.7259, |
|
"step": 5750 |
|
}, |
|
{ |
|
"epoch": 1.54, |
|
"grad_norm": 8.801417350769043, |
|
"learning_rate": 2.7061728395061732e-05, |
|
"loss": 0.8571, |
|
"step": 5775 |
|
}, |
|
{ |
|
"epoch": 1.5466666666666666, |
|
"grad_norm": 6.789374828338623, |
|
"learning_rate": 2.6938271604938276e-05, |
|
"loss": 0.7824, |
|
"step": 5800 |
|
}, |
|
{ |
|
"epoch": 1.5533333333333332, |
|
"grad_norm": 10.509846687316895, |
|
"learning_rate": 2.6814814814814814e-05, |
|
"loss": 0.7399, |
|
"step": 5825 |
|
}, |
|
{ |
|
"epoch": 1.56, |
|
"grad_norm": 8.728089332580566, |
|
"learning_rate": 2.669135802469136e-05, |
|
"loss": 0.742, |
|
"step": 5850 |
|
}, |
|
{ |
|
"epoch": 1.5666666666666667, |
|
"grad_norm": 7.6164774894714355, |
|
"learning_rate": 2.6567901234567905e-05, |
|
"loss": 0.7879, |
|
"step": 5875 |
|
}, |
|
{ |
|
"epoch": 1.5733333333333333, |
|
"grad_norm": 14.654951095581055, |
|
"learning_rate": 2.6444444444444443e-05, |
|
"loss": 0.63, |
|
"step": 5900 |
|
}, |
|
{ |
|
"epoch": 1.58, |
|
"grad_norm": 5.373976707458496, |
|
"learning_rate": 2.632098765432099e-05, |
|
"loss": 0.7247, |
|
"step": 5925 |
|
}, |
|
{ |
|
"epoch": 1.5866666666666667, |
|
"grad_norm": 6.956189155578613, |
|
"learning_rate": 2.6197530864197534e-05, |
|
"loss": 0.6052, |
|
"step": 5950 |
|
}, |
|
{ |
|
"epoch": 1.5933333333333333, |
|
"grad_norm": 9.96907901763916, |
|
"learning_rate": 2.6074074074074072e-05, |
|
"loss": 0.8396, |
|
"step": 5975 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 13.184568405151367, |
|
"learning_rate": 2.595061728395062e-05, |
|
"loss": 0.7757, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 1.6066666666666667, |
|
"grad_norm": 15.362314224243164, |
|
"learning_rate": 2.5827160493827164e-05, |
|
"loss": 0.893, |
|
"step": 6025 |
|
}, |
|
{ |
|
"epoch": 1.6133333333333333, |
|
"grad_norm": 4.897271156311035, |
|
"learning_rate": 2.5703703703703708e-05, |
|
"loss": 0.6591, |
|
"step": 6050 |
|
}, |
|
{ |
|
"epoch": 1.62, |
|
"grad_norm": 9.751553535461426, |
|
"learning_rate": 2.558024691358025e-05, |
|
"loss": 0.6348, |
|
"step": 6075 |
|
}, |
|
{ |
|
"epoch": 1.6266666666666667, |
|
"grad_norm": 8.476768493652344, |
|
"learning_rate": 2.5456790123456793e-05, |
|
"loss": 0.6365, |
|
"step": 6100 |
|
}, |
|
{ |
|
"epoch": 1.6333333333333333, |
|
"grad_norm": 8.62093734741211, |
|
"learning_rate": 2.5333333333333337e-05, |
|
"loss": 0.7576, |
|
"step": 6125 |
|
}, |
|
{ |
|
"epoch": 1.6400000000000001, |
|
"grad_norm": 2.200514078140259, |
|
"learning_rate": 2.5209876543209874e-05, |
|
"loss": 0.6805, |
|
"step": 6150 |
|
}, |
|
{ |
|
"epoch": 1.6466666666666665, |
|
"grad_norm": 2.226874828338623, |
|
"learning_rate": 2.5086419753086422e-05, |
|
"loss": 0.6033, |
|
"step": 6175 |
|
}, |
|
{ |
|
"epoch": 1.6533333333333333, |
|
"grad_norm": 1.4179869890213013, |
|
"learning_rate": 2.4962962962962963e-05, |
|
"loss": 0.5945, |
|
"step": 6200 |
|
}, |
|
{ |
|
"epoch": 1.6600000000000001, |
|
"grad_norm": 9.433260917663574, |
|
"learning_rate": 2.4839506172839507e-05, |
|
"loss": 0.7244, |
|
"step": 6225 |
|
}, |
|
{ |
|
"epoch": 1.6666666666666665, |
|
"grad_norm": 10.319985389709473, |
|
"learning_rate": 2.471604938271605e-05, |
|
"loss": 0.6965, |
|
"step": 6250 |
|
}, |
|
{ |
|
"epoch": 1.6733333333333333, |
|
"grad_norm": 13.357112884521484, |
|
"learning_rate": 2.4592592592592595e-05, |
|
"loss": 0.5875, |
|
"step": 6275 |
|
}, |
|
{ |
|
"epoch": 1.6800000000000002, |
|
"grad_norm": 11.539891242980957, |
|
"learning_rate": 2.4469135802469136e-05, |
|
"loss": 0.5944, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 1.6866666666666665, |
|
"grad_norm": 5.3860344886779785, |
|
"learning_rate": 2.434567901234568e-05, |
|
"loss": 0.6623, |
|
"step": 6325 |
|
}, |
|
{ |
|
"epoch": 1.6933333333333334, |
|
"grad_norm": 14.049308776855469, |
|
"learning_rate": 2.4222222222222224e-05, |
|
"loss": 0.6706, |
|
"step": 6350 |
|
}, |
|
{ |
|
"epoch": 1.7, |
|
"grad_norm": 9.558539390563965, |
|
"learning_rate": 2.4098765432098765e-05, |
|
"loss": 0.7215, |
|
"step": 6375 |
|
}, |
|
{ |
|
"epoch": 1.7066666666666666, |
|
"grad_norm": 13.506587028503418, |
|
"learning_rate": 2.397530864197531e-05, |
|
"loss": 0.6993, |
|
"step": 6400 |
|
}, |
|
{ |
|
"epoch": 1.7133333333333334, |
|
"grad_norm": 9.131032943725586, |
|
"learning_rate": 2.3851851851851854e-05, |
|
"loss": 0.7986, |
|
"step": 6425 |
|
}, |
|
{ |
|
"epoch": 1.72, |
|
"grad_norm": 3.78764009475708, |
|
"learning_rate": 2.3728395061728394e-05, |
|
"loss": 0.7608, |
|
"step": 6450 |
|
}, |
|
{ |
|
"epoch": 1.7266666666666666, |
|
"grad_norm": 9.804962158203125, |
|
"learning_rate": 2.360493827160494e-05, |
|
"loss": 0.7245, |
|
"step": 6475 |
|
}, |
|
{ |
|
"epoch": 1.7333333333333334, |
|
"grad_norm": 5.942134857177734, |
|
"learning_rate": 2.3481481481481483e-05, |
|
"loss": 0.6769, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 1.74, |
|
"grad_norm": 8.747697830200195, |
|
"learning_rate": 2.3358024691358027e-05, |
|
"loss": 0.7199, |
|
"step": 6525 |
|
}, |
|
{ |
|
"epoch": 1.7466666666666666, |
|
"grad_norm": 6.169302940368652, |
|
"learning_rate": 2.3234567901234568e-05, |
|
"loss": 0.7633, |
|
"step": 6550 |
|
}, |
|
{ |
|
"epoch": 1.7533333333333334, |
|
"grad_norm": 10.793547630310059, |
|
"learning_rate": 2.3111111111111112e-05, |
|
"loss": 0.543, |
|
"step": 6575 |
|
}, |
|
{ |
|
"epoch": 1.76, |
|
"grad_norm": 12.748262405395508, |
|
"learning_rate": 2.2987654320987656e-05, |
|
"loss": 0.7764, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 1.7666666666666666, |
|
"grad_norm": 13.716763496398926, |
|
"learning_rate": 2.2864197530864197e-05, |
|
"loss": 0.7844, |
|
"step": 6625 |
|
}, |
|
{ |
|
"epoch": 1.7733333333333334, |
|
"grad_norm": 14.565423011779785, |
|
"learning_rate": 2.2740740740740744e-05, |
|
"loss": 0.683, |
|
"step": 6650 |
|
}, |
|
{ |
|
"epoch": 1.78, |
|
"grad_norm": 8.850066184997559, |
|
"learning_rate": 2.2617283950617285e-05, |
|
"loss": 0.6995, |
|
"step": 6675 |
|
}, |
|
{ |
|
"epoch": 1.7866666666666666, |
|
"grad_norm": 12.295726776123047, |
|
"learning_rate": 2.2493827160493826e-05, |
|
"loss": 0.8103, |
|
"step": 6700 |
|
}, |
|
{ |
|
"epoch": 1.7933333333333334, |
|
"grad_norm": 5.886265754699707, |
|
"learning_rate": 2.2370370370370374e-05, |
|
"loss": 0.6811, |
|
"step": 6725 |
|
}, |
|
{ |
|
"epoch": 1.8, |
|
"grad_norm": 4.584556579589844, |
|
"learning_rate": 2.2246913580246914e-05, |
|
"loss": 0.6821, |
|
"step": 6750 |
|
}, |
|
{ |
|
"epoch": 1.8066666666666666, |
|
"grad_norm": 10.706587791442871, |
|
"learning_rate": 2.212345679012346e-05, |
|
"loss": 0.7736, |
|
"step": 6775 |
|
}, |
|
{ |
|
"epoch": 1.8133333333333335, |
|
"grad_norm": 9.361528396606445, |
|
"learning_rate": 2.2000000000000003e-05, |
|
"loss": 0.7977, |
|
"step": 6800 |
|
}, |
|
{ |
|
"epoch": 1.8199999999999998, |
|
"grad_norm": 17.178653717041016, |
|
"learning_rate": 2.1876543209876544e-05, |
|
"loss": 0.8598, |
|
"step": 6825 |
|
}, |
|
{ |
|
"epoch": 1.8266666666666667, |
|
"grad_norm": 7.339766979217529, |
|
"learning_rate": 2.1753086419753088e-05, |
|
"loss": 0.571, |
|
"step": 6850 |
|
}, |
|
{ |
|
"epoch": 1.8333333333333335, |
|
"grad_norm": 6.615869045257568, |
|
"learning_rate": 2.162962962962963e-05, |
|
"loss": 0.6702, |
|
"step": 6875 |
|
}, |
|
{ |
|
"epoch": 1.8399999999999999, |
|
"grad_norm": 10.113656997680664, |
|
"learning_rate": 2.1506172839506176e-05, |
|
"loss": 0.7777, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 1.8466666666666667, |
|
"grad_norm": 7.745372295379639, |
|
"learning_rate": 2.1382716049382717e-05, |
|
"loss": 0.7539, |
|
"step": 6925 |
|
}, |
|
{ |
|
"epoch": 1.8533333333333335, |
|
"grad_norm": 7.907397747039795, |
|
"learning_rate": 2.1259259259259258e-05, |
|
"loss": 0.7244, |
|
"step": 6950 |
|
}, |
|
{ |
|
"epoch": 1.8599999999999999, |
|
"grad_norm": 11.474489212036133, |
|
"learning_rate": 2.1135802469135805e-05, |
|
"loss": 0.7925, |
|
"step": 6975 |
|
}, |
|
{ |
|
"epoch": 1.8666666666666667, |
|
"grad_norm": 11.150900840759277, |
|
"learning_rate": 2.1012345679012346e-05, |
|
"loss": 0.5607, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 1.8733333333333333, |
|
"grad_norm": 17.480403900146484, |
|
"learning_rate": 2.088888888888889e-05, |
|
"loss": 0.8783, |
|
"step": 7025 |
|
}, |
|
{ |
|
"epoch": 1.88, |
|
"grad_norm": 10.300092697143555, |
|
"learning_rate": 2.0765432098765434e-05, |
|
"loss": 0.8025, |
|
"step": 7050 |
|
}, |
|
{ |
|
"epoch": 1.8866666666666667, |
|
"grad_norm": 3.967689275741577, |
|
"learning_rate": 2.0641975308641975e-05, |
|
"loss": 0.7898, |
|
"step": 7075 |
|
}, |
|
{ |
|
"epoch": 1.8933333333333333, |
|
"grad_norm": 8.212587356567383, |
|
"learning_rate": 2.051851851851852e-05, |
|
"loss": 0.6461, |
|
"step": 7100 |
|
}, |
|
{ |
|
"epoch": 1.9, |
|
"grad_norm": 13.606761932373047, |
|
"learning_rate": 2.0395061728395064e-05, |
|
"loss": 0.651, |
|
"step": 7125 |
|
}, |
|
{ |
|
"epoch": 1.9066666666666667, |
|
"grad_norm": 7.908700942993164, |
|
"learning_rate": 2.0271604938271608e-05, |
|
"loss": 0.6489, |
|
"step": 7150 |
|
}, |
|
{ |
|
"epoch": 1.9133333333333333, |
|
"grad_norm": 11.340200424194336, |
|
"learning_rate": 2.014814814814815e-05, |
|
"loss": 0.7675, |
|
"step": 7175 |
|
}, |
|
{ |
|
"epoch": 1.92, |
|
"grad_norm": 5.6627373695373535, |
|
"learning_rate": 2.0024691358024693e-05, |
|
"loss": 0.6732, |
|
"step": 7200 |
|
}, |
|
{ |
|
"epoch": 1.9266666666666667, |
|
"grad_norm": 21.99058723449707, |
|
"learning_rate": 1.9901234567901237e-05, |
|
"loss": 0.7135, |
|
"step": 7225 |
|
}, |
|
{ |
|
"epoch": 1.9333333333333333, |
|
"grad_norm": 17.246597290039062, |
|
"learning_rate": 1.9777777777777778e-05, |
|
"loss": 0.7077, |
|
"step": 7250 |
|
}, |
|
{ |
|
"epoch": 1.94, |
|
"grad_norm": 6.322951316833496, |
|
"learning_rate": 1.9654320987654322e-05, |
|
"loss": 0.6163, |
|
"step": 7275 |
|
}, |
|
{ |
|
"epoch": 1.9466666666666668, |
|
"grad_norm": 5.832266807556152, |
|
"learning_rate": 1.9530864197530866e-05, |
|
"loss": 0.642, |
|
"step": 7300 |
|
}, |
|
{ |
|
"epoch": 1.9533333333333334, |
|
"grad_norm": 5.883837699890137, |
|
"learning_rate": 1.9407407407407407e-05, |
|
"loss": 0.6955, |
|
"step": 7325 |
|
}, |
|
{ |
|
"epoch": 1.96, |
|
"grad_norm": 12.114556312561035, |
|
"learning_rate": 1.928395061728395e-05, |
|
"loss": 0.772, |
|
"step": 7350 |
|
}, |
|
{ |
|
"epoch": 1.9666666666666668, |
|
"grad_norm": 4.3004350662231445, |
|
"learning_rate": 1.9160493827160495e-05, |
|
"loss": 0.7316, |
|
"step": 7375 |
|
}, |
|
{ |
|
"epoch": 1.9733333333333334, |
|
"grad_norm": 8.095020294189453, |
|
"learning_rate": 1.903703703703704e-05, |
|
"loss": 0.623, |
|
"step": 7400 |
|
}, |
|
{ |
|
"epoch": 1.98, |
|
"grad_norm": 10.078492164611816, |
|
"learning_rate": 1.891358024691358e-05, |
|
"loss": 0.8212, |
|
"step": 7425 |
|
}, |
|
{ |
|
"epoch": 1.9866666666666668, |
|
"grad_norm": 6.047307968139648, |
|
"learning_rate": 1.8790123456790124e-05, |
|
"loss": 0.6209, |
|
"step": 7450 |
|
}, |
|
{ |
|
"epoch": 1.9933333333333332, |
|
"grad_norm": 2.696333885192871, |
|
"learning_rate": 1.866666666666667e-05, |
|
"loss": 0.7312, |
|
"step": 7475 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 2.4287543296813965, |
|
"learning_rate": 1.854320987654321e-05, |
|
"loss": 0.6442, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"eval_accuracy": 0.7258333333333333, |
|
"eval_f1_macro": 0.6405635167768103, |
|
"eval_f1_micro": 0.7258333333333333, |
|
"eval_f1_weighted": 0.7031763861072888, |
|
"eval_loss": 0.8434039950370789, |
|
"eval_precision_macro": 0.6510401126834049, |
|
"eval_precision_micro": 0.7258333333333333, |
|
"eval_precision_weighted": 0.6973286083232175, |
|
"eval_recall_macro": 0.6512228541854506, |
|
"eval_recall_micro": 0.7258333333333333, |
|
"eval_recall_weighted": 0.7258333333333333, |
|
"eval_runtime": 17.4744, |
|
"eval_samples_per_second": 343.359, |
|
"eval_steps_per_second": 21.46, |
|
"step": 7500 |
|
} |
|
], |
|
"logging_steps": 25, |
|
"max_steps": 11250, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 3, |
|
"save_steps": 500, |
|
"stateful_callbacks": { |
|
"EarlyStoppingCallback": { |
|
"args": { |
|
"early_stopping_patience": 5, |
|
"early_stopping_threshold": 0.01 |
|
}, |
|
"attributes": { |
|
"early_stopping_patience_counter": 0 |
|
} |
|
}, |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 1987294464000000.0, |
|
"train_batch_size": 8, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|