karthikrathod's picture
Upload folder using huggingface_hub
fca0923 verified
raw
history blame
53 kB
{
"best_metric": 0.8434039950370789,
"best_model_checkpoint": "autotrain-5um8a-sa81u/checkpoint-7500",
"epoch": 2.0,
"eval_steps": 500,
"global_step": 7500,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.006666666666666667,
"grad_norm": 3.13798189163208,
"learning_rate": 1.1111111111111112e-06,
"loss": 2.2931,
"step": 25
},
{
"epoch": 0.013333333333333334,
"grad_norm": 3.3599817752838135,
"learning_rate": 2.2222222222222225e-06,
"loss": 2.2796,
"step": 50
},
{
"epoch": 0.02,
"grad_norm": 2.9536943435668945,
"learning_rate": 3.3333333333333333e-06,
"loss": 2.2502,
"step": 75
},
{
"epoch": 0.02666666666666667,
"grad_norm": 3.538480281829834,
"learning_rate": 4.444444444444445e-06,
"loss": 2.189,
"step": 100
},
{
"epoch": 0.03333333333333333,
"grad_norm": 3.384152889251709,
"learning_rate": 5.555555555555556e-06,
"loss": 2.1509,
"step": 125
},
{
"epoch": 0.04,
"grad_norm": 4.4334306716918945,
"learning_rate": 6.666666666666667e-06,
"loss": 2.0535,
"step": 150
},
{
"epoch": 0.04666666666666667,
"grad_norm": 4.605741500854492,
"learning_rate": 7.777777777777777e-06,
"loss": 1.875,
"step": 175
},
{
"epoch": 0.05333333333333334,
"grad_norm": 5.930888652801514,
"learning_rate": 8.88888888888889e-06,
"loss": 1.7946,
"step": 200
},
{
"epoch": 0.06,
"grad_norm": 4.181428909301758,
"learning_rate": 1e-05,
"loss": 1.6376,
"step": 225
},
{
"epoch": 0.06666666666666667,
"grad_norm": 7.74509334564209,
"learning_rate": 1.1111111111111112e-05,
"loss": 1.5804,
"step": 250
},
{
"epoch": 0.07333333333333333,
"grad_norm": 4.1855669021606445,
"learning_rate": 1.2177777777777778e-05,
"loss": 1.5385,
"step": 275
},
{
"epoch": 0.08,
"grad_norm": 5.815659999847412,
"learning_rate": 1.328888888888889e-05,
"loss": 1.4515,
"step": 300
},
{
"epoch": 0.08666666666666667,
"grad_norm": 7.293570041656494,
"learning_rate": 1.44e-05,
"loss": 1.4399,
"step": 325
},
{
"epoch": 0.09333333333333334,
"grad_norm": 9.302970886230469,
"learning_rate": 1.5511111111111114e-05,
"loss": 1.4602,
"step": 350
},
{
"epoch": 0.1,
"grad_norm": 4.114165782928467,
"learning_rate": 1.6622222222222223e-05,
"loss": 1.3399,
"step": 375
},
{
"epoch": 0.10666666666666667,
"grad_norm": 10.503884315490723,
"learning_rate": 1.768888888888889e-05,
"loss": 1.2846,
"step": 400
},
{
"epoch": 0.11333333333333333,
"grad_norm": 6.395691871643066,
"learning_rate": 1.88e-05,
"loss": 1.178,
"step": 425
},
{
"epoch": 0.12,
"grad_norm": 7.209555625915527,
"learning_rate": 1.9911111111111112e-05,
"loss": 1.1698,
"step": 450
},
{
"epoch": 0.12666666666666668,
"grad_norm": 7.22865629196167,
"learning_rate": 2.1022222222222225e-05,
"loss": 1.1631,
"step": 475
},
{
"epoch": 0.13333333333333333,
"grad_norm": 8.306069374084473,
"learning_rate": 2.2133333333333334e-05,
"loss": 1.1196,
"step": 500
},
{
"epoch": 0.14,
"grad_norm": 5.044536590576172,
"learning_rate": 2.3244444444444446e-05,
"loss": 1.0854,
"step": 525
},
{
"epoch": 0.14666666666666667,
"grad_norm": 8.39782428741455,
"learning_rate": 2.4355555555555555e-05,
"loss": 1.1724,
"step": 550
},
{
"epoch": 0.15333333333333332,
"grad_norm": 7.276834011077881,
"learning_rate": 2.5466666666666668e-05,
"loss": 1.2506,
"step": 575
},
{
"epoch": 0.16,
"grad_norm": 6.928461074829102,
"learning_rate": 2.657777777777778e-05,
"loss": 1.0995,
"step": 600
},
{
"epoch": 0.16666666666666666,
"grad_norm": 5.020209789276123,
"learning_rate": 2.7688888888888893e-05,
"loss": 1.0529,
"step": 625
},
{
"epoch": 0.17333333333333334,
"grad_norm": 4.41862154006958,
"learning_rate": 2.8755555555555557e-05,
"loss": 1.1523,
"step": 650
},
{
"epoch": 0.18,
"grad_norm": 17.745071411132812,
"learning_rate": 2.986666666666667e-05,
"loss": 1.1962,
"step": 675
},
{
"epoch": 0.18666666666666668,
"grad_norm": 5.518793106079102,
"learning_rate": 3.0977777777777776e-05,
"loss": 1.0913,
"step": 700
},
{
"epoch": 0.19333333333333333,
"grad_norm": 10.203434944152832,
"learning_rate": 3.208888888888889e-05,
"loss": 1.108,
"step": 725
},
{
"epoch": 0.2,
"grad_norm": 6.468237400054932,
"learning_rate": 3.32e-05,
"loss": 1.0822,
"step": 750
},
{
"epoch": 0.20666666666666667,
"grad_norm": 6.182399272918701,
"learning_rate": 3.431111111111111e-05,
"loss": 1.1224,
"step": 775
},
{
"epoch": 0.21333333333333335,
"grad_norm": 9.415875434875488,
"learning_rate": 3.5422222222222226e-05,
"loss": 0.9095,
"step": 800
},
{
"epoch": 0.22,
"grad_norm": 17.09987449645996,
"learning_rate": 3.653333333333334e-05,
"loss": 1.1613,
"step": 825
},
{
"epoch": 0.22666666666666666,
"grad_norm": 8.294900894165039,
"learning_rate": 3.764444444444445e-05,
"loss": 1.0934,
"step": 850
},
{
"epoch": 0.23333333333333334,
"grad_norm": 13.019417762756348,
"learning_rate": 3.8755555555555556e-05,
"loss": 1.0647,
"step": 875
},
{
"epoch": 0.24,
"grad_norm": 10.864327430725098,
"learning_rate": 3.986666666666667e-05,
"loss": 1.0718,
"step": 900
},
{
"epoch": 0.24666666666666667,
"grad_norm": 9.016544342041016,
"learning_rate": 4.097777777777778e-05,
"loss": 0.9817,
"step": 925
},
{
"epoch": 0.25333333333333335,
"grad_norm": 5.4241485595703125,
"learning_rate": 4.208888888888889e-05,
"loss": 1.003,
"step": 950
},
{
"epoch": 0.26,
"grad_norm": 10.213274955749512,
"learning_rate": 4.32e-05,
"loss": 1.0223,
"step": 975
},
{
"epoch": 0.26666666666666666,
"grad_norm": 15.214512825012207,
"learning_rate": 4.431111111111111e-05,
"loss": 1.0648,
"step": 1000
},
{
"epoch": 0.2733333333333333,
"grad_norm": 3.9258694648742676,
"learning_rate": 4.5422222222222225e-05,
"loss": 0.9985,
"step": 1025
},
{
"epoch": 0.28,
"grad_norm": 7.457239151000977,
"learning_rate": 4.653333333333334e-05,
"loss": 1.117,
"step": 1050
},
{
"epoch": 0.2866666666666667,
"grad_norm": 12.809249877929688,
"learning_rate": 4.764444444444445e-05,
"loss": 1.0538,
"step": 1075
},
{
"epoch": 0.29333333333333333,
"grad_norm": 18.092700958251953,
"learning_rate": 4.875555555555556e-05,
"loss": 1.0866,
"step": 1100
},
{
"epoch": 0.3,
"grad_norm": 4.2002458572387695,
"learning_rate": 4.986666666666667e-05,
"loss": 0.9351,
"step": 1125
},
{
"epoch": 0.30666666666666664,
"grad_norm": 9.016805648803711,
"learning_rate": 4.9891358024691356e-05,
"loss": 0.8765,
"step": 1150
},
{
"epoch": 0.31333333333333335,
"grad_norm": 8.664179801940918,
"learning_rate": 4.9767901234567903e-05,
"loss": 1.1023,
"step": 1175
},
{
"epoch": 0.32,
"grad_norm": 11.132316589355469,
"learning_rate": 4.964444444444445e-05,
"loss": 0.9903,
"step": 1200
},
{
"epoch": 0.32666666666666666,
"grad_norm": 10.408929824829102,
"learning_rate": 4.9520987654320985e-05,
"loss": 0.9008,
"step": 1225
},
{
"epoch": 0.3333333333333333,
"grad_norm": 15.614274978637695,
"learning_rate": 4.939753086419753e-05,
"loss": 1.002,
"step": 1250
},
{
"epoch": 0.34,
"grad_norm": 11.449036598205566,
"learning_rate": 4.927407407407408e-05,
"loss": 0.959,
"step": 1275
},
{
"epoch": 0.3466666666666667,
"grad_norm": 5.918100357055664,
"learning_rate": 4.9150617283950614e-05,
"loss": 0.9706,
"step": 1300
},
{
"epoch": 0.35333333333333333,
"grad_norm": 6.706690788269043,
"learning_rate": 4.902716049382716e-05,
"loss": 0.9262,
"step": 1325
},
{
"epoch": 0.36,
"grad_norm": 4.575336456298828,
"learning_rate": 4.890370370370371e-05,
"loss": 1.0084,
"step": 1350
},
{
"epoch": 0.36666666666666664,
"grad_norm": 12.109813690185547,
"learning_rate": 4.878024691358025e-05,
"loss": 1.0407,
"step": 1375
},
{
"epoch": 0.37333333333333335,
"grad_norm": 11.848983764648438,
"learning_rate": 4.865679012345679e-05,
"loss": 0.9616,
"step": 1400
},
{
"epoch": 0.38,
"grad_norm": 11.87781047821045,
"learning_rate": 4.853333333333334e-05,
"loss": 1.0143,
"step": 1425
},
{
"epoch": 0.38666666666666666,
"grad_norm": 8.980938911437988,
"learning_rate": 4.840987654320988e-05,
"loss": 0.9217,
"step": 1450
},
{
"epoch": 0.3933333333333333,
"grad_norm": 8.561235427856445,
"learning_rate": 4.828641975308642e-05,
"loss": 1.1442,
"step": 1475
},
{
"epoch": 0.4,
"grad_norm": 9.980470657348633,
"learning_rate": 4.816296296296297e-05,
"loss": 1.0186,
"step": 1500
},
{
"epoch": 0.4066666666666667,
"grad_norm": 7.693286418914795,
"learning_rate": 4.803950617283951e-05,
"loss": 0.9953,
"step": 1525
},
{
"epoch": 0.41333333333333333,
"grad_norm": 5.39948034286499,
"learning_rate": 4.791604938271605e-05,
"loss": 0.9544,
"step": 1550
},
{
"epoch": 0.42,
"grad_norm": 7.7968549728393555,
"learning_rate": 4.77925925925926e-05,
"loss": 0.898,
"step": 1575
},
{
"epoch": 0.4266666666666667,
"grad_norm": 3.694169044494629,
"learning_rate": 4.766913580246914e-05,
"loss": 1.0325,
"step": 1600
},
{
"epoch": 0.43333333333333335,
"grad_norm": 10.049742698669434,
"learning_rate": 4.754567901234568e-05,
"loss": 0.9118,
"step": 1625
},
{
"epoch": 0.44,
"grad_norm": 13.797918319702148,
"learning_rate": 4.7422222222222226e-05,
"loss": 0.9135,
"step": 1650
},
{
"epoch": 0.44666666666666666,
"grad_norm": 7.2649688720703125,
"learning_rate": 4.729876543209877e-05,
"loss": 1.0054,
"step": 1675
},
{
"epoch": 0.4533333333333333,
"grad_norm": 5.670660018920898,
"learning_rate": 4.7175308641975314e-05,
"loss": 0.9929,
"step": 1700
},
{
"epoch": 0.46,
"grad_norm": 10.087015151977539,
"learning_rate": 4.7051851851851855e-05,
"loss": 1.1383,
"step": 1725
},
{
"epoch": 0.4666666666666667,
"grad_norm": 6.2626800537109375,
"learning_rate": 4.6928395061728396e-05,
"loss": 1.1386,
"step": 1750
},
{
"epoch": 0.47333333333333333,
"grad_norm": 11.429990768432617,
"learning_rate": 4.6804938271604943e-05,
"loss": 0.9042,
"step": 1775
},
{
"epoch": 0.48,
"grad_norm": 6.389810085296631,
"learning_rate": 4.6681481481481484e-05,
"loss": 0.9631,
"step": 1800
},
{
"epoch": 0.4866666666666667,
"grad_norm": 8.779641151428223,
"learning_rate": 4.6558024691358025e-05,
"loss": 1.1042,
"step": 1825
},
{
"epoch": 0.49333333333333335,
"grad_norm": 8.273574829101562,
"learning_rate": 4.643456790123457e-05,
"loss": 0.9551,
"step": 1850
},
{
"epoch": 0.5,
"grad_norm": 7.0266194343566895,
"learning_rate": 4.6311111111111113e-05,
"loss": 0.9846,
"step": 1875
},
{
"epoch": 0.5066666666666667,
"grad_norm": 8.741957664489746,
"learning_rate": 4.6187654320987654e-05,
"loss": 1.0969,
"step": 1900
},
{
"epoch": 0.5133333333333333,
"grad_norm": 17.768611907958984,
"learning_rate": 4.60641975308642e-05,
"loss": 0.844,
"step": 1925
},
{
"epoch": 0.52,
"grad_norm": 9.893391609191895,
"learning_rate": 4.594074074074074e-05,
"loss": 0.9731,
"step": 1950
},
{
"epoch": 0.5266666666666666,
"grad_norm": 5.22994327545166,
"learning_rate": 4.5817283950617283e-05,
"loss": 0.8226,
"step": 1975
},
{
"epoch": 0.5333333333333333,
"grad_norm": 13.81772232055664,
"learning_rate": 4.569382716049383e-05,
"loss": 0.8015,
"step": 2000
},
{
"epoch": 0.54,
"grad_norm": 5.9889302253723145,
"learning_rate": 4.557037037037037e-05,
"loss": 0.9881,
"step": 2025
},
{
"epoch": 0.5466666666666666,
"grad_norm": 7.382312774658203,
"learning_rate": 4.544691358024691e-05,
"loss": 1.0753,
"step": 2050
},
{
"epoch": 0.5533333333333333,
"grad_norm": 13.38068962097168,
"learning_rate": 4.532345679012346e-05,
"loss": 0.8732,
"step": 2075
},
{
"epoch": 0.56,
"grad_norm": 18.700225830078125,
"learning_rate": 4.52e-05,
"loss": 0.9685,
"step": 2100
},
{
"epoch": 0.5666666666666667,
"grad_norm": 9.365460395812988,
"learning_rate": 4.507654320987654e-05,
"loss": 1.0779,
"step": 2125
},
{
"epoch": 0.5733333333333334,
"grad_norm": 8.056510925292969,
"learning_rate": 4.495308641975309e-05,
"loss": 0.9673,
"step": 2150
},
{
"epoch": 0.58,
"grad_norm": 7.804261684417725,
"learning_rate": 4.482962962962963e-05,
"loss": 0.9461,
"step": 2175
},
{
"epoch": 0.5866666666666667,
"grad_norm": 4.484943866729736,
"learning_rate": 4.470617283950618e-05,
"loss": 0.9341,
"step": 2200
},
{
"epoch": 0.5933333333333334,
"grad_norm": 7.764664173126221,
"learning_rate": 4.458271604938272e-05,
"loss": 0.8104,
"step": 2225
},
{
"epoch": 0.6,
"grad_norm": 6.613196849822998,
"learning_rate": 4.44641975308642e-05,
"loss": 1.0037,
"step": 2250
},
{
"epoch": 0.6066666666666667,
"grad_norm": 5.951300144195557,
"learning_rate": 4.4340740740740744e-05,
"loss": 0.9785,
"step": 2275
},
{
"epoch": 0.6133333333333333,
"grad_norm": 4.876894474029541,
"learning_rate": 4.421728395061729e-05,
"loss": 0.9276,
"step": 2300
},
{
"epoch": 0.62,
"grad_norm": 9.433537483215332,
"learning_rate": 4.4093827160493826e-05,
"loss": 1.0004,
"step": 2325
},
{
"epoch": 0.6266666666666667,
"grad_norm": 10.541296005249023,
"learning_rate": 4.3970370370370374e-05,
"loss": 1.0609,
"step": 2350
},
{
"epoch": 0.6333333333333333,
"grad_norm": 6.446004390716553,
"learning_rate": 4.384691358024692e-05,
"loss": 0.9926,
"step": 2375
},
{
"epoch": 0.64,
"grad_norm": 8.850340843200684,
"learning_rate": 4.3723456790123455e-05,
"loss": 0.9382,
"step": 2400
},
{
"epoch": 0.6466666666666666,
"grad_norm": 6.004384517669678,
"learning_rate": 4.36e-05,
"loss": 1.1173,
"step": 2425
},
{
"epoch": 0.6533333333333333,
"grad_norm": 10.950887680053711,
"learning_rate": 4.3476543209876543e-05,
"loss": 0.8673,
"step": 2450
},
{
"epoch": 0.66,
"grad_norm": 5.736955642700195,
"learning_rate": 4.3353086419753084e-05,
"loss": 0.9869,
"step": 2475
},
{
"epoch": 0.6666666666666666,
"grad_norm": 9.545438766479492,
"learning_rate": 4.322962962962963e-05,
"loss": 1.0109,
"step": 2500
},
{
"epoch": 0.6733333333333333,
"grad_norm": 14.54963207244873,
"learning_rate": 4.310617283950617e-05,
"loss": 0.8774,
"step": 2525
},
{
"epoch": 0.68,
"grad_norm": 6.30457067489624,
"learning_rate": 4.298271604938272e-05,
"loss": 0.8801,
"step": 2550
},
{
"epoch": 0.6866666666666666,
"grad_norm": 6.858036041259766,
"learning_rate": 4.285925925925926e-05,
"loss": 0.727,
"step": 2575
},
{
"epoch": 0.6933333333333334,
"grad_norm": 5.082749366760254,
"learning_rate": 4.27358024691358e-05,
"loss": 0.9237,
"step": 2600
},
{
"epoch": 0.7,
"grad_norm": 7.5763936042785645,
"learning_rate": 4.261234567901235e-05,
"loss": 0.8342,
"step": 2625
},
{
"epoch": 0.7066666666666667,
"grad_norm": 8.811793327331543,
"learning_rate": 4.248888888888889e-05,
"loss": 1.0076,
"step": 2650
},
{
"epoch": 0.7133333333333334,
"grad_norm": 13.048144340515137,
"learning_rate": 4.236543209876543e-05,
"loss": 0.9556,
"step": 2675
},
{
"epoch": 0.72,
"grad_norm": 11.870134353637695,
"learning_rate": 4.224197530864198e-05,
"loss": 1.0028,
"step": 2700
},
{
"epoch": 0.7266666666666667,
"grad_norm": 12.326855659484863,
"learning_rate": 4.211851851851852e-05,
"loss": 0.8794,
"step": 2725
},
{
"epoch": 0.7333333333333333,
"grad_norm": 7.567747116088867,
"learning_rate": 4.199506172839506e-05,
"loss": 0.8812,
"step": 2750
},
{
"epoch": 0.74,
"grad_norm": 6.114919185638428,
"learning_rate": 4.187160493827161e-05,
"loss": 0.8974,
"step": 2775
},
{
"epoch": 0.7466666666666667,
"grad_norm": 16.97509765625,
"learning_rate": 4.1748148148148155e-05,
"loss": 0.8895,
"step": 2800
},
{
"epoch": 0.7533333333333333,
"grad_norm": 9.177389144897461,
"learning_rate": 4.162469135802469e-05,
"loss": 0.7692,
"step": 2825
},
{
"epoch": 0.76,
"grad_norm": 7.463740348815918,
"learning_rate": 4.150123456790124e-05,
"loss": 0.9168,
"step": 2850
},
{
"epoch": 0.7666666666666667,
"grad_norm": 8.774567604064941,
"learning_rate": 4.1377777777777784e-05,
"loss": 0.8709,
"step": 2875
},
{
"epoch": 0.7733333333333333,
"grad_norm": 7.635562419891357,
"learning_rate": 4.125432098765432e-05,
"loss": 1.059,
"step": 2900
},
{
"epoch": 0.78,
"grad_norm": 5.951021671295166,
"learning_rate": 4.1130864197530866e-05,
"loss": 0.7637,
"step": 2925
},
{
"epoch": 0.7866666666666666,
"grad_norm": 9.935166358947754,
"learning_rate": 4.1007407407407414e-05,
"loss": 0.9919,
"step": 2950
},
{
"epoch": 0.7933333333333333,
"grad_norm": 5.804830074310303,
"learning_rate": 4.088395061728395e-05,
"loss": 0.7903,
"step": 2975
},
{
"epoch": 0.8,
"grad_norm": 5.533348560333252,
"learning_rate": 4.0760493827160495e-05,
"loss": 0.9898,
"step": 3000
},
{
"epoch": 0.8066666666666666,
"grad_norm": 8.753861427307129,
"learning_rate": 4.063703703703704e-05,
"loss": 0.7716,
"step": 3025
},
{
"epoch": 0.8133333333333334,
"grad_norm": 11.261335372924805,
"learning_rate": 4.051358024691358e-05,
"loss": 0.9554,
"step": 3050
},
{
"epoch": 0.82,
"grad_norm": 10.08859920501709,
"learning_rate": 4.0390123456790124e-05,
"loss": 0.8887,
"step": 3075
},
{
"epoch": 0.8266666666666667,
"grad_norm": 3.6686923503875732,
"learning_rate": 4.026666666666667e-05,
"loss": 0.8084,
"step": 3100
},
{
"epoch": 0.8333333333333334,
"grad_norm": 7.54130220413208,
"learning_rate": 4.014320987654321e-05,
"loss": 1.0297,
"step": 3125
},
{
"epoch": 0.84,
"grad_norm": 5.28485631942749,
"learning_rate": 4.0019753086419753e-05,
"loss": 0.8179,
"step": 3150
},
{
"epoch": 0.8466666666666667,
"grad_norm": 5.715919494628906,
"learning_rate": 3.98962962962963e-05,
"loss": 0.8925,
"step": 3175
},
{
"epoch": 0.8533333333333334,
"grad_norm": 12.822041511535645,
"learning_rate": 3.977283950617284e-05,
"loss": 0.8126,
"step": 3200
},
{
"epoch": 0.86,
"grad_norm": 6.913020133972168,
"learning_rate": 3.964938271604938e-05,
"loss": 0.9576,
"step": 3225
},
{
"epoch": 0.8666666666666667,
"grad_norm": 7.729150772094727,
"learning_rate": 3.952592592592593e-05,
"loss": 0.8019,
"step": 3250
},
{
"epoch": 0.8733333333333333,
"grad_norm": 14.75147819519043,
"learning_rate": 3.940246913580247e-05,
"loss": 0.8749,
"step": 3275
},
{
"epoch": 0.88,
"grad_norm": 6.890247344970703,
"learning_rate": 3.927901234567901e-05,
"loss": 0.8219,
"step": 3300
},
{
"epoch": 0.8866666666666667,
"grad_norm": 14.082189559936523,
"learning_rate": 3.915555555555556e-05,
"loss": 0.9104,
"step": 3325
},
{
"epoch": 0.8933333333333333,
"grad_norm": 14.824267387390137,
"learning_rate": 3.90320987654321e-05,
"loss": 1.0422,
"step": 3350
},
{
"epoch": 0.9,
"grad_norm": 6.831472396850586,
"learning_rate": 3.890864197530865e-05,
"loss": 0.955,
"step": 3375
},
{
"epoch": 0.9066666666666666,
"grad_norm": 12.86788558959961,
"learning_rate": 3.878518518518519e-05,
"loss": 0.8177,
"step": 3400
},
{
"epoch": 0.9133333333333333,
"grad_norm": 5.384681224822998,
"learning_rate": 3.866172839506173e-05,
"loss": 1.0076,
"step": 3425
},
{
"epoch": 0.92,
"grad_norm": 7.360981464385986,
"learning_rate": 3.853827160493828e-05,
"loss": 0.9525,
"step": 3450
},
{
"epoch": 0.9266666666666666,
"grad_norm": 9.476499557495117,
"learning_rate": 3.841481481481482e-05,
"loss": 0.8705,
"step": 3475
},
{
"epoch": 0.9333333333333333,
"grad_norm": 11.018596649169922,
"learning_rate": 3.829135802469136e-05,
"loss": 0.8799,
"step": 3500
},
{
"epoch": 0.94,
"grad_norm": 9.566810607910156,
"learning_rate": 3.8167901234567906e-05,
"loss": 0.9072,
"step": 3525
},
{
"epoch": 0.9466666666666667,
"grad_norm": 6.946780681610107,
"learning_rate": 3.804444444444445e-05,
"loss": 0.9795,
"step": 3550
},
{
"epoch": 0.9533333333333334,
"grad_norm": 11.96141242980957,
"learning_rate": 3.792098765432099e-05,
"loss": 0.9398,
"step": 3575
},
{
"epoch": 0.96,
"grad_norm": 6.139281749725342,
"learning_rate": 3.7797530864197535e-05,
"loss": 0.877,
"step": 3600
},
{
"epoch": 0.9666666666666667,
"grad_norm": 8.848674774169922,
"learning_rate": 3.7674074074074076e-05,
"loss": 0.9407,
"step": 3625
},
{
"epoch": 0.9733333333333334,
"grad_norm": 8.626237869262695,
"learning_rate": 3.755061728395062e-05,
"loss": 0.7231,
"step": 3650
},
{
"epoch": 0.98,
"grad_norm": 8.904046058654785,
"learning_rate": 3.7427160493827164e-05,
"loss": 0.7771,
"step": 3675
},
{
"epoch": 0.9866666666666667,
"grad_norm": 8.304384231567383,
"learning_rate": 3.7303703703703705e-05,
"loss": 0.8759,
"step": 3700
},
{
"epoch": 0.9933333333333333,
"grad_norm": 3.275665283203125,
"learning_rate": 3.7180246913580246e-05,
"loss": 1.0953,
"step": 3725
},
{
"epoch": 1.0,
"grad_norm": 9.612822532653809,
"learning_rate": 3.7056790123456794e-05,
"loss": 0.9654,
"step": 3750
},
{
"epoch": 1.0,
"eval_accuracy": 0.7091666666666666,
"eval_f1_macro": 0.6100324685442738,
"eval_f1_micro": 0.7091666666666666,
"eval_f1_weighted": 0.6820074793819821,
"eval_loss": 0.8581413626670837,
"eval_precision_macro": 0.6409039609039581,
"eval_precision_micro": 0.7091666666666666,
"eval_precision_weighted": 0.6788783926303716,
"eval_recall_macro": 0.6173398268291092,
"eval_recall_micro": 0.7091666666666666,
"eval_recall_weighted": 0.7091666666666666,
"eval_runtime": 17.7272,
"eval_samples_per_second": 338.462,
"eval_steps_per_second": 21.154,
"step": 3750
},
{
"epoch": 1.0066666666666666,
"grad_norm": 4.440273761749268,
"learning_rate": 3.6933333333333334e-05,
"loss": 0.7425,
"step": 3775
},
{
"epoch": 1.0133333333333334,
"grad_norm": 2.8456194400787354,
"learning_rate": 3.6809876543209875e-05,
"loss": 0.8552,
"step": 3800
},
{
"epoch": 1.02,
"grad_norm": 7.814695358276367,
"learning_rate": 3.668641975308642e-05,
"loss": 0.7137,
"step": 3825
},
{
"epoch": 1.0266666666666666,
"grad_norm": 15.144572257995605,
"learning_rate": 3.6562962962962964e-05,
"loss": 0.7113,
"step": 3850
},
{
"epoch": 1.0333333333333334,
"grad_norm": 7.033264636993408,
"learning_rate": 3.643950617283951e-05,
"loss": 0.635,
"step": 3875
},
{
"epoch": 1.04,
"grad_norm": 9.882685661315918,
"learning_rate": 3.631604938271605e-05,
"loss": 0.6947,
"step": 3900
},
{
"epoch": 1.0466666666666666,
"grad_norm": 3.8773844242095947,
"learning_rate": 3.619259259259259e-05,
"loss": 0.7561,
"step": 3925
},
{
"epoch": 1.0533333333333332,
"grad_norm": 13.235457420349121,
"learning_rate": 3.606913580246914e-05,
"loss": 0.8613,
"step": 3950
},
{
"epoch": 1.06,
"grad_norm": 7.09820032119751,
"learning_rate": 3.594567901234568e-05,
"loss": 0.6555,
"step": 3975
},
{
"epoch": 1.0666666666666667,
"grad_norm": 10.326157569885254,
"learning_rate": 3.582222222222222e-05,
"loss": 0.7023,
"step": 4000
},
{
"epoch": 1.0733333333333333,
"grad_norm": 26.21095085144043,
"learning_rate": 3.569876543209877e-05,
"loss": 0.8392,
"step": 4025
},
{
"epoch": 1.08,
"grad_norm": 8.45411205291748,
"learning_rate": 3.557530864197531e-05,
"loss": 0.6542,
"step": 4050
},
{
"epoch": 1.0866666666666667,
"grad_norm": 9.493447303771973,
"learning_rate": 3.545185185185185e-05,
"loss": 0.6472,
"step": 4075
},
{
"epoch": 1.0933333333333333,
"grad_norm": 6.964524745941162,
"learning_rate": 3.53283950617284e-05,
"loss": 0.8216,
"step": 4100
},
{
"epoch": 1.1,
"grad_norm": 9.059328079223633,
"learning_rate": 3.520493827160494e-05,
"loss": 0.8314,
"step": 4125
},
{
"epoch": 1.1066666666666667,
"grad_norm": 6.654369831085205,
"learning_rate": 3.508148148148148e-05,
"loss": 0.628,
"step": 4150
},
{
"epoch": 1.1133333333333333,
"grad_norm": 13.223770141601562,
"learning_rate": 3.495802469135803e-05,
"loss": 0.8023,
"step": 4175
},
{
"epoch": 1.12,
"grad_norm": 12.41712474822998,
"learning_rate": 3.483456790123457e-05,
"loss": 0.8411,
"step": 4200
},
{
"epoch": 1.1266666666666667,
"grad_norm": 6.774609565734863,
"learning_rate": 3.471111111111111e-05,
"loss": 0.8376,
"step": 4225
},
{
"epoch": 1.1333333333333333,
"grad_norm": 7.308166980743408,
"learning_rate": 3.4592592592592594e-05,
"loss": 0.7768,
"step": 4250
},
{
"epoch": 1.1400000000000001,
"grad_norm": 7.681529521942139,
"learning_rate": 3.4469135802469135e-05,
"loss": 0.7728,
"step": 4275
},
{
"epoch": 1.1466666666666667,
"grad_norm": 6.580010414123535,
"learning_rate": 3.434567901234568e-05,
"loss": 0.6793,
"step": 4300
},
{
"epoch": 1.1533333333333333,
"grad_norm": 3.635303497314453,
"learning_rate": 3.4222222222222224e-05,
"loss": 0.7412,
"step": 4325
},
{
"epoch": 1.16,
"grad_norm": 8.876466751098633,
"learning_rate": 3.4098765432098764e-05,
"loss": 0.6272,
"step": 4350
},
{
"epoch": 1.1666666666666667,
"grad_norm": 7.696030139923096,
"learning_rate": 3.397530864197531e-05,
"loss": 0.6547,
"step": 4375
},
{
"epoch": 1.1733333333333333,
"grad_norm": 8.832601547241211,
"learning_rate": 3.385185185185185e-05,
"loss": 0.5395,
"step": 4400
},
{
"epoch": 1.18,
"grad_norm": 8.13397216796875,
"learning_rate": 3.3728395061728394e-05,
"loss": 0.7159,
"step": 4425
},
{
"epoch": 1.1866666666666668,
"grad_norm": 13.775779724121094,
"learning_rate": 3.360493827160494e-05,
"loss": 0.827,
"step": 4450
},
{
"epoch": 1.1933333333333334,
"grad_norm": 10.165814399719238,
"learning_rate": 3.348148148148148e-05,
"loss": 0.6612,
"step": 4475
},
{
"epoch": 1.2,
"grad_norm": 16.018178939819336,
"learning_rate": 3.335802469135802e-05,
"loss": 0.6556,
"step": 4500
},
{
"epoch": 1.2066666666666666,
"grad_norm": 1.3013031482696533,
"learning_rate": 3.323456790123457e-05,
"loss": 0.8252,
"step": 4525
},
{
"epoch": 1.2133333333333334,
"grad_norm": 7.296039581298828,
"learning_rate": 3.311111111111112e-05,
"loss": 0.8382,
"step": 4550
},
{
"epoch": 1.22,
"grad_norm": 6.962835788726807,
"learning_rate": 3.298765432098765e-05,
"loss": 0.7487,
"step": 4575
},
{
"epoch": 1.2266666666666666,
"grad_norm": 4.2493062019348145,
"learning_rate": 3.28641975308642e-05,
"loss": 0.8383,
"step": 4600
},
{
"epoch": 1.2333333333333334,
"grad_norm": 9.330086708068848,
"learning_rate": 3.274074074074075e-05,
"loss": 0.7768,
"step": 4625
},
{
"epoch": 1.24,
"grad_norm": 10.251571655273438,
"learning_rate": 3.261728395061728e-05,
"loss": 0.867,
"step": 4650
},
{
"epoch": 1.2466666666666666,
"grad_norm": 11.619964599609375,
"learning_rate": 3.249382716049383e-05,
"loss": 0.7623,
"step": 4675
},
{
"epoch": 1.2533333333333334,
"grad_norm": 3.9532220363616943,
"learning_rate": 3.2370370370370376e-05,
"loss": 0.7566,
"step": 4700
},
{
"epoch": 1.26,
"grad_norm": 4.52797794342041,
"learning_rate": 3.224691358024691e-05,
"loss": 0.6151,
"step": 4725
},
{
"epoch": 1.2666666666666666,
"grad_norm": 5.5519118309021,
"learning_rate": 3.212345679012346e-05,
"loss": 0.6997,
"step": 4750
},
{
"epoch": 1.2733333333333334,
"grad_norm": 16.9818172454834,
"learning_rate": 3.2000000000000005e-05,
"loss": 0.8484,
"step": 4775
},
{
"epoch": 1.28,
"grad_norm": 9.749587059020996,
"learning_rate": 3.1876543209876546e-05,
"loss": 0.6278,
"step": 4800
},
{
"epoch": 1.2866666666666666,
"grad_norm": 9.709831237792969,
"learning_rate": 3.175308641975309e-05,
"loss": 0.7075,
"step": 4825
},
{
"epoch": 1.2933333333333334,
"grad_norm": 20.00463104248047,
"learning_rate": 3.1629629629629634e-05,
"loss": 0.5736,
"step": 4850
},
{
"epoch": 1.3,
"grad_norm": 6.521317958831787,
"learning_rate": 3.1506172839506175e-05,
"loss": 0.778,
"step": 4875
},
{
"epoch": 1.3066666666666666,
"grad_norm": 8.647531509399414,
"learning_rate": 3.1382716049382716e-05,
"loss": 0.6916,
"step": 4900
},
{
"epoch": 1.3133333333333335,
"grad_norm": 6.482861042022705,
"learning_rate": 3.1259259259259264e-05,
"loss": 0.8645,
"step": 4925
},
{
"epoch": 1.32,
"grad_norm": 11.362075805664062,
"learning_rate": 3.1135802469135804e-05,
"loss": 0.7179,
"step": 4950
},
{
"epoch": 1.3266666666666667,
"grad_norm": 7.478168487548828,
"learning_rate": 3.1012345679012345e-05,
"loss": 0.7394,
"step": 4975
},
{
"epoch": 1.3333333333333333,
"grad_norm": 8.96081256866455,
"learning_rate": 3.088888888888889e-05,
"loss": 0.796,
"step": 5000
},
{
"epoch": 1.34,
"grad_norm": 7.8306450843811035,
"learning_rate": 3.0765432098765434e-05,
"loss": 0.6964,
"step": 5025
},
{
"epoch": 1.3466666666666667,
"grad_norm": 10.186200141906738,
"learning_rate": 3.064197530864198e-05,
"loss": 0.66,
"step": 5050
},
{
"epoch": 1.3533333333333333,
"grad_norm": 9.338884353637695,
"learning_rate": 3.0518518518518515e-05,
"loss": 0.7104,
"step": 5075
},
{
"epoch": 1.3599999999999999,
"grad_norm": 13.582483291625977,
"learning_rate": 3.0395061728395063e-05,
"loss": 0.7455,
"step": 5100
},
{
"epoch": 1.3666666666666667,
"grad_norm": 7.894265651702881,
"learning_rate": 3.0271604938271607e-05,
"loss": 0.7794,
"step": 5125
},
{
"epoch": 1.3733333333333333,
"grad_norm": 2.8598034381866455,
"learning_rate": 3.0148148148148148e-05,
"loss": 0.685,
"step": 5150
},
{
"epoch": 1.38,
"grad_norm": 2.645756244659424,
"learning_rate": 3.0024691358024692e-05,
"loss": 0.8207,
"step": 5175
},
{
"epoch": 1.3866666666666667,
"grad_norm": 9.987272262573242,
"learning_rate": 2.9901234567901236e-05,
"loss": 0.7231,
"step": 5200
},
{
"epoch": 1.3933333333333333,
"grad_norm": 12.924286842346191,
"learning_rate": 2.9777777777777777e-05,
"loss": 0.7388,
"step": 5225
},
{
"epoch": 1.4,
"grad_norm": 16.83519744873047,
"learning_rate": 2.965432098765432e-05,
"loss": 0.7497,
"step": 5250
},
{
"epoch": 1.4066666666666667,
"grad_norm": 7.9070587158203125,
"learning_rate": 2.9530864197530865e-05,
"loss": 0.8074,
"step": 5275
},
{
"epoch": 1.4133333333333333,
"grad_norm": 4.564779758453369,
"learning_rate": 2.9407407407407413e-05,
"loss": 0.6971,
"step": 5300
},
{
"epoch": 1.42,
"grad_norm": 8.644104957580566,
"learning_rate": 2.928395061728395e-05,
"loss": 0.7966,
"step": 5325
},
{
"epoch": 1.4266666666666667,
"grad_norm": 11.114713668823242,
"learning_rate": 2.9160493827160494e-05,
"loss": 0.7489,
"step": 5350
},
{
"epoch": 1.4333333333333333,
"grad_norm": 10.182296752929688,
"learning_rate": 2.9037037037037042e-05,
"loss": 0.5922,
"step": 5375
},
{
"epoch": 1.44,
"grad_norm": 8.90845775604248,
"learning_rate": 2.891358024691358e-05,
"loss": 0.7728,
"step": 5400
},
{
"epoch": 1.4466666666666668,
"grad_norm": 7.750247478485107,
"learning_rate": 2.8790123456790124e-05,
"loss": 0.7747,
"step": 5425
},
{
"epoch": 1.4533333333333334,
"grad_norm": 5.938879489898682,
"learning_rate": 2.8666666666666668e-05,
"loss": 0.6753,
"step": 5450
},
{
"epoch": 1.46,
"grad_norm": 9.088497161865234,
"learning_rate": 2.854320987654321e-05,
"loss": 0.6682,
"step": 5475
},
{
"epoch": 1.4666666666666668,
"grad_norm": 18.685951232910156,
"learning_rate": 2.8419753086419753e-05,
"loss": 0.6772,
"step": 5500
},
{
"epoch": 1.4733333333333334,
"grad_norm": 8.782575607299805,
"learning_rate": 2.8296296296296297e-05,
"loss": 0.6646,
"step": 5525
},
{
"epoch": 1.48,
"grad_norm": 4.917479515075684,
"learning_rate": 2.8172839506172845e-05,
"loss": 0.7017,
"step": 5550
},
{
"epoch": 1.4866666666666668,
"grad_norm": 8.09851360321045,
"learning_rate": 2.8049382716049382e-05,
"loss": 0.7154,
"step": 5575
},
{
"epoch": 1.4933333333333334,
"grad_norm": 6.223681449890137,
"learning_rate": 2.7925925925925926e-05,
"loss": 0.7596,
"step": 5600
},
{
"epoch": 1.5,
"grad_norm": 8.397703170776367,
"learning_rate": 2.7802469135802474e-05,
"loss": 0.809,
"step": 5625
},
{
"epoch": 1.5066666666666668,
"grad_norm": 6.877397537231445,
"learning_rate": 2.767901234567901e-05,
"loss": 0.8519,
"step": 5650
},
{
"epoch": 1.5133333333333332,
"grad_norm": 23.255901336669922,
"learning_rate": 2.7555555555555555e-05,
"loss": 0.5782,
"step": 5675
},
{
"epoch": 1.52,
"grad_norm": 9.83711051940918,
"learning_rate": 2.7432098765432103e-05,
"loss": 0.6336,
"step": 5700
},
{
"epoch": 1.5266666666666666,
"grad_norm": 5.23626708984375,
"learning_rate": 2.730864197530864e-05,
"loss": 0.7307,
"step": 5725
},
{
"epoch": 1.5333333333333332,
"grad_norm": 9.331045150756836,
"learning_rate": 2.7185185185185184e-05,
"loss": 0.7259,
"step": 5750
},
{
"epoch": 1.54,
"grad_norm": 8.801417350769043,
"learning_rate": 2.7061728395061732e-05,
"loss": 0.8571,
"step": 5775
},
{
"epoch": 1.5466666666666666,
"grad_norm": 6.789374828338623,
"learning_rate": 2.6938271604938276e-05,
"loss": 0.7824,
"step": 5800
},
{
"epoch": 1.5533333333333332,
"grad_norm": 10.509846687316895,
"learning_rate": 2.6814814814814814e-05,
"loss": 0.7399,
"step": 5825
},
{
"epoch": 1.56,
"grad_norm": 8.728089332580566,
"learning_rate": 2.669135802469136e-05,
"loss": 0.742,
"step": 5850
},
{
"epoch": 1.5666666666666667,
"grad_norm": 7.6164774894714355,
"learning_rate": 2.6567901234567905e-05,
"loss": 0.7879,
"step": 5875
},
{
"epoch": 1.5733333333333333,
"grad_norm": 14.654951095581055,
"learning_rate": 2.6444444444444443e-05,
"loss": 0.63,
"step": 5900
},
{
"epoch": 1.58,
"grad_norm": 5.373976707458496,
"learning_rate": 2.632098765432099e-05,
"loss": 0.7247,
"step": 5925
},
{
"epoch": 1.5866666666666667,
"grad_norm": 6.956189155578613,
"learning_rate": 2.6197530864197534e-05,
"loss": 0.6052,
"step": 5950
},
{
"epoch": 1.5933333333333333,
"grad_norm": 9.96907901763916,
"learning_rate": 2.6074074074074072e-05,
"loss": 0.8396,
"step": 5975
},
{
"epoch": 1.6,
"grad_norm": 13.184568405151367,
"learning_rate": 2.595061728395062e-05,
"loss": 0.7757,
"step": 6000
},
{
"epoch": 1.6066666666666667,
"grad_norm": 15.362314224243164,
"learning_rate": 2.5827160493827164e-05,
"loss": 0.893,
"step": 6025
},
{
"epoch": 1.6133333333333333,
"grad_norm": 4.897271156311035,
"learning_rate": 2.5703703703703708e-05,
"loss": 0.6591,
"step": 6050
},
{
"epoch": 1.62,
"grad_norm": 9.751553535461426,
"learning_rate": 2.558024691358025e-05,
"loss": 0.6348,
"step": 6075
},
{
"epoch": 1.6266666666666667,
"grad_norm": 8.476768493652344,
"learning_rate": 2.5456790123456793e-05,
"loss": 0.6365,
"step": 6100
},
{
"epoch": 1.6333333333333333,
"grad_norm": 8.62093734741211,
"learning_rate": 2.5333333333333337e-05,
"loss": 0.7576,
"step": 6125
},
{
"epoch": 1.6400000000000001,
"grad_norm": 2.200514078140259,
"learning_rate": 2.5209876543209874e-05,
"loss": 0.6805,
"step": 6150
},
{
"epoch": 1.6466666666666665,
"grad_norm": 2.226874828338623,
"learning_rate": 2.5086419753086422e-05,
"loss": 0.6033,
"step": 6175
},
{
"epoch": 1.6533333333333333,
"grad_norm": 1.4179869890213013,
"learning_rate": 2.4962962962962963e-05,
"loss": 0.5945,
"step": 6200
},
{
"epoch": 1.6600000000000001,
"grad_norm": 9.433260917663574,
"learning_rate": 2.4839506172839507e-05,
"loss": 0.7244,
"step": 6225
},
{
"epoch": 1.6666666666666665,
"grad_norm": 10.319985389709473,
"learning_rate": 2.471604938271605e-05,
"loss": 0.6965,
"step": 6250
},
{
"epoch": 1.6733333333333333,
"grad_norm": 13.357112884521484,
"learning_rate": 2.4592592592592595e-05,
"loss": 0.5875,
"step": 6275
},
{
"epoch": 1.6800000000000002,
"grad_norm": 11.539891242980957,
"learning_rate": 2.4469135802469136e-05,
"loss": 0.5944,
"step": 6300
},
{
"epoch": 1.6866666666666665,
"grad_norm": 5.3860344886779785,
"learning_rate": 2.434567901234568e-05,
"loss": 0.6623,
"step": 6325
},
{
"epoch": 1.6933333333333334,
"grad_norm": 14.049308776855469,
"learning_rate": 2.4222222222222224e-05,
"loss": 0.6706,
"step": 6350
},
{
"epoch": 1.7,
"grad_norm": 9.558539390563965,
"learning_rate": 2.4098765432098765e-05,
"loss": 0.7215,
"step": 6375
},
{
"epoch": 1.7066666666666666,
"grad_norm": 13.506587028503418,
"learning_rate": 2.397530864197531e-05,
"loss": 0.6993,
"step": 6400
},
{
"epoch": 1.7133333333333334,
"grad_norm": 9.131032943725586,
"learning_rate": 2.3851851851851854e-05,
"loss": 0.7986,
"step": 6425
},
{
"epoch": 1.72,
"grad_norm": 3.78764009475708,
"learning_rate": 2.3728395061728394e-05,
"loss": 0.7608,
"step": 6450
},
{
"epoch": 1.7266666666666666,
"grad_norm": 9.804962158203125,
"learning_rate": 2.360493827160494e-05,
"loss": 0.7245,
"step": 6475
},
{
"epoch": 1.7333333333333334,
"grad_norm": 5.942134857177734,
"learning_rate": 2.3481481481481483e-05,
"loss": 0.6769,
"step": 6500
},
{
"epoch": 1.74,
"grad_norm": 8.747697830200195,
"learning_rate": 2.3358024691358027e-05,
"loss": 0.7199,
"step": 6525
},
{
"epoch": 1.7466666666666666,
"grad_norm": 6.169302940368652,
"learning_rate": 2.3234567901234568e-05,
"loss": 0.7633,
"step": 6550
},
{
"epoch": 1.7533333333333334,
"grad_norm": 10.793547630310059,
"learning_rate": 2.3111111111111112e-05,
"loss": 0.543,
"step": 6575
},
{
"epoch": 1.76,
"grad_norm": 12.748262405395508,
"learning_rate": 2.2987654320987656e-05,
"loss": 0.7764,
"step": 6600
},
{
"epoch": 1.7666666666666666,
"grad_norm": 13.716763496398926,
"learning_rate": 2.2864197530864197e-05,
"loss": 0.7844,
"step": 6625
},
{
"epoch": 1.7733333333333334,
"grad_norm": 14.565423011779785,
"learning_rate": 2.2740740740740744e-05,
"loss": 0.683,
"step": 6650
},
{
"epoch": 1.78,
"grad_norm": 8.850066184997559,
"learning_rate": 2.2617283950617285e-05,
"loss": 0.6995,
"step": 6675
},
{
"epoch": 1.7866666666666666,
"grad_norm": 12.295726776123047,
"learning_rate": 2.2493827160493826e-05,
"loss": 0.8103,
"step": 6700
},
{
"epoch": 1.7933333333333334,
"grad_norm": 5.886265754699707,
"learning_rate": 2.2370370370370374e-05,
"loss": 0.6811,
"step": 6725
},
{
"epoch": 1.8,
"grad_norm": 4.584556579589844,
"learning_rate": 2.2246913580246914e-05,
"loss": 0.6821,
"step": 6750
},
{
"epoch": 1.8066666666666666,
"grad_norm": 10.706587791442871,
"learning_rate": 2.212345679012346e-05,
"loss": 0.7736,
"step": 6775
},
{
"epoch": 1.8133333333333335,
"grad_norm": 9.361528396606445,
"learning_rate": 2.2000000000000003e-05,
"loss": 0.7977,
"step": 6800
},
{
"epoch": 1.8199999999999998,
"grad_norm": 17.178653717041016,
"learning_rate": 2.1876543209876544e-05,
"loss": 0.8598,
"step": 6825
},
{
"epoch": 1.8266666666666667,
"grad_norm": 7.339766979217529,
"learning_rate": 2.1753086419753088e-05,
"loss": 0.571,
"step": 6850
},
{
"epoch": 1.8333333333333335,
"grad_norm": 6.615869045257568,
"learning_rate": 2.162962962962963e-05,
"loss": 0.6702,
"step": 6875
},
{
"epoch": 1.8399999999999999,
"grad_norm": 10.113656997680664,
"learning_rate": 2.1506172839506176e-05,
"loss": 0.7777,
"step": 6900
},
{
"epoch": 1.8466666666666667,
"grad_norm": 7.745372295379639,
"learning_rate": 2.1382716049382717e-05,
"loss": 0.7539,
"step": 6925
},
{
"epoch": 1.8533333333333335,
"grad_norm": 7.907397747039795,
"learning_rate": 2.1259259259259258e-05,
"loss": 0.7244,
"step": 6950
},
{
"epoch": 1.8599999999999999,
"grad_norm": 11.474489212036133,
"learning_rate": 2.1135802469135805e-05,
"loss": 0.7925,
"step": 6975
},
{
"epoch": 1.8666666666666667,
"grad_norm": 11.150900840759277,
"learning_rate": 2.1012345679012346e-05,
"loss": 0.5607,
"step": 7000
},
{
"epoch": 1.8733333333333333,
"grad_norm": 17.480403900146484,
"learning_rate": 2.088888888888889e-05,
"loss": 0.8783,
"step": 7025
},
{
"epoch": 1.88,
"grad_norm": 10.300092697143555,
"learning_rate": 2.0765432098765434e-05,
"loss": 0.8025,
"step": 7050
},
{
"epoch": 1.8866666666666667,
"grad_norm": 3.967689275741577,
"learning_rate": 2.0641975308641975e-05,
"loss": 0.7898,
"step": 7075
},
{
"epoch": 1.8933333333333333,
"grad_norm": 8.212587356567383,
"learning_rate": 2.051851851851852e-05,
"loss": 0.6461,
"step": 7100
},
{
"epoch": 1.9,
"grad_norm": 13.606761932373047,
"learning_rate": 2.0395061728395064e-05,
"loss": 0.651,
"step": 7125
},
{
"epoch": 1.9066666666666667,
"grad_norm": 7.908700942993164,
"learning_rate": 2.0271604938271608e-05,
"loss": 0.6489,
"step": 7150
},
{
"epoch": 1.9133333333333333,
"grad_norm": 11.340200424194336,
"learning_rate": 2.014814814814815e-05,
"loss": 0.7675,
"step": 7175
},
{
"epoch": 1.92,
"grad_norm": 5.6627373695373535,
"learning_rate": 2.0024691358024693e-05,
"loss": 0.6732,
"step": 7200
},
{
"epoch": 1.9266666666666667,
"grad_norm": 21.99058723449707,
"learning_rate": 1.9901234567901237e-05,
"loss": 0.7135,
"step": 7225
},
{
"epoch": 1.9333333333333333,
"grad_norm": 17.246597290039062,
"learning_rate": 1.9777777777777778e-05,
"loss": 0.7077,
"step": 7250
},
{
"epoch": 1.94,
"grad_norm": 6.322951316833496,
"learning_rate": 1.9654320987654322e-05,
"loss": 0.6163,
"step": 7275
},
{
"epoch": 1.9466666666666668,
"grad_norm": 5.832266807556152,
"learning_rate": 1.9530864197530866e-05,
"loss": 0.642,
"step": 7300
},
{
"epoch": 1.9533333333333334,
"grad_norm": 5.883837699890137,
"learning_rate": 1.9407407407407407e-05,
"loss": 0.6955,
"step": 7325
},
{
"epoch": 1.96,
"grad_norm": 12.114556312561035,
"learning_rate": 1.928395061728395e-05,
"loss": 0.772,
"step": 7350
},
{
"epoch": 1.9666666666666668,
"grad_norm": 4.3004350662231445,
"learning_rate": 1.9160493827160495e-05,
"loss": 0.7316,
"step": 7375
},
{
"epoch": 1.9733333333333334,
"grad_norm": 8.095020294189453,
"learning_rate": 1.903703703703704e-05,
"loss": 0.623,
"step": 7400
},
{
"epoch": 1.98,
"grad_norm": 10.078492164611816,
"learning_rate": 1.891358024691358e-05,
"loss": 0.8212,
"step": 7425
},
{
"epoch": 1.9866666666666668,
"grad_norm": 6.047307968139648,
"learning_rate": 1.8790123456790124e-05,
"loss": 0.6209,
"step": 7450
},
{
"epoch": 1.9933333333333332,
"grad_norm": 2.696333885192871,
"learning_rate": 1.866666666666667e-05,
"loss": 0.7312,
"step": 7475
},
{
"epoch": 2.0,
"grad_norm": 2.4287543296813965,
"learning_rate": 1.854320987654321e-05,
"loss": 0.6442,
"step": 7500
},
{
"epoch": 2.0,
"eval_accuracy": 0.7258333333333333,
"eval_f1_macro": 0.6405635167768103,
"eval_f1_micro": 0.7258333333333333,
"eval_f1_weighted": 0.7031763861072888,
"eval_loss": 0.8434039950370789,
"eval_precision_macro": 0.6510401126834049,
"eval_precision_micro": 0.7258333333333333,
"eval_precision_weighted": 0.6973286083232175,
"eval_recall_macro": 0.6512228541854506,
"eval_recall_micro": 0.7258333333333333,
"eval_recall_weighted": 0.7258333333333333,
"eval_runtime": 17.4744,
"eval_samples_per_second": 343.359,
"eval_steps_per_second": 21.46,
"step": 7500
}
],
"logging_steps": 25,
"max_steps": 11250,
"num_input_tokens_seen": 0,
"num_train_epochs": 3,
"save_steps": 500,
"stateful_callbacks": {
"EarlyStoppingCallback": {
"args": {
"early_stopping_patience": 5,
"early_stopping_threshold": 0.01
},
"attributes": {
"early_stopping_patience_counter": 0
}
},
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 1987294464000000.0,
"train_batch_size": 8,
"trial_name": null,
"trial_params": null
}