{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.7380952380952381, "eval_steps": 500, "global_step": 15500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0002380952380952381, "grad_norm": 0.5418806672096252, "learning_rate": 1.3998e-05, "loss": 2.6679, "step": 5 }, { "epoch": 0.0004761904761904762, "grad_norm": 0.5729907751083374, "learning_rate": 1.3994666666666667e-05, "loss": 2.5843, "step": 10 }, { "epoch": 0.0007142857142857143, "grad_norm": 0.8301985263824463, "learning_rate": 1.3991333333333333e-05, "loss": 2.534, "step": 15 }, { "epoch": 0.0009523809523809524, "grad_norm": 0.8478957414627075, "learning_rate": 1.3987999999999999e-05, "loss": 2.4808, "step": 20 }, { "epoch": 0.0011904761904761906, "grad_norm": 0.4079281985759735, "learning_rate": 1.3984666666666665e-05, "loss": 2.4013, "step": 25 }, { "epoch": 0.0014285714285714286, "grad_norm": 0.6148807406425476, "learning_rate": 1.3981333333333333e-05, "loss": 2.2397, "step": 30 }, { "epoch": 0.0016666666666666668, "grad_norm": 0.51121985912323, "learning_rate": 1.3978e-05, "loss": 2.1615, "step": 35 }, { "epoch": 0.0019047619047619048, "grad_norm": 0.8051068186759949, "learning_rate": 1.3974666666666667e-05, "loss": 2.0435, "step": 40 }, { "epoch": 0.002142857142857143, "grad_norm": 0.5660006403923035, "learning_rate": 1.3971333333333333e-05, "loss": 1.9717, "step": 45 }, { "epoch": 0.002380952380952381, "grad_norm": 0.6080913543701172, "learning_rate": 1.3967999999999999e-05, "loss": 1.7797, "step": 50 }, { "epoch": 0.002619047619047619, "grad_norm": 0.9816741347312927, "learning_rate": 1.3964666666666667e-05, "loss": 1.5754, "step": 55 }, { "epoch": 0.002857142857142857, "grad_norm": 0.8536852598190308, "learning_rate": 1.3961333333333333e-05, "loss": 1.4577, "step": 60 }, { "epoch": 0.0030952380952380953, "grad_norm": 1.430161952972412, "learning_rate": 1.3958e-05, "loss": 1.2396, "step": 65 }, { "epoch": 0.0033333333333333335, "grad_norm": 0.7285650372505188, "learning_rate": 1.3955333333333333e-05, "loss": 1.1466, "step": 70 }, { "epoch": 0.0035714285714285713, "grad_norm": 0.7298490405082703, "learning_rate": 1.3952e-05, "loss": 1.0222, "step": 75 }, { "epoch": 0.0038095238095238095, "grad_norm": 0.4291577935218811, "learning_rate": 1.3948666666666666e-05, "loss": 0.9251, "step": 80 }, { "epoch": 0.004047619047619047, "grad_norm": 0.8474152684211731, "learning_rate": 1.3945333333333334e-05, "loss": 0.8599, "step": 85 }, { "epoch": 0.004285714285714286, "grad_norm": 2.0495283603668213, "learning_rate": 1.3942e-05, "loss": 0.7404, "step": 90 }, { "epoch": 0.004523809523809524, "grad_norm": 0.7055326104164124, "learning_rate": 1.3938666666666666e-05, "loss": 0.7568, "step": 95 }, { "epoch": 0.004761904761904762, "grad_norm": 0.46529391407966614, "learning_rate": 1.3935333333333334e-05, "loss": 0.7273, "step": 100 }, { "epoch": 0.005, "grad_norm": 0.4448589086532593, "learning_rate": 1.3932e-05, "loss": 0.6883, "step": 105 }, { "epoch": 0.005238095238095238, "grad_norm": 0.42825961112976074, "learning_rate": 1.3928666666666668e-05, "loss": 0.6481, "step": 110 }, { "epoch": 0.0054761904761904765, "grad_norm": 0.3722169101238251, "learning_rate": 1.3925333333333334e-05, "loss": 0.5444, "step": 115 }, { "epoch": 0.005714285714285714, "grad_norm": 0.4072805345058441, "learning_rate": 1.3922e-05, "loss": 0.5895, "step": 120 }, { "epoch": 0.005952380952380952, "grad_norm": 0.3541017174720764, "learning_rate": 1.3918666666666666e-05, "loss": 0.565, "step": 125 }, { "epoch": 0.006190476190476191, "grad_norm": 0.7696482539176941, "learning_rate": 1.3915333333333332e-05, "loss": 0.5026, "step": 130 }, { "epoch": 0.0064285714285714285, "grad_norm": 0.395879328250885, "learning_rate": 1.3911999999999998e-05, "loss": 0.5199, "step": 135 }, { "epoch": 0.006666666666666667, "grad_norm": 0.6111021041870117, "learning_rate": 1.3908666666666668e-05, "loss": 0.5165, "step": 140 }, { "epoch": 0.006904761904761905, "grad_norm": 0.6776748299598694, "learning_rate": 1.3905333333333334e-05, "loss": 0.5089, "step": 145 }, { "epoch": 0.007142857142857143, "grad_norm": 1.148079514503479, "learning_rate": 1.3902e-05, "loss": 0.3997, "step": 150 }, { "epoch": 0.007380952380952381, "grad_norm": 0.5481013059616089, "learning_rate": 1.3898666666666666e-05, "loss": 0.4797, "step": 155 }, { "epoch": 0.007619047619047619, "grad_norm": 0.6169488430023193, "learning_rate": 1.3895333333333332e-05, "loss": 0.4268, "step": 160 }, { "epoch": 0.007857142857142858, "grad_norm": 0.4820985794067383, "learning_rate": 1.3892e-05, "loss": 0.4239, "step": 165 }, { "epoch": 0.008095238095238095, "grad_norm": 0.375750333070755, "learning_rate": 1.3888666666666666e-05, "loss": 0.3912, "step": 170 }, { "epoch": 0.008333333333333333, "grad_norm": 0.43330422043800354, "learning_rate": 1.3885333333333332e-05, "loss": 0.441, "step": 175 }, { "epoch": 0.008571428571428572, "grad_norm": 0.3296235501766205, "learning_rate": 1.3882e-05, "loss": 0.4555, "step": 180 }, { "epoch": 0.008809523809523809, "grad_norm": 0.5179806351661682, "learning_rate": 1.3878666666666666e-05, "loss": 0.4056, "step": 185 }, { "epoch": 0.009047619047619047, "grad_norm": 0.3583040237426758, "learning_rate": 1.3875333333333334e-05, "loss": 0.3391, "step": 190 }, { "epoch": 0.009285714285714286, "grad_norm": 0.4925946295261383, "learning_rate": 1.3872e-05, "loss": 0.371, "step": 195 }, { "epoch": 0.009523809523809525, "grad_norm": 0.3429538309574127, "learning_rate": 1.3868666666666666e-05, "loss": 0.4106, "step": 200 }, { "epoch": 0.009761904761904762, "grad_norm": 0.3441179692745209, "learning_rate": 1.3865333333333333e-05, "loss": 0.3559, "step": 205 }, { "epoch": 0.01, "grad_norm": 0.4563043713569641, "learning_rate": 1.3861999999999999e-05, "loss": 0.3461, "step": 210 }, { "epoch": 0.010238095238095239, "grad_norm": 0.29633814096450806, "learning_rate": 1.3858666666666667e-05, "loss": 0.3668, "step": 215 }, { "epoch": 0.010476190476190476, "grad_norm": 0.31543877720832825, "learning_rate": 1.3855333333333333e-05, "loss": 0.3644, "step": 220 }, { "epoch": 0.010714285714285714, "grad_norm": 0.3335791230201721, "learning_rate": 1.3852e-05, "loss": 0.3618, "step": 225 }, { "epoch": 0.010952380952380953, "grad_norm": 0.4008798897266388, "learning_rate": 1.3848666666666667e-05, "loss": 0.3802, "step": 230 }, { "epoch": 0.01119047619047619, "grad_norm": 0.33926379680633545, "learning_rate": 1.3845333333333333e-05, "loss": 0.3329, "step": 235 }, { "epoch": 0.011428571428571429, "grad_norm": 0.8170040249824524, "learning_rate": 1.3842e-05, "loss": 0.3297, "step": 240 }, { "epoch": 0.011666666666666667, "grad_norm": 0.3227958381175995, "learning_rate": 1.3838666666666667e-05, "loss": 0.3251, "step": 245 }, { "epoch": 0.011904761904761904, "grad_norm": 0.43039801716804504, "learning_rate": 1.3835333333333333e-05, "loss": 0.366, "step": 250 }, { "epoch": 0.012142857142857143, "grad_norm": 0.27458277344703674, "learning_rate": 1.3831999999999999e-05, "loss": 0.3639, "step": 255 }, { "epoch": 0.012380952380952381, "grad_norm": 0.37724798917770386, "learning_rate": 1.3828666666666667e-05, "loss": 0.3735, "step": 260 }, { "epoch": 0.012619047619047618, "grad_norm": 0.37389546632766724, "learning_rate": 1.3825333333333333e-05, "loss": 0.3438, "step": 265 }, { "epoch": 0.012857142857142857, "grad_norm": 0.4028576910495758, "learning_rate": 1.3822e-05, "loss": 0.3664, "step": 270 }, { "epoch": 0.013095238095238096, "grad_norm": 0.4004862606525421, "learning_rate": 1.3818666666666667e-05, "loss": 0.3425, "step": 275 }, { "epoch": 0.013333333333333334, "grad_norm": 0.5626092553138733, "learning_rate": 1.3815333333333333e-05, "loss": 0.3366, "step": 280 }, { "epoch": 0.013571428571428571, "grad_norm": 0.48807039856910706, "learning_rate": 1.3812e-05, "loss": 0.3309, "step": 285 }, { "epoch": 0.01380952380952381, "grad_norm": 0.45411694049835205, "learning_rate": 1.3808666666666665e-05, "loss": 0.3978, "step": 290 }, { "epoch": 0.014047619047619048, "grad_norm": 0.43518656492233276, "learning_rate": 1.3805333333333333e-05, "loss": 0.3138, "step": 295 }, { "epoch": 0.014285714285714285, "grad_norm": 0.5212400555610657, "learning_rate": 1.3802e-05, "loss": 0.2895, "step": 300 }, { "epoch": 0.014523809523809524, "grad_norm": 0.6263622045516968, "learning_rate": 1.3798666666666667e-05, "loss": 0.3731, "step": 305 }, { "epoch": 0.014761904761904763, "grad_norm": 0.36643466353416443, "learning_rate": 1.3795333333333333e-05, "loss": 0.3303, "step": 310 }, { "epoch": 0.015, "grad_norm": 1.029915452003479, "learning_rate": 1.3792e-05, "loss": 0.3331, "step": 315 }, { "epoch": 0.015238095238095238, "grad_norm": 0.393464595079422, "learning_rate": 1.3788666666666667e-05, "loss": 0.3483, "step": 320 }, { "epoch": 0.015476190476190477, "grad_norm": 0.3434281051158905, "learning_rate": 1.3785333333333333e-05, "loss": 0.3368, "step": 325 }, { "epoch": 0.015714285714285715, "grad_norm": 0.5683566331863403, "learning_rate": 1.3782e-05, "loss": 0.3562, "step": 330 }, { "epoch": 0.015952380952380954, "grad_norm": 0.7071425914764404, "learning_rate": 1.3778666666666666e-05, "loss": 0.3338, "step": 335 }, { "epoch": 0.01619047619047619, "grad_norm": 0.4592662453651428, "learning_rate": 1.3775333333333332e-05, "loss": 0.3101, "step": 340 }, { "epoch": 0.016428571428571428, "grad_norm": 0.43207889795303345, "learning_rate": 1.3772000000000001e-05, "loss": 0.3615, "step": 345 }, { "epoch": 0.016666666666666666, "grad_norm": 0.5292606949806213, "learning_rate": 1.3768666666666667e-05, "loss": 0.3355, "step": 350 }, { "epoch": 0.016904761904761905, "grad_norm": 0.5762081146240234, "learning_rate": 1.3765333333333334e-05, "loss": 0.3036, "step": 355 }, { "epoch": 0.017142857142857144, "grad_norm": 0.3985830545425415, "learning_rate": 1.3762e-05, "loss": 0.3887, "step": 360 }, { "epoch": 0.017380952380952382, "grad_norm": 0.36297130584716797, "learning_rate": 1.3758666666666666e-05, "loss": 0.3316, "step": 365 }, { "epoch": 0.017619047619047618, "grad_norm": 0.6589656472206116, "learning_rate": 1.3755333333333334e-05, "loss": 0.2816, "step": 370 }, { "epoch": 0.017857142857142856, "grad_norm": 0.2859554588794708, "learning_rate": 1.3752e-05, "loss": 0.2901, "step": 375 }, { "epoch": 0.018095238095238095, "grad_norm": 0.7568986415863037, "learning_rate": 1.3748666666666666e-05, "loss": 0.3363, "step": 380 }, { "epoch": 0.018333333333333333, "grad_norm": 0.4307706654071808, "learning_rate": 1.3745333333333334e-05, "loss": 0.333, "step": 385 }, { "epoch": 0.018571428571428572, "grad_norm": 0.3334940969944, "learning_rate": 1.3742e-05, "loss": 0.2947, "step": 390 }, { "epoch": 0.01880952380952381, "grad_norm": 0.6456970572471619, "learning_rate": 1.3738666666666666e-05, "loss": 0.2739, "step": 395 }, { "epoch": 0.01904761904761905, "grad_norm": 2.724910020828247, "learning_rate": 1.3735333333333334e-05, "loss": 0.3439, "step": 400 }, { "epoch": 0.019285714285714285, "grad_norm": 0.4895347058773041, "learning_rate": 1.3732e-05, "loss": 0.351, "step": 405 }, { "epoch": 0.019523809523809523, "grad_norm": 0.43411287665367126, "learning_rate": 1.3728666666666666e-05, "loss": 0.3325, "step": 410 }, { "epoch": 0.019761904761904762, "grad_norm": 0.5748441219329834, "learning_rate": 1.3725333333333332e-05, "loss": 0.2716, "step": 415 }, { "epoch": 0.02, "grad_norm": 0.45714786648750305, "learning_rate": 1.3721999999999998e-05, "loss": 0.3464, "step": 420 }, { "epoch": 0.02023809523809524, "grad_norm": 0.3876011073589325, "learning_rate": 1.3718666666666666e-05, "loss": 0.3278, "step": 425 }, { "epoch": 0.020476190476190478, "grad_norm": 0.4399035573005676, "learning_rate": 1.3715333333333334e-05, "loss": 0.2895, "step": 430 }, { "epoch": 0.020714285714285713, "grad_norm": 0.5345683693885803, "learning_rate": 1.3712e-05, "loss": 0.2844, "step": 435 }, { "epoch": 0.02095238095238095, "grad_norm": 0.5479186177253723, "learning_rate": 1.3708666666666666e-05, "loss": 0.3145, "step": 440 }, { "epoch": 0.02119047619047619, "grad_norm": 0.41768816113471985, "learning_rate": 1.3705333333333332e-05, "loss": 0.2855, "step": 445 }, { "epoch": 0.02142857142857143, "grad_norm": 0.5080362558364868, "learning_rate": 1.3702e-05, "loss": 0.2964, "step": 450 }, { "epoch": 0.021666666666666667, "grad_norm": 0.3809126317501068, "learning_rate": 1.3698666666666666e-05, "loss": 0.3294, "step": 455 }, { "epoch": 0.021904761904761906, "grad_norm": 0.5313631296157837, "learning_rate": 1.3695333333333333e-05, "loss": 0.2848, "step": 460 }, { "epoch": 0.02214285714285714, "grad_norm": 0.35430672764778137, "learning_rate": 1.3692e-05, "loss": 0.3788, "step": 465 }, { "epoch": 0.02238095238095238, "grad_norm": 0.4594103991985321, "learning_rate": 1.3688666666666667e-05, "loss": 0.3411, "step": 470 }, { "epoch": 0.02261904761904762, "grad_norm": 0.37312817573547363, "learning_rate": 1.3685333333333334e-05, "loss": 0.3057, "step": 475 }, { "epoch": 0.022857142857142857, "grad_norm": 0.4437413215637207, "learning_rate": 1.3682e-05, "loss": 0.2977, "step": 480 }, { "epoch": 0.023095238095238096, "grad_norm": 0.43361344933509827, "learning_rate": 1.3678666666666667e-05, "loss": 0.2857, "step": 485 }, { "epoch": 0.023333333333333334, "grad_norm": 0.465774804353714, "learning_rate": 1.3675333333333333e-05, "loss": 0.3297, "step": 490 }, { "epoch": 0.023571428571428573, "grad_norm": 0.48461371660232544, "learning_rate": 1.3671999999999999e-05, "loss": 0.3045, "step": 495 }, { "epoch": 0.023809523809523808, "grad_norm": 0.42219078540802, "learning_rate": 1.3668666666666667e-05, "loss": 0.3401, "step": 500 }, { "epoch": 0.024047619047619047, "grad_norm": 0.41493189334869385, "learning_rate": 1.3666e-05, "loss": 0.3032, "step": 505 }, { "epoch": 0.024285714285714285, "grad_norm": 0.5407937169075012, "learning_rate": 1.3662666666666667e-05, "loss": 0.3568, "step": 510 }, { "epoch": 0.024523809523809524, "grad_norm": 0.5325848460197449, "learning_rate": 1.3659333333333333e-05, "loss": 0.3657, "step": 515 }, { "epoch": 0.024761904761904763, "grad_norm": 0.6108630895614624, "learning_rate": 1.3656e-05, "loss": 0.3207, "step": 520 }, { "epoch": 0.025, "grad_norm": 0.44066184759140015, "learning_rate": 1.3652666666666665e-05, "loss": 0.2908, "step": 525 }, { "epoch": 0.025238095238095237, "grad_norm": 0.4999812841415405, "learning_rate": 1.3649333333333332e-05, "loss": 0.3086, "step": 530 }, { "epoch": 0.025476190476190475, "grad_norm": 0.4734133183956146, "learning_rate": 1.3646000000000001e-05, "loss": 0.3098, "step": 535 }, { "epoch": 0.025714285714285714, "grad_norm": 0.4851597249507904, "learning_rate": 1.3642666666666667e-05, "loss": 0.2478, "step": 540 }, { "epoch": 0.025952380952380952, "grad_norm": 0.5650109052658081, "learning_rate": 1.3639333333333333e-05, "loss": 0.3383, "step": 545 }, { "epoch": 0.02619047619047619, "grad_norm": 0.5139351487159729, "learning_rate": 1.3636e-05, "loss": 0.299, "step": 550 }, { "epoch": 0.02642857142857143, "grad_norm": 0.6500063538551331, "learning_rate": 1.3632666666666666e-05, "loss": 0.2694, "step": 555 }, { "epoch": 0.02666666666666667, "grad_norm": 0.5432647466659546, "learning_rate": 1.3629333333333334e-05, "loss": 0.2618, "step": 560 }, { "epoch": 0.026904761904761904, "grad_norm": 0.5071791410446167, "learning_rate": 1.3626e-05, "loss": 0.2856, "step": 565 }, { "epoch": 0.027142857142857142, "grad_norm": 0.5312849283218384, "learning_rate": 1.3622666666666666e-05, "loss": 0.2577, "step": 570 }, { "epoch": 0.02738095238095238, "grad_norm": 0.6147565841674805, "learning_rate": 1.3619333333333334e-05, "loss": 0.292, "step": 575 }, { "epoch": 0.02761904761904762, "grad_norm": 0.42859718203544617, "learning_rate": 1.3616e-05, "loss": 0.2205, "step": 580 }, { "epoch": 0.027857142857142858, "grad_norm": 0.7037988305091858, "learning_rate": 1.3612666666666668e-05, "loss": 0.2899, "step": 585 }, { "epoch": 0.028095238095238097, "grad_norm": 0.34516391158103943, "learning_rate": 1.3609333333333334e-05, "loss": 0.2365, "step": 590 }, { "epoch": 0.028333333333333332, "grad_norm": 0.36984777450561523, "learning_rate": 1.3606e-05, "loss": 0.2716, "step": 595 }, { "epoch": 0.02857142857142857, "grad_norm": 0.5310551524162292, "learning_rate": 1.3602666666666666e-05, "loss": 0.2306, "step": 600 }, { "epoch": 0.02880952380952381, "grad_norm": 0.4436754882335663, "learning_rate": 1.3599333333333332e-05, "loss": 0.2836, "step": 605 }, { "epoch": 0.029047619047619048, "grad_norm": 0.4549061954021454, "learning_rate": 1.3596e-05, "loss": 0.2586, "step": 610 }, { "epoch": 0.029285714285714286, "grad_norm": 0.5441030859947205, "learning_rate": 1.3592666666666668e-05, "loss": 0.2604, "step": 615 }, { "epoch": 0.029523809523809525, "grad_norm": 0.43214282393455505, "learning_rate": 1.3589333333333334e-05, "loss": 0.2831, "step": 620 }, { "epoch": 0.02976190476190476, "grad_norm": 0.42905932664871216, "learning_rate": 1.3586e-05, "loss": 0.238, "step": 625 }, { "epoch": 0.03, "grad_norm": 0.5163068175315857, "learning_rate": 1.3582666666666666e-05, "loss": 0.3072, "step": 630 }, { "epoch": 0.030238095238095238, "grad_norm": 0.5123517513275146, "learning_rate": 1.3579333333333332e-05, "loss": 0.3523, "step": 635 }, { "epoch": 0.030476190476190476, "grad_norm": 0.6549582481384277, "learning_rate": 1.3576e-05, "loss": 0.2636, "step": 640 }, { "epoch": 0.030714285714285715, "grad_norm": 0.5893382430076599, "learning_rate": 1.3572666666666666e-05, "loss": 0.2491, "step": 645 }, { "epoch": 0.030952380952380953, "grad_norm": 0.5231866240501404, "learning_rate": 1.3569333333333332e-05, "loss": 0.2526, "step": 650 }, { "epoch": 0.031190476190476192, "grad_norm": 0.3623184561729431, "learning_rate": 1.3566e-05, "loss": 0.2662, "step": 655 }, { "epoch": 0.03142857142857143, "grad_norm": 0.4835608899593353, "learning_rate": 1.3562666666666666e-05, "loss": 0.2366, "step": 660 }, { "epoch": 0.03166666666666667, "grad_norm": 0.5328738689422607, "learning_rate": 1.3559333333333334e-05, "loss": 0.2404, "step": 665 }, { "epoch": 0.03190476190476191, "grad_norm": 0.41932788491249084, "learning_rate": 1.3556e-05, "loss": 0.224, "step": 670 }, { "epoch": 0.03214285714285714, "grad_norm": 0.48604676127433777, "learning_rate": 1.3552666666666666e-05, "loss": 0.2517, "step": 675 }, { "epoch": 0.03238095238095238, "grad_norm": 0.4403364658355713, "learning_rate": 1.3549333333333333e-05, "loss": 0.2615, "step": 680 }, { "epoch": 0.03261904761904762, "grad_norm": 0.47324901819229126, "learning_rate": 1.3545999999999999e-05, "loss": 0.3124, "step": 685 }, { "epoch": 0.032857142857142856, "grad_norm": 0.4377055764198303, "learning_rate": 1.3542666666666667e-05, "loss": 0.2942, "step": 690 }, { "epoch": 0.033095238095238094, "grad_norm": 0.4962905943393707, "learning_rate": 1.3539333333333333e-05, "loss": 0.2273, "step": 695 }, { "epoch": 0.03333333333333333, "grad_norm": 0.7021511793136597, "learning_rate": 1.3536e-05, "loss": 0.2685, "step": 700 }, { "epoch": 0.03357142857142857, "grad_norm": 0.4348268210887909, "learning_rate": 1.3532666666666667e-05, "loss": 0.3129, "step": 705 }, { "epoch": 0.03380952380952381, "grad_norm": 0.6129738092422485, "learning_rate": 1.3529333333333333e-05, "loss": 0.3099, "step": 710 }, { "epoch": 0.03404761904761905, "grad_norm": 0.7429826259613037, "learning_rate": 1.3526e-05, "loss": 0.2496, "step": 715 }, { "epoch": 0.03428571428571429, "grad_norm": 0.45431458950042725, "learning_rate": 1.3522666666666667e-05, "loss": 0.2719, "step": 720 }, { "epoch": 0.034523809523809526, "grad_norm": 0.5712839961051941, "learning_rate": 1.3519333333333333e-05, "loss": 0.2956, "step": 725 }, { "epoch": 0.034761904761904765, "grad_norm": 0.6436262726783752, "learning_rate": 1.3515999999999999e-05, "loss": 0.2793, "step": 730 }, { "epoch": 0.035, "grad_norm": 0.45844924449920654, "learning_rate": 1.3512666666666665e-05, "loss": 0.2544, "step": 735 }, { "epoch": 0.035238095238095235, "grad_norm": 0.49966612458229065, "learning_rate": 1.3509333333333335e-05, "loss": 0.2534, "step": 740 }, { "epoch": 0.035476190476190474, "grad_norm": 0.5353069305419922, "learning_rate": 1.3506e-05, "loss": 0.2354, "step": 745 }, { "epoch": 0.03571428571428571, "grad_norm": 0.5426719784736633, "learning_rate": 1.3502666666666667e-05, "loss": 0.2899, "step": 750 }, { "epoch": 0.03595238095238095, "grad_norm": 0.5689988136291504, "learning_rate": 1.3499333333333333e-05, "loss": 0.272, "step": 755 }, { "epoch": 0.03619047619047619, "grad_norm": 0.5402187705039978, "learning_rate": 1.3496e-05, "loss": 0.3221, "step": 760 }, { "epoch": 0.03642857142857143, "grad_norm": 0.5060203075408936, "learning_rate": 1.3492666666666665e-05, "loss": 0.2565, "step": 765 }, { "epoch": 0.03666666666666667, "grad_norm": 0.44753754138946533, "learning_rate": 1.3489333333333333e-05, "loss": 0.2884, "step": 770 }, { "epoch": 0.036904761904761905, "grad_norm": 0.5169976949691772, "learning_rate": 1.3486e-05, "loss": 0.2594, "step": 775 }, { "epoch": 0.037142857142857144, "grad_norm": 0.3874763548374176, "learning_rate": 1.3482666666666667e-05, "loss": 0.2654, "step": 780 }, { "epoch": 0.03738095238095238, "grad_norm": 0.48708873987197876, "learning_rate": 1.3479333333333333e-05, "loss": 0.2331, "step": 785 }, { "epoch": 0.03761904761904762, "grad_norm": 0.5593304634094238, "learning_rate": 1.3476e-05, "loss": 0.2898, "step": 790 }, { "epoch": 0.03785714285714286, "grad_norm": 0.609858512878418, "learning_rate": 1.3472666666666667e-05, "loss": 0.2338, "step": 795 }, { "epoch": 0.0380952380952381, "grad_norm": 0.517355740070343, "learning_rate": 1.3469333333333333e-05, "loss": 0.266, "step": 800 }, { "epoch": 0.03833333333333333, "grad_norm": 0.5774282217025757, "learning_rate": 1.3466e-05, "loss": 0.2413, "step": 805 }, { "epoch": 0.03857142857142857, "grad_norm": 0.45769786834716797, "learning_rate": 1.3462666666666666e-05, "loss": 0.269, "step": 810 }, { "epoch": 0.03880952380952381, "grad_norm": 0.6047679781913757, "learning_rate": 1.3459333333333332e-05, "loss": 0.293, "step": 815 }, { "epoch": 0.039047619047619046, "grad_norm": 0.48475348949432373, "learning_rate": 1.3456000000000001e-05, "loss": 0.3087, "step": 820 }, { "epoch": 0.039285714285714285, "grad_norm": 0.5441370606422424, "learning_rate": 1.3452666666666667e-05, "loss": 0.2534, "step": 825 }, { "epoch": 0.039523809523809524, "grad_norm": 0.49621278047561646, "learning_rate": 1.3449333333333334e-05, "loss": 0.2158, "step": 830 }, { "epoch": 0.03976190476190476, "grad_norm": 0.5508203506469727, "learning_rate": 1.3446e-05, "loss": 0.2709, "step": 835 }, { "epoch": 0.04, "grad_norm": 0.4839685261249542, "learning_rate": 1.3442666666666666e-05, "loss": 0.2113, "step": 840 }, { "epoch": 0.04023809523809524, "grad_norm": 0.5372717976570129, "learning_rate": 1.3439333333333334e-05, "loss": 0.2682, "step": 845 }, { "epoch": 0.04047619047619048, "grad_norm": 0.4852888584136963, "learning_rate": 1.3436e-05, "loss": 0.2728, "step": 850 }, { "epoch": 0.04071428571428572, "grad_norm": 0.5064566135406494, "learning_rate": 1.3432666666666666e-05, "loss": 0.2666, "step": 855 }, { "epoch": 0.040952380952380955, "grad_norm": 0.6546383500099182, "learning_rate": 1.3429333333333334e-05, "loss": 0.2895, "step": 860 }, { "epoch": 0.04119047619047619, "grad_norm": 0.4229618012905121, "learning_rate": 1.3426e-05, "loss": 0.2762, "step": 865 }, { "epoch": 0.041428571428571426, "grad_norm": 0.43430855870246887, "learning_rate": 1.3422666666666668e-05, "loss": 0.2592, "step": 870 }, { "epoch": 0.041666666666666664, "grad_norm": 0.4377192556858063, "learning_rate": 1.3419333333333334e-05, "loss": 0.2363, "step": 875 }, { "epoch": 0.0419047619047619, "grad_norm": 0.48928672075271606, "learning_rate": 1.3416e-05, "loss": 0.281, "step": 880 }, { "epoch": 0.04214285714285714, "grad_norm": 0.47716376185417175, "learning_rate": 1.3412666666666666e-05, "loss": 0.2536, "step": 885 }, { "epoch": 0.04238095238095238, "grad_norm": 0.6105367541313171, "learning_rate": 1.3409333333333332e-05, "loss": 0.2734, "step": 890 }, { "epoch": 0.04261904761904762, "grad_norm": 0.43673357367515564, "learning_rate": 1.3405999999999998e-05, "loss": 0.2936, "step": 895 }, { "epoch": 0.04285714285714286, "grad_norm": 0.4914747476577759, "learning_rate": 1.3402666666666666e-05, "loss": 0.2632, "step": 900 }, { "epoch": 0.043095238095238096, "grad_norm": 0.5734125375747681, "learning_rate": 1.3399333333333334e-05, "loss": 0.2517, "step": 905 }, { "epoch": 0.043333333333333335, "grad_norm": 0.44425368309020996, "learning_rate": 1.3396e-05, "loss": 0.218, "step": 910 }, { "epoch": 0.04357142857142857, "grad_norm": 0.5673801302909851, "learning_rate": 1.3392666666666666e-05, "loss": 0.2933, "step": 915 }, { "epoch": 0.04380952380952381, "grad_norm": 0.4755652844905853, "learning_rate": 1.3389333333333332e-05, "loss": 0.2863, "step": 920 }, { "epoch": 0.04404761904761905, "grad_norm": 0.588969349861145, "learning_rate": 1.3386e-05, "loss": 0.3003, "step": 925 }, { "epoch": 0.04428571428571428, "grad_norm": 0.3917126953601837, "learning_rate": 1.3382666666666666e-05, "loss": 0.2038, "step": 930 }, { "epoch": 0.04452380952380952, "grad_norm": 0.4436452090740204, "learning_rate": 1.3379333333333333e-05, "loss": 0.2673, "step": 935 }, { "epoch": 0.04476190476190476, "grad_norm": 0.4814969301223755, "learning_rate": 1.3375999999999999e-05, "loss": 0.2034, "step": 940 }, { "epoch": 0.045, "grad_norm": 0.5218740701675415, "learning_rate": 1.3372666666666666e-05, "loss": 0.2906, "step": 945 }, { "epoch": 0.04523809523809524, "grad_norm": 0.48565489053726196, "learning_rate": 1.3369333333333334e-05, "loss": 0.2195, "step": 950 }, { "epoch": 0.045476190476190476, "grad_norm": 0.5889430046081543, "learning_rate": 1.3366e-05, "loss": 0.311, "step": 955 }, { "epoch": 0.045714285714285714, "grad_norm": 0.522654116153717, "learning_rate": 1.3362666666666667e-05, "loss": 0.2776, "step": 960 }, { "epoch": 0.04595238095238095, "grad_norm": 0.541875422000885, "learning_rate": 1.3359333333333333e-05, "loss": 0.3024, "step": 965 }, { "epoch": 0.04619047619047619, "grad_norm": 0.5034837126731873, "learning_rate": 1.3355999999999999e-05, "loss": 0.2528, "step": 970 }, { "epoch": 0.04642857142857143, "grad_norm": 0.5109259486198425, "learning_rate": 1.3352666666666667e-05, "loss": 0.2498, "step": 975 }, { "epoch": 0.04666666666666667, "grad_norm": 0.5221478939056396, "learning_rate": 1.3349333333333333e-05, "loss": 0.2646, "step": 980 }, { "epoch": 0.04690476190476191, "grad_norm": 0.5704149007797241, "learning_rate": 1.3346e-05, "loss": 0.26, "step": 985 }, { "epoch": 0.047142857142857146, "grad_norm": 0.5009466409683228, "learning_rate": 1.3342666666666667e-05, "loss": 0.2443, "step": 990 }, { "epoch": 0.04738095238095238, "grad_norm": 0.49168092012405396, "learning_rate": 1.3339333333333333e-05, "loss": 0.2585, "step": 995 }, { "epoch": 0.047619047619047616, "grad_norm": 0.5071640610694885, "learning_rate": 1.3336e-05, "loss": 0.3157, "step": 1000 }, { "epoch": 0.047857142857142855, "grad_norm": 0.6721551418304443, "learning_rate": 1.3332666666666667e-05, "loss": 0.2966, "step": 1005 }, { "epoch": 0.048095238095238094, "grad_norm": 0.6080102324485779, "learning_rate": 1.3329333333333333e-05, "loss": 0.2467, "step": 1010 }, { "epoch": 0.04833333333333333, "grad_norm": 0.5440144538879395, "learning_rate": 1.3325999999999999e-05, "loss": 0.2579, "step": 1015 }, { "epoch": 0.04857142857142857, "grad_norm": 0.675901472568512, "learning_rate": 1.3322666666666665e-05, "loss": 0.2362, "step": 1020 }, { "epoch": 0.04880952380952381, "grad_norm": 0.4375922679901123, "learning_rate": 1.3319333333333333e-05, "loss": 0.2871, "step": 1025 }, { "epoch": 0.04904761904761905, "grad_norm": 0.5562122464179993, "learning_rate": 1.3316000000000001e-05, "loss": 0.2254, "step": 1030 }, { "epoch": 0.04928571428571429, "grad_norm": 0.47017717361450195, "learning_rate": 1.3312666666666667e-05, "loss": 0.3107, "step": 1035 }, { "epoch": 0.049523809523809526, "grad_norm": 0.608226478099823, "learning_rate": 1.3309333333333333e-05, "loss": 0.2984, "step": 1040 }, { "epoch": 0.049761904761904764, "grad_norm": 0.49468785524368286, "learning_rate": 1.3306e-05, "loss": 0.2388, "step": 1045 }, { "epoch": 0.05, "grad_norm": 0.4322931468486786, "learning_rate": 1.3302666666666665e-05, "loss": 0.1821, "step": 1050 }, { "epoch": 0.05023809523809524, "grad_norm": 0.5672056674957275, "learning_rate": 1.3299333333333333e-05, "loss": 0.2764, "step": 1055 }, { "epoch": 0.05047619047619047, "grad_norm": 0.48075416684150696, "learning_rate": 1.3296e-05, "loss": 0.2348, "step": 1060 }, { "epoch": 0.05071428571428571, "grad_norm": 0.5161353349685669, "learning_rate": 1.3292666666666667e-05, "loss": 0.2288, "step": 1065 }, { "epoch": 0.05095238095238095, "grad_norm": 0.6457967758178711, "learning_rate": 1.3289333333333333e-05, "loss": 0.2649, "step": 1070 }, { "epoch": 0.05119047619047619, "grad_norm": 0.5028607845306396, "learning_rate": 1.3286e-05, "loss": 0.2122, "step": 1075 }, { "epoch": 0.05142857142857143, "grad_norm": 0.525983452796936, "learning_rate": 1.3282666666666667e-05, "loss": 0.2835, "step": 1080 }, { "epoch": 0.051666666666666666, "grad_norm": 0.6652593016624451, "learning_rate": 1.3279333333333333e-05, "loss": 0.2879, "step": 1085 }, { "epoch": 0.051904761904761905, "grad_norm": 0.4904541075229645, "learning_rate": 1.3276e-05, "loss": 0.2565, "step": 1090 }, { "epoch": 0.052142857142857144, "grad_norm": 0.45307978987693787, "learning_rate": 1.3272666666666666e-05, "loss": 0.27, "step": 1095 }, { "epoch": 0.05238095238095238, "grad_norm": 0.599582314491272, "learning_rate": 1.3269333333333332e-05, "loss": 0.2742, "step": 1100 }, { "epoch": 0.05261904761904762, "grad_norm": 0.5003748536109924, "learning_rate": 1.3266e-05, "loss": 0.2205, "step": 1105 }, { "epoch": 0.05285714285714286, "grad_norm": 0.5796501040458679, "learning_rate": 1.3262666666666668e-05, "loss": 0.2306, "step": 1110 }, { "epoch": 0.0530952380952381, "grad_norm": 0.5623518824577332, "learning_rate": 1.3259333333333334e-05, "loss": 0.2377, "step": 1115 }, { "epoch": 0.05333333333333334, "grad_norm": 0.614302933216095, "learning_rate": 1.3256e-05, "loss": 0.2366, "step": 1120 }, { "epoch": 0.05357142857142857, "grad_norm": 0.5044697523117065, "learning_rate": 1.3252666666666666e-05, "loss": 0.2542, "step": 1125 }, { "epoch": 0.05380952380952381, "grad_norm": 0.4365558922290802, "learning_rate": 1.3249333333333334e-05, "loss": 0.2056, "step": 1130 }, { "epoch": 0.054047619047619046, "grad_norm": 0.5019183158874512, "learning_rate": 1.3246e-05, "loss": 0.2166, "step": 1135 }, { "epoch": 0.054285714285714284, "grad_norm": 0.5911436676979065, "learning_rate": 1.3242666666666666e-05, "loss": 0.2484, "step": 1140 }, { "epoch": 0.05452380952380952, "grad_norm": 0.5708777904510498, "learning_rate": 1.3239333333333332e-05, "loss": 0.2358, "step": 1145 }, { "epoch": 0.05476190476190476, "grad_norm": 0.48554736375808716, "learning_rate": 1.3236e-05, "loss": 0.3, "step": 1150 }, { "epoch": 0.055, "grad_norm": 0.5569884181022644, "learning_rate": 1.3232666666666666e-05, "loss": 0.2473, "step": 1155 }, { "epoch": 0.05523809523809524, "grad_norm": 0.4887218475341797, "learning_rate": 1.3229333333333334e-05, "loss": 0.2638, "step": 1160 }, { "epoch": 0.05547619047619048, "grad_norm": 0.5009123682975769, "learning_rate": 1.3226e-05, "loss": 0.212, "step": 1165 }, { "epoch": 0.055714285714285716, "grad_norm": 0.4940604269504547, "learning_rate": 1.3222666666666666e-05, "loss": 0.2634, "step": 1170 }, { "epoch": 0.055952380952380955, "grad_norm": 0.510143518447876, "learning_rate": 1.3219333333333332e-05, "loss": 0.2985, "step": 1175 }, { "epoch": 0.05619047619047619, "grad_norm": 0.6177118420600891, "learning_rate": 1.3215999999999998e-05, "loss": 0.253, "step": 1180 }, { "epoch": 0.056428571428571425, "grad_norm": 0.4106503129005432, "learning_rate": 1.3212666666666666e-05, "loss": 0.2644, "step": 1185 }, { "epoch": 0.056666666666666664, "grad_norm": 0.48483163118362427, "learning_rate": 1.3209333333333334e-05, "loss": 0.2828, "step": 1190 }, { "epoch": 0.0569047619047619, "grad_norm": 0.5795014500617981, "learning_rate": 1.3206e-05, "loss": 0.214, "step": 1195 }, { "epoch": 0.05714285714285714, "grad_norm": 0.5351974964141846, "learning_rate": 1.3202666666666666e-05, "loss": 0.2635, "step": 1200 }, { "epoch": 0.05738095238095238, "grad_norm": 0.7449826002120972, "learning_rate": 1.3199333333333333e-05, "loss": 0.2646, "step": 1205 }, { "epoch": 0.05761904761904762, "grad_norm": 0.5249763131141663, "learning_rate": 1.3196e-05, "loss": 0.3, "step": 1210 }, { "epoch": 0.05785714285714286, "grad_norm": 0.5228811502456665, "learning_rate": 1.3192666666666667e-05, "loss": 0.2577, "step": 1215 }, { "epoch": 0.058095238095238096, "grad_norm": 0.5442659258842468, "learning_rate": 1.3189333333333333e-05, "loss": 0.2755, "step": 1220 }, { "epoch": 0.058333333333333334, "grad_norm": 0.41546645760536194, "learning_rate": 1.3185999999999999e-05, "loss": 0.2743, "step": 1225 }, { "epoch": 0.05857142857142857, "grad_norm": 1.0841095447540283, "learning_rate": 1.3182666666666667e-05, "loss": 0.22, "step": 1230 }, { "epoch": 0.05880952380952381, "grad_norm": 0.47904348373413086, "learning_rate": 1.3179333333333334e-05, "loss": 0.2353, "step": 1235 }, { "epoch": 0.05904761904761905, "grad_norm": 0.40106743574142456, "learning_rate": 1.3176e-05, "loss": 0.2224, "step": 1240 }, { "epoch": 0.05928571428571429, "grad_norm": 0.5983715653419495, "learning_rate": 1.3172666666666667e-05, "loss": 0.3266, "step": 1245 }, { "epoch": 0.05952380952380952, "grad_norm": 0.5019357800483704, "learning_rate": 1.3169333333333333e-05, "loss": 0.2968, "step": 1250 }, { "epoch": 0.05976190476190476, "grad_norm": 0.5832312107086182, "learning_rate": 1.3165999999999999e-05, "loss": 0.2653, "step": 1255 }, { "epoch": 0.06, "grad_norm": 0.4241350591182709, "learning_rate": 1.3162666666666667e-05, "loss": 0.2592, "step": 1260 }, { "epoch": 0.060238095238095236, "grad_norm": 0.41423743963241577, "learning_rate": 1.3159333333333333e-05, "loss": 0.2629, "step": 1265 }, { "epoch": 0.060476190476190475, "grad_norm": 0.504155695438385, "learning_rate": 1.3156e-05, "loss": 0.2735, "step": 1270 }, { "epoch": 0.060714285714285714, "grad_norm": 0.45074063539505005, "learning_rate": 1.3152666666666667e-05, "loss": 0.2353, "step": 1275 }, { "epoch": 0.06095238095238095, "grad_norm": 0.4768618047237396, "learning_rate": 1.3149333333333333e-05, "loss": 0.284, "step": 1280 }, { "epoch": 0.06119047619047619, "grad_norm": 0.567547082901001, "learning_rate": 1.3146e-05, "loss": 0.2476, "step": 1285 }, { "epoch": 0.06142857142857143, "grad_norm": 0.4544830918312073, "learning_rate": 1.3142666666666667e-05, "loss": 0.2311, "step": 1290 }, { "epoch": 0.06166666666666667, "grad_norm": 0.48950427770614624, "learning_rate": 1.3139333333333333e-05, "loss": 0.2305, "step": 1295 }, { "epoch": 0.06190476190476191, "grad_norm": 0.5869351625442505, "learning_rate": 1.3136e-05, "loss": 0.2417, "step": 1300 }, { "epoch": 0.062142857142857146, "grad_norm": 0.5026061534881592, "learning_rate": 1.3132666666666665e-05, "loss": 0.2645, "step": 1305 }, { "epoch": 0.062380952380952384, "grad_norm": 0.4846847653388977, "learning_rate": 1.3129333333333333e-05, "loss": 0.2275, "step": 1310 }, { "epoch": 0.06261904761904762, "grad_norm": 0.5045098662376404, "learning_rate": 1.3126000000000001e-05, "loss": 0.1992, "step": 1315 }, { "epoch": 0.06285714285714286, "grad_norm": 0.9398552179336548, "learning_rate": 1.3122666666666667e-05, "loss": 0.256, "step": 1320 }, { "epoch": 0.0630952380952381, "grad_norm": 0.5683354139328003, "learning_rate": 1.3119333333333333e-05, "loss": 0.2707, "step": 1325 }, { "epoch": 0.06333333333333334, "grad_norm": 0.4932781755924225, "learning_rate": 1.3116e-05, "loss": 0.2283, "step": 1330 }, { "epoch": 0.06357142857142857, "grad_norm": 0.6029185652732849, "learning_rate": 1.3112666666666666e-05, "loss": 0.2968, "step": 1335 }, { "epoch": 0.06380952380952382, "grad_norm": 0.5397886633872986, "learning_rate": 1.3109333333333333e-05, "loss": 0.2747, "step": 1340 }, { "epoch": 0.06404761904761905, "grad_norm": 0.3635915517807007, "learning_rate": 1.3106e-05, "loss": 0.211, "step": 1345 }, { "epoch": 0.06428571428571428, "grad_norm": 0.39256587624549866, "learning_rate": 1.3102666666666666e-05, "loss": 0.2405, "step": 1350 }, { "epoch": 0.06452380952380952, "grad_norm": 0.3794855773448944, "learning_rate": 1.3099333333333334e-05, "loss": 0.2409, "step": 1355 }, { "epoch": 0.06476190476190476, "grad_norm": 0.46692144870758057, "learning_rate": 1.3096e-05, "loss": 0.2489, "step": 1360 }, { "epoch": 0.065, "grad_norm": 0.401020884513855, "learning_rate": 1.3092666666666667e-05, "loss": 0.2631, "step": 1365 }, { "epoch": 0.06523809523809523, "grad_norm": 0.43587809801101685, "learning_rate": 1.3089333333333334e-05, "loss": 0.2516, "step": 1370 }, { "epoch": 0.06547619047619048, "grad_norm": 0.6262087225914001, "learning_rate": 1.3086e-05, "loss": 0.266, "step": 1375 }, { "epoch": 0.06571428571428571, "grad_norm": 0.3525580167770386, "learning_rate": 1.3082666666666666e-05, "loss": 0.2449, "step": 1380 }, { "epoch": 0.06595238095238096, "grad_norm": 0.4760078191757202, "learning_rate": 1.3079333333333332e-05, "loss": 0.2275, "step": 1385 }, { "epoch": 0.06619047619047619, "grad_norm": 0.4750852584838867, "learning_rate": 1.3076e-05, "loss": 0.2255, "step": 1390 }, { "epoch": 0.06642857142857143, "grad_norm": 0.48820391297340393, "learning_rate": 1.3072666666666668e-05, "loss": 0.3047, "step": 1395 }, { "epoch": 0.06666666666666667, "grad_norm": 0.49370092153549194, "learning_rate": 1.3069333333333334e-05, "loss": 0.2496, "step": 1400 }, { "epoch": 0.06690476190476191, "grad_norm": 0.5188600420951843, "learning_rate": 1.3066e-05, "loss": 0.2291, "step": 1405 }, { "epoch": 0.06714285714285714, "grad_norm": 0.527801513671875, "learning_rate": 1.3062666666666666e-05, "loss": 0.2826, "step": 1410 }, { "epoch": 0.06738095238095237, "grad_norm": 0.4435007572174072, "learning_rate": 1.3059333333333332e-05, "loss": 0.2164, "step": 1415 }, { "epoch": 0.06761904761904762, "grad_norm": 0.5492024421691895, "learning_rate": 1.3056e-05, "loss": 0.2258, "step": 1420 }, { "epoch": 0.06785714285714285, "grad_norm": 0.6053678393363953, "learning_rate": 1.3052666666666666e-05, "loss": 0.2923, "step": 1425 }, { "epoch": 0.0680952380952381, "grad_norm": 0.4295414984226227, "learning_rate": 1.3049333333333332e-05, "loss": 0.2418, "step": 1430 }, { "epoch": 0.06833333333333333, "grad_norm": 0.44102418422698975, "learning_rate": 1.3046e-05, "loss": 0.2129, "step": 1435 }, { "epoch": 0.06857142857142857, "grad_norm": 0.5513222217559814, "learning_rate": 1.3042666666666666e-05, "loss": 0.2944, "step": 1440 }, { "epoch": 0.0688095238095238, "grad_norm": 0.6277406811714172, "learning_rate": 1.3039333333333334e-05, "loss": 0.2837, "step": 1445 }, { "epoch": 0.06904761904761905, "grad_norm": 0.5340059995651245, "learning_rate": 1.3036e-05, "loss": 0.3116, "step": 1450 }, { "epoch": 0.06928571428571428, "grad_norm": 0.5007749199867249, "learning_rate": 1.3032666666666666e-05, "loss": 0.2616, "step": 1455 }, { "epoch": 0.06952380952380953, "grad_norm": 0.4600975215435028, "learning_rate": 1.3029333333333332e-05, "loss": 0.2777, "step": 1460 }, { "epoch": 0.06976190476190476, "grad_norm": 0.5604279041290283, "learning_rate": 1.3025999999999999e-05, "loss": 0.2668, "step": 1465 }, { "epoch": 0.07, "grad_norm": 0.46496132016181946, "learning_rate": 1.3022666666666666e-05, "loss": 0.235, "step": 1470 }, { "epoch": 0.07023809523809524, "grad_norm": 0.555149257183075, "learning_rate": 1.3019333333333334e-05, "loss": 0.2538, "step": 1475 }, { "epoch": 0.07047619047619047, "grad_norm": 0.3724914789199829, "learning_rate": 1.3016e-05, "loss": 0.1989, "step": 1480 }, { "epoch": 0.07071428571428572, "grad_norm": 0.5150611996650696, "learning_rate": 1.3012666666666667e-05, "loss": 0.2575, "step": 1485 }, { "epoch": 0.07095238095238095, "grad_norm": 0.4898937940597534, "learning_rate": 1.3009333333333333e-05, "loss": 0.267, "step": 1490 }, { "epoch": 0.07119047619047619, "grad_norm": 0.6988735198974609, "learning_rate": 1.3006e-05, "loss": 0.2455, "step": 1495 }, { "epoch": 0.07142857142857142, "grad_norm": 0.5467397570610046, "learning_rate": 1.3002666666666667e-05, "loss": 0.2207, "step": 1500 }, { "epoch": 0.07166666666666667, "grad_norm": 0.5092644095420837, "learning_rate": 1.2999333333333333e-05, "loss": 0.2503, "step": 1505 }, { "epoch": 0.0719047619047619, "grad_norm": 0.4817352890968323, "learning_rate": 1.2995999999999999e-05, "loss": 0.2379, "step": 1510 }, { "epoch": 0.07214285714285715, "grad_norm": 0.4989432394504547, "learning_rate": 1.2992666666666667e-05, "loss": 0.3087, "step": 1515 }, { "epoch": 0.07238095238095238, "grad_norm": 0.4990498423576355, "learning_rate": 1.2989333333333335e-05, "loss": 0.2639, "step": 1520 }, { "epoch": 0.07261904761904762, "grad_norm": 0.602060854434967, "learning_rate": 1.2986e-05, "loss": 0.26, "step": 1525 }, { "epoch": 0.07285714285714286, "grad_norm": 0.47795113921165466, "learning_rate": 1.2982666666666667e-05, "loss": 0.2118, "step": 1530 }, { "epoch": 0.0730952380952381, "grad_norm": 0.39547058939933777, "learning_rate": 1.2979333333333333e-05, "loss": 0.2017, "step": 1535 }, { "epoch": 0.07333333333333333, "grad_norm": 0.575979471206665, "learning_rate": 1.2975999999999999e-05, "loss": 0.2375, "step": 1540 }, { "epoch": 0.07357142857142857, "grad_norm": 0.5377815961837769, "learning_rate": 1.2972666666666665e-05, "loss": 0.2327, "step": 1545 }, { "epoch": 0.07380952380952381, "grad_norm": 0.47719913721084595, "learning_rate": 1.2969333333333333e-05, "loss": 0.2282, "step": 1550 }, { "epoch": 0.07404761904761904, "grad_norm": 0.5092869400978088, "learning_rate": 1.2966e-05, "loss": 0.2387, "step": 1555 }, { "epoch": 0.07428571428571429, "grad_norm": 0.4011041820049286, "learning_rate": 1.2962666666666667e-05, "loss": 0.2379, "step": 1560 }, { "epoch": 0.07452380952380952, "grad_norm": 0.6866647601127625, "learning_rate": 1.2959333333333333e-05, "loss": 0.2151, "step": 1565 }, { "epoch": 0.07476190476190477, "grad_norm": 0.4326445460319519, "learning_rate": 1.2956e-05, "loss": 0.2253, "step": 1570 }, { "epoch": 0.075, "grad_norm": 0.5185012221336365, "learning_rate": 1.2952666666666667e-05, "loss": 0.2513, "step": 1575 }, { "epoch": 0.07523809523809524, "grad_norm": 0.45133620500564575, "learning_rate": 1.2949333333333333e-05, "loss": 0.2126, "step": 1580 }, { "epoch": 0.07547619047619047, "grad_norm": 0.5923713445663452, "learning_rate": 1.2946e-05, "loss": 0.2719, "step": 1585 }, { "epoch": 0.07571428571428572, "grad_norm": 0.6384933590888977, "learning_rate": 1.2942666666666666e-05, "loss": 0.2313, "step": 1590 }, { "epoch": 0.07595238095238095, "grad_norm": 0.5592088103294373, "learning_rate": 1.2939333333333333e-05, "loss": 0.2748, "step": 1595 }, { "epoch": 0.0761904761904762, "grad_norm": 0.7256956100463867, "learning_rate": 1.2936000000000001e-05, "loss": 0.2452, "step": 1600 }, { "epoch": 0.07642857142857143, "grad_norm": 0.5190669298171997, "learning_rate": 1.2932666666666667e-05, "loss": 0.2438, "step": 1605 }, { "epoch": 0.07666666666666666, "grad_norm": 0.6631860733032227, "learning_rate": 1.2929333333333333e-05, "loss": 0.2762, "step": 1610 }, { "epoch": 0.0769047619047619, "grad_norm": 0.5230593085289001, "learning_rate": 1.2926e-05, "loss": 0.2627, "step": 1615 }, { "epoch": 0.07714285714285714, "grad_norm": 0.45184826850891113, "learning_rate": 1.2922666666666666e-05, "loss": 0.2723, "step": 1620 }, { "epoch": 0.07738095238095238, "grad_norm": 0.3887295126914978, "learning_rate": 1.2919333333333334e-05, "loss": 0.2423, "step": 1625 }, { "epoch": 0.07761904761904762, "grad_norm": 0.4856216609477997, "learning_rate": 1.2916e-05, "loss": 0.2283, "step": 1630 }, { "epoch": 0.07785714285714286, "grad_norm": 0.5836976766586304, "learning_rate": 1.2912666666666666e-05, "loss": 0.2938, "step": 1635 }, { "epoch": 0.07809523809523809, "grad_norm": 0.46715259552001953, "learning_rate": 1.2909333333333334e-05, "loss": 0.1938, "step": 1640 }, { "epoch": 0.07833333333333334, "grad_norm": 0.4924700856208801, "learning_rate": 1.2906e-05, "loss": 0.2514, "step": 1645 }, { "epoch": 0.07857142857142857, "grad_norm": 0.6076671481132507, "learning_rate": 1.2902666666666668e-05, "loss": 0.2719, "step": 1650 }, { "epoch": 0.07880952380952382, "grad_norm": 0.506691575050354, "learning_rate": 1.2899333333333334e-05, "loss": 0.2952, "step": 1655 }, { "epoch": 0.07904761904761905, "grad_norm": 0.6416760683059692, "learning_rate": 1.2896e-05, "loss": 0.2384, "step": 1660 }, { "epoch": 0.07928571428571428, "grad_norm": 0.5040133595466614, "learning_rate": 1.2892666666666666e-05, "loss": 0.2256, "step": 1665 }, { "epoch": 0.07952380952380952, "grad_norm": 0.4122084081172943, "learning_rate": 1.2889333333333332e-05, "loss": 0.2378, "step": 1670 }, { "epoch": 0.07976190476190476, "grad_norm": 0.47424954175949097, "learning_rate": 1.2885999999999998e-05, "loss": 0.2743, "step": 1675 }, { "epoch": 0.08, "grad_norm": 0.4372856020927429, "learning_rate": 1.2882666666666668e-05, "loss": 0.235, "step": 1680 }, { "epoch": 0.08023809523809523, "grad_norm": 0.5208950638771057, "learning_rate": 1.2879333333333334e-05, "loss": 0.2306, "step": 1685 }, { "epoch": 0.08047619047619048, "grad_norm": 0.5737290978431702, "learning_rate": 1.2876e-05, "loss": 0.2123, "step": 1690 }, { "epoch": 0.08071428571428571, "grad_norm": 0.49209755659103394, "learning_rate": 1.2872666666666666e-05, "loss": 0.2789, "step": 1695 }, { "epoch": 0.08095238095238096, "grad_norm": 0.504426121711731, "learning_rate": 1.2869333333333332e-05, "loss": 0.2563, "step": 1700 }, { "epoch": 0.08119047619047619, "grad_norm": 0.5722236633300781, "learning_rate": 1.2866e-05, "loss": 0.2676, "step": 1705 }, { "epoch": 0.08142857142857143, "grad_norm": 0.30592066049575806, "learning_rate": 1.2862666666666666e-05, "loss": 0.1958, "step": 1710 }, { "epoch": 0.08166666666666667, "grad_norm": 0.41977459192276, "learning_rate": 1.2859333333333332e-05, "loss": 0.2151, "step": 1715 }, { "epoch": 0.08190476190476191, "grad_norm": 0.7435903549194336, "learning_rate": 1.2856e-05, "loss": 0.2258, "step": 1720 }, { "epoch": 0.08214285714285714, "grad_norm": 0.5814324617385864, "learning_rate": 1.2852666666666666e-05, "loss": 0.28, "step": 1725 }, { "epoch": 0.08238095238095237, "grad_norm": 0.4144670367240906, "learning_rate": 1.2849333333333334e-05, "loss": 0.2427, "step": 1730 }, { "epoch": 0.08261904761904762, "grad_norm": 0.4747011065483093, "learning_rate": 1.2846e-05, "loss": 0.2584, "step": 1735 }, { "epoch": 0.08285714285714285, "grad_norm": 0.8438329696655273, "learning_rate": 1.2842666666666666e-05, "loss": 0.3038, "step": 1740 }, { "epoch": 0.0830952380952381, "grad_norm": 0.5367115139961243, "learning_rate": 1.2839333333333333e-05, "loss": 0.3102, "step": 1745 }, { "epoch": 0.08333333333333333, "grad_norm": 0.45534369349479675, "learning_rate": 1.2835999999999999e-05, "loss": 0.2618, "step": 1750 }, { "epoch": 0.08357142857142857, "grad_norm": 0.4137841463088989, "learning_rate": 1.2832666666666667e-05, "loss": 0.244, "step": 1755 }, { "epoch": 0.0838095238095238, "grad_norm": 0.4753327965736389, "learning_rate": 1.2829333333333333e-05, "loss": 0.2189, "step": 1760 }, { "epoch": 0.08404761904761905, "grad_norm": 0.5494414567947388, "learning_rate": 1.2826e-05, "loss": 0.2923, "step": 1765 }, { "epoch": 0.08428571428571428, "grad_norm": 0.5079023241996765, "learning_rate": 1.2822666666666667e-05, "loss": 0.2606, "step": 1770 }, { "epoch": 0.08452380952380953, "grad_norm": 0.4839867949485779, "learning_rate": 1.2819333333333333e-05, "loss": 0.2392, "step": 1775 }, { "epoch": 0.08476190476190476, "grad_norm": 0.5219858884811401, "learning_rate": 1.2816e-05, "loss": 0.2369, "step": 1780 }, { "epoch": 0.085, "grad_norm": 1.0358179807662964, "learning_rate": 1.2812666666666667e-05, "loss": 0.2638, "step": 1785 }, { "epoch": 0.08523809523809524, "grad_norm": 0.6615501642227173, "learning_rate": 1.2809333333333333e-05, "loss": 0.2232, "step": 1790 }, { "epoch": 0.08547619047619047, "grad_norm": 0.43772780895233154, "learning_rate": 1.2805999999999999e-05, "loss": 0.2545, "step": 1795 }, { "epoch": 0.08571428571428572, "grad_norm": 0.5148470401763916, "learning_rate": 1.2802666666666665e-05, "loss": 0.2626, "step": 1800 }, { "epoch": 0.08595238095238095, "grad_norm": 0.4776724576950073, "learning_rate": 1.2799333333333333e-05, "loss": 0.2093, "step": 1805 }, { "epoch": 0.08619047619047619, "grad_norm": 0.44530004262924194, "learning_rate": 1.2796e-05, "loss": 0.241, "step": 1810 }, { "epoch": 0.08642857142857142, "grad_norm": 0.5324488878250122, "learning_rate": 1.2792666666666667e-05, "loss": 0.2497, "step": 1815 }, { "epoch": 0.08666666666666667, "grad_norm": 0.5145362615585327, "learning_rate": 1.2789333333333333e-05, "loss": 0.2612, "step": 1820 }, { "epoch": 0.0869047619047619, "grad_norm": 0.5533999800682068, "learning_rate": 1.2786e-05, "loss": 0.2348, "step": 1825 }, { "epoch": 0.08714285714285715, "grad_norm": 0.4523869454860687, "learning_rate": 1.2782666666666665e-05, "loss": 0.3137, "step": 1830 }, { "epoch": 0.08738095238095238, "grad_norm": 0.36594176292419434, "learning_rate": 1.2779333333333333e-05, "loss": 0.2107, "step": 1835 }, { "epoch": 0.08761904761904762, "grad_norm": 0.48679450154304504, "learning_rate": 1.2776e-05, "loss": 0.2118, "step": 1840 }, { "epoch": 0.08785714285714286, "grad_norm": 0.5439981818199158, "learning_rate": 1.2772666666666667e-05, "loss": 0.2597, "step": 1845 }, { "epoch": 0.0880952380952381, "grad_norm": 0.5378422737121582, "learning_rate": 1.2769333333333333e-05, "loss": 0.2252, "step": 1850 }, { "epoch": 0.08833333333333333, "grad_norm": 0.5349330306053162, "learning_rate": 1.2766e-05, "loss": 0.249, "step": 1855 }, { "epoch": 0.08857142857142856, "grad_norm": 0.4500422775745392, "learning_rate": 1.2762666666666667e-05, "loss": 0.2545, "step": 1860 }, { "epoch": 0.08880952380952381, "grad_norm": 0.6001605987548828, "learning_rate": 1.2759333333333333e-05, "loss": 0.203, "step": 1865 }, { "epoch": 0.08904761904761904, "grad_norm": 0.48348069190979004, "learning_rate": 1.2756e-05, "loss": 0.2345, "step": 1870 }, { "epoch": 0.08928571428571429, "grad_norm": 0.5001423358917236, "learning_rate": 1.2752666666666666e-05, "loss": 0.2479, "step": 1875 }, { "epoch": 0.08952380952380952, "grad_norm": 0.4652763903141022, "learning_rate": 1.2749333333333332e-05, "loss": 0.2587, "step": 1880 }, { "epoch": 0.08976190476190476, "grad_norm": 0.5177786350250244, "learning_rate": 1.2746000000000001e-05, "loss": 0.2206, "step": 1885 }, { "epoch": 0.09, "grad_norm": 0.5319859385490417, "learning_rate": 1.2742666666666667e-05, "loss": 0.2398, "step": 1890 }, { "epoch": 0.09023809523809524, "grad_norm": 0.48148608207702637, "learning_rate": 1.2739333333333334e-05, "loss": 0.2482, "step": 1895 }, { "epoch": 0.09047619047619047, "grad_norm": 0.5404605865478516, "learning_rate": 1.2736e-05, "loss": 0.2393, "step": 1900 }, { "epoch": 0.09071428571428572, "grad_norm": 0.47317609190940857, "learning_rate": 1.2732666666666666e-05, "loss": 0.1981, "step": 1905 }, { "epoch": 0.09095238095238095, "grad_norm": 0.5051700472831726, "learning_rate": 1.2729333333333334e-05, "loss": 0.3276, "step": 1910 }, { "epoch": 0.0911904761904762, "grad_norm": 0.48667609691619873, "learning_rate": 1.2726e-05, "loss": 0.2434, "step": 1915 }, { "epoch": 0.09142857142857143, "grad_norm": 0.5466054081916809, "learning_rate": 1.2722666666666666e-05, "loss": 0.2789, "step": 1920 }, { "epoch": 0.09166666666666666, "grad_norm": 0.3983517289161682, "learning_rate": 1.2719333333333334e-05, "loss": 0.2455, "step": 1925 }, { "epoch": 0.0919047619047619, "grad_norm": 0.48781919479370117, "learning_rate": 1.2716e-05, "loss": 0.2615, "step": 1930 }, { "epoch": 0.09214285714285714, "grad_norm": 0.5771092772483826, "learning_rate": 1.2712666666666666e-05, "loss": 0.2409, "step": 1935 }, { "epoch": 0.09238095238095238, "grad_norm": 0.35026395320892334, "learning_rate": 1.2709333333333334e-05, "loss": 0.2601, "step": 1940 }, { "epoch": 0.09261904761904761, "grad_norm": 0.42394596338272095, "learning_rate": 1.2706e-05, "loss": 0.2554, "step": 1945 }, { "epoch": 0.09285714285714286, "grad_norm": 0.5382483005523682, "learning_rate": 1.2702666666666666e-05, "loss": 0.2585, "step": 1950 }, { "epoch": 0.09309523809523809, "grad_norm": 0.5288718938827515, "learning_rate": 1.2699333333333332e-05, "loss": 0.2723, "step": 1955 }, { "epoch": 0.09333333333333334, "grad_norm": 0.5561833381652832, "learning_rate": 1.2695999999999998e-05, "loss": 0.2435, "step": 1960 }, { "epoch": 0.09357142857142857, "grad_norm": 0.4301588535308838, "learning_rate": 1.2692666666666666e-05, "loss": 0.2167, "step": 1965 }, { "epoch": 0.09380952380952381, "grad_norm": 0.44147488474845886, "learning_rate": 1.2689333333333334e-05, "loss": 0.2369, "step": 1970 }, { "epoch": 0.09404761904761905, "grad_norm": 0.5165458917617798, "learning_rate": 1.2686e-05, "loss": 0.2201, "step": 1975 }, { "epoch": 0.09428571428571429, "grad_norm": 0.4506768584251404, "learning_rate": 1.2682666666666666e-05, "loss": 0.2106, "step": 1980 }, { "epoch": 0.09452380952380952, "grad_norm": 0.48894235491752625, "learning_rate": 1.2679333333333332e-05, "loss": 0.2604, "step": 1985 }, { "epoch": 0.09476190476190476, "grad_norm": 0.5509248375892639, "learning_rate": 1.2676e-05, "loss": 0.2681, "step": 1990 }, { "epoch": 0.095, "grad_norm": 0.7695350646972656, "learning_rate": 1.2672666666666666e-05, "loss": 0.2163, "step": 1995 }, { "epoch": 0.09523809523809523, "grad_norm": 0.5802890062332153, "learning_rate": 1.2669333333333333e-05, "loss": 0.2407, "step": 2000 }, { "epoch": 0.09547619047619048, "grad_norm": 0.559464693069458, "learning_rate": 1.2665999999999999e-05, "loss": 0.2209, "step": 2005 }, { "epoch": 0.09571428571428571, "grad_norm": 0.511067807674408, "learning_rate": 1.2662666666666666e-05, "loss": 0.2023, "step": 2010 }, { "epoch": 0.09595238095238096, "grad_norm": 0.555385947227478, "learning_rate": 1.2659333333333334e-05, "loss": 0.2543, "step": 2015 }, { "epoch": 0.09619047619047619, "grad_norm": 0.5243590474128723, "learning_rate": 1.2656e-05, "loss": 0.2673, "step": 2020 }, { "epoch": 0.09642857142857143, "grad_norm": 0.5134398937225342, "learning_rate": 1.2652666666666667e-05, "loss": 0.244, "step": 2025 }, { "epoch": 0.09666666666666666, "grad_norm": 0.5513105392456055, "learning_rate": 1.2649333333333333e-05, "loss": 0.2599, "step": 2030 }, { "epoch": 0.09690476190476191, "grad_norm": 0.6070422530174255, "learning_rate": 1.2645999999999999e-05, "loss": 0.2681, "step": 2035 }, { "epoch": 0.09714285714285714, "grad_norm": 0.38364678621292114, "learning_rate": 1.2642666666666667e-05, "loss": 0.1753, "step": 2040 }, { "epoch": 0.09738095238095239, "grad_norm": 0.5598193407058716, "learning_rate": 1.2639333333333333e-05, "loss": 0.2507, "step": 2045 }, { "epoch": 0.09761904761904762, "grad_norm": 0.46214720606803894, "learning_rate": 1.2636e-05, "loss": 0.2542, "step": 2050 }, { "epoch": 0.09785714285714285, "grad_norm": 0.48455604910850525, "learning_rate": 1.2632666666666667e-05, "loss": 0.2168, "step": 2055 }, { "epoch": 0.0980952380952381, "grad_norm": 0.7598165273666382, "learning_rate": 1.2629333333333333e-05, "loss": 0.2833, "step": 2060 }, { "epoch": 0.09833333333333333, "grad_norm": 0.4974062442779541, "learning_rate": 1.2625999999999999e-05, "loss": 0.2446, "step": 2065 }, { "epoch": 0.09857142857142857, "grad_norm": 0.4480850100517273, "learning_rate": 1.2622666666666667e-05, "loss": 0.2383, "step": 2070 }, { "epoch": 0.0988095238095238, "grad_norm": 0.4826344847679138, "learning_rate": 1.2619333333333333e-05, "loss": 0.2839, "step": 2075 }, { "epoch": 0.09904761904761905, "grad_norm": 0.46664929389953613, "learning_rate": 1.2615999999999999e-05, "loss": 0.2306, "step": 2080 }, { "epoch": 0.09928571428571428, "grad_norm": 0.48217588663101196, "learning_rate": 1.2612666666666665e-05, "loss": 0.2666, "step": 2085 }, { "epoch": 0.09952380952380953, "grad_norm": 0.5798646807670593, "learning_rate": 1.2609333333333333e-05, "loss": 0.2265, "step": 2090 }, { "epoch": 0.09976190476190476, "grad_norm": 0.5903026461601257, "learning_rate": 1.2606000000000001e-05, "loss": 0.2537, "step": 2095 }, { "epoch": 0.1, "grad_norm": 0.46486935019493103, "learning_rate": 1.2602666666666667e-05, "loss": 0.2454, "step": 2100 }, { "epoch": 0.10023809523809524, "grad_norm": 0.6259280443191528, "learning_rate": 1.2599333333333333e-05, "loss": 0.2162, "step": 2105 }, { "epoch": 0.10047619047619048, "grad_norm": 0.4435303211212158, "learning_rate": 1.2596e-05, "loss": 0.2282, "step": 2110 }, { "epoch": 0.10071428571428571, "grad_norm": 0.4952206313610077, "learning_rate": 1.2592666666666665e-05, "loss": 0.1999, "step": 2115 }, { "epoch": 0.10095238095238095, "grad_norm": 0.4978136122226715, "learning_rate": 1.2589333333333333e-05, "loss": 0.2089, "step": 2120 }, { "epoch": 0.10119047619047619, "grad_norm": 0.47657519578933716, "learning_rate": 1.2586e-05, "loss": 0.2883, "step": 2125 }, { "epoch": 0.10142857142857142, "grad_norm": 0.514533519744873, "learning_rate": 1.2582666666666667e-05, "loss": 0.2783, "step": 2130 }, { "epoch": 0.10166666666666667, "grad_norm": 0.7157605886459351, "learning_rate": 1.2579333333333333e-05, "loss": 0.2327, "step": 2135 }, { "epoch": 0.1019047619047619, "grad_norm": 0.5516383051872253, "learning_rate": 1.2576e-05, "loss": 0.2859, "step": 2140 }, { "epoch": 0.10214285714285715, "grad_norm": 0.7120870351791382, "learning_rate": 1.2572666666666667e-05, "loss": 0.3623, "step": 2145 }, { "epoch": 0.10238095238095238, "grad_norm": 0.536313533782959, "learning_rate": 1.2569333333333333e-05, "loss": 0.2529, "step": 2150 }, { "epoch": 0.10261904761904762, "grad_norm": 0.538343071937561, "learning_rate": 1.2566e-05, "loss": 0.2987, "step": 2155 }, { "epoch": 0.10285714285714286, "grad_norm": 0.46236667037010193, "learning_rate": 1.2562666666666666e-05, "loss": 0.2714, "step": 2160 }, { "epoch": 0.1030952380952381, "grad_norm": 0.474873423576355, "learning_rate": 1.2559333333333332e-05, "loss": 0.277, "step": 2165 }, { "epoch": 0.10333333333333333, "grad_norm": 0.5343377590179443, "learning_rate": 1.2556e-05, "loss": 0.2277, "step": 2170 }, { "epoch": 0.10357142857142858, "grad_norm": 0.5032901763916016, "learning_rate": 1.2552666666666668e-05, "loss": 0.263, "step": 2175 }, { "epoch": 0.10380952380952381, "grad_norm": 0.4314858615398407, "learning_rate": 1.2549333333333334e-05, "loss": 0.1913, "step": 2180 }, { "epoch": 0.10404761904761904, "grad_norm": 0.5349206924438477, "learning_rate": 1.2546e-05, "loss": 0.2871, "step": 2185 }, { "epoch": 0.10428571428571429, "grad_norm": 0.4845997095108032, "learning_rate": 1.2542666666666666e-05, "loss": 0.2385, "step": 2190 }, { "epoch": 0.10452380952380952, "grad_norm": 0.5479181408882141, "learning_rate": 1.2539333333333334e-05, "loss": 0.2142, "step": 2195 }, { "epoch": 0.10476190476190476, "grad_norm": 0.5904854536056519, "learning_rate": 1.2536e-05, "loss": 0.2363, "step": 2200 }, { "epoch": 0.105, "grad_norm": 0.511208176612854, "learning_rate": 1.2532666666666666e-05, "loss": 0.2436, "step": 2205 }, { "epoch": 0.10523809523809524, "grad_norm": 0.527661144733429, "learning_rate": 1.2529333333333332e-05, "loss": 0.2776, "step": 2210 }, { "epoch": 0.10547619047619047, "grad_norm": 0.4913981258869171, "learning_rate": 1.2526e-05, "loss": 0.2644, "step": 2215 }, { "epoch": 0.10571428571428572, "grad_norm": 0.8895107507705688, "learning_rate": 1.2522666666666666e-05, "loss": 0.2969, "step": 2220 }, { "epoch": 0.10595238095238095, "grad_norm": 0.5577487349510193, "learning_rate": 1.2519333333333334e-05, "loss": 0.2102, "step": 2225 }, { "epoch": 0.1061904761904762, "grad_norm": 0.6988068222999573, "learning_rate": 1.2516e-05, "loss": 0.2138, "step": 2230 }, { "epoch": 0.10642857142857143, "grad_norm": 0.5168531537055969, "learning_rate": 1.2512666666666666e-05, "loss": 0.2638, "step": 2235 }, { "epoch": 0.10666666666666667, "grad_norm": 0.3519677519798279, "learning_rate": 1.2509333333333332e-05, "loss": 0.1745, "step": 2240 }, { "epoch": 0.1069047619047619, "grad_norm": 0.447935551404953, "learning_rate": 1.2505999999999999e-05, "loss": 0.1969, "step": 2245 }, { "epoch": 0.10714285714285714, "grad_norm": 0.5881291031837463, "learning_rate": 1.2502666666666666e-05, "loss": 0.2407, "step": 2250 }, { "epoch": 0.10738095238095238, "grad_norm": 0.49574780464172363, "learning_rate": 1.2499333333333334e-05, "loss": 0.2237, "step": 2255 }, { "epoch": 0.10761904761904761, "grad_norm": 0.44497644901275635, "learning_rate": 1.2496e-05, "loss": 0.2354, "step": 2260 }, { "epoch": 0.10785714285714286, "grad_norm": 0.40582990646362305, "learning_rate": 1.2492666666666666e-05, "loss": 0.2416, "step": 2265 }, { "epoch": 0.10809523809523809, "grad_norm": 0.5424615144729614, "learning_rate": 1.2489333333333333e-05, "loss": 0.2298, "step": 2270 }, { "epoch": 0.10833333333333334, "grad_norm": 0.5914266705513, "learning_rate": 1.2486e-05, "loss": 0.2751, "step": 2275 }, { "epoch": 0.10857142857142857, "grad_norm": 0.6039472222328186, "learning_rate": 1.2482666666666667e-05, "loss": 0.2099, "step": 2280 }, { "epoch": 0.10880952380952381, "grad_norm": 0.3795255124568939, "learning_rate": 1.2479333333333333e-05, "loss": 0.2617, "step": 2285 }, { "epoch": 0.10904761904761905, "grad_norm": 0.5044766068458557, "learning_rate": 1.2475999999999999e-05, "loss": 0.2516, "step": 2290 }, { "epoch": 0.10928571428571429, "grad_norm": 0.44287005066871643, "learning_rate": 1.2472666666666667e-05, "loss": 0.2243, "step": 2295 }, { "epoch": 0.10952380952380952, "grad_norm": 0.47921594977378845, "learning_rate": 1.2469333333333334e-05, "loss": 0.2787, "step": 2300 }, { "epoch": 0.10976190476190475, "grad_norm": 0.38260316848754883, "learning_rate": 1.2466e-05, "loss": 0.1922, "step": 2305 }, { "epoch": 0.11, "grad_norm": 0.41511276364326477, "learning_rate": 1.2462666666666667e-05, "loss": 0.1977, "step": 2310 }, { "epoch": 0.11023809523809523, "grad_norm": 0.44902893900871277, "learning_rate": 1.2459333333333333e-05, "loss": 0.2281, "step": 2315 }, { "epoch": 0.11047619047619048, "grad_norm": 0.46637117862701416, "learning_rate": 1.2455999999999999e-05, "loss": 0.2367, "step": 2320 }, { "epoch": 0.11071428571428571, "grad_norm": 0.5179203748703003, "learning_rate": 1.2452666666666667e-05, "loss": 0.2566, "step": 2325 }, { "epoch": 0.11095238095238096, "grad_norm": 0.4769880175590515, "learning_rate": 1.2449333333333333e-05, "loss": 0.2163, "step": 2330 }, { "epoch": 0.11119047619047619, "grad_norm": 0.4555748403072357, "learning_rate": 1.2446e-05, "loss": 0.1821, "step": 2335 }, { "epoch": 0.11142857142857143, "grad_norm": 0.4367583394050598, "learning_rate": 1.2442666666666667e-05, "loss": 0.2011, "step": 2340 }, { "epoch": 0.11166666666666666, "grad_norm": 0.5148919820785522, "learning_rate": 1.2439333333333333e-05, "loss": 0.2536, "step": 2345 }, { "epoch": 0.11190476190476191, "grad_norm": 0.3503766357898712, "learning_rate": 1.2436e-05, "loss": 0.2409, "step": 2350 }, { "epoch": 0.11214285714285714, "grad_norm": 0.45625585317611694, "learning_rate": 1.2432666666666667e-05, "loss": 0.2214, "step": 2355 }, { "epoch": 0.11238095238095239, "grad_norm": 0.40999677777290344, "learning_rate": 1.2429333333333333e-05, "loss": 0.2284, "step": 2360 }, { "epoch": 0.11261904761904762, "grad_norm": 0.5117102265357971, "learning_rate": 1.2426e-05, "loss": 0.2266, "step": 2365 }, { "epoch": 0.11285714285714285, "grad_norm": 0.6101882457733154, "learning_rate": 1.2422666666666665e-05, "loss": 0.2258, "step": 2370 }, { "epoch": 0.1130952380952381, "grad_norm": 0.5116885900497437, "learning_rate": 1.2419333333333333e-05, "loss": 0.2656, "step": 2375 }, { "epoch": 0.11333333333333333, "grad_norm": 0.47936156392097473, "learning_rate": 1.2416000000000001e-05, "loss": 0.2418, "step": 2380 }, { "epoch": 0.11357142857142857, "grad_norm": 0.3381376266479492, "learning_rate": 1.2412666666666667e-05, "loss": 0.1761, "step": 2385 }, { "epoch": 0.1138095238095238, "grad_norm": 0.49431437253952026, "learning_rate": 1.2409333333333333e-05, "loss": 0.2357, "step": 2390 }, { "epoch": 0.11404761904761905, "grad_norm": 0.42881524562835693, "learning_rate": 1.2406e-05, "loss": 0.2451, "step": 2395 }, { "epoch": 0.11428571428571428, "grad_norm": 0.4764367640018463, "learning_rate": 1.2402666666666666e-05, "loss": 0.2414, "step": 2400 }, { "epoch": 0.11452380952380953, "grad_norm": 0.4665919244289398, "learning_rate": 1.2399333333333333e-05, "loss": 0.2631, "step": 2405 }, { "epoch": 0.11476190476190476, "grad_norm": 0.4580379128456116, "learning_rate": 1.2396e-05, "loss": 0.2422, "step": 2410 }, { "epoch": 0.115, "grad_norm": 0.48576006293296814, "learning_rate": 1.2392666666666666e-05, "loss": 0.2185, "step": 2415 }, { "epoch": 0.11523809523809524, "grad_norm": 0.4294532835483551, "learning_rate": 1.2389333333333334e-05, "loss": 0.2422, "step": 2420 }, { "epoch": 0.11547619047619048, "grad_norm": 0.6699883937835693, "learning_rate": 1.2386e-05, "loss": 0.2202, "step": 2425 }, { "epoch": 0.11571428571428571, "grad_norm": 0.552148699760437, "learning_rate": 1.2382666666666667e-05, "loss": 0.262, "step": 2430 }, { "epoch": 0.11595238095238095, "grad_norm": 0.43122729659080505, "learning_rate": 1.2379333333333334e-05, "loss": 0.242, "step": 2435 }, { "epoch": 0.11619047619047619, "grad_norm": 0.5673263072967529, "learning_rate": 1.2376e-05, "loss": 0.2352, "step": 2440 }, { "epoch": 0.11642857142857142, "grad_norm": 0.47785982489585876, "learning_rate": 1.2372666666666666e-05, "loss": 0.2556, "step": 2445 }, { "epoch": 0.11666666666666667, "grad_norm": 1.9993330240249634, "learning_rate": 1.2369333333333332e-05, "loss": 0.1974, "step": 2450 }, { "epoch": 0.1169047619047619, "grad_norm": 0.5064625144004822, "learning_rate": 1.2366e-05, "loss": 0.2512, "step": 2455 }, { "epoch": 0.11714285714285715, "grad_norm": 0.5276504755020142, "learning_rate": 1.2362666666666668e-05, "loss": 0.2548, "step": 2460 }, { "epoch": 0.11738095238095238, "grad_norm": 0.5549216270446777, "learning_rate": 1.2359333333333334e-05, "loss": 0.279, "step": 2465 }, { "epoch": 0.11761904761904762, "grad_norm": 0.45392709970474243, "learning_rate": 1.2356e-05, "loss": 0.249, "step": 2470 }, { "epoch": 0.11785714285714285, "grad_norm": 0.638221025466919, "learning_rate": 1.2352666666666666e-05, "loss": 0.2438, "step": 2475 }, { "epoch": 0.1180952380952381, "grad_norm": 0.43490323424339294, "learning_rate": 1.2349333333333332e-05, "loss": 0.2368, "step": 2480 }, { "epoch": 0.11833333333333333, "grad_norm": 0.47985097765922546, "learning_rate": 1.2346e-05, "loss": 0.2602, "step": 2485 }, { "epoch": 0.11857142857142858, "grad_norm": 0.49487268924713135, "learning_rate": 1.2342666666666666e-05, "loss": 0.2488, "step": 2490 }, { "epoch": 0.11880952380952381, "grad_norm": 0.619131863117218, "learning_rate": 1.2339333333333332e-05, "loss": 0.2422, "step": 2495 }, { "epoch": 0.11904761904761904, "grad_norm": 0.43301841616630554, "learning_rate": 1.2336e-05, "loss": 0.237, "step": 2500 }, { "epoch": 0.11928571428571429, "grad_norm": 0.4363994598388672, "learning_rate": 1.2332666666666666e-05, "loss": 0.2641, "step": 2505 }, { "epoch": 0.11952380952380952, "grad_norm": 0.46391475200653076, "learning_rate": 1.2329333333333334e-05, "loss": 0.2478, "step": 2510 }, { "epoch": 0.11976190476190476, "grad_norm": 0.5044970512390137, "learning_rate": 1.2326e-05, "loss": 0.2695, "step": 2515 }, { "epoch": 0.12, "grad_norm": 0.4608525037765503, "learning_rate": 1.2322666666666666e-05, "loss": 0.2473, "step": 2520 }, { "epoch": 0.12023809523809524, "grad_norm": 0.4203779697418213, "learning_rate": 1.2319333333333332e-05, "loss": 0.2187, "step": 2525 }, { "epoch": 0.12047619047619047, "grad_norm": 0.48211273550987244, "learning_rate": 1.2315999999999999e-05, "loss": 0.2589, "step": 2530 }, { "epoch": 0.12071428571428572, "grad_norm": 0.4216221272945404, "learning_rate": 1.2312666666666666e-05, "loss": 0.2374, "step": 2535 }, { "epoch": 0.12095238095238095, "grad_norm": 0.532882809638977, "learning_rate": 1.2309333333333334e-05, "loss": 0.2246, "step": 2540 }, { "epoch": 0.1211904761904762, "grad_norm": 0.5268293023109436, "learning_rate": 1.2306e-05, "loss": 0.214, "step": 2545 }, { "epoch": 0.12142857142857143, "grad_norm": 0.515687108039856, "learning_rate": 1.2302666666666667e-05, "loss": 0.2307, "step": 2550 }, { "epoch": 0.12166666666666667, "grad_norm": 0.5175354480743408, "learning_rate": 1.2299333333333333e-05, "loss": 0.2268, "step": 2555 }, { "epoch": 0.1219047619047619, "grad_norm": 0.5123121738433838, "learning_rate": 1.2296e-05, "loss": 0.2771, "step": 2560 }, { "epoch": 0.12214285714285714, "grad_norm": 0.4771600365638733, "learning_rate": 1.2292666666666667e-05, "loss": 0.2314, "step": 2565 }, { "epoch": 0.12238095238095238, "grad_norm": 0.48730558156967163, "learning_rate": 1.2289333333333333e-05, "loss": 0.2185, "step": 2570 }, { "epoch": 0.12261904761904761, "grad_norm": 0.5293428897857666, "learning_rate": 1.2285999999999999e-05, "loss": 0.281, "step": 2575 }, { "epoch": 0.12285714285714286, "grad_norm": 0.43879562616348267, "learning_rate": 1.2282666666666667e-05, "loss": 0.2148, "step": 2580 }, { "epoch": 0.12309523809523809, "grad_norm": 0.6370067000389099, "learning_rate": 1.2279333333333335e-05, "loss": 0.2154, "step": 2585 }, { "epoch": 0.12333333333333334, "grad_norm": 0.41840222477912903, "learning_rate": 1.2276e-05, "loss": 0.2623, "step": 2590 }, { "epoch": 0.12357142857142857, "grad_norm": 0.48230093717575073, "learning_rate": 1.2272666666666667e-05, "loss": 0.2337, "step": 2595 }, { "epoch": 0.12380952380952381, "grad_norm": 0.6056246757507324, "learning_rate": 1.2269333333333333e-05, "loss": 0.2779, "step": 2600 }, { "epoch": 0.12404761904761905, "grad_norm": 0.6281166076660156, "learning_rate": 1.2265999999999999e-05, "loss": 0.28, "step": 2605 }, { "epoch": 0.12428571428571429, "grad_norm": 0.47101858258247375, "learning_rate": 1.2262666666666665e-05, "loss": 0.2096, "step": 2610 }, { "epoch": 0.12452380952380952, "grad_norm": 0.42823320627212524, "learning_rate": 1.2259333333333333e-05, "loss": 0.2273, "step": 2615 }, { "epoch": 0.12476190476190477, "grad_norm": 0.48420459032058716, "learning_rate": 1.2256e-05, "loss": 0.2407, "step": 2620 }, { "epoch": 0.125, "grad_norm": 0.4340234696865082, "learning_rate": 1.2252666666666667e-05, "loss": 0.2317, "step": 2625 }, { "epoch": 0.12523809523809523, "grad_norm": 0.44452333450317383, "learning_rate": 1.2249333333333333e-05, "loss": 0.2071, "step": 2630 }, { "epoch": 0.12547619047619046, "grad_norm": 0.4618389904499054, "learning_rate": 1.2246e-05, "loss": 0.2404, "step": 2635 }, { "epoch": 0.12571428571428572, "grad_norm": 0.6623542308807373, "learning_rate": 1.2242666666666667e-05, "loss": 0.2236, "step": 2640 }, { "epoch": 0.12595238095238095, "grad_norm": 0.4665476977825165, "learning_rate": 1.2239333333333333e-05, "loss": 0.2242, "step": 2645 }, { "epoch": 0.1261904761904762, "grad_norm": 0.48922452330589294, "learning_rate": 1.2236e-05, "loss": 0.265, "step": 2650 }, { "epoch": 0.12642857142857142, "grad_norm": 0.4615395963191986, "learning_rate": 1.2232666666666666e-05, "loss": 0.2445, "step": 2655 }, { "epoch": 0.12666666666666668, "grad_norm": 0.5270827412605286, "learning_rate": 1.2229333333333333e-05, "loss": 0.259, "step": 2660 }, { "epoch": 0.1269047619047619, "grad_norm": 0.553677499294281, "learning_rate": 1.2226000000000001e-05, "loss": 0.2164, "step": 2665 }, { "epoch": 0.12714285714285714, "grad_norm": 0.4491358995437622, "learning_rate": 1.2222666666666667e-05, "loss": 0.2632, "step": 2670 }, { "epoch": 0.12738095238095237, "grad_norm": 0.5818116068840027, "learning_rate": 1.2219333333333333e-05, "loss": 0.2046, "step": 2675 }, { "epoch": 0.12761904761904763, "grad_norm": 0.6222981810569763, "learning_rate": 1.2216e-05, "loss": 0.2506, "step": 2680 }, { "epoch": 0.12785714285714286, "grad_norm": 0.49797967076301575, "learning_rate": 1.2212666666666666e-05, "loss": 0.2653, "step": 2685 }, { "epoch": 0.1280952380952381, "grad_norm": 0.5006131529808044, "learning_rate": 1.2209333333333334e-05, "loss": 0.273, "step": 2690 }, { "epoch": 0.12833333333333333, "grad_norm": 0.4529349207878113, "learning_rate": 1.2206e-05, "loss": 0.3027, "step": 2695 }, { "epoch": 0.12857142857142856, "grad_norm": 0.37892451882362366, "learning_rate": 1.2202666666666666e-05, "loss": 0.1787, "step": 2700 }, { "epoch": 0.12880952380952382, "grad_norm": 0.43713128566741943, "learning_rate": 1.2199333333333334e-05, "loss": 0.2371, "step": 2705 }, { "epoch": 0.12904761904761905, "grad_norm": 0.5441469550132751, "learning_rate": 1.2196e-05, "loss": 0.2704, "step": 2710 }, { "epoch": 0.12928571428571428, "grad_norm": 0.4817110300064087, "learning_rate": 1.2192666666666668e-05, "loss": 0.1999, "step": 2715 }, { "epoch": 0.1295238095238095, "grad_norm": 0.5401253700256348, "learning_rate": 1.2189333333333334e-05, "loss": 0.2458, "step": 2720 }, { "epoch": 0.12976190476190477, "grad_norm": 0.8536109328269958, "learning_rate": 1.2186e-05, "loss": 0.2584, "step": 2725 }, { "epoch": 0.13, "grad_norm": 0.4958465099334717, "learning_rate": 1.2182666666666666e-05, "loss": 0.2278, "step": 2730 }, { "epoch": 0.13023809523809524, "grad_norm": 0.439423143863678, "learning_rate": 1.2179333333333332e-05, "loss": 0.257, "step": 2735 }, { "epoch": 0.13047619047619047, "grad_norm": 0.5173399448394775, "learning_rate": 1.2175999999999998e-05, "loss": 0.2804, "step": 2740 }, { "epoch": 0.13071428571428573, "grad_norm": 0.5178898572921753, "learning_rate": 1.2172666666666668e-05, "loss": 0.2705, "step": 2745 }, { "epoch": 0.13095238095238096, "grad_norm": 0.4734441339969635, "learning_rate": 1.2169333333333334e-05, "loss": 0.2774, "step": 2750 }, { "epoch": 0.1311904761904762, "grad_norm": 0.46295082569122314, "learning_rate": 1.2166e-05, "loss": 0.2283, "step": 2755 }, { "epoch": 0.13142857142857142, "grad_norm": 0.45279252529144287, "learning_rate": 1.2162666666666666e-05, "loss": 0.206, "step": 2760 }, { "epoch": 0.13166666666666665, "grad_norm": 1.162894606590271, "learning_rate": 1.2159333333333332e-05, "loss": 0.2536, "step": 2765 }, { "epoch": 0.1319047619047619, "grad_norm": 0.4640433192253113, "learning_rate": 1.2156e-05, "loss": 0.2414, "step": 2770 }, { "epoch": 0.13214285714285715, "grad_norm": 0.40827232599258423, "learning_rate": 1.2152666666666666e-05, "loss": 0.2526, "step": 2775 }, { "epoch": 0.13238095238095238, "grad_norm": 0.45220276713371277, "learning_rate": 1.2149333333333332e-05, "loss": 0.2029, "step": 2780 }, { "epoch": 0.1326190476190476, "grad_norm": 0.5916364789009094, "learning_rate": 1.2146e-05, "loss": 0.2935, "step": 2785 }, { "epoch": 0.13285714285714287, "grad_norm": 0.407501757144928, "learning_rate": 1.2142666666666666e-05, "loss": 0.2055, "step": 2790 }, { "epoch": 0.1330952380952381, "grad_norm": 0.43137288093566895, "learning_rate": 1.2139333333333334e-05, "loss": 0.2711, "step": 2795 }, { "epoch": 0.13333333333333333, "grad_norm": 0.4354705810546875, "learning_rate": 1.2136e-05, "loss": 0.2269, "step": 2800 }, { "epoch": 0.13357142857142856, "grad_norm": 0.36141154170036316, "learning_rate": 1.2132666666666666e-05, "loss": 0.271, "step": 2805 }, { "epoch": 0.13380952380952382, "grad_norm": 0.552765429019928, "learning_rate": 1.2129333333333333e-05, "loss": 0.253, "step": 2810 }, { "epoch": 0.13404761904761905, "grad_norm": 0.5301596522331238, "learning_rate": 1.2125999999999999e-05, "loss": 0.2494, "step": 2815 }, { "epoch": 0.13428571428571429, "grad_norm": 0.48307839035987854, "learning_rate": 1.2122666666666667e-05, "loss": 0.261, "step": 2820 }, { "epoch": 0.13452380952380952, "grad_norm": 0.5340787768363953, "learning_rate": 1.2119333333333333e-05, "loss": 0.2345, "step": 2825 }, { "epoch": 0.13476190476190475, "grad_norm": 0.5612193942070007, "learning_rate": 1.2116e-05, "loss": 0.2774, "step": 2830 }, { "epoch": 0.135, "grad_norm": 0.8077988028526306, "learning_rate": 1.2112666666666667e-05, "loss": 0.2196, "step": 2835 }, { "epoch": 0.13523809523809524, "grad_norm": 0.521935760974884, "learning_rate": 1.2109333333333333e-05, "loss": 0.247, "step": 2840 }, { "epoch": 0.13547619047619047, "grad_norm": 0.5472925901412964, "learning_rate": 1.2106e-05, "loss": 0.2898, "step": 2845 }, { "epoch": 0.1357142857142857, "grad_norm": 0.5837003588676453, "learning_rate": 1.2102666666666667e-05, "loss": 0.2697, "step": 2850 }, { "epoch": 0.13595238095238096, "grad_norm": 0.3568533957004547, "learning_rate": 1.2099333333333333e-05, "loss": 0.2872, "step": 2855 }, { "epoch": 0.1361904761904762, "grad_norm": 0.48710858821868896, "learning_rate": 1.2095999999999999e-05, "loss": 0.2186, "step": 2860 }, { "epoch": 0.13642857142857143, "grad_norm": 0.4559829533100128, "learning_rate": 1.2092666666666667e-05, "loss": 0.2676, "step": 2865 }, { "epoch": 0.13666666666666666, "grad_norm": 0.5350320935249329, "learning_rate": 1.2089333333333333e-05, "loss": 0.2369, "step": 2870 }, { "epoch": 0.13690476190476192, "grad_norm": 0.5259941220283508, "learning_rate": 1.2086e-05, "loss": 0.2339, "step": 2875 }, { "epoch": 0.13714285714285715, "grad_norm": 0.547834575176239, "learning_rate": 1.2082666666666667e-05, "loss": 0.2556, "step": 2880 }, { "epoch": 0.13738095238095238, "grad_norm": 0.41701385378837585, "learning_rate": 1.2079333333333333e-05, "loss": 0.2124, "step": 2885 }, { "epoch": 0.1376190476190476, "grad_norm": 0.5387052297592163, "learning_rate": 1.2076e-05, "loss": 0.258, "step": 2890 }, { "epoch": 0.13785714285714284, "grad_norm": 0.44896844029426575, "learning_rate": 1.2072666666666665e-05, "loss": 0.2709, "step": 2895 }, { "epoch": 0.1380952380952381, "grad_norm": 0.3788367807865143, "learning_rate": 1.2069333333333333e-05, "loss": 0.2277, "step": 2900 }, { "epoch": 0.13833333333333334, "grad_norm": 0.461489737033844, "learning_rate": 1.2066e-05, "loss": 0.2311, "step": 2905 }, { "epoch": 0.13857142857142857, "grad_norm": 0.6060482859611511, "learning_rate": 1.2062666666666667e-05, "loss": 0.1989, "step": 2910 }, { "epoch": 0.1388095238095238, "grad_norm": 0.4793461561203003, "learning_rate": 1.2059333333333333e-05, "loss": 0.2387, "step": 2915 }, { "epoch": 0.13904761904761906, "grad_norm": 0.46321016550064087, "learning_rate": 1.2056e-05, "loss": 0.2804, "step": 2920 }, { "epoch": 0.1392857142857143, "grad_norm": 0.45586106181144714, "learning_rate": 1.2052666666666667e-05, "loss": 0.236, "step": 2925 }, { "epoch": 0.13952380952380952, "grad_norm": 0.5222336649894714, "learning_rate": 1.2049333333333333e-05, "loss": 0.2545, "step": 2930 }, { "epoch": 0.13976190476190475, "grad_norm": 0.44979313015937805, "learning_rate": 1.2046e-05, "loss": 0.2562, "step": 2935 }, { "epoch": 0.14, "grad_norm": 0.4659197926521301, "learning_rate": 1.2042666666666666e-05, "loss": 0.2527, "step": 2940 }, { "epoch": 0.14023809523809525, "grad_norm": 0.4462968707084656, "learning_rate": 1.2039333333333332e-05, "loss": 0.2308, "step": 2945 }, { "epoch": 0.14047619047619048, "grad_norm": 0.4397624433040619, "learning_rate": 1.2036000000000001e-05, "loss": 0.2495, "step": 2950 }, { "epoch": 0.1407142857142857, "grad_norm": 0.4613645374774933, "learning_rate": 1.2032666666666667e-05, "loss": 0.2313, "step": 2955 }, { "epoch": 0.14095238095238094, "grad_norm": 0.4866119623184204, "learning_rate": 1.2029333333333334e-05, "loss": 0.2773, "step": 2960 }, { "epoch": 0.1411904761904762, "grad_norm": 1.0317574739456177, "learning_rate": 1.2026e-05, "loss": 0.2399, "step": 2965 }, { "epoch": 0.14142857142857143, "grad_norm": 0.48744669556617737, "learning_rate": 1.2022666666666666e-05, "loss": 0.2949, "step": 2970 }, { "epoch": 0.14166666666666666, "grad_norm": 0.4803200662136078, "learning_rate": 1.2019333333333334e-05, "loss": 0.2574, "step": 2975 }, { "epoch": 0.1419047619047619, "grad_norm": 0.4333691895008087, "learning_rate": 1.2016e-05, "loss": 0.2583, "step": 2980 }, { "epoch": 0.14214285714285715, "grad_norm": 0.4784499406814575, "learning_rate": 1.2012666666666666e-05, "loss": 0.2479, "step": 2985 }, { "epoch": 0.14238095238095239, "grad_norm": 0.5513302087783813, "learning_rate": 1.2009333333333334e-05, "loss": 0.2719, "step": 2990 }, { "epoch": 0.14261904761904762, "grad_norm": 0.4002465009689331, "learning_rate": 1.2006e-05, "loss": 0.2475, "step": 2995 }, { "epoch": 0.14285714285714285, "grad_norm": 0.5351700782775879, "learning_rate": 1.2002666666666666e-05, "loss": 0.2745, "step": 3000 }, { "epoch": 0.1430952380952381, "grad_norm": 0.44076699018478394, "learning_rate": 1.1999333333333334e-05, "loss": 0.2315, "step": 3005 }, { "epoch": 0.14333333333333334, "grad_norm": 0.44263938069343567, "learning_rate": 1.1996e-05, "loss": 0.2304, "step": 3010 }, { "epoch": 0.14357142857142857, "grad_norm": 0.3844951391220093, "learning_rate": 1.1992666666666666e-05, "loss": 0.2658, "step": 3015 }, { "epoch": 0.1438095238095238, "grad_norm": 0.5206149816513062, "learning_rate": 1.1989333333333332e-05, "loss": 0.3114, "step": 3020 }, { "epoch": 0.14404761904761904, "grad_norm": 0.5086356401443481, "learning_rate": 1.1985999999999998e-05, "loss": 0.2639, "step": 3025 }, { "epoch": 0.1442857142857143, "grad_norm": 0.4347664713859558, "learning_rate": 1.1982666666666666e-05, "loss": 0.2241, "step": 3030 }, { "epoch": 0.14452380952380953, "grad_norm": 0.5380002856254578, "learning_rate": 1.1979333333333334e-05, "loss": 0.2636, "step": 3035 }, { "epoch": 0.14476190476190476, "grad_norm": 0.4199674129486084, "learning_rate": 1.1976e-05, "loss": 0.2575, "step": 3040 }, { "epoch": 0.145, "grad_norm": 0.3740156590938568, "learning_rate": 1.1972666666666666e-05, "loss": 0.2212, "step": 3045 }, { "epoch": 0.14523809523809525, "grad_norm": 0.4032551646232605, "learning_rate": 1.1969333333333332e-05, "loss": 0.2282, "step": 3050 }, { "epoch": 0.14547619047619048, "grad_norm": 0.447672963142395, "learning_rate": 1.1966e-05, "loss": 0.1865, "step": 3055 }, { "epoch": 0.1457142857142857, "grad_norm": 0.41977375745773315, "learning_rate": 1.1962666666666666e-05, "loss": 0.1963, "step": 3060 }, { "epoch": 0.14595238095238094, "grad_norm": 0.6532469391822815, "learning_rate": 1.1959333333333333e-05, "loss": 0.2466, "step": 3065 }, { "epoch": 0.1461904761904762, "grad_norm": 0.5547028183937073, "learning_rate": 1.1956e-05, "loss": 0.2365, "step": 3070 }, { "epoch": 0.14642857142857144, "grad_norm": 0.49713149666786194, "learning_rate": 1.1952666666666667e-05, "loss": 0.2736, "step": 3075 }, { "epoch": 0.14666666666666667, "grad_norm": 1.9373500347137451, "learning_rate": 1.1949333333333334e-05, "loss": 0.2556, "step": 3080 }, { "epoch": 0.1469047619047619, "grad_norm": 0.5052385330200195, "learning_rate": 1.1946e-05, "loss": 0.2724, "step": 3085 }, { "epoch": 0.14714285714285713, "grad_norm": 0.4796368181705475, "learning_rate": 1.1942666666666667e-05, "loss": 0.2418, "step": 3090 }, { "epoch": 0.1473809523809524, "grad_norm": 0.4362008571624756, "learning_rate": 1.1939333333333333e-05, "loss": 0.2182, "step": 3095 }, { "epoch": 0.14761904761904762, "grad_norm": 0.6438694596290588, "learning_rate": 1.1935999999999999e-05, "loss": 0.2046, "step": 3100 }, { "epoch": 0.14785714285714285, "grad_norm": 0.4768218398094177, "learning_rate": 1.1932666666666667e-05, "loss": 0.236, "step": 3105 }, { "epoch": 0.14809523809523809, "grad_norm": 0.406380295753479, "learning_rate": 1.1929333333333333e-05, "loss": 0.2465, "step": 3110 }, { "epoch": 0.14833333333333334, "grad_norm": 0.4265369772911072, "learning_rate": 1.1926e-05, "loss": 0.268, "step": 3115 }, { "epoch": 0.14857142857142858, "grad_norm": 0.4510844647884369, "learning_rate": 1.1922666666666667e-05, "loss": 0.2451, "step": 3120 }, { "epoch": 0.1488095238095238, "grad_norm": 0.4307747483253479, "learning_rate": 1.1919333333333333e-05, "loss": 0.2399, "step": 3125 }, { "epoch": 0.14904761904761904, "grad_norm": 0.5440226793289185, "learning_rate": 1.1915999999999999e-05, "loss": 0.2657, "step": 3130 }, { "epoch": 0.1492857142857143, "grad_norm": 0.6484596133232117, "learning_rate": 1.1912666666666667e-05, "loss": 0.2378, "step": 3135 }, { "epoch": 0.14952380952380953, "grad_norm": 0.45271557569503784, "learning_rate": 1.1909333333333333e-05, "loss": 0.2274, "step": 3140 }, { "epoch": 0.14976190476190476, "grad_norm": 0.4456365704536438, "learning_rate": 1.1906e-05, "loss": 0.2228, "step": 3145 }, { "epoch": 0.15, "grad_norm": 0.5293859243392944, "learning_rate": 1.1902666666666665e-05, "loss": 0.2833, "step": 3150 }, { "epoch": 0.15023809523809523, "grad_norm": 0.5393390655517578, "learning_rate": 1.1899333333333333e-05, "loss": 0.2659, "step": 3155 }, { "epoch": 0.15047619047619049, "grad_norm": 0.4975197911262512, "learning_rate": 1.1896000000000001e-05, "loss": 0.269, "step": 3160 }, { "epoch": 0.15071428571428572, "grad_norm": 0.5327191352844238, "learning_rate": 1.1892666666666667e-05, "loss": 0.262, "step": 3165 }, { "epoch": 0.15095238095238095, "grad_norm": 0.44290000200271606, "learning_rate": 1.1889333333333333e-05, "loss": 0.2394, "step": 3170 }, { "epoch": 0.15119047619047618, "grad_norm": 0.7706641554832458, "learning_rate": 1.1886e-05, "loss": 0.2362, "step": 3175 }, { "epoch": 0.15142857142857144, "grad_norm": 0.5606832504272461, "learning_rate": 1.1882666666666665e-05, "loss": 0.1911, "step": 3180 }, { "epoch": 0.15166666666666667, "grad_norm": 0.4688824415206909, "learning_rate": 1.1879333333333333e-05, "loss": 0.2437, "step": 3185 }, { "epoch": 0.1519047619047619, "grad_norm": 0.47772642970085144, "learning_rate": 1.1876e-05, "loss": 0.2065, "step": 3190 }, { "epoch": 0.15214285714285714, "grad_norm": 0.4177686870098114, "learning_rate": 1.1872666666666667e-05, "loss": 0.2437, "step": 3195 }, { "epoch": 0.1523809523809524, "grad_norm": 0.6059110164642334, "learning_rate": 1.1869333333333333e-05, "loss": 0.2278, "step": 3200 }, { "epoch": 0.15261904761904763, "grad_norm": 0.3814160227775574, "learning_rate": 1.1866e-05, "loss": 0.2321, "step": 3205 }, { "epoch": 0.15285714285714286, "grad_norm": 0.5282929539680481, "learning_rate": 1.1862666666666667e-05, "loss": 0.2059, "step": 3210 }, { "epoch": 0.1530952380952381, "grad_norm": 0.43652936816215515, "learning_rate": 1.1859333333333334e-05, "loss": 0.2365, "step": 3215 }, { "epoch": 0.15333333333333332, "grad_norm": 0.6616789102554321, "learning_rate": 1.1856e-05, "loss": 0.2254, "step": 3220 }, { "epoch": 0.15357142857142858, "grad_norm": 0.6124911904335022, "learning_rate": 1.1852666666666666e-05, "loss": 0.2269, "step": 3225 }, { "epoch": 0.1538095238095238, "grad_norm": 0.4529656171798706, "learning_rate": 1.1849333333333332e-05, "loss": 0.2835, "step": 3230 }, { "epoch": 0.15404761904761904, "grad_norm": 0.6275522112846375, "learning_rate": 1.1846e-05, "loss": 0.2354, "step": 3235 }, { "epoch": 0.15428571428571428, "grad_norm": 0.46404048800468445, "learning_rate": 1.1842666666666668e-05, "loss": 0.2181, "step": 3240 }, { "epoch": 0.15452380952380954, "grad_norm": 0.4845660924911499, "learning_rate": 1.1839333333333334e-05, "loss": 0.2013, "step": 3245 }, { "epoch": 0.15476190476190477, "grad_norm": 0.5290970206260681, "learning_rate": 1.1836e-05, "loss": 0.2208, "step": 3250 }, { "epoch": 0.155, "grad_norm": 0.7152854800224304, "learning_rate": 1.1832666666666666e-05, "loss": 0.2535, "step": 3255 }, { "epoch": 0.15523809523809523, "grad_norm": 0.8830270171165466, "learning_rate": 1.1829333333333332e-05, "loss": 0.2378, "step": 3260 }, { "epoch": 0.1554761904761905, "grad_norm": 0.4634905457496643, "learning_rate": 1.1826e-05, "loss": 0.2689, "step": 3265 }, { "epoch": 0.15571428571428572, "grad_norm": 0.4304995536804199, "learning_rate": 1.1822666666666666e-05, "loss": 0.2101, "step": 3270 }, { "epoch": 0.15595238095238095, "grad_norm": 0.5168196558952332, "learning_rate": 1.1819333333333334e-05, "loss": 0.244, "step": 3275 }, { "epoch": 0.15619047619047619, "grad_norm": 0.4610505998134613, "learning_rate": 1.1816e-05, "loss": 0.2329, "step": 3280 }, { "epoch": 0.15642857142857142, "grad_norm": 0.5154504776000977, "learning_rate": 1.1812666666666666e-05, "loss": 0.3463, "step": 3285 }, { "epoch": 0.15666666666666668, "grad_norm": 0.47177284955978394, "learning_rate": 1.1809333333333334e-05, "loss": 0.2265, "step": 3290 }, { "epoch": 0.1569047619047619, "grad_norm": 0.4744413495063782, "learning_rate": 1.1806e-05, "loss": 0.2606, "step": 3295 }, { "epoch": 0.15714285714285714, "grad_norm": 0.5248154401779175, "learning_rate": 1.1802666666666666e-05, "loss": 0.2224, "step": 3300 }, { "epoch": 0.15738095238095237, "grad_norm": 0.5240984559059143, "learning_rate": 1.1799333333333332e-05, "loss": 0.2679, "step": 3305 }, { "epoch": 0.15761904761904763, "grad_norm": 0.47215133905410767, "learning_rate": 1.1795999999999999e-05, "loss": 0.2612, "step": 3310 }, { "epoch": 0.15785714285714286, "grad_norm": 0.5030161142349243, "learning_rate": 1.1792666666666666e-05, "loss": 0.2503, "step": 3315 }, { "epoch": 0.1580952380952381, "grad_norm": 0.42921972274780273, "learning_rate": 1.1789333333333334e-05, "loss": 0.3232, "step": 3320 }, { "epoch": 0.15833333333333333, "grad_norm": 0.38366830348968506, "learning_rate": 1.1786e-05, "loss": 0.2484, "step": 3325 }, { "epoch": 0.15857142857142856, "grad_norm": 0.4653984010219574, "learning_rate": 1.1782666666666666e-05, "loss": 0.2385, "step": 3330 }, { "epoch": 0.15880952380952382, "grad_norm": 0.4388786852359772, "learning_rate": 1.1779333333333333e-05, "loss": 0.2286, "step": 3335 }, { "epoch": 0.15904761904761905, "grad_norm": 0.4395630359649658, "learning_rate": 1.1776e-05, "loss": 0.2269, "step": 3340 }, { "epoch": 0.15928571428571428, "grad_norm": 0.4440295100212097, "learning_rate": 1.1772666666666667e-05, "loss": 0.2471, "step": 3345 }, { "epoch": 0.1595238095238095, "grad_norm": 0.5083520412445068, "learning_rate": 1.1769333333333333e-05, "loss": 0.1865, "step": 3350 }, { "epoch": 0.15976190476190477, "grad_norm": 0.5240653157234192, "learning_rate": 1.1765999999999999e-05, "loss": 0.2363, "step": 3355 }, { "epoch": 0.16, "grad_norm": 0.4722924530506134, "learning_rate": 1.1762666666666667e-05, "loss": 0.2099, "step": 3360 }, { "epoch": 0.16023809523809524, "grad_norm": 0.4703315794467926, "learning_rate": 1.1759333333333334e-05, "loss": 0.2649, "step": 3365 }, { "epoch": 0.16047619047619047, "grad_norm": 0.5940404534339905, "learning_rate": 1.1756e-05, "loss": 0.2165, "step": 3370 }, { "epoch": 0.16071428571428573, "grad_norm": 0.4906729757785797, "learning_rate": 1.1752666666666667e-05, "loss": 0.2301, "step": 3375 }, { "epoch": 0.16095238095238096, "grad_norm": 0.7236957550048828, "learning_rate": 1.1749333333333333e-05, "loss": 0.3328, "step": 3380 }, { "epoch": 0.1611904761904762, "grad_norm": 0.5316181182861328, "learning_rate": 1.1745999999999999e-05, "loss": 0.1942, "step": 3385 }, { "epoch": 0.16142857142857142, "grad_norm": 0.5127483606338501, "learning_rate": 1.1742666666666665e-05, "loss": 0.2185, "step": 3390 }, { "epoch": 0.16166666666666665, "grad_norm": 0.5466558933258057, "learning_rate": 1.1739333333333333e-05, "loss": 0.2223, "step": 3395 }, { "epoch": 0.1619047619047619, "grad_norm": 0.27802276611328125, "learning_rate": 1.1736e-05, "loss": 0.2264, "step": 3400 }, { "epoch": 0.16214285714285714, "grad_norm": 0.5153106451034546, "learning_rate": 1.1732666666666667e-05, "loss": 0.2519, "step": 3405 }, { "epoch": 0.16238095238095238, "grad_norm": 0.5809934735298157, "learning_rate": 1.1729333333333333e-05, "loss": 0.2636, "step": 3410 }, { "epoch": 0.1626190476190476, "grad_norm": 0.419792115688324, "learning_rate": 1.1726e-05, "loss": 0.2691, "step": 3415 }, { "epoch": 0.16285714285714287, "grad_norm": 0.5447928309440613, "learning_rate": 1.1722666666666667e-05, "loss": 0.2503, "step": 3420 }, { "epoch": 0.1630952380952381, "grad_norm": 0.4483768045902252, "learning_rate": 1.1719333333333333e-05, "loss": 0.2269, "step": 3425 }, { "epoch": 0.16333333333333333, "grad_norm": 0.45271116495132446, "learning_rate": 1.1716e-05, "loss": 0.2453, "step": 3430 }, { "epoch": 0.16357142857142856, "grad_norm": 0.4181980788707733, "learning_rate": 1.1712666666666665e-05, "loss": 0.2578, "step": 3435 }, { "epoch": 0.16380952380952382, "grad_norm": 0.6091238856315613, "learning_rate": 1.1709333333333333e-05, "loss": 0.2462, "step": 3440 }, { "epoch": 0.16404761904761905, "grad_norm": 0.3942627012729645, "learning_rate": 1.1706000000000001e-05, "loss": 0.1966, "step": 3445 }, { "epoch": 0.16428571428571428, "grad_norm": 0.4350917339324951, "learning_rate": 1.1702666666666667e-05, "loss": 0.2515, "step": 3450 }, { "epoch": 0.16452380952380952, "grad_norm": 0.4024510681629181, "learning_rate": 1.1699333333333333e-05, "loss": 0.3002, "step": 3455 }, { "epoch": 0.16476190476190475, "grad_norm": 0.45433446764945984, "learning_rate": 1.1696e-05, "loss": 0.2181, "step": 3460 }, { "epoch": 0.165, "grad_norm": 0.406320720911026, "learning_rate": 1.1692666666666666e-05, "loss": 0.2454, "step": 3465 }, { "epoch": 0.16523809523809524, "grad_norm": 0.4459182918071747, "learning_rate": 1.1689333333333333e-05, "loss": 0.2313, "step": 3470 }, { "epoch": 0.16547619047619047, "grad_norm": 0.4867779016494751, "learning_rate": 1.1686e-05, "loss": 0.2953, "step": 3475 }, { "epoch": 0.1657142857142857, "grad_norm": 0.4262408912181854, "learning_rate": 1.1682666666666667e-05, "loss": 0.2374, "step": 3480 }, { "epoch": 0.16595238095238096, "grad_norm": 0.441267728805542, "learning_rate": 1.1679333333333334e-05, "loss": 0.2443, "step": 3485 }, { "epoch": 0.1661904761904762, "grad_norm": 0.44633087515830994, "learning_rate": 1.1676e-05, "loss": 0.1758, "step": 3490 }, { "epoch": 0.16642857142857143, "grad_norm": 0.4722341001033783, "learning_rate": 1.1672666666666668e-05, "loss": 0.2211, "step": 3495 }, { "epoch": 0.16666666666666666, "grad_norm": 0.535202145576477, "learning_rate": 1.1669333333333334e-05, "loss": 0.2692, "step": 3500 }, { "epoch": 0.16690476190476192, "grad_norm": 0.419859915971756, "learning_rate": 1.1666e-05, "loss": 0.2445, "step": 3505 }, { "epoch": 0.16714285714285715, "grad_norm": 0.46846112608909607, "learning_rate": 1.1662666666666666e-05, "loss": 0.2807, "step": 3510 }, { "epoch": 0.16738095238095238, "grad_norm": 0.40608009696006775, "learning_rate": 1.1659333333333332e-05, "loss": 0.2245, "step": 3515 }, { "epoch": 0.1676190476190476, "grad_norm": 0.44062161445617676, "learning_rate": 1.1656e-05, "loss": 0.2382, "step": 3520 }, { "epoch": 0.16785714285714284, "grad_norm": 0.7350398898124695, "learning_rate": 1.1652666666666668e-05, "loss": 0.2304, "step": 3525 }, { "epoch": 0.1680952380952381, "grad_norm": 0.466980904340744, "learning_rate": 1.1649333333333334e-05, "loss": 0.2749, "step": 3530 }, { "epoch": 0.16833333333333333, "grad_norm": 0.43460240960121155, "learning_rate": 1.1646e-05, "loss": 0.2311, "step": 3535 }, { "epoch": 0.16857142857142857, "grad_norm": 0.33488306403160095, "learning_rate": 1.1642666666666666e-05, "loss": 0.2387, "step": 3540 }, { "epoch": 0.1688095238095238, "grad_norm": 0.5085304379463196, "learning_rate": 1.1639333333333332e-05, "loss": 0.2786, "step": 3545 }, { "epoch": 0.16904761904761906, "grad_norm": 0.43259483575820923, "learning_rate": 1.1636e-05, "loss": 0.2056, "step": 3550 }, { "epoch": 0.1692857142857143, "grad_norm": 0.5731767416000366, "learning_rate": 1.1632666666666666e-05, "loss": 0.2633, "step": 3555 }, { "epoch": 0.16952380952380952, "grad_norm": 0.48554426431655884, "learning_rate": 1.1629333333333332e-05, "loss": 0.243, "step": 3560 }, { "epoch": 0.16976190476190475, "grad_norm": 0.5521715879440308, "learning_rate": 1.1626e-05, "loss": 0.2291, "step": 3565 }, { "epoch": 0.17, "grad_norm": 0.477079302072525, "learning_rate": 1.1622666666666666e-05, "loss": 0.2091, "step": 3570 }, { "epoch": 0.17023809523809524, "grad_norm": 0.49563658237457275, "learning_rate": 1.1619333333333334e-05, "loss": 0.1982, "step": 3575 }, { "epoch": 0.17047619047619048, "grad_norm": 0.46785587072372437, "learning_rate": 1.1616e-05, "loss": 0.2349, "step": 3580 }, { "epoch": 0.1707142857142857, "grad_norm": 0.49745410680770874, "learning_rate": 1.1612666666666666e-05, "loss": 0.2405, "step": 3585 }, { "epoch": 0.17095238095238094, "grad_norm": 0.4397711157798767, "learning_rate": 1.1609333333333333e-05, "loss": 0.1943, "step": 3590 }, { "epoch": 0.1711904761904762, "grad_norm": 0.3912425637245178, "learning_rate": 1.1605999999999999e-05, "loss": 0.2011, "step": 3595 }, { "epoch": 0.17142857142857143, "grad_norm": 0.5039694905281067, "learning_rate": 1.1602666666666666e-05, "loss": 0.2665, "step": 3600 }, { "epoch": 0.17166666666666666, "grad_norm": 0.41568687558174133, "learning_rate": 1.1599333333333334e-05, "loss": 0.3041, "step": 3605 }, { "epoch": 0.1719047619047619, "grad_norm": 0.5591668486595154, "learning_rate": 1.1596e-05, "loss": 0.1913, "step": 3610 }, { "epoch": 0.17214285714285715, "grad_norm": 0.4683716893196106, "learning_rate": 1.1592666666666667e-05, "loss": 0.2306, "step": 3615 }, { "epoch": 0.17238095238095238, "grad_norm": 0.758122980594635, "learning_rate": 1.1589333333333333e-05, "loss": 0.3048, "step": 3620 }, { "epoch": 0.17261904761904762, "grad_norm": 0.5744490027427673, "learning_rate": 1.1586e-05, "loss": 0.2312, "step": 3625 }, { "epoch": 0.17285714285714285, "grad_norm": 0.6350762844085693, "learning_rate": 1.1582666666666667e-05, "loss": 0.1883, "step": 3630 }, { "epoch": 0.1730952380952381, "grad_norm": 0.3715668022632599, "learning_rate": 1.1579333333333333e-05, "loss": 0.1964, "step": 3635 }, { "epoch": 0.17333333333333334, "grad_norm": 0.4219156801700592, "learning_rate": 1.1575999999999999e-05, "loss": 0.2102, "step": 3640 }, { "epoch": 0.17357142857142857, "grad_norm": 0.46291404962539673, "learning_rate": 1.1572666666666667e-05, "loss": 0.2316, "step": 3645 }, { "epoch": 0.1738095238095238, "grad_norm": 0.449109822511673, "learning_rate": 1.1569333333333333e-05, "loss": 0.2072, "step": 3650 }, { "epoch": 0.17404761904761903, "grad_norm": 0.4681718349456787, "learning_rate": 1.1566e-05, "loss": 0.2589, "step": 3655 }, { "epoch": 0.1742857142857143, "grad_norm": 0.534709632396698, "learning_rate": 1.1562666666666667e-05, "loss": 0.3049, "step": 3660 }, { "epoch": 0.17452380952380953, "grad_norm": 0.5599675178527832, "learning_rate": 1.1559333333333333e-05, "loss": 0.2684, "step": 3665 }, { "epoch": 0.17476190476190476, "grad_norm": 0.47417980432510376, "learning_rate": 1.1555999999999999e-05, "loss": 0.2571, "step": 3670 }, { "epoch": 0.175, "grad_norm": 0.4114341139793396, "learning_rate": 1.1552666666666665e-05, "loss": 0.2174, "step": 3675 }, { "epoch": 0.17523809523809525, "grad_norm": 0.4574301838874817, "learning_rate": 1.1549333333333333e-05, "loss": 0.2117, "step": 3680 }, { "epoch": 0.17547619047619048, "grad_norm": 0.5299831032752991, "learning_rate": 1.1546000000000001e-05, "loss": 0.2846, "step": 3685 }, { "epoch": 0.1757142857142857, "grad_norm": 0.5653669834136963, "learning_rate": 1.1542666666666667e-05, "loss": 0.2327, "step": 3690 }, { "epoch": 0.17595238095238094, "grad_norm": 0.47741183638572693, "learning_rate": 1.1539333333333333e-05, "loss": 0.2624, "step": 3695 }, { "epoch": 0.1761904761904762, "grad_norm": 0.47018903493881226, "learning_rate": 1.1536e-05, "loss": 0.2566, "step": 3700 }, { "epoch": 0.17642857142857143, "grad_norm": 0.40733614563941956, "learning_rate": 1.1532666666666667e-05, "loss": 0.2653, "step": 3705 }, { "epoch": 0.17666666666666667, "grad_norm": 0.49493953585624695, "learning_rate": 1.1529333333333333e-05, "loss": 0.2487, "step": 3710 }, { "epoch": 0.1769047619047619, "grad_norm": 0.8238415122032166, "learning_rate": 1.1526e-05, "loss": 0.2187, "step": 3715 }, { "epoch": 0.17714285714285713, "grad_norm": 0.4080060124397278, "learning_rate": 1.1522666666666666e-05, "loss": 0.204, "step": 3720 }, { "epoch": 0.1773809523809524, "grad_norm": 0.40655577182769775, "learning_rate": 1.1519333333333333e-05, "loss": 0.2242, "step": 3725 }, { "epoch": 0.17761904761904762, "grad_norm": 0.3962951600551605, "learning_rate": 1.1516000000000001e-05, "loss": 0.2017, "step": 3730 }, { "epoch": 0.17785714285714285, "grad_norm": 0.42493703961372375, "learning_rate": 1.1512666666666667e-05, "loss": 0.2211, "step": 3735 }, { "epoch": 0.17809523809523808, "grad_norm": 0.4612710177898407, "learning_rate": 1.1509333333333333e-05, "loss": 0.2348, "step": 3740 }, { "epoch": 0.17833333333333334, "grad_norm": 0.8793023824691772, "learning_rate": 1.1506e-05, "loss": 0.2751, "step": 3745 }, { "epoch": 0.17857142857142858, "grad_norm": 0.6365879774093628, "learning_rate": 1.1502666666666666e-05, "loss": 0.2292, "step": 3750 }, { "epoch": 0.1788095238095238, "grad_norm": 0.4435412287712097, "learning_rate": 1.1499333333333334e-05, "loss": 0.2127, "step": 3755 }, { "epoch": 0.17904761904761904, "grad_norm": 0.4545089304447174, "learning_rate": 1.1496e-05, "loss": 0.2577, "step": 3760 }, { "epoch": 0.1792857142857143, "grad_norm": 0.37087222933769226, "learning_rate": 1.1492666666666666e-05, "loss": 0.2063, "step": 3765 }, { "epoch": 0.17952380952380953, "grad_norm": 0.4440690279006958, "learning_rate": 1.1489333333333334e-05, "loss": 0.2853, "step": 3770 }, { "epoch": 0.17976190476190476, "grad_norm": 0.5233120322227478, "learning_rate": 1.1486e-05, "loss": 0.2383, "step": 3775 }, { "epoch": 0.18, "grad_norm": 0.5070669651031494, "learning_rate": 1.1482666666666666e-05, "loss": 0.1991, "step": 3780 }, { "epoch": 0.18023809523809523, "grad_norm": 0.4817557632923126, "learning_rate": 1.1479333333333334e-05, "loss": 0.2094, "step": 3785 }, { "epoch": 0.18047619047619048, "grad_norm": 0.372384250164032, "learning_rate": 1.1476e-05, "loss": 0.1804, "step": 3790 }, { "epoch": 0.18071428571428572, "grad_norm": 0.48160964250564575, "learning_rate": 1.1472666666666666e-05, "loss": 0.2865, "step": 3795 }, { "epoch": 0.18095238095238095, "grad_norm": 0.4638272225856781, "learning_rate": 1.1469333333333332e-05, "loss": 0.2262, "step": 3800 }, { "epoch": 0.18119047619047618, "grad_norm": 0.3554697334766388, "learning_rate": 1.1465999999999998e-05, "loss": 0.2222, "step": 3805 }, { "epoch": 0.18142857142857144, "grad_norm": 0.5726995468139648, "learning_rate": 1.1462666666666668e-05, "loss": 0.2779, "step": 3810 }, { "epoch": 0.18166666666666667, "grad_norm": 0.4312458634376526, "learning_rate": 1.1459333333333334e-05, "loss": 0.226, "step": 3815 }, { "epoch": 0.1819047619047619, "grad_norm": 0.4782884120941162, "learning_rate": 1.1456e-05, "loss": 0.2081, "step": 3820 }, { "epoch": 0.18214285714285713, "grad_norm": 0.5569655299186707, "learning_rate": 1.1452666666666666e-05, "loss": 0.2929, "step": 3825 }, { "epoch": 0.1823809523809524, "grad_norm": 0.5984768271446228, "learning_rate": 1.1449333333333332e-05, "loss": 0.2137, "step": 3830 }, { "epoch": 0.18261904761904763, "grad_norm": 0.4555091857910156, "learning_rate": 1.1446e-05, "loss": 0.2654, "step": 3835 }, { "epoch": 0.18285714285714286, "grad_norm": 0.4937010407447815, "learning_rate": 1.1442666666666666e-05, "loss": 0.3109, "step": 3840 }, { "epoch": 0.1830952380952381, "grad_norm": 0.42995011806488037, "learning_rate": 1.1439333333333332e-05, "loss": 0.2462, "step": 3845 }, { "epoch": 0.18333333333333332, "grad_norm": 0.49044889211654663, "learning_rate": 1.1436e-05, "loss": 0.2647, "step": 3850 }, { "epoch": 0.18357142857142858, "grad_norm": 0.4854872226715088, "learning_rate": 1.1432666666666666e-05, "loss": 0.2259, "step": 3855 }, { "epoch": 0.1838095238095238, "grad_norm": 0.4120390713214874, "learning_rate": 1.1429333333333334e-05, "loss": 0.1914, "step": 3860 }, { "epoch": 0.18404761904761904, "grad_norm": 0.5428151488304138, "learning_rate": 1.1426e-05, "loss": 0.2743, "step": 3865 }, { "epoch": 0.18428571428571427, "grad_norm": 0.4118232727050781, "learning_rate": 1.1422666666666667e-05, "loss": 0.2496, "step": 3870 }, { "epoch": 0.18452380952380953, "grad_norm": 0.49740758538246155, "learning_rate": 1.1419333333333333e-05, "loss": 0.2417, "step": 3875 }, { "epoch": 0.18476190476190477, "grad_norm": 0.39032265543937683, "learning_rate": 1.1415999999999999e-05, "loss": 0.2079, "step": 3880 }, { "epoch": 0.185, "grad_norm": 0.43293800950050354, "learning_rate": 1.1412666666666667e-05, "loss": 0.2036, "step": 3885 }, { "epoch": 0.18523809523809523, "grad_norm": 0.648310661315918, "learning_rate": 1.1409333333333334e-05, "loss": 0.2448, "step": 3890 }, { "epoch": 0.1854761904761905, "grad_norm": 0.38588178157806396, "learning_rate": 1.1406e-05, "loss": 0.2183, "step": 3895 }, { "epoch": 0.18571428571428572, "grad_norm": 0.6325246095657349, "learning_rate": 1.1402666666666667e-05, "loss": 0.231, "step": 3900 }, { "epoch": 0.18595238095238095, "grad_norm": 0.4362885057926178, "learning_rate": 1.1399333333333333e-05, "loss": 0.2938, "step": 3905 }, { "epoch": 0.18619047619047618, "grad_norm": 0.3672151267528534, "learning_rate": 1.1395999999999999e-05, "loss": 0.2004, "step": 3910 }, { "epoch": 0.18642857142857142, "grad_norm": 0.512900710105896, "learning_rate": 1.1392666666666667e-05, "loss": 0.2922, "step": 3915 }, { "epoch": 0.18666666666666668, "grad_norm": 0.4605080783367157, "learning_rate": 1.1389333333333333e-05, "loss": 0.2237, "step": 3920 }, { "epoch": 0.1869047619047619, "grad_norm": 0.5397810935974121, "learning_rate": 1.1385999999999999e-05, "loss": 0.2725, "step": 3925 }, { "epoch": 0.18714285714285714, "grad_norm": 0.5799329280853271, "learning_rate": 1.1382666666666667e-05, "loss": 0.235, "step": 3930 }, { "epoch": 0.18738095238095237, "grad_norm": 0.4735875427722931, "learning_rate": 1.1379333333333333e-05, "loss": 0.2377, "step": 3935 }, { "epoch": 0.18761904761904763, "grad_norm": 0.5126222372055054, "learning_rate": 1.1376000000000001e-05, "loss": 0.2085, "step": 3940 }, { "epoch": 0.18785714285714286, "grad_norm": 0.4944373071193695, "learning_rate": 1.1372666666666667e-05, "loss": 0.2368, "step": 3945 }, { "epoch": 0.1880952380952381, "grad_norm": 0.34190672636032104, "learning_rate": 1.1369333333333333e-05, "loss": 0.2398, "step": 3950 }, { "epoch": 0.18833333333333332, "grad_norm": 0.4396822452545166, "learning_rate": 1.1366e-05, "loss": 0.2014, "step": 3955 }, { "epoch": 0.18857142857142858, "grad_norm": 0.6829125881195068, "learning_rate": 1.1362666666666665e-05, "loss": 0.2828, "step": 3960 }, { "epoch": 0.18880952380952382, "grad_norm": 0.4023096263408661, "learning_rate": 1.1359333333333333e-05, "loss": 0.1891, "step": 3965 }, { "epoch": 0.18904761904761905, "grad_norm": 0.5279996991157532, "learning_rate": 1.1356e-05, "loss": 0.2068, "step": 3970 }, { "epoch": 0.18928571428571428, "grad_norm": 0.44489869475364685, "learning_rate": 1.1352666666666667e-05, "loss": 0.2044, "step": 3975 }, { "epoch": 0.1895238095238095, "grad_norm": 0.45320913195610046, "learning_rate": 1.1349333333333333e-05, "loss": 0.2477, "step": 3980 }, { "epoch": 0.18976190476190477, "grad_norm": 0.5735762119293213, "learning_rate": 1.1346e-05, "loss": 0.2472, "step": 3985 }, { "epoch": 0.19, "grad_norm": 0.40847355127334595, "learning_rate": 1.1342666666666667e-05, "loss": 0.2608, "step": 3990 }, { "epoch": 0.19023809523809523, "grad_norm": 0.6432462930679321, "learning_rate": 1.1339333333333333e-05, "loss": 0.1872, "step": 3995 }, { "epoch": 0.19047619047619047, "grad_norm": 0.43642014265060425, "learning_rate": 1.1336e-05, "loss": 0.2755, "step": 4000 }, { "epoch": 0.19071428571428573, "grad_norm": 0.5564562678337097, "learning_rate": 1.1332666666666666e-05, "loss": 0.2441, "step": 4005 }, { "epoch": 0.19095238095238096, "grad_norm": 0.5718370079994202, "learning_rate": 1.1329333333333332e-05, "loss": 0.2613, "step": 4010 }, { "epoch": 0.1911904761904762, "grad_norm": 0.4703226685523987, "learning_rate": 1.1326000000000001e-05, "loss": 0.2064, "step": 4015 }, { "epoch": 0.19142857142857142, "grad_norm": 0.5678995847702026, "learning_rate": 1.1322666666666667e-05, "loss": 0.2609, "step": 4020 }, { "epoch": 0.19166666666666668, "grad_norm": 0.43553251028060913, "learning_rate": 1.1319333333333334e-05, "loss": 0.2804, "step": 4025 }, { "epoch": 0.1919047619047619, "grad_norm": 0.416371613740921, "learning_rate": 1.1316e-05, "loss": 0.1946, "step": 4030 }, { "epoch": 0.19214285714285714, "grad_norm": 0.5450789928436279, "learning_rate": 1.1312666666666666e-05, "loss": 0.2148, "step": 4035 }, { "epoch": 0.19238095238095237, "grad_norm": 0.4410034716129303, "learning_rate": 1.1309333333333332e-05, "loss": 0.2386, "step": 4040 }, { "epoch": 0.1926190476190476, "grad_norm": 0.46535956859588623, "learning_rate": 1.1306e-05, "loss": 0.1897, "step": 4045 }, { "epoch": 0.19285714285714287, "grad_norm": 0.4331647753715515, "learning_rate": 1.1302666666666666e-05, "loss": 0.2053, "step": 4050 }, { "epoch": 0.1930952380952381, "grad_norm": 0.38626939058303833, "learning_rate": 1.1299333333333334e-05, "loss": 0.1947, "step": 4055 }, { "epoch": 0.19333333333333333, "grad_norm": 0.5084441900253296, "learning_rate": 1.1296e-05, "loss": 0.2232, "step": 4060 }, { "epoch": 0.19357142857142856, "grad_norm": 0.49587008357048035, "learning_rate": 1.1292666666666666e-05, "loss": 0.2952, "step": 4065 }, { "epoch": 0.19380952380952382, "grad_norm": 0.5433847904205322, "learning_rate": 1.1289333333333334e-05, "loss": 0.1959, "step": 4070 }, { "epoch": 0.19404761904761905, "grad_norm": 0.3897289037704468, "learning_rate": 1.1286e-05, "loss": 0.2217, "step": 4075 }, { "epoch": 0.19428571428571428, "grad_norm": 0.43413469195365906, "learning_rate": 1.1282666666666666e-05, "loss": 0.2362, "step": 4080 }, { "epoch": 0.19452380952380952, "grad_norm": 0.5088743567466736, "learning_rate": 1.1279333333333332e-05, "loss": 0.2611, "step": 4085 }, { "epoch": 0.19476190476190477, "grad_norm": 0.43435603380203247, "learning_rate": 1.1275999999999998e-05, "loss": 0.2497, "step": 4090 }, { "epoch": 0.195, "grad_norm": 0.9716353416442871, "learning_rate": 1.1272666666666668e-05, "loss": 0.2501, "step": 4095 }, { "epoch": 0.19523809523809524, "grad_norm": 0.4843446910381317, "learning_rate": 1.1269333333333334e-05, "loss": 0.3236, "step": 4100 }, { "epoch": 0.19547619047619047, "grad_norm": 0.5390653014183044, "learning_rate": 1.1266e-05, "loss": 0.2972, "step": 4105 }, { "epoch": 0.1957142857142857, "grad_norm": 0.5144859552383423, "learning_rate": 1.1262666666666666e-05, "loss": 0.2513, "step": 4110 }, { "epoch": 0.19595238095238096, "grad_norm": 0.48678961396217346, "learning_rate": 1.1259333333333332e-05, "loss": 0.2524, "step": 4115 }, { "epoch": 0.1961904761904762, "grad_norm": 0.5183701515197754, "learning_rate": 1.1256e-05, "loss": 0.2297, "step": 4120 }, { "epoch": 0.19642857142857142, "grad_norm": 0.533778727054596, "learning_rate": 1.1252666666666666e-05, "loss": 0.273, "step": 4125 }, { "epoch": 0.19666666666666666, "grad_norm": 0.44429609179496765, "learning_rate": 1.1249333333333333e-05, "loss": 0.1808, "step": 4130 }, { "epoch": 0.19690476190476192, "grad_norm": 0.6009784936904907, "learning_rate": 1.1246e-05, "loss": 0.2159, "step": 4135 }, { "epoch": 0.19714285714285715, "grad_norm": 0.4807470142841339, "learning_rate": 1.1242666666666667e-05, "loss": 0.2243, "step": 4140 }, { "epoch": 0.19738095238095238, "grad_norm": 0.4757458567619324, "learning_rate": 1.1239333333333334e-05, "loss": 0.2334, "step": 4145 }, { "epoch": 0.1976190476190476, "grad_norm": 0.4909772574901581, "learning_rate": 1.1236e-05, "loss": 0.2463, "step": 4150 }, { "epoch": 0.19785714285714287, "grad_norm": 0.47733274102211, "learning_rate": 1.1232666666666667e-05, "loss": 0.2291, "step": 4155 }, { "epoch": 0.1980952380952381, "grad_norm": 0.46495822072029114, "learning_rate": 1.1229333333333333e-05, "loss": 0.2095, "step": 4160 }, { "epoch": 0.19833333333333333, "grad_norm": 0.4478868842124939, "learning_rate": 1.1225999999999999e-05, "loss": 0.2311, "step": 4165 }, { "epoch": 0.19857142857142857, "grad_norm": 0.5404427647590637, "learning_rate": 1.1222666666666665e-05, "loss": 0.2105, "step": 4170 }, { "epoch": 0.1988095238095238, "grad_norm": 0.43579748272895813, "learning_rate": 1.1219333333333333e-05, "loss": 0.2563, "step": 4175 }, { "epoch": 0.19904761904761906, "grad_norm": 0.4280588924884796, "learning_rate": 1.1216e-05, "loss": 0.1928, "step": 4180 }, { "epoch": 0.1992857142857143, "grad_norm": 0.8075587153434753, "learning_rate": 1.1212666666666667e-05, "loss": 0.2148, "step": 4185 }, { "epoch": 0.19952380952380952, "grad_norm": 1.1697231531143188, "learning_rate": 1.1209333333333333e-05, "loss": 0.1958, "step": 4190 }, { "epoch": 0.19976190476190475, "grad_norm": 0.4683374762535095, "learning_rate": 1.1205999999999999e-05, "loss": 0.2305, "step": 4195 }, { "epoch": 0.2, "grad_norm": 0.5602026581764221, "learning_rate": 1.1202666666666667e-05, "loss": 0.2698, "step": 4200 }, { "epoch": 0.20023809523809524, "grad_norm": 0.5623607039451599, "learning_rate": 1.1199333333333333e-05, "loss": 0.23, "step": 4205 }, { "epoch": 0.20047619047619047, "grad_norm": 0.3728276193141937, "learning_rate": 1.1196e-05, "loss": 0.2095, "step": 4210 }, { "epoch": 0.2007142857142857, "grad_norm": 1.4648454189300537, "learning_rate": 1.1192666666666665e-05, "loss": 0.1754, "step": 4215 }, { "epoch": 0.20095238095238097, "grad_norm": 0.37577784061431885, "learning_rate": 1.1189333333333333e-05, "loss": 0.1789, "step": 4220 }, { "epoch": 0.2011904761904762, "grad_norm": 0.4703547954559326, "learning_rate": 1.1186000000000001e-05, "loss": 0.2546, "step": 4225 }, { "epoch": 0.20142857142857143, "grad_norm": 0.4196191132068634, "learning_rate": 1.1182666666666667e-05, "loss": 0.2019, "step": 4230 }, { "epoch": 0.20166666666666666, "grad_norm": 0.699539065361023, "learning_rate": 1.1179333333333333e-05, "loss": 0.2849, "step": 4235 }, { "epoch": 0.2019047619047619, "grad_norm": 0.284745454788208, "learning_rate": 1.1176e-05, "loss": 0.2036, "step": 4240 }, { "epoch": 0.20214285714285715, "grad_norm": 0.5466938614845276, "learning_rate": 1.1172666666666666e-05, "loss": 0.2432, "step": 4245 }, { "epoch": 0.20238095238095238, "grad_norm": 0.45872873067855835, "learning_rate": 1.1169333333333333e-05, "loss": 0.2197, "step": 4250 }, { "epoch": 0.20261904761904762, "grad_norm": 0.4945102632045746, "learning_rate": 1.1166e-05, "loss": 0.2314, "step": 4255 }, { "epoch": 0.20285714285714285, "grad_norm": 0.45173582434654236, "learning_rate": 1.1162666666666667e-05, "loss": 0.3083, "step": 4260 }, { "epoch": 0.2030952380952381, "grad_norm": 0.46287408471107483, "learning_rate": 1.1159333333333333e-05, "loss": 0.2529, "step": 4265 }, { "epoch": 0.20333333333333334, "grad_norm": 0.4864996671676636, "learning_rate": 1.1156e-05, "loss": 0.214, "step": 4270 }, { "epoch": 0.20357142857142857, "grad_norm": 0.4696519076824188, "learning_rate": 1.1152666666666667e-05, "loss": 0.1942, "step": 4275 }, { "epoch": 0.2038095238095238, "grad_norm": 0.4505218267440796, "learning_rate": 1.1149333333333334e-05, "loss": 0.212, "step": 4280 }, { "epoch": 0.20404761904761906, "grad_norm": 0.4460529088973999, "learning_rate": 1.1146e-05, "loss": 0.2402, "step": 4285 }, { "epoch": 0.2042857142857143, "grad_norm": 0.6983427405357361, "learning_rate": 1.1142666666666666e-05, "loss": 0.2209, "step": 4290 }, { "epoch": 0.20452380952380952, "grad_norm": 0.4601213335990906, "learning_rate": 1.1139333333333332e-05, "loss": 0.2833, "step": 4295 }, { "epoch": 0.20476190476190476, "grad_norm": 0.4451412260532379, "learning_rate": 1.1136e-05, "loss": 0.2326, "step": 4300 }, { "epoch": 0.205, "grad_norm": 0.4807814657688141, "learning_rate": 1.1132666666666668e-05, "loss": 0.222, "step": 4305 }, { "epoch": 0.20523809523809525, "grad_norm": 0.4684711694717407, "learning_rate": 1.1129333333333334e-05, "loss": 0.2015, "step": 4310 }, { "epoch": 0.20547619047619048, "grad_norm": 0.39089030027389526, "learning_rate": 1.1126e-05, "loss": 0.2124, "step": 4315 }, { "epoch": 0.2057142857142857, "grad_norm": 0.7053434252738953, "learning_rate": 1.1122666666666666e-05, "loss": 0.2384, "step": 4320 }, { "epoch": 0.20595238095238094, "grad_norm": 0.46922436356544495, "learning_rate": 1.1119333333333332e-05, "loss": 0.2168, "step": 4325 }, { "epoch": 0.2061904761904762, "grad_norm": 0.5026800632476807, "learning_rate": 1.1116e-05, "loss": 0.2169, "step": 4330 }, { "epoch": 0.20642857142857143, "grad_norm": 0.3590352535247803, "learning_rate": 1.1112666666666666e-05, "loss": 0.2162, "step": 4335 }, { "epoch": 0.20666666666666667, "grad_norm": 0.6345432996749878, "learning_rate": 1.1109333333333334e-05, "loss": 0.2182, "step": 4340 }, { "epoch": 0.2069047619047619, "grad_norm": 0.43216264247894287, "learning_rate": 1.1106e-05, "loss": 0.2524, "step": 4345 }, { "epoch": 0.20714285714285716, "grad_norm": 0.3290836215019226, "learning_rate": 1.1102666666666666e-05, "loss": 0.1821, "step": 4350 }, { "epoch": 0.2073809523809524, "grad_norm": 0.5356839895248413, "learning_rate": 1.1099333333333334e-05, "loss": 0.2639, "step": 4355 }, { "epoch": 0.20761904761904762, "grad_norm": 0.5574820637702942, "learning_rate": 1.1096e-05, "loss": 0.2327, "step": 4360 }, { "epoch": 0.20785714285714285, "grad_norm": 0.4510420560836792, "learning_rate": 1.1092666666666666e-05, "loss": 0.2266, "step": 4365 }, { "epoch": 0.20809523809523808, "grad_norm": 0.4099639058113098, "learning_rate": 1.1089333333333332e-05, "loss": 0.2784, "step": 4370 }, { "epoch": 0.20833333333333334, "grad_norm": 0.36838299036026, "learning_rate": 1.1085999999999999e-05, "loss": 0.2098, "step": 4375 }, { "epoch": 0.20857142857142857, "grad_norm": 0.7338842153549194, "learning_rate": 1.1082666666666666e-05, "loss": 0.2037, "step": 4380 }, { "epoch": 0.2088095238095238, "grad_norm": 0.5078200697898865, "learning_rate": 1.1079333333333334e-05, "loss": 0.2651, "step": 4385 }, { "epoch": 0.20904761904761904, "grad_norm": 0.485422283411026, "learning_rate": 1.1076e-05, "loss": 0.1855, "step": 4390 }, { "epoch": 0.2092857142857143, "grad_norm": 0.489018052816391, "learning_rate": 1.1072666666666666e-05, "loss": 0.2163, "step": 4395 }, { "epoch": 0.20952380952380953, "grad_norm": 0.3323115408420563, "learning_rate": 1.1069333333333333e-05, "loss": 0.265, "step": 4400 }, { "epoch": 0.20976190476190476, "grad_norm": 0.5113255977630615, "learning_rate": 1.1066e-05, "loss": 0.2222, "step": 4405 }, { "epoch": 0.21, "grad_norm": 0.49656495451927185, "learning_rate": 1.1062666666666667e-05, "loss": 0.2097, "step": 4410 }, { "epoch": 0.21023809523809525, "grad_norm": 0.5878843665122986, "learning_rate": 1.1059333333333333e-05, "loss": 0.2437, "step": 4415 }, { "epoch": 0.21047619047619048, "grad_norm": 0.41625475883483887, "learning_rate": 1.1055999999999999e-05, "loss": 0.2232, "step": 4420 }, { "epoch": 0.21071428571428572, "grad_norm": 0.5285531878471375, "learning_rate": 1.1052666666666667e-05, "loss": 0.281, "step": 4425 }, { "epoch": 0.21095238095238095, "grad_norm": 0.8464274406433105, "learning_rate": 1.1049333333333333e-05, "loss": 0.2637, "step": 4430 }, { "epoch": 0.21119047619047618, "grad_norm": 0.5128867626190186, "learning_rate": 1.1046e-05, "loss": 0.2197, "step": 4435 }, { "epoch": 0.21142857142857144, "grad_norm": 0.3565622568130493, "learning_rate": 1.1042666666666667e-05, "loss": 0.2543, "step": 4440 }, { "epoch": 0.21166666666666667, "grad_norm": 0.44533562660217285, "learning_rate": 1.1039333333333333e-05, "loss": 0.2231, "step": 4445 }, { "epoch": 0.2119047619047619, "grad_norm": 0.46292153000831604, "learning_rate": 1.1035999999999999e-05, "loss": 0.2562, "step": 4450 }, { "epoch": 0.21214285714285713, "grad_norm": 0.4325714707374573, "learning_rate": 1.1032666666666665e-05, "loss": 0.236, "step": 4455 }, { "epoch": 0.2123809523809524, "grad_norm": 0.4110482335090637, "learning_rate": 1.1029333333333333e-05, "loss": 0.2151, "step": 4460 }, { "epoch": 0.21261904761904762, "grad_norm": 0.4604465663433075, "learning_rate": 1.1026e-05, "loss": 0.2726, "step": 4465 }, { "epoch": 0.21285714285714286, "grad_norm": 0.40031057596206665, "learning_rate": 1.1022666666666667e-05, "loss": 0.2257, "step": 4470 }, { "epoch": 0.2130952380952381, "grad_norm": 0.35320785641670227, "learning_rate": 1.1019333333333333e-05, "loss": 0.2104, "step": 4475 }, { "epoch": 0.21333333333333335, "grad_norm": 0.5770805478096008, "learning_rate": 1.1016e-05, "loss": 0.2577, "step": 4480 }, { "epoch": 0.21357142857142858, "grad_norm": 0.43095895648002625, "learning_rate": 1.1012666666666667e-05, "loss": 0.2835, "step": 4485 }, { "epoch": 0.2138095238095238, "grad_norm": 0.427654892206192, "learning_rate": 1.1009333333333333e-05, "loss": 0.2323, "step": 4490 }, { "epoch": 0.21404761904761904, "grad_norm": 0.579460859298706, "learning_rate": 1.1006e-05, "loss": 0.3141, "step": 4495 }, { "epoch": 0.21428571428571427, "grad_norm": 0.47393152117729187, "learning_rate": 1.1002666666666665e-05, "loss": 0.2033, "step": 4500 }, { "epoch": 0.21452380952380953, "grad_norm": 0.47661203145980835, "learning_rate": 1.0999333333333333e-05, "loss": 0.3075, "step": 4505 }, { "epoch": 0.21476190476190476, "grad_norm": 0.5260448455810547, "learning_rate": 1.0996000000000001e-05, "loss": 0.2341, "step": 4510 }, { "epoch": 0.215, "grad_norm": 0.43321266770362854, "learning_rate": 1.0992666666666667e-05, "loss": 0.2723, "step": 4515 }, { "epoch": 0.21523809523809523, "grad_norm": 0.4411744475364685, "learning_rate": 1.0989333333333333e-05, "loss": 0.2167, "step": 4520 }, { "epoch": 0.2154761904761905, "grad_norm": 0.41950109601020813, "learning_rate": 1.0986e-05, "loss": 0.2193, "step": 4525 }, { "epoch": 0.21571428571428572, "grad_norm": 0.5178266167640686, "learning_rate": 1.0982666666666666e-05, "loss": 0.2161, "step": 4530 }, { "epoch": 0.21595238095238095, "grad_norm": 0.4702880382537842, "learning_rate": 1.0979333333333333e-05, "loss": 0.2916, "step": 4535 }, { "epoch": 0.21619047619047618, "grad_norm": 0.4968208372592926, "learning_rate": 1.0976e-05, "loss": 0.2335, "step": 4540 }, { "epoch": 0.21642857142857144, "grad_norm": 0.41291606426239014, "learning_rate": 1.0972666666666667e-05, "loss": 0.2532, "step": 4545 }, { "epoch": 0.21666666666666667, "grad_norm": 0.5399250388145447, "learning_rate": 1.0969333333333334e-05, "loss": 0.2189, "step": 4550 }, { "epoch": 0.2169047619047619, "grad_norm": 0.425202339887619, "learning_rate": 1.0966e-05, "loss": 0.1977, "step": 4555 }, { "epoch": 0.21714285714285714, "grad_norm": 0.45250535011291504, "learning_rate": 1.0962666666666666e-05, "loss": 0.2044, "step": 4560 }, { "epoch": 0.21738095238095237, "grad_norm": 0.4235742390155792, "learning_rate": 1.0959333333333334e-05, "loss": 0.2718, "step": 4565 }, { "epoch": 0.21761904761904763, "grad_norm": 0.45266419649124146, "learning_rate": 1.0956e-05, "loss": 0.2402, "step": 4570 }, { "epoch": 0.21785714285714286, "grad_norm": 0.3797140121459961, "learning_rate": 1.0952666666666666e-05, "loss": 0.2199, "step": 4575 }, { "epoch": 0.2180952380952381, "grad_norm": 0.4009999632835388, "learning_rate": 1.0949333333333332e-05, "loss": 0.2335, "step": 4580 }, { "epoch": 0.21833333333333332, "grad_norm": 0.5447395443916321, "learning_rate": 1.0946e-05, "loss": 0.2189, "step": 4585 }, { "epoch": 0.21857142857142858, "grad_norm": 0.46769237518310547, "learning_rate": 1.0942666666666668e-05, "loss": 0.2476, "step": 4590 }, { "epoch": 0.21880952380952381, "grad_norm": 0.4914367198944092, "learning_rate": 1.0939333333333334e-05, "loss": 0.224, "step": 4595 }, { "epoch": 0.21904761904761905, "grad_norm": 0.3423117995262146, "learning_rate": 1.0936e-05, "loss": 0.2271, "step": 4600 }, { "epoch": 0.21928571428571428, "grad_norm": 0.3927120268344879, "learning_rate": 1.0932666666666666e-05, "loss": 0.1932, "step": 4605 }, { "epoch": 0.2195238095238095, "grad_norm": 0.5544432401657104, "learning_rate": 1.0929333333333332e-05, "loss": 0.217, "step": 4610 }, { "epoch": 0.21976190476190477, "grad_norm": 0.3604263663291931, "learning_rate": 1.0926e-05, "loss": 0.2177, "step": 4615 }, { "epoch": 0.22, "grad_norm": 0.43923622369766235, "learning_rate": 1.0922666666666666e-05, "loss": 0.245, "step": 4620 }, { "epoch": 0.22023809523809523, "grad_norm": 0.5110149383544922, "learning_rate": 1.0919333333333332e-05, "loss": 0.2074, "step": 4625 }, { "epoch": 0.22047619047619046, "grad_norm": 0.48096007108688354, "learning_rate": 1.0916e-05, "loss": 0.2072, "step": 4630 }, { "epoch": 0.22071428571428572, "grad_norm": 0.5767936110496521, "learning_rate": 1.0912666666666666e-05, "loss": 0.2231, "step": 4635 }, { "epoch": 0.22095238095238096, "grad_norm": 0.7209386825561523, "learning_rate": 1.0909333333333334e-05, "loss": 0.1984, "step": 4640 }, { "epoch": 0.2211904761904762, "grad_norm": 1.2304115295410156, "learning_rate": 1.0906e-05, "loss": 0.2392, "step": 4645 }, { "epoch": 0.22142857142857142, "grad_norm": 0.4773222804069519, "learning_rate": 1.0902666666666666e-05, "loss": 0.2518, "step": 4650 }, { "epoch": 0.22166666666666668, "grad_norm": 0.5148940682411194, "learning_rate": 1.0899333333333333e-05, "loss": 0.2704, "step": 4655 }, { "epoch": 0.2219047619047619, "grad_norm": 0.4754914343357086, "learning_rate": 1.0895999999999999e-05, "loss": 0.2351, "step": 4660 }, { "epoch": 0.22214285714285714, "grad_norm": 0.31006330251693726, "learning_rate": 1.0892666666666667e-05, "loss": 0.2015, "step": 4665 }, { "epoch": 0.22238095238095237, "grad_norm": 0.47888386249542236, "learning_rate": 1.0889333333333334e-05, "loss": 0.3015, "step": 4670 }, { "epoch": 0.2226190476190476, "grad_norm": 0.5343570709228516, "learning_rate": 1.0886e-05, "loss": 0.2788, "step": 4675 }, { "epoch": 0.22285714285714286, "grad_norm": 0.4352496862411499, "learning_rate": 1.0882666666666667e-05, "loss": 0.2083, "step": 4680 }, { "epoch": 0.2230952380952381, "grad_norm": 0.47518250346183777, "learning_rate": 1.0879333333333333e-05, "loss": 0.2195, "step": 4685 }, { "epoch": 0.22333333333333333, "grad_norm": 0.48670196533203125, "learning_rate": 1.0875999999999999e-05, "loss": 0.21, "step": 4690 }, { "epoch": 0.22357142857142856, "grad_norm": 0.45145443081855774, "learning_rate": 1.0872666666666667e-05, "loss": 0.231, "step": 4695 }, { "epoch": 0.22380952380952382, "grad_norm": 0.48523855209350586, "learning_rate": 1.0869333333333333e-05, "loss": 0.2663, "step": 4700 }, { "epoch": 0.22404761904761905, "grad_norm": 0.3941902220249176, "learning_rate": 1.0865999999999999e-05, "loss": 0.2221, "step": 4705 }, { "epoch": 0.22428571428571428, "grad_norm": 0.4417838454246521, "learning_rate": 1.0862666666666667e-05, "loss": 0.2726, "step": 4710 }, { "epoch": 0.22452380952380951, "grad_norm": 0.541519820690155, "learning_rate": 1.0859333333333333e-05, "loss": 0.2198, "step": 4715 }, { "epoch": 0.22476190476190477, "grad_norm": 0.5049914121627808, "learning_rate": 1.0856e-05, "loss": 0.2693, "step": 4720 }, { "epoch": 0.225, "grad_norm": 0.580356776714325, "learning_rate": 1.0852666666666667e-05, "loss": 0.2429, "step": 4725 }, { "epoch": 0.22523809523809524, "grad_norm": 0.4421783983707428, "learning_rate": 1.0849333333333333e-05, "loss": 0.2461, "step": 4730 }, { "epoch": 0.22547619047619047, "grad_norm": 0.3803107440471649, "learning_rate": 1.0846e-05, "loss": 0.2561, "step": 4735 }, { "epoch": 0.2257142857142857, "grad_norm": 0.40628716349601746, "learning_rate": 1.0842666666666665e-05, "loss": 0.2047, "step": 4740 }, { "epoch": 0.22595238095238096, "grad_norm": 0.3444834351539612, "learning_rate": 1.0839333333333333e-05, "loss": 0.1906, "step": 4745 }, { "epoch": 0.2261904761904762, "grad_norm": 0.5140734314918518, "learning_rate": 1.0836000000000001e-05, "loss": 0.2443, "step": 4750 }, { "epoch": 0.22642857142857142, "grad_norm": 0.5331853032112122, "learning_rate": 1.0832666666666667e-05, "loss": 0.2513, "step": 4755 }, { "epoch": 0.22666666666666666, "grad_norm": 0.4748820662498474, "learning_rate": 1.0829333333333333e-05, "loss": 0.2912, "step": 4760 }, { "epoch": 0.22690476190476191, "grad_norm": 0.43179595470428467, "learning_rate": 1.0826e-05, "loss": 0.1708, "step": 4765 }, { "epoch": 0.22714285714285715, "grad_norm": 0.576518714427948, "learning_rate": 1.0822666666666667e-05, "loss": 0.2449, "step": 4770 }, { "epoch": 0.22738095238095238, "grad_norm": 0.31619441509246826, "learning_rate": 1.0819333333333333e-05, "loss": 0.1947, "step": 4775 }, { "epoch": 0.2276190476190476, "grad_norm": 0.5276644825935364, "learning_rate": 1.0816e-05, "loss": 0.243, "step": 4780 }, { "epoch": 0.22785714285714287, "grad_norm": 0.48875436186790466, "learning_rate": 1.0812666666666666e-05, "loss": 0.1891, "step": 4785 }, { "epoch": 0.2280952380952381, "grad_norm": 0.45123428106307983, "learning_rate": 1.0809333333333333e-05, "loss": 0.2296, "step": 4790 }, { "epoch": 0.22833333333333333, "grad_norm": 0.4609377980232239, "learning_rate": 1.0806000000000001e-05, "loss": 0.2528, "step": 4795 }, { "epoch": 0.22857142857142856, "grad_norm": 0.535766065120697, "learning_rate": 1.0802666666666667e-05, "loss": 0.244, "step": 4800 }, { "epoch": 0.2288095238095238, "grad_norm": 0.38437482714653015, "learning_rate": 1.0799333333333334e-05, "loss": 0.1704, "step": 4805 }, { "epoch": 0.22904761904761906, "grad_norm": 0.4196012616157532, "learning_rate": 1.0796e-05, "loss": 0.1945, "step": 4810 }, { "epoch": 0.2292857142857143, "grad_norm": 0.48755595088005066, "learning_rate": 1.0792666666666666e-05, "loss": 0.2556, "step": 4815 }, { "epoch": 0.22952380952380952, "grad_norm": 0.4229910671710968, "learning_rate": 1.0789333333333334e-05, "loss": 0.2334, "step": 4820 }, { "epoch": 0.22976190476190475, "grad_norm": 0.39256927371025085, "learning_rate": 1.0786e-05, "loss": 0.212, "step": 4825 }, { "epoch": 0.23, "grad_norm": 0.4948219954967499, "learning_rate": 1.0782666666666666e-05, "loss": 0.2016, "step": 4830 }, { "epoch": 0.23023809523809524, "grad_norm": 0.5946123600006104, "learning_rate": 1.0779333333333334e-05, "loss": 0.2776, "step": 4835 }, { "epoch": 0.23047619047619047, "grad_norm": NaN, "learning_rate": 1.0776666666666666e-05, "loss": 0.269, "step": 4840 }, { "epoch": 0.2307142857142857, "grad_norm": 0.4283415377140045, "learning_rate": 1.0773333333333332e-05, "loss": 0.234, "step": 4845 }, { "epoch": 0.23095238095238096, "grad_norm": 0.5767593383789062, "learning_rate": 1.0769999999999999e-05, "loss": 0.2518, "step": 4850 }, { "epoch": 0.2311904761904762, "grad_norm": 0.4534319043159485, "learning_rate": 1.0766666666666666e-05, "loss": 0.2395, "step": 4855 }, { "epoch": 0.23142857142857143, "grad_norm": 0.4289463460445404, "learning_rate": 1.0763333333333334e-05, "loss": 0.2457, "step": 4860 }, { "epoch": 0.23166666666666666, "grad_norm": 0.8912723064422607, "learning_rate": 1.076e-05, "loss": 0.1951, "step": 4865 }, { "epoch": 0.2319047619047619, "grad_norm": 0.500620424747467, "learning_rate": 1.0756666666666666e-05, "loss": 0.2515, "step": 4870 }, { "epoch": 0.23214285714285715, "grad_norm": 0.5170403122901917, "learning_rate": 1.0753333333333333e-05, "loss": 0.205, "step": 4875 }, { "epoch": 0.23238095238095238, "grad_norm": 0.31139734387397766, "learning_rate": 1.075e-05, "loss": 0.2159, "step": 4880 }, { "epoch": 0.23261904761904761, "grad_norm": 0.4611368775367737, "learning_rate": 1.0746666666666667e-05, "loss": 0.1965, "step": 4885 }, { "epoch": 0.23285714285714285, "grad_norm": 0.4162490665912628, "learning_rate": 1.0743333333333333e-05, "loss": 0.296, "step": 4890 }, { "epoch": 0.2330952380952381, "grad_norm": 0.6659229397773743, "learning_rate": 1.0739999999999999e-05, "loss": 0.2551, "step": 4895 }, { "epoch": 0.23333333333333334, "grad_norm": 0.5014577507972717, "learning_rate": 1.0736666666666667e-05, "loss": 0.2201, "step": 4900 }, { "epoch": 0.23357142857142857, "grad_norm": 0.41894543170928955, "learning_rate": 1.0733333333333334e-05, "loss": 0.2018, "step": 4905 }, { "epoch": 0.2338095238095238, "grad_norm": 0.406739741563797, "learning_rate": 1.073e-05, "loss": 0.2475, "step": 4910 }, { "epoch": 0.23404761904761906, "grad_norm": 0.4655129015445709, "learning_rate": 1.0726666666666667e-05, "loss": 0.2551, "step": 4915 }, { "epoch": 0.2342857142857143, "grad_norm": 0.3395330309867859, "learning_rate": 1.0723333333333333e-05, "loss": 0.2419, "step": 4920 }, { "epoch": 0.23452380952380952, "grad_norm": 0.41435232758522034, "learning_rate": 1.0719999999999999e-05, "loss": 0.1934, "step": 4925 }, { "epoch": 0.23476190476190475, "grad_norm": 0.4223523437976837, "learning_rate": 1.0716666666666665e-05, "loss": 0.2315, "step": 4930 }, { "epoch": 0.235, "grad_norm": 0.497108519077301, "learning_rate": 1.0713333333333333e-05, "loss": 0.2273, "step": 4935 }, { "epoch": 0.23523809523809525, "grad_norm": 0.4798235297203064, "learning_rate": 1.071e-05, "loss": 0.238, "step": 4940 }, { "epoch": 0.23547619047619048, "grad_norm": 0.4631028175354004, "learning_rate": 1.0706666666666667e-05, "loss": 0.2067, "step": 4945 }, { "epoch": 0.2357142857142857, "grad_norm": 0.508403480052948, "learning_rate": 1.0703333333333333e-05, "loss": 0.2156, "step": 4950 }, { "epoch": 0.23595238095238094, "grad_norm": 0.37365031242370605, "learning_rate": 1.07e-05, "loss": 0.2379, "step": 4955 }, { "epoch": 0.2361904761904762, "grad_norm": 0.4444081783294678, "learning_rate": 1.0696666666666667e-05, "loss": 0.2341, "step": 4960 }, { "epoch": 0.23642857142857143, "grad_norm": 0.4072295129299164, "learning_rate": 1.0693333333333333e-05, "loss": 0.2378, "step": 4965 }, { "epoch": 0.23666666666666666, "grad_norm": 0.40069666504859924, "learning_rate": 1.069e-05, "loss": 0.2365, "step": 4970 }, { "epoch": 0.2369047619047619, "grad_norm": 0.49424389004707336, "learning_rate": 1.0686666666666665e-05, "loss": 0.2662, "step": 4975 }, { "epoch": 0.23714285714285716, "grad_norm": 0.5317731499671936, "learning_rate": 1.0683333333333333e-05, "loss": 0.2357, "step": 4980 }, { "epoch": 0.2373809523809524, "grad_norm": 0.44873252511024475, "learning_rate": 1.0680000000000001e-05, "loss": 0.2588, "step": 4985 }, { "epoch": 0.23761904761904762, "grad_norm": 0.3860984742641449, "learning_rate": 1.0676666666666667e-05, "loss": 0.2279, "step": 4990 }, { "epoch": 0.23785714285714285, "grad_norm": 0.45163220167160034, "learning_rate": 1.0673333333333333e-05, "loss": 0.2488, "step": 4995 }, { "epoch": 0.23809523809523808, "grad_norm": 0.458688348531723, "learning_rate": 1.067e-05, "loss": 0.2804, "step": 5000 }, { "epoch": 0.23833333333333334, "grad_norm": 0.41844096779823303, "learning_rate": 1.0666666666666666e-05, "loss": 0.1948, "step": 5005 }, { "epoch": 0.23857142857142857, "grad_norm": 0.34464994072914124, "learning_rate": 1.0663333333333333e-05, "loss": 0.1732, "step": 5010 }, { "epoch": 0.2388095238095238, "grad_norm": 0.4065316617488861, "learning_rate": 1.066e-05, "loss": 0.2548, "step": 5015 }, { "epoch": 0.23904761904761904, "grad_norm": 0.4915396571159363, "learning_rate": 1.0656666666666667e-05, "loss": 0.2519, "step": 5020 }, { "epoch": 0.2392857142857143, "grad_norm": 0.40471574664115906, "learning_rate": 1.0653333333333334e-05, "loss": 0.2356, "step": 5025 }, { "epoch": 0.23952380952380953, "grad_norm": 0.4860270917415619, "learning_rate": 1.065e-05, "loss": 0.2383, "step": 5030 }, { "epoch": 0.23976190476190476, "grad_norm": 0.5105316042900085, "learning_rate": 1.0646666666666668e-05, "loss": 0.2182, "step": 5035 }, { "epoch": 0.24, "grad_norm": 0.4580463767051697, "learning_rate": 1.0643333333333334e-05, "loss": 0.1923, "step": 5040 }, { "epoch": 0.24023809523809525, "grad_norm": 0.4548535645008087, "learning_rate": 1.064e-05, "loss": 0.2127, "step": 5045 }, { "epoch": 0.24047619047619048, "grad_norm": 0.40693479776382446, "learning_rate": 1.0636666666666666e-05, "loss": 0.1947, "step": 5050 }, { "epoch": 0.24071428571428571, "grad_norm": 0.40198683738708496, "learning_rate": 1.0633333333333332e-05, "loss": 0.214, "step": 5055 }, { "epoch": 0.24095238095238095, "grad_norm": 0.6424078941345215, "learning_rate": 1.063e-05, "loss": 0.223, "step": 5060 }, { "epoch": 0.24119047619047618, "grad_norm": 0.3968958556652069, "learning_rate": 1.0626666666666668e-05, "loss": 0.2272, "step": 5065 }, { "epoch": 0.24142857142857144, "grad_norm": 0.4178105294704437, "learning_rate": 1.0623333333333334e-05, "loss": 0.228, "step": 5070 }, { "epoch": 0.24166666666666667, "grad_norm": 0.38970035314559937, "learning_rate": 1.062e-05, "loss": 0.25, "step": 5075 }, { "epoch": 0.2419047619047619, "grad_norm": 0.4204869866371155, "learning_rate": 1.0616666666666666e-05, "loss": 0.2114, "step": 5080 }, { "epoch": 0.24214285714285713, "grad_norm": 0.46705859899520874, "learning_rate": 1.0613333333333332e-05, "loss": 0.1711, "step": 5085 }, { "epoch": 0.2423809523809524, "grad_norm": 0.48185497522354126, "learning_rate": 1.061e-05, "loss": 0.2515, "step": 5090 }, { "epoch": 0.24261904761904762, "grad_norm": 0.5361195802688599, "learning_rate": 1.0606666666666666e-05, "loss": 0.2011, "step": 5095 }, { "epoch": 0.24285714285714285, "grad_norm": 0.5451988577842712, "learning_rate": 1.0603333333333332e-05, "loss": 0.2373, "step": 5100 }, { "epoch": 0.2430952380952381, "grad_norm": 0.37937697768211365, "learning_rate": 1.06e-05, "loss": 0.1999, "step": 5105 }, { "epoch": 0.24333333333333335, "grad_norm": 0.4784948527812958, "learning_rate": 1.0596666666666666e-05, "loss": 0.2122, "step": 5110 }, { "epoch": 0.24357142857142858, "grad_norm": 0.5234044194221497, "learning_rate": 1.0593333333333334e-05, "loss": 0.2835, "step": 5115 }, { "epoch": 0.2438095238095238, "grad_norm": 0.47538384795188904, "learning_rate": 1.059e-05, "loss": 0.2515, "step": 5120 }, { "epoch": 0.24404761904761904, "grad_norm": 0.4461069107055664, "learning_rate": 1.0586666666666666e-05, "loss": 0.2411, "step": 5125 }, { "epoch": 0.24428571428571427, "grad_norm": 0.5778585076332092, "learning_rate": 1.0583333333333333e-05, "loss": 0.2771, "step": 5130 }, { "epoch": 0.24452380952380953, "grad_norm": 0.5230033993721008, "learning_rate": 1.0579999999999999e-05, "loss": 0.2369, "step": 5135 }, { "epoch": 0.24476190476190476, "grad_norm": 0.4575048089027405, "learning_rate": 1.0576666666666666e-05, "loss": 0.2653, "step": 5140 }, { "epoch": 0.245, "grad_norm": 0.6091750264167786, "learning_rate": 1.0573333333333334e-05, "loss": 0.2445, "step": 5145 }, { "epoch": 0.24523809523809523, "grad_norm": 0.34982168674468994, "learning_rate": 1.057e-05, "loss": 0.2622, "step": 5150 }, { "epoch": 0.2454761904761905, "grad_norm": 0.452891081571579, "learning_rate": 1.0566666666666667e-05, "loss": 0.2699, "step": 5155 }, { "epoch": 0.24571428571428572, "grad_norm": 0.47171899676322937, "learning_rate": 1.0563333333333333e-05, "loss": 0.2188, "step": 5160 }, { "epoch": 0.24595238095238095, "grad_norm": 0.36701250076293945, "learning_rate": 1.056e-05, "loss": 0.1981, "step": 5165 }, { "epoch": 0.24619047619047618, "grad_norm": 0.4255240559577942, "learning_rate": 1.0556666666666667e-05, "loss": 0.2447, "step": 5170 }, { "epoch": 0.24642857142857144, "grad_norm": 0.4642743170261383, "learning_rate": 1.0553333333333333e-05, "loss": 0.2512, "step": 5175 }, { "epoch": 0.24666666666666667, "grad_norm": 0.5370716452598572, "learning_rate": 1.0549999999999999e-05, "loss": 0.2457, "step": 5180 }, { "epoch": 0.2469047619047619, "grad_norm": 0.4371606409549713, "learning_rate": 1.0546666666666667e-05, "loss": 0.2709, "step": 5185 }, { "epoch": 0.24714285714285714, "grad_norm": 0.42488253116607666, "learning_rate": 1.0543333333333333e-05, "loss": 0.2119, "step": 5190 }, { "epoch": 0.24738095238095237, "grad_norm": 0.38031408190727234, "learning_rate": 1.054e-05, "loss": 0.1995, "step": 5195 }, { "epoch": 0.24761904761904763, "grad_norm": 1.1893171072006226, "learning_rate": 1.0536666666666667e-05, "loss": 0.2699, "step": 5200 }, { "epoch": 0.24785714285714286, "grad_norm": 0.3898259997367859, "learning_rate": 1.0533333333333333e-05, "loss": 0.2295, "step": 5205 }, { "epoch": 0.2480952380952381, "grad_norm": 0.4767080545425415, "learning_rate": 1.0529999999999999e-05, "loss": 0.2737, "step": 5210 }, { "epoch": 0.24833333333333332, "grad_norm": 0.4147859513759613, "learning_rate": 1.0526666666666665e-05, "loss": 0.2197, "step": 5215 }, { "epoch": 0.24857142857142858, "grad_norm": 0.4828737676143646, "learning_rate": 1.0523333333333333e-05, "loss": 0.212, "step": 5220 }, { "epoch": 0.2488095238095238, "grad_norm": 0.4592319130897522, "learning_rate": 1.0520000000000001e-05, "loss": 0.1901, "step": 5225 }, { "epoch": 0.24904761904761905, "grad_norm": 0.41112020611763, "learning_rate": 1.0516666666666667e-05, "loss": 0.2213, "step": 5230 }, { "epoch": 0.24928571428571428, "grad_norm": 0.4237831234931946, "learning_rate": 1.0513333333333333e-05, "loss": 0.2203, "step": 5235 }, { "epoch": 0.24952380952380954, "grad_norm": 0.5020443797111511, "learning_rate": 1.051e-05, "loss": 0.2623, "step": 5240 }, { "epoch": 0.24976190476190477, "grad_norm": 0.5479231476783752, "learning_rate": 1.0506666666666667e-05, "loss": 0.2541, "step": 5245 }, { "epoch": 0.25, "grad_norm": 0.37134307622909546, "learning_rate": 1.0503333333333333e-05, "loss": 0.2032, "step": 5250 }, { "epoch": 0.25023809523809526, "grad_norm": 1.7175365686416626, "learning_rate": 1.05e-05, "loss": 0.2221, "step": 5255 }, { "epoch": 0.25047619047619046, "grad_norm": 0.4485403001308441, "learning_rate": 1.0496666666666666e-05, "loss": 0.2554, "step": 5260 }, { "epoch": 0.2507142857142857, "grad_norm": 0.4707174599170685, "learning_rate": 1.0493333333333333e-05, "loss": 0.206, "step": 5265 }, { "epoch": 0.2509523809523809, "grad_norm": 0.43309351801872253, "learning_rate": 1.0490000000000001e-05, "loss": 0.2505, "step": 5270 }, { "epoch": 0.2511904761904762, "grad_norm": 0.5384787321090698, "learning_rate": 1.0486666666666667e-05, "loss": 0.2259, "step": 5275 }, { "epoch": 0.25142857142857145, "grad_norm": 0.47407862544059753, "learning_rate": 1.0483333333333333e-05, "loss": 0.2238, "step": 5280 }, { "epoch": 0.25166666666666665, "grad_norm": 0.5193672776222229, "learning_rate": 1.048e-05, "loss": 0.235, "step": 5285 }, { "epoch": 0.2519047619047619, "grad_norm": 0.35939300060272217, "learning_rate": 1.0476666666666666e-05, "loss": 0.181, "step": 5290 }, { "epoch": 0.25214285714285717, "grad_norm": 0.3996608257293701, "learning_rate": 1.0473333333333334e-05, "loss": 0.2249, "step": 5295 }, { "epoch": 0.2523809523809524, "grad_norm": 0.5504075884819031, "learning_rate": 1.047e-05, "loss": 0.227, "step": 5300 }, { "epoch": 0.25261904761904763, "grad_norm": 0.353520929813385, "learning_rate": 1.0466666666666666e-05, "loss": 0.1711, "step": 5305 }, { "epoch": 0.25285714285714284, "grad_norm": 0.6710237264633179, "learning_rate": 1.0463333333333334e-05, "loss": 0.2102, "step": 5310 }, { "epoch": 0.2530952380952381, "grad_norm": 0.41454994678497314, "learning_rate": 1.046e-05, "loss": 0.258, "step": 5315 }, { "epoch": 0.25333333333333335, "grad_norm": 0.5335355997085571, "learning_rate": 1.0456666666666668e-05, "loss": 0.1693, "step": 5320 }, { "epoch": 0.25357142857142856, "grad_norm": 0.4399421513080597, "learning_rate": 1.0453333333333334e-05, "loss": 0.2369, "step": 5325 }, { "epoch": 0.2538095238095238, "grad_norm": 0.48771271109580994, "learning_rate": 1.045e-05, "loss": 0.2269, "step": 5330 }, { "epoch": 0.254047619047619, "grad_norm": 0.600234866142273, "learning_rate": 1.0446666666666666e-05, "loss": 0.2228, "step": 5335 }, { "epoch": 0.2542857142857143, "grad_norm": 0.4483477771282196, "learning_rate": 1.0443333333333332e-05, "loss": 0.2326, "step": 5340 }, { "epoch": 0.25452380952380954, "grad_norm": 0.3960566222667694, "learning_rate": 1.0439999999999998e-05, "loss": 0.2279, "step": 5345 }, { "epoch": 0.25476190476190474, "grad_norm": 0.47654539346694946, "learning_rate": 1.0436666666666668e-05, "loss": 0.2273, "step": 5350 }, { "epoch": 0.255, "grad_norm": 0.5117120146751404, "learning_rate": 1.0433333333333334e-05, "loss": 0.2686, "step": 5355 }, { "epoch": 0.25523809523809526, "grad_norm": 0.5067020058631897, "learning_rate": 1.043e-05, "loss": 0.2574, "step": 5360 }, { "epoch": 0.25547619047619047, "grad_norm": 0.4202929735183716, "learning_rate": 1.0426666666666666e-05, "loss": 0.2409, "step": 5365 }, { "epoch": 0.2557142857142857, "grad_norm": 0.5630784034729004, "learning_rate": 1.0423333333333332e-05, "loss": 0.2879, "step": 5370 }, { "epoch": 0.25595238095238093, "grad_norm": 0.4388429522514343, "learning_rate": 1.042e-05, "loss": 0.2327, "step": 5375 }, { "epoch": 0.2561904761904762, "grad_norm": 0.42941492795944214, "learning_rate": 1.0416666666666666e-05, "loss": 0.1965, "step": 5380 }, { "epoch": 0.25642857142857145, "grad_norm": 0.8738417625427246, "learning_rate": 1.0413333333333332e-05, "loss": 0.2328, "step": 5385 }, { "epoch": 0.25666666666666665, "grad_norm": 0.5760684013366699, "learning_rate": 1.041e-05, "loss": 0.2852, "step": 5390 }, { "epoch": 0.2569047619047619, "grad_norm": 0.5460196733474731, "learning_rate": 1.0406666666666666e-05, "loss": 0.2848, "step": 5395 }, { "epoch": 0.2571428571428571, "grad_norm": 0.38249671459198, "learning_rate": 1.0403333333333334e-05, "loss": 0.2384, "step": 5400 }, { "epoch": 0.2573809523809524, "grad_norm": 0.593159556388855, "learning_rate": 1.04e-05, "loss": 0.2102, "step": 5405 }, { "epoch": 0.25761904761904764, "grad_norm": 0.3895534574985504, "learning_rate": 1.0396666666666667e-05, "loss": 0.2165, "step": 5410 }, { "epoch": 0.25785714285714284, "grad_norm": 0.4437747597694397, "learning_rate": 1.0393333333333333e-05, "loss": 0.2363, "step": 5415 }, { "epoch": 0.2580952380952381, "grad_norm": 0.546825647354126, "learning_rate": 1.0389999999999999e-05, "loss": 0.1929, "step": 5420 }, { "epoch": 0.25833333333333336, "grad_norm": 0.47013333439826965, "learning_rate": 1.0386666666666667e-05, "loss": 0.2292, "step": 5425 }, { "epoch": 0.25857142857142856, "grad_norm": 0.5007214546203613, "learning_rate": 1.0383333333333334e-05, "loss": 0.2455, "step": 5430 }, { "epoch": 0.2588095238095238, "grad_norm": 0.5036619305610657, "learning_rate": 1.038e-05, "loss": 0.2366, "step": 5435 }, { "epoch": 0.259047619047619, "grad_norm": 0.4926077425479889, "learning_rate": 1.0376666666666667e-05, "loss": 0.2335, "step": 5440 }, { "epoch": 0.2592857142857143, "grad_norm": 0.4895643889904022, "learning_rate": 1.0373333333333333e-05, "loss": 0.1848, "step": 5445 }, { "epoch": 0.25952380952380955, "grad_norm": 0.4866373836994171, "learning_rate": 1.037e-05, "loss": 0.24, "step": 5450 }, { "epoch": 0.25976190476190475, "grad_norm": 0.42952749133110046, "learning_rate": 1.0366666666666667e-05, "loss": 0.253, "step": 5455 }, { "epoch": 0.26, "grad_norm": 0.537411630153656, "learning_rate": 1.0363333333333333e-05, "loss": 0.2608, "step": 5460 }, { "epoch": 0.2602380952380952, "grad_norm": 0.48615792393684387, "learning_rate": 1.0359999999999999e-05, "loss": 0.2477, "step": 5465 }, { "epoch": 0.2604761904761905, "grad_norm": 1.5881966352462769, "learning_rate": 1.0356666666666667e-05, "loss": 0.2517, "step": 5470 }, { "epoch": 0.26071428571428573, "grad_norm": 0.4655429422855377, "learning_rate": 1.0353333333333333e-05, "loss": 0.2635, "step": 5475 }, { "epoch": 0.26095238095238094, "grad_norm": 0.4626098871231079, "learning_rate": 1.0350000000000001e-05, "loss": 0.2275, "step": 5480 }, { "epoch": 0.2611904761904762, "grad_norm": 0.440693199634552, "learning_rate": 1.0346666666666667e-05, "loss": 0.1926, "step": 5485 }, { "epoch": 0.26142857142857145, "grad_norm": 0.3298323154449463, "learning_rate": 1.0343333333333333e-05, "loss": 0.2226, "step": 5490 }, { "epoch": 0.26166666666666666, "grad_norm": 0.35762736201286316, "learning_rate": 1.034e-05, "loss": 0.2132, "step": 5495 }, { "epoch": 0.2619047619047619, "grad_norm": 0.4001484513282776, "learning_rate": 1.0336666666666665e-05, "loss": 0.2641, "step": 5500 }, { "epoch": 0.2621428571428571, "grad_norm": 0.4425814747810364, "learning_rate": 1.0333333333333333e-05, "loss": 0.2453, "step": 5505 }, { "epoch": 0.2623809523809524, "grad_norm": 0.3509294390678406, "learning_rate": 1.033e-05, "loss": 0.2038, "step": 5510 }, { "epoch": 0.26261904761904764, "grad_norm": 0.4020583927631378, "learning_rate": 1.0326666666666667e-05, "loss": 0.2119, "step": 5515 }, { "epoch": 0.26285714285714284, "grad_norm": 0.6576939225196838, "learning_rate": 1.0323333333333333e-05, "loss": 0.2558, "step": 5520 }, { "epoch": 0.2630952380952381, "grad_norm": 0.44792452454566956, "learning_rate": 1.032e-05, "loss": 0.2139, "step": 5525 }, { "epoch": 0.2633333333333333, "grad_norm": 0.44717124104499817, "learning_rate": 1.0316666666666667e-05, "loss": 0.2049, "step": 5530 }, { "epoch": 0.26357142857142857, "grad_norm": 0.538579523563385, "learning_rate": 1.0313333333333333e-05, "loss": 0.2657, "step": 5535 }, { "epoch": 0.2638095238095238, "grad_norm": 0.4513699412345886, "learning_rate": 1.031e-05, "loss": 0.2098, "step": 5540 }, { "epoch": 0.26404761904761903, "grad_norm": 0.5497774481773376, "learning_rate": 1.0306666666666666e-05, "loss": 0.2999, "step": 5545 }, { "epoch": 0.2642857142857143, "grad_norm": 0.5581741333007812, "learning_rate": 1.0303333333333332e-05, "loss": 0.2279, "step": 5550 }, { "epoch": 0.26452380952380955, "grad_norm": 0.5219956636428833, "learning_rate": 1.0300000000000001e-05, "loss": 0.2306, "step": 5555 }, { "epoch": 0.26476190476190475, "grad_norm": 0.4646123945713043, "learning_rate": 1.0296666666666667e-05, "loss": 0.1992, "step": 5560 }, { "epoch": 0.265, "grad_norm": 0.41682907938957214, "learning_rate": 1.0293333333333334e-05, "loss": 0.2199, "step": 5565 }, { "epoch": 0.2652380952380952, "grad_norm": 0.501319944858551, "learning_rate": 1.029e-05, "loss": 0.2249, "step": 5570 }, { "epoch": 0.2654761904761905, "grad_norm": 0.3760824203491211, "learning_rate": 1.0286666666666666e-05, "loss": 0.2153, "step": 5575 }, { "epoch": 0.26571428571428574, "grad_norm": 0.46541935205459595, "learning_rate": 1.0283333333333334e-05, "loss": 0.2856, "step": 5580 }, { "epoch": 0.26595238095238094, "grad_norm": 0.43181678652763367, "learning_rate": 1.028e-05, "loss": 0.2344, "step": 5585 }, { "epoch": 0.2661904761904762, "grad_norm": 0.5019082427024841, "learning_rate": 1.0276666666666666e-05, "loss": 0.2444, "step": 5590 }, { "epoch": 0.2664285714285714, "grad_norm": 0.39784497022628784, "learning_rate": 1.0273333333333334e-05, "loss": 0.2186, "step": 5595 }, { "epoch": 0.26666666666666666, "grad_norm": 0.4620911777019501, "learning_rate": 1.027e-05, "loss": 0.2321, "step": 5600 }, { "epoch": 0.2669047619047619, "grad_norm": 0.5673556327819824, "learning_rate": 1.0266666666666666e-05, "loss": 0.2232, "step": 5605 }, { "epoch": 0.2671428571428571, "grad_norm": 0.517221212387085, "learning_rate": 1.0263333333333334e-05, "loss": 0.2764, "step": 5610 }, { "epoch": 0.2673809523809524, "grad_norm": 0.42237353324890137, "learning_rate": 1.026e-05, "loss": 0.2036, "step": 5615 }, { "epoch": 0.26761904761904765, "grad_norm": 0.421856164932251, "learning_rate": 1.0256666666666666e-05, "loss": 0.2474, "step": 5620 }, { "epoch": 0.26785714285714285, "grad_norm": 0.4214248061180115, "learning_rate": 1.0253333333333332e-05, "loss": 0.2493, "step": 5625 }, { "epoch": 0.2680952380952381, "grad_norm": 0.4648626446723938, "learning_rate": 1.0249999999999998e-05, "loss": 0.2221, "step": 5630 }, { "epoch": 0.2683333333333333, "grad_norm": 0.5761249661445618, "learning_rate": 1.0246666666666668e-05, "loss": 0.2739, "step": 5635 }, { "epoch": 0.26857142857142857, "grad_norm": 0.40116211771965027, "learning_rate": 1.0243333333333334e-05, "loss": 0.1957, "step": 5640 }, { "epoch": 0.26880952380952383, "grad_norm": 0.4716878831386566, "learning_rate": 1.024e-05, "loss": 0.2603, "step": 5645 }, { "epoch": 0.26904761904761904, "grad_norm": 0.5197725296020508, "learning_rate": 1.0236666666666666e-05, "loss": 0.2342, "step": 5650 }, { "epoch": 0.2692857142857143, "grad_norm": 0.4028093218803406, "learning_rate": 1.0233333333333332e-05, "loss": 0.2197, "step": 5655 }, { "epoch": 0.2695238095238095, "grad_norm": 1.6278676986694336, "learning_rate": 1.023e-05, "loss": 0.1976, "step": 5660 }, { "epoch": 0.26976190476190476, "grad_norm": 0.4802672863006592, "learning_rate": 1.0226666666666666e-05, "loss": 0.2239, "step": 5665 }, { "epoch": 0.27, "grad_norm": 0.5581851005554199, "learning_rate": 1.0223333333333333e-05, "loss": 0.2441, "step": 5670 }, { "epoch": 0.2702380952380952, "grad_norm": 0.5269860625267029, "learning_rate": 1.022e-05, "loss": 0.2362, "step": 5675 }, { "epoch": 0.2704761904761905, "grad_norm": 0.4050772190093994, "learning_rate": 1.0216666666666667e-05, "loss": 0.1884, "step": 5680 }, { "epoch": 0.27071428571428574, "grad_norm": 0.4318506121635437, "learning_rate": 1.0213333333333334e-05, "loss": 0.2466, "step": 5685 }, { "epoch": 0.27095238095238094, "grad_norm": 0.41891878843307495, "learning_rate": 1.021e-05, "loss": 0.2784, "step": 5690 }, { "epoch": 0.2711904761904762, "grad_norm": 0.4602164030075073, "learning_rate": 1.0206666666666667e-05, "loss": 0.2266, "step": 5695 }, { "epoch": 0.2714285714285714, "grad_norm": 0.4557333290576935, "learning_rate": 1.0203333333333333e-05, "loss": 0.2535, "step": 5700 }, { "epoch": 0.27166666666666667, "grad_norm": 0.461658775806427, "learning_rate": 1.0199999999999999e-05, "loss": 0.2089, "step": 5705 }, { "epoch": 0.2719047619047619, "grad_norm": 0.4423713684082031, "learning_rate": 1.0196666666666667e-05, "loss": 0.2442, "step": 5710 }, { "epoch": 0.27214285714285713, "grad_norm": 0.5093023180961609, "learning_rate": 1.0193333333333333e-05, "loss": 0.2479, "step": 5715 }, { "epoch": 0.2723809523809524, "grad_norm": 0.5112698674201965, "learning_rate": 1.019e-05, "loss": 0.2718, "step": 5720 }, { "epoch": 0.2726190476190476, "grad_norm": 0.4503067135810852, "learning_rate": 1.0186666666666667e-05, "loss": 0.21, "step": 5725 }, { "epoch": 0.27285714285714285, "grad_norm": 0.4182630777359009, "learning_rate": 1.0183333333333333e-05, "loss": 0.2033, "step": 5730 }, { "epoch": 0.2730952380952381, "grad_norm": 0.37393927574157715, "learning_rate": 1.0179999999999999e-05, "loss": 0.2051, "step": 5735 }, { "epoch": 0.2733333333333333, "grad_norm": 0.38037386536598206, "learning_rate": 1.0176666666666667e-05, "loss": 0.233, "step": 5740 }, { "epoch": 0.2735714285714286, "grad_norm": 0.5308811664581299, "learning_rate": 1.0173333333333333e-05, "loss": 0.2185, "step": 5745 }, { "epoch": 0.27380952380952384, "grad_norm": 0.40757420659065247, "learning_rate": 1.017e-05, "loss": 0.2262, "step": 5750 }, { "epoch": 0.27404761904761904, "grad_norm": 0.38501429557800293, "learning_rate": 1.0166666666666665e-05, "loss": 0.2441, "step": 5755 }, { "epoch": 0.2742857142857143, "grad_norm": 0.41085830330848694, "learning_rate": 1.0163333333333333e-05, "loss": 0.1823, "step": 5760 }, { "epoch": 0.2745238095238095, "grad_norm": 0.4024151563644409, "learning_rate": 1.0160000000000001e-05, "loss": 0.2296, "step": 5765 }, { "epoch": 0.27476190476190476, "grad_norm": 0.45139360427856445, "learning_rate": 1.0156666666666667e-05, "loss": 0.214, "step": 5770 }, { "epoch": 0.275, "grad_norm": 0.43729251623153687, "learning_rate": 1.0153333333333333e-05, "loss": 0.2308, "step": 5775 }, { "epoch": 0.2752380952380952, "grad_norm": 0.5440667271614075, "learning_rate": 1.015e-05, "loss": 0.2311, "step": 5780 }, { "epoch": 0.2754761904761905, "grad_norm": 0.4726349413394928, "learning_rate": 1.0146666666666666e-05, "loss": 0.1561, "step": 5785 }, { "epoch": 0.2757142857142857, "grad_norm": 0.4699804186820984, "learning_rate": 1.0143333333333333e-05, "loss": 0.2299, "step": 5790 }, { "epoch": 0.27595238095238095, "grad_norm": 0.5850067138671875, "learning_rate": 1.014e-05, "loss": 0.1998, "step": 5795 }, { "epoch": 0.2761904761904762, "grad_norm": 0.3940487504005432, "learning_rate": 1.0136666666666667e-05, "loss": 0.2405, "step": 5800 }, { "epoch": 0.2764285714285714, "grad_norm": 0.46177998185157776, "learning_rate": 1.0133333333333333e-05, "loss": 0.246, "step": 5805 }, { "epoch": 0.27666666666666667, "grad_norm": 0.3639398217201233, "learning_rate": 1.013e-05, "loss": 0.2437, "step": 5810 }, { "epoch": 0.27690476190476193, "grad_norm": 0.4213738739490509, "learning_rate": 1.0126666666666667e-05, "loss": 0.2484, "step": 5815 }, { "epoch": 0.27714285714285714, "grad_norm": 0.6035419702529907, "learning_rate": 1.0123333333333334e-05, "loss": 0.1999, "step": 5820 }, { "epoch": 0.2773809523809524, "grad_norm": 0.39224740862846375, "learning_rate": 1.012e-05, "loss": 0.1944, "step": 5825 }, { "epoch": 0.2776190476190476, "grad_norm": 0.46437758207321167, "learning_rate": 1.0116666666666666e-05, "loss": 0.2248, "step": 5830 }, { "epoch": 0.27785714285714286, "grad_norm": 0.4366336166858673, "learning_rate": 1.0113333333333332e-05, "loss": 0.2327, "step": 5835 }, { "epoch": 0.2780952380952381, "grad_norm": 0.39519912004470825, "learning_rate": 1.0110000000000001e-05, "loss": 0.1652, "step": 5840 }, { "epoch": 0.2783333333333333, "grad_norm": 0.43522951006889343, "learning_rate": 1.0106666666666668e-05, "loss": 0.2228, "step": 5845 }, { "epoch": 0.2785714285714286, "grad_norm": 0.4062095284461975, "learning_rate": 1.0103333333333334e-05, "loss": 0.2194, "step": 5850 }, { "epoch": 0.2788095238095238, "grad_norm": 0.43198099732398987, "learning_rate": 1.01e-05, "loss": 0.2264, "step": 5855 }, { "epoch": 0.27904761904761904, "grad_norm": 0.44394704699516296, "learning_rate": 1.0096666666666666e-05, "loss": 0.2578, "step": 5860 }, { "epoch": 0.2792857142857143, "grad_norm": 0.41596370935440063, "learning_rate": 1.0093333333333332e-05, "loss": 0.2288, "step": 5865 }, { "epoch": 0.2795238095238095, "grad_norm": 0.4881284236907959, "learning_rate": 1.009e-05, "loss": 0.2221, "step": 5870 }, { "epoch": 0.27976190476190477, "grad_norm": 0.38007044792175293, "learning_rate": 1.0086666666666666e-05, "loss": 0.2156, "step": 5875 }, { "epoch": 0.28, "grad_norm": 0.38558241724967957, "learning_rate": 1.0083333333333334e-05, "loss": 0.2628, "step": 5880 }, { "epoch": 0.28023809523809523, "grad_norm": 0.4360271990299225, "learning_rate": 1.008e-05, "loss": 0.2303, "step": 5885 }, { "epoch": 0.2804761904761905, "grad_norm": 0.3830234706401825, "learning_rate": 1.0076666666666666e-05, "loss": 0.1711, "step": 5890 }, { "epoch": 0.2807142857142857, "grad_norm": 0.46382880210876465, "learning_rate": 1.0073333333333334e-05, "loss": 0.2171, "step": 5895 }, { "epoch": 0.28095238095238095, "grad_norm": 0.5590707063674927, "learning_rate": 1.007e-05, "loss": 0.2605, "step": 5900 }, { "epoch": 0.2811904761904762, "grad_norm": 0.493888258934021, "learning_rate": 1.0066666666666666e-05, "loss": 0.2259, "step": 5905 }, { "epoch": 0.2814285714285714, "grad_norm": 0.4916342496871948, "learning_rate": 1.0063333333333332e-05, "loss": 0.2536, "step": 5910 }, { "epoch": 0.2816666666666667, "grad_norm": 0.44899916648864746, "learning_rate": 1.0059999999999999e-05, "loss": 0.2525, "step": 5915 }, { "epoch": 0.2819047619047619, "grad_norm": 0.3198786675930023, "learning_rate": 1.0056666666666666e-05, "loss": 0.2075, "step": 5920 }, { "epoch": 0.28214285714285714, "grad_norm": 0.4396408498287201, "learning_rate": 1.0053333333333334e-05, "loss": 0.2446, "step": 5925 }, { "epoch": 0.2823809523809524, "grad_norm": 0.49134671688079834, "learning_rate": 1.005e-05, "loss": 0.2527, "step": 5930 }, { "epoch": 0.2826190476190476, "grad_norm": 0.30254366993904114, "learning_rate": 1.0046666666666666e-05, "loss": 0.2141, "step": 5935 }, { "epoch": 0.28285714285714286, "grad_norm": 0.5415478944778442, "learning_rate": 1.0043333333333333e-05, "loss": 0.2898, "step": 5940 }, { "epoch": 0.2830952380952381, "grad_norm": 0.430375874042511, "learning_rate": 1.004e-05, "loss": 0.2605, "step": 5945 }, { "epoch": 0.2833333333333333, "grad_norm": 0.427264928817749, "learning_rate": 1.0036666666666667e-05, "loss": 0.2269, "step": 5950 }, { "epoch": 0.2835714285714286, "grad_norm": 0.4830720126628876, "learning_rate": 1.0033333333333333e-05, "loss": 0.2501, "step": 5955 }, { "epoch": 0.2838095238095238, "grad_norm": 0.5691626667976379, "learning_rate": 1.0029999999999999e-05, "loss": 0.2184, "step": 5960 }, { "epoch": 0.28404761904761905, "grad_norm": 0.41314443945884705, "learning_rate": 1.0026666666666667e-05, "loss": 0.2203, "step": 5965 }, { "epoch": 0.2842857142857143, "grad_norm": 0.43981942534446716, "learning_rate": 1.0023333333333334e-05, "loss": 0.237, "step": 5970 }, { "epoch": 0.2845238095238095, "grad_norm": 0.46073269844055176, "learning_rate": 1.002e-05, "loss": 0.246, "step": 5975 }, { "epoch": 0.28476190476190477, "grad_norm": 0.42199552059173584, "learning_rate": 1.0016666666666667e-05, "loss": 0.2386, "step": 5980 }, { "epoch": 0.285, "grad_norm": 0.44880837202072144, "learning_rate": 1.0013333333333333e-05, "loss": 0.2196, "step": 5985 }, { "epoch": 0.28523809523809524, "grad_norm": 0.4659309685230255, "learning_rate": 1.0009999999999999e-05, "loss": 0.2214, "step": 5990 }, { "epoch": 0.2854761904761905, "grad_norm": 0.8004213571548462, "learning_rate": 1.0006666666666665e-05, "loss": 0.2216, "step": 5995 }, { "epoch": 0.2857142857142857, "grad_norm": 0.49515098333358765, "learning_rate": 1.0003333333333333e-05, "loss": 0.2417, "step": 6000 }, { "epoch": 0.28595238095238096, "grad_norm": 0.38267791271209717, "learning_rate": 1e-05, "loss": 0.197, "step": 6005 }, { "epoch": 0.2861904761904762, "grad_norm": 0.5404905080795288, "learning_rate": 9.996666666666667e-06, "loss": 0.2405, "step": 6010 }, { "epoch": 0.2864285714285714, "grad_norm": 0.5955678224563599, "learning_rate": 9.993333333333333e-06, "loss": 0.2736, "step": 6015 }, { "epoch": 0.2866666666666667, "grad_norm": 0.8184239864349365, "learning_rate": 9.99e-06, "loss": 0.274, "step": 6020 }, { "epoch": 0.2869047619047619, "grad_norm": 0.5107612013816833, "learning_rate": 9.986666666666667e-06, "loss": 0.2125, "step": 6025 }, { "epoch": 0.28714285714285714, "grad_norm": 0.5104166269302368, "learning_rate": 9.983333333333333e-06, "loss": 0.2139, "step": 6030 }, { "epoch": 0.2873809523809524, "grad_norm": 0.4467895030975342, "learning_rate": 9.98e-06, "loss": 0.249, "step": 6035 }, { "epoch": 0.2876190476190476, "grad_norm": 0.3258180022239685, "learning_rate": 9.976666666666665e-06, "loss": 0.2115, "step": 6040 }, { "epoch": 0.28785714285714287, "grad_norm": 0.4249081611633301, "learning_rate": 9.973333333333333e-06, "loss": 0.2164, "step": 6045 }, { "epoch": 0.28809523809523807, "grad_norm": 0.5217000842094421, "learning_rate": 9.970000000000001e-06, "loss": 0.2633, "step": 6050 }, { "epoch": 0.28833333333333333, "grad_norm": 0.6917561292648315, "learning_rate": 9.966666666666667e-06, "loss": 0.2195, "step": 6055 }, { "epoch": 0.2885714285714286, "grad_norm": 0.41091111302375793, "learning_rate": 9.963333333333333e-06, "loss": 0.2398, "step": 6060 }, { "epoch": 0.2888095238095238, "grad_norm": 0.4451453983783722, "learning_rate": 9.96e-06, "loss": 0.2145, "step": 6065 }, { "epoch": 0.28904761904761905, "grad_norm": 0.443397581577301, "learning_rate": 9.956666666666666e-06, "loss": 0.2178, "step": 6070 }, { "epoch": 0.2892857142857143, "grad_norm": 0.4054470956325531, "learning_rate": 9.953333333333333e-06, "loss": 0.2077, "step": 6075 }, { "epoch": 0.2895238095238095, "grad_norm": 0.42046502232551575, "learning_rate": 9.95e-06, "loss": 0.2337, "step": 6080 }, { "epoch": 0.2897619047619048, "grad_norm": 0.5472333431243896, "learning_rate": 9.946666666666667e-06, "loss": 0.2045, "step": 6085 }, { "epoch": 0.29, "grad_norm": 0.34196051955223083, "learning_rate": 9.943333333333334e-06, "loss": 0.2064, "step": 6090 }, { "epoch": 0.29023809523809524, "grad_norm": 0.4988838732242584, "learning_rate": 9.94e-06, "loss": 0.2391, "step": 6095 }, { "epoch": 0.2904761904761905, "grad_norm": 0.42268791794776917, "learning_rate": 9.936666666666668e-06, "loss": 0.2236, "step": 6100 }, { "epoch": 0.2907142857142857, "grad_norm": 0.4544689655303955, "learning_rate": 9.933333333333334e-06, "loss": 0.2357, "step": 6105 }, { "epoch": 0.29095238095238096, "grad_norm": 0.4525890350341797, "learning_rate": 9.93e-06, "loss": 0.2243, "step": 6110 }, { "epoch": 0.29119047619047617, "grad_norm": 0.4322740435600281, "learning_rate": 9.926666666666666e-06, "loss": 0.2303, "step": 6115 }, { "epoch": 0.2914285714285714, "grad_norm": 0.44744569063186646, "learning_rate": 9.923333333333332e-06, "loss": 0.2137, "step": 6120 }, { "epoch": 0.2916666666666667, "grad_norm": 0.43564870953559875, "learning_rate": 9.92e-06, "loss": 0.2388, "step": 6125 }, { "epoch": 0.2919047619047619, "grad_norm": 0.44423708319664, "learning_rate": 9.916666666666668e-06, "loss": 0.2263, "step": 6130 }, { "epoch": 0.29214285714285715, "grad_norm": 0.4426725208759308, "learning_rate": 9.913333333333334e-06, "loss": 0.2312, "step": 6135 }, { "epoch": 0.2923809523809524, "grad_norm": 0.46793651580810547, "learning_rate": 9.91e-06, "loss": 0.2526, "step": 6140 }, { "epoch": 0.2926190476190476, "grad_norm": 0.423823744058609, "learning_rate": 9.906666666666666e-06, "loss": 0.217, "step": 6145 }, { "epoch": 0.29285714285714287, "grad_norm": 0.530724287033081, "learning_rate": 9.903333333333332e-06, "loss": 0.2483, "step": 6150 }, { "epoch": 0.2930952380952381, "grad_norm": 0.5286331176757812, "learning_rate": 9.9e-06, "loss": 0.2332, "step": 6155 }, { "epoch": 0.29333333333333333, "grad_norm": 0.4381335377693176, "learning_rate": 9.896666666666666e-06, "loss": 0.2081, "step": 6160 }, { "epoch": 0.2935714285714286, "grad_norm": 0.3703762888908386, "learning_rate": 9.893333333333332e-06, "loss": 0.2622, "step": 6165 }, { "epoch": 0.2938095238095238, "grad_norm": 0.459020733833313, "learning_rate": 9.89e-06, "loss": 0.288, "step": 6170 }, { "epoch": 0.29404761904761906, "grad_norm": 0.5119419097900391, "learning_rate": 9.886666666666666e-06, "loss": 0.2164, "step": 6175 }, { "epoch": 0.29428571428571426, "grad_norm": 0.48367929458618164, "learning_rate": 9.883333333333334e-06, "loss": 0.1913, "step": 6180 }, { "epoch": 0.2945238095238095, "grad_norm": 0.41946959495544434, "learning_rate": 9.88e-06, "loss": 0.2317, "step": 6185 }, { "epoch": 0.2947619047619048, "grad_norm": 0.49630188941955566, "learning_rate": 9.876666666666666e-06, "loss": 0.2274, "step": 6190 }, { "epoch": 0.295, "grad_norm": 0.42213577032089233, "learning_rate": 9.873333333333333e-06, "loss": 0.1993, "step": 6195 }, { "epoch": 0.29523809523809524, "grad_norm": 0.48201027512550354, "learning_rate": 9.869999999999999e-06, "loss": 0.1871, "step": 6200 }, { "epoch": 0.2954761904761905, "grad_norm": 0.4065007269382477, "learning_rate": 9.866666666666667e-06, "loss": 0.2354, "step": 6205 }, { "epoch": 0.2957142857142857, "grad_norm": 0.4616386592388153, "learning_rate": 9.863333333333334e-06, "loss": 0.2694, "step": 6210 }, { "epoch": 0.29595238095238097, "grad_norm": 0.5052495002746582, "learning_rate": 9.86e-06, "loss": 0.22, "step": 6215 }, { "epoch": 0.29619047619047617, "grad_norm": 0.37558478116989136, "learning_rate": 9.856666666666667e-06, "loss": 0.1676, "step": 6220 }, { "epoch": 0.29642857142857143, "grad_norm": 0.4396204948425293, "learning_rate": 9.853333333333333e-06, "loss": 0.1822, "step": 6225 }, { "epoch": 0.2966666666666667, "grad_norm": 0.41924333572387695, "learning_rate": 9.85e-06, "loss": 0.2417, "step": 6230 }, { "epoch": 0.2969047619047619, "grad_norm": 0.4290979206562042, "learning_rate": 9.846666666666667e-06, "loss": 0.2534, "step": 6235 }, { "epoch": 0.29714285714285715, "grad_norm": 0.44408172369003296, "learning_rate": 9.843333333333333e-06, "loss": 0.2447, "step": 6240 }, { "epoch": 0.29738095238095236, "grad_norm": 0.3531598448753357, "learning_rate": 9.839999999999999e-06, "loss": 0.1844, "step": 6245 }, { "epoch": 0.2976190476190476, "grad_norm": 0.45256882905960083, "learning_rate": 9.836666666666667e-06, "loss": 0.2569, "step": 6250 }, { "epoch": 0.2978571428571429, "grad_norm": 0.39873170852661133, "learning_rate": 9.833333333333333e-06, "loss": 0.2011, "step": 6255 }, { "epoch": 0.2980952380952381, "grad_norm": 0.4633430540561676, "learning_rate": 9.83e-06, "loss": 0.2448, "step": 6260 }, { "epoch": 0.29833333333333334, "grad_norm": 0.38151440024375916, "learning_rate": 9.826666666666667e-06, "loss": 0.1915, "step": 6265 }, { "epoch": 0.2985714285714286, "grad_norm": 0.4309062659740448, "learning_rate": 9.823333333333333e-06, "loss": 0.2095, "step": 6270 }, { "epoch": 0.2988095238095238, "grad_norm": 0.36969560384750366, "learning_rate": 9.82e-06, "loss": 0.1902, "step": 6275 }, { "epoch": 0.29904761904761906, "grad_norm": 0.39180850982666016, "learning_rate": 9.816666666666665e-06, "loss": 0.259, "step": 6280 }, { "epoch": 0.29928571428571427, "grad_norm": 0.4733419716358185, "learning_rate": 9.813333333333333e-06, "loss": 0.1927, "step": 6285 }, { "epoch": 0.2995238095238095, "grad_norm": 0.4591401219367981, "learning_rate": 9.810000000000001e-06, "loss": 0.2202, "step": 6290 }, { "epoch": 0.2997619047619048, "grad_norm": 0.42413216829299927, "learning_rate": 9.806666666666667e-06, "loss": 0.2156, "step": 6295 }, { "epoch": 0.3, "grad_norm": 0.5566484928131104, "learning_rate": 9.803333333333333e-06, "loss": 0.2517, "step": 6300 }, { "epoch": 0.30023809523809525, "grad_norm": 0.47422921657562256, "learning_rate": 9.8e-06, "loss": 0.2148, "step": 6305 }, { "epoch": 0.30047619047619045, "grad_norm": 0.3469026982784271, "learning_rate": 9.796666666666667e-06, "loss": 0.2092, "step": 6310 }, { "epoch": 0.3007142857142857, "grad_norm": 0.4377982020378113, "learning_rate": 9.793333333333333e-06, "loss": 0.1944, "step": 6315 }, { "epoch": 0.30095238095238097, "grad_norm": 0.466066837310791, "learning_rate": 9.79e-06, "loss": 0.2132, "step": 6320 }, { "epoch": 0.3011904761904762, "grad_norm": 0.4247545301914215, "learning_rate": 9.786666666666666e-06, "loss": 0.2216, "step": 6325 }, { "epoch": 0.30142857142857143, "grad_norm": 1.002663493156433, "learning_rate": 9.783333333333333e-06, "loss": 0.2306, "step": 6330 }, { "epoch": 0.3016666666666667, "grad_norm": 0.5627028346061707, "learning_rate": 9.780000000000001e-06, "loss": 0.2275, "step": 6335 }, { "epoch": 0.3019047619047619, "grad_norm": 0.4531511068344116, "learning_rate": 9.776666666666667e-06, "loss": 0.2575, "step": 6340 }, { "epoch": 0.30214285714285716, "grad_norm": 0.5019767880439758, "learning_rate": 9.773333333333333e-06, "loss": 0.2588, "step": 6345 }, { "epoch": 0.30238095238095236, "grad_norm": 0.3994240462779999, "learning_rate": 9.77e-06, "loss": 0.2291, "step": 6350 }, { "epoch": 0.3026190476190476, "grad_norm": 0.43424901366233826, "learning_rate": 9.766666666666666e-06, "loss": 0.2297, "step": 6355 }, { "epoch": 0.3028571428571429, "grad_norm": 0.5279982686042786, "learning_rate": 9.763333333333334e-06, "loss": 0.2223, "step": 6360 }, { "epoch": 0.3030952380952381, "grad_norm": 0.6025177240371704, "learning_rate": 9.76e-06, "loss": 0.2039, "step": 6365 }, { "epoch": 0.30333333333333334, "grad_norm": 0.4563671052455902, "learning_rate": 9.756666666666666e-06, "loss": 0.2624, "step": 6370 }, { "epoch": 0.30357142857142855, "grad_norm": 0.4891875684261322, "learning_rate": 9.753333333333334e-06, "loss": 0.2532, "step": 6375 }, { "epoch": 0.3038095238095238, "grad_norm": 0.43696215748786926, "learning_rate": 9.75e-06, "loss": 0.2364, "step": 6380 }, { "epoch": 0.30404761904761907, "grad_norm": 0.6196922659873962, "learning_rate": 9.746666666666666e-06, "loss": 0.2362, "step": 6385 }, { "epoch": 0.30428571428571427, "grad_norm": 0.4699505567550659, "learning_rate": 9.743333333333334e-06, "loss": 0.1948, "step": 6390 }, { "epoch": 0.30452380952380953, "grad_norm": 0.4788881838321686, "learning_rate": 9.74e-06, "loss": 0.1977, "step": 6395 }, { "epoch": 0.3047619047619048, "grad_norm": 0.30419760942459106, "learning_rate": 9.736666666666666e-06, "loss": 0.2557, "step": 6400 }, { "epoch": 0.305, "grad_norm": 0.4742991030216217, "learning_rate": 9.733333333333332e-06, "loss": 0.2125, "step": 6405 }, { "epoch": 0.30523809523809525, "grad_norm": 0.40356147289276123, "learning_rate": 9.73e-06, "loss": 0.2352, "step": 6410 }, { "epoch": 0.30547619047619046, "grad_norm": 0.4556860029697418, "learning_rate": 9.726666666666668e-06, "loss": 0.2733, "step": 6415 }, { "epoch": 0.3057142857142857, "grad_norm": 0.45038679242134094, "learning_rate": 9.723333333333334e-06, "loss": 0.2695, "step": 6420 }, { "epoch": 0.305952380952381, "grad_norm": 0.5743619799613953, "learning_rate": 9.72e-06, "loss": 0.2091, "step": 6425 }, { "epoch": 0.3061904761904762, "grad_norm": 0.41757991909980774, "learning_rate": 9.716666666666666e-06, "loss": 0.2362, "step": 6430 }, { "epoch": 0.30642857142857144, "grad_norm": 0.490383118391037, "learning_rate": 9.713333333333332e-06, "loss": 0.2401, "step": 6435 }, { "epoch": 0.30666666666666664, "grad_norm": 0.43312448263168335, "learning_rate": 9.71e-06, "loss": 0.2333, "step": 6440 }, { "epoch": 0.3069047619047619, "grad_norm": 0.42646002769470215, "learning_rate": 9.706666666666666e-06, "loss": 0.245, "step": 6445 }, { "epoch": 0.30714285714285716, "grad_norm": 0.4335644245147705, "learning_rate": 9.703333333333332e-06, "loss": 0.2471, "step": 6450 }, { "epoch": 0.30738095238095237, "grad_norm": 0.41765856742858887, "learning_rate": 9.7e-06, "loss": 0.2144, "step": 6455 }, { "epoch": 0.3076190476190476, "grad_norm": 0.42163988947868347, "learning_rate": 9.696666666666666e-06, "loss": 0.2496, "step": 6460 }, { "epoch": 0.3078571428571429, "grad_norm": 0.4546283483505249, "learning_rate": 9.693333333333334e-06, "loss": 0.2154, "step": 6465 }, { "epoch": 0.3080952380952381, "grad_norm": 0.3762923777103424, "learning_rate": 9.69e-06, "loss": 0.2121, "step": 6470 }, { "epoch": 0.30833333333333335, "grad_norm": 0.5023045539855957, "learning_rate": 9.686666666666667e-06, "loss": 0.2372, "step": 6475 }, { "epoch": 0.30857142857142855, "grad_norm": 0.34106194972991943, "learning_rate": 9.683333333333333e-06, "loss": 0.2515, "step": 6480 }, { "epoch": 0.3088095238095238, "grad_norm": 0.48407769203186035, "learning_rate": 9.679999999999999e-06, "loss": 0.2555, "step": 6485 }, { "epoch": 0.30904761904761907, "grad_norm": 0.38656577467918396, "learning_rate": 9.676666666666667e-06, "loss": 0.2416, "step": 6490 }, { "epoch": 0.3092857142857143, "grad_norm": 0.45436376333236694, "learning_rate": 9.673333333333334e-06, "loss": 0.2125, "step": 6495 }, { "epoch": 0.30952380952380953, "grad_norm": 0.6366693377494812, "learning_rate": 9.67e-06, "loss": 0.2264, "step": 6500 }, { "epoch": 0.30976190476190474, "grad_norm": 0.49163344502449036, "learning_rate": 9.666666666666667e-06, "loss": 0.2123, "step": 6505 }, { "epoch": 0.31, "grad_norm": 0.47139179706573486, "learning_rate": 9.663333333333333e-06, "loss": 0.2435, "step": 6510 }, { "epoch": 0.31023809523809526, "grad_norm": 0.4048561155796051, "learning_rate": 9.659999999999999e-06, "loss": 0.1955, "step": 6515 }, { "epoch": 0.31047619047619046, "grad_norm": 0.48189014196395874, "learning_rate": 9.656666666666667e-06, "loss": 0.2348, "step": 6520 }, { "epoch": 0.3107142857142857, "grad_norm": 0.45040151476860046, "learning_rate": 9.653333333333333e-06, "loss": 0.2505, "step": 6525 }, { "epoch": 0.310952380952381, "grad_norm": 0.43156564235687256, "learning_rate": 9.649999999999999e-06, "loss": 0.2283, "step": 6530 }, { "epoch": 0.3111904761904762, "grad_norm": 0.4391677975654602, "learning_rate": 9.646666666666667e-06, "loss": 0.2644, "step": 6535 }, { "epoch": 0.31142857142857144, "grad_norm": 0.4423631727695465, "learning_rate": 9.643333333333333e-06, "loss": 0.2408, "step": 6540 }, { "epoch": 0.31166666666666665, "grad_norm": 0.46850788593292236, "learning_rate": 9.640000000000001e-06, "loss": 0.1997, "step": 6545 }, { "epoch": 0.3119047619047619, "grad_norm": 0.572563648223877, "learning_rate": 9.636666666666667e-06, "loss": 0.2246, "step": 6550 }, { "epoch": 0.31214285714285717, "grad_norm": 0.5616974830627441, "learning_rate": 9.633333333333333e-06, "loss": 0.2603, "step": 6555 }, { "epoch": 0.31238095238095237, "grad_norm": 0.39250460267066956, "learning_rate": 9.63e-06, "loss": 0.1664, "step": 6560 }, { "epoch": 0.31261904761904763, "grad_norm": 0.4334163963794708, "learning_rate": 9.626666666666665e-06, "loss": 0.226, "step": 6565 }, { "epoch": 0.31285714285714283, "grad_norm": 0.37226495146751404, "learning_rate": 9.623333333333333e-06, "loss": 0.2435, "step": 6570 }, { "epoch": 0.3130952380952381, "grad_norm": 0.47018593549728394, "learning_rate": 9.62e-06, "loss": 0.2278, "step": 6575 }, { "epoch": 0.31333333333333335, "grad_norm": 0.43996796011924744, "learning_rate": 9.616666666666667e-06, "loss": 0.2581, "step": 6580 }, { "epoch": 0.31357142857142856, "grad_norm": 0.39527803659439087, "learning_rate": 9.613333333333333e-06, "loss": 0.2355, "step": 6585 }, { "epoch": 0.3138095238095238, "grad_norm": 0.40180912613868713, "learning_rate": 9.61e-06, "loss": 0.2241, "step": 6590 }, { "epoch": 0.314047619047619, "grad_norm": 0.4466392993927002, "learning_rate": 9.606666666666667e-06, "loss": 0.2641, "step": 6595 }, { "epoch": 0.3142857142857143, "grad_norm": 0.3707774579524994, "learning_rate": 9.603333333333333e-06, "loss": 0.2093, "step": 6600 }, { "epoch": 0.31452380952380954, "grad_norm": 0.48968979716300964, "learning_rate": 9.6e-06, "loss": 0.2232, "step": 6605 }, { "epoch": 0.31476190476190474, "grad_norm": 0.4681779146194458, "learning_rate": 9.596666666666666e-06, "loss": 0.2649, "step": 6610 }, { "epoch": 0.315, "grad_norm": 0.3585425019264221, "learning_rate": 9.593333333333332e-06, "loss": 0.2001, "step": 6615 }, { "epoch": 0.31523809523809526, "grad_norm": 0.3902539014816284, "learning_rate": 9.590000000000001e-06, "loss": 0.2309, "step": 6620 }, { "epoch": 0.31547619047619047, "grad_norm": 0.4131196141242981, "learning_rate": 9.586666666666667e-06, "loss": 0.1903, "step": 6625 }, { "epoch": 0.3157142857142857, "grad_norm": 0.4385281503200531, "learning_rate": 9.583333333333334e-06, "loss": 0.2501, "step": 6630 }, { "epoch": 0.31595238095238093, "grad_norm": 0.37723100185394287, "learning_rate": 9.58e-06, "loss": 0.2575, "step": 6635 }, { "epoch": 0.3161904761904762, "grad_norm": 0.3901735246181488, "learning_rate": 9.576666666666666e-06, "loss": 0.2073, "step": 6640 }, { "epoch": 0.31642857142857145, "grad_norm": 0.5177852511405945, "learning_rate": 9.573333333333332e-06, "loss": 0.2351, "step": 6645 }, { "epoch": 0.31666666666666665, "grad_norm": 0.432369589805603, "learning_rate": 9.57e-06, "loss": 0.2237, "step": 6650 }, { "epoch": 0.3169047619047619, "grad_norm": 0.4222463369369507, "learning_rate": 9.566666666666666e-06, "loss": 0.2069, "step": 6655 }, { "epoch": 0.3171428571428571, "grad_norm": 0.41686487197875977, "learning_rate": 9.563333333333334e-06, "loss": 0.255, "step": 6660 }, { "epoch": 0.3173809523809524, "grad_norm": 0.4151388704776764, "learning_rate": 9.56e-06, "loss": 0.2696, "step": 6665 }, { "epoch": 0.31761904761904763, "grad_norm": 0.44721969962120056, "learning_rate": 9.556666666666666e-06, "loss": 0.2179, "step": 6670 }, { "epoch": 0.31785714285714284, "grad_norm": 0.6668162941932678, "learning_rate": 9.553333333333334e-06, "loss": 0.2265, "step": 6675 }, { "epoch": 0.3180952380952381, "grad_norm": 0.45044615864753723, "learning_rate": 9.55e-06, "loss": 0.2378, "step": 6680 }, { "epoch": 0.31833333333333336, "grad_norm": 0.5075449347496033, "learning_rate": 9.546666666666666e-06, "loss": 0.2606, "step": 6685 }, { "epoch": 0.31857142857142856, "grad_norm": 0.43118125200271606, "learning_rate": 9.543333333333332e-06, "loss": 0.1982, "step": 6690 }, { "epoch": 0.3188095238095238, "grad_norm": 0.43406009674072266, "learning_rate": 9.539999999999998e-06, "loss": 0.2444, "step": 6695 }, { "epoch": 0.319047619047619, "grad_norm": 0.48980212211608887, "learning_rate": 9.536666666666668e-06, "loss": 0.2287, "step": 6700 }, { "epoch": 0.3192857142857143, "grad_norm": 0.591313362121582, "learning_rate": 9.533333333333334e-06, "loss": 0.2799, "step": 6705 }, { "epoch": 0.31952380952380954, "grad_norm": 0.47932666540145874, "learning_rate": 9.53e-06, "loss": 0.262, "step": 6710 }, { "epoch": 0.31976190476190475, "grad_norm": 0.456219345331192, "learning_rate": 9.526666666666666e-06, "loss": 0.2482, "step": 6715 }, { "epoch": 0.32, "grad_norm": 0.34370553493499756, "learning_rate": 9.523333333333333e-06, "loss": 0.218, "step": 6720 }, { "epoch": 0.3202380952380952, "grad_norm": 0.4985348880290985, "learning_rate": 9.52e-06, "loss": 0.2389, "step": 6725 }, { "epoch": 0.32047619047619047, "grad_norm": 0.44559529423713684, "learning_rate": 9.516666666666666e-06, "loss": 0.2527, "step": 6730 }, { "epoch": 0.32071428571428573, "grad_norm": 0.496897429227829, "learning_rate": 9.513333333333333e-06, "loss": 0.2684, "step": 6735 }, { "epoch": 0.32095238095238093, "grad_norm": 0.6011379361152649, "learning_rate": 9.51e-06, "loss": 0.2526, "step": 6740 }, { "epoch": 0.3211904761904762, "grad_norm": 0.4528035819530487, "learning_rate": 9.506666666666667e-06, "loss": 0.2749, "step": 6745 }, { "epoch": 0.32142857142857145, "grad_norm": 0.3976271450519562, "learning_rate": 9.503333333333334e-06, "loss": 0.2616, "step": 6750 }, { "epoch": 0.32166666666666666, "grad_norm": 0.4145815968513489, "learning_rate": 9.5e-06, "loss": 0.2652, "step": 6755 }, { "epoch": 0.3219047619047619, "grad_norm": 0.4000723361968994, "learning_rate": 9.496666666666667e-06, "loss": 0.2383, "step": 6760 }, { "epoch": 0.3221428571428571, "grad_norm": 0.38468506932258606, "learning_rate": 9.493333333333333e-06, "loss": 0.1982, "step": 6765 }, { "epoch": 0.3223809523809524, "grad_norm": 0.4356594979763031, "learning_rate": 9.489999999999999e-06, "loss": 0.2082, "step": 6770 }, { "epoch": 0.32261904761904764, "grad_norm": 0.46825483441352844, "learning_rate": 9.486666666666665e-06, "loss": 0.2511, "step": 6775 }, { "epoch": 0.32285714285714284, "grad_norm": 0.4732450544834137, "learning_rate": 9.483333333333333e-06, "loss": 0.2235, "step": 6780 }, { "epoch": 0.3230952380952381, "grad_norm": 0.5061996579170227, "learning_rate": 9.48e-06, "loss": 0.233, "step": 6785 }, { "epoch": 0.3233333333333333, "grad_norm": 0.387686550617218, "learning_rate": 9.476666666666667e-06, "loss": 0.2272, "step": 6790 }, { "epoch": 0.32357142857142857, "grad_norm": 0.5766491293907166, "learning_rate": 9.473333333333333e-06, "loss": 0.2645, "step": 6795 }, { "epoch": 0.3238095238095238, "grad_norm": 0.5297742486000061, "learning_rate": 9.469999999999999e-06, "loss": 0.2686, "step": 6800 }, { "epoch": 0.32404761904761903, "grad_norm": 0.5636374950408936, "learning_rate": 9.466666666666667e-06, "loss": 0.2365, "step": 6805 }, { "epoch": 0.3242857142857143, "grad_norm": 0.41274335980415344, "learning_rate": 9.463333333333333e-06, "loss": 0.1941, "step": 6810 }, { "epoch": 0.32452380952380955, "grad_norm": 0.4384261667728424, "learning_rate": 9.46e-06, "loss": 0.2064, "step": 6815 }, { "epoch": 0.32476190476190475, "grad_norm": 0.4818667471408844, "learning_rate": 9.456666666666665e-06, "loss": 0.2446, "step": 6820 }, { "epoch": 0.325, "grad_norm": 0.403385192155838, "learning_rate": 9.453333333333333e-06, "loss": 0.2035, "step": 6825 }, { "epoch": 0.3252380952380952, "grad_norm": 0.4758829176425934, "learning_rate": 9.450000000000001e-06, "loss": 0.2404, "step": 6830 }, { "epoch": 0.3254761904761905, "grad_norm": 0.4099707305431366, "learning_rate": 9.446666666666667e-06, "loss": 0.1928, "step": 6835 }, { "epoch": 0.32571428571428573, "grad_norm": 0.5091858506202698, "learning_rate": 9.443333333333333e-06, "loss": 0.2117, "step": 6840 }, { "epoch": 0.32595238095238094, "grad_norm": 0.4697994291782379, "learning_rate": 9.44e-06, "loss": 0.2245, "step": 6845 }, { "epoch": 0.3261904761904762, "grad_norm": 0.5287955403327942, "learning_rate": 9.436666666666666e-06, "loss": 0.2231, "step": 6850 }, { "epoch": 0.3264285714285714, "grad_norm": 0.41782888770103455, "learning_rate": 9.433333333333333e-06, "loss": 0.2029, "step": 6855 }, { "epoch": 0.32666666666666666, "grad_norm": 0.41142427921295166, "learning_rate": 9.43e-06, "loss": 0.3039, "step": 6860 }, { "epoch": 0.3269047619047619, "grad_norm": 0.406141072511673, "learning_rate": 9.426666666666667e-06, "loss": 0.2172, "step": 6865 }, { "epoch": 0.3271428571428571, "grad_norm": 0.30589646100997925, "learning_rate": 9.423333333333333e-06, "loss": 0.2013, "step": 6870 }, { "epoch": 0.3273809523809524, "grad_norm": 0.41165077686309814, "learning_rate": 9.42e-06, "loss": 0.2306, "step": 6875 }, { "epoch": 0.32761904761904764, "grad_norm": 0.7577816247940063, "learning_rate": 9.416666666666667e-06, "loss": 0.2409, "step": 6880 }, { "epoch": 0.32785714285714285, "grad_norm": 0.44389820098876953, "learning_rate": 9.413333333333334e-06, "loss": 0.2376, "step": 6885 }, { "epoch": 0.3280952380952381, "grad_norm": 0.41546809673309326, "learning_rate": 9.41e-06, "loss": 0.2301, "step": 6890 }, { "epoch": 0.3283333333333333, "grad_norm": 0.4980657994747162, "learning_rate": 9.406666666666666e-06, "loss": 0.1839, "step": 6895 }, { "epoch": 0.32857142857142857, "grad_norm": 0.44083258509635925, "learning_rate": 9.403333333333332e-06, "loss": 0.2296, "step": 6900 }, { "epoch": 0.32880952380952383, "grad_norm": 0.4273465871810913, "learning_rate": 9.4e-06, "loss": 0.2329, "step": 6905 }, { "epoch": 0.32904761904761903, "grad_norm": 0.40535905957221985, "learning_rate": 9.396666666666668e-06, "loss": 0.2435, "step": 6910 }, { "epoch": 0.3292857142857143, "grad_norm": 0.4406101703643799, "learning_rate": 9.393333333333334e-06, "loss": 0.2458, "step": 6915 }, { "epoch": 0.3295238095238095, "grad_norm": 0.44297489523887634, "learning_rate": 9.39e-06, "loss": 0.2708, "step": 6920 }, { "epoch": 0.32976190476190476, "grad_norm": 0.4124343693256378, "learning_rate": 9.386666666666666e-06, "loss": 0.2281, "step": 6925 }, { "epoch": 0.33, "grad_norm": 0.4486967921257019, "learning_rate": 9.383333333333332e-06, "loss": 0.2471, "step": 6930 }, { "epoch": 0.3302380952380952, "grad_norm": 0.4715108871459961, "learning_rate": 9.38e-06, "loss": 0.1932, "step": 6935 }, { "epoch": 0.3304761904761905, "grad_norm": 0.4465476870536804, "learning_rate": 9.376666666666666e-06, "loss": 0.2296, "step": 6940 }, { "epoch": 0.33071428571428574, "grad_norm": 0.4198029935359955, "learning_rate": 9.373333333333334e-06, "loss": 0.2239, "step": 6945 }, { "epoch": 0.33095238095238094, "grad_norm": 0.3926125168800354, "learning_rate": 9.37e-06, "loss": 0.2228, "step": 6950 }, { "epoch": 0.3311904761904762, "grad_norm": 0.42262667417526245, "learning_rate": 9.366666666666666e-06, "loss": 0.2413, "step": 6955 }, { "epoch": 0.3314285714285714, "grad_norm": 0.3977087140083313, "learning_rate": 9.363333333333334e-06, "loss": 0.205, "step": 6960 }, { "epoch": 0.33166666666666667, "grad_norm": 0.4829373359680176, "learning_rate": 9.36e-06, "loss": 0.2341, "step": 6965 }, { "epoch": 0.3319047619047619, "grad_norm": 0.4287355840206146, "learning_rate": 9.356666666666666e-06, "loss": 0.2239, "step": 6970 }, { "epoch": 0.33214285714285713, "grad_norm": 0.41331836581230164, "learning_rate": 9.353333333333332e-06, "loss": 0.2196, "step": 6975 }, { "epoch": 0.3323809523809524, "grad_norm": 0.5556541681289673, "learning_rate": 9.349999999999999e-06, "loss": 0.2955, "step": 6980 }, { "epoch": 0.3326190476190476, "grad_norm": 0.46995383501052856, "learning_rate": 9.346666666666666e-06, "loss": 0.2134, "step": 6985 }, { "epoch": 0.33285714285714285, "grad_norm": 0.4467035233974457, "learning_rate": 9.343333333333334e-06, "loss": 0.2106, "step": 6990 }, { "epoch": 0.3330952380952381, "grad_norm": 0.3757982850074768, "learning_rate": 9.34e-06, "loss": 0.2294, "step": 6995 }, { "epoch": 0.3333333333333333, "grad_norm": 0.34160107374191284, "learning_rate": 9.336666666666666e-06, "loss": 0.2093, "step": 7000 }, { "epoch": 0.3335714285714286, "grad_norm": 0.5378357768058777, "learning_rate": 9.333333333333333e-06, "loss": 0.2385, "step": 7005 }, { "epoch": 0.33380952380952383, "grad_norm": 0.3491320013999939, "learning_rate": 9.33e-06, "loss": 0.1401, "step": 7010 }, { "epoch": 0.33404761904761904, "grad_norm": 0.505906879901886, "learning_rate": 9.326666666666667e-06, "loss": 0.2612, "step": 7015 }, { "epoch": 0.3342857142857143, "grad_norm": 0.42626485228538513, "learning_rate": 9.323333333333333e-06, "loss": 0.2273, "step": 7020 }, { "epoch": 0.3345238095238095, "grad_norm": 0.8388744592666626, "learning_rate": 9.319999999999999e-06, "loss": 0.2057, "step": 7025 }, { "epoch": 0.33476190476190476, "grad_norm": 0.5349019169807434, "learning_rate": 9.316666666666667e-06, "loss": 0.2261, "step": 7030 }, { "epoch": 0.335, "grad_norm": 0.437563955783844, "learning_rate": 9.313333333333333e-06, "loss": 0.2428, "step": 7035 }, { "epoch": 0.3352380952380952, "grad_norm": 0.47679948806762695, "learning_rate": 9.31e-06, "loss": 0.274, "step": 7040 }, { "epoch": 0.3354761904761905, "grad_norm": 0.42836758494377136, "learning_rate": 9.306666666666667e-06, "loss": 0.2103, "step": 7045 }, { "epoch": 0.3357142857142857, "grad_norm": 0.4238226115703583, "learning_rate": 9.303333333333333e-06, "loss": 0.2365, "step": 7050 }, { "epoch": 0.33595238095238095, "grad_norm": 0.550745964050293, "learning_rate": 9.299999999999999e-06, "loss": 0.273, "step": 7055 }, { "epoch": 0.3361904761904762, "grad_norm": 0.48172926902770996, "learning_rate": 9.296666666666665e-06, "loss": 0.2409, "step": 7060 }, { "epoch": 0.3364285714285714, "grad_norm": 0.296642929315567, "learning_rate": 9.293333333333333e-06, "loss": 0.227, "step": 7065 }, { "epoch": 0.33666666666666667, "grad_norm": 0.35871636867523193, "learning_rate": 9.29e-06, "loss": 0.2083, "step": 7070 }, { "epoch": 0.33690476190476193, "grad_norm": 0.48171544075012207, "learning_rate": 9.286666666666667e-06, "loss": 0.2431, "step": 7075 }, { "epoch": 0.33714285714285713, "grad_norm": 0.8350749611854553, "learning_rate": 9.283333333333333e-06, "loss": 0.2034, "step": 7080 }, { "epoch": 0.3373809523809524, "grad_norm": 0.4573099911212921, "learning_rate": 9.28e-06, "loss": 0.207, "step": 7085 }, { "epoch": 0.3376190476190476, "grad_norm": 0.4371294379234314, "learning_rate": 9.276666666666667e-06, "loss": 0.2173, "step": 7090 }, { "epoch": 0.33785714285714286, "grad_norm": 0.3747394382953644, "learning_rate": 9.273333333333333e-06, "loss": 0.1993, "step": 7095 }, { "epoch": 0.3380952380952381, "grad_norm": 0.46112388372421265, "learning_rate": 9.27e-06, "loss": 0.2035, "step": 7100 }, { "epoch": 0.3383333333333333, "grad_norm": 0.44588232040405273, "learning_rate": 9.266666666666665e-06, "loss": 0.2093, "step": 7105 }, { "epoch": 0.3385714285714286, "grad_norm": 0.395104318857193, "learning_rate": 9.263333333333333e-06, "loss": 0.1959, "step": 7110 }, { "epoch": 0.3388095238095238, "grad_norm": 0.35709941387176514, "learning_rate": 9.260000000000001e-06, "loss": 0.1945, "step": 7115 }, { "epoch": 0.33904761904761904, "grad_norm": 0.4061698615550995, "learning_rate": 9.256666666666667e-06, "loss": 0.2218, "step": 7120 }, { "epoch": 0.3392857142857143, "grad_norm": 0.44062918424606323, "learning_rate": 9.253333333333333e-06, "loss": 0.2528, "step": 7125 }, { "epoch": 0.3395238095238095, "grad_norm": 0.43696561455726624, "learning_rate": 9.25e-06, "loss": 0.2036, "step": 7130 }, { "epoch": 0.33976190476190476, "grad_norm": 0.5267188549041748, "learning_rate": 9.246666666666666e-06, "loss": 0.2383, "step": 7135 }, { "epoch": 0.34, "grad_norm": 0.545949399471283, "learning_rate": 9.243333333333333e-06, "loss": 0.2515, "step": 7140 }, { "epoch": 0.34023809523809523, "grad_norm": 0.4922747313976288, "learning_rate": 9.24e-06, "loss": 0.265, "step": 7145 }, { "epoch": 0.3404761904761905, "grad_norm": 0.3629787862300873, "learning_rate": 9.236666666666667e-06, "loss": 0.2254, "step": 7150 }, { "epoch": 0.3407142857142857, "grad_norm": 0.4461347758769989, "learning_rate": 9.233333333333334e-06, "loss": 0.2279, "step": 7155 }, { "epoch": 0.34095238095238095, "grad_norm": 0.5036407709121704, "learning_rate": 9.23e-06, "loss": 0.2212, "step": 7160 }, { "epoch": 0.3411904761904762, "grad_norm": 0.3526613712310791, "learning_rate": 9.226666666666666e-06, "loss": 0.218, "step": 7165 }, { "epoch": 0.3414285714285714, "grad_norm": 0.3668134808540344, "learning_rate": 9.223333333333334e-06, "loss": 0.18, "step": 7170 }, { "epoch": 0.3416666666666667, "grad_norm": 0.5790404677391052, "learning_rate": 9.22e-06, "loss": 0.2343, "step": 7175 }, { "epoch": 0.3419047619047619, "grad_norm": 0.43877485394477844, "learning_rate": 9.216666666666666e-06, "loss": 0.2313, "step": 7180 }, { "epoch": 0.34214285714285714, "grad_norm": 0.46737173199653625, "learning_rate": 9.213333333333332e-06, "loss": 0.2478, "step": 7185 }, { "epoch": 0.3423809523809524, "grad_norm": 0.5235944390296936, "learning_rate": 9.21e-06, "loss": 0.2306, "step": 7190 }, { "epoch": 0.3426190476190476, "grad_norm": 0.37850382924079895, "learning_rate": 9.206666666666668e-06, "loss": 0.211, "step": 7195 }, { "epoch": 0.34285714285714286, "grad_norm": 0.49843698740005493, "learning_rate": 9.203333333333334e-06, "loss": 0.2629, "step": 7200 }, { "epoch": 0.3430952380952381, "grad_norm": 0.4208865165710449, "learning_rate": 9.2e-06, "loss": 0.2261, "step": 7205 }, { "epoch": 0.3433333333333333, "grad_norm": 0.35655465722084045, "learning_rate": 9.196666666666666e-06, "loss": 0.1798, "step": 7210 }, { "epoch": 0.3435714285714286, "grad_norm": 0.4010775089263916, "learning_rate": 9.193333333333332e-06, "loss": 0.227, "step": 7215 }, { "epoch": 0.3438095238095238, "grad_norm": 0.49177607893943787, "learning_rate": 9.19e-06, "loss": 0.2463, "step": 7220 }, { "epoch": 0.34404761904761905, "grad_norm": 0.3934788703918457, "learning_rate": 9.186666666666666e-06, "loss": 0.2199, "step": 7225 }, { "epoch": 0.3442857142857143, "grad_norm": 1.5620157718658447, "learning_rate": 9.183333333333332e-06, "loss": 0.2223, "step": 7230 }, { "epoch": 0.3445238095238095, "grad_norm": 0.399042010307312, "learning_rate": 9.18e-06, "loss": 0.1975, "step": 7235 }, { "epoch": 0.34476190476190477, "grad_norm": 0.45564621686935425, "learning_rate": 9.176666666666666e-06, "loss": 0.2768, "step": 7240 }, { "epoch": 0.345, "grad_norm": 0.40084609389305115, "learning_rate": 9.173333333333334e-06, "loss": 0.2253, "step": 7245 }, { "epoch": 0.34523809523809523, "grad_norm": 0.35456305742263794, "learning_rate": 9.17e-06, "loss": 0.1835, "step": 7250 }, { "epoch": 0.3454761904761905, "grad_norm": 0.4519815742969513, "learning_rate": 9.166666666666666e-06, "loss": 0.2679, "step": 7255 }, { "epoch": 0.3457142857142857, "grad_norm": 0.46216756105422974, "learning_rate": 9.163333333333333e-06, "loss": 0.184, "step": 7260 }, { "epoch": 0.34595238095238096, "grad_norm": 0.5295758843421936, "learning_rate": 9.159999999999999e-06, "loss": 0.2631, "step": 7265 }, { "epoch": 0.3461904761904762, "grad_norm": 0.5318628549575806, "learning_rate": 9.156666666666667e-06, "loss": 0.2502, "step": 7270 }, { "epoch": 0.3464285714285714, "grad_norm": 0.4594542384147644, "learning_rate": 9.153333333333334e-06, "loss": 0.2041, "step": 7275 }, { "epoch": 0.3466666666666667, "grad_norm": 0.3705655336380005, "learning_rate": 9.15e-06, "loss": 0.2006, "step": 7280 }, { "epoch": 0.3469047619047619, "grad_norm": 0.4513300955295563, "learning_rate": 9.146666666666667e-06, "loss": 0.2168, "step": 7285 }, { "epoch": 0.34714285714285714, "grad_norm": 0.5119295120239258, "learning_rate": 9.143333333333333e-06, "loss": 0.2424, "step": 7290 }, { "epoch": 0.3473809523809524, "grad_norm": 0.5545509457588196, "learning_rate": 9.139999999999999e-06, "loss": 0.2245, "step": 7295 }, { "epoch": 0.3476190476190476, "grad_norm": 0.4649965763092041, "learning_rate": 9.136666666666667e-06, "loss": 0.1819, "step": 7300 }, { "epoch": 0.34785714285714286, "grad_norm": 0.444683700799942, "learning_rate": 9.133333333333333e-06, "loss": 0.2217, "step": 7305 }, { "epoch": 0.34809523809523807, "grad_norm": 0.35760459303855896, "learning_rate": 9.129999999999999e-06, "loss": 0.2389, "step": 7310 }, { "epoch": 0.34833333333333333, "grad_norm": 0.49034759402275085, "learning_rate": 9.126666666666667e-06, "loss": 0.3192, "step": 7315 }, { "epoch": 0.3485714285714286, "grad_norm": 0.3875146806240082, "learning_rate": 9.123333333333333e-06, "loss": 0.2568, "step": 7320 }, { "epoch": 0.3488095238095238, "grad_norm": 0.5046567320823669, "learning_rate": 9.12e-06, "loss": 0.2159, "step": 7325 }, { "epoch": 0.34904761904761905, "grad_norm": 0.44327229261398315, "learning_rate": 9.116666666666667e-06, "loss": 0.2402, "step": 7330 }, { "epoch": 0.3492857142857143, "grad_norm": 0.39688840508461, "learning_rate": 9.113333333333333e-06, "loss": 0.1721, "step": 7335 }, { "epoch": 0.3495238095238095, "grad_norm": 0.41337791085243225, "learning_rate": 9.11e-06, "loss": 0.232, "step": 7340 }, { "epoch": 0.3497619047619048, "grad_norm": 0.3805157542228699, "learning_rate": 9.106666666666665e-06, "loss": 0.2069, "step": 7345 }, { "epoch": 0.35, "grad_norm": 0.3348594009876251, "learning_rate": 9.103333333333333e-06, "loss": 0.1937, "step": 7350 }, { "epoch": 0.35023809523809524, "grad_norm": 0.4728131592273712, "learning_rate": 9.100000000000001e-06, "loss": 0.2377, "step": 7355 }, { "epoch": 0.3504761904761905, "grad_norm": 0.5070631504058838, "learning_rate": 9.096666666666667e-06, "loss": 0.2327, "step": 7360 }, { "epoch": 0.3507142857142857, "grad_norm": 0.4162084460258484, "learning_rate": 9.093333333333333e-06, "loss": 0.2121, "step": 7365 }, { "epoch": 0.35095238095238096, "grad_norm": 0.4626903235912323, "learning_rate": 9.09e-06, "loss": 0.2377, "step": 7370 }, { "epoch": 0.35119047619047616, "grad_norm": 0.40651121735572815, "learning_rate": 9.086666666666667e-06, "loss": 0.2273, "step": 7375 }, { "epoch": 0.3514285714285714, "grad_norm": 0.46966543793678284, "learning_rate": 9.083333333333333e-06, "loss": 0.2631, "step": 7380 }, { "epoch": 0.3516666666666667, "grad_norm": 0.5315827131271362, "learning_rate": 9.08e-06, "loss": 0.2345, "step": 7385 }, { "epoch": 0.3519047619047619, "grad_norm": 0.45406073331832886, "learning_rate": 9.076666666666666e-06, "loss": 0.1855, "step": 7390 }, { "epoch": 0.35214285714285715, "grad_norm": 0.5183016061782837, "learning_rate": 9.073333333333333e-06, "loss": 0.2486, "step": 7395 }, { "epoch": 0.3523809523809524, "grad_norm": 0.5090495347976685, "learning_rate": 9.070000000000001e-06, "loss": 0.1793, "step": 7400 }, { "epoch": 0.3526190476190476, "grad_norm": 0.5089294910430908, "learning_rate": 9.066666666666667e-06, "loss": 0.2261, "step": 7405 }, { "epoch": 0.35285714285714287, "grad_norm": 0.44579288363456726, "learning_rate": 9.063333333333334e-06, "loss": 0.1917, "step": 7410 }, { "epoch": 0.3530952380952381, "grad_norm": 0.43599405884742737, "learning_rate": 9.06e-06, "loss": 0.208, "step": 7415 }, { "epoch": 0.35333333333333333, "grad_norm": 0.5009033679962158, "learning_rate": 9.056666666666666e-06, "loss": 0.2076, "step": 7420 }, { "epoch": 0.3535714285714286, "grad_norm": 0.4709594249725342, "learning_rate": 9.053333333333332e-06, "loss": 0.2334, "step": 7425 }, { "epoch": 0.3538095238095238, "grad_norm": 0.4041838049888611, "learning_rate": 9.05e-06, "loss": 0.2427, "step": 7430 }, { "epoch": 0.35404761904761906, "grad_norm": 0.547882616519928, "learning_rate": 9.046666666666666e-06, "loss": 0.2408, "step": 7435 }, { "epoch": 0.35428571428571426, "grad_norm": 0.35264062881469727, "learning_rate": 9.043333333333334e-06, "loss": 0.2396, "step": 7440 }, { "epoch": 0.3545238095238095, "grad_norm": 0.43662959337234497, "learning_rate": 9.04e-06, "loss": 0.2076, "step": 7445 }, { "epoch": 0.3547619047619048, "grad_norm": 0.4201284646987915, "learning_rate": 9.036666666666666e-06, "loss": 0.2189, "step": 7450 }, { "epoch": 0.355, "grad_norm": 0.3974006772041321, "learning_rate": 9.033333333333334e-06, "loss": 0.2166, "step": 7455 }, { "epoch": 0.35523809523809524, "grad_norm": 0.42201653122901917, "learning_rate": 9.03e-06, "loss": 0.2424, "step": 7460 }, { "epoch": 0.3554761904761905, "grad_norm": 0.4263858497142792, "learning_rate": 9.026666666666666e-06, "loss": 0.2212, "step": 7465 }, { "epoch": 0.3557142857142857, "grad_norm": 0.3344450294971466, "learning_rate": 9.023333333333332e-06, "loss": 0.2071, "step": 7470 }, { "epoch": 0.35595238095238096, "grad_norm": 0.39591097831726074, "learning_rate": 9.02e-06, "loss": 0.2572, "step": 7475 }, { "epoch": 0.35619047619047617, "grad_norm": 0.3862801194190979, "learning_rate": 9.016666666666668e-06, "loss": 0.1763, "step": 7480 }, { "epoch": 0.35642857142857143, "grad_norm": 0.4276547431945801, "learning_rate": 9.013333333333334e-06, "loss": 0.2266, "step": 7485 }, { "epoch": 0.3566666666666667, "grad_norm": 0.4044754207134247, "learning_rate": 9.01e-06, "loss": 0.2416, "step": 7490 }, { "epoch": 0.3569047619047619, "grad_norm": 0.41322410106658936, "learning_rate": 9.006666666666666e-06, "loss": 0.2239, "step": 7495 }, { "epoch": 0.35714285714285715, "grad_norm": 0.4005190134048462, "learning_rate": 9.003333333333332e-06, "loss": 0.2413, "step": 7500 }, { "epoch": 0.35738095238095235, "grad_norm": 0.3628007173538208, "learning_rate": 9e-06, "loss": 0.2514, "step": 7505 }, { "epoch": 0.3576190476190476, "grad_norm": 0.44803139567375183, "learning_rate": 8.996666666666666e-06, "loss": 0.2153, "step": 7510 }, { "epoch": 0.3578571428571429, "grad_norm": 0.5593406558036804, "learning_rate": 8.993333333333332e-06, "loss": 0.2171, "step": 7515 }, { "epoch": 0.3580952380952381, "grad_norm": 0.38393473625183105, "learning_rate": 8.99e-06, "loss": 0.2203, "step": 7520 }, { "epoch": 0.35833333333333334, "grad_norm": 0.4578635096549988, "learning_rate": 8.986666666666666e-06, "loss": 0.2505, "step": 7525 }, { "epoch": 0.3585714285714286, "grad_norm": NaN, "learning_rate": 8.983999999999999e-06, "loss": 0.2234, "step": 7530 }, { "epoch": 0.3588095238095238, "grad_norm": 0.6554479598999023, "learning_rate": 8.980666666666665e-06, "loss": 0.2612, "step": 7535 }, { "epoch": 0.35904761904761906, "grad_norm": 0.4018705189228058, "learning_rate": 8.977333333333333e-06, "loss": 0.2568, "step": 7540 }, { "epoch": 0.35928571428571426, "grad_norm": 0.5073123574256897, "learning_rate": 8.974e-06, "loss": 0.217, "step": 7545 }, { "epoch": 0.3595238095238095, "grad_norm": 0.45926594734191895, "learning_rate": 8.970666666666667e-06, "loss": 0.2474, "step": 7550 }, { "epoch": 0.3597619047619048, "grad_norm": 0.4801379144191742, "learning_rate": 8.967333333333333e-06, "loss": 0.2457, "step": 7555 }, { "epoch": 0.36, "grad_norm": 0.3870175778865814, "learning_rate": 8.964e-06, "loss": 0.22, "step": 7560 }, { "epoch": 0.36023809523809525, "grad_norm": 0.34731945395469666, "learning_rate": 8.960666666666667e-06, "loss": 0.2566, "step": 7565 }, { "epoch": 0.36047619047619045, "grad_norm": 0.635970950126648, "learning_rate": 8.957333333333333e-06, "loss": 0.2461, "step": 7570 }, { "epoch": 0.3607142857142857, "grad_norm": 0.40676796436309814, "learning_rate": 8.954e-06, "loss": 0.2013, "step": 7575 }, { "epoch": 0.36095238095238097, "grad_norm": 0.5261366963386536, "learning_rate": 8.950666666666665e-06, "loss": 0.229, "step": 7580 }, { "epoch": 0.3611904761904762, "grad_norm": 0.46559277176856995, "learning_rate": 8.947333333333333e-06, "loss": 0.22, "step": 7585 }, { "epoch": 0.36142857142857143, "grad_norm": 0.41804593801498413, "learning_rate": 8.944000000000001e-06, "loss": 0.2298, "step": 7590 }, { "epoch": 0.3616666666666667, "grad_norm": 0.40020114183425903, "learning_rate": 8.940666666666667e-06, "loss": 0.2303, "step": 7595 }, { "epoch": 0.3619047619047619, "grad_norm": 0.5461147427558899, "learning_rate": 8.937333333333333e-06, "loss": 0.2621, "step": 7600 }, { "epoch": 0.36214285714285716, "grad_norm": 0.45627132058143616, "learning_rate": 8.934e-06, "loss": 0.2273, "step": 7605 }, { "epoch": 0.36238095238095236, "grad_norm": 0.4609178304672241, "learning_rate": 8.930666666666666e-06, "loss": 0.2409, "step": 7610 }, { "epoch": 0.3626190476190476, "grad_norm": 0.48790183663368225, "learning_rate": 8.927333333333333e-06, "loss": 0.2433, "step": 7615 }, { "epoch": 0.3628571428571429, "grad_norm": 0.38056108355522156, "learning_rate": 8.924e-06, "loss": 0.2007, "step": 7620 }, { "epoch": 0.3630952380952381, "grad_norm": 0.8086361885070801, "learning_rate": 8.920666666666667e-06, "loss": 0.2618, "step": 7625 }, { "epoch": 0.36333333333333334, "grad_norm": 0.49720942974090576, "learning_rate": 8.917333333333334e-06, "loss": 0.2409, "step": 7630 }, { "epoch": 0.36357142857142855, "grad_norm": 0.4255388379096985, "learning_rate": 8.914e-06, "loss": 0.1914, "step": 7635 }, { "epoch": 0.3638095238095238, "grad_norm": 0.5270293951034546, "learning_rate": 8.910666666666668e-06, "loss": 0.2625, "step": 7640 }, { "epoch": 0.36404761904761906, "grad_norm": 0.45461130142211914, "learning_rate": 8.907333333333334e-06, "loss": 0.2426, "step": 7645 }, { "epoch": 0.36428571428571427, "grad_norm": 0.4990454912185669, "learning_rate": 8.904e-06, "loss": 0.2039, "step": 7650 }, { "epoch": 0.3645238095238095, "grad_norm": 0.40552324056625366, "learning_rate": 8.900666666666666e-06, "loss": 0.2348, "step": 7655 }, { "epoch": 0.3647619047619048, "grad_norm": 0.4189627170562744, "learning_rate": 8.897333333333332e-06, "loss": 0.2255, "step": 7660 }, { "epoch": 0.365, "grad_norm": 0.469218909740448, "learning_rate": 8.894e-06, "loss": 0.2394, "step": 7665 }, { "epoch": 0.36523809523809525, "grad_norm": 0.5692458748817444, "learning_rate": 8.890666666666668e-06, "loss": 0.2086, "step": 7670 }, { "epoch": 0.36547619047619045, "grad_norm": 0.48324939608573914, "learning_rate": 8.887333333333334e-06, "loss": 0.2276, "step": 7675 }, { "epoch": 0.3657142857142857, "grad_norm": 0.43503427505493164, "learning_rate": 8.884e-06, "loss": 0.2665, "step": 7680 }, { "epoch": 0.365952380952381, "grad_norm": 0.47263991832733154, "learning_rate": 8.880666666666666e-06, "loss": 0.2348, "step": 7685 }, { "epoch": 0.3661904761904762, "grad_norm": 0.3684639632701874, "learning_rate": 8.877333333333332e-06, "loss": 0.1681, "step": 7690 }, { "epoch": 0.36642857142857144, "grad_norm": 0.4517008066177368, "learning_rate": 8.874e-06, "loss": 0.2371, "step": 7695 }, { "epoch": 0.36666666666666664, "grad_norm": 0.46341949701309204, "learning_rate": 8.870666666666666e-06, "loss": 0.2063, "step": 7700 }, { "epoch": 0.3669047619047619, "grad_norm": 0.46964994072914124, "learning_rate": 8.867333333333332e-06, "loss": 0.2591, "step": 7705 }, { "epoch": 0.36714285714285716, "grad_norm": 0.3990807831287384, "learning_rate": 8.864e-06, "loss": 0.2784, "step": 7710 }, { "epoch": 0.36738095238095236, "grad_norm": 0.36036476492881775, "learning_rate": 8.860666666666666e-06, "loss": 0.2117, "step": 7715 }, { "epoch": 0.3676190476190476, "grad_norm": 0.40738800168037415, "learning_rate": 8.857333333333334e-06, "loss": 0.2779, "step": 7720 }, { "epoch": 0.3678571428571429, "grad_norm": 0.39744624495506287, "learning_rate": 8.854e-06, "loss": 0.2063, "step": 7725 }, { "epoch": 0.3680952380952381, "grad_norm": 0.48054710030555725, "learning_rate": 8.850666666666666e-06, "loss": 0.2416, "step": 7730 }, { "epoch": 0.36833333333333335, "grad_norm": 0.4549337327480316, "learning_rate": 8.847333333333333e-06, "loss": 0.2386, "step": 7735 }, { "epoch": 0.36857142857142855, "grad_norm": 0.42867082357406616, "learning_rate": 8.843999999999999e-06, "loss": 0.1883, "step": 7740 }, { "epoch": 0.3688095238095238, "grad_norm": 0.7626554369926453, "learning_rate": 8.840666666666667e-06, "loss": 0.2104, "step": 7745 }, { "epoch": 0.36904761904761907, "grad_norm": 0.41477611660957336, "learning_rate": 8.837333333333334e-06, "loss": 0.2663, "step": 7750 }, { "epoch": 0.3692857142857143, "grad_norm": 0.40122249722480774, "learning_rate": 8.834e-06, "loss": 0.2326, "step": 7755 }, { "epoch": 0.36952380952380953, "grad_norm": 0.5289050936698914, "learning_rate": 8.830666666666667e-06, "loss": 0.217, "step": 7760 }, { "epoch": 0.36976190476190474, "grad_norm": 0.3972281217575073, "learning_rate": 8.827333333333333e-06, "loss": 0.2001, "step": 7765 }, { "epoch": 0.37, "grad_norm": 0.5932366251945496, "learning_rate": 8.824e-06, "loss": 0.2232, "step": 7770 }, { "epoch": 0.37023809523809526, "grad_norm": 0.43852120637893677, "learning_rate": 8.820666666666667e-06, "loss": 0.2365, "step": 7775 }, { "epoch": 0.37047619047619046, "grad_norm": 0.49656620621681213, "learning_rate": 8.817333333333333e-06, "loss": 0.2789, "step": 7780 }, { "epoch": 0.3707142857142857, "grad_norm": 0.4366615414619446, "learning_rate": 8.813999999999999e-06, "loss": 0.2213, "step": 7785 }, { "epoch": 0.370952380952381, "grad_norm": 0.4063790738582611, "learning_rate": 8.810666666666667e-06, "loss": 0.204, "step": 7790 }, { "epoch": 0.3711904761904762, "grad_norm": 0.3842606246471405, "learning_rate": 8.807333333333333e-06, "loss": 0.2432, "step": 7795 }, { "epoch": 0.37142857142857144, "grad_norm": 0.41317999362945557, "learning_rate": 8.804e-06, "loss": 0.1817, "step": 7800 }, { "epoch": 0.37166666666666665, "grad_norm": 0.5917785167694092, "learning_rate": 8.800666666666667e-06, "loss": 0.2512, "step": 7805 }, { "epoch": 0.3719047619047619, "grad_norm": 0.6054797768592834, "learning_rate": 8.797333333333333e-06, "loss": 0.2485, "step": 7810 }, { "epoch": 0.37214285714285716, "grad_norm": 0.41858142614364624, "learning_rate": 8.793999999999999e-06, "loss": 0.2477, "step": 7815 }, { "epoch": 0.37238095238095237, "grad_norm": 0.426359623670578, "learning_rate": 8.790666666666665e-06, "loss": 0.226, "step": 7820 }, { "epoch": 0.3726190476190476, "grad_norm": 0.43062853813171387, "learning_rate": 8.787333333333333e-06, "loss": 0.1829, "step": 7825 }, { "epoch": 0.37285714285714283, "grad_norm": 0.3918971121311188, "learning_rate": 8.784000000000001e-06, "loss": 0.1995, "step": 7830 }, { "epoch": 0.3730952380952381, "grad_norm": 0.353254109621048, "learning_rate": 8.780666666666667e-06, "loss": 0.2157, "step": 7835 }, { "epoch": 0.37333333333333335, "grad_norm": 0.5454214811325073, "learning_rate": 8.777333333333333e-06, "loss": 0.2923, "step": 7840 }, { "epoch": 0.37357142857142855, "grad_norm": 0.38938581943511963, "learning_rate": 8.774e-06, "loss": 0.2272, "step": 7845 }, { "epoch": 0.3738095238095238, "grad_norm": 0.4296848177909851, "learning_rate": 8.770666666666667e-06, "loss": 0.223, "step": 7850 }, { "epoch": 0.3740476190476191, "grad_norm": 0.4582464396953583, "learning_rate": 8.767333333333333e-06, "loss": 0.2116, "step": 7855 }, { "epoch": 0.3742857142857143, "grad_norm": 0.4097663164138794, "learning_rate": 8.764e-06, "loss": 0.2221, "step": 7860 }, { "epoch": 0.37452380952380954, "grad_norm": 0.49163195490837097, "learning_rate": 8.760666666666666e-06, "loss": 0.2048, "step": 7865 }, { "epoch": 0.37476190476190474, "grad_norm": 0.47747576236724854, "learning_rate": 8.757333333333333e-06, "loss": 0.1909, "step": 7870 }, { "epoch": 0.375, "grad_norm": 0.4804583191871643, "learning_rate": 8.754000000000001e-06, "loss": 0.2215, "step": 7875 }, { "epoch": 0.37523809523809526, "grad_norm": 0.4254246950149536, "learning_rate": 8.750666666666667e-06, "loss": 0.2125, "step": 7880 }, { "epoch": 0.37547619047619046, "grad_norm": 0.3917970061302185, "learning_rate": 8.747333333333333e-06, "loss": 0.1864, "step": 7885 }, { "epoch": 0.3757142857142857, "grad_norm": 0.426797479391098, "learning_rate": 8.744e-06, "loss": 0.275, "step": 7890 }, { "epoch": 0.3759523809523809, "grad_norm": 0.5588095784187317, "learning_rate": 8.740666666666666e-06, "loss": 0.2789, "step": 7895 }, { "epoch": 0.3761904761904762, "grad_norm": 0.5721539855003357, "learning_rate": 8.737333333333334e-06, "loss": 0.2029, "step": 7900 }, { "epoch": 0.37642857142857145, "grad_norm": 0.4875298738479614, "learning_rate": 8.734e-06, "loss": 0.2717, "step": 7905 }, { "epoch": 0.37666666666666665, "grad_norm": 0.4632931351661682, "learning_rate": 8.730666666666666e-06, "loss": 0.2513, "step": 7910 }, { "epoch": 0.3769047619047619, "grad_norm": 0.4620576500892639, "learning_rate": 8.727333333333334e-06, "loss": 0.2013, "step": 7915 }, { "epoch": 0.37714285714285717, "grad_norm": 0.3931884169578552, "learning_rate": 8.724e-06, "loss": 0.2757, "step": 7920 }, { "epoch": 0.3773809523809524, "grad_norm": 0.48658013343811035, "learning_rate": 8.720666666666666e-06, "loss": 0.2298, "step": 7925 }, { "epoch": 0.37761904761904763, "grad_norm": 0.3653576374053955, "learning_rate": 8.717333333333334e-06, "loss": 0.2073, "step": 7930 }, { "epoch": 0.37785714285714284, "grad_norm": 0.4330088794231415, "learning_rate": 8.714e-06, "loss": 0.2212, "step": 7935 }, { "epoch": 0.3780952380952381, "grad_norm": 0.4503859877586365, "learning_rate": 8.710666666666666e-06, "loss": 0.2296, "step": 7940 }, { "epoch": 0.37833333333333335, "grad_norm": 0.45643332600593567, "learning_rate": 8.707333333333332e-06, "loss": 0.2187, "step": 7945 }, { "epoch": 0.37857142857142856, "grad_norm": 0.3643719553947449, "learning_rate": 8.703999999999998e-06, "loss": 0.1693, "step": 7950 }, { "epoch": 0.3788095238095238, "grad_norm": 0.3739393353462219, "learning_rate": 8.700666666666668e-06, "loss": 0.1733, "step": 7955 }, { "epoch": 0.379047619047619, "grad_norm": 0.39369523525238037, "learning_rate": 8.697333333333334e-06, "loss": 0.2595, "step": 7960 }, { "epoch": 0.3792857142857143, "grad_norm": 0.44468554854393005, "learning_rate": 8.694e-06, "loss": 0.2748, "step": 7965 }, { "epoch": 0.37952380952380954, "grad_norm": 0.3805257976055145, "learning_rate": 8.690666666666666e-06, "loss": 0.2245, "step": 7970 }, { "epoch": 0.37976190476190474, "grad_norm": 0.38850778341293335, "learning_rate": 8.687333333333332e-06, "loss": 0.2285, "step": 7975 }, { "epoch": 0.38, "grad_norm": 0.4067063629627228, "learning_rate": 8.684e-06, "loss": 0.2158, "step": 7980 }, { "epoch": 0.38023809523809526, "grad_norm": 0.4543892741203308, "learning_rate": 8.680666666666666e-06, "loss": 0.2301, "step": 7985 }, { "epoch": 0.38047619047619047, "grad_norm": 0.43036365509033203, "learning_rate": 8.677333333333332e-06, "loss": 0.2311, "step": 7990 }, { "epoch": 0.3807142857142857, "grad_norm": 0.45064446330070496, "learning_rate": 8.674e-06, "loss": 0.2782, "step": 7995 }, { "epoch": 0.38095238095238093, "grad_norm": 0.5778521299362183, "learning_rate": 8.670666666666666e-06, "loss": 0.2724, "step": 8000 }, { "epoch": 0.3811904761904762, "grad_norm": 0.44341427087783813, "learning_rate": 8.667333333333334e-06, "loss": 0.249, "step": 8005 }, { "epoch": 0.38142857142857145, "grad_norm": 0.5058819055557251, "learning_rate": 8.664e-06, "loss": 0.2556, "step": 8010 }, { "epoch": 0.38166666666666665, "grad_norm": 0.44208213686943054, "learning_rate": 8.660666666666667e-06, "loss": 0.2314, "step": 8015 }, { "epoch": 0.3819047619047619, "grad_norm": 0.44921648502349854, "learning_rate": 8.657333333333333e-06, "loss": 0.2159, "step": 8020 }, { "epoch": 0.3821428571428571, "grad_norm": 0.3937484323978424, "learning_rate": 8.653999999999999e-06, "loss": 0.2153, "step": 8025 }, { "epoch": 0.3823809523809524, "grad_norm": 0.3619682490825653, "learning_rate": 8.650666666666667e-06, "loss": 0.256, "step": 8030 }, { "epoch": 0.38261904761904764, "grad_norm": 0.482459157705307, "learning_rate": 8.647333333333334e-06, "loss": 0.237, "step": 8035 }, { "epoch": 0.38285714285714284, "grad_norm": 0.40705713629722595, "learning_rate": 8.644e-06, "loss": 0.2212, "step": 8040 }, { "epoch": 0.3830952380952381, "grad_norm": 0.46499934792518616, "learning_rate": 8.640666666666667e-06, "loss": 0.2774, "step": 8045 }, { "epoch": 0.38333333333333336, "grad_norm": 0.49887561798095703, "learning_rate": 8.637333333333333e-06, "loss": 0.207, "step": 8050 }, { "epoch": 0.38357142857142856, "grad_norm": 0.4761370122432709, "learning_rate": 8.633999999999999e-06, "loss": 0.1779, "step": 8055 }, { "epoch": 0.3838095238095238, "grad_norm": 0.3784165680408478, "learning_rate": 8.630666666666667e-06, "loss": 0.2103, "step": 8060 }, { "epoch": 0.384047619047619, "grad_norm": 0.3887583613395691, "learning_rate": 8.627333333333333e-06, "loss": 0.2004, "step": 8065 }, { "epoch": 0.3842857142857143, "grad_norm": 0.4889453649520874, "learning_rate": 8.623999999999999e-06, "loss": 0.2822, "step": 8070 }, { "epoch": 0.38452380952380955, "grad_norm": 0.44897499680519104, "learning_rate": 8.620666666666667e-06, "loss": 0.2032, "step": 8075 }, { "epoch": 0.38476190476190475, "grad_norm": 0.43705180287361145, "learning_rate": 8.617333333333333e-06, "loss": 0.2382, "step": 8080 }, { "epoch": 0.385, "grad_norm": 0.35092419385910034, "learning_rate": 8.614000000000001e-06, "loss": 0.2094, "step": 8085 }, { "epoch": 0.3852380952380952, "grad_norm": 0.455278605222702, "learning_rate": 8.610666666666667e-06, "loss": 0.2451, "step": 8090 }, { "epoch": 0.3854761904761905, "grad_norm": 0.4679007828235626, "learning_rate": 8.607333333333333e-06, "loss": 0.2246, "step": 8095 }, { "epoch": 0.38571428571428573, "grad_norm": 0.42733296751976013, "learning_rate": 8.604e-06, "loss": 0.1942, "step": 8100 }, { "epoch": 0.38595238095238094, "grad_norm": 0.5019112825393677, "learning_rate": 8.600666666666665e-06, "loss": 0.2634, "step": 8105 }, { "epoch": 0.3861904761904762, "grad_norm": 0.4494395852088928, "learning_rate": 8.597333333333333e-06, "loss": 0.2043, "step": 8110 }, { "epoch": 0.38642857142857145, "grad_norm": 0.48928725719451904, "learning_rate": 8.594e-06, "loss": 0.2294, "step": 8115 }, { "epoch": 0.38666666666666666, "grad_norm": 0.3564215302467346, "learning_rate": 8.590666666666667e-06, "loss": 0.2267, "step": 8120 }, { "epoch": 0.3869047619047619, "grad_norm": 0.44395166635513306, "learning_rate": 8.587333333333333e-06, "loss": 0.2342, "step": 8125 }, { "epoch": 0.3871428571428571, "grad_norm": 0.4652273952960968, "learning_rate": 8.584e-06, "loss": 0.2739, "step": 8130 }, { "epoch": 0.3873809523809524, "grad_norm": 0.49912282824516296, "learning_rate": 8.580666666666667e-06, "loss": 0.1904, "step": 8135 }, { "epoch": 0.38761904761904764, "grad_norm": 0.5516594648361206, "learning_rate": 8.577333333333333e-06, "loss": 0.2492, "step": 8140 }, { "epoch": 0.38785714285714284, "grad_norm": 0.3591349720954895, "learning_rate": 8.574e-06, "loss": 0.1691, "step": 8145 }, { "epoch": 0.3880952380952381, "grad_norm": 0.4284437298774719, "learning_rate": 8.570666666666666e-06, "loss": 0.2415, "step": 8150 }, { "epoch": 0.3883333333333333, "grad_norm": 0.5571438670158386, "learning_rate": 8.567333333333332e-06, "loss": 0.2237, "step": 8155 }, { "epoch": 0.38857142857142857, "grad_norm": 0.42793798446655273, "learning_rate": 8.564000000000001e-06, "loss": 0.2375, "step": 8160 }, { "epoch": 0.3888095238095238, "grad_norm": 0.4269053041934967, "learning_rate": 8.560666666666667e-06, "loss": 0.2398, "step": 8165 }, { "epoch": 0.38904761904761903, "grad_norm": 0.37464573979377747, "learning_rate": 8.557333333333334e-06, "loss": 0.2093, "step": 8170 }, { "epoch": 0.3892857142857143, "grad_norm": 0.39678525924682617, "learning_rate": 8.554e-06, "loss": 0.2406, "step": 8175 }, { "epoch": 0.38952380952380955, "grad_norm": 0.49729540944099426, "learning_rate": 8.550666666666666e-06, "loss": 0.2451, "step": 8180 }, { "epoch": 0.38976190476190475, "grad_norm": 0.33627867698669434, "learning_rate": 8.547333333333332e-06, "loss": 0.2541, "step": 8185 }, { "epoch": 0.39, "grad_norm": 0.4778429865837097, "learning_rate": 8.544e-06, "loss": 0.243, "step": 8190 }, { "epoch": 0.3902380952380952, "grad_norm": 0.44380059838294983, "learning_rate": 8.540666666666666e-06, "loss": 0.228, "step": 8195 }, { "epoch": 0.3904761904761905, "grad_norm": 0.45299863815307617, "learning_rate": 8.537333333333334e-06, "loss": 0.2481, "step": 8200 }, { "epoch": 0.39071428571428574, "grad_norm": 0.3343679904937744, "learning_rate": 8.534e-06, "loss": 0.201, "step": 8205 }, { "epoch": 0.39095238095238094, "grad_norm": 0.532960832118988, "learning_rate": 8.530666666666666e-06, "loss": 0.1901, "step": 8210 }, { "epoch": 0.3911904761904762, "grad_norm": 0.4028111398220062, "learning_rate": 8.527333333333334e-06, "loss": 0.2043, "step": 8215 }, { "epoch": 0.3914285714285714, "grad_norm": 0.47016727924346924, "learning_rate": 8.524e-06, "loss": 0.243, "step": 8220 }, { "epoch": 0.39166666666666666, "grad_norm": 0.36453530192375183, "learning_rate": 8.520666666666666e-06, "loss": 0.1667, "step": 8225 }, { "epoch": 0.3919047619047619, "grad_norm": 0.36307987570762634, "learning_rate": 8.517333333333332e-06, "loss": 0.2027, "step": 8230 }, { "epoch": 0.3921428571428571, "grad_norm": 0.5146629810333252, "learning_rate": 8.513999999999998e-06, "loss": 0.2232, "step": 8235 }, { "epoch": 0.3923809523809524, "grad_norm": 0.3720576763153076, "learning_rate": 8.510666666666668e-06, "loss": 0.1975, "step": 8240 }, { "epoch": 0.39261904761904765, "grad_norm": 0.4404980540275574, "learning_rate": 8.507333333333334e-06, "loss": 0.218, "step": 8245 }, { "epoch": 0.39285714285714285, "grad_norm": 0.45930472016334534, "learning_rate": 8.504e-06, "loss": 0.1965, "step": 8250 }, { "epoch": 0.3930952380952381, "grad_norm": 0.4222681224346161, "learning_rate": 8.500666666666666e-06, "loss": 0.2265, "step": 8255 }, { "epoch": 0.3933333333333333, "grad_norm": 0.3666972219944, "learning_rate": 8.497333333333333e-06, "loss": 0.1815, "step": 8260 }, { "epoch": 0.39357142857142857, "grad_norm": 0.6099615097045898, "learning_rate": 8.494e-06, "loss": 0.2326, "step": 8265 }, { "epoch": 0.39380952380952383, "grad_norm": 0.5427550077438354, "learning_rate": 8.490666666666666e-06, "loss": 0.2201, "step": 8270 }, { "epoch": 0.39404761904761904, "grad_norm": 0.45691215991973877, "learning_rate": 8.487333333333333e-06, "loss": 0.2292, "step": 8275 }, { "epoch": 0.3942857142857143, "grad_norm": 0.5271881222724915, "learning_rate": 8.484e-06, "loss": 0.2252, "step": 8280 }, { "epoch": 0.3945238095238095, "grad_norm": 0.4106653928756714, "learning_rate": 8.480666666666667e-06, "loss": 0.1839, "step": 8285 }, { "epoch": 0.39476190476190476, "grad_norm": 0.42967334389686584, "learning_rate": 8.477333333333334e-06, "loss": 0.197, "step": 8290 }, { "epoch": 0.395, "grad_norm": 0.45088979601860046, "learning_rate": 8.474e-06, "loss": 0.2291, "step": 8295 }, { "epoch": 0.3952380952380952, "grad_norm": 0.5419331789016724, "learning_rate": 8.470666666666667e-06, "loss": 0.2666, "step": 8300 }, { "epoch": 0.3954761904761905, "grad_norm": 0.3041170835494995, "learning_rate": 8.467333333333333e-06, "loss": 0.2328, "step": 8305 }, { "epoch": 0.39571428571428574, "grad_norm": 0.40497300028800964, "learning_rate": 8.463999999999999e-06, "loss": 0.2045, "step": 8310 }, { "epoch": 0.39595238095238094, "grad_norm": 0.44189509749412537, "learning_rate": 8.460666666666665e-06, "loss": 0.2299, "step": 8315 }, { "epoch": 0.3961904761904762, "grad_norm": 0.6921185851097107, "learning_rate": 8.457333333333333e-06, "loss": 0.2442, "step": 8320 }, { "epoch": 0.3964285714285714, "grad_norm": 0.43961089849472046, "learning_rate": 8.454e-06, "loss": 0.2406, "step": 8325 }, { "epoch": 0.39666666666666667, "grad_norm": 0.4638483226299286, "learning_rate": 8.450666666666667e-06, "loss": 0.2319, "step": 8330 }, { "epoch": 0.3969047619047619, "grad_norm": 0.37146660685539246, "learning_rate": 8.447333333333333e-06, "loss": 0.192, "step": 8335 }, { "epoch": 0.39714285714285713, "grad_norm": 0.45196905732154846, "learning_rate": 8.443999999999999e-06, "loss": 0.2366, "step": 8340 }, { "epoch": 0.3973809523809524, "grad_norm": 0.4551321268081665, "learning_rate": 8.440666666666667e-06, "loss": 0.2001, "step": 8345 }, { "epoch": 0.3976190476190476, "grad_norm": 0.44207340478897095, "learning_rate": 8.437333333333333e-06, "loss": 0.2665, "step": 8350 }, { "epoch": 0.39785714285714285, "grad_norm": 0.44531211256980896, "learning_rate": 8.434e-06, "loss": 0.2026, "step": 8355 }, { "epoch": 0.3980952380952381, "grad_norm": 0.36094462871551514, "learning_rate": 8.430666666666665e-06, "loss": 0.1983, "step": 8360 }, { "epoch": 0.3983333333333333, "grad_norm": 0.6158672571182251, "learning_rate": 8.427333333333333e-06, "loss": 0.2198, "step": 8365 }, { "epoch": 0.3985714285714286, "grad_norm": 0.4320964515209198, "learning_rate": 8.424000000000001e-06, "loss": 0.2175, "step": 8370 }, { "epoch": 0.39880952380952384, "grad_norm": 0.3715912103652954, "learning_rate": 8.420666666666667e-06, "loss": 0.2754, "step": 8375 }, { "epoch": 0.39904761904761904, "grad_norm": 0.4694534242153168, "learning_rate": 8.417333333333333e-06, "loss": 0.2169, "step": 8380 }, { "epoch": 0.3992857142857143, "grad_norm": 0.3873796761035919, "learning_rate": 8.414e-06, "loss": 0.2249, "step": 8385 }, { "epoch": 0.3995238095238095, "grad_norm": 0.413348525762558, "learning_rate": 8.410666666666666e-06, "loss": 0.2108, "step": 8390 }, { "epoch": 0.39976190476190476, "grad_norm": 0.45472100377082825, "learning_rate": 8.407333333333333e-06, "loss": 0.2121, "step": 8395 }, { "epoch": 0.4, "grad_norm": 0.3964961767196655, "learning_rate": 8.404e-06, "loss": 0.2286, "step": 8400 }, { "epoch": 0.4002380952380952, "grad_norm": 0.4768756926059723, "learning_rate": 8.400666666666667e-06, "loss": 0.2615, "step": 8405 }, { "epoch": 0.4004761904761905, "grad_norm": 0.4212242364883423, "learning_rate": 8.397333333333333e-06, "loss": 0.2701, "step": 8410 }, { "epoch": 0.4007142857142857, "grad_norm": 0.4055573046207428, "learning_rate": 8.394e-06, "loss": 0.2513, "step": 8415 }, { "epoch": 0.40095238095238095, "grad_norm": 0.49180957674980164, "learning_rate": 8.390666666666667e-06, "loss": 0.2048, "step": 8420 }, { "epoch": 0.4011904761904762, "grad_norm": 0.4907189607620239, "learning_rate": 8.387333333333334e-06, "loss": 0.2317, "step": 8425 }, { "epoch": 0.4014285714285714, "grad_norm": 0.5104881525039673, "learning_rate": 8.384e-06, "loss": 0.2262, "step": 8430 }, { "epoch": 0.40166666666666667, "grad_norm": 0.45264992117881775, "learning_rate": 8.380666666666666e-06, "loss": 0.2142, "step": 8435 }, { "epoch": 0.40190476190476193, "grad_norm": 0.7157171964645386, "learning_rate": 8.377333333333332e-06, "loss": 0.1882, "step": 8440 }, { "epoch": 0.40214285714285714, "grad_norm": 0.35873785614967346, "learning_rate": 8.374000000000001e-06, "loss": 0.1937, "step": 8445 }, { "epoch": 0.4023809523809524, "grad_norm": 0.3764764368534088, "learning_rate": 8.370666666666668e-06, "loss": 0.2227, "step": 8450 }, { "epoch": 0.4026190476190476, "grad_norm": 0.4401903748512268, "learning_rate": 8.367333333333334e-06, "loss": 0.2614, "step": 8455 }, { "epoch": 0.40285714285714286, "grad_norm": 0.26983001828193665, "learning_rate": 8.364e-06, "loss": 0.1761, "step": 8460 }, { "epoch": 0.4030952380952381, "grad_norm": 0.4540574550628662, "learning_rate": 8.360666666666666e-06, "loss": 0.2297, "step": 8465 }, { "epoch": 0.4033333333333333, "grad_norm": 0.5104097127914429, "learning_rate": 8.357333333333332e-06, "loss": 0.2404, "step": 8470 }, { "epoch": 0.4035714285714286, "grad_norm": 0.4405704736709595, "learning_rate": 8.354e-06, "loss": 0.2192, "step": 8475 }, { "epoch": 0.4038095238095238, "grad_norm": 0.667124330997467, "learning_rate": 8.350666666666666e-06, "loss": 0.2342, "step": 8480 }, { "epoch": 0.40404761904761904, "grad_norm": 0.5237943530082703, "learning_rate": 8.347333333333334e-06, "loss": 0.2061, "step": 8485 }, { "epoch": 0.4042857142857143, "grad_norm": 2.169886350631714, "learning_rate": 8.344e-06, "loss": 0.2696, "step": 8490 }, { "epoch": 0.4045238095238095, "grad_norm": 0.43988391757011414, "learning_rate": 8.340666666666666e-06, "loss": 0.232, "step": 8495 }, { "epoch": 0.40476190476190477, "grad_norm": 0.4388115108013153, "learning_rate": 8.337333333333334e-06, "loss": 0.2303, "step": 8500 }, { "epoch": 0.405, "grad_norm": 0.37904393672943115, "learning_rate": 8.334e-06, "loss": 0.2317, "step": 8505 }, { "epoch": 0.40523809523809523, "grad_norm": 0.3456270694732666, "learning_rate": 8.330666666666666e-06, "loss": 0.2144, "step": 8510 }, { "epoch": 0.4054761904761905, "grad_norm": 0.4578305780887604, "learning_rate": 8.327333333333332e-06, "loss": 0.2154, "step": 8515 }, { "epoch": 0.4057142857142857, "grad_norm": 0.4407404363155365, "learning_rate": 8.323999999999999e-06, "loss": 0.2094, "step": 8520 }, { "epoch": 0.40595238095238095, "grad_norm": 0.4232291877269745, "learning_rate": 8.320666666666666e-06, "loss": 0.2313, "step": 8525 }, { "epoch": 0.4061904761904762, "grad_norm": 0.635086178779602, "learning_rate": 8.317333333333334e-06, "loss": 0.2492, "step": 8530 }, { "epoch": 0.4064285714285714, "grad_norm": 0.37200814485549927, "learning_rate": 8.314e-06, "loss": 0.1463, "step": 8535 }, { "epoch": 0.4066666666666667, "grad_norm": 0.417141318321228, "learning_rate": 8.310666666666666e-06, "loss": 0.2577, "step": 8540 }, { "epoch": 0.4069047619047619, "grad_norm": 0.42821961641311646, "learning_rate": 8.307333333333333e-06, "loss": 0.2241, "step": 8545 }, { "epoch": 0.40714285714285714, "grad_norm": 0.38755741715431213, "learning_rate": 8.304e-06, "loss": 0.2134, "step": 8550 }, { "epoch": 0.4073809523809524, "grad_norm": 1.5280897617340088, "learning_rate": 8.300666666666667e-06, "loss": 0.2486, "step": 8555 }, { "epoch": 0.4076190476190476, "grad_norm": 0.3936760127544403, "learning_rate": 8.297333333333333e-06, "loss": 0.2455, "step": 8560 }, { "epoch": 0.40785714285714286, "grad_norm": 0.44524914026260376, "learning_rate": 8.293999999999999e-06, "loss": 0.2321, "step": 8565 }, { "epoch": 0.4080952380952381, "grad_norm": 0.49682071805000305, "learning_rate": 8.290666666666667e-06, "loss": 0.2353, "step": 8570 }, { "epoch": 0.4083333333333333, "grad_norm": 0.4793544411659241, "learning_rate": 8.287333333333335e-06, "loss": 0.2313, "step": 8575 }, { "epoch": 0.4085714285714286, "grad_norm": 0.45771849155426025, "learning_rate": 8.284e-06, "loss": 0.2342, "step": 8580 }, { "epoch": 0.4088095238095238, "grad_norm": 0.4421142339706421, "learning_rate": 8.280666666666667e-06, "loss": 0.2513, "step": 8585 }, { "epoch": 0.40904761904761905, "grad_norm": 0.37240010499954224, "learning_rate": 8.277333333333333e-06, "loss": 0.2018, "step": 8590 }, { "epoch": 0.4092857142857143, "grad_norm": 0.6773292422294617, "learning_rate": 8.273999999999999e-06, "loss": 0.2235, "step": 8595 }, { "epoch": 0.4095238095238095, "grad_norm": 0.37858086824417114, "learning_rate": 8.270666666666665e-06, "loss": 0.1967, "step": 8600 }, { "epoch": 0.40976190476190477, "grad_norm": 0.3317955434322357, "learning_rate": 8.267333333333333e-06, "loss": 0.2061, "step": 8605 }, { "epoch": 0.41, "grad_norm": 0.44133955240249634, "learning_rate": 8.264e-06, "loss": 0.3127, "step": 8610 }, { "epoch": 0.41023809523809524, "grad_norm": 0.3279613256454468, "learning_rate": 8.260666666666667e-06, "loss": 0.182, "step": 8615 }, { "epoch": 0.4104761904761905, "grad_norm": 0.485049843788147, "learning_rate": 8.257333333333333e-06, "loss": 0.2108, "step": 8620 }, { "epoch": 0.4107142857142857, "grad_norm": 0.42962372303009033, "learning_rate": 8.254e-06, "loss": 0.2387, "step": 8625 }, { "epoch": 0.41095238095238096, "grad_norm": 0.4103396534919739, "learning_rate": 8.250666666666667e-06, "loss": 0.2167, "step": 8630 }, { "epoch": 0.4111904761904762, "grad_norm": 0.38121241331100464, "learning_rate": 8.247333333333333e-06, "loss": 0.2085, "step": 8635 }, { "epoch": 0.4114285714285714, "grad_norm": 0.49272459745407104, "learning_rate": 8.244e-06, "loss": 0.252, "step": 8640 }, { "epoch": 0.4116666666666667, "grad_norm": 0.524768054485321, "learning_rate": 8.240666666666665e-06, "loss": 0.2661, "step": 8645 }, { "epoch": 0.4119047619047619, "grad_norm": 0.372670978307724, "learning_rate": 8.237333333333333e-06, "loss": 0.1595, "step": 8650 }, { "epoch": 0.41214285714285714, "grad_norm": 0.4869840443134308, "learning_rate": 8.234000000000001e-06, "loss": 0.21, "step": 8655 }, { "epoch": 0.4123809523809524, "grad_norm": 0.44358810782432556, "learning_rate": 8.230666666666667e-06, "loss": 0.26, "step": 8660 }, { "epoch": 0.4126190476190476, "grad_norm": 0.4607744812965393, "learning_rate": 8.227333333333333e-06, "loss": 0.2774, "step": 8665 }, { "epoch": 0.41285714285714287, "grad_norm": 0.39104804396629333, "learning_rate": 8.224e-06, "loss": 0.1769, "step": 8670 }, { "epoch": 0.41309523809523807, "grad_norm": 0.4497211277484894, "learning_rate": 8.220666666666666e-06, "loss": 0.2073, "step": 8675 }, { "epoch": 0.41333333333333333, "grad_norm": 0.4055417776107788, "learning_rate": 8.217333333333333e-06, "loss": 0.1901, "step": 8680 }, { "epoch": 0.4135714285714286, "grad_norm": 0.4164077341556549, "learning_rate": 8.214e-06, "loss": 0.2357, "step": 8685 }, { "epoch": 0.4138095238095238, "grad_norm": 0.4771757423877716, "learning_rate": 8.210666666666667e-06, "loss": 0.2052, "step": 8690 }, { "epoch": 0.41404761904761905, "grad_norm": 0.41265660524368286, "learning_rate": 8.207333333333334e-06, "loss": 0.2072, "step": 8695 }, { "epoch": 0.4142857142857143, "grad_norm": 0.4137125611305237, "learning_rate": 8.204e-06, "loss": 0.2087, "step": 8700 }, { "epoch": 0.4145238095238095, "grad_norm": 0.481851726770401, "learning_rate": 8.200666666666668e-06, "loss": 0.234, "step": 8705 }, { "epoch": 0.4147619047619048, "grad_norm": 0.40104731917381287, "learning_rate": 8.197333333333334e-06, "loss": 0.2194, "step": 8710 }, { "epoch": 0.415, "grad_norm": 0.4183977246284485, "learning_rate": 8.194e-06, "loss": 0.2303, "step": 8715 }, { "epoch": 0.41523809523809524, "grad_norm": 0.35141605138778687, "learning_rate": 8.190666666666666e-06, "loss": 0.2335, "step": 8720 }, { "epoch": 0.4154761904761905, "grad_norm": 0.5314455628395081, "learning_rate": 8.187333333333332e-06, "loss": 0.2234, "step": 8725 }, { "epoch": 0.4157142857142857, "grad_norm": 0.44305041432380676, "learning_rate": 8.184e-06, "loss": 0.2286, "step": 8730 }, { "epoch": 0.41595238095238096, "grad_norm": 0.5041090846061707, "learning_rate": 8.180666666666668e-06, "loss": 0.1985, "step": 8735 }, { "epoch": 0.41619047619047617, "grad_norm": 0.3678430914878845, "learning_rate": 8.177333333333334e-06, "loss": 0.2251, "step": 8740 }, { "epoch": 0.4164285714285714, "grad_norm": 0.408250093460083, "learning_rate": 8.174e-06, "loss": 0.1888, "step": 8745 }, { "epoch": 0.4166666666666667, "grad_norm": 0.47129949927330017, "learning_rate": 8.170666666666666e-06, "loss": 0.2557, "step": 8750 }, { "epoch": 0.4169047619047619, "grad_norm": 0.41482678055763245, "learning_rate": 8.167333333333332e-06, "loss": 0.2329, "step": 8755 }, { "epoch": 0.41714285714285715, "grad_norm": 0.36973556876182556, "learning_rate": 8.164e-06, "loss": 0.2048, "step": 8760 }, { "epoch": 0.4173809523809524, "grad_norm": 0.3489472568035126, "learning_rate": 8.160666666666666e-06, "loss": 0.2082, "step": 8765 }, { "epoch": 0.4176190476190476, "grad_norm": 0.5564879775047302, "learning_rate": 8.157333333333332e-06, "loss": 0.2489, "step": 8770 }, { "epoch": 0.41785714285714287, "grad_norm": 0.48579880595207214, "learning_rate": 8.154e-06, "loss": 0.2537, "step": 8775 }, { "epoch": 0.4180952380952381, "grad_norm": 0.4522174000740051, "learning_rate": 8.150666666666666e-06, "loss": 0.2602, "step": 8780 }, { "epoch": 0.41833333333333333, "grad_norm": 0.565270721912384, "learning_rate": 8.147333333333334e-06, "loss": 0.2213, "step": 8785 }, { "epoch": 0.4185714285714286, "grad_norm": 0.440443754196167, "learning_rate": 8.144e-06, "loss": 0.1855, "step": 8790 }, { "epoch": 0.4188095238095238, "grad_norm": 0.4842322766780853, "learning_rate": 8.140666666666666e-06, "loss": 0.2093, "step": 8795 }, { "epoch": 0.41904761904761906, "grad_norm": 0.35763517022132874, "learning_rate": 8.137333333333333e-06, "loss": 0.1781, "step": 8800 }, { "epoch": 0.41928571428571426, "grad_norm": 0.4166197180747986, "learning_rate": 8.133999999999999e-06, "loss": 0.2327, "step": 8805 }, { "epoch": 0.4195238095238095, "grad_norm": 0.40746572613716125, "learning_rate": 8.130666666666667e-06, "loss": 0.1796, "step": 8810 }, { "epoch": 0.4197619047619048, "grad_norm": 0.39069950580596924, "learning_rate": 8.127333333333334e-06, "loss": 0.1985, "step": 8815 }, { "epoch": 0.42, "grad_norm": 0.5181455016136169, "learning_rate": 8.124e-06, "loss": 0.2815, "step": 8820 }, { "epoch": 0.42023809523809524, "grad_norm": 0.2967550754547119, "learning_rate": 8.120666666666667e-06, "loss": 0.1832, "step": 8825 }, { "epoch": 0.4204761904761905, "grad_norm": 0.5116950869560242, "learning_rate": 8.117333333333333e-06, "loss": 0.2745, "step": 8830 }, { "epoch": 0.4207142857142857, "grad_norm": 0.43627312779426575, "learning_rate": 8.114e-06, "loss": 0.2517, "step": 8835 }, { "epoch": 0.42095238095238097, "grad_norm": 0.5780447125434875, "learning_rate": 8.110666666666667e-06, "loss": 0.2756, "step": 8840 }, { "epoch": 0.42119047619047617, "grad_norm": 0.44052016735076904, "learning_rate": 8.107333333333333e-06, "loss": 0.1823, "step": 8845 }, { "epoch": 0.42142857142857143, "grad_norm": 0.5058430433273315, "learning_rate": 8.103999999999999e-06, "loss": 0.2062, "step": 8850 }, { "epoch": 0.4216666666666667, "grad_norm": 0.4131103754043579, "learning_rate": 8.100666666666667e-06, "loss": 0.2236, "step": 8855 }, { "epoch": 0.4219047619047619, "grad_norm": 0.40215882658958435, "learning_rate": 8.097333333333333e-06, "loss": 0.2187, "step": 8860 }, { "epoch": 0.42214285714285715, "grad_norm": 0.45003384351730347, "learning_rate": 8.094e-06, "loss": 0.2144, "step": 8865 }, { "epoch": 0.42238095238095236, "grad_norm": 0.40875399112701416, "learning_rate": 8.090666666666667e-06, "loss": 0.2255, "step": 8870 }, { "epoch": 0.4226190476190476, "grad_norm": 0.4209079146385193, "learning_rate": 8.087333333333333e-06, "loss": 0.2361, "step": 8875 }, { "epoch": 0.4228571428571429, "grad_norm": 0.6097840070724487, "learning_rate": 8.084e-06, "loss": 0.2043, "step": 8880 }, { "epoch": 0.4230952380952381, "grad_norm": 0.46958643198013306, "learning_rate": 8.080666666666665e-06, "loss": 0.2578, "step": 8885 }, { "epoch": 0.42333333333333334, "grad_norm": 0.45710089802742004, "learning_rate": 8.077333333333333e-06, "loss": 0.2083, "step": 8890 }, { "epoch": 0.4235714285714286, "grad_norm": 0.4189091622829437, "learning_rate": 8.074000000000001e-06, "loss": 0.2164, "step": 8895 }, { "epoch": 0.4238095238095238, "grad_norm": 0.3993055820465088, "learning_rate": 8.070666666666667e-06, "loss": 0.2015, "step": 8900 }, { "epoch": 0.42404761904761906, "grad_norm": 0.44819051027297974, "learning_rate": 8.067333333333333e-06, "loss": 0.2341, "step": 8905 }, { "epoch": 0.42428571428571427, "grad_norm": 0.477754145860672, "learning_rate": 8.064e-06, "loss": 0.2162, "step": 8910 }, { "epoch": 0.4245238095238095, "grad_norm": 0.5201497077941895, "learning_rate": 8.060666666666667e-06, "loss": 0.2672, "step": 8915 }, { "epoch": 0.4247619047619048, "grad_norm": 0.6206244826316833, "learning_rate": 8.057333333333333e-06, "loss": 0.2301, "step": 8920 }, { "epoch": 0.425, "grad_norm": 0.5998741984367371, "learning_rate": 8.054e-06, "loss": 0.2394, "step": 8925 }, { "epoch": 0.42523809523809525, "grad_norm": 0.662285566329956, "learning_rate": 8.050666666666666e-06, "loss": 0.2382, "step": 8930 }, { "epoch": 0.42547619047619045, "grad_norm": 0.4352594017982483, "learning_rate": 8.047333333333333e-06, "loss": 0.2156, "step": 8935 }, { "epoch": 0.4257142857142857, "grad_norm": 0.45647865533828735, "learning_rate": 8.044000000000001e-06, "loss": 0.241, "step": 8940 }, { "epoch": 0.42595238095238097, "grad_norm": 0.45010480284690857, "learning_rate": 8.040666666666667e-06, "loss": 0.1912, "step": 8945 }, { "epoch": 0.4261904761904762, "grad_norm": 0.4498392641544342, "learning_rate": 8.037333333333334e-06, "loss": 0.2253, "step": 8950 }, { "epoch": 0.42642857142857143, "grad_norm": 0.476970911026001, "learning_rate": 8.034e-06, "loss": 0.2087, "step": 8955 }, { "epoch": 0.4266666666666667, "grad_norm": 0.4308534860610962, "learning_rate": 8.030666666666666e-06, "loss": 0.1866, "step": 8960 }, { "epoch": 0.4269047619047619, "grad_norm": 0.4512042701244354, "learning_rate": 8.027333333333334e-06, "loss": 0.1625, "step": 8965 }, { "epoch": 0.42714285714285716, "grad_norm": 0.4601154625415802, "learning_rate": 8.024e-06, "loss": 0.2318, "step": 8970 }, { "epoch": 0.42738095238095236, "grad_norm": 0.46994447708129883, "learning_rate": 8.020666666666666e-06, "loss": 0.2177, "step": 8975 }, { "epoch": 0.4276190476190476, "grad_norm": 0.39803168177604675, "learning_rate": 8.017333333333334e-06, "loss": 0.2568, "step": 8980 }, { "epoch": 0.4278571428571429, "grad_norm": 0.5415821075439453, "learning_rate": 8.014e-06, "loss": 0.2773, "step": 8985 }, { "epoch": 0.4280952380952381, "grad_norm": 0.42466622591018677, "learning_rate": 8.010666666666666e-06, "loss": 0.2151, "step": 8990 }, { "epoch": 0.42833333333333334, "grad_norm": 0.46692410111427307, "learning_rate": 8.007333333333334e-06, "loss": 0.2402, "step": 8995 }, { "epoch": 0.42857142857142855, "grad_norm": 0.37820199131965637, "learning_rate": 8.004e-06, "loss": 0.2533, "step": 9000 }, { "epoch": 0.4288095238095238, "grad_norm": 0.4199071526527405, "learning_rate": 8.000666666666666e-06, "loss": 0.2211, "step": 9005 }, { "epoch": 0.42904761904761907, "grad_norm": 0.363129585981369, "learning_rate": 7.997333333333332e-06, "loss": 0.2332, "step": 9010 }, { "epoch": 0.42928571428571427, "grad_norm": 0.42956656217575073, "learning_rate": 7.994e-06, "loss": 0.2262, "step": 9015 }, { "epoch": 0.42952380952380953, "grad_norm": 0.4263468384742737, "learning_rate": 7.990666666666668e-06, "loss": 0.2371, "step": 9020 }, { "epoch": 0.4297619047619048, "grad_norm": 0.33797627687454224, "learning_rate": 7.987333333333334e-06, "loss": 0.1756, "step": 9025 }, { "epoch": 0.43, "grad_norm": 0.3990362584590912, "learning_rate": 7.984e-06, "loss": 0.228, "step": 9030 }, { "epoch": 0.43023809523809525, "grad_norm": 0.5532035827636719, "learning_rate": 7.980666666666666e-06, "loss": 0.2686, "step": 9035 }, { "epoch": 0.43047619047619046, "grad_norm": 0.42914697527885437, "learning_rate": 7.977333333333332e-06, "loss": 0.2462, "step": 9040 }, { "epoch": 0.4307142857142857, "grad_norm": 0.9246879816055298, "learning_rate": 7.974e-06, "loss": 0.2816, "step": 9045 }, { "epoch": 0.430952380952381, "grad_norm": 0.37052348256111145, "learning_rate": 7.970666666666666e-06, "loss": 0.2591, "step": 9050 }, { "epoch": 0.4311904761904762, "grad_norm": 0.43622079491615295, "learning_rate": 7.967333333333332e-06, "loss": 0.2167, "step": 9055 }, { "epoch": 0.43142857142857144, "grad_norm": 0.34811267256736755, "learning_rate": 7.964e-06, "loss": 0.2071, "step": 9060 }, { "epoch": 0.43166666666666664, "grad_norm": 0.41995519399642944, "learning_rate": 7.960666666666666e-06, "loss": 0.2033, "step": 9065 }, { "epoch": 0.4319047619047619, "grad_norm": 0.4211236536502838, "learning_rate": 7.957333333333334e-06, "loss": 0.1983, "step": 9070 }, { "epoch": 0.43214285714285716, "grad_norm": 0.4778900742530823, "learning_rate": 7.954e-06, "loss": 0.2214, "step": 9075 }, { "epoch": 0.43238095238095237, "grad_norm": 0.3872385621070862, "learning_rate": 7.950666666666667e-06, "loss": 0.2512, "step": 9080 }, { "epoch": 0.4326190476190476, "grad_norm": 0.4705645442008972, "learning_rate": 7.947333333333333e-06, "loss": 0.1894, "step": 9085 }, { "epoch": 0.4328571428571429, "grad_norm": 0.484147846698761, "learning_rate": 7.943999999999999e-06, "loss": 0.2296, "step": 9090 }, { "epoch": 0.4330952380952381, "grad_norm": 0.35565081238746643, "learning_rate": 7.940666666666667e-06, "loss": 0.239, "step": 9095 }, { "epoch": 0.43333333333333335, "grad_norm": 0.4390832483768463, "learning_rate": 7.937333333333334e-06, "loss": 0.2319, "step": 9100 }, { "epoch": 0.43357142857142855, "grad_norm": 0.3877842128276825, "learning_rate": 7.934e-06, "loss": 0.2205, "step": 9105 }, { "epoch": 0.4338095238095238, "grad_norm": 0.43435585498809814, "learning_rate": 7.930666666666667e-06, "loss": 0.2002, "step": 9110 }, { "epoch": 0.43404761904761907, "grad_norm": 0.36863189935684204, "learning_rate": 7.927333333333333e-06, "loss": 0.1865, "step": 9115 }, { "epoch": 0.4342857142857143, "grad_norm": 0.45536142587661743, "learning_rate": 7.923999999999999e-06, "loss": 0.2195, "step": 9120 }, { "epoch": 0.43452380952380953, "grad_norm": 0.4373854696750641, "learning_rate": 7.920666666666667e-06, "loss": 0.188, "step": 9125 }, { "epoch": 0.43476190476190474, "grad_norm": 0.3739497661590576, "learning_rate": 7.917333333333333e-06, "loss": 0.2638, "step": 9130 }, { "epoch": 0.435, "grad_norm": 0.4782034158706665, "learning_rate": 7.913999999999999e-06, "loss": 0.2229, "step": 9135 }, { "epoch": 0.43523809523809526, "grad_norm": 0.44868549704551697, "learning_rate": 7.910666666666667e-06, "loss": 0.1899, "step": 9140 }, { "epoch": 0.43547619047619046, "grad_norm": 0.4718049466609955, "learning_rate": 7.907333333333333e-06, "loss": 0.2537, "step": 9145 }, { "epoch": 0.4357142857142857, "grad_norm": 0.5093623995780945, "learning_rate": 7.904000000000001e-06, "loss": 0.2329, "step": 9150 }, { "epoch": 0.435952380952381, "grad_norm": 0.3728097677230835, "learning_rate": 7.900666666666667e-06, "loss": 0.2246, "step": 9155 }, { "epoch": 0.4361904761904762, "grad_norm": 0.43638837337493896, "learning_rate": 7.897333333333333e-06, "loss": 0.2264, "step": 9160 }, { "epoch": 0.43642857142857144, "grad_norm": 0.38847339153289795, "learning_rate": 7.894e-06, "loss": 0.1862, "step": 9165 }, { "epoch": 0.43666666666666665, "grad_norm": 0.41237375140190125, "learning_rate": 7.890666666666665e-06, "loss": 0.2399, "step": 9170 }, { "epoch": 0.4369047619047619, "grad_norm": 0.41582393646240234, "learning_rate": 7.887333333333333e-06, "loss": 0.2056, "step": 9175 }, { "epoch": 0.43714285714285717, "grad_norm": 0.3983112871646881, "learning_rate": 7.884e-06, "loss": 0.2086, "step": 9180 }, { "epoch": 0.43738095238095237, "grad_norm": 0.4685527980327606, "learning_rate": 7.880666666666667e-06, "loss": 0.2078, "step": 9185 }, { "epoch": 0.43761904761904763, "grad_norm": 0.34858426451683044, "learning_rate": 7.877333333333333e-06, "loss": 0.2068, "step": 9190 }, { "epoch": 0.43785714285714283, "grad_norm": 0.6045703887939453, "learning_rate": 7.874e-06, "loss": 0.2016, "step": 9195 }, { "epoch": 0.4380952380952381, "grad_norm": 0.42486444115638733, "learning_rate": 7.870666666666667e-06, "loss": 0.1981, "step": 9200 }, { "epoch": 0.43833333333333335, "grad_norm": 0.5098163485527039, "learning_rate": 7.867333333333333e-06, "loss": 0.2538, "step": 9205 }, { "epoch": 0.43857142857142856, "grad_norm": 0.37049898505210876, "learning_rate": 7.864e-06, "loss": 0.1938, "step": 9210 }, { "epoch": 0.4388095238095238, "grad_norm": 0.4144403636455536, "learning_rate": 7.860666666666666e-06, "loss": 0.1786, "step": 9215 }, { "epoch": 0.439047619047619, "grad_norm": 0.46527203917503357, "learning_rate": 7.857333333333334e-06, "loss": 0.2225, "step": 9220 }, { "epoch": 0.4392857142857143, "grad_norm": 0.4282837212085724, "learning_rate": 7.854000000000001e-06, "loss": 0.2185, "step": 9225 }, { "epoch": 0.43952380952380954, "grad_norm": 0.4948514699935913, "learning_rate": 7.850666666666668e-06, "loss": 0.2955, "step": 9230 }, { "epoch": 0.43976190476190474, "grad_norm": 0.4168260097503662, "learning_rate": 7.847333333333334e-06, "loss": 0.2425, "step": 9235 }, { "epoch": 0.44, "grad_norm": 0.46566107869148254, "learning_rate": 7.844e-06, "loss": 0.2077, "step": 9240 }, { "epoch": 0.44023809523809526, "grad_norm": 0.37963756918907166, "learning_rate": 7.840666666666666e-06, "loss": 0.2075, "step": 9245 }, { "epoch": 0.44047619047619047, "grad_norm": 0.38700103759765625, "learning_rate": 7.837333333333332e-06, "loss": 0.2251, "step": 9250 }, { "epoch": 0.4407142857142857, "grad_norm": 0.3494516909122467, "learning_rate": 7.834e-06, "loss": 0.1599, "step": 9255 }, { "epoch": 0.44095238095238093, "grad_norm": 0.39083942770957947, "learning_rate": 7.830666666666666e-06, "loss": 0.2536, "step": 9260 }, { "epoch": 0.4411904761904762, "grad_norm": 0.44588276743888855, "learning_rate": 7.827333333333334e-06, "loss": 0.2005, "step": 9265 }, { "epoch": 0.44142857142857145, "grad_norm": 0.3875332474708557, "learning_rate": 7.824e-06, "loss": 0.1763, "step": 9270 }, { "epoch": 0.44166666666666665, "grad_norm": 0.47840988636016846, "learning_rate": 7.820666666666666e-06, "loss": 0.2604, "step": 9275 }, { "epoch": 0.4419047619047619, "grad_norm": 0.3858717978000641, "learning_rate": 7.817333333333334e-06, "loss": 0.1594, "step": 9280 }, { "epoch": 0.4421428571428571, "grad_norm": 0.42821305990219116, "learning_rate": 7.814e-06, "loss": 0.1753, "step": 9285 }, { "epoch": 0.4423809523809524, "grad_norm": 0.44769006967544556, "learning_rate": 7.810666666666666e-06, "loss": 0.2422, "step": 9290 }, { "epoch": 0.44261904761904763, "grad_norm": 0.44250109791755676, "learning_rate": 7.807333333333332e-06, "loss": 0.2187, "step": 9295 }, { "epoch": 0.44285714285714284, "grad_norm": 0.30643677711486816, "learning_rate": 7.803999999999998e-06, "loss": 0.2549, "step": 9300 }, { "epoch": 0.4430952380952381, "grad_norm": 0.49671444296836853, "learning_rate": 7.800666666666668e-06, "loss": 0.2069, "step": 9305 }, { "epoch": 0.44333333333333336, "grad_norm": 0.4081583321094513, "learning_rate": 7.797333333333334e-06, "loss": 0.2317, "step": 9310 }, { "epoch": 0.44357142857142856, "grad_norm": 0.42023470997810364, "learning_rate": 7.794e-06, "loss": 0.192, "step": 9315 }, { "epoch": 0.4438095238095238, "grad_norm": 0.4421211779117584, "learning_rate": 7.790666666666666e-06, "loss": 0.213, "step": 9320 }, { "epoch": 0.444047619047619, "grad_norm": 0.46239593625068665, "learning_rate": 7.787333333333333e-06, "loss": 0.2666, "step": 9325 }, { "epoch": 0.4442857142857143, "grad_norm": 0.524608850479126, "learning_rate": 7.784e-06, "loss": 0.2098, "step": 9330 }, { "epoch": 0.44452380952380954, "grad_norm": 0.32089710235595703, "learning_rate": 7.780666666666666e-06, "loss": 0.2343, "step": 9335 }, { "epoch": 0.44476190476190475, "grad_norm": 0.9744518399238586, "learning_rate": 7.777333333333333e-06, "loss": 0.2692, "step": 9340 }, { "epoch": 0.445, "grad_norm": 0.4948277473449707, "learning_rate": 7.774e-06, "loss": 0.2628, "step": 9345 }, { "epoch": 0.4452380952380952, "grad_norm": 0.5193578600883484, "learning_rate": 7.770666666666667e-06, "loss": 0.2187, "step": 9350 }, { "epoch": 0.44547619047619047, "grad_norm": 0.4175015091896057, "learning_rate": 7.767333333333334e-06, "loss": 0.1866, "step": 9355 }, { "epoch": 0.44571428571428573, "grad_norm": 0.42394375801086426, "learning_rate": 7.764e-06, "loss": 0.2242, "step": 9360 }, { "epoch": 0.44595238095238093, "grad_norm": 0.4574626088142395, "learning_rate": 7.760666666666667e-06, "loss": 0.2068, "step": 9365 }, { "epoch": 0.4461904761904762, "grad_norm": 0.40550145506858826, "learning_rate": 7.757333333333333e-06, "loss": 0.2442, "step": 9370 }, { "epoch": 0.44642857142857145, "grad_norm": 0.3964635133743286, "learning_rate": 7.753999999999999e-06, "loss": 0.2529, "step": 9375 }, { "epoch": 0.44666666666666666, "grad_norm": 0.36092036962509155, "learning_rate": 7.750666666666665e-06, "loss": 0.2176, "step": 9380 }, { "epoch": 0.4469047619047619, "grad_norm": 0.36658310890197754, "learning_rate": 7.747333333333333e-06, "loss": 0.2218, "step": 9385 }, { "epoch": 0.4471428571428571, "grad_norm": 0.4302648901939392, "learning_rate": 7.744e-06, "loss": 0.2389, "step": 9390 }, { "epoch": 0.4473809523809524, "grad_norm": 0.27856022119522095, "learning_rate": 7.740666666666667e-06, "loss": 0.2175, "step": 9395 }, { "epoch": 0.44761904761904764, "grad_norm": 0.5693110823631287, "learning_rate": 7.737333333333333e-06, "loss": 0.2663, "step": 9400 }, { "epoch": 0.44785714285714284, "grad_norm": 0.5021573901176453, "learning_rate": 7.733999999999999e-06, "loss": 0.2795, "step": 9405 }, { "epoch": 0.4480952380952381, "grad_norm": 0.37244534492492676, "learning_rate": 7.730666666666667e-06, "loss": 0.1978, "step": 9410 }, { "epoch": 0.4483333333333333, "grad_norm": 0.3706982433795929, "learning_rate": 7.727333333333333e-06, "loss": 0.2073, "step": 9415 }, { "epoch": 0.44857142857142857, "grad_norm": 0.4817306399345398, "learning_rate": 7.724e-06, "loss": 0.2113, "step": 9420 }, { "epoch": 0.4488095238095238, "grad_norm": 0.5754039883613586, "learning_rate": 7.720666666666667e-06, "loss": 0.2825, "step": 9425 }, { "epoch": 0.44904761904761903, "grad_norm": 0.43831393122673035, "learning_rate": 7.717333333333333e-06, "loss": 0.1796, "step": 9430 }, { "epoch": 0.4492857142857143, "grad_norm": 0.45490723848342896, "learning_rate": 7.714000000000001e-06, "loss": 0.2239, "step": 9435 }, { "epoch": 0.44952380952380955, "grad_norm": 0.42438215017318726, "learning_rate": 7.710666666666667e-06, "loss": 0.2134, "step": 9440 }, { "epoch": 0.44976190476190475, "grad_norm": 0.4805673062801361, "learning_rate": 7.707333333333333e-06, "loss": 0.2268, "step": 9445 }, { "epoch": 0.45, "grad_norm": 0.4182562530040741, "learning_rate": 7.704e-06, "loss": 0.2128, "step": 9450 }, { "epoch": 0.4502380952380952, "grad_norm": 0.48046040534973145, "learning_rate": 7.700666666666666e-06, "loss": 0.2019, "step": 9455 }, { "epoch": 0.4504761904761905, "grad_norm": 0.5699526071548462, "learning_rate": 7.697333333333333e-06, "loss": 0.2431, "step": 9460 }, { "epoch": 0.45071428571428573, "grad_norm": 0.4013001024723053, "learning_rate": 7.694e-06, "loss": 0.2754, "step": 9465 }, { "epoch": 0.45095238095238094, "grad_norm": 0.46598300337791443, "learning_rate": 7.690666666666667e-06, "loss": 0.1897, "step": 9470 }, { "epoch": 0.4511904761904762, "grad_norm": 0.39648786187171936, "learning_rate": 7.687333333333333e-06, "loss": 0.1915, "step": 9475 }, { "epoch": 0.4514285714285714, "grad_norm": 0.3819340765476227, "learning_rate": 7.684e-06, "loss": 0.2403, "step": 9480 }, { "epoch": 0.45166666666666666, "grad_norm": 0.5106026530265808, "learning_rate": 7.680666666666667e-06, "loss": 0.2381, "step": 9485 }, { "epoch": 0.4519047619047619, "grad_norm": 0.3616783618927002, "learning_rate": 7.677333333333334e-06, "loss": 0.2493, "step": 9490 }, { "epoch": 0.4521428571428571, "grad_norm": 0.40487027168273926, "learning_rate": 7.674e-06, "loss": 0.1503, "step": 9495 }, { "epoch": 0.4523809523809524, "grad_norm": 0.45730966329574585, "learning_rate": 7.670666666666666e-06, "loss": 0.2197, "step": 9500 }, { "epoch": 0.45261904761904764, "grad_norm": 0.3969142436981201, "learning_rate": 7.667333333333332e-06, "loss": 0.2296, "step": 9505 }, { "epoch": 0.45285714285714285, "grad_norm": 0.4454962909221649, "learning_rate": 7.664e-06, "loss": 0.3054, "step": 9510 }, { "epoch": 0.4530952380952381, "grad_norm": 0.3890568017959595, "learning_rate": 7.660666666666668e-06, "loss": 0.2615, "step": 9515 }, { "epoch": 0.4533333333333333, "grad_norm": 0.4770664572715759, "learning_rate": 7.657333333333334e-06, "loss": 0.1985, "step": 9520 }, { "epoch": 0.45357142857142857, "grad_norm": 0.5342845916748047, "learning_rate": 7.654e-06, "loss": 0.2177, "step": 9525 }, { "epoch": 0.45380952380952383, "grad_norm": 0.3942446708679199, "learning_rate": 7.650666666666666e-06, "loss": 0.2082, "step": 9530 }, { "epoch": 0.45404761904761903, "grad_norm": 0.4598104655742645, "learning_rate": 7.647333333333332e-06, "loss": 0.2819, "step": 9535 }, { "epoch": 0.4542857142857143, "grad_norm": 0.38999730348587036, "learning_rate": 7.644e-06, "loss": 0.2304, "step": 9540 }, { "epoch": 0.4545238095238095, "grad_norm": 0.516412079334259, "learning_rate": 7.640666666666666e-06, "loss": 0.1833, "step": 9545 }, { "epoch": 0.45476190476190476, "grad_norm": 0.35679319500923157, "learning_rate": 7.637333333333334e-06, "loss": 0.1888, "step": 9550 }, { "epoch": 0.455, "grad_norm": 0.35062718391418457, "learning_rate": 7.634e-06, "loss": 0.2365, "step": 9555 }, { "epoch": 0.4552380952380952, "grad_norm": 0.9582821130752563, "learning_rate": 7.630666666666666e-06, "loss": 0.1971, "step": 9560 }, { "epoch": 0.4554761904761905, "grad_norm": 0.3977576494216919, "learning_rate": 7.627333333333334e-06, "loss": 0.2426, "step": 9565 }, { "epoch": 0.45571428571428574, "grad_norm": 0.48280370235443115, "learning_rate": 7.624e-06, "loss": 0.2226, "step": 9570 }, { "epoch": 0.45595238095238094, "grad_norm": 0.6373079419136047, "learning_rate": 7.620666666666666e-06, "loss": 0.2513, "step": 9575 }, { "epoch": 0.4561904761904762, "grad_norm": 0.4525112509727478, "learning_rate": 7.617333333333333e-06, "loss": 0.2096, "step": 9580 }, { "epoch": 0.4564285714285714, "grad_norm": 0.4151243269443512, "learning_rate": 7.6139999999999994e-06, "loss": 0.2489, "step": 9585 }, { "epoch": 0.45666666666666667, "grad_norm": 0.5644230246543884, "learning_rate": 7.610666666666667e-06, "loss": 0.2281, "step": 9590 }, { "epoch": 0.4569047619047619, "grad_norm": 0.476468563079834, "learning_rate": 7.607333333333333e-06, "loss": 0.1873, "step": 9595 }, { "epoch": 0.45714285714285713, "grad_norm": 0.36254754662513733, "learning_rate": 7.604e-06, "loss": 0.2098, "step": 9600 }, { "epoch": 0.4573809523809524, "grad_norm": 0.4555387794971466, "learning_rate": 7.6006666666666665e-06, "loss": 0.2471, "step": 9605 }, { "epoch": 0.4576190476190476, "grad_norm": 0.3366128206253052, "learning_rate": 7.597333333333333e-06, "loss": 0.1961, "step": 9610 }, { "epoch": 0.45785714285714285, "grad_norm": 0.4362913966178894, "learning_rate": 7.5940000000000005e-06, "loss": 0.1956, "step": 9615 }, { "epoch": 0.4580952380952381, "grad_norm": 0.48261526226997375, "learning_rate": 7.590666666666667e-06, "loss": 0.2009, "step": 9620 }, { "epoch": 0.4583333333333333, "grad_norm": 0.44728368520736694, "learning_rate": 7.587333333333334e-06, "loss": 0.1856, "step": 9625 }, { "epoch": 0.4585714285714286, "grad_norm": 0.4759131968021393, "learning_rate": 7.584e-06, "loss": 0.2867, "step": 9630 }, { "epoch": 0.45880952380952383, "grad_norm": 0.5146251916885376, "learning_rate": 7.580666666666666e-06, "loss": 0.1938, "step": 9635 }, { "epoch": 0.45904761904761904, "grad_norm": 0.4629059433937073, "learning_rate": 7.577333333333333e-06, "loss": 0.2188, "step": 9640 }, { "epoch": 0.4592857142857143, "grad_norm": 0.3802347779273987, "learning_rate": 7.574000000000001e-06, "loss": 0.2185, "step": 9645 }, { "epoch": 0.4595238095238095, "grad_norm": 0.5087978839874268, "learning_rate": 7.570666666666667e-06, "loss": 0.2429, "step": 9650 }, { "epoch": 0.45976190476190476, "grad_norm": 0.46802109479904175, "learning_rate": 7.567333333333333e-06, "loss": 0.2833, "step": 9655 }, { "epoch": 0.46, "grad_norm": 0.41645437479019165, "learning_rate": 7.564e-06, "loss": 0.2182, "step": 9660 }, { "epoch": 0.4602380952380952, "grad_norm": 0.33655282855033875, "learning_rate": 7.560666666666666e-06, "loss": 0.2226, "step": 9665 }, { "epoch": 0.4604761904761905, "grad_norm": 0.4317376911640167, "learning_rate": 7.557333333333334e-06, "loss": 0.2003, "step": 9670 }, { "epoch": 0.4607142857142857, "grad_norm": 0.486877977848053, "learning_rate": 7.554e-06, "loss": 0.2303, "step": 9675 }, { "epoch": 0.46095238095238095, "grad_norm": 0.46360382437705994, "learning_rate": 7.550666666666666e-06, "loss": 0.2286, "step": 9680 }, { "epoch": 0.4611904761904762, "grad_norm": 0.3498041331768036, "learning_rate": 7.547333333333333e-06, "loss": 0.2196, "step": 9685 }, { "epoch": 0.4614285714285714, "grad_norm": 0.4427323043346405, "learning_rate": 7.5446666666666665e-06, "loss": 0.2381, "step": 9690 }, { "epoch": 0.46166666666666667, "grad_norm": 0.4826730489730835, "learning_rate": 7.541333333333333e-06, "loss": 0.2407, "step": 9695 }, { "epoch": 0.46190476190476193, "grad_norm": 1.5112072229385376, "learning_rate": 7.5380000000000005e-06, "loss": 0.1862, "step": 9700 }, { "epoch": 0.46214285714285713, "grad_norm": 0.4036743640899658, "learning_rate": 7.534666666666667e-06, "loss": 0.1779, "step": 9705 }, { "epoch": 0.4623809523809524, "grad_norm": 0.5398581624031067, "learning_rate": 7.531333333333334e-06, "loss": 0.2334, "step": 9710 }, { "epoch": 0.4626190476190476, "grad_norm": 0.5688528418540955, "learning_rate": 7.528e-06, "loss": 0.2581, "step": 9715 }, { "epoch": 0.46285714285714286, "grad_norm": 0.532690703868866, "learning_rate": 7.524666666666666e-06, "loss": 0.2341, "step": 9720 }, { "epoch": 0.4630952380952381, "grad_norm": 0.44901928305625916, "learning_rate": 7.521333333333334e-06, "loss": 0.2691, "step": 9725 }, { "epoch": 0.4633333333333333, "grad_norm": 0.4436838626861572, "learning_rate": 7.518000000000001e-06, "loss": 0.197, "step": 9730 }, { "epoch": 0.4635714285714286, "grad_norm": 0.5307173728942871, "learning_rate": 7.514666666666667e-06, "loss": 0.2105, "step": 9735 }, { "epoch": 0.4638095238095238, "grad_norm": 0.41280046105384827, "learning_rate": 7.511333333333333e-06, "loss": 0.214, "step": 9740 }, { "epoch": 0.46404761904761904, "grad_norm": 0.43942615389823914, "learning_rate": 7.507999999999999e-06, "loss": 0.2064, "step": 9745 }, { "epoch": 0.4642857142857143, "grad_norm": 0.30960017442703247, "learning_rate": 7.504666666666666e-06, "loss": 0.2237, "step": 9750 }, { "epoch": 0.4645238095238095, "grad_norm": 0.4097256362438202, "learning_rate": 7.501333333333334e-06, "loss": 0.1863, "step": 9755 }, { "epoch": 0.46476190476190476, "grad_norm": 0.4458646774291992, "learning_rate": 7.498e-06, "loss": 0.2549, "step": 9760 }, { "epoch": 0.465, "grad_norm": 0.387434720993042, "learning_rate": 7.494666666666666e-06, "loss": 0.2572, "step": 9765 }, { "epoch": 0.46523809523809523, "grad_norm": 0.6704895496368408, "learning_rate": 7.491333333333333e-06, "loss": 0.2643, "step": 9770 }, { "epoch": 0.4654761904761905, "grad_norm": 0.5474060773849487, "learning_rate": 7.487999999999999e-06, "loss": 0.2274, "step": 9775 }, { "epoch": 0.4657142857142857, "grad_norm": 0.45792141556739807, "learning_rate": 7.484666666666667e-06, "loss": 0.2162, "step": 9780 }, { "epoch": 0.46595238095238095, "grad_norm": 0.43819454312324524, "learning_rate": 7.481333333333333e-06, "loss": 0.224, "step": 9785 }, { "epoch": 0.4661904761904762, "grad_norm": 0.43894967436790466, "learning_rate": 7.478e-06, "loss": 0.2267, "step": 9790 }, { "epoch": 0.4664285714285714, "grad_norm": 0.4432644546031952, "learning_rate": 7.474666666666666e-06, "loss": 0.2218, "step": 9795 }, { "epoch": 0.4666666666666667, "grad_norm": 0.36622515320777893, "learning_rate": 7.4713333333333325e-06, "loss": 0.2303, "step": 9800 }, { "epoch": 0.4669047619047619, "grad_norm": 0.46099889278411865, "learning_rate": 7.468e-06, "loss": 0.1946, "step": 9805 }, { "epoch": 0.46714285714285714, "grad_norm": 0.48225677013397217, "learning_rate": 7.464666666666667e-06, "loss": 0.2048, "step": 9810 }, { "epoch": 0.4673809523809524, "grad_norm": 0.4380183517932892, "learning_rate": 7.4613333333333334e-06, "loss": 0.2311, "step": 9815 }, { "epoch": 0.4676190476190476, "grad_norm": 0.41205984354019165, "learning_rate": 7.4579999999999996e-06, "loss": 0.2282, "step": 9820 }, { "epoch": 0.46785714285714286, "grad_norm": 0.46629810333251953, "learning_rate": 7.454666666666666e-06, "loss": 0.2308, "step": 9825 }, { "epoch": 0.4680952380952381, "grad_norm": 0.4412524402141571, "learning_rate": 7.4513333333333335e-06, "loss": 0.2414, "step": 9830 }, { "epoch": 0.4683333333333333, "grad_norm": 0.4232461452484131, "learning_rate": 7.4480000000000005e-06, "loss": 0.1657, "step": 9835 }, { "epoch": 0.4685714285714286, "grad_norm": 0.5068502426147461, "learning_rate": 7.444666666666667e-06, "loss": 0.2116, "step": 9840 }, { "epoch": 0.4688095238095238, "grad_norm": 0.9395440816879272, "learning_rate": 7.441333333333333e-06, "loss": 0.2469, "step": 9845 }, { "epoch": 0.46904761904761905, "grad_norm": 0.43274998664855957, "learning_rate": 7.438e-06, "loss": 0.2402, "step": 9850 }, { "epoch": 0.4692857142857143, "grad_norm": 0.36770787835121155, "learning_rate": 7.434666666666668e-06, "loss": 0.1737, "step": 9855 }, { "epoch": 0.4695238095238095, "grad_norm": 0.5077859163284302, "learning_rate": 7.431333333333334e-06, "loss": 0.2221, "step": 9860 }, { "epoch": 0.46976190476190477, "grad_norm": 0.41003817319869995, "learning_rate": 7.428e-06, "loss": 0.1915, "step": 9865 }, { "epoch": 0.47, "grad_norm": 0.3687126338481903, "learning_rate": 7.424666666666666e-06, "loss": 0.1959, "step": 9870 }, { "epoch": 0.47023809523809523, "grad_norm": 0.4800640344619751, "learning_rate": 7.421333333333333e-06, "loss": 0.2736, "step": 9875 }, { "epoch": 0.4704761904761905, "grad_norm": 0.4477787911891937, "learning_rate": 7.417999999999999e-06, "loss": 0.2369, "step": 9880 }, { "epoch": 0.4707142857142857, "grad_norm": 0.44526171684265137, "learning_rate": 7.414666666666667e-06, "loss": 0.2234, "step": 9885 }, { "epoch": 0.47095238095238096, "grad_norm": 0.44802314043045044, "learning_rate": 7.411333333333333e-06, "loss": 0.2374, "step": 9890 }, { "epoch": 0.4711904761904762, "grad_norm": 0.3611004054546356, "learning_rate": 7.408e-06, "loss": 0.1964, "step": 9895 }, { "epoch": 0.4714285714285714, "grad_norm": 0.5324726104736328, "learning_rate": 7.404666666666666e-06, "loss": 0.2191, "step": 9900 }, { "epoch": 0.4716666666666667, "grad_norm": 0.3440967798233032, "learning_rate": 7.401333333333332e-06, "loss": 0.227, "step": 9905 }, { "epoch": 0.4719047619047619, "grad_norm": 1.0061297416687012, "learning_rate": 7.398e-06, "loss": 0.2393, "step": 9910 }, { "epoch": 0.47214285714285714, "grad_norm": 0.6833044290542603, "learning_rate": 7.394666666666667e-06, "loss": 0.2108, "step": 9915 }, { "epoch": 0.4723809523809524, "grad_norm": 0.369014710187912, "learning_rate": 7.391333333333333e-06, "loss": 0.1981, "step": 9920 }, { "epoch": 0.4726190476190476, "grad_norm": 0.3948955833911896, "learning_rate": 7.387999999999999e-06, "loss": 0.1944, "step": 9925 }, { "epoch": 0.47285714285714286, "grad_norm": 0.46521997451782227, "learning_rate": 7.3846666666666655e-06, "loss": 0.2165, "step": 9930 }, { "epoch": 0.47309523809523807, "grad_norm": 0.4466073513031006, "learning_rate": 7.381333333333334e-06, "loss": 0.2312, "step": 9935 }, { "epoch": 0.47333333333333333, "grad_norm": 0.473845511674881, "learning_rate": 7.378e-06, "loss": 0.2078, "step": 9940 }, { "epoch": 0.4735714285714286, "grad_norm": 0.619948148727417, "learning_rate": 7.3746666666666665e-06, "loss": 0.2246, "step": 9945 }, { "epoch": 0.4738095238095238, "grad_norm": 0.46555837988853455, "learning_rate": 7.371333333333333e-06, "loss": 0.2143, "step": 9950 }, { "epoch": 0.47404761904761905, "grad_norm": 0.5166351199150085, "learning_rate": 7.368e-06, "loss": 0.2354, "step": 9955 }, { "epoch": 0.4742857142857143, "grad_norm": 0.40948280692100525, "learning_rate": 7.364666666666667e-06, "loss": 0.237, "step": 9960 }, { "epoch": 0.4745238095238095, "grad_norm": 0.47414863109588623, "learning_rate": 7.3613333333333336e-06, "loss": 0.2722, "step": 9965 }, { "epoch": 0.4747619047619048, "grad_norm": 0.4306986331939697, "learning_rate": 7.358e-06, "loss": 0.1928, "step": 9970 }, { "epoch": 0.475, "grad_norm": 0.43966737389564514, "learning_rate": 7.354666666666667e-06, "loss": 0.2275, "step": 9975 }, { "epoch": 0.47523809523809524, "grad_norm": 0.3855152726173401, "learning_rate": 7.351333333333333e-06, "loss": 0.2457, "step": 9980 }, { "epoch": 0.4754761904761905, "grad_norm": 0.38388240337371826, "learning_rate": 7.348000000000001e-06, "loss": 0.2356, "step": 9985 }, { "epoch": 0.4757142857142857, "grad_norm": 0.4074043929576874, "learning_rate": 7.344666666666667e-06, "loss": 0.1941, "step": 9990 }, { "epoch": 0.47595238095238096, "grad_norm": 0.41112497448921204, "learning_rate": 7.341333333333334e-06, "loss": 0.2208, "step": 9995 }, { "epoch": 0.47619047619047616, "grad_norm": 0.4585048258304596, "learning_rate": 7.338e-06, "loss": 0.1756, "step": 10000 }, { "epoch": 0.4764285714285714, "grad_norm": 0.40712299942970276, "learning_rate": 7.334666666666666e-06, "loss": 0.231, "step": 10005 }, { "epoch": 0.4766666666666667, "grad_norm": 0.36877378821372986, "learning_rate": 7.331333333333332e-06, "loss": 0.145, "step": 10010 }, { "epoch": 0.4769047619047619, "grad_norm": 0.44187474250793457, "learning_rate": 7.328000000000001e-06, "loss": 0.2224, "step": 10015 }, { "epoch": 0.47714285714285715, "grad_norm": 0.5574916005134583, "learning_rate": 7.324666666666667e-06, "loss": 0.2377, "step": 10020 }, { "epoch": 0.4773809523809524, "grad_norm": 0.42163124680519104, "learning_rate": 7.321333333333333e-06, "loss": 0.2163, "step": 10025 }, { "epoch": 0.4776190476190476, "grad_norm": 0.4511335790157318, "learning_rate": 7.317999999999999e-06, "loss": 0.2214, "step": 10030 }, { "epoch": 0.47785714285714287, "grad_norm": 0.48653683066368103, "learning_rate": 7.314666666666666e-06, "loss": 0.219, "step": 10035 }, { "epoch": 0.4780952380952381, "grad_norm": 0.5083486437797546, "learning_rate": 7.311333333333334e-06, "loss": 0.2516, "step": 10040 }, { "epoch": 0.47833333333333333, "grad_norm": 0.4288080334663391, "learning_rate": 7.308e-06, "loss": 0.1969, "step": 10045 }, { "epoch": 0.4785714285714286, "grad_norm": 0.44261226058006287, "learning_rate": 7.304666666666666e-06, "loss": 0.1959, "step": 10050 }, { "epoch": 0.4788095238095238, "grad_norm": 0.5780832171440125, "learning_rate": 7.301333333333333e-06, "loss": 0.2346, "step": 10055 }, { "epoch": 0.47904761904761906, "grad_norm": 0.43651607632637024, "learning_rate": 7.297999999999999e-06, "loss": 0.2504, "step": 10060 }, { "epoch": 0.47928571428571426, "grad_norm": 0.40854746103286743, "learning_rate": 7.294666666666667e-06, "loss": 0.2145, "step": 10065 }, { "epoch": 0.4795238095238095, "grad_norm": 0.4936891198158264, "learning_rate": 7.291333333333333e-06, "loss": 0.2253, "step": 10070 }, { "epoch": 0.4797619047619048, "grad_norm": 0.4129636883735657, "learning_rate": 7.2879999999999995e-06, "loss": 0.2358, "step": 10075 }, { "epoch": 0.48, "grad_norm": 0.47094297409057617, "learning_rate": 7.2846666666666665e-06, "loss": 0.2451, "step": 10080 }, { "epoch": 0.48023809523809524, "grad_norm": 0.3765661418437958, "learning_rate": 7.281333333333333e-06, "loss": 0.2033, "step": 10085 }, { "epoch": 0.4804761904761905, "grad_norm": 0.40556636452674866, "learning_rate": 7.2780000000000005e-06, "loss": 0.1864, "step": 10090 }, { "epoch": 0.4807142857142857, "grad_norm": 0.7487915754318237, "learning_rate": 7.274666666666667e-06, "loss": 0.2518, "step": 10095 }, { "epoch": 0.48095238095238096, "grad_norm": 0.41176465153694153, "learning_rate": 7.2713333333333336e-06, "loss": 0.2477, "step": 10100 }, { "epoch": 0.48119047619047617, "grad_norm": 0.4491002559661865, "learning_rate": 7.268e-06, "loss": 0.2119, "step": 10105 }, { "epoch": 0.48142857142857143, "grad_norm": 0.40295636653900146, "learning_rate": 7.264666666666666e-06, "loss": 0.26, "step": 10110 }, { "epoch": 0.4816666666666667, "grad_norm": 0.3851577639579773, "learning_rate": 7.261333333333334e-06, "loss": 0.2286, "step": 10115 }, { "epoch": 0.4819047619047619, "grad_norm": 0.45479175448417664, "learning_rate": 7.258000000000001e-06, "loss": 0.2358, "step": 10120 }, { "epoch": 0.48214285714285715, "grad_norm": 0.4036625623703003, "learning_rate": 7.254666666666667e-06, "loss": 0.1979, "step": 10125 }, { "epoch": 0.48238095238095235, "grad_norm": 0.44394537806510925, "learning_rate": 7.251333333333333e-06, "loss": 0.2298, "step": 10130 }, { "epoch": 0.4826190476190476, "grad_norm": 0.4423462748527527, "learning_rate": 7.247999999999999e-06, "loss": 0.2189, "step": 10135 }, { "epoch": 0.4828571428571429, "grad_norm": 0.4017105996608734, "learning_rate": 7.244666666666666e-06, "loss": 0.2137, "step": 10140 }, { "epoch": 0.4830952380952381, "grad_norm": 0.42634543776512146, "learning_rate": 7.241333333333334e-06, "loss": 0.2398, "step": 10145 }, { "epoch": 0.48333333333333334, "grad_norm": 0.5511962175369263, "learning_rate": 7.238e-06, "loss": 0.2669, "step": 10150 }, { "epoch": 0.4835714285714286, "grad_norm": 0.4445415735244751, "learning_rate": 7.234666666666666e-06, "loss": 0.2014, "step": 10155 }, { "epoch": 0.4838095238095238, "grad_norm": 0.46114620566368103, "learning_rate": 7.231333333333333e-06, "loss": 0.2026, "step": 10160 }, { "epoch": 0.48404761904761906, "grad_norm": 0.44703948497772217, "learning_rate": 7.227999999999999e-06, "loss": 0.2468, "step": 10165 }, { "epoch": 0.48428571428571426, "grad_norm": 0.3025612235069275, "learning_rate": 7.224666666666667e-06, "loss": 0.1819, "step": 10170 }, { "epoch": 0.4845238095238095, "grad_norm": 0.38942861557006836, "learning_rate": 7.221333333333333e-06, "loss": 0.1952, "step": 10175 }, { "epoch": 0.4847619047619048, "grad_norm": 0.3491518199443817, "learning_rate": 7.218e-06, "loss": 0.1966, "step": 10180 }, { "epoch": 0.485, "grad_norm": 0.43198177218437195, "learning_rate": 7.214666666666666e-06, "loss": 0.2295, "step": 10185 }, { "epoch": 0.48523809523809525, "grad_norm": 0.5992242693901062, "learning_rate": 7.2113333333333324e-06, "loss": 0.1837, "step": 10190 }, { "epoch": 0.48547619047619045, "grad_norm": 0.4207647442817688, "learning_rate": 7.208e-06, "loss": 0.2654, "step": 10195 }, { "epoch": 0.4857142857142857, "grad_norm": 0.5553344488143921, "learning_rate": 7.204666666666667e-06, "loss": 0.2203, "step": 10200 }, { "epoch": 0.48595238095238097, "grad_norm": 0.3675491511821747, "learning_rate": 7.201333333333333e-06, "loss": 0.2315, "step": 10205 }, { "epoch": 0.4861904761904762, "grad_norm": 0.483284056186676, "learning_rate": 7.1979999999999995e-06, "loss": 0.2314, "step": 10210 }, { "epoch": 0.48642857142857143, "grad_norm": 0.3656035363674164, "learning_rate": 7.194666666666666e-06, "loss": 0.1732, "step": 10215 }, { "epoch": 0.4866666666666667, "grad_norm": 0.44860509037971497, "learning_rate": 7.191333333333334e-06, "loss": 0.2971, "step": 10220 }, { "epoch": 0.4869047619047619, "grad_norm": 0.4381468594074249, "learning_rate": 7.1880000000000005e-06, "loss": 0.2187, "step": 10225 }, { "epoch": 0.48714285714285716, "grad_norm": 0.48451846837997437, "learning_rate": 7.184666666666667e-06, "loss": 0.2295, "step": 10230 }, { "epoch": 0.48738095238095236, "grad_norm": 0.44501543045043945, "learning_rate": 7.181333333333333e-06, "loss": 0.2218, "step": 10235 }, { "epoch": 0.4876190476190476, "grad_norm": 0.5034900903701782, "learning_rate": 7.178e-06, "loss": 0.2643, "step": 10240 }, { "epoch": 0.4878571428571429, "grad_norm": 0.5788516402244568, "learning_rate": 7.1746666666666675e-06, "loss": 0.2596, "step": 10245 }, { "epoch": 0.4880952380952381, "grad_norm": 0.34719130396842957, "learning_rate": 7.171333333333334e-06, "loss": 0.175, "step": 10250 }, { "epoch": 0.48833333333333334, "grad_norm": 0.41641879081726074, "learning_rate": 7.168e-06, "loss": 0.2279, "step": 10255 }, { "epoch": 0.48857142857142855, "grad_norm": 0.4268677532672882, "learning_rate": 7.164666666666667e-06, "loss": 0.2188, "step": 10260 }, { "epoch": 0.4888095238095238, "grad_norm": 0.43223482370376587, "learning_rate": 7.161333333333333e-06, "loss": 0.2278, "step": 10265 }, { "epoch": 0.48904761904761906, "grad_norm": 0.5028953552246094, "learning_rate": 7.157999999999999e-06, "loss": 0.2639, "step": 10270 }, { "epoch": 0.48928571428571427, "grad_norm": 0.460686057806015, "learning_rate": 7.154666666666667e-06, "loss": 0.1915, "step": 10275 }, { "epoch": 0.4895238095238095, "grad_norm": 0.43025293946266174, "learning_rate": 7.151333333333333e-06, "loss": 0.2332, "step": 10280 }, { "epoch": 0.4897619047619048, "grad_norm": 0.4681469798088074, "learning_rate": 7.148e-06, "loss": 0.2428, "step": 10285 }, { "epoch": 0.49, "grad_norm": 0.47979995608329773, "learning_rate": 7.144666666666666e-06, "loss": 0.2118, "step": 10290 }, { "epoch": 0.49023809523809525, "grad_norm": 0.4587242603302002, "learning_rate": 7.141333333333332e-06, "loss": 0.2456, "step": 10295 }, { "epoch": 0.49047619047619045, "grad_norm": 0.4899164140224457, "learning_rate": 7.138e-06, "loss": 0.2372, "step": 10300 }, { "epoch": 0.4907142857142857, "grad_norm": 0.376949667930603, "learning_rate": 7.134666666666667e-06, "loss": 0.2171, "step": 10305 }, { "epoch": 0.490952380952381, "grad_norm": 0.481454461812973, "learning_rate": 7.131333333333333e-06, "loss": 0.261, "step": 10310 }, { "epoch": 0.4911904761904762, "grad_norm": 0.47576868534088135, "learning_rate": 7.127999999999999e-06, "loss": 0.2435, "step": 10315 }, { "epoch": 0.49142857142857144, "grad_norm": 0.41510918736457825, "learning_rate": 7.124666666666666e-06, "loss": 0.26, "step": 10320 }, { "epoch": 0.49166666666666664, "grad_norm": 0.3604860305786133, "learning_rate": 7.121333333333334e-06, "loss": 0.2227, "step": 10325 }, { "epoch": 0.4919047619047619, "grad_norm": 0.405009388923645, "learning_rate": 7.118e-06, "loss": 0.2158, "step": 10330 }, { "epoch": 0.49214285714285716, "grad_norm": 0.413362979888916, "learning_rate": 7.1146666666666664e-06, "loss": 0.1895, "step": 10335 }, { "epoch": 0.49238095238095236, "grad_norm": 0.4266091585159302, "learning_rate": 7.1113333333333326e-06, "loss": 0.2056, "step": 10340 }, { "epoch": 0.4926190476190476, "grad_norm": 0.47095397114753723, "learning_rate": 7.1079999999999995e-06, "loss": 0.2683, "step": 10345 }, { "epoch": 0.4928571428571429, "grad_norm": 0.4711429476737976, "learning_rate": 7.104666666666667e-06, "loss": 0.2146, "step": 10350 }, { "epoch": 0.4930952380952381, "grad_norm": 0.3753575086593628, "learning_rate": 7.1013333333333335e-06, "loss": 0.2172, "step": 10355 }, { "epoch": 0.49333333333333335, "grad_norm": 0.3633258640766144, "learning_rate": 7.098e-06, "loss": 0.2355, "step": 10360 }, { "epoch": 0.49357142857142855, "grad_norm": 0.4362715780735016, "learning_rate": 7.094666666666667e-06, "loss": 0.2127, "step": 10365 }, { "epoch": 0.4938095238095238, "grad_norm": 0.437656432390213, "learning_rate": 7.091333333333333e-06, "loss": 0.2114, "step": 10370 }, { "epoch": 0.49404761904761907, "grad_norm": 0.40577051043510437, "learning_rate": 7.088000000000001e-06, "loss": 0.2507, "step": 10375 }, { "epoch": 0.4942857142857143, "grad_norm": 0.4925598204135895, "learning_rate": 7.084666666666667e-06, "loss": 0.2336, "step": 10380 }, { "epoch": 0.49452380952380953, "grad_norm": 0.3924627900123596, "learning_rate": 7.081333333333334e-06, "loss": 0.2512, "step": 10385 }, { "epoch": 0.49476190476190474, "grad_norm": 0.43802785873413086, "learning_rate": 7.078e-06, "loss": 0.2549, "step": 10390 }, { "epoch": 0.495, "grad_norm": 0.4659639596939087, "learning_rate": 7.074666666666666e-06, "loss": 0.2176, "step": 10395 }, { "epoch": 0.49523809523809526, "grad_norm": 0.5754785537719727, "learning_rate": 7.071333333333332e-06, "loss": 0.1978, "step": 10400 }, { "epoch": 0.49547619047619046, "grad_norm": 0.46700775623321533, "learning_rate": 7.068000000000001e-06, "loss": 0.205, "step": 10405 }, { "epoch": 0.4957142857142857, "grad_norm": 0.48824620246887207, "learning_rate": 7.064666666666667e-06, "loss": 0.2136, "step": 10410 }, { "epoch": 0.495952380952381, "grad_norm": 0.5262261033058167, "learning_rate": 7.061333333333333e-06, "loss": 0.2798, "step": 10415 }, { "epoch": 0.4961904761904762, "grad_norm": 0.3454849421977997, "learning_rate": 7.057999999999999e-06, "loss": 0.184, "step": 10420 }, { "epoch": 0.49642857142857144, "grad_norm": 0.4092136323451996, "learning_rate": 7.054666666666666e-06, "loss": 0.2822, "step": 10425 }, { "epoch": 0.49666666666666665, "grad_norm": 0.4441377520561218, "learning_rate": 7.051333333333334e-06, "loss": 0.2093, "step": 10430 }, { "epoch": 0.4969047619047619, "grad_norm": 0.46084728837013245, "learning_rate": 7.048e-06, "loss": 0.1931, "step": 10435 }, { "epoch": 0.49714285714285716, "grad_norm": 0.508395791053772, "learning_rate": 7.044666666666666e-06, "loss": 0.2345, "step": 10440 }, { "epoch": 0.49738095238095237, "grad_norm": 0.35882365703582764, "learning_rate": 7.041333333333333e-06, "loss": 0.1732, "step": 10445 }, { "epoch": 0.4976190476190476, "grad_norm": 0.3644009232521057, "learning_rate": 7.037999999999999e-06, "loss": 0.211, "step": 10450 }, { "epoch": 0.49785714285714283, "grad_norm": 0.43046310544013977, "learning_rate": 7.034666666666667e-06, "loss": 0.1895, "step": 10455 }, { "epoch": 0.4980952380952381, "grad_norm": 0.4582432806491852, "learning_rate": 7.031333333333333e-06, "loss": 0.2439, "step": 10460 }, { "epoch": 0.49833333333333335, "grad_norm": 0.4606591463088989, "learning_rate": 7.028e-06, "loss": 0.1986, "step": 10465 }, { "epoch": 0.49857142857142855, "grad_norm": 0.37215903401374817, "learning_rate": 7.0246666666666664e-06, "loss": 0.1607, "step": 10470 }, { "epoch": 0.4988095238095238, "grad_norm": 0.4229729473590851, "learning_rate": 7.0213333333333326e-06, "loss": 0.1644, "step": 10475 }, { "epoch": 0.4990476190476191, "grad_norm": 0.40354618430137634, "learning_rate": 7.018e-06, "loss": 0.2008, "step": 10480 }, { "epoch": 0.4992857142857143, "grad_norm": 0.44867002964019775, "learning_rate": 7.0146666666666665e-06, "loss": 0.2324, "step": 10485 }, { "epoch": 0.49952380952380954, "grad_norm": 0.749294102191925, "learning_rate": 7.0113333333333335e-06, "loss": 0.2462, "step": 10490 }, { "epoch": 0.49976190476190474, "grad_norm": 0.44554316997528076, "learning_rate": 7.008e-06, "loss": 0.1909, "step": 10495 }, { "epoch": 0.5, "grad_norm": 0.41634464263916016, "learning_rate": 7.004666666666666e-06, "loss": 0.2387, "step": 10500 }, { "epoch": 0.5002380952380953, "grad_norm": 0.4112803041934967, "learning_rate": 7.001333333333334e-06, "loss": 0.3082, "step": 10505 }, { "epoch": 0.5004761904761905, "grad_norm": 0.392031192779541, "learning_rate": 6.998e-06, "loss": 0.2114, "step": 10510 }, { "epoch": 0.5007142857142857, "grad_norm": 0.426146537065506, "learning_rate": 6.994666666666667e-06, "loss": 0.2119, "step": 10515 }, { "epoch": 0.5009523809523809, "grad_norm": 0.43894267082214355, "learning_rate": 6.991333333333333e-06, "loss": 0.2435, "step": 10520 }, { "epoch": 0.5011904761904762, "grad_norm": 0.385637491941452, "learning_rate": 6.988e-06, "loss": 0.2146, "step": 10525 }, { "epoch": 0.5014285714285714, "grad_norm": 0.4589722752571106, "learning_rate": 6.984666666666667e-06, "loss": 0.2269, "step": 10530 }, { "epoch": 0.5016666666666667, "grad_norm": 0.4243641793727875, "learning_rate": 6.981333333333333e-06, "loss": 0.2408, "step": 10535 }, { "epoch": 0.5019047619047619, "grad_norm": 0.4225500226020813, "learning_rate": 6.978e-06, "loss": 0.2801, "step": 10540 }, { "epoch": 0.5021428571428571, "grad_norm": 0.37953534722328186, "learning_rate": 6.974666666666666e-06, "loss": 0.2098, "step": 10545 }, { "epoch": 0.5023809523809524, "grad_norm": 0.49473097920417786, "learning_rate": 6.971333333333334e-06, "loss": 0.2, "step": 10550 }, { "epoch": 0.5026190476190476, "grad_norm": 0.4481135308742523, "learning_rate": 6.968e-06, "loss": 0.1877, "step": 10555 }, { "epoch": 0.5028571428571429, "grad_norm": 0.4306623637676239, "learning_rate": 6.964666666666666e-06, "loss": 0.1913, "step": 10560 }, { "epoch": 0.503095238095238, "grad_norm": 0.42849603295326233, "learning_rate": 6.961333333333333e-06, "loss": 0.2018, "step": 10565 }, { "epoch": 0.5033333333333333, "grad_norm": 0.4674004018306732, "learning_rate": 6.958e-06, "loss": 0.2148, "step": 10570 }, { "epoch": 0.5035714285714286, "grad_norm": 0.33997395634651184, "learning_rate": 6.954666666666666e-06, "loss": 0.1895, "step": 10575 }, { "epoch": 0.5038095238095238, "grad_norm": 0.482021301984787, "learning_rate": 6.951333333333333e-06, "loss": 0.2548, "step": 10580 }, { "epoch": 0.5040476190476191, "grad_norm": 0.45087704062461853, "learning_rate": 6.947999999999999e-06, "loss": 0.1887, "step": 10585 }, { "epoch": 0.5042857142857143, "grad_norm": 0.3753807544708252, "learning_rate": 6.944666666666667e-06, "loss": 0.2347, "step": 10590 }, { "epoch": 0.5045238095238095, "grad_norm": 0.441485732793808, "learning_rate": 6.941333333333333e-06, "loss": 0.214, "step": 10595 }, { "epoch": 0.5047619047619047, "grad_norm": 0.3812996447086334, "learning_rate": 6.9379999999999995e-06, "loss": 0.2118, "step": 10600 }, { "epoch": 0.505, "grad_norm": 0.4082239270210266, "learning_rate": 6.9346666666666665e-06, "loss": 0.2445, "step": 10605 }, { "epoch": 0.5052380952380953, "grad_norm": 0.5195637345314026, "learning_rate": 6.9313333333333334e-06, "loss": 0.213, "step": 10610 }, { "epoch": 0.5054761904761905, "grad_norm": 0.45882582664489746, "learning_rate": 6.928e-06, "loss": 0.226, "step": 10615 }, { "epoch": 0.5057142857142857, "grad_norm": 0.4005345106124878, "learning_rate": 6.9246666666666665e-06, "loss": 0.2259, "step": 10620 }, { "epoch": 0.5059523809523809, "grad_norm": 0.4046010375022888, "learning_rate": 6.921333333333333e-06, "loss": 0.2482, "step": 10625 }, { "epoch": 0.5061904761904762, "grad_norm": 0.38520941138267517, "learning_rate": 6.9180000000000005e-06, "loss": 0.1802, "step": 10630 }, { "epoch": 0.5064285714285715, "grad_norm": 0.472745418548584, "learning_rate": 6.914666666666667e-06, "loss": 0.2368, "step": 10635 }, { "epoch": 0.5066666666666667, "grad_norm": 0.43621689081192017, "learning_rate": 6.911333333333333e-06, "loss": 0.1803, "step": 10640 }, { "epoch": 0.5069047619047619, "grad_norm": 0.38166874647140503, "learning_rate": 6.908e-06, "loss": 0.2082, "step": 10645 }, { "epoch": 0.5071428571428571, "grad_norm": 0.5006548762321472, "learning_rate": 6.904666666666667e-06, "loss": 0.2316, "step": 10650 }, { "epoch": 0.5073809523809524, "grad_norm": 0.4929080009460449, "learning_rate": 6.901333333333334e-06, "loss": 0.2332, "step": 10655 }, { "epoch": 0.5076190476190476, "grad_norm": 0.4730275571346283, "learning_rate": 6.898e-06, "loss": 0.2049, "step": 10660 }, { "epoch": 0.5078571428571429, "grad_norm": 0.3793846070766449, "learning_rate": 6.894666666666666e-06, "loss": 0.1814, "step": 10665 }, { "epoch": 0.508095238095238, "grad_norm": 0.4499959647655487, "learning_rate": 6.891333333333334e-06, "loss": 0.233, "step": 10670 }, { "epoch": 0.5083333333333333, "grad_norm": 0.5226470828056335, "learning_rate": 6.888e-06, "loss": 0.2644, "step": 10675 }, { "epoch": 0.5085714285714286, "grad_norm": 0.42476382851600647, "learning_rate": 6.884666666666667e-06, "loss": 0.2076, "step": 10680 }, { "epoch": 0.5088095238095238, "grad_norm": 0.42207568883895874, "learning_rate": 6.881333333333333e-06, "loss": 0.2168, "step": 10685 }, { "epoch": 0.5090476190476191, "grad_norm": 0.4841376841068268, "learning_rate": 6.878e-06, "loss": 0.2602, "step": 10690 }, { "epoch": 0.5092857142857142, "grad_norm": 0.5061069130897522, "learning_rate": 6.874666666666667e-06, "loss": 0.2392, "step": 10695 }, { "epoch": 0.5095238095238095, "grad_norm": 0.43490496277809143, "learning_rate": 6.871333333333333e-06, "loss": 0.2729, "step": 10700 }, { "epoch": 0.5097619047619047, "grad_norm": 0.5199924111366272, "learning_rate": 6.867999999999999e-06, "loss": 0.2564, "step": 10705 }, { "epoch": 0.51, "grad_norm": 0.43780457973480225, "learning_rate": 6.864666666666667e-06, "loss": 0.2356, "step": 10710 }, { "epoch": 0.5102380952380953, "grad_norm": 0.37934231758117676, "learning_rate": 6.861333333333333e-06, "loss": 0.2099, "step": 10715 }, { "epoch": 0.5104761904761905, "grad_norm": 0.3264564573764801, "learning_rate": 6.858e-06, "loss": 0.2226, "step": 10720 }, { "epoch": 0.5107142857142857, "grad_norm": 0.38522446155548096, "learning_rate": 6.854666666666666e-06, "loss": 0.2463, "step": 10725 }, { "epoch": 0.5109523809523809, "grad_norm": 0.45010119676589966, "learning_rate": 6.851333333333333e-06, "loss": 0.2592, "step": 10730 }, { "epoch": 0.5111904761904762, "grad_norm": 0.4700152277946472, "learning_rate": 6.848e-06, "loss": 0.2099, "step": 10735 }, { "epoch": 0.5114285714285715, "grad_norm": 0.4051792323589325, "learning_rate": 6.8446666666666665e-06, "loss": 0.2507, "step": 10740 }, { "epoch": 0.5116666666666667, "grad_norm": 0.4002106785774231, "learning_rate": 6.8413333333333334e-06, "loss": 0.2821, "step": 10745 }, { "epoch": 0.5119047619047619, "grad_norm": 0.4002831280231476, "learning_rate": 6.838e-06, "loss": 0.1957, "step": 10750 }, { "epoch": 0.5121428571428571, "grad_norm": 0.4309860169887543, "learning_rate": 6.8346666666666666e-06, "loss": 0.1943, "step": 10755 }, { "epoch": 0.5123809523809524, "grad_norm": 0.44145795702934265, "learning_rate": 6.8313333333333335e-06, "loss": 0.2533, "step": 10760 }, { "epoch": 0.5126190476190476, "grad_norm": 0.37898796796798706, "learning_rate": 6.828e-06, "loss": 0.2404, "step": 10765 }, { "epoch": 0.5128571428571429, "grad_norm": 0.44482147693634033, "learning_rate": 6.824666666666666e-06, "loss": 0.2318, "step": 10770 }, { "epoch": 0.513095238095238, "grad_norm": 0.329926997423172, "learning_rate": 6.821333333333334e-06, "loss": 0.2046, "step": 10775 }, { "epoch": 0.5133333333333333, "grad_norm": 0.5752514004707336, "learning_rate": 6.818e-06, "loss": 0.2757, "step": 10780 }, { "epoch": 0.5135714285714286, "grad_norm": 0.37458664178848267, "learning_rate": 6.814666666666667e-06, "loss": 0.242, "step": 10785 }, { "epoch": 0.5138095238095238, "grad_norm": 0.516956627368927, "learning_rate": 6.811333333333333e-06, "loss": 0.2338, "step": 10790 }, { "epoch": 0.5140476190476191, "grad_norm": 0.4031926095485687, "learning_rate": 6.808e-06, "loss": 0.2302, "step": 10795 }, { "epoch": 0.5142857142857142, "grad_norm": 0.4052248001098633, "learning_rate": 6.804666666666667e-06, "loss": 0.231, "step": 10800 }, { "epoch": 0.5145238095238095, "grad_norm": 0.28697633743286133, "learning_rate": 6.801333333333333e-06, "loss": 0.2155, "step": 10805 }, { "epoch": 0.5147619047619048, "grad_norm": 0.4045576751232147, "learning_rate": 6.798e-06, "loss": 0.2382, "step": 10810 }, { "epoch": 0.515, "grad_norm": 0.5032262802124023, "learning_rate": 6.794666666666667e-06, "loss": 0.238, "step": 10815 }, { "epoch": 0.5152380952380953, "grad_norm": 0.3896428942680359, "learning_rate": 6.791333333333333e-06, "loss": 0.2573, "step": 10820 }, { "epoch": 0.5154761904761904, "grad_norm": 0.3519761264324188, "learning_rate": 6.788e-06, "loss": 0.244, "step": 10825 }, { "epoch": 0.5157142857142857, "grad_norm": 0.4771386981010437, "learning_rate": 6.784666666666666e-06, "loss": 0.2891, "step": 10830 }, { "epoch": 0.5159523809523809, "grad_norm": 0.5010530948638916, "learning_rate": 6.781333333333333e-06, "loss": 0.2121, "step": 10835 }, { "epoch": 0.5161904761904762, "grad_norm": 0.4227463901042938, "learning_rate": 6.778e-06, "loss": 0.2426, "step": 10840 }, { "epoch": 0.5164285714285715, "grad_norm": 0.3436002731323242, "learning_rate": 6.774666666666666e-06, "loss": 0.1892, "step": 10845 }, { "epoch": 0.5166666666666667, "grad_norm": 0.3619796633720398, "learning_rate": 6.771333333333333e-06, "loss": 0.2315, "step": 10850 }, { "epoch": 0.5169047619047619, "grad_norm": 0.4724653661251068, "learning_rate": 6.768e-06, "loss": 0.2137, "step": 10855 }, { "epoch": 0.5171428571428571, "grad_norm": 0.42179688811302185, "learning_rate": 6.764666666666666e-06, "loss": 0.1858, "step": 10860 }, { "epoch": 0.5173809523809524, "grad_norm": 0.43071407079696655, "learning_rate": 6.761333333333333e-06, "loss": 0.2658, "step": 10865 }, { "epoch": 0.5176190476190476, "grad_norm": 0.4432069659233093, "learning_rate": 6.7579999999999995e-06, "loss": 0.2178, "step": 10870 }, { "epoch": 0.5178571428571429, "grad_norm": 0.3885502219200134, "learning_rate": 6.754666666666667e-06, "loss": 0.2133, "step": 10875 }, { "epoch": 0.518095238095238, "grad_norm": 0.4567870497703552, "learning_rate": 6.7513333333333335e-06, "loss": 0.1963, "step": 10880 }, { "epoch": 0.5183333333333333, "grad_norm": 0.43100377917289734, "learning_rate": 6.748e-06, "loss": 0.2419, "step": 10885 }, { "epoch": 0.5185714285714286, "grad_norm": 0.4600852131843567, "learning_rate": 6.744666666666667e-06, "loss": 0.2367, "step": 10890 }, { "epoch": 0.5188095238095238, "grad_norm": 0.4914599359035492, "learning_rate": 6.7413333333333336e-06, "loss": 0.2449, "step": 10895 }, { "epoch": 0.5190476190476191, "grad_norm": 0.40498653054237366, "learning_rate": 6.738e-06, "loss": 0.229, "step": 10900 }, { "epoch": 0.5192857142857142, "grad_norm": 0.47114884853363037, "learning_rate": 6.734666666666667e-06, "loss": 0.3165, "step": 10905 }, { "epoch": 0.5195238095238095, "grad_norm": 0.3819037079811096, "learning_rate": 6.731333333333333e-06, "loss": 0.2214, "step": 10910 }, { "epoch": 0.5197619047619048, "grad_norm": 0.4675607681274414, "learning_rate": 6.728000000000001e-06, "loss": 0.2231, "step": 10915 }, { "epoch": 0.52, "grad_norm": 0.38496333360671997, "learning_rate": 6.724666666666667e-06, "loss": 0.2198, "step": 10920 }, { "epoch": 0.5202380952380953, "grad_norm": 0.5399112105369568, "learning_rate": 6.721333333333333e-06, "loss": 0.1944, "step": 10925 }, { "epoch": 0.5204761904761904, "grad_norm": 0.38417670130729675, "learning_rate": 6.718e-06, "loss": 0.1682, "step": 10930 }, { "epoch": 0.5207142857142857, "grad_norm": 0.43550142645835876, "learning_rate": 6.714666666666667e-06, "loss": 0.2047, "step": 10935 }, { "epoch": 0.520952380952381, "grad_norm": 0.37583643198013306, "learning_rate": 6.711333333333334e-06, "loss": 0.2274, "step": 10940 }, { "epoch": 0.5211904761904762, "grad_norm": 0.5451422929763794, "learning_rate": 6.708e-06, "loss": 0.1824, "step": 10945 }, { "epoch": 0.5214285714285715, "grad_norm": 0.43493086099624634, "learning_rate": 6.704666666666666e-06, "loss": 0.2063, "step": 10950 }, { "epoch": 0.5216666666666666, "grad_norm": 0.38230448961257935, "learning_rate": 6.701333333333333e-06, "loss": 0.1724, "step": 10955 }, { "epoch": 0.5219047619047619, "grad_norm": 0.534231424331665, "learning_rate": 6.698e-06, "loss": 0.2493, "step": 10960 }, { "epoch": 0.5221428571428571, "grad_norm": 0.4337921440601349, "learning_rate": 6.694666666666666e-06, "loss": 0.2048, "step": 10965 }, { "epoch": 0.5223809523809524, "grad_norm": 0.4159905016422272, "learning_rate": 6.691333333333333e-06, "loss": 0.2262, "step": 10970 }, { "epoch": 0.5226190476190476, "grad_norm": 0.6031619906425476, "learning_rate": 6.687999999999999e-06, "loss": 0.2733, "step": 10975 }, { "epoch": 0.5228571428571429, "grad_norm": 0.4663081467151642, "learning_rate": 6.684666666666667e-06, "loss": 0.2523, "step": 10980 }, { "epoch": 0.5230952380952381, "grad_norm": 0.48057821393013, "learning_rate": 6.681333333333333e-06, "loss": 0.2323, "step": 10985 }, { "epoch": 0.5233333333333333, "grad_norm": 0.424792617559433, "learning_rate": 6.677999999999999e-06, "loss": 0.1844, "step": 10990 }, { "epoch": 0.5235714285714286, "grad_norm": 0.3620949983596802, "learning_rate": 6.674666666666666e-06, "loss": 0.178, "step": 10995 }, { "epoch": 0.5238095238095238, "grad_norm": 0.4243469536304474, "learning_rate": 6.671333333333333e-06, "loss": 0.2367, "step": 11000 }, { "epoch": 0.5240476190476191, "grad_norm": 0.45529475808143616, "learning_rate": 6.668e-06, "loss": 0.223, "step": 11005 }, { "epoch": 0.5242857142857142, "grad_norm": 0.40921711921691895, "learning_rate": 6.6646666666666665e-06, "loss": 0.2251, "step": 11010 }, { "epoch": 0.5245238095238095, "grad_norm": 0.42646750807762146, "learning_rate": 6.661333333333333e-06, "loss": 0.2077, "step": 11015 }, { "epoch": 0.5247619047619048, "grad_norm": 0.48366519808769226, "learning_rate": 6.6580000000000005e-06, "loss": 0.2655, "step": 11020 }, { "epoch": 0.525, "grad_norm": 0.4408993721008301, "learning_rate": 6.654666666666667e-06, "loss": 0.2228, "step": 11025 }, { "epoch": 0.5252380952380953, "grad_norm": 0.30721113085746765, "learning_rate": 6.651333333333333e-06, "loss": 0.2468, "step": 11030 }, { "epoch": 0.5254761904761904, "grad_norm": 0.40519800782203674, "learning_rate": 6.648e-06, "loss": 0.2648, "step": 11035 }, { "epoch": 0.5257142857142857, "grad_norm": 0.44429975748062134, "learning_rate": 6.644666666666667e-06, "loss": 0.1938, "step": 11040 }, { "epoch": 0.525952380952381, "grad_norm": 0.3677810728549957, "learning_rate": 6.641333333333334e-06, "loss": 0.2532, "step": 11045 }, { "epoch": 0.5261904761904762, "grad_norm": 0.5806952714920044, "learning_rate": 6.638e-06, "loss": 0.3143, "step": 11050 }, { "epoch": 0.5264285714285715, "grad_norm": 0.3124196529388428, "learning_rate": 6.634666666666666e-06, "loss": 0.2126, "step": 11055 }, { "epoch": 0.5266666666666666, "grad_norm": 0.49532511830329895, "learning_rate": 6.631333333333334e-06, "loss": 0.2299, "step": 11060 }, { "epoch": 0.5269047619047619, "grad_norm": 0.3853076994419098, "learning_rate": 6.628e-06, "loss": 0.176, "step": 11065 }, { "epoch": 0.5271428571428571, "grad_norm": 0.44001710414886475, "learning_rate": 6.624666666666667e-06, "loss": 0.1962, "step": 11070 }, { "epoch": 0.5273809523809524, "grad_norm": 0.4844370186328888, "learning_rate": 6.621333333333333e-06, "loss": 0.215, "step": 11075 }, { "epoch": 0.5276190476190477, "grad_norm": 0.45497560501098633, "learning_rate": 6.618e-06, "loss": 0.2404, "step": 11080 }, { "epoch": 0.5278571428571428, "grad_norm": 0.488600492477417, "learning_rate": 6.614666666666667e-06, "loss": 0.2578, "step": 11085 }, { "epoch": 0.5280952380952381, "grad_norm": 0.39659178256988525, "learning_rate": 6.611333333333333e-06, "loss": 0.2158, "step": 11090 }, { "epoch": 0.5283333333333333, "grad_norm": 0.4895508885383606, "learning_rate": 6.607999999999999e-06, "loss": 0.1907, "step": 11095 }, { "epoch": 0.5285714285714286, "grad_norm": 0.49360695481300354, "learning_rate": 6.604666666666667e-06, "loss": 0.2256, "step": 11100 }, { "epoch": 0.5288095238095238, "grad_norm": 0.3850197196006775, "learning_rate": 6.601333333333333e-06, "loss": 0.234, "step": 11105 }, { "epoch": 0.5290476190476191, "grad_norm": 0.43743154406547546, "learning_rate": 6.598e-06, "loss": 0.2364, "step": 11110 }, { "epoch": 0.5292857142857142, "grad_norm": 0.41729021072387695, "learning_rate": 6.594666666666666e-06, "loss": 0.1725, "step": 11115 }, { "epoch": 0.5295238095238095, "grad_norm": 0.38316819071769714, "learning_rate": 6.591333333333333e-06, "loss": 0.2223, "step": 11120 }, { "epoch": 0.5297619047619048, "grad_norm": 0.5472940802574158, "learning_rate": 6.588e-06, "loss": 0.2284, "step": 11125 }, { "epoch": 0.53, "grad_norm": 0.38071054220199585, "learning_rate": 6.584666666666666e-06, "loss": 0.2674, "step": 11130 }, { "epoch": 0.5302380952380953, "grad_norm": 0.38650524616241455, "learning_rate": 6.581333333333333e-06, "loss": 0.1723, "step": 11135 }, { "epoch": 0.5304761904761904, "grad_norm": 0.4102693796157837, "learning_rate": 6.578e-06, "loss": 0.2653, "step": 11140 }, { "epoch": 0.5307142857142857, "grad_norm": 0.303899347782135, "learning_rate": 6.5746666666666665e-06, "loss": 0.238, "step": 11145 }, { "epoch": 0.530952380952381, "grad_norm": 0.33137378096580505, "learning_rate": 6.5713333333333335e-06, "loss": 0.1785, "step": 11150 }, { "epoch": 0.5311904761904762, "grad_norm": 0.35609170794487, "learning_rate": 6.568e-06, "loss": 0.2221, "step": 11155 }, { "epoch": 0.5314285714285715, "grad_norm": 0.4869663119316101, "learning_rate": 6.564666666666667e-06, "loss": 0.2442, "step": 11160 }, { "epoch": 0.5316666666666666, "grad_norm": 0.43527594208717346, "learning_rate": 6.561333333333334e-06, "loss": 0.2494, "step": 11165 }, { "epoch": 0.5319047619047619, "grad_norm": 0.47041812539100647, "learning_rate": 6.558e-06, "loss": 0.2642, "step": 11170 }, { "epoch": 0.5321428571428571, "grad_norm": 0.4848603904247284, "learning_rate": 6.554666666666667e-06, "loss": 0.2949, "step": 11175 }, { "epoch": 0.5323809523809524, "grad_norm": 0.36655476689338684, "learning_rate": 6.551333333333333e-06, "loss": 0.2356, "step": 11180 }, { "epoch": 0.5326190476190477, "grad_norm": 0.6180607676506042, "learning_rate": 6.548e-06, "loss": 0.2608, "step": 11185 }, { "epoch": 0.5328571428571428, "grad_norm": 0.4166553318500519, "learning_rate": 6.544666666666667e-06, "loss": 0.2083, "step": 11190 }, { "epoch": 0.5330952380952381, "grad_norm": 0.4723966717720032, "learning_rate": 6.541333333333333e-06, "loss": 0.2319, "step": 11195 }, { "epoch": 0.5333333333333333, "grad_norm": 0.4339156150817871, "learning_rate": 6.538e-06, "loss": 0.2116, "step": 11200 }, { "epoch": 0.5335714285714286, "grad_norm": 0.4466354250907898, "learning_rate": 6.534666666666667e-06, "loss": 0.2234, "step": 11205 }, { "epoch": 0.5338095238095238, "grad_norm": 0.3871366083621979, "learning_rate": 6.531333333333333e-06, "loss": 0.251, "step": 11210 }, { "epoch": 0.534047619047619, "grad_norm": 0.45837798714637756, "learning_rate": 6.528e-06, "loss": 0.2094, "step": 11215 }, { "epoch": 0.5342857142857143, "grad_norm": 0.4003489315509796, "learning_rate": 6.524666666666666e-06, "loss": 0.2258, "step": 11220 }, { "epoch": 0.5345238095238095, "grad_norm": 0.4269936978816986, "learning_rate": 6.521333333333333e-06, "loss": 0.2527, "step": 11225 }, { "epoch": 0.5347619047619048, "grad_norm": 0.6219003200531006, "learning_rate": 6.518e-06, "loss": 0.1979, "step": 11230 }, { "epoch": 0.535, "grad_norm": 0.39507630467414856, "learning_rate": 6.514666666666666e-06, "loss": 0.2133, "step": 11235 }, { "epoch": 0.5352380952380953, "grad_norm": 0.43612048029899597, "learning_rate": 6.511333333333333e-06, "loss": 0.1797, "step": 11240 }, { "epoch": 0.5354761904761904, "grad_norm": 0.35172906517982483, "learning_rate": 6.508e-06, "loss": 0.2511, "step": 11245 }, { "epoch": 0.5357142857142857, "grad_norm": 0.40038058161735535, "learning_rate": 6.504666666666666e-06, "loss": 0.2189, "step": 11250 }, { "epoch": 0.535952380952381, "grad_norm": 0.37178313732147217, "learning_rate": 6.501333333333333e-06, "loss": 0.2013, "step": 11255 }, { "epoch": 0.5361904761904762, "grad_norm": 0.4578422009944916, "learning_rate": 6.4979999999999994e-06, "loss": 0.1995, "step": 11260 }, { "epoch": 0.5364285714285715, "grad_norm": 0.42865389585494995, "learning_rate": 6.494666666666667e-06, "loss": 0.3016, "step": 11265 }, { "epoch": 0.5366666666666666, "grad_norm": 0.3523947298526764, "learning_rate": 6.491333333333333e-06, "loss": 0.2272, "step": 11270 }, { "epoch": 0.5369047619047619, "grad_norm": 0.4614655375480652, "learning_rate": 6.4879999999999995e-06, "loss": 0.2581, "step": 11275 }, { "epoch": 0.5371428571428571, "grad_norm": 0.4503934979438782, "learning_rate": 6.4846666666666665e-06, "loss": 0.2075, "step": 11280 }, { "epoch": 0.5373809523809524, "grad_norm": 0.35576170682907104, "learning_rate": 6.4813333333333335e-06, "loss": 0.1882, "step": 11285 }, { "epoch": 0.5376190476190477, "grad_norm": 0.16821633279323578, "learning_rate": 6.478e-06, "loss": 0.1885, "step": 11290 }, { "epoch": 0.5378571428571428, "grad_norm": 0.46727508306503296, "learning_rate": 6.474666666666667e-06, "loss": 0.237, "step": 11295 }, { "epoch": 0.5380952380952381, "grad_norm": 0.5263137817382812, "learning_rate": 6.471333333333333e-06, "loss": 0.2772, "step": 11300 }, { "epoch": 0.5383333333333333, "grad_norm": 0.4720512926578522, "learning_rate": 6.468000000000001e-06, "loss": 0.2592, "step": 11305 }, { "epoch": 0.5385714285714286, "grad_norm": 0.40609923005104065, "learning_rate": 6.464666666666667e-06, "loss": 0.1602, "step": 11310 }, { "epoch": 0.5388095238095238, "grad_norm": 0.43534597754478455, "learning_rate": 6.461333333333333e-06, "loss": 0.1987, "step": 11315 }, { "epoch": 0.539047619047619, "grad_norm": 0.3713640868663788, "learning_rate": 6.458e-06, "loss": 0.2022, "step": 11320 }, { "epoch": 0.5392857142857143, "grad_norm": 0.451744943857193, "learning_rate": 6.454666666666667e-06, "loss": 0.2236, "step": 11325 }, { "epoch": 0.5395238095238095, "grad_norm": 0.3768928647041321, "learning_rate": 6.451333333333334e-06, "loss": 0.1522, "step": 11330 }, { "epoch": 0.5397619047619048, "grad_norm": 0.45426657795906067, "learning_rate": 6.448e-06, "loss": 0.19, "step": 11335 }, { "epoch": 0.54, "grad_norm": 0.5058041214942932, "learning_rate": 6.444666666666666e-06, "loss": 0.2588, "step": 11340 }, { "epoch": 0.5402380952380952, "grad_norm": 0.5194428563117981, "learning_rate": 6.441333333333334e-06, "loss": 0.2773, "step": 11345 }, { "epoch": 0.5404761904761904, "grad_norm": 0.3886723220348358, "learning_rate": 6.438e-06, "loss": 0.2244, "step": 11350 }, { "epoch": 0.5407142857142857, "grad_norm": 0.47104036808013916, "learning_rate": 6.434666666666666e-06, "loss": 0.2456, "step": 11355 }, { "epoch": 0.540952380952381, "grad_norm": 0.4115731716156006, "learning_rate": 6.431333333333333e-06, "loss": 0.2622, "step": 11360 }, { "epoch": 0.5411904761904762, "grad_norm": 0.5460423231124878, "learning_rate": 6.428e-06, "loss": 0.2519, "step": 11365 }, { "epoch": 0.5414285714285715, "grad_norm": 0.4205038845539093, "learning_rate": 6.424666666666667e-06, "loss": 0.2274, "step": 11370 }, { "epoch": 0.5416666666666666, "grad_norm": 0.4504702389240265, "learning_rate": 6.421333333333333e-06, "loss": 0.2285, "step": 11375 }, { "epoch": 0.5419047619047619, "grad_norm": 0.4271661937236786, "learning_rate": 6.417999999999999e-06, "loss": 0.2378, "step": 11380 }, { "epoch": 0.5421428571428571, "grad_norm": 0.4286118745803833, "learning_rate": 6.414666666666666e-06, "loss": 0.2386, "step": 11385 }, { "epoch": 0.5423809523809524, "grad_norm": 0.5115253925323486, "learning_rate": 6.411333333333333e-06, "loss": 0.2421, "step": 11390 }, { "epoch": 0.5426190476190477, "grad_norm": 0.361011266708374, "learning_rate": 6.408e-06, "loss": 0.1753, "step": 11395 }, { "epoch": 0.5428571428571428, "grad_norm": 0.5165920257568359, "learning_rate": 6.4046666666666664e-06, "loss": 0.2593, "step": 11400 }, { "epoch": 0.5430952380952381, "grad_norm": 0.3215378522872925, "learning_rate": 6.401333333333333e-06, "loss": 0.2107, "step": 11405 }, { "epoch": 0.5433333333333333, "grad_norm": 0.503343939781189, "learning_rate": 6.398e-06, "loss": 0.2307, "step": 11410 }, { "epoch": 0.5435714285714286, "grad_norm": 0.3919612467288971, "learning_rate": 6.3946666666666665e-06, "loss": 0.1907, "step": 11415 }, { "epoch": 0.5438095238095239, "grad_norm": 0.3849462866783142, "learning_rate": 6.391333333333333e-06, "loss": 0.2421, "step": 11420 }, { "epoch": 0.544047619047619, "grad_norm": 0.44293013215065, "learning_rate": 6.388e-06, "loss": 0.2586, "step": 11425 }, { "epoch": 0.5442857142857143, "grad_norm": 0.48603394627571106, "learning_rate": 6.384666666666667e-06, "loss": 0.2361, "step": 11430 }, { "epoch": 0.5445238095238095, "grad_norm": 0.4303362965583801, "learning_rate": 6.381333333333334e-06, "loss": 0.1862, "step": 11435 }, { "epoch": 0.5447619047619048, "grad_norm": 0.5213600397109985, "learning_rate": 6.378e-06, "loss": 0.269, "step": 11440 }, { "epoch": 0.545, "grad_norm": 0.4895403981208801, "learning_rate": 6.374666666666666e-06, "loss": 0.2396, "step": 11445 }, { "epoch": 0.5452380952380952, "grad_norm": 0.4239563047885895, "learning_rate": 6.371333333333334e-06, "loss": 0.2187, "step": 11450 }, { "epoch": 0.5454761904761904, "grad_norm": 0.44789615273475647, "learning_rate": 6.368e-06, "loss": 0.2182, "step": 11455 }, { "epoch": 0.5457142857142857, "grad_norm": 0.5008050799369812, "learning_rate": 6.364666666666667e-06, "loss": 0.1981, "step": 11460 }, { "epoch": 0.545952380952381, "grad_norm": 0.3814935088157654, "learning_rate": 6.361333333333333e-06, "loss": 0.2032, "step": 11465 }, { "epoch": 0.5461904761904762, "grad_norm": 0.40332168340682983, "learning_rate": 6.358e-06, "loss": 0.2194, "step": 11470 }, { "epoch": 0.5464285714285714, "grad_norm": 0.36015865206718445, "learning_rate": 6.354666666666667e-06, "loss": 0.1931, "step": 11475 }, { "epoch": 0.5466666666666666, "grad_norm": 0.4548985958099365, "learning_rate": 6.351333333333333e-06, "loss": 0.2183, "step": 11480 }, { "epoch": 0.5469047619047619, "grad_norm": 0.41948968172073364, "learning_rate": 6.347999999999999e-06, "loss": 0.1912, "step": 11485 }, { "epoch": 0.5471428571428572, "grad_norm": 0.6232881546020508, "learning_rate": 6.344666666666667e-06, "loss": 0.2677, "step": 11490 }, { "epoch": 0.5473809523809524, "grad_norm": 0.3789829909801483, "learning_rate": 6.341333333333333e-06, "loss": 0.2404, "step": 11495 }, { "epoch": 0.5476190476190477, "grad_norm": 0.4423733949661255, "learning_rate": 6.338e-06, "loss": 0.2151, "step": 11500 }, { "epoch": 0.5478571428571428, "grad_norm": 0.4740115702152252, "learning_rate": 6.334666666666666e-06, "loss": 0.2907, "step": 11505 }, { "epoch": 0.5480952380952381, "grad_norm": 0.8127179741859436, "learning_rate": 6.331333333333333e-06, "loss": 0.2699, "step": 11510 }, { "epoch": 0.5483333333333333, "grad_norm": 0.4144144058227539, "learning_rate": 6.328e-06, "loss": 0.2014, "step": 11515 }, { "epoch": 0.5485714285714286, "grad_norm": 0.43212804198265076, "learning_rate": 6.324666666666666e-06, "loss": 0.2452, "step": 11520 }, { "epoch": 0.5488095238095239, "grad_norm": 0.48154231905937195, "learning_rate": 6.321333333333333e-06, "loss": 0.238, "step": 11525 }, { "epoch": 0.549047619047619, "grad_norm": 0.38410520553588867, "learning_rate": 6.318e-06, "loss": 0.2414, "step": 11530 }, { "epoch": 0.5492857142857143, "grad_norm": 0.4360969364643097, "learning_rate": 6.3146666666666665e-06, "loss": 0.2415, "step": 11535 }, { "epoch": 0.5495238095238095, "grad_norm": 0.38760289549827576, "learning_rate": 6.3113333333333334e-06, "loss": 0.1907, "step": 11540 }, { "epoch": 0.5497619047619048, "grad_norm": 0.41452184319496155, "learning_rate": 6.3079999999999996e-06, "loss": 0.2397, "step": 11545 }, { "epoch": 0.55, "grad_norm": 0.37705525755882263, "learning_rate": 6.3046666666666666e-06, "loss": 0.2132, "step": 11550 }, { "epoch": 0.5502380952380952, "grad_norm": 0.4386485517024994, "learning_rate": 6.3013333333333335e-06, "loss": 0.2457, "step": 11555 }, { "epoch": 0.5504761904761905, "grad_norm": 0.47142675518989563, "learning_rate": 6.298e-06, "loss": 0.2215, "step": 11560 }, { "epoch": 0.5507142857142857, "grad_norm": 0.39458662271499634, "learning_rate": 6.294666666666667e-06, "loss": 0.2294, "step": 11565 }, { "epoch": 0.550952380952381, "grad_norm": 0.468471884727478, "learning_rate": 6.291333333333334e-06, "loss": 0.236, "step": 11570 }, { "epoch": 0.5511904761904762, "grad_norm": 0.4748991131782532, "learning_rate": 6.288e-06, "loss": 0.2628, "step": 11575 }, { "epoch": 0.5514285714285714, "grad_norm": 0.4167005717754364, "learning_rate": 6.284666666666667e-06, "loss": 0.2067, "step": 11580 }, { "epoch": 0.5516666666666666, "grad_norm": 0.4612276554107666, "learning_rate": 6.281333333333333e-06, "loss": 0.2389, "step": 11585 }, { "epoch": 0.5519047619047619, "grad_norm": 0.504631757736206, "learning_rate": 6.278e-06, "loss": 0.1994, "step": 11590 }, { "epoch": 0.5521428571428572, "grad_norm": 0.42763057351112366, "learning_rate": 6.274666666666667e-06, "loss": 0.2416, "step": 11595 }, { "epoch": 0.5523809523809524, "grad_norm": 0.3341749310493469, "learning_rate": 6.271333333333333e-06, "loss": 0.2757, "step": 11600 }, { "epoch": 0.5526190476190476, "grad_norm": 0.48628583550453186, "learning_rate": 6.268e-06, "loss": 0.217, "step": 11605 }, { "epoch": 0.5528571428571428, "grad_norm": 0.44132551550865173, "learning_rate": 6.264666666666666e-06, "loss": 0.2775, "step": 11610 }, { "epoch": 0.5530952380952381, "grad_norm": 0.3608461320400238, "learning_rate": 6.261333333333333e-06, "loss": 0.2129, "step": 11615 }, { "epoch": 0.5533333333333333, "grad_norm": 0.5293209552764893, "learning_rate": 6.258e-06, "loss": 0.2521, "step": 11620 }, { "epoch": 0.5535714285714286, "grad_norm": 0.4353417158126831, "learning_rate": 6.254666666666666e-06, "loss": 0.2071, "step": 11625 }, { "epoch": 0.5538095238095239, "grad_norm": 0.4135760962963104, "learning_rate": 6.251333333333333e-06, "loss": 0.2036, "step": 11630 }, { "epoch": 0.554047619047619, "grad_norm": 0.43855366110801697, "learning_rate": 6.248e-06, "loss": 0.1847, "step": 11635 }, { "epoch": 0.5542857142857143, "grad_norm": 0.5853094458580017, "learning_rate": 6.244666666666666e-06, "loss": 0.2877, "step": 11640 }, { "epoch": 0.5545238095238095, "grad_norm": 0.45474517345428467, "learning_rate": 6.241333333333333e-06, "loss": 0.2673, "step": 11645 }, { "epoch": 0.5547619047619048, "grad_norm": 0.41535112261772156, "learning_rate": 6.237999999999999e-06, "loss": 0.2082, "step": 11650 }, { "epoch": 0.555, "grad_norm": 0.4043715298175812, "learning_rate": 6.234666666666667e-06, "loss": 0.2305, "step": 11655 }, { "epoch": 0.5552380952380952, "grad_norm": 0.40856269001960754, "learning_rate": 6.231333333333333e-06, "loss": 0.1893, "step": 11660 }, { "epoch": 0.5554761904761905, "grad_norm": 0.3998235762119293, "learning_rate": 6.2279999999999995e-06, "loss": 0.2317, "step": 11665 }, { "epoch": 0.5557142857142857, "grad_norm": 0.3847850561141968, "learning_rate": 6.2246666666666665e-06, "loss": 0.2286, "step": 11670 }, { "epoch": 0.555952380952381, "grad_norm": 0.4280999004840851, "learning_rate": 6.2213333333333335e-06, "loss": 0.2247, "step": 11675 }, { "epoch": 0.5561904761904762, "grad_norm": 0.47297149896621704, "learning_rate": 6.218e-06, "loss": 0.2448, "step": 11680 }, { "epoch": 0.5564285714285714, "grad_norm": 0.4717010259628296, "learning_rate": 6.2146666666666666e-06, "loss": 0.2128, "step": 11685 }, { "epoch": 0.5566666666666666, "grad_norm": 0.4025196433067322, "learning_rate": 6.211333333333333e-06, "loss": 0.2035, "step": 11690 }, { "epoch": 0.5569047619047619, "grad_norm": 0.4507344663143158, "learning_rate": 6.2080000000000005e-06, "loss": 0.1769, "step": 11695 }, { "epoch": 0.5571428571428572, "grad_norm": 0.4458196759223938, "learning_rate": 6.204666666666667e-06, "loss": 0.2437, "step": 11700 }, { "epoch": 0.5573809523809524, "grad_norm": 0.4319268465042114, "learning_rate": 6.201333333333333e-06, "loss": 0.217, "step": 11705 }, { "epoch": 0.5576190476190476, "grad_norm": 0.4964759349822998, "learning_rate": 6.198e-06, "loss": 0.2418, "step": 11710 }, { "epoch": 0.5578571428571428, "grad_norm": 0.5002232193946838, "learning_rate": 6.194666666666667e-06, "loss": 0.2186, "step": 11715 }, { "epoch": 0.5580952380952381, "grad_norm": 0.3936285078525543, "learning_rate": 6.191333333333334e-06, "loss": 0.2142, "step": 11720 }, { "epoch": 0.5583333333333333, "grad_norm": 0.4042961895465851, "learning_rate": 6.188e-06, "loss": 0.2303, "step": 11725 }, { "epoch": 0.5585714285714286, "grad_norm": 0.4480665624141693, "learning_rate": 6.184666666666666e-06, "loss": 0.2544, "step": 11730 }, { "epoch": 0.5588095238095238, "grad_norm": 0.43122661113739014, "learning_rate": 6.181333333333334e-06, "loss": 0.2006, "step": 11735 }, { "epoch": 0.559047619047619, "grad_norm": 0.43716126680374146, "learning_rate": 6.178e-06, "loss": 0.2253, "step": 11740 }, { "epoch": 0.5592857142857143, "grad_norm": 0.28973913192749023, "learning_rate": 6.174666666666666e-06, "loss": 0.2061, "step": 11745 }, { "epoch": 0.5595238095238095, "grad_norm": 0.4830130338668823, "learning_rate": 6.171333333333333e-06, "loss": 0.2917, "step": 11750 }, { "epoch": 0.5597619047619048, "grad_norm": 0.43744271993637085, "learning_rate": 6.168e-06, "loss": 0.2318, "step": 11755 }, { "epoch": 0.56, "grad_norm": 0.49411553144454956, "learning_rate": 6.164666666666667e-06, "loss": 0.2717, "step": 11760 }, { "epoch": 0.5602380952380952, "grad_norm": 0.4614510238170624, "learning_rate": 6.161333333333333e-06, "loss": 0.2529, "step": 11765 }, { "epoch": 0.5604761904761905, "grad_norm": 0.4423128068447113, "learning_rate": 6.157999999999999e-06, "loss": 0.2465, "step": 11770 }, { "epoch": 0.5607142857142857, "grad_norm": 0.35500890016555786, "learning_rate": 6.154666666666667e-06, "loss": 0.2048, "step": 11775 }, { "epoch": 0.560952380952381, "grad_norm": 0.5432311296463013, "learning_rate": 6.151333333333333e-06, "loss": 0.2795, "step": 11780 }, { "epoch": 0.5611904761904762, "grad_norm": 0.3646245300769806, "learning_rate": 6.148e-06, "loss": 0.2687, "step": 11785 }, { "epoch": 0.5614285714285714, "grad_norm": 0.4195430278778076, "learning_rate": 6.144666666666666e-06, "loss": 0.2027, "step": 11790 }, { "epoch": 0.5616666666666666, "grad_norm": 0.4634615480899811, "learning_rate": 6.141333333333333e-06, "loss": 0.2602, "step": 11795 }, { "epoch": 0.5619047619047619, "grad_norm": 0.4076593220233917, "learning_rate": 6.138e-06, "loss": 0.2222, "step": 11800 }, { "epoch": 0.5621428571428572, "grad_norm": 0.3701505661010742, "learning_rate": 6.1346666666666665e-06, "loss": 0.2237, "step": 11805 }, { "epoch": 0.5623809523809524, "grad_norm": 0.4562991261482239, "learning_rate": 6.131333333333333e-06, "loss": 0.2332, "step": 11810 }, { "epoch": 0.5626190476190476, "grad_norm": 0.4418594241142273, "learning_rate": 6.128e-06, "loss": 0.2549, "step": 11815 }, { "epoch": 0.5628571428571428, "grad_norm": 0.43354126811027527, "learning_rate": 6.124666666666667e-06, "loss": 0.2321, "step": 11820 }, { "epoch": 0.5630952380952381, "grad_norm": 0.4598703980445862, "learning_rate": 6.1213333333333336e-06, "loss": 0.2593, "step": 11825 }, { "epoch": 0.5633333333333334, "grad_norm": 0.40965792536735535, "learning_rate": 6.118e-06, "loss": 0.1913, "step": 11830 }, { "epoch": 0.5635714285714286, "grad_norm": 0.39699843525886536, "learning_rate": 6.114666666666667e-06, "loss": 0.2003, "step": 11835 }, { "epoch": 0.5638095238095238, "grad_norm": 0.45497995615005493, "learning_rate": 6.111333333333334e-06, "loss": 0.221, "step": 11840 }, { "epoch": 0.564047619047619, "grad_norm": 0.5114285945892334, "learning_rate": 6.108e-06, "loss": 0.2186, "step": 11845 }, { "epoch": 0.5642857142857143, "grad_norm": 0.44786715507507324, "learning_rate": 6.104666666666667e-06, "loss": 0.2216, "step": 11850 }, { "epoch": 0.5645238095238095, "grad_norm": 0.40666452050209045, "learning_rate": 6.101333333333333e-06, "loss": 0.2716, "step": 11855 }, { "epoch": 0.5647619047619048, "grad_norm": 0.49687695503234863, "learning_rate": 6.098e-06, "loss": 0.223, "step": 11860 }, { "epoch": 0.565, "grad_norm": 0.48876744508743286, "learning_rate": 6.094666666666667e-06, "loss": 0.2281, "step": 11865 }, { "epoch": 0.5652380952380952, "grad_norm": 0.5239080786705017, "learning_rate": 6.091333333333333e-06, "loss": 0.2248, "step": 11870 }, { "epoch": 0.5654761904761905, "grad_norm": 0.4274037480354309, "learning_rate": 6.087999999999999e-06, "loss": 0.208, "step": 11875 }, { "epoch": 0.5657142857142857, "grad_norm": 0.507978618144989, "learning_rate": 6.084666666666667e-06, "loss": 0.2253, "step": 11880 }, { "epoch": 0.565952380952381, "grad_norm": 0.3870795667171478, "learning_rate": 6.081333333333333e-06, "loss": 0.2354, "step": 11885 }, { "epoch": 0.5661904761904762, "grad_norm": 0.40177637338638306, "learning_rate": 6.078e-06, "loss": 0.2409, "step": 11890 }, { "epoch": 0.5664285714285714, "grad_norm": 0.2686082720756531, "learning_rate": 6.074666666666666e-06, "loss": 0.1949, "step": 11895 }, { "epoch": 0.5666666666666667, "grad_norm": 0.29504263401031494, "learning_rate": 6.071333333333333e-06, "loss": 0.2046, "step": 11900 }, { "epoch": 0.5669047619047619, "grad_norm": 0.3954331576824188, "learning_rate": 6.068e-06, "loss": 0.2797, "step": 11905 }, { "epoch": 0.5671428571428572, "grad_norm": 0.6902531385421753, "learning_rate": 6.064666666666666e-06, "loss": 0.2149, "step": 11910 }, { "epoch": 0.5673809523809524, "grad_norm": 0.4470018744468689, "learning_rate": 6.061333333333333e-06, "loss": 0.2249, "step": 11915 }, { "epoch": 0.5676190476190476, "grad_norm": 0.4299013316631317, "learning_rate": 6.058e-06, "loss": 0.207, "step": 11920 }, { "epoch": 0.5678571428571428, "grad_norm": 0.44679737091064453, "learning_rate": 6.054666666666666e-06, "loss": 0.2417, "step": 11925 }, { "epoch": 0.5680952380952381, "grad_norm": 0.5243006944656372, "learning_rate": 6.051333333333333e-06, "loss": 0.239, "step": 11930 }, { "epoch": 0.5683333333333334, "grad_norm": 0.3781174123287201, "learning_rate": 6.0479999999999995e-06, "loss": 0.2068, "step": 11935 }, { "epoch": 0.5685714285714286, "grad_norm": 0.41788843274116516, "learning_rate": 6.0446666666666665e-06, "loss": 0.2343, "step": 11940 }, { "epoch": 0.5688095238095238, "grad_norm": 0.4399290382862091, "learning_rate": 6.0413333333333335e-06, "loss": 0.2394, "step": 11945 }, { "epoch": 0.569047619047619, "grad_norm": 0.5014578700065613, "learning_rate": 6.038e-06, "loss": 0.1843, "step": 11950 }, { "epoch": 0.5692857142857143, "grad_norm": 0.4080912172794342, "learning_rate": 6.034666666666667e-06, "loss": 0.201, "step": 11955 }, { "epoch": 0.5695238095238095, "grad_norm": 0.39483457803726196, "learning_rate": 6.031333333333334e-06, "loss": 0.2509, "step": 11960 }, { "epoch": 0.5697619047619048, "grad_norm": 0.4357050657272339, "learning_rate": 6.028e-06, "loss": 0.2297, "step": 11965 }, { "epoch": 0.57, "grad_norm": 0.4577687382698059, "learning_rate": 6.024666666666667e-06, "loss": 0.2198, "step": 11970 }, { "epoch": 0.5702380952380952, "grad_norm": 0.45343825221061707, "learning_rate": 6.021333333333333e-06, "loss": 0.2529, "step": 11975 }, { "epoch": 0.5704761904761905, "grad_norm": 0.40103858709335327, "learning_rate": 6.018000000000001e-06, "loss": 0.252, "step": 11980 }, { "epoch": 0.5707142857142857, "grad_norm": 0.39642277359962463, "learning_rate": 6.014666666666667e-06, "loss": 0.1693, "step": 11985 }, { "epoch": 0.570952380952381, "grad_norm": 0.3436988592147827, "learning_rate": 6.011333333333333e-06, "loss": 0.1827, "step": 11990 }, { "epoch": 0.5711904761904761, "grad_norm": 0.4030676484107971, "learning_rate": 6.008e-06, "loss": 0.202, "step": 11995 }, { "epoch": 0.5714285714285714, "grad_norm": 0.48775842785835266, "learning_rate": 6.004666666666667e-06, "loss": 0.1973, "step": 12000 }, { "epoch": 0.5716666666666667, "grad_norm": 0.41635632514953613, "learning_rate": 6.001333333333333e-06, "loss": 0.1985, "step": 12005 }, { "epoch": 0.5719047619047619, "grad_norm": 0.44580700993537903, "learning_rate": 5.998e-06, "loss": 0.2204, "step": 12010 }, { "epoch": 0.5721428571428572, "grad_norm": 0.4667244255542755, "learning_rate": 5.994666666666666e-06, "loss": 0.2187, "step": 12015 }, { "epoch": 0.5723809523809524, "grad_norm": 1.2715117931365967, "learning_rate": 5.991333333333333e-06, "loss": 0.1991, "step": 12020 }, { "epoch": 0.5726190476190476, "grad_norm": 0.5111806392669678, "learning_rate": 5.988e-06, "loss": 0.2644, "step": 12025 }, { "epoch": 0.5728571428571428, "grad_norm": 0.46306583285331726, "learning_rate": 5.984666666666666e-06, "loss": 0.2193, "step": 12030 }, { "epoch": 0.5730952380952381, "grad_norm": 0.36603665351867676, "learning_rate": 5.981333333333333e-06, "loss": 0.1977, "step": 12035 }, { "epoch": 0.5733333333333334, "grad_norm": 0.5653077960014343, "learning_rate": 5.978e-06, "loss": 0.2215, "step": 12040 }, { "epoch": 0.5735714285714286, "grad_norm": 0.591654896736145, "learning_rate": 5.974666666666667e-06, "loss": 0.2261, "step": 12045 }, { "epoch": 0.5738095238095238, "grad_norm": 0.41440150141716003, "learning_rate": 5.971333333333333e-06, "loss": 0.2703, "step": 12050 }, { "epoch": 0.574047619047619, "grad_norm": 0.6271545886993408, "learning_rate": 5.9679999999999994e-06, "loss": 0.2458, "step": 12055 }, { "epoch": 0.5742857142857143, "grad_norm": 0.5164826512336731, "learning_rate": 5.964666666666666e-06, "loss": 0.2272, "step": 12060 }, { "epoch": 0.5745238095238095, "grad_norm": 0.6000561714172363, "learning_rate": 5.961333333333333e-06, "loss": 0.1925, "step": 12065 }, { "epoch": 0.5747619047619048, "grad_norm": 0.3235756456851959, "learning_rate": 5.9579999999999995e-06, "loss": 0.2379, "step": 12070 }, { "epoch": 0.575, "grad_norm": 0.3831343948841095, "learning_rate": 5.9546666666666665e-06, "loss": 0.2095, "step": 12075 }, { "epoch": 0.5752380952380952, "grad_norm": 0.41481220722198486, "learning_rate": 5.951333333333333e-06, "loss": 0.2473, "step": 12080 }, { "epoch": 0.5754761904761905, "grad_norm": 0.33197107911109924, "learning_rate": 5.9480000000000005e-06, "loss": 0.1754, "step": 12085 }, { "epoch": 0.5757142857142857, "grad_norm": 0.42150360345840454, "learning_rate": 5.944666666666667e-06, "loss": 0.2162, "step": 12090 }, { "epoch": 0.575952380952381, "grad_norm": 0.4422530233860016, "learning_rate": 5.941333333333333e-06, "loss": 0.2265, "step": 12095 }, { "epoch": 0.5761904761904761, "grad_norm": 0.3725441098213196, "learning_rate": 5.938e-06, "loss": 0.2036, "step": 12100 }, { "epoch": 0.5764285714285714, "grad_norm": 0.3726517856121063, "learning_rate": 5.934666666666667e-06, "loss": 0.2259, "step": 12105 }, { "epoch": 0.5766666666666667, "grad_norm": 0.4522763788700104, "learning_rate": 5.931333333333334e-06, "loss": 0.2029, "step": 12110 }, { "epoch": 0.5769047619047619, "grad_norm": 0.4534175395965576, "learning_rate": 5.928e-06, "loss": 0.2215, "step": 12115 }, { "epoch": 0.5771428571428572, "grad_norm": 0.4827452003955841, "learning_rate": 5.924666666666666e-06, "loss": 0.2303, "step": 12120 }, { "epoch": 0.5773809523809523, "grad_norm": 0.48038536310195923, "learning_rate": 5.921333333333334e-06, "loss": 0.2187, "step": 12125 }, { "epoch": 0.5776190476190476, "grad_norm": 0.4298851490020752, "learning_rate": 5.918e-06, "loss": 0.2139, "step": 12130 }, { "epoch": 0.5778571428571428, "grad_norm": 0.4122738242149353, "learning_rate": 5.914666666666666e-06, "loss": 0.209, "step": 12135 }, { "epoch": 0.5780952380952381, "grad_norm": 0.3810770809650421, "learning_rate": 5.911333333333333e-06, "loss": 0.1795, "step": 12140 }, { "epoch": 0.5783333333333334, "grad_norm": 0.46133682131767273, "learning_rate": 5.908e-06, "loss": 0.2475, "step": 12145 }, { "epoch": 0.5785714285714286, "grad_norm": 0.5117372274398804, "learning_rate": 5.904666666666667e-06, "loss": 0.2361, "step": 12150 }, { "epoch": 0.5788095238095238, "grad_norm": 0.4230685532093048, "learning_rate": 5.901333333333333e-06, "loss": 0.1713, "step": 12155 }, { "epoch": 0.579047619047619, "grad_norm": 0.35813990235328674, "learning_rate": 5.897999999999999e-06, "loss": 0.1909, "step": 12160 }, { "epoch": 0.5792857142857143, "grad_norm": 0.4489190876483917, "learning_rate": 5.894666666666667e-06, "loss": 0.2163, "step": 12165 }, { "epoch": 0.5795238095238096, "grad_norm": 0.38760972023010254, "learning_rate": 5.891333333333333e-06, "loss": 0.2377, "step": 12170 }, { "epoch": 0.5797619047619048, "grad_norm": 0.45490068197250366, "learning_rate": 5.888e-06, "loss": 0.1947, "step": 12175 }, { "epoch": 0.58, "grad_norm": 0.36851999163627625, "learning_rate": 5.884666666666666e-06, "loss": 0.2254, "step": 12180 }, { "epoch": 0.5802380952380952, "grad_norm": 0.4287774860858917, "learning_rate": 5.881333333333333e-06, "loss": 0.235, "step": 12185 }, { "epoch": 0.5804761904761905, "grad_norm": 0.5136816501617432, "learning_rate": 5.878e-06, "loss": 0.2952, "step": 12190 }, { "epoch": 0.5807142857142857, "grad_norm": 0.47254252433776855, "learning_rate": 5.8746666666666664e-06, "loss": 0.1888, "step": 12195 }, { "epoch": 0.580952380952381, "grad_norm": 0.3308716118335724, "learning_rate": 5.8713333333333326e-06, "loss": 0.1985, "step": 12200 }, { "epoch": 0.5811904761904761, "grad_norm": 0.4087226092815399, "learning_rate": 5.868e-06, "loss": 0.2388, "step": 12205 }, { "epoch": 0.5814285714285714, "grad_norm": 0.34140071272850037, "learning_rate": 5.8646666666666665e-06, "loss": 0.2003, "step": 12210 }, { "epoch": 0.5816666666666667, "grad_norm": 0.453139990568161, "learning_rate": 5.8613333333333335e-06, "loss": 0.208, "step": 12215 }, { "epoch": 0.5819047619047619, "grad_norm": 0.4688985347747803, "learning_rate": 5.858e-06, "loss": 0.2646, "step": 12220 }, { "epoch": 0.5821428571428572, "grad_norm": 0.4113242030143738, "learning_rate": 5.854666666666667e-06, "loss": 0.243, "step": 12225 }, { "epoch": 0.5823809523809523, "grad_norm": 0.38200685381889343, "learning_rate": 5.851333333333334e-06, "loss": 0.2229, "step": 12230 }, { "epoch": 0.5826190476190476, "grad_norm": 0.36126482486724854, "learning_rate": 5.848e-06, "loss": 0.2154, "step": 12235 }, { "epoch": 0.5828571428571429, "grad_norm": 0.391488641500473, "learning_rate": 5.844666666666667e-06, "loss": 0.2234, "step": 12240 }, { "epoch": 0.5830952380952381, "grad_norm": 0.6900994777679443, "learning_rate": 5.841333333333334e-06, "loss": 0.2449, "step": 12245 }, { "epoch": 0.5833333333333334, "grad_norm": 0.4737480580806732, "learning_rate": 5.838e-06, "loss": 0.2322, "step": 12250 }, { "epoch": 0.5835714285714285, "grad_norm": 0.5180365443229675, "learning_rate": 5.834666666666667e-06, "loss": 0.2256, "step": 12255 }, { "epoch": 0.5838095238095238, "grad_norm": 0.42512989044189453, "learning_rate": 5.831333333333333e-06, "loss": 0.2006, "step": 12260 }, { "epoch": 0.584047619047619, "grad_norm": 0.5155563950538635, "learning_rate": 5.828e-06, "loss": 0.2431, "step": 12265 }, { "epoch": 0.5842857142857143, "grad_norm": 1.299203872680664, "learning_rate": 5.824666666666667e-06, "loss": 0.2376, "step": 12270 }, { "epoch": 0.5845238095238096, "grad_norm": 0.4527716338634491, "learning_rate": 5.821333333333333e-06, "loss": 0.1717, "step": 12275 }, { "epoch": 0.5847619047619048, "grad_norm": 0.4160577356815338, "learning_rate": 5.818e-06, "loss": 0.2032, "step": 12280 }, { "epoch": 0.585, "grad_norm": 0.4627598822116852, "learning_rate": 5.814666666666666e-06, "loss": 0.1868, "step": 12285 }, { "epoch": 0.5852380952380952, "grad_norm": 0.4348928928375244, "learning_rate": 5.811333333333333e-06, "loss": 0.2408, "step": 12290 }, { "epoch": 0.5854761904761905, "grad_norm": 0.38734281063079834, "learning_rate": 5.808e-06, "loss": 0.1926, "step": 12295 }, { "epoch": 0.5857142857142857, "grad_norm": 0.5024306178092957, "learning_rate": 5.804666666666666e-06, "loss": 0.2569, "step": 12300 }, { "epoch": 0.585952380952381, "grad_norm": 0.3823956549167633, "learning_rate": 5.801333333333333e-06, "loss": 0.1938, "step": 12305 }, { "epoch": 0.5861904761904762, "grad_norm": 0.3716144859790802, "learning_rate": 5.798e-06, "loss": 0.1997, "step": 12310 }, { "epoch": 0.5864285714285714, "grad_norm": 0.46671262383461, "learning_rate": 5.794666666666666e-06, "loss": 0.212, "step": 12315 }, { "epoch": 0.5866666666666667, "grad_norm": 0.34835007786750793, "learning_rate": 5.791333333333333e-06, "loss": 0.192, "step": 12320 }, { "epoch": 0.5869047619047619, "grad_norm": 0.5264897346496582, "learning_rate": 5.7879999999999995e-06, "loss": 0.2691, "step": 12325 }, { "epoch": 0.5871428571428572, "grad_norm": 0.5303981304168701, "learning_rate": 5.7846666666666665e-06, "loss": 0.2211, "step": 12330 }, { "epoch": 0.5873809523809523, "grad_norm": 0.4262629449367523, "learning_rate": 5.7813333333333334e-06, "loss": 0.2582, "step": 12335 }, { "epoch": 0.5876190476190476, "grad_norm": 0.4659159779548645, "learning_rate": 5.7779999999999996e-06, "loss": 0.2016, "step": 12340 }, { "epoch": 0.5878571428571429, "grad_norm": 0.4687877893447876, "learning_rate": 5.7746666666666665e-06, "loss": 0.2611, "step": 12345 }, { "epoch": 0.5880952380952381, "grad_norm": 0.47456327080726624, "learning_rate": 5.7713333333333335e-06, "loss": 0.2588, "step": 12350 }, { "epoch": 0.5883333333333334, "grad_norm": 0.3905731737613678, "learning_rate": 5.768e-06, "loss": 0.2551, "step": 12355 }, { "epoch": 0.5885714285714285, "grad_norm": 0.3224745988845825, "learning_rate": 5.764666666666667e-06, "loss": 0.1814, "step": 12360 }, { "epoch": 0.5888095238095238, "grad_norm": 0.6092585325241089, "learning_rate": 5.761333333333333e-06, "loss": 0.2038, "step": 12365 }, { "epoch": 0.589047619047619, "grad_norm": 0.5465394258499146, "learning_rate": 5.758000000000001e-06, "loss": 0.2111, "step": 12370 }, { "epoch": 0.5892857142857143, "grad_norm": 0.46603670716285706, "learning_rate": 5.754666666666667e-06, "loss": 0.2329, "step": 12375 }, { "epoch": 0.5895238095238096, "grad_norm": 0.4368293881416321, "learning_rate": 5.751333333333333e-06, "loss": 0.272, "step": 12380 }, { "epoch": 0.5897619047619047, "grad_norm": 0.3531545400619507, "learning_rate": 5.748e-06, "loss": 0.2008, "step": 12385 }, { "epoch": 0.59, "grad_norm": 0.447786808013916, "learning_rate": 5.744666666666667e-06, "loss": 0.249, "step": 12390 }, { "epoch": 0.5902380952380952, "grad_norm": 0.46784475445747375, "learning_rate": 5.741333333333333e-06, "loss": 0.2517, "step": 12395 }, { "epoch": 0.5904761904761905, "grad_norm": 0.4023277461528778, "learning_rate": 5.738e-06, "loss": 0.2259, "step": 12400 }, { "epoch": 0.5907142857142857, "grad_norm": 0.3901499807834625, "learning_rate": 5.734666666666666e-06, "loss": 0.2134, "step": 12405 }, { "epoch": 0.590952380952381, "grad_norm": 0.36434316635131836, "learning_rate": 5.731333333333334e-06, "loss": 0.2619, "step": 12410 }, { "epoch": 0.5911904761904762, "grad_norm": 0.5611230134963989, "learning_rate": 5.728e-06, "loss": 0.2597, "step": 12415 }, { "epoch": 0.5914285714285714, "grad_norm": 0.35853713750839233, "learning_rate": 5.724666666666666e-06, "loss": 0.1808, "step": 12420 }, { "epoch": 0.5916666666666667, "grad_norm": 0.4274269938468933, "learning_rate": 5.721333333333333e-06, "loss": 0.2146, "step": 12425 }, { "epoch": 0.5919047619047619, "grad_norm": 0.4047515094280243, "learning_rate": 5.718e-06, "loss": 0.2416, "step": 12430 }, { "epoch": 0.5921428571428572, "grad_norm": 0.4549262523651123, "learning_rate": 5.714666666666667e-06, "loss": 0.2191, "step": 12435 }, { "epoch": 0.5923809523809523, "grad_norm": 0.38243651390075684, "learning_rate": 5.712e-06, "loss": 0.2311, "step": 12440 }, { "epoch": 0.5926190476190476, "grad_norm": 0.4427558183670044, "learning_rate": 5.708666666666667e-06, "loss": 0.2481, "step": 12445 }, { "epoch": 0.5928571428571429, "grad_norm": 0.4240146279335022, "learning_rate": 5.705333333333333e-06, "loss": 0.2243, "step": 12450 }, { "epoch": 0.5930952380952381, "grad_norm": 0.47535207867622375, "learning_rate": 5.702e-06, "loss": 0.2326, "step": 12455 }, { "epoch": 0.5933333333333334, "grad_norm": 0.429822713136673, "learning_rate": 5.698666666666667e-06, "loss": 0.1896, "step": 12460 }, { "epoch": 0.5935714285714285, "grad_norm": 0.5350719690322876, "learning_rate": 5.695333333333333e-06, "loss": 0.1967, "step": 12465 }, { "epoch": 0.5938095238095238, "grad_norm": 0.16021369397640228, "learning_rate": 5.692e-06, "loss": 0.2033, "step": 12470 }, { "epoch": 0.594047619047619, "grad_norm": 0.42516037821769714, "learning_rate": 5.688666666666667e-06, "loss": 0.2706, "step": 12475 }, { "epoch": 0.5942857142857143, "grad_norm": 0.45323893427848816, "learning_rate": 5.685333333333334e-06, "loss": 0.2502, "step": 12480 }, { "epoch": 0.5945238095238096, "grad_norm": 0.3844657242298126, "learning_rate": 5.682e-06, "loss": 0.2174, "step": 12485 }, { "epoch": 0.5947619047619047, "grad_norm": 0.3986867368221283, "learning_rate": 5.678666666666666e-06, "loss": 0.2306, "step": 12490 }, { "epoch": 0.595, "grad_norm": 0.37079691886901855, "learning_rate": 5.675333333333333e-06, "loss": 0.1866, "step": 12495 }, { "epoch": 0.5952380952380952, "grad_norm": 0.3758719563484192, "learning_rate": 5.672e-06, "loss": 0.2243, "step": 12500 }, { "epoch": 0.5954761904761905, "grad_norm": 0.44073930382728577, "learning_rate": 5.668666666666666e-06, "loss": 0.2251, "step": 12505 }, { "epoch": 0.5957142857142858, "grad_norm": 0.3834552764892578, "learning_rate": 5.665333333333333e-06, "loss": 0.1924, "step": 12510 }, { "epoch": 0.5959523809523809, "grad_norm": 0.4132690727710724, "learning_rate": 5.661999999999999e-06, "loss": 0.2338, "step": 12515 }, { "epoch": 0.5961904761904762, "grad_norm": 0.4989493489265442, "learning_rate": 5.658666666666667e-06, "loss": 0.2324, "step": 12520 }, { "epoch": 0.5964285714285714, "grad_norm": 0.41517511010169983, "learning_rate": 5.655333333333333e-06, "loss": 0.2295, "step": 12525 }, { "epoch": 0.5966666666666667, "grad_norm": 0.4832729995250702, "learning_rate": 5.651999999999999e-06, "loss": 0.2292, "step": 12530 }, { "epoch": 0.5969047619047619, "grad_norm": 0.4430501461029053, "learning_rate": 5.648666666666666e-06, "loss": 0.1915, "step": 12535 }, { "epoch": 0.5971428571428572, "grad_norm": 0.4347447156906128, "learning_rate": 5.645333333333333e-06, "loss": 0.2185, "step": 12540 }, { "epoch": 0.5973809523809523, "grad_norm": 0.4354766607284546, "learning_rate": 5.642e-06, "loss": 0.2292, "step": 12545 }, { "epoch": 0.5976190476190476, "grad_norm": 0.4709087610244751, "learning_rate": 5.6386666666666665e-06, "loss": 0.2034, "step": 12550 }, { "epoch": 0.5978571428571429, "grad_norm": 0.46382176876068115, "learning_rate": 5.635333333333333e-06, "loss": 0.2072, "step": 12555 }, { "epoch": 0.5980952380952381, "grad_norm": 0.39841964840888977, "learning_rate": 5.6320000000000005e-06, "loss": 0.2182, "step": 12560 }, { "epoch": 0.5983333333333334, "grad_norm": 0.464986115694046, "learning_rate": 5.628666666666667e-06, "loss": 0.2199, "step": 12565 }, { "epoch": 0.5985714285714285, "grad_norm": 0.5032392144203186, "learning_rate": 5.625333333333333e-06, "loss": 0.2541, "step": 12570 }, { "epoch": 0.5988095238095238, "grad_norm": 0.32061198353767395, "learning_rate": 5.622e-06, "loss": 0.2371, "step": 12575 }, { "epoch": 0.599047619047619, "grad_norm": 0.3524974286556244, "learning_rate": 5.618666666666667e-06, "loss": 0.1913, "step": 12580 }, { "epoch": 0.5992857142857143, "grad_norm": 0.43281903862953186, "learning_rate": 5.615333333333334e-06, "loss": 0.2213, "step": 12585 }, { "epoch": 0.5995238095238096, "grad_norm": 0.44995826482772827, "learning_rate": 5.612e-06, "loss": 0.2244, "step": 12590 }, { "epoch": 0.5997619047619047, "grad_norm": 0.4367087483406067, "learning_rate": 5.608666666666666e-06, "loss": 0.1974, "step": 12595 }, { "epoch": 0.6, "grad_norm": 0.44158536195755005, "learning_rate": 5.605333333333334e-06, "loss": 0.2114, "step": 12600 }, { "epoch": 0.6002380952380952, "grad_norm": 0.25887173414230347, "learning_rate": 5.602e-06, "loss": 0.2179, "step": 12605 }, { "epoch": 0.6004761904761905, "grad_norm": 0.3710182011127472, "learning_rate": 5.598666666666667e-06, "loss": 0.2533, "step": 12610 }, { "epoch": 0.6007142857142858, "grad_norm": 0.4523206055164337, "learning_rate": 5.595333333333333e-06, "loss": 0.2149, "step": 12615 }, { "epoch": 0.6009523809523809, "grad_norm": 0.4203527867794037, "learning_rate": 5.592e-06, "loss": 0.2433, "step": 12620 }, { "epoch": 0.6011904761904762, "grad_norm": 0.4246584177017212, "learning_rate": 5.588666666666667e-06, "loss": 0.192, "step": 12625 }, { "epoch": 0.6014285714285714, "grad_norm": 0.43942132592201233, "learning_rate": 5.585333333333333e-06, "loss": 0.2443, "step": 12630 }, { "epoch": 0.6016666666666667, "grad_norm": 0.5346041917800903, "learning_rate": 5.581999999999999e-06, "loss": 0.2452, "step": 12635 }, { "epoch": 0.6019047619047619, "grad_norm": 0.4686184823513031, "learning_rate": 5.578666666666667e-06, "loss": 0.2444, "step": 12640 }, { "epoch": 0.6021428571428571, "grad_norm": 0.4515504837036133, "learning_rate": 5.575333333333333e-06, "loss": 0.2501, "step": 12645 }, { "epoch": 0.6023809523809524, "grad_norm": 0.3697901666164398, "learning_rate": 5.572e-06, "loss": 0.1693, "step": 12650 }, { "epoch": 0.6026190476190476, "grad_norm": 0.38258805871009827, "learning_rate": 5.568666666666666e-06, "loss": 0.2319, "step": 12655 }, { "epoch": 0.6028571428571429, "grad_norm": 0.4154956042766571, "learning_rate": 5.565333333333333e-06, "loss": 0.2178, "step": 12660 }, { "epoch": 0.6030952380952381, "grad_norm": 0.4282815158367157, "learning_rate": 5.562e-06, "loss": 0.237, "step": 12665 }, { "epoch": 0.6033333333333334, "grad_norm": 0.3822687864303589, "learning_rate": 5.558666666666666e-06, "loss": 0.1835, "step": 12670 }, { "epoch": 0.6035714285714285, "grad_norm": 0.4116126000881195, "learning_rate": 5.555333333333333e-06, "loss": 0.235, "step": 12675 }, { "epoch": 0.6038095238095238, "grad_norm": 0.5824388265609741, "learning_rate": 5.552e-06, "loss": 0.2361, "step": 12680 }, { "epoch": 0.604047619047619, "grad_norm": 0.3632619380950928, "learning_rate": 5.5486666666666665e-06, "loss": 0.2041, "step": 12685 }, { "epoch": 0.6042857142857143, "grad_norm": 0.5334067344665527, "learning_rate": 5.5453333333333335e-06, "loss": 0.2125, "step": 12690 }, { "epoch": 0.6045238095238096, "grad_norm": 0.48802128434181213, "learning_rate": 5.542e-06, "loss": 0.1937, "step": 12695 }, { "epoch": 0.6047619047619047, "grad_norm": 0.47558510303497314, "learning_rate": 5.538666666666667e-06, "loss": 0.2256, "step": 12700 }, { "epoch": 0.605, "grad_norm": 0.3733800947666168, "learning_rate": 5.535333333333334e-06, "loss": 0.2607, "step": 12705 }, { "epoch": 0.6052380952380952, "grad_norm": 0.4066484868526459, "learning_rate": 5.532e-06, "loss": 0.2197, "step": 12710 }, { "epoch": 0.6054761904761905, "grad_norm": 0.4042782187461853, "learning_rate": 5.528666666666667e-06, "loss": 0.2428, "step": 12715 }, { "epoch": 0.6057142857142858, "grad_norm": 0.47680971026420593, "learning_rate": 5.525333333333333e-06, "loss": 0.2249, "step": 12720 }, { "epoch": 0.6059523809523809, "grad_norm": 0.39740511775016785, "learning_rate": 5.522e-06, "loss": 0.1631, "step": 12725 }, { "epoch": 0.6061904761904762, "grad_norm": 0.4392605125904083, "learning_rate": 5.518666666666667e-06, "loss": 0.2396, "step": 12730 }, { "epoch": 0.6064285714285714, "grad_norm": 1.0412101745605469, "learning_rate": 5.515333333333333e-06, "loss": 0.2307, "step": 12735 }, { "epoch": 0.6066666666666667, "grad_norm": 0.43168047070503235, "learning_rate": 5.512e-06, "loss": 0.2092, "step": 12740 }, { "epoch": 0.606904761904762, "grad_norm": 0.34658387303352356, "learning_rate": 5.508666666666667e-06, "loss": 0.2146, "step": 12745 }, { "epoch": 0.6071428571428571, "grad_norm": 0.47369053959846497, "learning_rate": 5.505333333333333e-06, "loss": 0.2305, "step": 12750 }, { "epoch": 0.6073809523809524, "grad_norm": 0.36278265714645386, "learning_rate": 5.502e-06, "loss": 0.1981, "step": 12755 }, { "epoch": 0.6076190476190476, "grad_norm": 0.45564696192741394, "learning_rate": 5.498666666666666e-06, "loss": 0.2426, "step": 12760 }, { "epoch": 0.6078571428571429, "grad_norm": 0.5148872137069702, "learning_rate": 5.495333333333333e-06, "loss": 0.2641, "step": 12765 }, { "epoch": 0.6080952380952381, "grad_norm": 0.489190936088562, "learning_rate": 5.492e-06, "loss": 0.2541, "step": 12770 }, { "epoch": 0.6083333333333333, "grad_norm": 0.2407258152961731, "learning_rate": 5.488666666666666e-06, "loss": 0.1796, "step": 12775 }, { "epoch": 0.6085714285714285, "grad_norm": 0.51806640625, "learning_rate": 5.485333333333333e-06, "loss": 0.2054, "step": 12780 }, { "epoch": 0.6088095238095238, "grad_norm": 0.35432031750679016, "learning_rate": 5.482e-06, "loss": 0.2281, "step": 12785 }, { "epoch": 0.6090476190476191, "grad_norm": 0.4524940550327301, "learning_rate": 5.478666666666666e-06, "loss": 0.2389, "step": 12790 }, { "epoch": 0.6092857142857143, "grad_norm": 0.3752860128879547, "learning_rate": 5.475333333333333e-06, "loss": 0.1673, "step": 12795 }, { "epoch": 0.6095238095238096, "grad_norm": 0.3902547359466553, "learning_rate": 5.4719999999999994e-06, "loss": 0.2485, "step": 12800 }, { "epoch": 0.6097619047619047, "grad_norm": 0.4440440833568573, "learning_rate": 5.468666666666667e-06, "loss": 0.2224, "step": 12805 }, { "epoch": 0.61, "grad_norm": 0.31213781237602234, "learning_rate": 5.465333333333333e-06, "loss": 0.196, "step": 12810 }, { "epoch": 0.6102380952380952, "grad_norm": 0.3710816502571106, "learning_rate": 5.4619999999999995e-06, "loss": 0.1949, "step": 12815 }, { "epoch": 0.6104761904761905, "grad_norm": 0.294150710105896, "learning_rate": 5.4586666666666665e-06, "loss": 0.206, "step": 12820 }, { "epoch": 0.6107142857142858, "grad_norm": 0.42587730288505554, "learning_rate": 5.4553333333333335e-06, "loss": 0.1959, "step": 12825 }, { "epoch": 0.6109523809523809, "grad_norm": 0.36063212156295776, "learning_rate": 5.452e-06, "loss": 0.2033, "step": 12830 }, { "epoch": 0.6111904761904762, "grad_norm": 0.4175703227519989, "learning_rate": 5.448666666666667e-06, "loss": 0.2586, "step": 12835 }, { "epoch": 0.6114285714285714, "grad_norm": 0.6659525036811829, "learning_rate": 5.445333333333333e-06, "loss": 0.2679, "step": 12840 }, { "epoch": 0.6116666666666667, "grad_norm": 0.38278070092201233, "learning_rate": 5.442000000000001e-06, "loss": 0.1997, "step": 12845 }, { "epoch": 0.611904761904762, "grad_norm": 0.3787233829498291, "learning_rate": 5.438666666666667e-06, "loss": 0.1895, "step": 12850 }, { "epoch": 0.6121428571428571, "grad_norm": 0.4762372374534607, "learning_rate": 5.435333333333333e-06, "loss": 0.2931, "step": 12855 }, { "epoch": 0.6123809523809524, "grad_norm": 0.3980194330215454, "learning_rate": 5.432e-06, "loss": 0.222, "step": 12860 }, { "epoch": 0.6126190476190476, "grad_norm": 0.4209737479686737, "learning_rate": 5.428666666666667e-06, "loss": 0.2011, "step": 12865 }, { "epoch": 0.6128571428571429, "grad_norm": 0.4578964114189148, "learning_rate": 5.425333333333334e-06, "loss": 0.2515, "step": 12870 }, { "epoch": 0.6130952380952381, "grad_norm": 0.41388386487960815, "learning_rate": 5.422e-06, "loss": 0.2095, "step": 12875 }, { "epoch": 0.6133333333333333, "grad_norm": 0.42471346259117126, "learning_rate": 5.418666666666666e-06, "loss": 0.2301, "step": 12880 }, { "epoch": 0.6135714285714285, "grad_norm": 0.38328835368156433, "learning_rate": 5.415333333333334e-06, "loss": 0.2423, "step": 12885 }, { "epoch": 0.6138095238095238, "grad_norm": 0.34020042419433594, "learning_rate": 5.412e-06, "loss": 0.2288, "step": 12890 }, { "epoch": 0.6140476190476191, "grad_norm": 0.40708598494529724, "learning_rate": 5.408666666666666e-06, "loss": 0.2685, "step": 12895 }, { "epoch": 0.6142857142857143, "grad_norm": 0.453742116689682, "learning_rate": 5.405333333333333e-06, "loss": 0.2195, "step": 12900 }, { "epoch": 0.6145238095238095, "grad_norm": 0.3389899730682373, "learning_rate": 5.402e-06, "loss": 0.2462, "step": 12905 }, { "epoch": 0.6147619047619047, "grad_norm": 0.4385102093219757, "learning_rate": 5.398666666666667e-06, "loss": 0.2087, "step": 12910 }, { "epoch": 0.615, "grad_norm": 0.4249459207057953, "learning_rate": 5.395333333333333e-06, "loss": 0.2443, "step": 12915 }, { "epoch": 0.6152380952380953, "grad_norm": 0.845759391784668, "learning_rate": 5.391999999999999e-06, "loss": 0.2424, "step": 12920 }, { "epoch": 0.6154761904761905, "grad_norm": 0.41540664434432983, "learning_rate": 5.388666666666666e-06, "loss": 0.1639, "step": 12925 }, { "epoch": 0.6157142857142858, "grad_norm": 0.39113181829452515, "learning_rate": 5.385333333333333e-06, "loss": 0.2401, "step": 12930 }, { "epoch": 0.6159523809523809, "grad_norm": 0.42866623401641846, "learning_rate": 5.382e-06, "loss": 0.239, "step": 12935 }, { "epoch": 0.6161904761904762, "grad_norm": 0.3839658796787262, "learning_rate": 5.3786666666666664e-06, "loss": 0.2084, "step": 12940 }, { "epoch": 0.6164285714285714, "grad_norm": 0.37839728593826294, "learning_rate": 5.375333333333333e-06, "loss": 0.2004, "step": 12945 }, { "epoch": 0.6166666666666667, "grad_norm": 0.5694742202758789, "learning_rate": 5.372e-06, "loss": 0.2362, "step": 12950 }, { "epoch": 0.616904761904762, "grad_norm": 0.5099165439605713, "learning_rate": 5.3686666666666665e-06, "loss": 0.2825, "step": 12955 }, { "epoch": 0.6171428571428571, "grad_norm": 0.4980415999889374, "learning_rate": 5.365333333333333e-06, "loss": 0.2373, "step": 12960 }, { "epoch": 0.6173809523809524, "grad_norm": 0.2748083770275116, "learning_rate": 5.362e-06, "loss": 0.2646, "step": 12965 }, { "epoch": 0.6176190476190476, "grad_norm": 0.4101412892341614, "learning_rate": 5.358666666666667e-06, "loss": 0.1815, "step": 12970 }, { "epoch": 0.6178571428571429, "grad_norm": 0.3632689118385315, "learning_rate": 5.355333333333334e-06, "loss": 0.2433, "step": 12975 }, { "epoch": 0.6180952380952381, "grad_norm": 0.44154632091522217, "learning_rate": 5.352e-06, "loss": 0.2203, "step": 12980 }, { "epoch": 0.6183333333333333, "grad_norm": 0.46093687415122986, "learning_rate": 5.348666666666666e-06, "loss": 0.2095, "step": 12985 }, { "epoch": 0.6185714285714285, "grad_norm": 0.4162834584712982, "learning_rate": 5.345333333333334e-06, "loss": 0.2244, "step": 12990 }, { "epoch": 0.6188095238095238, "grad_norm": 0.45307832956314087, "learning_rate": 5.342e-06, "loss": 0.2424, "step": 12995 }, { "epoch": 0.6190476190476191, "grad_norm": 0.5033208727836609, "learning_rate": 5.338666666666667e-06, "loss": 0.2534, "step": 13000 }, { "epoch": 0.6192857142857143, "grad_norm": 0.3954172730445862, "learning_rate": 5.335333333333333e-06, "loss": 0.2236, "step": 13005 }, { "epoch": 0.6195238095238095, "grad_norm": 0.3992820382118225, "learning_rate": 5.332e-06, "loss": 0.2221, "step": 13010 }, { "epoch": 0.6197619047619047, "grad_norm": 0.40010133385658264, "learning_rate": 5.328666666666667e-06, "loss": 0.2303, "step": 13015 }, { "epoch": 0.62, "grad_norm": 0.46903082728385925, "learning_rate": 5.325333333333333e-06, "loss": 0.2316, "step": 13020 }, { "epoch": 0.6202380952380953, "grad_norm": 0.4717373847961426, "learning_rate": 5.321999999999999e-06, "loss": 0.2115, "step": 13025 }, { "epoch": 0.6204761904761905, "grad_norm": 0.4643426239490509, "learning_rate": 5.318666666666667e-06, "loss": 0.2307, "step": 13030 }, { "epoch": 0.6207142857142857, "grad_norm": 0.4578371047973633, "learning_rate": 5.315333333333333e-06, "loss": 0.2521, "step": 13035 }, { "epoch": 0.6209523809523809, "grad_norm": 0.4140256345272064, "learning_rate": 5.312e-06, "loss": 0.2452, "step": 13040 }, { "epoch": 0.6211904761904762, "grad_norm": 1.136248230934143, "learning_rate": 5.308666666666666e-06, "loss": 0.2071, "step": 13045 }, { "epoch": 0.6214285714285714, "grad_norm": 0.4012880325317383, "learning_rate": 5.305333333333333e-06, "loss": 0.2009, "step": 13050 }, { "epoch": 0.6216666666666667, "grad_norm": 0.3459550440311432, "learning_rate": 5.302e-06, "loss": 0.2237, "step": 13055 }, { "epoch": 0.621904761904762, "grad_norm": 0.44291529059410095, "learning_rate": 5.298666666666666e-06, "loss": 0.2024, "step": 13060 }, { "epoch": 0.6221428571428571, "grad_norm": 0.42840731143951416, "learning_rate": 5.295333333333333e-06, "loss": 0.2107, "step": 13065 }, { "epoch": 0.6223809523809524, "grad_norm": 0.4306032657623291, "learning_rate": 5.292e-06, "loss": 0.1601, "step": 13070 }, { "epoch": 0.6226190476190476, "grad_norm": 0.4128998816013336, "learning_rate": 5.2886666666666665e-06, "loss": 0.2136, "step": 13075 }, { "epoch": 0.6228571428571429, "grad_norm": 0.44008463621139526, "learning_rate": 5.2853333333333334e-06, "loss": 0.2482, "step": 13080 }, { "epoch": 0.6230952380952381, "grad_norm": 0.47459426522254944, "learning_rate": 5.2819999999999996e-06, "loss": 0.2345, "step": 13085 }, { "epoch": 0.6233333333333333, "grad_norm": 0.44898056983947754, "learning_rate": 5.2786666666666666e-06, "loss": 0.2381, "step": 13090 }, { "epoch": 0.6235714285714286, "grad_norm": 0.38450849056243896, "learning_rate": 5.2753333333333335e-06, "loss": 0.1902, "step": 13095 }, { "epoch": 0.6238095238095238, "grad_norm": 0.40208253264427185, "learning_rate": 5.272e-06, "loss": 0.2056, "step": 13100 }, { "epoch": 0.6240476190476191, "grad_norm": 0.3654140830039978, "learning_rate": 5.268666666666667e-06, "loss": 0.1815, "step": 13105 }, { "epoch": 0.6242857142857143, "grad_norm": 0.4647349417209625, "learning_rate": 5.265333333333334e-06, "loss": 0.1737, "step": 13110 }, { "epoch": 0.6245238095238095, "grad_norm": 0.41829556226730347, "learning_rate": 5.262e-06, "loss": 0.2032, "step": 13115 }, { "epoch": 0.6247619047619047, "grad_norm": 0.4010474383831024, "learning_rate": 5.258666666666667e-06, "loss": 0.2185, "step": 13120 }, { "epoch": 0.625, "grad_norm": 0.4051195979118347, "learning_rate": 5.255333333333333e-06, "loss": 0.267, "step": 13125 }, { "epoch": 0.6252380952380953, "grad_norm": 0.3385423719882965, "learning_rate": 5.252e-06, "loss": 0.1825, "step": 13130 }, { "epoch": 0.6254761904761905, "grad_norm": 0.4270515739917755, "learning_rate": 5.248666666666667e-06, "loss": 0.204, "step": 13135 }, { "epoch": 0.6257142857142857, "grad_norm": 0.4354390501976013, "learning_rate": 5.245333333333333e-06, "loss": 0.2411, "step": 13140 }, { "epoch": 0.6259523809523809, "grad_norm": 0.4153466522693634, "learning_rate": 5.242e-06, "loss": 0.2335, "step": 13145 }, { "epoch": 0.6261904761904762, "grad_norm": 0.5133244395256042, "learning_rate": 5.238666666666666e-06, "loss": 0.27, "step": 13150 }, { "epoch": 0.6264285714285714, "grad_norm": 0.39535871148109436, "learning_rate": 5.235333333333333e-06, "loss": 0.2805, "step": 13155 }, { "epoch": 0.6266666666666667, "grad_norm": 0.4792771637439728, "learning_rate": 5.232e-06, "loss": 0.249, "step": 13160 }, { "epoch": 0.6269047619047619, "grad_norm": 0.3312895894050598, "learning_rate": 5.228666666666666e-06, "loss": 0.2704, "step": 13165 }, { "epoch": 0.6271428571428571, "grad_norm": 0.3728599548339844, "learning_rate": 5.225333333333333e-06, "loss": 0.1922, "step": 13170 }, { "epoch": 0.6273809523809524, "grad_norm": 0.5929235219955444, "learning_rate": 5.222e-06, "loss": 0.2218, "step": 13175 }, { "epoch": 0.6276190476190476, "grad_norm": 0.38767385482788086, "learning_rate": 5.218666666666666e-06, "loss": 0.213, "step": 13180 }, { "epoch": 0.6278571428571429, "grad_norm": 0.4875532388687134, "learning_rate": 5.215333333333333e-06, "loss": 0.2228, "step": 13185 }, { "epoch": 0.628095238095238, "grad_norm": 0.39077240228652954, "learning_rate": 5.211999999999999e-06, "loss": 0.22, "step": 13190 }, { "epoch": 0.6283333333333333, "grad_norm": 0.5596264600753784, "learning_rate": 5.208666666666667e-06, "loss": 0.2952, "step": 13195 }, { "epoch": 0.6285714285714286, "grad_norm": 0.4102588891983032, "learning_rate": 5.205333333333333e-06, "loss": 0.245, "step": 13200 }, { "epoch": 0.6288095238095238, "grad_norm": 0.4171472191810608, "learning_rate": 5.2019999999999995e-06, "loss": 0.2278, "step": 13205 }, { "epoch": 0.6290476190476191, "grad_norm": 0.35385221242904663, "learning_rate": 5.1986666666666665e-06, "loss": 0.1973, "step": 13210 }, { "epoch": 0.6292857142857143, "grad_norm": 0.4570949673652649, "learning_rate": 5.1953333333333335e-06, "loss": 0.2565, "step": 13215 }, { "epoch": 0.6295238095238095, "grad_norm": 0.4148523807525635, "learning_rate": 5.192e-06, "loss": 0.1954, "step": 13220 }, { "epoch": 0.6297619047619047, "grad_norm": 0.5534934997558594, "learning_rate": 5.1886666666666666e-06, "loss": 0.2297, "step": 13225 }, { "epoch": 0.63, "grad_norm": 0.4675722122192383, "learning_rate": 5.185333333333333e-06, "loss": 0.2487, "step": 13230 }, { "epoch": 0.6302380952380953, "grad_norm": 0.41680896282196045, "learning_rate": 5.1820000000000005e-06, "loss": 0.2197, "step": 13235 }, { "epoch": 0.6304761904761905, "grad_norm": 0.47881990671157837, "learning_rate": 5.178666666666667e-06, "loss": 0.1983, "step": 13240 }, { "epoch": 0.6307142857142857, "grad_norm": 0.36571046710014343, "learning_rate": 5.175333333333333e-06, "loss": 0.1765, "step": 13245 }, { "epoch": 0.6309523809523809, "grad_norm": 0.4328010678291321, "learning_rate": 5.172e-06, "loss": 0.2118, "step": 13250 }, { "epoch": 0.6311904761904762, "grad_norm": 0.536685049533844, "learning_rate": 5.168666666666667e-06, "loss": 0.2541, "step": 13255 }, { "epoch": 0.6314285714285715, "grad_norm": 0.43902528285980225, "learning_rate": 5.165333333333334e-06, "loss": 0.2127, "step": 13260 }, { "epoch": 0.6316666666666667, "grad_norm": 0.5030757784843445, "learning_rate": 5.162e-06, "loss": 0.2594, "step": 13265 }, { "epoch": 0.6319047619047619, "grad_norm": 0.37504568696022034, "learning_rate": 5.158666666666666e-06, "loss": 0.1983, "step": 13270 }, { "epoch": 0.6321428571428571, "grad_norm": 0.38239556550979614, "learning_rate": 5.155333333333334e-06, "loss": 0.2341, "step": 13275 }, { "epoch": 0.6323809523809524, "grad_norm": 0.4931665360927582, "learning_rate": 5.152e-06, "loss": 0.2176, "step": 13280 }, { "epoch": 0.6326190476190476, "grad_norm": 0.49459972977638245, "learning_rate": 5.148666666666666e-06, "loss": 0.2385, "step": 13285 }, { "epoch": 0.6328571428571429, "grad_norm": 0.3638472259044647, "learning_rate": 5.145333333333333e-06, "loss": 0.1947, "step": 13290 }, { "epoch": 0.633095238095238, "grad_norm": 0.3859184682369232, "learning_rate": 5.142e-06, "loss": 0.2332, "step": 13295 }, { "epoch": 0.6333333333333333, "grad_norm": 0.5972070693969727, "learning_rate": 5.138666666666667e-06, "loss": 0.2535, "step": 13300 }, { "epoch": 0.6335714285714286, "grad_norm": 0.3459479808807373, "learning_rate": 5.135333333333333e-06, "loss": 0.208, "step": 13305 }, { "epoch": 0.6338095238095238, "grad_norm": 0.41732221841812134, "learning_rate": 5.131999999999999e-06, "loss": 0.2039, "step": 13310 }, { "epoch": 0.6340476190476191, "grad_norm": 0.3372787833213806, "learning_rate": 5.128666666666667e-06, "loss": 0.2263, "step": 13315 }, { "epoch": 0.6342857142857142, "grad_norm": 0.43698248267173767, "learning_rate": 5.125333333333333e-06, "loss": 0.2416, "step": 13320 }, { "epoch": 0.6345238095238095, "grad_norm": 0.33814048767089844, "learning_rate": 5.122e-06, "loss": 0.196, "step": 13325 }, { "epoch": 0.6347619047619047, "grad_norm": 0.3648599088191986, "learning_rate": 5.118666666666666e-06, "loss": 0.2142, "step": 13330 }, { "epoch": 0.635, "grad_norm": 0.41167449951171875, "learning_rate": 5.115333333333333e-06, "loss": 0.2279, "step": 13335 }, { "epoch": 0.6352380952380953, "grad_norm": 0.37558266520500183, "learning_rate": 5.112e-06, "loss": 0.2161, "step": 13340 }, { "epoch": 0.6354761904761905, "grad_norm": 0.3617449104785919, "learning_rate": 5.1086666666666665e-06, "loss": 0.2098, "step": 13345 }, { "epoch": 0.6357142857142857, "grad_norm": 0.461569607257843, "learning_rate": 5.105333333333333e-06, "loss": 0.2116, "step": 13350 }, { "epoch": 0.6359523809523809, "grad_norm": 0.411719411611557, "learning_rate": 5.102e-06, "loss": 0.2218, "step": 13355 }, { "epoch": 0.6361904761904762, "grad_norm": 0.4783913791179657, "learning_rate": 5.098666666666667e-06, "loss": 0.2571, "step": 13360 }, { "epoch": 0.6364285714285715, "grad_norm": 0.49469172954559326, "learning_rate": 5.0953333333333336e-06, "loss": 0.2174, "step": 13365 }, { "epoch": 0.6366666666666667, "grad_norm": 0.4824456572532654, "learning_rate": 5.092e-06, "loss": 0.1999, "step": 13370 }, { "epoch": 0.6369047619047619, "grad_norm": 0.42665719985961914, "learning_rate": 5.088666666666667e-06, "loss": 0.2155, "step": 13375 }, { "epoch": 0.6371428571428571, "grad_norm": 0.3983668386936188, "learning_rate": 5.085333333333334e-06, "loss": 0.2024, "step": 13380 }, { "epoch": 0.6373809523809524, "grad_norm": 0.5476356744766235, "learning_rate": 5.082e-06, "loss": 0.2643, "step": 13385 }, { "epoch": 0.6376190476190476, "grad_norm": 0.490913063287735, "learning_rate": 5.078666666666667e-06, "loss": 0.2143, "step": 13390 }, { "epoch": 0.6378571428571429, "grad_norm": 0.4007706344127655, "learning_rate": 5.075333333333333e-06, "loss": 0.1977, "step": 13395 }, { "epoch": 0.638095238095238, "grad_norm": 0.4534745216369629, "learning_rate": 5.072e-06, "loss": 0.2622, "step": 13400 }, { "epoch": 0.6383333333333333, "grad_norm": 0.5660437345504761, "learning_rate": 5.068666666666667e-06, "loss": 0.2063, "step": 13405 }, { "epoch": 0.6385714285714286, "grad_norm": 0.36038681864738464, "learning_rate": 5.065333333333333e-06, "loss": 0.1989, "step": 13410 }, { "epoch": 0.6388095238095238, "grad_norm": 0.45656827092170715, "learning_rate": 5.062e-06, "loss": 0.2409, "step": 13415 }, { "epoch": 0.6390476190476191, "grad_norm": 0.5004180669784546, "learning_rate": 5.058666666666667e-06, "loss": 0.2298, "step": 13420 }, { "epoch": 0.6392857142857142, "grad_norm": 0.4771771728992462, "learning_rate": 5.055333333333333e-06, "loss": 0.2545, "step": 13425 }, { "epoch": 0.6395238095238095, "grad_norm": 0.39055320620536804, "learning_rate": 5.052e-06, "loss": 0.2173, "step": 13430 }, { "epoch": 0.6397619047619048, "grad_norm": 0.4190386235713959, "learning_rate": 5.048666666666666e-06, "loss": 0.2319, "step": 13435 }, { "epoch": 0.64, "grad_norm": 0.5304823517799377, "learning_rate": 5.045333333333333e-06, "loss": 0.2034, "step": 13440 }, { "epoch": 0.6402380952380953, "grad_norm": 0.4324289560317993, "learning_rate": 5.042e-06, "loss": 0.2416, "step": 13445 }, { "epoch": 0.6404761904761904, "grad_norm": 0.3747796416282654, "learning_rate": 5.038666666666666e-06, "loss": 0.1948, "step": 13450 }, { "epoch": 0.6407142857142857, "grad_norm": 0.4231911599636078, "learning_rate": 5.035333333333333e-06, "loss": 0.2509, "step": 13455 }, { "epoch": 0.6409523809523809, "grad_norm": 0.43997278809547424, "learning_rate": 5.032e-06, "loss": 0.2499, "step": 13460 }, { "epoch": 0.6411904761904762, "grad_norm": 0.4549397826194763, "learning_rate": 5.028666666666666e-06, "loss": 0.239, "step": 13465 }, { "epoch": 0.6414285714285715, "grad_norm": 0.4250696301460266, "learning_rate": 5.025333333333333e-06, "loss": 0.2398, "step": 13470 }, { "epoch": 0.6416666666666667, "grad_norm": 0.3628091812133789, "learning_rate": 5.0219999999999995e-06, "loss": 0.2185, "step": 13475 }, { "epoch": 0.6419047619047619, "grad_norm": 0.3578345775604248, "learning_rate": 5.018666666666667e-06, "loss": 0.2135, "step": 13480 }, { "epoch": 0.6421428571428571, "grad_norm": 0.45128336548805237, "learning_rate": 5.0153333333333335e-06, "loss": 0.2397, "step": 13485 }, { "epoch": 0.6423809523809524, "grad_norm": 0.527036190032959, "learning_rate": 5.012e-06, "loss": 0.258, "step": 13490 }, { "epoch": 0.6426190476190476, "grad_norm": 0.4124273657798767, "learning_rate": 5.008666666666667e-06, "loss": 0.1931, "step": 13495 }, { "epoch": 0.6428571428571429, "grad_norm": 0.42408448457717896, "learning_rate": 5.005333333333334e-06, "loss": 0.259, "step": 13500 }, { "epoch": 0.643095238095238, "grad_norm": 0.4281538128852844, "learning_rate": 5.002e-06, "loss": 0.2051, "step": 13505 }, { "epoch": 0.6433333333333333, "grad_norm": 0.39862823486328125, "learning_rate": 4.998666666666667e-06, "loss": 0.2015, "step": 13510 }, { "epoch": 0.6435714285714286, "grad_norm": 0.3865240514278412, "learning_rate": 4.995333333333333e-06, "loss": 0.2043, "step": 13515 }, { "epoch": 0.6438095238095238, "grad_norm": 0.4031369090080261, "learning_rate": 4.992000000000001e-06, "loss": 0.2536, "step": 13520 }, { "epoch": 0.6440476190476191, "grad_norm": 0.4098736047744751, "learning_rate": 4.988666666666667e-06, "loss": 0.2179, "step": 13525 }, { "epoch": 0.6442857142857142, "grad_norm": 0.45398184657096863, "learning_rate": 4.985333333333333e-06, "loss": 0.222, "step": 13530 }, { "epoch": 0.6445238095238095, "grad_norm": 0.5650374293327332, "learning_rate": 4.982e-06, "loss": 0.28, "step": 13535 }, { "epoch": 0.6447619047619048, "grad_norm": 0.4738524854183197, "learning_rate": 4.978666666666667e-06, "loss": 0.2244, "step": 13540 }, { "epoch": 0.645, "grad_norm": 0.34562328457832336, "learning_rate": 4.975333333333334e-06, "loss": 0.1752, "step": 13545 }, { "epoch": 0.6452380952380953, "grad_norm": 0.41482388973236084, "learning_rate": 4.972e-06, "loss": 0.2607, "step": 13550 }, { "epoch": 0.6454761904761904, "grad_norm": 0.3260880410671234, "learning_rate": 4.968666666666666e-06, "loss": 0.1954, "step": 13555 }, { "epoch": 0.6457142857142857, "grad_norm": 0.45911675691604614, "learning_rate": 4.965333333333333e-06, "loss": 0.2281, "step": 13560 }, { "epoch": 0.645952380952381, "grad_norm": 0.45852258801460266, "learning_rate": 4.962e-06, "loss": 0.2326, "step": 13565 }, { "epoch": 0.6461904761904762, "grad_norm": 0.43358972668647766, "learning_rate": 4.958666666666666e-06, "loss": 0.2002, "step": 13570 }, { "epoch": 0.6464285714285715, "grad_norm": 0.4206726551055908, "learning_rate": 4.955333333333333e-06, "loss": 0.2574, "step": 13575 }, { "epoch": 0.6466666666666666, "grad_norm": 0.4624846577644348, "learning_rate": 4.952e-06, "loss": 0.2539, "step": 13580 }, { "epoch": 0.6469047619047619, "grad_norm": 0.5034591555595398, "learning_rate": 4.948666666666667e-06, "loss": 0.2037, "step": 13585 }, { "epoch": 0.6471428571428571, "grad_norm": 0.4218198359012604, "learning_rate": 4.945333333333333e-06, "loss": 0.2318, "step": 13590 }, { "epoch": 0.6473809523809524, "grad_norm": 0.45443421602249146, "learning_rate": 4.9419999999999994e-06, "loss": 0.2291, "step": 13595 }, { "epoch": 0.6476190476190476, "grad_norm": 0.48009341955184937, "learning_rate": 4.938666666666666e-06, "loss": 0.2759, "step": 13600 }, { "epoch": 0.6478571428571429, "grad_norm": 0.44937121868133545, "learning_rate": 4.935333333333333e-06, "loss": 0.2062, "step": 13605 }, { "epoch": 0.6480952380952381, "grad_norm": 0.38689056038856506, "learning_rate": 4.932e-06, "loss": 0.227, "step": 13610 }, { "epoch": 0.6483333333333333, "grad_norm": 0.4908216893672943, "learning_rate": 4.9286666666666665e-06, "loss": 0.22, "step": 13615 }, { "epoch": 0.6485714285714286, "grad_norm": 0.5021891593933105, "learning_rate": 4.925333333333333e-06, "loss": 0.1907, "step": 13620 }, { "epoch": 0.6488095238095238, "grad_norm": 0.3745562434196472, "learning_rate": 4.9220000000000005e-06, "loss": 0.1939, "step": 13625 }, { "epoch": 0.6490476190476191, "grad_norm": 0.39200422167778015, "learning_rate": 4.918666666666667e-06, "loss": 0.2124, "step": 13630 }, { "epoch": 0.6492857142857142, "grad_norm": 0.4918595850467682, "learning_rate": 4.915333333333333e-06, "loss": 0.2065, "step": 13635 }, { "epoch": 0.6495238095238095, "grad_norm": 0.5292879343032837, "learning_rate": 4.912e-06, "loss": 0.2008, "step": 13640 }, { "epoch": 0.6497619047619048, "grad_norm": 0.3681356608867645, "learning_rate": 4.908666666666667e-06, "loss": 0.2133, "step": 13645 }, { "epoch": 0.65, "grad_norm": 0.4364810585975647, "learning_rate": 4.905333333333334e-06, "loss": 0.2245, "step": 13650 }, { "epoch": 0.6502380952380953, "grad_norm": 0.4785551130771637, "learning_rate": 4.902e-06, "loss": 0.268, "step": 13655 }, { "epoch": 0.6504761904761904, "grad_norm": 0.4621475338935852, "learning_rate": 4.898666666666666e-06, "loss": 0.1927, "step": 13660 }, { "epoch": 0.6507142857142857, "grad_norm": 0.3837783634662628, "learning_rate": 4.895333333333334e-06, "loss": 0.197, "step": 13665 }, { "epoch": 0.650952380952381, "grad_norm": 0.4644428491592407, "learning_rate": 4.892e-06, "loss": 0.2172, "step": 13670 }, { "epoch": 0.6511904761904762, "grad_norm": 0.3961948752403259, "learning_rate": 4.888666666666667e-06, "loss": 0.2142, "step": 13675 }, { "epoch": 0.6514285714285715, "grad_norm": 0.36216533184051514, "learning_rate": 4.885333333333333e-06, "loss": 0.212, "step": 13680 }, { "epoch": 0.6516666666666666, "grad_norm": 0.35898128151893616, "learning_rate": 4.882e-06, "loss": 0.2262, "step": 13685 }, { "epoch": 0.6519047619047619, "grad_norm": 0.38250377774238586, "learning_rate": 4.878666666666667e-06, "loss": 0.184, "step": 13690 }, { "epoch": 0.6521428571428571, "grad_norm": 0.4198776185512543, "learning_rate": 4.875333333333333e-06, "loss": 0.245, "step": 13695 }, { "epoch": 0.6523809523809524, "grad_norm": 0.6333735585212708, "learning_rate": 4.871999999999999e-06, "loss": 0.2795, "step": 13700 }, { "epoch": 0.6526190476190477, "grad_norm": 0.4159187376499176, "learning_rate": 4.868666666666667e-06, "loss": 0.2038, "step": 13705 }, { "epoch": 0.6528571428571428, "grad_norm": 0.363955557346344, "learning_rate": 4.865333333333333e-06, "loss": 0.196, "step": 13710 }, { "epoch": 0.6530952380952381, "grad_norm": 0.4506389796733856, "learning_rate": 4.862e-06, "loss": 0.2652, "step": 13715 }, { "epoch": 0.6533333333333333, "grad_norm": 0.45831793546676636, "learning_rate": 4.858666666666666e-06, "loss": 0.2459, "step": 13720 }, { "epoch": 0.6535714285714286, "grad_norm": 0.4519454836845398, "learning_rate": 4.855333333333333e-06, "loss": 0.2391, "step": 13725 }, { "epoch": 0.6538095238095238, "grad_norm": 0.3869082033634186, "learning_rate": 4.852e-06, "loss": 0.195, "step": 13730 }, { "epoch": 0.6540476190476191, "grad_norm": 0.5155227184295654, "learning_rate": 4.8486666666666664e-06, "loss": 0.234, "step": 13735 }, { "epoch": 0.6542857142857142, "grad_norm": 0.4211871325969696, "learning_rate": 4.845333333333333e-06, "loss": 0.233, "step": 13740 }, { "epoch": 0.6545238095238095, "grad_norm": 0.4675898849964142, "learning_rate": 4.842e-06, "loss": 0.216, "step": 13745 }, { "epoch": 0.6547619047619048, "grad_norm": 0.40961596369743347, "learning_rate": 4.8386666666666665e-06, "loss": 0.236, "step": 13750 }, { "epoch": 0.655, "grad_norm": 0.4213740825653076, "learning_rate": 4.8353333333333335e-06, "loss": 0.215, "step": 13755 }, { "epoch": 0.6552380952380953, "grad_norm": 0.5255340337753296, "learning_rate": 4.832e-06, "loss": 0.2281, "step": 13760 }, { "epoch": 0.6554761904761904, "grad_norm": 0.38518083095550537, "learning_rate": 4.828666666666667e-06, "loss": 0.2306, "step": 13765 }, { "epoch": 0.6557142857142857, "grad_norm": 0.4814915060997009, "learning_rate": 4.825333333333334e-06, "loss": 0.2319, "step": 13770 }, { "epoch": 0.655952380952381, "grad_norm": 0.38893264532089233, "learning_rate": 4.822e-06, "loss": 0.2713, "step": 13775 }, { "epoch": 0.6561904761904762, "grad_norm": 0.3419346809387207, "learning_rate": 4.818666666666667e-06, "loss": 0.2051, "step": 13780 }, { "epoch": 0.6564285714285715, "grad_norm": 0.4501728415489197, "learning_rate": 4.815333333333334e-06, "loss": 0.223, "step": 13785 }, { "epoch": 0.6566666666666666, "grad_norm": 0.5183292031288147, "learning_rate": 4.812e-06, "loss": 0.1977, "step": 13790 }, { "epoch": 0.6569047619047619, "grad_norm": 0.3528849482536316, "learning_rate": 4.808666666666667e-06, "loss": 0.1861, "step": 13795 }, { "epoch": 0.6571428571428571, "grad_norm": 0.41313812136650085, "learning_rate": 4.805333333333333e-06, "loss": 0.212, "step": 13800 }, { "epoch": 0.6573809523809524, "grad_norm": 0.4655252993106842, "learning_rate": 4.802e-06, "loss": 0.2023, "step": 13805 }, { "epoch": 0.6576190476190477, "grad_norm": 0.43282032012939453, "learning_rate": 4.798666666666667e-06, "loss": 0.2067, "step": 13810 }, { "epoch": 0.6578571428571428, "grad_norm": 0.4260134696960449, "learning_rate": 4.795333333333333e-06, "loss": 0.181, "step": 13815 }, { "epoch": 0.6580952380952381, "grad_norm": 0.40783923864364624, "learning_rate": 4.792e-06, "loss": 0.2503, "step": 13820 }, { "epoch": 0.6583333333333333, "grad_norm": 0.4163321852684021, "learning_rate": 4.788666666666666e-06, "loss": 0.2323, "step": 13825 }, { "epoch": 0.6585714285714286, "grad_norm": 0.3445439040660858, "learning_rate": 4.785333333333333e-06, "loss": 0.1964, "step": 13830 }, { "epoch": 0.6588095238095238, "grad_norm": 0.4785470962524414, "learning_rate": 4.782e-06, "loss": 0.1975, "step": 13835 }, { "epoch": 0.659047619047619, "grad_norm": 0.5617238283157349, "learning_rate": 4.778666666666666e-06, "loss": 0.2463, "step": 13840 }, { "epoch": 0.6592857142857143, "grad_norm": 0.3866927921772003, "learning_rate": 4.775333333333333e-06, "loss": 0.1675, "step": 13845 }, { "epoch": 0.6595238095238095, "grad_norm": 0.42791715264320374, "learning_rate": 4.772e-06, "loss": 0.2436, "step": 13850 }, { "epoch": 0.6597619047619048, "grad_norm": 0.5167810916900635, "learning_rate": 4.768666666666666e-06, "loss": 0.2407, "step": 13855 }, { "epoch": 0.66, "grad_norm": 0.8040683269500732, "learning_rate": 4.765333333333333e-06, "loss": 0.2152, "step": 13860 }, { "epoch": 0.6602380952380953, "grad_norm": 0.39843642711639404, "learning_rate": 4.7619999999999995e-06, "loss": 0.2148, "step": 13865 }, { "epoch": 0.6604761904761904, "grad_norm": 0.41685283184051514, "learning_rate": 4.758666666666667e-06, "loss": 0.215, "step": 13870 }, { "epoch": 0.6607142857142857, "grad_norm": 0.5245804786682129, "learning_rate": 4.7553333333333334e-06, "loss": 0.2399, "step": 13875 }, { "epoch": 0.660952380952381, "grad_norm": 0.3754281997680664, "learning_rate": 4.7519999999999996e-06, "loss": 0.1803, "step": 13880 }, { "epoch": 0.6611904761904762, "grad_norm": 0.3631112277507782, "learning_rate": 4.7486666666666665e-06, "loss": 0.1956, "step": 13885 }, { "epoch": 0.6614285714285715, "grad_norm": 0.462066113948822, "learning_rate": 4.7453333333333335e-06, "loss": 0.1932, "step": 13890 }, { "epoch": 0.6616666666666666, "grad_norm": 0.3491683602333069, "learning_rate": 4.742e-06, "loss": 0.1832, "step": 13895 }, { "epoch": 0.6619047619047619, "grad_norm": 0.4592139422893524, "learning_rate": 4.738666666666667e-06, "loss": 0.2611, "step": 13900 }, { "epoch": 0.6621428571428571, "grad_norm": 0.4413967728614807, "learning_rate": 4.735333333333333e-06, "loss": 0.2305, "step": 13905 }, { "epoch": 0.6623809523809524, "grad_norm": 0.6222310066223145, "learning_rate": 4.732000000000001e-06, "loss": 0.1935, "step": 13910 }, { "epoch": 0.6626190476190477, "grad_norm": 0.40320640802383423, "learning_rate": 4.728666666666667e-06, "loss": 0.2543, "step": 13915 }, { "epoch": 0.6628571428571428, "grad_norm": 0.4990101754665375, "learning_rate": 4.725333333333333e-06, "loss": 0.2591, "step": 13920 }, { "epoch": 0.6630952380952381, "grad_norm": 0.4757625460624695, "learning_rate": 4.722e-06, "loss": 0.2533, "step": 13925 }, { "epoch": 0.6633333333333333, "grad_norm": 0.8780961036682129, "learning_rate": 4.718666666666667e-06, "loss": 0.2662, "step": 13930 }, { "epoch": 0.6635714285714286, "grad_norm": 0.3843138813972473, "learning_rate": 4.715333333333334e-06, "loss": 0.2333, "step": 13935 }, { "epoch": 0.6638095238095238, "grad_norm": 0.43149372935295105, "learning_rate": 4.712e-06, "loss": 0.2634, "step": 13940 }, { "epoch": 0.664047619047619, "grad_norm": 0.4451185166835785, "learning_rate": 4.708666666666666e-06, "loss": 0.1856, "step": 13945 }, { "epoch": 0.6642857142857143, "grad_norm": 0.4187389016151428, "learning_rate": 4.705333333333334e-06, "loss": 0.239, "step": 13950 }, { "epoch": 0.6645238095238095, "grad_norm": 0.463609904050827, "learning_rate": 4.702e-06, "loss": 0.2193, "step": 13955 }, { "epoch": 0.6647619047619048, "grad_norm": 0.5373300313949585, "learning_rate": 4.698666666666666e-06, "loss": 0.2294, "step": 13960 }, { "epoch": 0.665, "grad_norm": 0.7347729206085205, "learning_rate": 4.695333333333333e-06, "loss": 0.2141, "step": 13965 }, { "epoch": 0.6652380952380952, "grad_norm": 0.48270943760871887, "learning_rate": 4.692e-06, "loss": 0.2279, "step": 13970 }, { "epoch": 0.6654761904761904, "grad_norm": 0.4704431891441345, "learning_rate": 4.688666666666667e-06, "loss": 0.2112, "step": 13975 }, { "epoch": 0.6657142857142857, "grad_norm": 0.4126415252685547, "learning_rate": 4.685333333333333e-06, "loss": 0.2164, "step": 13980 }, { "epoch": 0.665952380952381, "grad_norm": 0.5196294784545898, "learning_rate": 4.681999999999999e-06, "loss": 0.2033, "step": 13985 }, { "epoch": 0.6661904761904762, "grad_norm": 0.512214720249176, "learning_rate": 4.678666666666666e-06, "loss": 0.2209, "step": 13990 }, { "epoch": 0.6664285714285715, "grad_norm": 0.4589884281158447, "learning_rate": 4.675333333333333e-06, "loss": 0.2376, "step": 13995 }, { "epoch": 0.6666666666666666, "grad_norm": 0.44512155652046204, "learning_rate": 4.672e-06, "loss": 0.216, "step": 14000 }, { "epoch": 0.6669047619047619, "grad_norm": 0.466653048992157, "learning_rate": 4.6686666666666665e-06, "loss": 0.2304, "step": 14005 }, { "epoch": 0.6671428571428571, "grad_norm": 0.4180714190006256, "learning_rate": 4.6653333333333334e-06, "loss": 0.2034, "step": 14010 }, { "epoch": 0.6673809523809524, "grad_norm": 0.5349952578544617, "learning_rate": 4.6620000000000004e-06, "loss": 0.2369, "step": 14015 }, { "epoch": 0.6676190476190477, "grad_norm": 0.9566793441772461, "learning_rate": 4.6586666666666666e-06, "loss": 0.248, "step": 14020 }, { "epoch": 0.6678571428571428, "grad_norm": 0.4542728662490845, "learning_rate": 4.655333333333333e-06, "loss": 0.2267, "step": 14025 }, { "epoch": 0.6680952380952381, "grad_norm": 0.4589456021785736, "learning_rate": 4.652e-06, "loss": 0.2079, "step": 14030 }, { "epoch": 0.6683333333333333, "grad_norm": 0.3851829171180725, "learning_rate": 4.648666666666667e-06, "loss": 0.3044, "step": 14035 }, { "epoch": 0.6685714285714286, "grad_norm": 0.4221756160259247, "learning_rate": 4.645333333333334e-06, "loss": 0.2126, "step": 14040 }, { "epoch": 0.6688095238095239, "grad_norm": 0.4824708104133606, "learning_rate": 4.642e-06, "loss": 0.2066, "step": 14045 }, { "epoch": 0.669047619047619, "grad_norm": 0.4987892806529999, "learning_rate": 4.638666666666666e-06, "loss": 0.2288, "step": 14050 }, { "epoch": 0.6692857142857143, "grad_norm": 0.3733910024166107, "learning_rate": 4.635333333333334e-06, "loss": 0.1997, "step": 14055 }, { "epoch": 0.6695238095238095, "grad_norm": 0.422027587890625, "learning_rate": 4.632e-06, "loss": 0.1992, "step": 14060 }, { "epoch": 0.6697619047619048, "grad_norm": 0.4787439703941345, "learning_rate": 4.628666666666667e-06, "loss": 0.2189, "step": 14065 }, { "epoch": 0.67, "grad_norm": 0.5847499370574951, "learning_rate": 4.625333333333333e-06, "loss": 0.2441, "step": 14070 }, { "epoch": 0.6702380952380952, "grad_norm": 0.41441941261291504, "learning_rate": 4.622e-06, "loss": 0.2072, "step": 14075 }, { "epoch": 0.6704761904761904, "grad_norm": 0.4911990761756897, "learning_rate": 4.618666666666667e-06, "loss": 0.2132, "step": 14080 }, { "epoch": 0.6707142857142857, "grad_norm": 0.4141455590724945, "learning_rate": 4.615333333333333e-06, "loss": 0.178, "step": 14085 }, { "epoch": 0.670952380952381, "grad_norm": 0.47611457109451294, "learning_rate": 4.611999999999999e-06, "loss": 0.2477, "step": 14090 }, { "epoch": 0.6711904761904762, "grad_norm": 0.46729928255081177, "learning_rate": 4.608666666666667e-06, "loss": 0.2109, "step": 14095 }, { "epoch": 0.6714285714285714, "grad_norm": 0.39547714591026306, "learning_rate": 4.605333333333333e-06, "loss": 0.196, "step": 14100 }, { "epoch": 0.6716666666666666, "grad_norm": 0.44172853231430054, "learning_rate": 4.602e-06, "loss": 0.2438, "step": 14105 }, { "epoch": 0.6719047619047619, "grad_norm": 0.4338770806789398, "learning_rate": 4.598666666666666e-06, "loss": 0.2374, "step": 14110 }, { "epoch": 0.6721428571428572, "grad_norm": 0.4193992614746094, "learning_rate": 4.595333333333333e-06, "loss": 0.2717, "step": 14115 }, { "epoch": 0.6723809523809524, "grad_norm": 0.3483004570007324, "learning_rate": 4.592e-06, "loss": 0.179, "step": 14120 }, { "epoch": 0.6726190476190477, "grad_norm": 0.4130292534828186, "learning_rate": 4.588666666666666e-06, "loss": 0.1826, "step": 14125 }, { "epoch": 0.6728571428571428, "grad_norm": 0.4089255928993225, "learning_rate": 4.585333333333333e-06, "loss": 0.2431, "step": 14130 }, { "epoch": 0.6730952380952381, "grad_norm": 0.4488357603549957, "learning_rate": 4.582e-06, "loss": 0.2251, "step": 14135 }, { "epoch": 0.6733333333333333, "grad_norm": 0.34349411725997925, "learning_rate": 4.5786666666666665e-06, "loss": 0.1978, "step": 14140 }, { "epoch": 0.6735714285714286, "grad_norm": 0.522714376449585, "learning_rate": 4.5753333333333335e-06, "loss": 0.2038, "step": 14145 }, { "epoch": 0.6738095238095239, "grad_norm": 0.3720758259296417, "learning_rate": 4.572e-06, "loss": 0.2298, "step": 14150 }, { "epoch": 0.674047619047619, "grad_norm": 0.3732881247997284, "learning_rate": 4.5686666666666666e-06, "loss": 0.2919, "step": 14155 }, { "epoch": 0.6742857142857143, "grad_norm": 0.49881139397621155, "learning_rate": 4.5653333333333336e-06, "loss": 0.1999, "step": 14160 }, { "epoch": 0.6745238095238095, "grad_norm": 0.40235134959220886, "learning_rate": 4.562e-06, "loss": 0.1958, "step": 14165 }, { "epoch": 0.6747619047619048, "grad_norm": 0.4040507376194, "learning_rate": 4.558666666666667e-06, "loss": 0.1854, "step": 14170 }, { "epoch": 0.675, "grad_norm": 0.33881330490112305, "learning_rate": 4.555333333333334e-06, "loss": 0.1755, "step": 14175 }, { "epoch": 0.6752380952380952, "grad_norm": 0.3931654393672943, "learning_rate": 4.552e-06, "loss": 0.2728, "step": 14180 }, { "epoch": 0.6754761904761905, "grad_norm": 0.37784305214881897, "learning_rate": 4.548666666666667e-06, "loss": 0.1853, "step": 14185 }, { "epoch": 0.6757142857142857, "grad_norm": 0.4194713830947876, "learning_rate": 4.545333333333333e-06, "loss": 0.2054, "step": 14190 }, { "epoch": 0.675952380952381, "grad_norm": 0.4653538167476654, "learning_rate": 4.542e-06, "loss": 0.2169, "step": 14195 }, { "epoch": 0.6761904761904762, "grad_norm": 0.4820994436740875, "learning_rate": 4.538666666666667e-06, "loss": 0.248, "step": 14200 }, { "epoch": 0.6764285714285714, "grad_norm": 0.3323405981063843, "learning_rate": 4.535333333333333e-06, "loss": 0.2312, "step": 14205 }, { "epoch": 0.6766666666666666, "grad_norm": 0.3092709481716156, "learning_rate": 4.532e-06, "loss": 0.1749, "step": 14210 }, { "epoch": 0.6769047619047619, "grad_norm": 0.4116610586643219, "learning_rate": 4.528666666666667e-06, "loss": 0.2539, "step": 14215 }, { "epoch": 0.6771428571428572, "grad_norm": 0.4758487641811371, "learning_rate": 4.525333333333333e-06, "loss": 0.1979, "step": 14220 }, { "epoch": 0.6773809523809524, "grad_norm": 0.5521776080131531, "learning_rate": 4.522e-06, "loss": 0.2448, "step": 14225 }, { "epoch": 0.6776190476190476, "grad_norm": 0.41003239154815674, "learning_rate": 4.518666666666666e-06, "loss": 0.2149, "step": 14230 }, { "epoch": 0.6778571428571428, "grad_norm": 0.3393935263156891, "learning_rate": 4.515333333333333e-06, "loss": 0.2162, "step": 14235 }, { "epoch": 0.6780952380952381, "grad_norm": 0.49108338356018066, "learning_rate": 4.512e-06, "loss": 0.1905, "step": 14240 }, { "epoch": 0.6783333333333333, "grad_norm": 0.34392139315605164, "learning_rate": 4.508666666666666e-06, "loss": 0.1786, "step": 14245 }, { "epoch": 0.6785714285714286, "grad_norm": 0.48132866621017456, "learning_rate": 4.505333333333333e-06, "loss": 0.2879, "step": 14250 }, { "epoch": 0.6788095238095239, "grad_norm": 0.40572822093963623, "learning_rate": 4.501999999999999e-06, "loss": 0.2271, "step": 14255 }, { "epoch": 0.679047619047619, "grad_norm": 0.68360835313797, "learning_rate": 4.498666666666667e-06, "loss": 0.2224, "step": 14260 }, { "epoch": 0.6792857142857143, "grad_norm": 0.34222784638404846, "learning_rate": 4.495333333333333e-06, "loss": 0.23, "step": 14265 }, { "epoch": 0.6795238095238095, "grad_norm": 0.376842200756073, "learning_rate": 4.4919999999999995e-06, "loss": 0.2086, "step": 14270 }, { "epoch": 0.6797619047619048, "grad_norm": 0.39825090765953064, "learning_rate": 4.4886666666666665e-06, "loss": 0.1885, "step": 14275 }, { "epoch": 0.68, "grad_norm": 0.4271259903907776, "learning_rate": 4.4853333333333335e-06, "loss": 0.1897, "step": 14280 }, { "epoch": 0.6802380952380952, "grad_norm": 0.43042871356010437, "learning_rate": 4.482e-06, "loss": 0.1986, "step": 14285 }, { "epoch": 0.6804761904761905, "grad_norm": 0.4849569499492645, "learning_rate": 4.478666666666667e-06, "loss": 0.2129, "step": 14290 }, { "epoch": 0.6807142857142857, "grad_norm": 0.37655654549598694, "learning_rate": 4.475333333333333e-06, "loss": 0.2263, "step": 14295 }, { "epoch": 0.680952380952381, "grad_norm": 0.43440595269203186, "learning_rate": 4.4720000000000006e-06, "loss": 0.1997, "step": 14300 }, { "epoch": 0.6811904761904762, "grad_norm": 0.5097708702087402, "learning_rate": 4.468666666666667e-06, "loss": 0.1935, "step": 14305 }, { "epoch": 0.6814285714285714, "grad_norm": 0.40570318698883057, "learning_rate": 4.465333333333333e-06, "loss": 0.2175, "step": 14310 }, { "epoch": 0.6816666666666666, "grad_norm": 0.5144462585449219, "learning_rate": 4.462e-06, "loss": 0.2379, "step": 14315 }, { "epoch": 0.6819047619047619, "grad_norm": 0.4182751178741455, "learning_rate": 4.458666666666667e-06, "loss": 0.2286, "step": 14320 }, { "epoch": 0.6821428571428572, "grad_norm": 0.4572177529335022, "learning_rate": 4.455333333333334e-06, "loss": 0.2047, "step": 14325 }, { "epoch": 0.6823809523809524, "grad_norm": 0.4249534010887146, "learning_rate": 4.452e-06, "loss": 0.1922, "step": 14330 }, { "epoch": 0.6826190476190476, "grad_norm": 0.5468404293060303, "learning_rate": 4.448666666666666e-06, "loss": 0.2443, "step": 14335 }, { "epoch": 0.6828571428571428, "grad_norm": 0.46051666140556335, "learning_rate": 4.445333333333334e-06, "loss": 0.2156, "step": 14340 }, { "epoch": 0.6830952380952381, "grad_norm": 0.3920932114124298, "learning_rate": 4.442e-06, "loss": 0.1994, "step": 14345 }, { "epoch": 0.6833333333333333, "grad_norm": 0.4363623857498169, "learning_rate": 4.438666666666666e-06, "loss": 0.198, "step": 14350 }, { "epoch": 0.6835714285714286, "grad_norm": 0.5707138180732727, "learning_rate": 4.435333333333333e-06, "loss": 0.2133, "step": 14355 }, { "epoch": 0.6838095238095238, "grad_norm": 0.4240073263645172, "learning_rate": 4.432e-06, "loss": 0.2339, "step": 14360 }, { "epoch": 0.684047619047619, "grad_norm": 0.3975883722305298, "learning_rate": 4.428666666666667e-06, "loss": 0.1955, "step": 14365 }, { "epoch": 0.6842857142857143, "grad_norm": 0.35019397735595703, "learning_rate": 4.425333333333333e-06, "loss": 0.1971, "step": 14370 }, { "epoch": 0.6845238095238095, "grad_norm": 0.4923059344291687, "learning_rate": 4.421999999999999e-06, "loss": 0.1954, "step": 14375 }, { "epoch": 0.6847619047619048, "grad_norm": 0.4197653830051422, "learning_rate": 4.418666666666667e-06, "loss": 0.1795, "step": 14380 }, { "epoch": 0.685, "grad_norm": 0.4286963641643524, "learning_rate": 4.415333333333333e-06, "loss": 0.2033, "step": 14385 }, { "epoch": 0.6852380952380952, "grad_norm": 0.36918193101882935, "learning_rate": 4.412e-06, "loss": 0.177, "step": 14390 }, { "epoch": 0.6854761904761905, "grad_norm": 0.502606987953186, "learning_rate": 4.408666666666666e-06, "loss": 0.2174, "step": 14395 }, { "epoch": 0.6857142857142857, "grad_norm": 0.535406768321991, "learning_rate": 4.405333333333333e-06, "loss": 0.2368, "step": 14400 }, { "epoch": 0.685952380952381, "grad_norm": 0.4550551176071167, "learning_rate": 4.402e-06, "loss": 0.2491, "step": 14405 }, { "epoch": 0.6861904761904762, "grad_norm": 0.4964366853237152, "learning_rate": 4.3986666666666665e-06, "loss": 0.214, "step": 14410 }, { "epoch": 0.6864285714285714, "grad_norm": 0.45024991035461426, "learning_rate": 4.395333333333333e-06, "loss": 0.2155, "step": 14415 }, { "epoch": 0.6866666666666666, "grad_norm": 0.44572100043296814, "learning_rate": 4.3920000000000005e-06, "loss": 0.2304, "step": 14420 }, { "epoch": 0.6869047619047619, "grad_norm": 0.3635247051715851, "learning_rate": 4.388666666666667e-06, "loss": 0.2328, "step": 14425 }, { "epoch": 0.6871428571428572, "grad_norm": 0.1922232061624527, "learning_rate": 4.385333333333334e-06, "loss": 0.2076, "step": 14430 }, { "epoch": 0.6873809523809524, "grad_norm": 0.4325634837150574, "learning_rate": 4.382e-06, "loss": 0.2389, "step": 14435 }, { "epoch": 0.6876190476190476, "grad_norm": 0.46200937032699585, "learning_rate": 4.378666666666667e-06, "loss": 0.1979, "step": 14440 }, { "epoch": 0.6878571428571428, "grad_norm": 0.4487738013267517, "learning_rate": 4.375333333333334e-06, "loss": 0.2441, "step": 14445 }, { "epoch": 0.6880952380952381, "grad_norm": 0.3890345096588135, "learning_rate": 4.372e-06, "loss": 0.2101, "step": 14450 }, { "epoch": 0.6883333333333334, "grad_norm": 0.4503665566444397, "learning_rate": 4.368666666666667e-06, "loss": 0.2115, "step": 14455 }, { "epoch": 0.6885714285714286, "grad_norm": 0.47128450870513916, "learning_rate": 4.365333333333333e-06, "loss": 0.2355, "step": 14460 }, { "epoch": 0.6888095238095238, "grad_norm": 0.44754084944725037, "learning_rate": 4.362e-06, "loss": 0.2026, "step": 14465 }, { "epoch": 0.689047619047619, "grad_norm": 0.36984777450561523, "learning_rate": 4.358666666666667e-06, "loss": 0.1961, "step": 14470 }, { "epoch": 0.6892857142857143, "grad_norm": 0.48591530323028564, "learning_rate": 4.355333333333333e-06, "loss": 0.2471, "step": 14475 }, { "epoch": 0.6895238095238095, "grad_norm": 0.4004479944705963, "learning_rate": 4.351999999999999e-06, "loss": 0.2039, "step": 14480 }, { "epoch": 0.6897619047619048, "grad_norm": 0.3970286548137665, "learning_rate": 4.348666666666667e-06, "loss": 0.218, "step": 14485 }, { "epoch": 0.69, "grad_norm": 0.3021405041217804, "learning_rate": 4.345333333333333e-06, "loss": 0.1767, "step": 14490 }, { "epoch": 0.6902380952380952, "grad_norm": 0.6171738505363464, "learning_rate": 4.342e-06, "loss": 0.2601, "step": 14495 }, { "epoch": 0.6904761904761905, "grad_norm": 0.5187668204307556, "learning_rate": 4.338666666666666e-06, "loss": 0.226, "step": 14500 }, { "epoch": 0.6907142857142857, "grad_norm": 0.37547847628593445, "learning_rate": 4.335333333333333e-06, "loss": 0.216, "step": 14505 }, { "epoch": 0.690952380952381, "grad_norm": 0.38744398951530457, "learning_rate": 4.332e-06, "loss": 0.1981, "step": 14510 }, { "epoch": 0.6911904761904762, "grad_norm": 0.4759737253189087, "learning_rate": 4.328666666666666e-06, "loss": 0.2397, "step": 14515 }, { "epoch": 0.6914285714285714, "grad_norm": 0.1711234152317047, "learning_rate": 4.325333333333333e-06, "loss": 0.246, "step": 14520 }, { "epoch": 0.6916666666666667, "grad_norm": NaN, "learning_rate": 4.322666666666666e-06, "loss": 0.231, "step": 14525 }, { "epoch": 0.6919047619047619, "grad_norm": 0.43913763761520386, "learning_rate": 4.319333333333334e-06, "loss": 0.2605, "step": 14530 }, { "epoch": 0.6921428571428572, "grad_norm": 0.3548945188522339, "learning_rate": 4.316e-06, "loss": 0.1881, "step": 14535 }, { "epoch": 0.6923809523809524, "grad_norm": 0.4192061126232147, "learning_rate": 4.312666666666667e-06, "loss": 0.2298, "step": 14540 }, { "epoch": 0.6926190476190476, "grad_norm": 0.4212212562561035, "learning_rate": 4.309333333333333e-06, "loss": 0.191, "step": 14545 }, { "epoch": 0.6928571428571428, "grad_norm": 0.4815080165863037, "learning_rate": 4.306e-06, "loss": 0.1695, "step": 14550 }, { "epoch": 0.6930952380952381, "grad_norm": 0.41339781880378723, "learning_rate": 4.302666666666667e-06, "loss": 0.228, "step": 14555 }, { "epoch": 0.6933333333333334, "grad_norm": 0.5276908874511719, "learning_rate": 4.299333333333333e-06, "loss": 0.2073, "step": 14560 }, { "epoch": 0.6935714285714286, "grad_norm": 0.4078224003314972, "learning_rate": 4.296e-06, "loss": 0.1885, "step": 14565 }, { "epoch": 0.6938095238095238, "grad_norm": 0.5526246428489685, "learning_rate": 4.292666666666667e-06, "loss": 0.2052, "step": 14570 }, { "epoch": 0.694047619047619, "grad_norm": 0.45231881737709045, "learning_rate": 4.289333333333333e-06, "loss": 0.2401, "step": 14575 }, { "epoch": 0.6942857142857143, "grad_norm": 0.4255249500274658, "learning_rate": 4.286e-06, "loss": 0.2192, "step": 14580 }, { "epoch": 0.6945238095238095, "grad_norm": 0.4946941137313843, "learning_rate": 4.282666666666666e-06, "loss": 0.272, "step": 14585 }, { "epoch": 0.6947619047619048, "grad_norm": 0.44354113936424255, "learning_rate": 4.279333333333333e-06, "loss": 0.2554, "step": 14590 }, { "epoch": 0.695, "grad_norm": 0.41175830364227295, "learning_rate": 4.276e-06, "loss": 0.2165, "step": 14595 }, { "epoch": 0.6952380952380952, "grad_norm": 0.4037407338619232, "learning_rate": 4.272666666666666e-06, "loss": 0.2514, "step": 14600 }, { "epoch": 0.6954761904761905, "grad_norm": 0.48248690366744995, "learning_rate": 4.269333333333333e-06, "loss": 0.2291, "step": 14605 }, { "epoch": 0.6957142857142857, "grad_norm": 0.4795756936073303, "learning_rate": 4.266e-06, "loss": 0.2126, "step": 14610 }, { "epoch": 0.695952380952381, "grad_norm": 0.3888694941997528, "learning_rate": 4.2626666666666665e-06, "loss": 0.177, "step": 14615 }, { "epoch": 0.6961904761904761, "grad_norm": 0.4524593949317932, "learning_rate": 4.2593333333333334e-06, "loss": 0.2385, "step": 14620 }, { "epoch": 0.6964285714285714, "grad_norm": 0.420828640460968, "learning_rate": 4.2559999999999996e-06, "loss": 0.2221, "step": 14625 }, { "epoch": 0.6966666666666667, "grad_norm": 0.49154984951019287, "learning_rate": 4.252666666666667e-06, "loss": 0.2194, "step": 14630 }, { "epoch": 0.6969047619047619, "grad_norm": 0.43708816170692444, "learning_rate": 4.2493333333333335e-06, "loss": 0.1814, "step": 14635 }, { "epoch": 0.6971428571428572, "grad_norm": 0.4155837595462799, "learning_rate": 4.246e-06, "loss": 0.2219, "step": 14640 }, { "epoch": 0.6973809523809524, "grad_norm": 0.41590920090675354, "learning_rate": 4.242666666666667e-06, "loss": 0.2104, "step": 14645 }, { "epoch": 0.6976190476190476, "grad_norm": 0.3950536847114563, "learning_rate": 4.239333333333334e-06, "loss": 0.1944, "step": 14650 }, { "epoch": 0.6978571428571428, "grad_norm": 0.5376114845275879, "learning_rate": 4.236e-06, "loss": 0.2089, "step": 14655 }, { "epoch": 0.6980952380952381, "grad_norm": 0.43225154280662537, "learning_rate": 4.232666666666667e-06, "loss": 0.2184, "step": 14660 }, { "epoch": 0.6983333333333334, "grad_norm": 0.5474380850791931, "learning_rate": 4.229333333333333e-06, "loss": 0.1979, "step": 14665 }, { "epoch": 0.6985714285714286, "grad_norm": 0.4827902019023895, "learning_rate": 4.226e-06, "loss": 0.2249, "step": 14670 }, { "epoch": 0.6988095238095238, "grad_norm": 0.3844659626483917, "learning_rate": 4.222666666666667e-06, "loss": 0.2149, "step": 14675 }, { "epoch": 0.699047619047619, "grad_norm": 0.446056991815567, "learning_rate": 4.219333333333333e-06, "loss": 0.1988, "step": 14680 }, { "epoch": 0.6992857142857143, "grad_norm": 0.45611268281936646, "learning_rate": 4.216e-06, "loss": 0.2188, "step": 14685 }, { "epoch": 0.6995238095238095, "grad_norm": 0.4704110622406006, "learning_rate": 4.212666666666666e-06, "loss": 0.2629, "step": 14690 }, { "epoch": 0.6997619047619048, "grad_norm": 0.3901256322860718, "learning_rate": 4.209333333333334e-06, "loss": 0.2163, "step": 14695 }, { "epoch": 0.7, "grad_norm": 0.3559205234050751, "learning_rate": 4.206e-06, "loss": 0.182, "step": 14700 }, { "epoch": 0.7002380952380952, "grad_norm": 0.38906174898147583, "learning_rate": 4.202666666666666e-06, "loss": 0.1796, "step": 14705 }, { "epoch": 0.7004761904761905, "grad_norm": 0.3718079626560211, "learning_rate": 4.199333333333333e-06, "loss": 0.1883, "step": 14710 }, { "epoch": 0.7007142857142857, "grad_norm": 0.4990340769290924, "learning_rate": 4.196e-06, "loss": 0.2087, "step": 14715 }, { "epoch": 0.700952380952381, "grad_norm": 0.42057833075523376, "learning_rate": 4.192666666666666e-06, "loss": 0.2269, "step": 14720 }, { "epoch": 0.7011904761904761, "grad_norm": 0.359652578830719, "learning_rate": 4.189333333333333e-06, "loss": 0.2243, "step": 14725 }, { "epoch": 0.7014285714285714, "grad_norm": 0.47931790351867676, "learning_rate": 4.185999999999999e-06, "loss": 0.2532, "step": 14730 }, { "epoch": 0.7016666666666667, "grad_norm": 0.5103592872619629, "learning_rate": 4.182666666666667e-06, "loss": 0.2225, "step": 14735 }, { "epoch": 0.7019047619047619, "grad_norm": 0.42800891399383545, "learning_rate": 4.179333333333333e-06, "loss": 0.2023, "step": 14740 }, { "epoch": 0.7021428571428572, "grad_norm": 0.4869229793548584, "learning_rate": 4.1759999999999995e-06, "loss": 0.2076, "step": 14745 }, { "epoch": 0.7023809523809523, "grad_norm": 0.7969539165496826, "learning_rate": 4.1726666666666665e-06, "loss": 0.223, "step": 14750 }, { "epoch": 0.7026190476190476, "grad_norm": 0.4097593426704407, "learning_rate": 4.1693333333333335e-06, "loss": 0.224, "step": 14755 }, { "epoch": 0.7028571428571428, "grad_norm": 0.5464287400245667, "learning_rate": 4.1660000000000004e-06, "loss": 0.2628, "step": 14760 }, { "epoch": 0.7030952380952381, "grad_norm": 0.4338749945163727, "learning_rate": 4.1626666666666666e-06, "loss": 0.1832, "step": 14765 }, { "epoch": 0.7033333333333334, "grad_norm": 0.5998754501342773, "learning_rate": 4.159333333333333e-06, "loss": 0.2514, "step": 14770 }, { "epoch": 0.7035714285714286, "grad_norm": 0.46745094656944275, "learning_rate": 4.1560000000000005e-06, "loss": 0.2167, "step": 14775 }, { "epoch": 0.7038095238095238, "grad_norm": 0.47300925850868225, "learning_rate": 4.152666666666667e-06, "loss": 0.2599, "step": 14780 }, { "epoch": 0.704047619047619, "grad_norm": 0.46938690543174744, "learning_rate": 4.149333333333333e-06, "loss": 0.2169, "step": 14785 }, { "epoch": 0.7042857142857143, "grad_norm": 0.3694576621055603, "learning_rate": 4.146e-06, "loss": 0.1705, "step": 14790 }, { "epoch": 0.7045238095238096, "grad_norm": 0.4598860740661621, "learning_rate": 4.142666666666667e-06, "loss": 0.221, "step": 14795 }, { "epoch": 0.7047619047619048, "grad_norm": 0.4492526650428772, "learning_rate": 4.139333333333334e-06, "loss": 0.2557, "step": 14800 }, { "epoch": 0.705, "grad_norm": 0.4621303081512451, "learning_rate": 4.136e-06, "loss": 0.2083, "step": 14805 }, { "epoch": 0.7052380952380952, "grad_norm": 0.3372548818588257, "learning_rate": 4.132666666666666e-06, "loss": 0.2285, "step": 14810 }, { "epoch": 0.7054761904761905, "grad_norm": 0.41371315717697144, "learning_rate": 4.129333333333334e-06, "loss": 0.2265, "step": 14815 }, { "epoch": 0.7057142857142857, "grad_norm": 0.3287695646286011, "learning_rate": 4.126e-06, "loss": 0.181, "step": 14820 }, { "epoch": 0.705952380952381, "grad_norm": 0.4510224461555481, "learning_rate": 4.122666666666667e-06, "loss": 0.253, "step": 14825 }, { "epoch": 0.7061904761904761, "grad_norm": 0.4659087657928467, "learning_rate": 4.119333333333333e-06, "loss": 0.2575, "step": 14830 }, { "epoch": 0.7064285714285714, "grad_norm": 0.3665408790111542, "learning_rate": 4.116e-06, "loss": 0.2001, "step": 14835 }, { "epoch": 0.7066666666666667, "grad_norm": 0.37066152691841125, "learning_rate": 4.112666666666667e-06, "loss": 0.2613, "step": 14840 }, { "epoch": 0.7069047619047619, "grad_norm": 0.3870147168636322, "learning_rate": 4.109333333333333e-06, "loss": 0.2317, "step": 14845 }, { "epoch": 0.7071428571428572, "grad_norm": 0.4436056315898895, "learning_rate": 4.105999999999999e-06, "loss": 0.2115, "step": 14850 }, { "epoch": 0.7073809523809523, "grad_norm": 0.4151880443096161, "learning_rate": 4.102666666666667e-06, "loss": 0.2162, "step": 14855 }, { "epoch": 0.7076190476190476, "grad_norm": 0.4700140655040741, "learning_rate": 4.099333333333333e-06, "loss": 0.215, "step": 14860 }, { "epoch": 0.7078571428571429, "grad_norm": 0.4863138198852539, "learning_rate": 4.096e-06, "loss": 0.2425, "step": 14865 }, { "epoch": 0.7080952380952381, "grad_norm": 0.3589628338813782, "learning_rate": 4.092666666666666e-06, "loss": 0.1467, "step": 14870 }, { "epoch": 0.7083333333333334, "grad_norm": 0.5075649619102478, "learning_rate": 4.089333333333333e-06, "loss": 0.2685, "step": 14875 }, { "epoch": 0.7085714285714285, "grad_norm": 0.46060100197792053, "learning_rate": 4.086e-06, "loss": 0.2445, "step": 14880 }, { "epoch": 0.7088095238095238, "grad_norm": 0.5514804124832153, "learning_rate": 4.0826666666666665e-06, "loss": 0.205, "step": 14885 }, { "epoch": 0.709047619047619, "grad_norm": 0.38007429242134094, "learning_rate": 4.0793333333333335e-06, "loss": 0.2088, "step": 14890 }, { "epoch": 0.7092857142857143, "grad_norm": 0.39216580986976624, "learning_rate": 4.076e-06, "loss": 0.2403, "step": 14895 }, { "epoch": 0.7095238095238096, "grad_norm": 0.5474501252174377, "learning_rate": 4.072666666666667e-06, "loss": 0.1552, "step": 14900 }, { "epoch": 0.7097619047619048, "grad_norm": 0.41353678703308105, "learning_rate": 4.0693333333333336e-06, "loss": 0.194, "step": 14905 }, { "epoch": 0.71, "grad_norm": 0.36614999175071716, "learning_rate": 4.066e-06, "loss": 0.2106, "step": 14910 }, { "epoch": 0.7102380952380952, "grad_norm": 0.4146229028701782, "learning_rate": 4.062666666666667e-06, "loss": 0.2523, "step": 14915 }, { "epoch": 0.7104761904761905, "grad_norm": 0.44434428215026855, "learning_rate": 4.059333333333334e-06, "loss": 0.2139, "step": 14920 }, { "epoch": 0.7107142857142857, "grad_norm": 0.4867148995399475, "learning_rate": 4.056e-06, "loss": 0.2234, "step": 14925 }, { "epoch": 0.710952380952381, "grad_norm": 0.3650677502155304, "learning_rate": 4.052666666666667e-06, "loss": 0.2534, "step": 14930 }, { "epoch": 0.7111904761904762, "grad_norm": 0.4803357422351837, "learning_rate": 4.049333333333333e-06, "loss": 0.1491, "step": 14935 }, { "epoch": 0.7114285714285714, "grad_norm": 0.45371803641319275, "learning_rate": 4.046e-06, "loss": 0.222, "step": 14940 }, { "epoch": 0.7116666666666667, "grad_norm": 0.5108867883682251, "learning_rate": 4.042666666666667e-06, "loss": 0.2228, "step": 14945 }, { "epoch": 0.7119047619047619, "grad_norm": 0.44881314039230347, "learning_rate": 4.039333333333333e-06, "loss": 0.2117, "step": 14950 }, { "epoch": 0.7121428571428572, "grad_norm": 0.5239384174346924, "learning_rate": 4.036e-06, "loss": 0.2549, "step": 14955 }, { "epoch": 0.7123809523809523, "grad_norm": 0.45743027329444885, "learning_rate": 4.032666666666667e-06, "loss": 0.1959, "step": 14960 }, { "epoch": 0.7126190476190476, "grad_norm": 0.47858285903930664, "learning_rate": 4.029333333333333e-06, "loss": 0.2044, "step": 14965 }, { "epoch": 0.7128571428571429, "grad_norm": 0.3855058252811432, "learning_rate": 4.026e-06, "loss": 0.226, "step": 14970 }, { "epoch": 0.7130952380952381, "grad_norm": 0.4902748465538025, "learning_rate": 4.022666666666666e-06, "loss": 0.2438, "step": 14975 }, { "epoch": 0.7133333333333334, "grad_norm": 0.4110798239707947, "learning_rate": 4.019333333333333e-06, "loss": 0.2257, "step": 14980 }, { "epoch": 0.7135714285714285, "grad_norm": 0.4484800100326538, "learning_rate": 4.016e-06, "loss": 0.2576, "step": 14985 }, { "epoch": 0.7138095238095238, "grad_norm": 0.44453465938568115, "learning_rate": 4.012666666666666e-06, "loss": 0.2492, "step": 14990 }, { "epoch": 0.714047619047619, "grad_norm": 0.5875024795532227, "learning_rate": 4.009333333333333e-06, "loss": 0.2032, "step": 14995 }, { "epoch": 0.7142857142857143, "grad_norm": 0.45837146043777466, "learning_rate": 4.006e-06, "loss": 0.2044, "step": 15000 }, { "epoch": 0.7145238095238096, "grad_norm": 0.37749627232551575, "learning_rate": 4.002666666666666e-06, "loss": 0.1817, "step": 15005 }, { "epoch": 0.7147619047619047, "grad_norm": 0.4658390283584595, "learning_rate": 3.999333333333333e-06, "loss": 0.2401, "step": 15010 }, { "epoch": 0.715, "grad_norm": 0.5576858520507812, "learning_rate": 3.9959999999999995e-06, "loss": 0.2446, "step": 15015 }, { "epoch": 0.7152380952380952, "grad_norm": 0.5349835157394409, "learning_rate": 3.992666666666667e-06, "loss": 0.2422, "step": 15020 }, { "epoch": 0.7154761904761905, "grad_norm": 0.44631144404411316, "learning_rate": 3.9893333333333335e-06, "loss": 0.2135, "step": 15025 }, { "epoch": 0.7157142857142857, "grad_norm": 0.46075496077537537, "learning_rate": 3.986e-06, "loss": 0.1988, "step": 15030 }, { "epoch": 0.715952380952381, "grad_norm": 0.4224996566772461, "learning_rate": 3.982666666666667e-06, "loss": 0.2406, "step": 15035 }, { "epoch": 0.7161904761904762, "grad_norm": 0.42774125933647156, "learning_rate": 3.9793333333333336e-06, "loss": 0.2148, "step": 15040 }, { "epoch": 0.7164285714285714, "grad_norm": 0.3850031793117523, "learning_rate": 3.976e-06, "loss": 0.2126, "step": 15045 }, { "epoch": 0.7166666666666667, "grad_norm": 0.35848289728164673, "learning_rate": 3.972666666666667e-06, "loss": 0.2333, "step": 15050 }, { "epoch": 0.7169047619047619, "grad_norm": 0.4285697638988495, "learning_rate": 3.969333333333333e-06, "loss": 0.2001, "step": 15055 }, { "epoch": 0.7171428571428572, "grad_norm": 0.3599226474761963, "learning_rate": 3.966000000000001e-06, "loss": 0.1661, "step": 15060 }, { "epoch": 0.7173809523809523, "grad_norm": 0.3990514874458313, "learning_rate": 3.962666666666667e-06, "loss": 0.2222, "step": 15065 }, { "epoch": 0.7176190476190476, "grad_norm": 0.37606149911880493, "learning_rate": 3.959333333333333e-06, "loss": 0.2171, "step": 15070 }, { "epoch": 0.7178571428571429, "grad_norm": 0.3911282420158386, "learning_rate": 3.956e-06, "loss": 0.1854, "step": 15075 }, { "epoch": 0.7180952380952381, "grad_norm": 0.39872580766677856, "learning_rate": 3.952666666666667e-06, "loss": 0.1828, "step": 15080 }, { "epoch": 0.7183333333333334, "grad_norm": 0.4254194498062134, "learning_rate": 3.949333333333334e-06, "loss": 0.2465, "step": 15085 }, { "epoch": 0.7185714285714285, "grad_norm": 0.39824506640434265, "learning_rate": 3.946e-06, "loss": 0.208, "step": 15090 }, { "epoch": 0.7188095238095238, "grad_norm": 0.42568451166152954, "learning_rate": 3.942666666666666e-06, "loss": 0.214, "step": 15095 }, { "epoch": 0.719047619047619, "grad_norm": 0.38185355067253113, "learning_rate": 3.939333333333333e-06, "loss": 0.1995, "step": 15100 }, { "epoch": 0.7192857142857143, "grad_norm": 0.3396577835083008, "learning_rate": 3.936e-06, "loss": 0.2324, "step": 15105 }, { "epoch": 0.7195238095238096, "grad_norm": 0.4747597277164459, "learning_rate": 3.932666666666666e-06, "loss": 0.2368, "step": 15110 }, { "epoch": 0.7197619047619047, "grad_norm": 0.4098770022392273, "learning_rate": 3.929333333333333e-06, "loss": 0.1884, "step": 15115 }, { "epoch": 0.72, "grad_norm": 0.4248271584510803, "learning_rate": 3.925999999999999e-06, "loss": 0.1996, "step": 15120 }, { "epoch": 0.7202380952380952, "grad_norm": 0.5752975344657898, "learning_rate": 3.922666666666667e-06, "loss": 0.229, "step": 15125 }, { "epoch": 0.7204761904761905, "grad_norm": 0.4291037917137146, "learning_rate": 3.919333333333333e-06, "loss": 0.2642, "step": 15130 }, { "epoch": 0.7207142857142858, "grad_norm": 0.43268290162086487, "learning_rate": 3.9159999999999994e-06, "loss": 0.2035, "step": 15135 }, { "epoch": 0.7209523809523809, "grad_norm": 0.4305335581302643, "learning_rate": 3.912666666666666e-06, "loss": 0.2149, "step": 15140 }, { "epoch": 0.7211904761904762, "grad_norm": 0.37071892619132996, "learning_rate": 3.909333333333333e-06, "loss": 0.1711, "step": 15145 }, { "epoch": 0.7214285714285714, "grad_norm": 0.49704495072364807, "learning_rate": 3.906e-06, "loss": 0.2062, "step": 15150 }, { "epoch": 0.7216666666666667, "grad_norm": 0.49041181802749634, "learning_rate": 3.9026666666666665e-06, "loss": 0.2582, "step": 15155 }, { "epoch": 0.7219047619047619, "grad_norm": 0.4326438009738922, "learning_rate": 3.899333333333333e-06, "loss": 0.2088, "step": 15160 }, { "epoch": 0.7221428571428572, "grad_norm": 0.503268301486969, "learning_rate": 3.8960000000000005e-06, "loss": 0.2731, "step": 15165 }, { "epoch": 0.7223809523809523, "grad_norm": 0.35294508934020996, "learning_rate": 3.892666666666667e-06, "loss": 0.209, "step": 15170 }, { "epoch": 0.7226190476190476, "grad_norm": 0.593208909034729, "learning_rate": 3.889333333333333e-06, "loss": 0.2668, "step": 15175 }, { "epoch": 0.7228571428571429, "grad_norm": 0.3168976902961731, "learning_rate": 3.886e-06, "loss": 0.1953, "step": 15180 }, { "epoch": 0.7230952380952381, "grad_norm": 0.3939207196235657, "learning_rate": 3.882666666666667e-06, "loss": 0.1981, "step": 15185 }, { "epoch": 0.7233333333333334, "grad_norm": 0.4501894414424896, "learning_rate": 3.879333333333334e-06, "loss": 0.1748, "step": 15190 }, { "epoch": 0.7235714285714285, "grad_norm": 0.44787871837615967, "learning_rate": 3.876e-06, "loss": 0.2118, "step": 15195 }, { "epoch": 0.7238095238095238, "grad_norm": 0.4467781186103821, "learning_rate": 3.872666666666666e-06, "loss": 0.1978, "step": 15200 }, { "epoch": 0.724047619047619, "grad_norm": 0.3841588497161865, "learning_rate": 3.869333333333334e-06, "loss": 0.2356, "step": 15205 }, { "epoch": 0.7242857142857143, "grad_norm": 0.41332682967185974, "learning_rate": 3.866e-06, "loss": 0.1849, "step": 15210 }, { "epoch": 0.7245238095238096, "grad_norm": 0.4504205584526062, "learning_rate": 3.862666666666667e-06, "loss": 0.1685, "step": 15215 }, { "epoch": 0.7247619047619047, "grad_norm": 0.40848520398139954, "learning_rate": 3.859333333333333e-06, "loss": 0.2589, "step": 15220 }, { "epoch": 0.725, "grad_norm": 0.41631460189819336, "learning_rate": 3.856e-06, "loss": 0.209, "step": 15225 }, { "epoch": 0.7252380952380952, "grad_norm": 0.39754006266593933, "learning_rate": 3.852666666666667e-06, "loss": 0.1986, "step": 15230 }, { "epoch": 0.7254761904761905, "grad_norm": 0.4615514874458313, "learning_rate": 3.849333333333333e-06, "loss": 0.2141, "step": 15235 }, { "epoch": 0.7257142857142858, "grad_norm": 0.44874101877212524, "learning_rate": 3.845999999999999e-06, "loss": 0.2325, "step": 15240 }, { "epoch": 0.7259523809523809, "grad_norm": 0.4991838335990906, "learning_rate": 3.842666666666667e-06, "loss": 0.2612, "step": 15245 }, { "epoch": 0.7261904761904762, "grad_norm": 0.5055432319641113, "learning_rate": 3.839333333333333e-06, "loss": 0.2563, "step": 15250 }, { "epoch": 0.7264285714285714, "grad_norm": 0.4388483762741089, "learning_rate": 3.836e-06, "loss": 0.2139, "step": 15255 }, { "epoch": 0.7266666666666667, "grad_norm": 0.41465651988983154, "learning_rate": 3.832666666666666e-06, "loss": 0.2133, "step": 15260 }, { "epoch": 0.7269047619047619, "grad_norm": 0.4628829061985016, "learning_rate": 3.829333333333333e-06, "loss": 0.2491, "step": 15265 }, { "epoch": 0.7271428571428571, "grad_norm": 0.3915780186653137, "learning_rate": 3.826e-06, "loss": 0.1907, "step": 15270 }, { "epoch": 0.7273809523809524, "grad_norm": 0.4848763346672058, "learning_rate": 3.8226666666666664e-06, "loss": 0.2092, "step": 15275 }, { "epoch": 0.7276190476190476, "grad_norm": 0.534396767616272, "learning_rate": 3.819333333333333e-06, "loss": 0.2294, "step": 15280 }, { "epoch": 0.7278571428571429, "grad_norm": 0.5109817981719971, "learning_rate": 3.816e-06, "loss": 0.2663, "step": 15285 }, { "epoch": 0.7280952380952381, "grad_norm": 0.37438520789146423, "learning_rate": 3.8126666666666665e-06, "loss": 0.1959, "step": 15290 }, { "epoch": 0.7283333333333334, "grad_norm": 0.42016780376434326, "learning_rate": 3.8093333333333335e-06, "loss": 0.2362, "step": 15295 }, { "epoch": 0.7285714285714285, "grad_norm": 0.4140635132789612, "learning_rate": 3.806e-06, "loss": 0.2446, "step": 15300 }, { "epoch": 0.7288095238095238, "grad_norm": 0.40267038345336914, "learning_rate": 3.802666666666666e-06, "loss": 0.2073, "step": 15305 }, { "epoch": 0.729047619047619, "grad_norm": 0.504449188709259, "learning_rate": 3.7993333333333336e-06, "loss": 0.2107, "step": 15310 }, { "epoch": 0.7292857142857143, "grad_norm": 0.5011721849441528, "learning_rate": 3.7959999999999997e-06, "loss": 0.2344, "step": 15315 }, { "epoch": 0.7295238095238096, "grad_norm": 0.48016127943992615, "learning_rate": 3.7926666666666667e-06, "loss": 0.2483, "step": 15320 }, { "epoch": 0.7297619047619047, "grad_norm": 0.3509601354598999, "learning_rate": 3.7893333333333333e-06, "loss": 0.1924, "step": 15325 }, { "epoch": 0.73, "grad_norm": 0.39815425872802734, "learning_rate": 3.786e-06, "loss": 0.232, "step": 15330 }, { "epoch": 0.7302380952380952, "grad_norm": 0.6340840458869934, "learning_rate": 3.782666666666667e-06, "loss": 0.2451, "step": 15335 }, { "epoch": 0.7304761904761905, "grad_norm": 0.3707180619239807, "learning_rate": 3.779333333333333e-06, "loss": 0.1858, "step": 15340 }, { "epoch": 0.7307142857142858, "grad_norm": 0.3860706090927124, "learning_rate": 3.7760000000000004e-06, "loss": 0.1869, "step": 15345 }, { "epoch": 0.7309523809523809, "grad_norm": 0.4731544852256775, "learning_rate": 3.7726666666666665e-06, "loss": 0.19, "step": 15350 }, { "epoch": 0.7311904761904762, "grad_norm": 0.4900892376899719, "learning_rate": 3.769333333333333e-06, "loss": 0.2362, "step": 15355 }, { "epoch": 0.7314285714285714, "grad_norm": 0.4285152852535248, "learning_rate": 3.766e-06, "loss": 0.2628, "step": 15360 }, { "epoch": 0.7316666666666667, "grad_norm": 0.4286506772041321, "learning_rate": 3.7626666666666666e-06, "loss": 0.2319, "step": 15365 }, { "epoch": 0.731904761904762, "grad_norm": 0.3768329322338104, "learning_rate": 3.7593333333333327e-06, "loss": 0.2159, "step": 15370 }, { "epoch": 0.7321428571428571, "grad_norm": 0.3632820248603821, "learning_rate": 3.756e-06, "loss": 0.1814, "step": 15375 }, { "epoch": 0.7323809523809524, "grad_norm": 0.420580118894577, "learning_rate": 3.7526666666666663e-06, "loss": 0.2354, "step": 15380 }, { "epoch": 0.7326190476190476, "grad_norm": 0.4303892254829407, "learning_rate": 3.7493333333333337e-06, "loss": 0.2159, "step": 15385 }, { "epoch": 0.7328571428571429, "grad_norm": 0.46680542826652527, "learning_rate": 3.746e-06, "loss": 0.2445, "step": 15390 }, { "epoch": 0.7330952380952381, "grad_norm": 0.37405574321746826, "learning_rate": 3.7426666666666664e-06, "loss": 0.2119, "step": 15395 }, { "epoch": 0.7333333333333333, "grad_norm": 0.47966381907463074, "learning_rate": 3.7393333333333333e-06, "loss": 0.2435, "step": 15400 }, { "epoch": 0.7335714285714285, "grad_norm": 0.3838708698749542, "learning_rate": 3.736e-06, "loss": 0.1804, "step": 15405 }, { "epoch": 0.7338095238095238, "grad_norm": 0.538884699344635, "learning_rate": 3.732666666666667e-06, "loss": 0.2089, "step": 15410 }, { "epoch": 0.7340476190476191, "grad_norm": 0.4372182786464691, "learning_rate": 3.7293333333333334e-06, "loss": 0.1951, "step": 15415 }, { "epoch": 0.7342857142857143, "grad_norm": 0.3975946605205536, "learning_rate": 3.7259999999999996e-06, "loss": 0.1821, "step": 15420 }, { "epoch": 0.7345238095238096, "grad_norm": 0.4596916139125824, "learning_rate": 3.722666666666667e-06, "loss": 0.2297, "step": 15425 }, { "epoch": 0.7347619047619047, "grad_norm": 0.5005773901939392, "learning_rate": 3.719333333333333e-06, "loss": 0.2336, "step": 15430 }, { "epoch": 0.735, "grad_norm": 0.532909095287323, "learning_rate": 3.7159999999999997e-06, "loss": 0.2216, "step": 15435 }, { "epoch": 0.7352380952380952, "grad_norm": 0.5015158653259277, "learning_rate": 3.7126666666666666e-06, "loss": 0.1945, "step": 15440 }, { "epoch": 0.7354761904761905, "grad_norm": 0.4450778365135193, "learning_rate": 3.709333333333333e-06, "loss": 0.2103, "step": 15445 }, { "epoch": 0.7357142857142858, "grad_norm": 0.5054422616958618, "learning_rate": 3.706e-06, "loss": 0.2185, "step": 15450 }, { "epoch": 0.7359523809523809, "grad_norm": 0.3268465995788574, "learning_rate": 3.7026666666666667e-06, "loss": 0.2396, "step": 15455 }, { "epoch": 0.7361904761904762, "grad_norm": 0.5355807542800903, "learning_rate": 3.699333333333333e-06, "loss": 0.2117, "step": 15460 }, { "epoch": 0.7364285714285714, "grad_norm": 0.4598480761051178, "learning_rate": 3.6960000000000003e-06, "loss": 0.2308, "step": 15465 }, { "epoch": 0.7366666666666667, "grad_norm": 0.3177884817123413, "learning_rate": 3.6926666666666664e-06, "loss": 0.2278, "step": 15470 }, { "epoch": 0.736904761904762, "grad_norm": 0.5182663798332214, "learning_rate": 3.689333333333334e-06, "loss": 0.2273, "step": 15475 }, { "epoch": 0.7371428571428571, "grad_norm": 0.4091416001319885, "learning_rate": 3.686e-06, "loss": 0.2083, "step": 15480 }, { "epoch": 0.7373809523809524, "grad_norm": 0.479070782661438, "learning_rate": 3.6826666666666665e-06, "loss": 0.2516, "step": 15485 }, { "epoch": 0.7376190476190476, "grad_norm": 0.4188254177570343, "learning_rate": 3.6793333333333335e-06, "loss": 0.2631, "step": 15490 }, { "epoch": 0.7378571428571429, "grad_norm": 0.45224297046661377, "learning_rate": 3.676e-06, "loss": 0.2247, "step": 15495 }, { "epoch": 0.7380952380952381, "grad_norm": 0.19877859950065613, "learning_rate": 3.672666666666666e-06, "loss": 0.1251, "step": 15500 } ], "logging_steps": 5, "max_steps": 21000, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 500, "total_flos": 1.943834623294464e+17, "train_batch_size": 1, "trial_name": null, "trial_params": null }