{ "best_metric": 0.90825, "best_model_checkpoint": "nathanReitinger/FASHION-vision/checkpoint-21375", "epoch": 60.0, "eval_steps": 500, "global_step": 22500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.02666666666666667, "grad_norm": 0.523047685623169, "learning_rate": 1.3333333333333334e-07, "loss": 2.3075, "step": 10 }, { "epoch": 0.05333333333333334, "grad_norm": 0.5552763342857361, "learning_rate": 2.6666666666666667e-07, "loss": 2.3074, "step": 20 }, { "epoch": 0.08, "grad_norm": 0.5376197099685669, "learning_rate": 4.0000000000000003e-07, "loss": 2.3035, "step": 30 }, { "epoch": 0.10666666666666667, "grad_norm": 0.6457321643829346, "learning_rate": 5.333333333333333e-07, "loss": 2.3037, "step": 40 }, { "epoch": 0.13333333333333333, "grad_norm": 0.5918385982513428, "learning_rate": 6.666666666666667e-07, "loss": 2.299, "step": 50 }, { "epoch": 0.16, "grad_norm": 0.49572938680648804, "learning_rate": 8.000000000000001e-07, "loss": 2.2936, "step": 60 }, { "epoch": 0.18666666666666668, "grad_norm": 0.5726321935653687, "learning_rate": 9.333333333333334e-07, "loss": 2.2912, "step": 70 }, { "epoch": 0.21333333333333335, "grad_norm": 0.546880841255188, "learning_rate": 1.0666666666666667e-06, "loss": 2.2876, "step": 80 }, { "epoch": 0.24, "grad_norm": 0.5502996444702148, "learning_rate": 1.2000000000000002e-06, "loss": 2.2779, "step": 90 }, { "epoch": 0.26666666666666666, "grad_norm": 0.5014591813087463, "learning_rate": 1.3333333333333334e-06, "loss": 2.269, "step": 100 }, { "epoch": 0.29333333333333333, "grad_norm": 0.6471307873725891, "learning_rate": 1.4666666666666667e-06, "loss": 2.2635, "step": 110 }, { "epoch": 0.32, "grad_norm": 0.5403459668159485, "learning_rate": 1.6000000000000001e-06, "loss": 2.2593, "step": 120 }, { "epoch": 0.3466666666666667, "grad_norm": 0.685127317905426, "learning_rate": 1.7333333333333334e-06, "loss": 2.2469, "step": 130 }, { "epoch": 0.37333333333333335, "grad_norm": 0.5315631031990051, "learning_rate": 1.8666666666666669e-06, "loss": 2.2402, "step": 140 }, { "epoch": 0.4, "grad_norm": 0.5637540817260742, "learning_rate": 2.0000000000000003e-06, "loss": 2.2254, "step": 150 }, { "epoch": 0.4266666666666667, "grad_norm": 0.516559898853302, "learning_rate": 2.1333333333333334e-06, "loss": 2.2143, "step": 160 }, { "epoch": 0.4533333333333333, "grad_norm": 0.5694682002067566, "learning_rate": 2.266666666666667e-06, "loss": 2.2023, "step": 170 }, { "epoch": 0.48, "grad_norm": 0.5600557327270508, "learning_rate": 2.4000000000000003e-06, "loss": 2.1909, "step": 180 }, { "epoch": 0.5066666666666667, "grad_norm": 0.5678396821022034, "learning_rate": 2.5333333333333334e-06, "loss": 2.1622, "step": 190 }, { "epoch": 0.5333333333333333, "grad_norm": 0.5785785913467407, "learning_rate": 2.666666666666667e-06, "loss": 2.142, "step": 200 }, { "epoch": 0.56, "grad_norm": 0.6398864984512329, "learning_rate": 2.8000000000000003e-06, "loss": 2.1258, "step": 210 }, { "epoch": 0.5866666666666667, "grad_norm": 0.5946400165557861, "learning_rate": 2.9333333333333333e-06, "loss": 2.1083, "step": 220 }, { "epoch": 0.6133333333333333, "grad_norm": 0.582646906375885, "learning_rate": 3.066666666666667e-06, "loss": 2.0785, "step": 230 }, { "epoch": 0.64, "grad_norm": 0.5856070518493652, "learning_rate": 3.2000000000000003e-06, "loss": 2.0405, "step": 240 }, { "epoch": 0.6666666666666666, "grad_norm": 0.5840105414390564, "learning_rate": 3.3333333333333333e-06, "loss": 2.0181, "step": 250 }, { "epoch": 0.6933333333333334, "grad_norm": 0.6193951964378357, "learning_rate": 3.466666666666667e-06, "loss": 1.9919, "step": 260 }, { "epoch": 0.72, "grad_norm": 0.6050300002098083, "learning_rate": 3.6e-06, "loss": 1.9446, "step": 270 }, { "epoch": 0.7466666666666667, "grad_norm": 0.6478451490402222, "learning_rate": 3.7333333333333337e-06, "loss": 1.9049, "step": 280 }, { "epoch": 0.7733333333333333, "grad_norm": 0.6568677425384521, "learning_rate": 3.866666666666667e-06, "loss": 1.8365, "step": 290 }, { "epoch": 0.8, "grad_norm": 0.6807597875595093, "learning_rate": 4.000000000000001e-06, "loss": 1.7904, "step": 300 }, { "epoch": 0.8266666666666667, "grad_norm": 0.726629376411438, "learning_rate": 4.133333333333333e-06, "loss": 1.7604, "step": 310 }, { "epoch": 0.8533333333333334, "grad_norm": 0.666414201259613, "learning_rate": 4.266666666666667e-06, "loss": 1.6925, "step": 320 }, { "epoch": 0.88, "grad_norm": 0.7060936689376831, "learning_rate": 4.4e-06, "loss": 1.6647, "step": 330 }, { "epoch": 0.9066666666666666, "grad_norm": 0.7357079386711121, "learning_rate": 4.533333333333334e-06, "loss": 1.5809, "step": 340 }, { "epoch": 0.9333333333333333, "grad_norm": 0.7015929818153381, "learning_rate": 4.666666666666667e-06, "loss": 1.5496, "step": 350 }, { "epoch": 0.96, "grad_norm": 0.6975520849227905, "learning_rate": 4.800000000000001e-06, "loss": 1.4738, "step": 360 }, { "epoch": 0.9866666666666667, "grad_norm": 0.6449431777000427, "learning_rate": 4.933333333333333e-06, "loss": 1.4678, "step": 370 }, { "epoch": 1.0, "eval_accuracy": 0.7154166666666667, "eval_loss": 1.4123508930206299, "eval_runtime": 251.7129, "eval_samples_per_second": 47.673, "eval_steps_per_second": 1.49, "step": 375 }, { "epoch": 1.0133333333333334, "grad_norm": 0.7132147550582886, "learning_rate": 5.066666666666667e-06, "loss": 1.4103, "step": 380 }, { "epoch": 1.04, "grad_norm": 0.6486594080924988, "learning_rate": 5.2e-06, "loss": 1.3621, "step": 390 }, { "epoch": 1.0666666666666667, "grad_norm": 0.7866731286048889, "learning_rate": 5.333333333333334e-06, "loss": 1.338, "step": 400 }, { "epoch": 1.0933333333333333, "grad_norm": 0.7460314631462097, "learning_rate": 5.466666666666667e-06, "loss": 1.3044, "step": 410 }, { "epoch": 1.12, "grad_norm": 0.672776997089386, "learning_rate": 5.600000000000001e-06, "loss": 1.2234, "step": 420 }, { "epoch": 1.1466666666666667, "grad_norm": 0.7854825258255005, "learning_rate": 5.733333333333333e-06, "loss": 1.2487, "step": 430 }, { "epoch": 1.1733333333333333, "grad_norm": 0.7380782961845398, "learning_rate": 5.866666666666667e-06, "loss": 1.1797, "step": 440 }, { "epoch": 1.2, "grad_norm": 0.7625659108161926, "learning_rate": 6e-06, "loss": 1.1746, "step": 450 }, { "epoch": 1.2266666666666666, "grad_norm": 0.8111923336982727, "learning_rate": 6.133333333333334e-06, "loss": 1.1691, "step": 460 }, { "epoch": 1.2533333333333334, "grad_norm": 0.7667580842971802, "learning_rate": 6.266666666666666e-06, "loss": 1.1411, "step": 470 }, { "epoch": 1.28, "grad_norm": 0.753954291343689, "learning_rate": 6.4000000000000006e-06, "loss": 1.1054, "step": 480 }, { "epoch": 1.3066666666666666, "grad_norm": 0.7377068996429443, "learning_rate": 6.533333333333333e-06, "loss": 1.0828, "step": 490 }, { "epoch": 1.3333333333333333, "grad_norm": 0.9820953011512756, "learning_rate": 6.666666666666667e-06, "loss": 1.0424, "step": 500 }, { "epoch": 1.3599999999999999, "grad_norm": 0.7644351124763489, "learning_rate": 6.800000000000001e-06, "loss": 1.0573, "step": 510 }, { "epoch": 1.3866666666666667, "grad_norm": 0.8212087154388428, "learning_rate": 6.933333333333334e-06, "loss": 1.0173, "step": 520 }, { "epoch": 1.4133333333333333, "grad_norm": 0.8315467834472656, "learning_rate": 7.066666666666667e-06, "loss": 0.9692, "step": 530 }, { "epoch": 1.44, "grad_norm": 1.069244146347046, "learning_rate": 7.2e-06, "loss": 0.978, "step": 540 }, { "epoch": 1.4666666666666668, "grad_norm": 0.7936562895774841, "learning_rate": 7.333333333333334e-06, "loss": 0.9424, "step": 550 }, { "epoch": 1.4933333333333334, "grad_norm": 0.7659708857536316, "learning_rate": 7.4666666666666675e-06, "loss": 0.9823, "step": 560 }, { "epoch": 1.52, "grad_norm": 0.9382613301277161, "learning_rate": 7.6e-06, "loss": 0.9453, "step": 570 }, { "epoch": 1.5466666666666666, "grad_norm": 1.0581766366958618, "learning_rate": 7.733333333333334e-06, "loss": 0.9409, "step": 580 }, { "epoch": 1.5733333333333333, "grad_norm": 1.069870114326477, "learning_rate": 7.866666666666667e-06, "loss": 0.9508, "step": 590 }, { "epoch": 1.6, "grad_norm": 0.90777188539505, "learning_rate": 8.000000000000001e-06, "loss": 0.887, "step": 600 }, { "epoch": 1.6266666666666667, "grad_norm": 1.2335937023162842, "learning_rate": 8.133333333333332e-06, "loss": 0.9311, "step": 610 }, { "epoch": 1.6533333333333333, "grad_norm": 1.0029135942459106, "learning_rate": 8.266666666666667e-06, "loss": 0.8561, "step": 620 }, { "epoch": 1.6800000000000002, "grad_norm": 1.072263240814209, "learning_rate": 8.400000000000001e-06, "loss": 0.8644, "step": 630 }, { "epoch": 1.7066666666666666, "grad_norm": 1.0174798965454102, "learning_rate": 8.533333333333334e-06, "loss": 0.8713, "step": 640 }, { "epoch": 1.7333333333333334, "grad_norm": 0.9830342531204224, "learning_rate": 8.666666666666668e-06, "loss": 0.852, "step": 650 }, { "epoch": 1.76, "grad_norm": 1.1105958223342896, "learning_rate": 8.8e-06, "loss": 0.8331, "step": 660 }, { "epoch": 1.7866666666666666, "grad_norm": 1.3445558547973633, "learning_rate": 8.933333333333333e-06, "loss": 0.8595, "step": 670 }, { "epoch": 1.8133333333333335, "grad_norm": 0.9208192229270935, "learning_rate": 9.066666666666667e-06, "loss": 0.8327, "step": 680 }, { "epoch": 1.8399999999999999, "grad_norm": 0.8158299326896667, "learning_rate": 9.2e-06, "loss": 0.8052, "step": 690 }, { "epoch": 1.8666666666666667, "grad_norm": 1.1894135475158691, "learning_rate": 9.333333333333334e-06, "loss": 0.8085, "step": 700 }, { "epoch": 1.8933333333333333, "grad_norm": 1.1022515296936035, "learning_rate": 9.466666666666667e-06, "loss": 0.8196, "step": 710 }, { "epoch": 1.92, "grad_norm": 0.8503223657608032, "learning_rate": 9.600000000000001e-06, "loss": 0.8264, "step": 720 }, { "epoch": 1.9466666666666668, "grad_norm": 0.9416592717170715, "learning_rate": 9.733333333333334e-06, "loss": 0.764, "step": 730 }, { "epoch": 1.9733333333333334, "grad_norm": 1.018501877784729, "learning_rate": 9.866666666666667e-06, "loss": 0.7963, "step": 740 }, { "epoch": 2.0, "grad_norm": 1.1012654304504395, "learning_rate": 1e-05, "loss": 0.7684, "step": 750 }, { "epoch": 2.0, "eval_accuracy": 0.8094166666666667, "eval_loss": 0.7787800431251526, "eval_runtime": 253.0715, "eval_samples_per_second": 47.417, "eval_steps_per_second": 1.482, "step": 750 }, { "epoch": 2.026666666666667, "grad_norm": 1.0708824396133423, "learning_rate": 1.0133333333333333e-05, "loss": 0.7822, "step": 760 }, { "epoch": 2.0533333333333332, "grad_norm": 1.4673056602478027, "learning_rate": 1.0266666666666668e-05, "loss": 0.7869, "step": 770 }, { "epoch": 2.08, "grad_norm": 1.2150228023529053, "learning_rate": 1.04e-05, "loss": 0.7484, "step": 780 }, { "epoch": 2.1066666666666665, "grad_norm": 1.5481164455413818, "learning_rate": 1.0533333333333335e-05, "loss": 0.7442, "step": 790 }, { "epoch": 2.1333333333333333, "grad_norm": 1.0784778594970703, "learning_rate": 1.0666666666666667e-05, "loss": 0.7409, "step": 800 }, { "epoch": 2.16, "grad_norm": 1.052842617034912, "learning_rate": 1.08e-05, "loss": 0.7421, "step": 810 }, { "epoch": 2.1866666666666665, "grad_norm": 1.390291690826416, "learning_rate": 1.0933333333333334e-05, "loss": 0.7394, "step": 820 }, { "epoch": 2.2133333333333334, "grad_norm": 1.1223007440567017, "learning_rate": 1.1066666666666667e-05, "loss": 0.7283, "step": 830 }, { "epoch": 2.24, "grad_norm": 1.1918033361434937, "learning_rate": 1.1200000000000001e-05, "loss": 0.7162, "step": 840 }, { "epoch": 2.2666666666666666, "grad_norm": 0.9362882375717163, "learning_rate": 1.1333333333333334e-05, "loss": 0.655, "step": 850 }, { "epoch": 2.2933333333333334, "grad_norm": 1.0802836418151855, "learning_rate": 1.1466666666666666e-05, "loss": 0.7099, "step": 860 }, { "epoch": 2.32, "grad_norm": 1.641676902770996, "learning_rate": 1.16e-05, "loss": 0.7111, "step": 870 }, { "epoch": 2.3466666666666667, "grad_norm": 0.9850042462348938, "learning_rate": 1.1733333333333333e-05, "loss": 0.7058, "step": 880 }, { "epoch": 2.3733333333333335, "grad_norm": 1.418823003768921, "learning_rate": 1.1866666666666668e-05, "loss": 0.6992, "step": 890 }, { "epoch": 2.4, "grad_norm": 1.0583059787750244, "learning_rate": 1.2e-05, "loss": 0.7026, "step": 900 }, { "epoch": 2.4266666666666667, "grad_norm": 1.0806751251220703, "learning_rate": 1.2133333333333335e-05, "loss": 0.6775, "step": 910 }, { "epoch": 2.453333333333333, "grad_norm": 1.477805495262146, "learning_rate": 1.2266666666666667e-05, "loss": 0.6401, "step": 920 }, { "epoch": 2.48, "grad_norm": 1.37532639503479, "learning_rate": 1.24e-05, "loss": 0.692, "step": 930 }, { "epoch": 2.506666666666667, "grad_norm": 1.0383663177490234, "learning_rate": 1.2533333333333332e-05, "loss": 0.6767, "step": 940 }, { "epoch": 2.533333333333333, "grad_norm": 1.5573583841323853, "learning_rate": 1.2666666666666668e-05, "loss": 0.7033, "step": 950 }, { "epoch": 2.56, "grad_norm": 1.3657231330871582, "learning_rate": 1.2800000000000001e-05, "loss": 0.6657, "step": 960 }, { "epoch": 2.586666666666667, "grad_norm": 1.0886105298995972, "learning_rate": 1.2933333333333334e-05, "loss": 0.6653, "step": 970 }, { "epoch": 2.6133333333333333, "grad_norm": 1.4899654388427734, "learning_rate": 1.3066666666666666e-05, "loss": 0.6736, "step": 980 }, { "epoch": 2.64, "grad_norm": 1.0892140865325928, "learning_rate": 1.32e-05, "loss": 0.6602, "step": 990 }, { "epoch": 2.6666666666666665, "grad_norm": 1.757778286933899, "learning_rate": 1.3333333333333333e-05, "loss": 0.6438, "step": 1000 }, { "epoch": 2.6933333333333334, "grad_norm": 1.4072977304458618, "learning_rate": 1.3466666666666666e-05, "loss": 0.6454, "step": 1010 }, { "epoch": 2.7199999999999998, "grad_norm": 1.4191005229949951, "learning_rate": 1.3600000000000002e-05, "loss": 0.65, "step": 1020 }, { "epoch": 2.7466666666666666, "grad_norm": 1.2355992794036865, "learning_rate": 1.3733333333333335e-05, "loss": 0.6468, "step": 1030 }, { "epoch": 2.7733333333333334, "grad_norm": 1.0899584293365479, "learning_rate": 1.3866666666666667e-05, "loss": 0.6195, "step": 1040 }, { "epoch": 2.8, "grad_norm": 1.1220864057540894, "learning_rate": 1.4000000000000001e-05, "loss": 0.6447, "step": 1050 }, { "epoch": 2.8266666666666667, "grad_norm": 1.2130671739578247, "learning_rate": 1.4133333333333334e-05, "loss": 0.6363, "step": 1060 }, { "epoch": 2.8533333333333335, "grad_norm": 1.6652445793151855, "learning_rate": 1.4266666666666667e-05, "loss": 0.649, "step": 1070 }, { "epoch": 2.88, "grad_norm": 1.573158860206604, "learning_rate": 1.44e-05, "loss": 0.6131, "step": 1080 }, { "epoch": 2.9066666666666667, "grad_norm": 1.6508690118789673, "learning_rate": 1.4533333333333335e-05, "loss": 0.6425, "step": 1090 }, { "epoch": 2.9333333333333336, "grad_norm": 1.027748465538025, "learning_rate": 1.4666666666666668e-05, "loss": 0.5706, "step": 1100 }, { "epoch": 2.96, "grad_norm": 1.4707986116409302, "learning_rate": 1.48e-05, "loss": 0.6557, "step": 1110 }, { "epoch": 2.986666666666667, "grad_norm": 1.1269705295562744, "learning_rate": 1.4933333333333335e-05, "loss": 0.601, "step": 1120 }, { "epoch": 3.0, "eval_accuracy": 0.8335833333333333, "eval_loss": 0.6188022494316101, "eval_runtime": 252.8818, "eval_samples_per_second": 47.453, "eval_steps_per_second": 1.483, "step": 1125 }, { "epoch": 3.013333333333333, "grad_norm": 1.1408145427703857, "learning_rate": 1.5066666666666668e-05, "loss": 0.5949, "step": 1130 }, { "epoch": 3.04, "grad_norm": 1.154862642288208, "learning_rate": 1.52e-05, "loss": 0.5827, "step": 1140 }, { "epoch": 3.066666666666667, "grad_norm": 0.9795767664909363, "learning_rate": 1.5333333333333334e-05, "loss": 0.6098, "step": 1150 }, { "epoch": 3.0933333333333333, "grad_norm": 1.275421380996704, "learning_rate": 1.546666666666667e-05, "loss": 0.5785, "step": 1160 }, { "epoch": 3.12, "grad_norm": 1.1093873977661133, "learning_rate": 1.56e-05, "loss": 0.5576, "step": 1170 }, { "epoch": 3.1466666666666665, "grad_norm": 1.3806421756744385, "learning_rate": 1.5733333333333334e-05, "loss": 0.5579, "step": 1180 }, { "epoch": 3.1733333333333333, "grad_norm": 1.3961694240570068, "learning_rate": 1.586666666666667e-05, "loss": 0.5812, "step": 1190 }, { "epoch": 3.2, "grad_norm": 1.3505513668060303, "learning_rate": 1.6000000000000003e-05, "loss": 0.5477, "step": 1200 }, { "epoch": 3.2266666666666666, "grad_norm": 1.1637428998947144, "learning_rate": 1.6133333333333334e-05, "loss": 0.5827, "step": 1210 }, { "epoch": 3.2533333333333334, "grad_norm": 1.7076727151870728, "learning_rate": 1.6266666666666665e-05, "loss": 0.5917, "step": 1220 }, { "epoch": 3.2800000000000002, "grad_norm": 1.0909322500228882, "learning_rate": 1.6400000000000002e-05, "loss": 0.5832, "step": 1230 }, { "epoch": 3.3066666666666666, "grad_norm": 1.4935245513916016, "learning_rate": 1.6533333333333333e-05, "loss": 0.5456, "step": 1240 }, { "epoch": 3.3333333333333335, "grad_norm": 1.6042735576629639, "learning_rate": 1.6666666666666667e-05, "loss": 0.5733, "step": 1250 }, { "epoch": 3.36, "grad_norm": 1.4420127868652344, "learning_rate": 1.6800000000000002e-05, "loss": 0.5261, "step": 1260 }, { "epoch": 3.3866666666666667, "grad_norm": 1.5541865825653076, "learning_rate": 1.6933333333333333e-05, "loss": 0.5683, "step": 1270 }, { "epoch": 3.413333333333333, "grad_norm": 1.48206627368927, "learning_rate": 1.7066666666666667e-05, "loss": 0.553, "step": 1280 }, { "epoch": 3.44, "grad_norm": 1.8646939992904663, "learning_rate": 1.7199999999999998e-05, "loss": 0.5466, "step": 1290 }, { "epoch": 3.466666666666667, "grad_norm": 1.1181879043579102, "learning_rate": 1.7333333333333336e-05, "loss": 0.5524, "step": 1300 }, { "epoch": 3.493333333333333, "grad_norm": 1.9017016887664795, "learning_rate": 1.7466666666666667e-05, "loss": 0.5124, "step": 1310 }, { "epoch": 3.52, "grad_norm": 1.369870901107788, "learning_rate": 1.76e-05, "loss": 0.5608, "step": 1320 }, { "epoch": 3.546666666666667, "grad_norm": 1.1890102624893188, "learning_rate": 1.7733333333333335e-05, "loss": 0.5535, "step": 1330 }, { "epoch": 3.5733333333333333, "grad_norm": 1.8598867654800415, "learning_rate": 1.7866666666666666e-05, "loss": 0.5625, "step": 1340 }, { "epoch": 3.6, "grad_norm": 1.178681492805481, "learning_rate": 1.8e-05, "loss": 0.5843, "step": 1350 }, { "epoch": 3.626666666666667, "grad_norm": 1.5860885381698608, "learning_rate": 1.8133333333333335e-05, "loss": 0.5634, "step": 1360 }, { "epoch": 3.6533333333333333, "grad_norm": 1.6016782522201538, "learning_rate": 1.826666666666667e-05, "loss": 0.5384, "step": 1370 }, { "epoch": 3.68, "grad_norm": 1.3504785299301147, "learning_rate": 1.84e-05, "loss": 0.5482, "step": 1380 }, { "epoch": 3.7066666666666666, "grad_norm": 1.182882308959961, "learning_rate": 1.8533333333333334e-05, "loss": 0.5324, "step": 1390 }, { "epoch": 3.7333333333333334, "grad_norm": 1.7216957807540894, "learning_rate": 1.866666666666667e-05, "loss": 0.5483, "step": 1400 }, { "epoch": 3.76, "grad_norm": 1.4555907249450684, "learning_rate": 1.88e-05, "loss": 0.5522, "step": 1410 }, { "epoch": 3.7866666666666666, "grad_norm": 1.782230257987976, "learning_rate": 1.8933333333333334e-05, "loss": 0.5186, "step": 1420 }, { "epoch": 3.8133333333333335, "grad_norm": 1.5357329845428467, "learning_rate": 1.9066666666666668e-05, "loss": 0.5092, "step": 1430 }, { "epoch": 3.84, "grad_norm": 1.3541619777679443, "learning_rate": 1.9200000000000003e-05, "loss": 0.5472, "step": 1440 }, { "epoch": 3.8666666666666667, "grad_norm": 1.345468521118164, "learning_rate": 1.9333333333333333e-05, "loss": 0.4959, "step": 1450 }, { "epoch": 3.8933333333333335, "grad_norm": 1.1840789318084717, "learning_rate": 1.9466666666666668e-05, "loss": 0.5329, "step": 1460 }, { "epoch": 3.92, "grad_norm": 1.0094152688980103, "learning_rate": 1.9600000000000002e-05, "loss": 0.496, "step": 1470 }, { "epoch": 3.9466666666666668, "grad_norm": 1.2937079668045044, "learning_rate": 1.9733333333333333e-05, "loss": 0.5044, "step": 1480 }, { "epoch": 3.9733333333333336, "grad_norm": 1.416028380393982, "learning_rate": 1.9866666666666667e-05, "loss": 0.529, "step": 1490 }, { "epoch": 4.0, "grad_norm": 1.1835155487060547, "learning_rate": 2e-05, "loss": 0.5112, "step": 1500 }, { "epoch": 4.0, "eval_accuracy": 0.8478333333333333, "eval_loss": 0.5264700055122375, "eval_runtime": 250.783, "eval_samples_per_second": 47.85, "eval_steps_per_second": 1.495, "step": 1500 }, { "epoch": 4.026666666666666, "grad_norm": 1.2850406169891357, "learning_rate": 2.0133333333333336e-05, "loss": 0.5615, "step": 1510 }, { "epoch": 4.053333333333334, "grad_norm": 1.0897717475891113, "learning_rate": 2.0266666666666667e-05, "loss": 0.4814, "step": 1520 }, { "epoch": 4.08, "grad_norm": 1.2198373079299927, "learning_rate": 2.04e-05, "loss": 0.4884, "step": 1530 }, { "epoch": 4.1066666666666665, "grad_norm": 2.1793172359466553, "learning_rate": 2.0533333333333336e-05, "loss": 0.5041, "step": 1540 }, { "epoch": 4.133333333333334, "grad_norm": 1.349697232246399, "learning_rate": 2.0666666666666666e-05, "loss": 0.521, "step": 1550 }, { "epoch": 4.16, "grad_norm": 0.9776567816734314, "learning_rate": 2.08e-05, "loss": 0.4784, "step": 1560 }, { "epoch": 4.1866666666666665, "grad_norm": 1.6105858087539673, "learning_rate": 2.0933333333333335e-05, "loss": 0.4507, "step": 1570 }, { "epoch": 4.213333333333333, "grad_norm": 1.2502280473709106, "learning_rate": 2.106666666666667e-05, "loss": 0.4966, "step": 1580 }, { "epoch": 4.24, "grad_norm": 0.8996163606643677, "learning_rate": 2.12e-05, "loss": 0.4883, "step": 1590 }, { "epoch": 4.266666666666667, "grad_norm": 1.2022095918655396, "learning_rate": 2.1333333333333335e-05, "loss": 0.5084, "step": 1600 }, { "epoch": 4.293333333333333, "grad_norm": 1.7620633840560913, "learning_rate": 2.146666666666667e-05, "loss": 0.4464, "step": 1610 }, { "epoch": 4.32, "grad_norm": 1.4631232023239136, "learning_rate": 2.16e-05, "loss": 0.4833, "step": 1620 }, { "epoch": 4.346666666666667, "grad_norm": 1.3216817378997803, "learning_rate": 2.1733333333333334e-05, "loss": 0.4602, "step": 1630 }, { "epoch": 4.373333333333333, "grad_norm": 1.222000241279602, "learning_rate": 2.186666666666667e-05, "loss": 0.4289, "step": 1640 }, { "epoch": 4.4, "grad_norm": 1.6202765703201294, "learning_rate": 2.2000000000000003e-05, "loss": 0.4526, "step": 1650 }, { "epoch": 4.426666666666667, "grad_norm": 1.584963083267212, "learning_rate": 2.2133333333333334e-05, "loss": 0.4787, "step": 1660 }, { "epoch": 4.453333333333333, "grad_norm": 1.5327050685882568, "learning_rate": 2.2266666666666668e-05, "loss": 0.4913, "step": 1670 }, { "epoch": 4.48, "grad_norm": 1.238145112991333, "learning_rate": 2.2400000000000002e-05, "loss": 0.4781, "step": 1680 }, { "epoch": 4.506666666666667, "grad_norm": 1.416844367980957, "learning_rate": 2.2533333333333333e-05, "loss": 0.4928, "step": 1690 }, { "epoch": 4.533333333333333, "grad_norm": 1.2246005535125732, "learning_rate": 2.2666666666666668e-05, "loss": 0.4514, "step": 1700 }, { "epoch": 4.5600000000000005, "grad_norm": 1.5167866945266724, "learning_rate": 2.2800000000000002e-05, "loss": 0.4464, "step": 1710 }, { "epoch": 4.586666666666667, "grad_norm": 1.5583484172821045, "learning_rate": 2.2933333333333333e-05, "loss": 0.4596, "step": 1720 }, { "epoch": 4.613333333333333, "grad_norm": 1.2330771684646606, "learning_rate": 2.3066666666666667e-05, "loss": 0.4377, "step": 1730 }, { "epoch": 4.64, "grad_norm": 2.0583174228668213, "learning_rate": 2.32e-05, "loss": 0.4643, "step": 1740 }, { "epoch": 4.666666666666667, "grad_norm": 1.3421686887741089, "learning_rate": 2.3333333333333336e-05, "loss": 0.4514, "step": 1750 }, { "epoch": 4.693333333333333, "grad_norm": 1.4690873622894287, "learning_rate": 2.3466666666666667e-05, "loss": 0.4514, "step": 1760 }, { "epoch": 4.72, "grad_norm": 1.2651149034500122, "learning_rate": 2.36e-05, "loss": 0.4753, "step": 1770 }, { "epoch": 4.746666666666667, "grad_norm": 1.4450587034225464, "learning_rate": 2.3733333333333335e-05, "loss": 0.4703, "step": 1780 }, { "epoch": 4.773333333333333, "grad_norm": 1.1887861490249634, "learning_rate": 2.3866666666666666e-05, "loss": 0.4948, "step": 1790 }, { "epoch": 4.8, "grad_norm": 1.1826320886611938, "learning_rate": 2.4e-05, "loss": 0.4476, "step": 1800 }, { "epoch": 4.826666666666666, "grad_norm": 1.2198917865753174, "learning_rate": 2.4133333333333335e-05, "loss": 0.4432, "step": 1810 }, { "epoch": 4.8533333333333335, "grad_norm": 1.5406042337417603, "learning_rate": 2.426666666666667e-05, "loss": 0.4328, "step": 1820 }, { "epoch": 4.88, "grad_norm": 1.405493974685669, "learning_rate": 2.44e-05, "loss": 0.481, "step": 1830 }, { "epoch": 4.906666666666666, "grad_norm": 1.1060372591018677, "learning_rate": 2.4533333333333334e-05, "loss": 0.4566, "step": 1840 }, { "epoch": 4.933333333333334, "grad_norm": 1.3357353210449219, "learning_rate": 2.466666666666667e-05, "loss": 0.4348, "step": 1850 }, { "epoch": 4.96, "grad_norm": 1.412351131439209, "learning_rate": 2.48e-05, "loss": 0.4525, "step": 1860 }, { "epoch": 4.986666666666666, "grad_norm": 1.0553109645843506, "learning_rate": 2.4933333333333334e-05, "loss": 0.4207, "step": 1870 }, { "epoch": 5.0, "eval_accuracy": 0.8620833333333333, "eval_loss": 0.44949954748153687, "eval_runtime": 249.7348, "eval_samples_per_second": 48.051, "eval_steps_per_second": 1.502, "step": 1875 }, { "epoch": 5.013333333333334, "grad_norm": 1.487226963043213, "learning_rate": 2.5066666666666665e-05, "loss": 0.3724, "step": 1880 }, { "epoch": 5.04, "grad_norm": 0.9325187802314758, "learning_rate": 2.5200000000000003e-05, "loss": 0.4163, "step": 1890 }, { "epoch": 5.066666666666666, "grad_norm": 1.2603026628494263, "learning_rate": 2.5333333333333337e-05, "loss": 0.4303, "step": 1900 }, { "epoch": 5.093333333333334, "grad_norm": 1.299117088317871, "learning_rate": 2.5466666666666668e-05, "loss": 0.4388, "step": 1910 }, { "epoch": 5.12, "grad_norm": 1.4388401508331299, "learning_rate": 2.5600000000000002e-05, "loss": 0.4215, "step": 1920 }, { "epoch": 5.1466666666666665, "grad_norm": 1.1698435544967651, "learning_rate": 2.5733333333333337e-05, "loss": 0.4436, "step": 1930 }, { "epoch": 5.173333333333334, "grad_norm": 1.224798560142517, "learning_rate": 2.5866666666666667e-05, "loss": 0.4204, "step": 1940 }, { "epoch": 5.2, "grad_norm": 1.1372491121292114, "learning_rate": 2.6000000000000002e-05, "loss": 0.3966, "step": 1950 }, { "epoch": 5.226666666666667, "grad_norm": 1.7697786092758179, "learning_rate": 2.6133333333333333e-05, "loss": 0.4531, "step": 1960 }, { "epoch": 5.253333333333333, "grad_norm": 1.1250134706497192, "learning_rate": 2.6266666666666667e-05, "loss": 0.4479, "step": 1970 }, { "epoch": 5.28, "grad_norm": 1.1149576902389526, "learning_rate": 2.64e-05, "loss": 0.4024, "step": 1980 }, { "epoch": 5.306666666666667, "grad_norm": 0.8580728769302368, "learning_rate": 2.6533333333333332e-05, "loss": 0.4095, "step": 1990 }, { "epoch": 5.333333333333333, "grad_norm": 1.3150044679641724, "learning_rate": 2.6666666666666667e-05, "loss": 0.4311, "step": 2000 }, { "epoch": 5.36, "grad_norm": 1.5291498899459839, "learning_rate": 2.6800000000000004e-05, "loss": 0.3829, "step": 2010 }, { "epoch": 5.386666666666667, "grad_norm": 1.1148710250854492, "learning_rate": 2.6933333333333332e-05, "loss": 0.3988, "step": 2020 }, { "epoch": 5.413333333333333, "grad_norm": 1.181640625, "learning_rate": 2.706666666666667e-05, "loss": 0.4108, "step": 2030 }, { "epoch": 5.44, "grad_norm": 1.1221822500228882, "learning_rate": 2.7200000000000004e-05, "loss": 0.3953, "step": 2040 }, { "epoch": 5.466666666666667, "grad_norm": 1.305713415145874, "learning_rate": 2.733333333333333e-05, "loss": 0.3891, "step": 2050 }, { "epoch": 5.493333333333333, "grad_norm": 1.1887928247451782, "learning_rate": 2.746666666666667e-05, "loss": 0.3832, "step": 2060 }, { "epoch": 5.52, "grad_norm": 1.0353480577468872, "learning_rate": 2.7600000000000003e-05, "loss": 0.4395, "step": 2070 }, { "epoch": 5.546666666666667, "grad_norm": 1.3996936082839966, "learning_rate": 2.7733333333333334e-05, "loss": 0.429, "step": 2080 }, { "epoch": 5.573333333333333, "grad_norm": 1.3166385889053345, "learning_rate": 2.786666666666667e-05, "loss": 0.4384, "step": 2090 }, { "epoch": 5.6, "grad_norm": 1.241619348526001, "learning_rate": 2.8000000000000003e-05, "loss": 0.4302, "step": 2100 }, { "epoch": 5.626666666666667, "grad_norm": 1.4851853847503662, "learning_rate": 2.8133333333333334e-05, "loss": 0.4094, "step": 2110 }, { "epoch": 5.653333333333333, "grad_norm": 1.774938702583313, "learning_rate": 2.8266666666666668e-05, "loss": 0.4453, "step": 2120 }, { "epoch": 5.68, "grad_norm": 1.681108832359314, "learning_rate": 2.84e-05, "loss": 0.4176, "step": 2130 }, { "epoch": 5.706666666666667, "grad_norm": 1.012275218963623, "learning_rate": 2.8533333333333333e-05, "loss": 0.3822, "step": 2140 }, { "epoch": 5.733333333333333, "grad_norm": 0.9668782949447632, "learning_rate": 2.8666666666666668e-05, "loss": 0.4064, "step": 2150 }, { "epoch": 5.76, "grad_norm": 1.0975890159606934, "learning_rate": 2.88e-05, "loss": 0.3868, "step": 2160 }, { "epoch": 5.786666666666667, "grad_norm": 1.3022563457489014, "learning_rate": 2.8933333333333333e-05, "loss": 0.3942, "step": 2170 }, { "epoch": 5.8133333333333335, "grad_norm": 1.1875505447387695, "learning_rate": 2.906666666666667e-05, "loss": 0.3838, "step": 2180 }, { "epoch": 5.84, "grad_norm": 1.2263437509536743, "learning_rate": 2.9199999999999998e-05, "loss": 0.3611, "step": 2190 }, { "epoch": 5.866666666666667, "grad_norm": 1.5053207874298096, "learning_rate": 2.9333333333333336e-05, "loss": 0.4357, "step": 2200 }, { "epoch": 5.8933333333333335, "grad_norm": 1.1794692277908325, "learning_rate": 2.946666666666667e-05, "loss": 0.403, "step": 2210 }, { "epoch": 5.92, "grad_norm": 1.2697879076004028, "learning_rate": 2.96e-05, "loss": 0.4162, "step": 2220 }, { "epoch": 5.946666666666666, "grad_norm": 0.9458759427070618, "learning_rate": 2.9733333333333336e-05, "loss": 0.4084, "step": 2230 }, { "epoch": 5.973333333333334, "grad_norm": 1.431753396987915, "learning_rate": 2.986666666666667e-05, "loss": 0.3758, "step": 2240 }, { "epoch": 6.0, "grad_norm": 1.057325839996338, "learning_rate": 3e-05, "loss": 0.3604, "step": 2250 }, { "epoch": 6.0, "eval_accuracy": 0.8655, "eval_loss": 0.41260525584220886, "eval_runtime": 250.054, "eval_samples_per_second": 47.99, "eval_steps_per_second": 1.5, "step": 2250 }, { "epoch": 6.026666666666666, "grad_norm": 1.1537690162658691, "learning_rate": 3.0133333333333335e-05, "loss": 0.3781, "step": 2260 }, { "epoch": 6.053333333333334, "grad_norm": 0.9227214455604553, "learning_rate": 3.0266666666666666e-05, "loss": 0.3751, "step": 2270 }, { "epoch": 6.08, "grad_norm": 1.1220436096191406, "learning_rate": 3.04e-05, "loss": 0.385, "step": 2280 }, { "epoch": 6.1066666666666665, "grad_norm": 1.316062331199646, "learning_rate": 3.0533333333333335e-05, "loss": 0.3743, "step": 2290 }, { "epoch": 6.133333333333334, "grad_norm": 1.233098030090332, "learning_rate": 3.066666666666667e-05, "loss": 0.4141, "step": 2300 }, { "epoch": 6.16, "grad_norm": 1.0905852317810059, "learning_rate": 3.08e-05, "loss": 0.4025, "step": 2310 }, { "epoch": 6.1866666666666665, "grad_norm": 1.383314609527588, "learning_rate": 3.093333333333334e-05, "loss": 0.3936, "step": 2320 }, { "epoch": 6.213333333333333, "grad_norm": 1.0277948379516602, "learning_rate": 3.1066666666666665e-05, "loss": 0.373, "step": 2330 }, { "epoch": 6.24, "grad_norm": 0.9248735904693604, "learning_rate": 3.12e-05, "loss": 0.3813, "step": 2340 }, { "epoch": 6.266666666666667, "grad_norm": 0.980923056602478, "learning_rate": 3.1333333333333334e-05, "loss": 0.3758, "step": 2350 }, { "epoch": 6.293333333333333, "grad_norm": 1.0026986598968506, "learning_rate": 3.146666666666667e-05, "loss": 0.3455, "step": 2360 }, { "epoch": 6.32, "grad_norm": 1.2889373302459717, "learning_rate": 3.16e-05, "loss": 0.4124, "step": 2370 }, { "epoch": 6.346666666666667, "grad_norm": 1.1151232719421387, "learning_rate": 3.173333333333334e-05, "loss": 0.3937, "step": 2380 }, { "epoch": 6.373333333333333, "grad_norm": 1.1859952211380005, "learning_rate": 3.1866666666666664e-05, "loss": 0.4234, "step": 2390 }, { "epoch": 6.4, "grad_norm": 1.0505211353302002, "learning_rate": 3.2000000000000005e-05, "loss": 0.3916, "step": 2400 }, { "epoch": 6.426666666666667, "grad_norm": 0.9080841541290283, "learning_rate": 3.213333333333334e-05, "loss": 0.3525, "step": 2410 }, { "epoch": 6.453333333333333, "grad_norm": 1.016626000404358, "learning_rate": 3.226666666666667e-05, "loss": 0.3775, "step": 2420 }, { "epoch": 6.48, "grad_norm": 1.3775297403335571, "learning_rate": 3.24e-05, "loss": 0.3756, "step": 2430 }, { "epoch": 6.506666666666667, "grad_norm": 0.775924563407898, "learning_rate": 3.253333333333333e-05, "loss": 0.3378, "step": 2440 }, { "epoch": 6.533333333333333, "grad_norm": 1.5069085359573364, "learning_rate": 3.266666666666667e-05, "loss": 0.3614, "step": 2450 }, { "epoch": 6.5600000000000005, "grad_norm": 1.3161460161209106, "learning_rate": 3.2800000000000004e-05, "loss": 0.3943, "step": 2460 }, { "epoch": 6.586666666666667, "grad_norm": 1.3259575366973877, "learning_rate": 3.293333333333333e-05, "loss": 0.3717, "step": 2470 }, { "epoch": 6.613333333333333, "grad_norm": 1.3593661785125732, "learning_rate": 3.3066666666666666e-05, "loss": 0.4385, "step": 2480 }, { "epoch": 6.64, "grad_norm": 1.1150352954864502, "learning_rate": 3.32e-05, "loss": 0.3576, "step": 2490 }, { "epoch": 6.666666666666667, "grad_norm": 0.9887901544570923, "learning_rate": 3.3333333333333335e-05, "loss": 0.392, "step": 2500 }, { "epoch": 6.693333333333333, "grad_norm": 1.388339877128601, "learning_rate": 3.346666666666667e-05, "loss": 0.381, "step": 2510 }, { "epoch": 6.72, "grad_norm": 1.0314621925354004, "learning_rate": 3.3600000000000004e-05, "loss": 0.38, "step": 2520 }, { "epoch": 6.746666666666667, "grad_norm": 1.588046669960022, "learning_rate": 3.373333333333333e-05, "loss": 0.3897, "step": 2530 }, { "epoch": 6.773333333333333, "grad_norm": 1.0398540496826172, "learning_rate": 3.3866666666666665e-05, "loss": 0.3474, "step": 2540 }, { "epoch": 6.8, "grad_norm": 1.2241482734680176, "learning_rate": 3.4000000000000007e-05, "loss": 0.38, "step": 2550 }, { "epoch": 6.826666666666666, "grad_norm": 1.2187809944152832, "learning_rate": 3.4133333333333334e-05, "loss": 0.3424, "step": 2560 }, { "epoch": 6.8533333333333335, "grad_norm": 1.665645718574524, "learning_rate": 3.426666666666667e-05, "loss": 0.3767, "step": 2570 }, { "epoch": 6.88, "grad_norm": 1.106926679611206, "learning_rate": 3.4399999999999996e-05, "loss": 0.367, "step": 2580 }, { "epoch": 6.906666666666666, "grad_norm": 1.2827609777450562, "learning_rate": 3.453333333333334e-05, "loss": 0.3687, "step": 2590 }, { "epoch": 6.933333333333334, "grad_norm": 1.010549545288086, "learning_rate": 3.466666666666667e-05, "loss": 0.3698, "step": 2600 }, { "epoch": 6.96, "grad_norm": 1.1130890846252441, "learning_rate": 3.48e-05, "loss": 0.4127, "step": 2610 }, { "epoch": 6.986666666666666, "grad_norm": 1.268324851989746, "learning_rate": 3.493333333333333e-05, "loss": 0.3618, "step": 2620 }, { "epoch": 7.0, "eval_accuracy": 0.8690833333333333, "eval_loss": 0.38323599100112915, "eval_runtime": 250.1627, "eval_samples_per_second": 47.969, "eval_steps_per_second": 1.499, "step": 2625 }, { "epoch": 7.013333333333334, "grad_norm": 1.3853873014450073, "learning_rate": 3.506666666666667e-05, "loss": 0.3221, "step": 2630 }, { "epoch": 7.04, "grad_norm": 1.3326914310455322, "learning_rate": 3.52e-05, "loss": 0.3467, "step": 2640 }, { "epoch": 7.066666666666666, "grad_norm": 2.0146069526672363, "learning_rate": 3.5333333333333336e-05, "loss": 0.3611, "step": 2650 }, { "epoch": 7.093333333333334, "grad_norm": 1.1076328754425049, "learning_rate": 3.546666666666667e-05, "loss": 0.3699, "step": 2660 }, { "epoch": 7.12, "grad_norm": 1.0090011358261108, "learning_rate": 3.56e-05, "loss": 0.3292, "step": 2670 }, { "epoch": 7.1466666666666665, "grad_norm": 0.9773492217063904, "learning_rate": 3.573333333333333e-05, "loss": 0.3614, "step": 2680 }, { "epoch": 7.173333333333334, "grad_norm": 1.2434812784194946, "learning_rate": 3.586666666666667e-05, "loss": 0.3878, "step": 2690 }, { "epoch": 7.2, "grad_norm": 1.3080124855041504, "learning_rate": 3.6e-05, "loss": 0.3534, "step": 2700 }, { "epoch": 7.226666666666667, "grad_norm": 1.4765065908432007, "learning_rate": 3.6133333333333335e-05, "loss": 0.3499, "step": 2710 }, { "epoch": 7.253333333333333, "grad_norm": 1.1715103387832642, "learning_rate": 3.626666666666667e-05, "loss": 0.4057, "step": 2720 }, { "epoch": 7.28, "grad_norm": 0.97383713722229, "learning_rate": 3.6400000000000004e-05, "loss": 0.3326, "step": 2730 }, { "epoch": 7.306666666666667, "grad_norm": 1.017042636871338, "learning_rate": 3.653333333333334e-05, "loss": 0.3264, "step": 2740 }, { "epoch": 7.333333333333333, "grad_norm": 0.9164740443229675, "learning_rate": 3.6666666666666666e-05, "loss": 0.3715, "step": 2750 }, { "epoch": 7.36, "grad_norm": 1.0807558298110962, "learning_rate": 3.68e-05, "loss": 0.3452, "step": 2760 }, { "epoch": 7.386666666666667, "grad_norm": 1.3183648586273193, "learning_rate": 3.6933333333333334e-05, "loss": 0.366, "step": 2770 }, { "epoch": 7.413333333333333, "grad_norm": 1.0195010900497437, "learning_rate": 3.706666666666667e-05, "loss": 0.3302, "step": 2780 }, { "epoch": 7.44, "grad_norm": 1.145652174949646, "learning_rate": 3.72e-05, "loss": 0.3296, "step": 2790 }, { "epoch": 7.466666666666667, "grad_norm": 1.095531940460205, "learning_rate": 3.733333333333334e-05, "loss": 0.3203, "step": 2800 }, { "epoch": 7.493333333333333, "grad_norm": 0.988767683506012, "learning_rate": 3.7466666666666665e-05, "loss": 0.3708, "step": 2810 }, { "epoch": 7.52, "grad_norm": 1.335120439529419, "learning_rate": 3.76e-05, "loss": 0.351, "step": 2820 }, { "epoch": 7.546666666666667, "grad_norm": 1.0117450952529907, "learning_rate": 3.773333333333334e-05, "loss": 0.3532, "step": 2830 }, { "epoch": 7.573333333333333, "grad_norm": 1.1973203420639038, "learning_rate": 3.786666666666667e-05, "loss": 0.3907, "step": 2840 }, { "epoch": 7.6, "grad_norm": 1.3828959465026855, "learning_rate": 3.8e-05, "loss": 0.3896, "step": 2850 }, { "epoch": 7.626666666666667, "grad_norm": 0.7788476347923279, "learning_rate": 3.8133333333333336e-05, "loss": 0.3396, "step": 2860 }, { "epoch": 7.653333333333333, "grad_norm": 1.0035938024520874, "learning_rate": 3.8266666666666664e-05, "loss": 0.3589, "step": 2870 }, { "epoch": 7.68, "grad_norm": 0.9664866924285889, "learning_rate": 3.8400000000000005e-05, "loss": 0.3619, "step": 2880 }, { "epoch": 7.706666666666667, "grad_norm": 0.9333173632621765, "learning_rate": 3.853333333333334e-05, "loss": 0.3367, "step": 2890 }, { "epoch": 7.733333333333333, "grad_norm": 0.9549736976623535, "learning_rate": 3.866666666666667e-05, "loss": 0.3677, "step": 2900 }, { "epoch": 7.76, "grad_norm": 1.210145115852356, "learning_rate": 3.88e-05, "loss": 0.3352, "step": 2910 }, { "epoch": 7.786666666666667, "grad_norm": 0.7399745583534241, "learning_rate": 3.8933333333333336e-05, "loss": 0.3796, "step": 2920 }, { "epoch": 7.8133333333333335, "grad_norm": 0.7903591394424438, "learning_rate": 3.906666666666667e-05, "loss": 0.3641, "step": 2930 }, { "epoch": 7.84, "grad_norm": 1.0947338342666626, "learning_rate": 3.9200000000000004e-05, "loss": 0.3329, "step": 2940 }, { "epoch": 7.866666666666667, "grad_norm": 1.385036587715149, "learning_rate": 3.933333333333333e-05, "loss": 0.3625, "step": 2950 }, { "epoch": 7.8933333333333335, "grad_norm": 1.1349703073501587, "learning_rate": 3.9466666666666666e-05, "loss": 0.3562, "step": 2960 }, { "epoch": 7.92, "grad_norm": 1.0462818145751953, "learning_rate": 3.960000000000001e-05, "loss": 0.3747, "step": 2970 }, { "epoch": 7.946666666666666, "grad_norm": 1.184927225112915, "learning_rate": 3.9733333333333335e-05, "loss": 0.3355, "step": 2980 }, { "epoch": 7.973333333333334, "grad_norm": 0.7963899970054626, "learning_rate": 3.986666666666667e-05, "loss": 0.3353, "step": 2990 }, { "epoch": 8.0, "grad_norm": 1.0202020406723022, "learning_rate": 4e-05, "loss": 0.3129, "step": 3000 }, { "epoch": 8.0, "eval_accuracy": 0.8735, "eval_loss": 0.3670659065246582, "eval_runtime": 249.9213, "eval_samples_per_second": 48.015, "eval_steps_per_second": 1.5, "step": 3000 }, { "epoch": 8.026666666666667, "grad_norm": 1.1990036964416504, "learning_rate": 4.013333333333333e-05, "loss": 0.324, "step": 3010 }, { "epoch": 8.053333333333333, "grad_norm": 1.1469494104385376, "learning_rate": 4.026666666666667e-05, "loss": 0.3332, "step": 3020 }, { "epoch": 8.08, "grad_norm": 1.1124786138534546, "learning_rate": 4.0400000000000006e-05, "loss": 0.3552, "step": 3030 }, { "epoch": 8.106666666666667, "grad_norm": 0.8214703798294067, "learning_rate": 4.0533333333333334e-05, "loss": 0.3089, "step": 3040 }, { "epoch": 8.133333333333333, "grad_norm": 1.2005770206451416, "learning_rate": 4.066666666666667e-05, "loss": 0.3419, "step": 3050 }, { "epoch": 8.16, "grad_norm": 0.9036789536476135, "learning_rate": 4.08e-05, "loss": 0.3024, "step": 3060 }, { "epoch": 8.186666666666667, "grad_norm": 1.2493318319320679, "learning_rate": 4.093333333333334e-05, "loss": 0.3455, "step": 3070 }, { "epoch": 8.213333333333333, "grad_norm": 0.7038171291351318, "learning_rate": 4.106666666666667e-05, "loss": 0.3569, "step": 3080 }, { "epoch": 8.24, "grad_norm": 1.1271955966949463, "learning_rate": 4.12e-05, "loss": 0.2989, "step": 3090 }, { "epoch": 8.266666666666667, "grad_norm": 0.9328200221061707, "learning_rate": 4.133333333333333e-05, "loss": 0.3237, "step": 3100 }, { "epoch": 8.293333333333333, "grad_norm": 1.0676214694976807, "learning_rate": 4.146666666666667e-05, "loss": 0.301, "step": 3110 }, { "epoch": 8.32, "grad_norm": 0.7362902164459229, "learning_rate": 4.16e-05, "loss": 0.364, "step": 3120 }, { "epoch": 8.346666666666668, "grad_norm": 1.4200522899627686, "learning_rate": 4.1733333333333336e-05, "loss": 0.3329, "step": 3130 }, { "epoch": 8.373333333333333, "grad_norm": 0.8434764742851257, "learning_rate": 4.186666666666667e-05, "loss": 0.3369, "step": 3140 }, { "epoch": 8.4, "grad_norm": 1.1177301406860352, "learning_rate": 4.2e-05, "loss": 0.3113, "step": 3150 }, { "epoch": 8.426666666666666, "grad_norm": 1.1583192348480225, "learning_rate": 4.213333333333334e-05, "loss": 0.3282, "step": 3160 }, { "epoch": 8.453333333333333, "grad_norm": 1.2726008892059326, "learning_rate": 4.226666666666667e-05, "loss": 0.3586, "step": 3170 }, { "epoch": 8.48, "grad_norm": 0.9566053152084351, "learning_rate": 4.24e-05, "loss": 0.314, "step": 3180 }, { "epoch": 8.506666666666666, "grad_norm": 1.1776909828186035, "learning_rate": 4.2533333333333335e-05, "loss": 0.3177, "step": 3190 }, { "epoch": 8.533333333333333, "grad_norm": 0.870840311050415, "learning_rate": 4.266666666666667e-05, "loss": 0.3434, "step": 3200 }, { "epoch": 8.56, "grad_norm": 1.181289553642273, "learning_rate": 4.2800000000000004e-05, "loss": 0.3377, "step": 3210 }, { "epoch": 8.586666666666666, "grad_norm": 1.1119019985198975, "learning_rate": 4.293333333333334e-05, "loss": 0.3224, "step": 3220 }, { "epoch": 8.613333333333333, "grad_norm": 1.068803310394287, "learning_rate": 4.3066666666666665e-05, "loss": 0.3196, "step": 3230 }, { "epoch": 8.64, "grad_norm": 1.019371747970581, "learning_rate": 4.32e-05, "loss": 0.3256, "step": 3240 }, { "epoch": 8.666666666666666, "grad_norm": 1.0368677377700806, "learning_rate": 4.3333333333333334e-05, "loss": 0.2868, "step": 3250 }, { "epoch": 8.693333333333333, "grad_norm": 0.9881754517555237, "learning_rate": 4.346666666666667e-05, "loss": 0.3422, "step": 3260 }, { "epoch": 8.72, "grad_norm": 1.313144326210022, "learning_rate": 4.36e-05, "loss": 0.3383, "step": 3270 }, { "epoch": 8.746666666666666, "grad_norm": 0.9378319978713989, "learning_rate": 4.373333333333334e-05, "loss": 0.3408, "step": 3280 }, { "epoch": 8.773333333333333, "grad_norm": 1.3141783475875854, "learning_rate": 4.3866666666666665e-05, "loss": 0.3411, "step": 3290 }, { "epoch": 8.8, "grad_norm": 0.7097713351249695, "learning_rate": 4.4000000000000006e-05, "loss": 0.3235, "step": 3300 }, { "epoch": 8.826666666666666, "grad_norm": 1.3685508966445923, "learning_rate": 4.413333333333334e-05, "loss": 0.3393, "step": 3310 }, { "epoch": 8.853333333333333, "grad_norm": 1.2369203567504883, "learning_rate": 4.426666666666667e-05, "loss": 0.3581, "step": 3320 }, { "epoch": 8.88, "grad_norm": 1.0951428413391113, "learning_rate": 4.44e-05, "loss": 0.3092, "step": 3330 }, { "epoch": 8.906666666666666, "grad_norm": 1.0099565982818604, "learning_rate": 4.4533333333333336e-05, "loss": 0.3235, "step": 3340 }, { "epoch": 8.933333333333334, "grad_norm": 1.0069804191589355, "learning_rate": 4.466666666666667e-05, "loss": 0.323, "step": 3350 }, { "epoch": 8.96, "grad_norm": 1.22927987575531, "learning_rate": 4.4800000000000005e-05, "loss": 0.3611, "step": 3360 }, { "epoch": 8.986666666666666, "grad_norm": 0.9956313371658325, "learning_rate": 4.493333333333333e-05, "loss": 0.2918, "step": 3370 }, { "epoch": 9.0, "eval_accuracy": 0.8794166666666666, "eval_loss": 0.34058070182800293, "eval_runtime": 250.0227, "eval_samples_per_second": 47.996, "eval_steps_per_second": 1.5, "step": 3375 }, { "epoch": 9.013333333333334, "grad_norm": 1.331423044204712, "learning_rate": 4.5066666666666667e-05, "loss": 0.3068, "step": 3380 }, { "epoch": 9.04, "grad_norm": 0.7804103493690491, "learning_rate": 4.52e-05, "loss": 0.2974, "step": 3390 }, { "epoch": 9.066666666666666, "grad_norm": 1.0219981670379639, "learning_rate": 4.5333333333333335e-05, "loss": 0.3184, "step": 3400 }, { "epoch": 9.093333333333334, "grad_norm": 0.8608193397521973, "learning_rate": 4.546666666666667e-05, "loss": 0.3138, "step": 3410 }, { "epoch": 9.12, "grad_norm": 1.299875020980835, "learning_rate": 4.5600000000000004e-05, "loss": 0.3433, "step": 3420 }, { "epoch": 9.146666666666667, "grad_norm": 1.1877332925796509, "learning_rate": 4.573333333333333e-05, "loss": 0.366, "step": 3430 }, { "epoch": 9.173333333333334, "grad_norm": 0.7962378263473511, "learning_rate": 4.5866666666666666e-05, "loss": 0.2866, "step": 3440 }, { "epoch": 9.2, "grad_norm": 0.6703245639801025, "learning_rate": 4.600000000000001e-05, "loss": 0.301, "step": 3450 }, { "epoch": 9.226666666666667, "grad_norm": 0.9960207343101501, "learning_rate": 4.6133333333333334e-05, "loss": 0.3151, "step": 3460 }, { "epoch": 9.253333333333334, "grad_norm": 0.9815031886100769, "learning_rate": 4.626666666666667e-05, "loss": 0.3238, "step": 3470 }, { "epoch": 9.28, "grad_norm": 0.917545735836029, "learning_rate": 4.64e-05, "loss": 0.3104, "step": 3480 }, { "epoch": 9.306666666666667, "grad_norm": 1.035467267036438, "learning_rate": 4.653333333333334e-05, "loss": 0.3103, "step": 3490 }, { "epoch": 9.333333333333334, "grad_norm": 1.051026463508606, "learning_rate": 4.666666666666667e-05, "loss": 0.3206, "step": 3500 }, { "epoch": 9.36, "grad_norm": 0.7698755860328674, "learning_rate": 4.6800000000000006e-05, "loss": 0.3308, "step": 3510 }, { "epoch": 9.386666666666667, "grad_norm": 0.9168539047241211, "learning_rate": 4.6933333333333333e-05, "loss": 0.3123, "step": 3520 }, { "epoch": 9.413333333333334, "grad_norm": 1.0283716917037964, "learning_rate": 4.706666666666667e-05, "loss": 0.3258, "step": 3530 }, { "epoch": 9.44, "grad_norm": 1.1083451509475708, "learning_rate": 4.72e-05, "loss": 0.3099, "step": 3540 }, { "epoch": 9.466666666666667, "grad_norm": 0.8982616662979126, "learning_rate": 4.7333333333333336e-05, "loss": 0.3027, "step": 3550 }, { "epoch": 9.493333333333334, "grad_norm": 1.0877487659454346, "learning_rate": 4.746666666666667e-05, "loss": 0.2956, "step": 3560 }, { "epoch": 9.52, "grad_norm": 1.191184163093567, "learning_rate": 4.76e-05, "loss": 0.342, "step": 3570 }, { "epoch": 9.546666666666667, "grad_norm": 0.8474676609039307, "learning_rate": 4.773333333333333e-05, "loss": 0.304, "step": 3580 }, { "epoch": 9.573333333333334, "grad_norm": 1.0417426824569702, "learning_rate": 4.7866666666666674e-05, "loss": 0.2965, "step": 3590 }, { "epoch": 9.6, "grad_norm": 1.1297999620437622, "learning_rate": 4.8e-05, "loss": 0.2915, "step": 3600 }, { "epoch": 9.626666666666667, "grad_norm": 1.0381224155426025, "learning_rate": 4.8133333333333336e-05, "loss": 0.2923, "step": 3610 }, { "epoch": 9.653333333333332, "grad_norm": 1.0109899044036865, "learning_rate": 4.826666666666667e-05, "loss": 0.3172, "step": 3620 }, { "epoch": 9.68, "grad_norm": 1.2492258548736572, "learning_rate": 4.8400000000000004e-05, "loss": 0.2996, "step": 3630 }, { "epoch": 9.706666666666667, "grad_norm": 1.4475677013397217, "learning_rate": 4.853333333333334e-05, "loss": 0.3148, "step": 3640 }, { "epoch": 9.733333333333333, "grad_norm": 1.0414727926254272, "learning_rate": 4.866666666666667e-05, "loss": 0.2643, "step": 3650 }, { "epoch": 9.76, "grad_norm": 1.4769376516342163, "learning_rate": 4.88e-05, "loss": 0.3219, "step": 3660 }, { "epoch": 9.786666666666667, "grad_norm": 1.0891233682632446, "learning_rate": 4.8933333333333335e-05, "loss": 0.3165, "step": 3670 }, { "epoch": 9.813333333333333, "grad_norm": 1.1873751878738403, "learning_rate": 4.906666666666667e-05, "loss": 0.3067, "step": 3680 }, { "epoch": 9.84, "grad_norm": 1.2168985605239868, "learning_rate": 4.92e-05, "loss": 0.3141, "step": 3690 }, { "epoch": 9.866666666666667, "grad_norm": 1.4385560750961304, "learning_rate": 4.933333333333334e-05, "loss": 0.2948, "step": 3700 }, { "epoch": 9.893333333333333, "grad_norm": 0.9587885141372681, "learning_rate": 4.9466666666666665e-05, "loss": 0.2999, "step": 3710 }, { "epoch": 9.92, "grad_norm": 0.7605528831481934, "learning_rate": 4.96e-05, "loss": 0.2904, "step": 3720 }, { "epoch": 9.946666666666667, "grad_norm": 0.9197943210601807, "learning_rate": 4.973333333333334e-05, "loss": 0.3002, "step": 3730 }, { "epoch": 9.973333333333333, "grad_norm": 0.9895532131195068, "learning_rate": 4.986666666666667e-05, "loss": 0.3425, "step": 3740 }, { "epoch": 10.0, "grad_norm": 1.0051286220550537, "learning_rate": 5e-05, "loss": 0.3278, "step": 3750 }, { "epoch": 10.0, "eval_accuracy": 0.8774166666666666, "eval_loss": 0.3483765721321106, "eval_runtime": 249.4341, "eval_samples_per_second": 48.109, "eval_steps_per_second": 1.503, "step": 3750 }, { "epoch": 10.026666666666667, "grad_norm": 0.8491660952568054, "learning_rate": 4.998518518518518e-05, "loss": 0.2767, "step": 3760 }, { "epoch": 10.053333333333333, "grad_norm": 1.0298689603805542, "learning_rate": 4.997037037037037e-05, "loss": 0.2852, "step": 3770 }, { "epoch": 10.08, "grad_norm": 1.0634586811065674, "learning_rate": 4.995555555555556e-05, "loss": 0.3026, "step": 3780 }, { "epoch": 10.106666666666667, "grad_norm": 1.0354704856872559, "learning_rate": 4.9940740740740745e-05, "loss": 0.2877, "step": 3790 }, { "epoch": 10.133333333333333, "grad_norm": 1.0123462677001953, "learning_rate": 4.9925925925925926e-05, "loss": 0.3132, "step": 3800 }, { "epoch": 10.16, "grad_norm": 0.8517223596572876, "learning_rate": 4.991111111111111e-05, "loss": 0.2845, "step": 3810 }, { "epoch": 10.186666666666667, "grad_norm": 0.8956115245819092, "learning_rate": 4.9896296296296293e-05, "loss": 0.3102, "step": 3820 }, { "epoch": 10.213333333333333, "grad_norm": 1.0428314208984375, "learning_rate": 4.988148148148149e-05, "loss": 0.3161, "step": 3830 }, { "epoch": 10.24, "grad_norm": 0.9418639540672302, "learning_rate": 4.986666666666667e-05, "loss": 0.325, "step": 3840 }, { "epoch": 10.266666666666667, "grad_norm": 1.0829304456710815, "learning_rate": 4.9851851851851855e-05, "loss": 0.2889, "step": 3850 }, { "epoch": 10.293333333333333, "grad_norm": 0.9718042016029358, "learning_rate": 4.9837037037037036e-05, "loss": 0.3158, "step": 3860 }, { "epoch": 10.32, "grad_norm": 0.8945780992507935, "learning_rate": 4.982222222222222e-05, "loss": 0.3376, "step": 3870 }, { "epoch": 10.346666666666668, "grad_norm": 1.2482484579086304, "learning_rate": 4.980740740740741e-05, "loss": 0.2983, "step": 3880 }, { "epoch": 10.373333333333333, "grad_norm": 0.8141582608222961, "learning_rate": 4.97925925925926e-05, "loss": 0.2929, "step": 3890 }, { "epoch": 10.4, "grad_norm": 0.7104393243789673, "learning_rate": 4.977777777777778e-05, "loss": 0.2917, "step": 3900 }, { "epoch": 10.426666666666666, "grad_norm": 1.1380536556243896, "learning_rate": 4.9762962962962966e-05, "loss": 0.2948, "step": 3910 }, { "epoch": 10.453333333333333, "grad_norm": 1.0419397354125977, "learning_rate": 4.9748148148148146e-05, "loss": 0.2796, "step": 3920 }, { "epoch": 10.48, "grad_norm": 1.1697673797607422, "learning_rate": 4.973333333333334e-05, "loss": 0.2972, "step": 3930 }, { "epoch": 10.506666666666666, "grad_norm": 1.0109014511108398, "learning_rate": 4.971851851851852e-05, "loss": 0.2916, "step": 3940 }, { "epoch": 10.533333333333333, "grad_norm": 0.9663733243942261, "learning_rate": 4.970370370370371e-05, "loss": 0.282, "step": 3950 }, { "epoch": 10.56, "grad_norm": 1.3836638927459717, "learning_rate": 4.968888888888889e-05, "loss": 0.2923, "step": 3960 }, { "epoch": 10.586666666666666, "grad_norm": 0.7263649106025696, "learning_rate": 4.9674074074074076e-05, "loss": 0.3028, "step": 3970 }, { "epoch": 10.613333333333333, "grad_norm": 0.9863650798797607, "learning_rate": 4.9659259259259264e-05, "loss": 0.3059, "step": 3980 }, { "epoch": 10.64, "grad_norm": 1.039373755455017, "learning_rate": 4.964444444444445e-05, "loss": 0.3095, "step": 3990 }, { "epoch": 10.666666666666666, "grad_norm": 0.9459337592124939, "learning_rate": 4.962962962962963e-05, "loss": 0.334, "step": 4000 }, { "epoch": 10.693333333333333, "grad_norm": 0.6720755100250244, "learning_rate": 4.961481481481482e-05, "loss": 0.2931, "step": 4010 }, { "epoch": 10.72, "grad_norm": 1.0891010761260986, "learning_rate": 4.96e-05, "loss": 0.281, "step": 4020 }, { "epoch": 10.746666666666666, "grad_norm": 1.2608108520507812, "learning_rate": 4.958518518518519e-05, "loss": 0.2978, "step": 4030 }, { "epoch": 10.773333333333333, "grad_norm": 1.0872828960418701, "learning_rate": 4.9570370370370374e-05, "loss": 0.2845, "step": 4040 }, { "epoch": 10.8, "grad_norm": 1.4261547327041626, "learning_rate": 4.955555555555556e-05, "loss": 0.2991, "step": 4050 }, { "epoch": 10.826666666666666, "grad_norm": 1.3085424900054932, "learning_rate": 4.954074074074074e-05, "loss": 0.2823, "step": 4060 }, { "epoch": 10.853333333333333, "grad_norm": 0.7995527386665344, "learning_rate": 4.952592592592592e-05, "loss": 0.267, "step": 4070 }, { "epoch": 10.88, "grad_norm": 0.8985316157341003, "learning_rate": 4.951111111111112e-05, "loss": 0.2907, "step": 4080 }, { "epoch": 10.906666666666666, "grad_norm": 0.8624246716499329, "learning_rate": 4.94962962962963e-05, "loss": 0.2791, "step": 4090 }, { "epoch": 10.933333333333334, "grad_norm": 0.9527334570884705, "learning_rate": 4.9481481481481485e-05, "loss": 0.2943, "step": 4100 }, { "epoch": 10.96, "grad_norm": 0.5632626414299011, "learning_rate": 4.9466666666666665e-05, "loss": 0.2531, "step": 4110 }, { "epoch": 10.986666666666666, "grad_norm": 1.0168466567993164, "learning_rate": 4.945185185185185e-05, "loss": 0.2951, "step": 4120 }, { "epoch": 11.0, "eval_accuracy": 0.8813333333333333, "eval_loss": 0.33049798011779785, "eval_runtime": 249.6891, "eval_samples_per_second": 48.06, "eval_steps_per_second": 1.502, "step": 4125 }, { "epoch": 11.013333333333334, "grad_norm": 1.1329760551452637, "learning_rate": 4.943703703703704e-05, "loss": 0.2945, "step": 4130 }, { "epoch": 11.04, "grad_norm": 0.7936837673187256, "learning_rate": 4.942222222222223e-05, "loss": 0.2884, "step": 4140 }, { "epoch": 11.066666666666666, "grad_norm": 1.3211606740951538, "learning_rate": 4.940740740740741e-05, "loss": 0.2503, "step": 4150 }, { "epoch": 11.093333333333334, "grad_norm": 0.750946044921875, "learning_rate": 4.9392592592592595e-05, "loss": 0.2706, "step": 4160 }, { "epoch": 11.12, "grad_norm": 1.0144660472869873, "learning_rate": 4.9377777777777776e-05, "loss": 0.2889, "step": 4170 }, { "epoch": 11.146666666666667, "grad_norm": 1.0185914039611816, "learning_rate": 4.936296296296297e-05, "loss": 0.2771, "step": 4180 }, { "epoch": 11.173333333333334, "grad_norm": 1.0491774082183838, "learning_rate": 4.934814814814815e-05, "loss": 0.2743, "step": 4190 }, { "epoch": 11.2, "grad_norm": 0.9106046557426453, "learning_rate": 4.933333333333334e-05, "loss": 0.2816, "step": 4200 }, { "epoch": 11.226666666666667, "grad_norm": 0.985514223575592, "learning_rate": 4.931851851851852e-05, "loss": 0.2804, "step": 4210 }, { "epoch": 11.253333333333334, "grad_norm": 0.9636727571487427, "learning_rate": 4.9303703703703705e-05, "loss": 0.3098, "step": 4220 }, { "epoch": 11.28, "grad_norm": 1.0055756568908691, "learning_rate": 4.928888888888889e-05, "loss": 0.2865, "step": 4230 }, { "epoch": 11.306666666666667, "grad_norm": 1.032878041267395, "learning_rate": 4.927407407407408e-05, "loss": 0.2618, "step": 4240 }, { "epoch": 11.333333333333334, "grad_norm": 0.9672583341598511, "learning_rate": 4.925925925925926e-05, "loss": 0.2949, "step": 4250 }, { "epoch": 11.36, "grad_norm": 0.6188272833824158, "learning_rate": 4.924444444444445e-05, "loss": 0.2757, "step": 4260 }, { "epoch": 11.386666666666667, "grad_norm": 0.9915037751197815, "learning_rate": 4.922962962962963e-05, "loss": 0.3073, "step": 4270 }, { "epoch": 11.413333333333334, "grad_norm": 1.1850367784500122, "learning_rate": 4.9214814814814816e-05, "loss": 0.3185, "step": 4280 }, { "epoch": 11.44, "grad_norm": 1.137850284576416, "learning_rate": 4.92e-05, "loss": 0.2654, "step": 4290 }, { "epoch": 11.466666666666667, "grad_norm": 0.8076909184455872, "learning_rate": 4.918518518518519e-05, "loss": 0.2792, "step": 4300 }, { "epoch": 11.493333333333334, "grad_norm": 1.014146327972412, "learning_rate": 4.917037037037037e-05, "loss": 0.2832, "step": 4310 }, { "epoch": 11.52, "grad_norm": 0.6529107093811035, "learning_rate": 4.915555555555556e-05, "loss": 0.2933, "step": 4320 }, { "epoch": 11.546666666666667, "grad_norm": 0.8933963179588318, "learning_rate": 4.9140740740740746e-05, "loss": 0.3036, "step": 4330 }, { "epoch": 11.573333333333334, "grad_norm": 0.8025181293487549, "learning_rate": 4.912592592592593e-05, "loss": 0.288, "step": 4340 }, { "epoch": 11.6, "grad_norm": 0.8378201723098755, "learning_rate": 4.9111111111111114e-05, "loss": 0.2609, "step": 4350 }, { "epoch": 11.626666666666667, "grad_norm": 1.2006419897079468, "learning_rate": 4.90962962962963e-05, "loss": 0.2834, "step": 4360 }, { "epoch": 11.653333333333332, "grad_norm": 0.883449912071228, "learning_rate": 4.908148148148148e-05, "loss": 0.2972, "step": 4370 }, { "epoch": 11.68, "grad_norm": 1.1643561124801636, "learning_rate": 4.906666666666667e-05, "loss": 0.28, "step": 4380 }, { "epoch": 11.706666666666667, "grad_norm": 0.8465391397476196, "learning_rate": 4.9051851851851856e-05, "loss": 0.2626, "step": 4390 }, { "epoch": 11.733333333333333, "grad_norm": 0.8113766312599182, "learning_rate": 4.903703703703704e-05, "loss": 0.2754, "step": 4400 }, { "epoch": 11.76, "grad_norm": 1.1312212944030762, "learning_rate": 4.9022222222222224e-05, "loss": 0.2874, "step": 4410 }, { "epoch": 11.786666666666667, "grad_norm": 0.9732006192207336, "learning_rate": 4.9007407407407405e-05, "loss": 0.2585, "step": 4420 }, { "epoch": 11.813333333333333, "grad_norm": 0.9120191335678101, "learning_rate": 4.89925925925926e-05, "loss": 0.2626, "step": 4430 }, { "epoch": 11.84, "grad_norm": 0.82260662317276, "learning_rate": 4.897777777777778e-05, "loss": 0.2612, "step": 4440 }, { "epoch": 11.866666666666667, "grad_norm": 0.853863000869751, "learning_rate": 4.896296296296297e-05, "loss": 0.2579, "step": 4450 }, { "epoch": 11.893333333333333, "grad_norm": 0.8941542506217957, "learning_rate": 4.894814814814815e-05, "loss": 0.2431, "step": 4460 }, { "epoch": 11.92, "grad_norm": 1.0879697799682617, "learning_rate": 4.8933333333333335e-05, "loss": 0.2936, "step": 4470 }, { "epoch": 11.946666666666667, "grad_norm": 0.7603148818016052, "learning_rate": 4.891851851851852e-05, "loss": 0.2454, "step": 4480 }, { "epoch": 11.973333333333333, "grad_norm": 1.0221105813980103, "learning_rate": 4.890370370370371e-05, "loss": 0.2402, "step": 4490 }, { "epoch": 12.0, "grad_norm": 0.8571638464927673, "learning_rate": 4.888888888888889e-05, "loss": 0.278, "step": 4500 }, { "epoch": 12.0, "eval_accuracy": 0.8811666666666667, "eval_loss": 0.3329264223575592, "eval_runtime": 249.4858, "eval_samples_per_second": 48.099, "eval_steps_per_second": 1.503, "step": 4500 }, { "epoch": 12.026666666666667, "grad_norm": 1.126734733581543, "learning_rate": 4.887407407407408e-05, "loss": 0.2715, "step": 4510 }, { "epoch": 12.053333333333333, "grad_norm": 1.0949597358703613, "learning_rate": 4.885925925925926e-05, "loss": 0.3059, "step": 4520 }, { "epoch": 12.08, "grad_norm": 0.9064618945121765, "learning_rate": 4.8844444444444445e-05, "loss": 0.2748, "step": 4530 }, { "epoch": 12.106666666666667, "grad_norm": 1.054699420928955, "learning_rate": 4.882962962962963e-05, "loss": 0.2541, "step": 4540 }, { "epoch": 12.133333333333333, "grad_norm": 1.0697853565216064, "learning_rate": 4.881481481481482e-05, "loss": 0.2448, "step": 4550 }, { "epoch": 12.16, "grad_norm": 0.7116659879684448, "learning_rate": 4.88e-05, "loss": 0.2448, "step": 4560 }, { "epoch": 12.186666666666667, "grad_norm": 0.8856263756752014, "learning_rate": 4.878518518518519e-05, "loss": 0.2794, "step": 4570 }, { "epoch": 12.213333333333333, "grad_norm": 0.9276167750358582, "learning_rate": 4.8770370370370375e-05, "loss": 0.2662, "step": 4580 }, { "epoch": 12.24, "grad_norm": 0.9007221460342407, "learning_rate": 4.875555555555556e-05, "loss": 0.239, "step": 4590 }, { "epoch": 12.266666666666667, "grad_norm": 1.0693758726119995, "learning_rate": 4.874074074074074e-05, "loss": 0.2466, "step": 4600 }, { "epoch": 12.293333333333333, "grad_norm": 0.9888723492622375, "learning_rate": 4.872592592592593e-05, "loss": 0.2629, "step": 4610 }, { "epoch": 12.32, "grad_norm": 1.1285632848739624, "learning_rate": 4.871111111111111e-05, "loss": 0.2445, "step": 4620 }, { "epoch": 12.346666666666668, "grad_norm": 1.2479591369628906, "learning_rate": 4.86962962962963e-05, "loss": 0.2818, "step": 4630 }, { "epoch": 12.373333333333333, "grad_norm": 0.888307511806488, "learning_rate": 4.8681481481481485e-05, "loss": 0.2595, "step": 4640 }, { "epoch": 12.4, "grad_norm": 0.939766526222229, "learning_rate": 4.866666666666667e-05, "loss": 0.254, "step": 4650 }, { "epoch": 12.426666666666666, "grad_norm": 0.9327693581581116, "learning_rate": 4.865185185185185e-05, "loss": 0.256, "step": 4660 }, { "epoch": 12.453333333333333, "grad_norm": 0.5767496228218079, "learning_rate": 4.863703703703704e-05, "loss": 0.2647, "step": 4670 }, { "epoch": 12.48, "grad_norm": 1.1379495859146118, "learning_rate": 4.862222222222222e-05, "loss": 0.2787, "step": 4680 }, { "epoch": 12.506666666666666, "grad_norm": 0.8261799812316895, "learning_rate": 4.860740740740741e-05, "loss": 0.243, "step": 4690 }, { "epoch": 12.533333333333333, "grad_norm": 0.7199703454971313, "learning_rate": 4.8592592592592596e-05, "loss": 0.267, "step": 4700 }, { "epoch": 12.56, "grad_norm": 0.843106210231781, "learning_rate": 4.8577777777777776e-05, "loss": 0.2858, "step": 4710 }, { "epoch": 12.586666666666666, "grad_norm": 0.9174416661262512, "learning_rate": 4.8562962962962964e-05, "loss": 0.2734, "step": 4720 }, { "epoch": 12.613333333333333, "grad_norm": 0.9142345190048218, "learning_rate": 4.854814814814815e-05, "loss": 0.2426, "step": 4730 }, { "epoch": 12.64, "grad_norm": 0.7256776690483093, "learning_rate": 4.853333333333334e-05, "loss": 0.268, "step": 4740 }, { "epoch": 12.666666666666666, "grad_norm": 0.8155712485313416, "learning_rate": 4.851851851851852e-05, "loss": 0.2605, "step": 4750 }, { "epoch": 12.693333333333333, "grad_norm": 1.0268746614456177, "learning_rate": 4.8503703703703706e-05, "loss": 0.2592, "step": 4760 }, { "epoch": 12.72, "grad_norm": 1.0284401178359985, "learning_rate": 4.848888888888889e-05, "loss": 0.2465, "step": 4770 }, { "epoch": 12.746666666666666, "grad_norm": 0.9450557827949524, "learning_rate": 4.8474074074074074e-05, "loss": 0.2594, "step": 4780 }, { "epoch": 12.773333333333333, "grad_norm": 0.7002690434455872, "learning_rate": 4.845925925925926e-05, "loss": 0.2314, "step": 4790 }, { "epoch": 12.8, "grad_norm": 1.3233262300491333, "learning_rate": 4.844444444444445e-05, "loss": 0.2488, "step": 4800 }, { "epoch": 12.826666666666666, "grad_norm": 1.1148347854614258, "learning_rate": 4.842962962962963e-05, "loss": 0.2747, "step": 4810 }, { "epoch": 12.853333333333333, "grad_norm": 0.7571829557418823, "learning_rate": 4.841481481481482e-05, "loss": 0.2389, "step": 4820 }, { "epoch": 12.88, "grad_norm": 0.9332305788993835, "learning_rate": 4.8400000000000004e-05, "loss": 0.241, "step": 4830 }, { "epoch": 12.906666666666666, "grad_norm": 1.1315864324569702, "learning_rate": 4.838518518518519e-05, "loss": 0.2931, "step": 4840 }, { "epoch": 12.933333333333334, "grad_norm": 0.8548458814620972, "learning_rate": 4.837037037037037e-05, "loss": 0.2529, "step": 4850 }, { "epoch": 12.96, "grad_norm": 0.7947821021080017, "learning_rate": 4.835555555555556e-05, "loss": 0.2767, "step": 4860 }, { "epoch": 12.986666666666666, "grad_norm": 1.2046189308166504, "learning_rate": 4.834074074074074e-05, "loss": 0.3618, "step": 4870 }, { "epoch": 13.0, "eval_accuracy": 0.8835833333333334, "eval_loss": 0.3177317678928375, "eval_runtime": 249.4484, "eval_samples_per_second": 48.106, "eval_steps_per_second": 1.503, "step": 4875 }, { "epoch": 13.013333333333334, "grad_norm": 0.7338574528694153, "learning_rate": 4.832592592592593e-05, "loss": 0.2784, "step": 4880 }, { "epoch": 13.04, "grad_norm": 0.729314386844635, "learning_rate": 4.8311111111111115e-05, "loss": 0.2239, "step": 4890 }, { "epoch": 13.066666666666666, "grad_norm": 0.64952152967453, "learning_rate": 4.82962962962963e-05, "loss": 0.2318, "step": 4900 }, { "epoch": 13.093333333333334, "grad_norm": 0.8439804911613464, "learning_rate": 4.828148148148148e-05, "loss": 0.2338, "step": 4910 }, { "epoch": 13.12, "grad_norm": 0.8302816152572632, "learning_rate": 4.826666666666667e-05, "loss": 0.2594, "step": 4920 }, { "epoch": 13.146666666666667, "grad_norm": 1.2588374614715576, "learning_rate": 4.825185185185185e-05, "loss": 0.2298, "step": 4930 }, { "epoch": 13.173333333333334, "grad_norm": 0.9967134594917297, "learning_rate": 4.8237037037037045e-05, "loss": 0.2415, "step": 4940 }, { "epoch": 13.2, "grad_norm": 0.7642468214035034, "learning_rate": 4.8222222222222225e-05, "loss": 0.2304, "step": 4950 }, { "epoch": 13.226666666666667, "grad_norm": 0.9817863702774048, "learning_rate": 4.820740740740741e-05, "loss": 0.2736, "step": 4960 }, { "epoch": 13.253333333333334, "grad_norm": 0.6865203976631165, "learning_rate": 4.819259259259259e-05, "loss": 0.2337, "step": 4970 }, { "epoch": 13.28, "grad_norm": 0.850912868976593, "learning_rate": 4.817777777777778e-05, "loss": 0.2265, "step": 4980 }, { "epoch": 13.306666666666667, "grad_norm": 0.797937273979187, "learning_rate": 4.816296296296297e-05, "loss": 0.2371, "step": 4990 }, { "epoch": 13.333333333333334, "grad_norm": 0.7671889662742615, "learning_rate": 4.814814814814815e-05, "loss": 0.242, "step": 5000 }, { "epoch": 13.36, "grad_norm": 1.253916621208191, "learning_rate": 4.8133333333333336e-05, "loss": 0.2642, "step": 5010 }, { "epoch": 13.386666666666667, "grad_norm": 0.7739356756210327, "learning_rate": 4.8118518518518516e-05, "loss": 0.2236, "step": 5020 }, { "epoch": 13.413333333333334, "grad_norm": 1.0052436590194702, "learning_rate": 4.8103703703703703e-05, "loss": 0.2335, "step": 5030 }, { "epoch": 13.44, "grad_norm": 0.6017870306968689, "learning_rate": 4.808888888888889e-05, "loss": 0.2408, "step": 5040 }, { "epoch": 13.466666666666667, "grad_norm": 0.8387773633003235, "learning_rate": 4.807407407407408e-05, "loss": 0.261, "step": 5050 }, { "epoch": 13.493333333333334, "grad_norm": 1.0903067588806152, "learning_rate": 4.805925925925926e-05, "loss": 0.2802, "step": 5060 }, { "epoch": 13.52, "grad_norm": 1.0829507112503052, "learning_rate": 4.8044444444444446e-05, "loss": 0.221, "step": 5070 }, { "epoch": 13.546666666666667, "grad_norm": 0.752372145652771, "learning_rate": 4.802962962962963e-05, "loss": 0.2392, "step": 5080 }, { "epoch": 13.573333333333334, "grad_norm": 0.884834349155426, "learning_rate": 4.801481481481482e-05, "loss": 0.2359, "step": 5090 }, { "epoch": 13.6, "grad_norm": 1.199129581451416, "learning_rate": 4.8e-05, "loss": 0.2713, "step": 5100 }, { "epoch": 13.626666666666667, "grad_norm": 0.9208950400352478, "learning_rate": 4.798518518518519e-05, "loss": 0.243, "step": 5110 }, { "epoch": 13.653333333333332, "grad_norm": 1.113991141319275, "learning_rate": 4.797037037037037e-05, "loss": 0.2388, "step": 5120 }, { "epoch": 13.68, "grad_norm": 0.7170684337615967, "learning_rate": 4.7955555555555556e-05, "loss": 0.2571, "step": 5130 }, { "epoch": 13.706666666666667, "grad_norm": 0.7488929033279419, "learning_rate": 4.7940740740740744e-05, "loss": 0.2355, "step": 5140 }, { "epoch": 13.733333333333333, "grad_norm": 0.9703030586242676, "learning_rate": 4.792592592592593e-05, "loss": 0.2772, "step": 5150 }, { "epoch": 13.76, "grad_norm": 0.6981998085975647, "learning_rate": 4.791111111111111e-05, "loss": 0.2205, "step": 5160 }, { "epoch": 13.786666666666667, "grad_norm": 1.1885621547698975, "learning_rate": 4.78962962962963e-05, "loss": 0.2315, "step": 5170 }, { "epoch": 13.813333333333333, "grad_norm": 0.8561756610870361, "learning_rate": 4.788148148148148e-05, "loss": 0.2619, "step": 5180 }, { "epoch": 13.84, "grad_norm": 0.6427872776985168, "learning_rate": 4.7866666666666674e-05, "loss": 0.2412, "step": 5190 }, { "epoch": 13.866666666666667, "grad_norm": 0.7743550539016724, "learning_rate": 4.7851851851851854e-05, "loss": 0.226, "step": 5200 }, { "epoch": 13.893333333333333, "grad_norm": 1.053391695022583, "learning_rate": 4.783703703703704e-05, "loss": 0.2573, "step": 5210 }, { "epoch": 13.92, "grad_norm": 0.7874213457107544, "learning_rate": 4.782222222222222e-05, "loss": 0.2731, "step": 5220 }, { "epoch": 13.946666666666667, "grad_norm": 0.8373676538467407, "learning_rate": 4.780740740740741e-05, "loss": 0.2985, "step": 5230 }, { "epoch": 13.973333333333333, "grad_norm": 1.0595630407333374, "learning_rate": 4.77925925925926e-05, "loss": 0.2804, "step": 5240 }, { "epoch": 14.0, "grad_norm": 0.9218273758888245, "learning_rate": 4.7777777777777784e-05, "loss": 0.2448, "step": 5250 }, { "epoch": 14.0, "eval_accuracy": 0.8925833333333333, "eval_loss": 0.30693358182907104, "eval_runtime": 249.8608, "eval_samples_per_second": 48.027, "eval_steps_per_second": 1.501, "step": 5250 }, { "epoch": 14.026666666666667, "grad_norm": 1.2409112453460693, "learning_rate": 4.7762962962962965e-05, "loss": 0.2172, "step": 5260 }, { "epoch": 14.053333333333333, "grad_norm": 0.7531927227973938, "learning_rate": 4.774814814814815e-05, "loss": 0.2561, "step": 5270 }, { "epoch": 14.08, "grad_norm": 1.0628620386123657, "learning_rate": 4.773333333333333e-05, "loss": 0.268, "step": 5280 }, { "epoch": 14.106666666666667, "grad_norm": 0.810427725315094, "learning_rate": 4.771851851851853e-05, "loss": 0.2286, "step": 5290 }, { "epoch": 14.133333333333333, "grad_norm": 0.6282049417495728, "learning_rate": 4.770370370370371e-05, "loss": 0.2479, "step": 5300 }, { "epoch": 14.16, "grad_norm": 0.8406832218170166, "learning_rate": 4.768888888888889e-05, "loss": 0.2246, "step": 5310 }, { "epoch": 14.186666666666667, "grad_norm": 1.1238325834274292, "learning_rate": 4.7674074074074075e-05, "loss": 0.2667, "step": 5320 }, { "epoch": 14.213333333333333, "grad_norm": 1.0784190893173218, "learning_rate": 4.7659259259259256e-05, "loss": 0.2615, "step": 5330 }, { "epoch": 14.24, "grad_norm": 0.7037746906280518, "learning_rate": 4.764444444444445e-05, "loss": 0.2359, "step": 5340 }, { "epoch": 14.266666666666667, "grad_norm": 0.9757088422775269, "learning_rate": 4.762962962962963e-05, "loss": 0.2232, "step": 5350 }, { "epoch": 14.293333333333333, "grad_norm": 0.9441906213760376, "learning_rate": 4.761481481481482e-05, "loss": 0.2501, "step": 5360 }, { "epoch": 14.32, "grad_norm": 1.210986852645874, "learning_rate": 4.76e-05, "loss": 0.2329, "step": 5370 }, { "epoch": 14.346666666666668, "grad_norm": 0.9474188685417175, "learning_rate": 4.7585185185185186e-05, "loss": 0.2453, "step": 5380 }, { "epoch": 14.373333333333333, "grad_norm": 0.6864265203475952, "learning_rate": 4.757037037037037e-05, "loss": 0.2601, "step": 5390 }, { "epoch": 14.4, "grad_norm": 1.1126164197921753, "learning_rate": 4.755555555555556e-05, "loss": 0.2385, "step": 5400 }, { "epoch": 14.426666666666666, "grad_norm": 0.9865297675132751, "learning_rate": 4.754074074074074e-05, "loss": 0.2057, "step": 5410 }, { "epoch": 14.453333333333333, "grad_norm": 1.42702054977417, "learning_rate": 4.752592592592593e-05, "loss": 0.2158, "step": 5420 }, { "epoch": 14.48, "grad_norm": 0.8993312120437622, "learning_rate": 4.751111111111111e-05, "loss": 0.2436, "step": 5430 }, { "epoch": 14.506666666666666, "grad_norm": 0.9271665215492249, "learning_rate": 4.74962962962963e-05, "loss": 0.2507, "step": 5440 }, { "epoch": 14.533333333333333, "grad_norm": 0.9794839024543762, "learning_rate": 4.7481481481481483e-05, "loss": 0.2034, "step": 5450 }, { "epoch": 14.56, "grad_norm": 0.7170578241348267, "learning_rate": 4.746666666666667e-05, "loss": 0.2525, "step": 5460 }, { "epoch": 14.586666666666666, "grad_norm": 1.1436090469360352, "learning_rate": 4.745185185185185e-05, "loss": 0.2485, "step": 5470 }, { "epoch": 14.613333333333333, "grad_norm": 1.1626040935516357, "learning_rate": 4.743703703703704e-05, "loss": 0.2815, "step": 5480 }, { "epoch": 14.64, "grad_norm": 0.6691455245018005, "learning_rate": 4.7422222222222226e-05, "loss": 0.2357, "step": 5490 }, { "epoch": 14.666666666666666, "grad_norm": 0.7307310104370117, "learning_rate": 4.740740740740741e-05, "loss": 0.2381, "step": 5500 }, { "epoch": 14.693333333333333, "grad_norm": 0.7989517450332642, "learning_rate": 4.7392592592592594e-05, "loss": 0.2347, "step": 5510 }, { "epoch": 14.72, "grad_norm": 0.9122467637062073, "learning_rate": 4.737777777777778e-05, "loss": 0.2322, "step": 5520 }, { "epoch": 14.746666666666666, "grad_norm": 0.9169259071350098, "learning_rate": 4.736296296296296e-05, "loss": 0.2282, "step": 5530 }, { "epoch": 14.773333333333333, "grad_norm": 1.1285344362258911, "learning_rate": 4.7348148148148156e-05, "loss": 0.2417, "step": 5540 }, { "epoch": 14.8, "grad_norm": 0.8034947514533997, "learning_rate": 4.7333333333333336e-05, "loss": 0.1917, "step": 5550 }, { "epoch": 14.826666666666666, "grad_norm": 1.2625291347503662, "learning_rate": 4.7318518518518524e-05, "loss": 0.2726, "step": 5560 }, { "epoch": 14.853333333333333, "grad_norm": 0.8303372859954834, "learning_rate": 4.7303703703703704e-05, "loss": 0.2483, "step": 5570 }, { "epoch": 14.88, "grad_norm": 0.9976439476013184, "learning_rate": 4.728888888888889e-05, "loss": 0.2252, "step": 5580 }, { "epoch": 14.906666666666666, "grad_norm": 0.8537195324897766, "learning_rate": 4.727407407407408e-05, "loss": 0.2504, "step": 5590 }, { "epoch": 14.933333333333334, "grad_norm": 0.8124051690101624, "learning_rate": 4.7259259259259266e-05, "loss": 0.2387, "step": 5600 }, { "epoch": 14.96, "grad_norm": 0.8286536335945129, "learning_rate": 4.724444444444445e-05, "loss": 0.2044, "step": 5610 }, { "epoch": 14.986666666666666, "grad_norm": 0.6831819415092468, "learning_rate": 4.722962962962963e-05, "loss": 0.2256, "step": 5620 }, { "epoch": 15.0, "eval_accuracy": 0.895, "eval_loss": 0.305128812789917, "eval_runtime": 250.4452, "eval_samples_per_second": 47.915, "eval_steps_per_second": 1.497, "step": 5625 }, { "epoch": 15.013333333333334, "grad_norm": 0.8780859112739563, "learning_rate": 4.7214814814814815e-05, "loss": 0.1993, "step": 5630 }, { "epoch": 15.04, "grad_norm": 1.15898597240448, "learning_rate": 4.72e-05, "loss": 0.224, "step": 5640 }, { "epoch": 15.066666666666666, "grad_norm": 1.075177550315857, "learning_rate": 4.718518518518519e-05, "loss": 0.2336, "step": 5650 }, { "epoch": 15.093333333333334, "grad_norm": 0.7190340757369995, "learning_rate": 4.717037037037037e-05, "loss": 0.2276, "step": 5660 }, { "epoch": 15.12, "grad_norm": 0.8303045630455017, "learning_rate": 4.715555555555556e-05, "loss": 0.2415, "step": 5670 }, { "epoch": 15.146666666666667, "grad_norm": 0.8324750661849976, "learning_rate": 4.714074074074074e-05, "loss": 0.2528, "step": 5680 }, { "epoch": 15.173333333333334, "grad_norm": 1.0571017265319824, "learning_rate": 4.712592592592593e-05, "loss": 0.2206, "step": 5690 }, { "epoch": 15.2, "grad_norm": 1.1469885110855103, "learning_rate": 4.711111111111111e-05, "loss": 0.237, "step": 5700 }, { "epoch": 15.226666666666667, "grad_norm": 0.7209925651550293, "learning_rate": 4.70962962962963e-05, "loss": 0.2493, "step": 5710 }, { "epoch": 15.253333333333334, "grad_norm": 1.4051053524017334, "learning_rate": 4.708148148148148e-05, "loss": 0.1988, "step": 5720 }, { "epoch": 15.28, "grad_norm": 0.8226048946380615, "learning_rate": 4.706666666666667e-05, "loss": 0.241, "step": 5730 }, { "epoch": 15.306666666666667, "grad_norm": 0.8640329241752625, "learning_rate": 4.7051851851851855e-05, "loss": 0.2015, "step": 5740 }, { "epoch": 15.333333333333334, "grad_norm": 1.0002055168151855, "learning_rate": 4.703703703703704e-05, "loss": 0.2489, "step": 5750 }, { "epoch": 15.36, "grad_norm": 0.9465985894203186, "learning_rate": 4.702222222222222e-05, "loss": 0.217, "step": 5760 }, { "epoch": 15.386666666666667, "grad_norm": 1.2353829145431519, "learning_rate": 4.700740740740741e-05, "loss": 0.2383, "step": 5770 }, { "epoch": 15.413333333333334, "grad_norm": 0.9031379222869873, "learning_rate": 4.699259259259259e-05, "loss": 0.2399, "step": 5780 }, { "epoch": 15.44, "grad_norm": 0.9846685528755188, "learning_rate": 4.6977777777777785e-05, "loss": 0.2661, "step": 5790 }, { "epoch": 15.466666666666667, "grad_norm": 0.9312131404876709, "learning_rate": 4.6962962962962966e-05, "loss": 0.2157, "step": 5800 }, { "epoch": 15.493333333333334, "grad_norm": 0.9156227707862854, "learning_rate": 4.694814814814815e-05, "loss": 0.2248, "step": 5810 }, { "epoch": 15.52, "grad_norm": 0.9699175357818604, "learning_rate": 4.6933333333333333e-05, "loss": 0.2347, "step": 5820 }, { "epoch": 15.546666666666667, "grad_norm": 1.1148622035980225, "learning_rate": 4.691851851851852e-05, "loss": 0.241, "step": 5830 }, { "epoch": 15.573333333333334, "grad_norm": 0.8843104243278503, "learning_rate": 4.690370370370371e-05, "loss": 0.217, "step": 5840 }, { "epoch": 15.6, "grad_norm": 1.0564892292022705, "learning_rate": 4.6888888888888895e-05, "loss": 0.2354, "step": 5850 }, { "epoch": 15.626666666666667, "grad_norm": 0.9679903984069824, "learning_rate": 4.6874074074074076e-05, "loss": 0.2365, "step": 5860 }, { "epoch": 15.653333333333332, "grad_norm": 1.2783359289169312, "learning_rate": 4.685925925925926e-05, "loss": 0.2255, "step": 5870 }, { "epoch": 15.68, "grad_norm": 0.748306930065155, "learning_rate": 4.6844444444444444e-05, "loss": 0.2017, "step": 5880 }, { "epoch": 15.706666666666667, "grad_norm": 1.0005475282669067, "learning_rate": 4.682962962962963e-05, "loss": 0.2301, "step": 5890 }, { "epoch": 15.733333333333333, "grad_norm": 0.9688641428947449, "learning_rate": 4.681481481481482e-05, "loss": 0.2319, "step": 5900 }, { "epoch": 15.76, "grad_norm": 0.977564811706543, "learning_rate": 4.6800000000000006e-05, "loss": 0.222, "step": 5910 }, { "epoch": 15.786666666666667, "grad_norm": 0.8027255535125732, "learning_rate": 4.6785185185185186e-05, "loss": 0.2346, "step": 5920 }, { "epoch": 15.813333333333333, "grad_norm": 0.8266276717185974, "learning_rate": 4.677037037037037e-05, "loss": 0.2228, "step": 5930 }, { "epoch": 15.84, "grad_norm": 0.9315988421440125, "learning_rate": 4.675555555555556e-05, "loss": 0.2323, "step": 5940 }, { "epoch": 15.866666666666667, "grad_norm": 0.9123389720916748, "learning_rate": 4.674074074074074e-05, "loss": 0.2102, "step": 5950 }, { "epoch": 15.893333333333333, "grad_norm": 0.7363046407699585, "learning_rate": 4.672592592592593e-05, "loss": 0.2461, "step": 5960 }, { "epoch": 15.92, "grad_norm": 0.8314365744590759, "learning_rate": 4.671111111111111e-05, "loss": 0.1871, "step": 5970 }, { "epoch": 15.946666666666667, "grad_norm": 0.5943475365638733, "learning_rate": 4.66962962962963e-05, "loss": 0.2433, "step": 5980 }, { "epoch": 15.973333333333333, "grad_norm": 1.1373237371444702, "learning_rate": 4.6681481481481484e-05, "loss": 0.2252, "step": 5990 }, { "epoch": 16.0, "grad_norm": 1.013159155845642, "learning_rate": 4.666666666666667e-05, "loss": 0.2345, "step": 6000 }, { "epoch": 16.0, "eval_accuracy": 0.8869166666666667, "eval_loss": 0.3172546923160553, "eval_runtime": 250.0354, "eval_samples_per_second": 47.993, "eval_steps_per_second": 1.5, "step": 6000 }, { "epoch": 16.026666666666667, "grad_norm": 0.5933257937431335, "learning_rate": 4.665185185185185e-05, "loss": 0.1982, "step": 6010 }, { "epoch": 16.053333333333335, "grad_norm": 0.6856117248535156, "learning_rate": 4.663703703703704e-05, "loss": 0.2018, "step": 6020 }, { "epoch": 16.08, "grad_norm": 0.952616274356842, "learning_rate": 4.662222222222222e-05, "loss": 0.2311, "step": 6030 }, { "epoch": 16.106666666666666, "grad_norm": 0.873878538608551, "learning_rate": 4.660740740740741e-05, "loss": 0.2194, "step": 6040 }, { "epoch": 16.133333333333333, "grad_norm": 0.7192165851593018, "learning_rate": 4.6592592592592595e-05, "loss": 0.214, "step": 6050 }, { "epoch": 16.16, "grad_norm": 0.7372754216194153, "learning_rate": 4.657777777777778e-05, "loss": 0.2287, "step": 6060 }, { "epoch": 16.186666666666667, "grad_norm": 1.0513696670532227, "learning_rate": 4.656296296296296e-05, "loss": 0.2246, "step": 6070 }, { "epoch": 16.213333333333335, "grad_norm": 0.9082813262939453, "learning_rate": 4.654814814814815e-05, "loss": 0.2133, "step": 6080 }, { "epoch": 16.24, "grad_norm": 1.0280488729476929, "learning_rate": 4.653333333333334e-05, "loss": 0.2253, "step": 6090 }, { "epoch": 16.266666666666666, "grad_norm": 0.6344209909439087, "learning_rate": 4.6518518518518525e-05, "loss": 0.23, "step": 6100 }, { "epoch": 16.293333333333333, "grad_norm": 0.8463193774223328, "learning_rate": 4.6503703703703705e-05, "loss": 0.2062, "step": 6110 }, { "epoch": 16.32, "grad_norm": 1.276474118232727, "learning_rate": 4.648888888888889e-05, "loss": 0.2177, "step": 6120 }, { "epoch": 16.346666666666668, "grad_norm": 0.983705997467041, "learning_rate": 4.647407407407407e-05, "loss": 0.252, "step": 6130 }, { "epoch": 16.373333333333335, "grad_norm": 1.0397183895111084, "learning_rate": 4.645925925925926e-05, "loss": 0.2137, "step": 6140 }, { "epoch": 16.4, "grad_norm": 0.6958578824996948, "learning_rate": 4.644444444444445e-05, "loss": 0.2029, "step": 6150 }, { "epoch": 16.426666666666666, "grad_norm": 0.7723661661148071, "learning_rate": 4.6429629629629635e-05, "loss": 0.2035, "step": 6160 }, { "epoch": 16.453333333333333, "grad_norm": 0.7995575070381165, "learning_rate": 4.6414814814814816e-05, "loss": 0.2244, "step": 6170 }, { "epoch": 16.48, "grad_norm": 0.8854344487190247, "learning_rate": 4.64e-05, "loss": 0.2211, "step": 6180 }, { "epoch": 16.506666666666668, "grad_norm": 0.9779818654060364, "learning_rate": 4.638518518518519e-05, "loss": 0.2238, "step": 6190 }, { "epoch": 16.533333333333335, "grad_norm": 1.0446619987487793, "learning_rate": 4.637037037037038e-05, "loss": 0.2309, "step": 6200 }, { "epoch": 16.56, "grad_norm": 1.2140849828720093, "learning_rate": 4.635555555555556e-05, "loss": 0.2527, "step": 6210 }, { "epoch": 16.586666666666666, "grad_norm": 0.6466585397720337, "learning_rate": 4.6340740740740746e-05, "loss": 0.1961, "step": 6220 }, { "epoch": 16.613333333333333, "grad_norm": 0.8170985579490662, "learning_rate": 4.6325925925925926e-05, "loss": 0.2212, "step": 6230 }, { "epoch": 16.64, "grad_norm": 1.0058077573776245, "learning_rate": 4.6311111111111113e-05, "loss": 0.2334, "step": 6240 }, { "epoch": 16.666666666666668, "grad_norm": 0.8503581881523132, "learning_rate": 4.62962962962963e-05, "loss": 0.2354, "step": 6250 }, { "epoch": 16.693333333333335, "grad_norm": 1.0003212690353394, "learning_rate": 4.628148148148148e-05, "loss": 0.24, "step": 6260 }, { "epoch": 16.72, "grad_norm": 0.8633155226707458, "learning_rate": 4.626666666666667e-05, "loss": 0.236, "step": 6270 }, { "epoch": 16.746666666666666, "grad_norm": 0.5616276264190674, "learning_rate": 4.625185185185185e-05, "loss": 0.2056, "step": 6280 }, { "epoch": 16.773333333333333, "grad_norm": 0.8033865094184875, "learning_rate": 4.6237037037037037e-05, "loss": 0.2031, "step": 6290 }, { "epoch": 16.8, "grad_norm": 1.333404779434204, "learning_rate": 4.6222222222222224e-05, "loss": 0.2149, "step": 6300 }, { "epoch": 16.826666666666668, "grad_norm": 1.1390050649642944, "learning_rate": 4.620740740740741e-05, "loss": 0.2059, "step": 6310 }, { "epoch": 16.85333333333333, "grad_norm": 1.1555438041687012, "learning_rate": 4.619259259259259e-05, "loss": 0.229, "step": 6320 }, { "epoch": 16.88, "grad_norm": 0.8743488192558289, "learning_rate": 4.617777777777778e-05, "loss": 0.2045, "step": 6330 }, { "epoch": 16.906666666666666, "grad_norm": 0.9817400574684143, "learning_rate": 4.6162962962962966e-05, "loss": 0.2247, "step": 6340 }, { "epoch": 16.933333333333334, "grad_norm": 0.6580103039741516, "learning_rate": 4.6148148148148154e-05, "loss": 0.2145, "step": 6350 }, { "epoch": 16.96, "grad_norm": 1.186204433441162, "learning_rate": 4.6133333333333334e-05, "loss": 0.2558, "step": 6360 }, { "epoch": 16.986666666666668, "grad_norm": 0.786339521408081, "learning_rate": 4.611851851851852e-05, "loss": 0.2121, "step": 6370 }, { "epoch": 17.0, "eval_accuracy": 0.8954166666666666, "eval_loss": 0.309306800365448, "eval_runtime": 250.3724, "eval_samples_per_second": 47.929, "eval_steps_per_second": 1.498, "step": 6375 }, { "epoch": 17.013333333333332, "grad_norm": 1.0847649574279785, "learning_rate": 4.61037037037037e-05, "loss": 0.2219, "step": 6380 }, { "epoch": 17.04, "grad_norm": 0.6315633654594421, "learning_rate": 4.608888888888889e-05, "loss": 0.223, "step": 6390 }, { "epoch": 17.066666666666666, "grad_norm": 0.8920674324035645, "learning_rate": 4.607407407407408e-05, "loss": 0.209, "step": 6400 }, { "epoch": 17.093333333333334, "grad_norm": 1.1400494575500488, "learning_rate": 4.6059259259259264e-05, "loss": 0.2122, "step": 6410 }, { "epoch": 17.12, "grad_norm": 0.7829921841621399, "learning_rate": 4.6044444444444445e-05, "loss": 0.1807, "step": 6420 }, { "epoch": 17.14666666666667, "grad_norm": 1.2247706651687622, "learning_rate": 4.602962962962963e-05, "loss": 0.2122, "step": 6430 }, { "epoch": 17.173333333333332, "grad_norm": 0.9251999855041504, "learning_rate": 4.601481481481482e-05, "loss": 0.1936, "step": 6440 }, { "epoch": 17.2, "grad_norm": 1.129963994026184, "learning_rate": 4.600000000000001e-05, "loss": 0.2154, "step": 6450 }, { "epoch": 17.226666666666667, "grad_norm": 1.1568506956100464, "learning_rate": 4.598518518518519e-05, "loss": 0.1798, "step": 6460 }, { "epoch": 17.253333333333334, "grad_norm": 0.8407930731773376, "learning_rate": 4.5970370370370375e-05, "loss": 0.2208, "step": 6470 }, { "epoch": 17.28, "grad_norm": 1.0254485607147217, "learning_rate": 4.5955555555555555e-05, "loss": 0.2072, "step": 6480 }, { "epoch": 17.306666666666665, "grad_norm": 0.6046079993247986, "learning_rate": 4.594074074074074e-05, "loss": 0.2177, "step": 6490 }, { "epoch": 17.333333333333332, "grad_norm": 0.7018064260482788, "learning_rate": 4.592592592592593e-05, "loss": 0.2115, "step": 6500 }, { "epoch": 17.36, "grad_norm": 0.7071021199226379, "learning_rate": 4.591111111111112e-05, "loss": 0.2046, "step": 6510 }, { "epoch": 17.386666666666667, "grad_norm": 0.9970195889472961, "learning_rate": 4.58962962962963e-05, "loss": 0.2329, "step": 6520 }, { "epoch": 17.413333333333334, "grad_norm": 1.0762938261032104, "learning_rate": 4.5881481481481485e-05, "loss": 0.2395, "step": 6530 }, { "epoch": 17.44, "grad_norm": 1.3508251905441284, "learning_rate": 4.5866666666666666e-05, "loss": 0.2469, "step": 6540 }, { "epoch": 17.466666666666665, "grad_norm": 1.1004494428634644, "learning_rate": 4.585185185185185e-05, "loss": 0.1896, "step": 6550 }, { "epoch": 17.493333333333332, "grad_norm": 1.2068158388137817, "learning_rate": 4.583703703703704e-05, "loss": 0.2233, "step": 6560 }, { "epoch": 17.52, "grad_norm": 0.9937577247619629, "learning_rate": 4.582222222222222e-05, "loss": 0.1951, "step": 6570 }, { "epoch": 17.546666666666667, "grad_norm": 0.9528632164001465, "learning_rate": 4.580740740740741e-05, "loss": 0.2104, "step": 6580 }, { "epoch": 17.573333333333334, "grad_norm": 0.8297341465950012, "learning_rate": 4.5792592592592596e-05, "loss": 0.1931, "step": 6590 }, { "epoch": 17.6, "grad_norm": 1.4589300155639648, "learning_rate": 4.577777777777778e-05, "loss": 0.2236, "step": 6600 }, { "epoch": 17.626666666666665, "grad_norm": 0.8489493131637573, "learning_rate": 4.5762962962962964e-05, "loss": 0.2011, "step": 6610 }, { "epoch": 17.653333333333332, "grad_norm": 0.8059865832328796, "learning_rate": 4.574814814814815e-05, "loss": 0.2079, "step": 6620 }, { "epoch": 17.68, "grad_norm": 0.8653674125671387, "learning_rate": 4.573333333333333e-05, "loss": 0.1874, "step": 6630 }, { "epoch": 17.706666666666667, "grad_norm": 0.794390082359314, "learning_rate": 4.571851851851852e-05, "loss": 0.2341, "step": 6640 }, { "epoch": 17.733333333333334, "grad_norm": 0.8734914660453796, "learning_rate": 4.5703703703703706e-05, "loss": 0.2185, "step": 6650 }, { "epoch": 17.76, "grad_norm": 0.9834457039833069, "learning_rate": 4.5688888888888893e-05, "loss": 0.2247, "step": 6660 }, { "epoch": 17.786666666666665, "grad_norm": 0.6483538746833801, "learning_rate": 4.5674074074074074e-05, "loss": 0.1868, "step": 6670 }, { "epoch": 17.813333333333333, "grad_norm": 0.7812337279319763, "learning_rate": 4.565925925925926e-05, "loss": 0.1862, "step": 6680 }, { "epoch": 17.84, "grad_norm": 0.6785242557525635, "learning_rate": 4.564444444444444e-05, "loss": 0.1967, "step": 6690 }, { "epoch": 17.866666666666667, "grad_norm": 1.0414509773254395, "learning_rate": 4.5629629629629636e-05, "loss": 0.2338, "step": 6700 }, { "epoch": 17.893333333333334, "grad_norm": 0.7245619297027588, "learning_rate": 4.5614814814814817e-05, "loss": 0.2138, "step": 6710 }, { "epoch": 17.92, "grad_norm": 1.0841164588928223, "learning_rate": 4.5600000000000004e-05, "loss": 0.1885, "step": 6720 }, { "epoch": 17.946666666666665, "grad_norm": 1.136484980583191, "learning_rate": 4.5585185185185184e-05, "loss": 0.2296, "step": 6730 }, { "epoch": 17.973333333333333, "grad_norm": 1.0612092018127441, "learning_rate": 4.557037037037037e-05, "loss": 0.241, "step": 6740 }, { "epoch": 18.0, "grad_norm": 0.9051516652107239, "learning_rate": 4.555555555555556e-05, "loss": 0.2335, "step": 6750 }, { "epoch": 18.0, "eval_accuracy": 0.8955, "eval_loss": 0.30209314823150635, "eval_runtime": 249.9246, "eval_samples_per_second": 48.014, "eval_steps_per_second": 1.5, "step": 6750 }, { "epoch": 18.026666666666667, "grad_norm": 0.6505367159843445, "learning_rate": 4.5540740740740746e-05, "loss": 0.2015, "step": 6760 }, { "epoch": 18.053333333333335, "grad_norm": 0.9085814356803894, "learning_rate": 4.552592592592593e-05, "loss": 0.2366, "step": 6770 }, { "epoch": 18.08, "grad_norm": 0.7052538990974426, "learning_rate": 4.5511111111111114e-05, "loss": 0.182, "step": 6780 }, { "epoch": 18.106666666666666, "grad_norm": 0.7736017107963562, "learning_rate": 4.5496296296296295e-05, "loss": 0.2197, "step": 6790 }, { "epoch": 18.133333333333333, "grad_norm": 0.666124165058136, "learning_rate": 4.548148148148149e-05, "loss": 0.1842, "step": 6800 }, { "epoch": 18.16, "grad_norm": 0.5719690918922424, "learning_rate": 4.546666666666667e-05, "loss": 0.2052, "step": 6810 }, { "epoch": 18.186666666666667, "grad_norm": 0.7998666763305664, "learning_rate": 4.545185185185186e-05, "loss": 0.1978, "step": 6820 }, { "epoch": 18.213333333333335, "grad_norm": 0.8826988935470581, "learning_rate": 4.543703703703704e-05, "loss": 0.1857, "step": 6830 }, { "epoch": 18.24, "grad_norm": 0.8675973415374756, "learning_rate": 4.5422222222222225e-05, "loss": 0.2091, "step": 6840 }, { "epoch": 18.266666666666666, "grad_norm": 0.6671814322471619, "learning_rate": 4.540740740740741e-05, "loss": 0.2148, "step": 6850 }, { "epoch": 18.293333333333333, "grad_norm": 0.7314287424087524, "learning_rate": 4.539259259259259e-05, "loss": 0.2154, "step": 6860 }, { "epoch": 18.32, "grad_norm": 0.9431774616241455, "learning_rate": 4.537777777777778e-05, "loss": 0.217, "step": 6870 }, { "epoch": 18.346666666666668, "grad_norm": 0.8163052201271057, "learning_rate": 4.536296296296296e-05, "loss": 0.2084, "step": 6880 }, { "epoch": 18.373333333333335, "grad_norm": 0.7082629203796387, "learning_rate": 4.534814814814815e-05, "loss": 0.2197, "step": 6890 }, { "epoch": 18.4, "grad_norm": 0.8074229955673218, "learning_rate": 4.5333333333333335e-05, "loss": 0.2156, "step": 6900 }, { "epoch": 18.426666666666666, "grad_norm": 0.9027374982833862, "learning_rate": 4.531851851851852e-05, "loss": 0.2098, "step": 6910 }, { "epoch": 18.453333333333333, "grad_norm": 0.6998944878578186, "learning_rate": 4.53037037037037e-05, "loss": 0.1942, "step": 6920 }, { "epoch": 18.48, "grad_norm": 0.7281433343887329, "learning_rate": 4.528888888888889e-05, "loss": 0.1907, "step": 6930 }, { "epoch": 18.506666666666668, "grad_norm": 0.6471507549285889, "learning_rate": 4.527407407407407e-05, "loss": 0.2214, "step": 6940 }, { "epoch": 18.533333333333335, "grad_norm": 0.7700861692428589, "learning_rate": 4.5259259259259265e-05, "loss": 0.2097, "step": 6950 }, { "epoch": 18.56, "grad_norm": 0.6788780689239502, "learning_rate": 4.5244444444444446e-05, "loss": 0.1795, "step": 6960 }, { "epoch": 18.586666666666666, "grad_norm": 0.7007779479026794, "learning_rate": 4.522962962962963e-05, "loss": 0.1936, "step": 6970 }, { "epoch": 18.613333333333333, "grad_norm": 0.867875337600708, "learning_rate": 4.5214814814814814e-05, "loss": 0.212, "step": 6980 }, { "epoch": 18.64, "grad_norm": 0.9867449998855591, "learning_rate": 4.52e-05, "loss": 0.1954, "step": 6990 }, { "epoch": 18.666666666666668, "grad_norm": 1.0442817211151123, "learning_rate": 4.518518518518519e-05, "loss": 0.2091, "step": 7000 }, { "epoch": 18.693333333333335, "grad_norm": 1.0887091159820557, "learning_rate": 4.5170370370370376e-05, "loss": 0.1934, "step": 7010 }, { "epoch": 18.72, "grad_norm": 0.9661551117897034, "learning_rate": 4.5155555555555556e-05, "loss": 0.2058, "step": 7020 }, { "epoch": 18.746666666666666, "grad_norm": 0.654455304145813, "learning_rate": 4.5140740740740743e-05, "loss": 0.1811, "step": 7030 }, { "epoch": 18.773333333333333, "grad_norm": 1.4048088788986206, "learning_rate": 4.5125925925925924e-05, "loss": 0.2461, "step": 7040 }, { "epoch": 18.8, "grad_norm": 1.0240541696548462, "learning_rate": 4.511111111111112e-05, "loss": 0.2117, "step": 7050 }, { "epoch": 18.826666666666668, "grad_norm": 0.8644067049026489, "learning_rate": 4.50962962962963e-05, "loss": 0.204, "step": 7060 }, { "epoch": 18.85333333333333, "grad_norm": 1.051024079322815, "learning_rate": 4.5081481481481486e-05, "loss": 0.2289, "step": 7070 }, { "epoch": 18.88, "grad_norm": 0.7867690920829773, "learning_rate": 4.5066666666666667e-05, "loss": 0.1644, "step": 7080 }, { "epoch": 18.906666666666666, "grad_norm": 0.8934321403503418, "learning_rate": 4.5051851851851854e-05, "loss": 0.2173, "step": 7090 }, { "epoch": 18.933333333333334, "grad_norm": 1.1223819255828857, "learning_rate": 4.503703703703704e-05, "loss": 0.2125, "step": 7100 }, { "epoch": 18.96, "grad_norm": 0.8107485771179199, "learning_rate": 4.502222222222223e-05, "loss": 0.1964, "step": 7110 }, { "epoch": 18.986666666666668, "grad_norm": 0.9979279041290283, "learning_rate": 4.500740740740741e-05, "loss": 0.2169, "step": 7120 }, { "epoch": 19.0, "eval_accuracy": 0.8891666666666667, "eval_loss": 0.3249436020851135, "eval_runtime": 250.4677, "eval_samples_per_second": 47.91, "eval_steps_per_second": 1.497, "step": 7125 }, { "epoch": 19.013333333333332, "grad_norm": 0.5381714701652527, "learning_rate": 4.4992592592592597e-05, "loss": 0.2025, "step": 7130 }, { "epoch": 19.04, "grad_norm": 1.0808249711990356, "learning_rate": 4.497777777777778e-05, "loss": 0.1914, "step": 7140 }, { "epoch": 19.066666666666666, "grad_norm": 0.6208426356315613, "learning_rate": 4.496296296296297e-05, "loss": 0.1679, "step": 7150 }, { "epoch": 19.093333333333334, "grad_norm": 1.240587830543518, "learning_rate": 4.494814814814815e-05, "loss": 0.1985, "step": 7160 }, { "epoch": 19.12, "grad_norm": 1.2524210214614868, "learning_rate": 4.493333333333333e-05, "loss": 0.2159, "step": 7170 }, { "epoch": 19.14666666666667, "grad_norm": 1.103708267211914, "learning_rate": 4.491851851851852e-05, "loss": 0.1812, "step": 7180 }, { "epoch": 19.173333333333332, "grad_norm": 0.7198252081871033, "learning_rate": 4.49037037037037e-05, "loss": 0.2187, "step": 7190 }, { "epoch": 19.2, "grad_norm": 0.6944759488105774, "learning_rate": 4.4888888888888894e-05, "loss": 0.1774, "step": 7200 }, { "epoch": 19.226666666666667, "grad_norm": 0.8930229544639587, "learning_rate": 4.4874074074074075e-05, "loss": 0.2069, "step": 7210 }, { "epoch": 19.253333333333334, "grad_norm": 0.9005588293075562, "learning_rate": 4.485925925925926e-05, "loss": 0.2113, "step": 7220 }, { "epoch": 19.28, "grad_norm": 0.8683817982673645, "learning_rate": 4.484444444444444e-05, "loss": 0.1643, "step": 7230 }, { "epoch": 19.306666666666665, "grad_norm": 0.8800892233848572, "learning_rate": 4.482962962962963e-05, "loss": 0.207, "step": 7240 }, { "epoch": 19.333333333333332, "grad_norm": 0.7513169050216675, "learning_rate": 4.481481481481482e-05, "loss": 0.2171, "step": 7250 }, { "epoch": 19.36, "grad_norm": 0.8226156830787659, "learning_rate": 4.4800000000000005e-05, "loss": 0.2023, "step": 7260 }, { "epoch": 19.386666666666667, "grad_norm": 0.9768080711364746, "learning_rate": 4.4785185185185185e-05, "loss": 0.1596, "step": 7270 }, { "epoch": 19.413333333333334, "grad_norm": 1.1303435564041138, "learning_rate": 4.477037037037037e-05, "loss": 0.1941, "step": 7280 }, { "epoch": 19.44, "grad_norm": 1.7983283996582031, "learning_rate": 4.475555555555555e-05, "loss": 0.2218, "step": 7290 }, { "epoch": 19.466666666666665, "grad_norm": 0.6958315968513489, "learning_rate": 4.474074074074075e-05, "loss": 0.1762, "step": 7300 }, { "epoch": 19.493333333333332, "grad_norm": 0.845567524433136, "learning_rate": 4.472592592592593e-05, "loss": 0.2016, "step": 7310 }, { "epoch": 19.52, "grad_norm": 1.0077093839645386, "learning_rate": 4.4711111111111115e-05, "loss": 0.1856, "step": 7320 }, { "epoch": 19.546666666666667, "grad_norm": 0.8518097996711731, "learning_rate": 4.4696296296296296e-05, "loss": 0.1841, "step": 7330 }, { "epoch": 19.573333333333334, "grad_norm": 0.9338054656982422, "learning_rate": 4.468148148148148e-05, "loss": 0.1909, "step": 7340 }, { "epoch": 19.6, "grad_norm": 0.854891836643219, "learning_rate": 4.466666666666667e-05, "loss": 0.1942, "step": 7350 }, { "epoch": 19.626666666666665, "grad_norm": 1.1921600103378296, "learning_rate": 4.465185185185186e-05, "loss": 0.1869, "step": 7360 }, { "epoch": 19.653333333333332, "grad_norm": 1.2619552612304688, "learning_rate": 4.463703703703704e-05, "loss": 0.1961, "step": 7370 }, { "epoch": 19.68, "grad_norm": 1.0258257389068604, "learning_rate": 4.4622222222222226e-05, "loss": 0.2015, "step": 7380 }, { "epoch": 19.706666666666667, "grad_norm": 0.8175105452537537, "learning_rate": 4.4607407407407406e-05, "loss": 0.1842, "step": 7390 }, { "epoch": 19.733333333333334, "grad_norm": 0.8806605339050293, "learning_rate": 4.4592592592592594e-05, "loss": 0.1993, "step": 7400 }, { "epoch": 19.76, "grad_norm": 0.7799044847488403, "learning_rate": 4.457777777777778e-05, "loss": 0.2101, "step": 7410 }, { "epoch": 19.786666666666665, "grad_norm": 0.9906026721000671, "learning_rate": 4.456296296296297e-05, "loss": 0.1883, "step": 7420 }, { "epoch": 19.813333333333333, "grad_norm": 0.716210663318634, "learning_rate": 4.454814814814815e-05, "loss": 0.2153, "step": 7430 }, { "epoch": 19.84, "grad_norm": 0.8464218974113464, "learning_rate": 4.4533333333333336e-05, "loss": 0.1849, "step": 7440 }, { "epoch": 19.866666666666667, "grad_norm": 0.6615992784500122, "learning_rate": 4.4518518518518523e-05, "loss": 0.208, "step": 7450 }, { "epoch": 19.893333333333334, "grad_norm": 0.8176917433738708, "learning_rate": 4.450370370370371e-05, "loss": 0.2124, "step": 7460 }, { "epoch": 19.92, "grad_norm": 0.9772405624389648, "learning_rate": 4.448888888888889e-05, "loss": 0.214, "step": 7470 }, { "epoch": 19.946666666666665, "grad_norm": 0.8531501293182373, "learning_rate": 4.447407407407407e-05, "loss": 0.1954, "step": 7480 }, { "epoch": 19.973333333333333, "grad_norm": 0.7524469494819641, "learning_rate": 4.445925925925926e-05, "loss": 0.2099, "step": 7490 }, { "epoch": 20.0, "grad_norm": 0.9186290502548218, "learning_rate": 4.4444444444444447e-05, "loss": 0.1899, "step": 7500 }, { "epoch": 20.0, "eval_accuracy": 0.895, "eval_loss": 0.3019094467163086, "eval_runtime": 252.2921, "eval_samples_per_second": 47.564, "eval_steps_per_second": 1.486, "step": 7500 }, { "epoch": 20.026666666666667, "grad_norm": 0.974155604839325, "learning_rate": 4.4429629629629634e-05, "loss": 0.1876, "step": 7510 }, { "epoch": 20.053333333333335, "grad_norm": 1.0890696048736572, "learning_rate": 4.4414814814814814e-05, "loss": 0.1716, "step": 7520 }, { "epoch": 20.08, "grad_norm": 0.680019199848175, "learning_rate": 4.44e-05, "loss": 0.158, "step": 7530 }, { "epoch": 20.106666666666666, "grad_norm": 1.1356762647628784, "learning_rate": 4.438518518518518e-05, "loss": 0.1784, "step": 7540 }, { "epoch": 20.133333333333333, "grad_norm": 1.1568999290466309, "learning_rate": 4.4370370370370376e-05, "loss": 0.1971, "step": 7550 }, { "epoch": 20.16, "grad_norm": 1.0519245862960815, "learning_rate": 4.435555555555556e-05, "loss": 0.1969, "step": 7560 }, { "epoch": 20.186666666666667, "grad_norm": 0.7984748482704163, "learning_rate": 4.4340740740740744e-05, "loss": 0.2016, "step": 7570 }, { "epoch": 20.213333333333335, "grad_norm": 1.0421602725982666, "learning_rate": 4.4325925925925925e-05, "loss": 0.1909, "step": 7580 }, { "epoch": 20.24, "grad_norm": 1.0614240169525146, "learning_rate": 4.431111111111111e-05, "loss": 0.2089, "step": 7590 }, { "epoch": 20.266666666666666, "grad_norm": 0.9773007035255432, "learning_rate": 4.42962962962963e-05, "loss": 0.2172, "step": 7600 }, { "epoch": 20.293333333333333, "grad_norm": 0.8822944760322571, "learning_rate": 4.428148148148149e-05, "loss": 0.2107, "step": 7610 }, { "epoch": 20.32, "grad_norm": 0.9824352264404297, "learning_rate": 4.426666666666667e-05, "loss": 0.197, "step": 7620 }, { "epoch": 20.346666666666668, "grad_norm": 0.5978705286979675, "learning_rate": 4.4251851851851855e-05, "loss": 0.1996, "step": 7630 }, { "epoch": 20.373333333333335, "grad_norm": 0.7914773225784302, "learning_rate": 4.4237037037037035e-05, "loss": 0.1977, "step": 7640 }, { "epoch": 20.4, "grad_norm": 0.9881728887557983, "learning_rate": 4.422222222222222e-05, "loss": 0.1981, "step": 7650 }, { "epoch": 20.426666666666666, "grad_norm": 1.231351375579834, "learning_rate": 4.420740740740741e-05, "loss": 0.1522, "step": 7660 }, { "epoch": 20.453333333333333, "grad_norm": 1.2548089027404785, "learning_rate": 4.41925925925926e-05, "loss": 0.2017, "step": 7670 }, { "epoch": 20.48, "grad_norm": 0.6990628838539124, "learning_rate": 4.417777777777778e-05, "loss": 0.1821, "step": 7680 }, { "epoch": 20.506666666666668, "grad_norm": 0.8536621332168579, "learning_rate": 4.4162962962962965e-05, "loss": 0.2056, "step": 7690 }, { "epoch": 20.533333333333335, "grad_norm": 0.6946174502372742, "learning_rate": 4.414814814814815e-05, "loss": 0.1724, "step": 7700 }, { "epoch": 20.56, "grad_norm": 1.3559132814407349, "learning_rate": 4.413333333333334e-05, "loss": 0.2002, "step": 7710 }, { "epoch": 20.586666666666666, "grad_norm": 0.5767248272895813, "learning_rate": 4.411851851851852e-05, "loss": 0.1816, "step": 7720 }, { "epoch": 20.613333333333333, "grad_norm": 0.7752051949501038, "learning_rate": 4.410370370370371e-05, "loss": 0.1953, "step": 7730 }, { "epoch": 20.64, "grad_norm": 0.7078379988670349, "learning_rate": 4.408888888888889e-05, "loss": 0.1701, "step": 7740 }, { "epoch": 20.666666666666668, "grad_norm": 0.9532902240753174, "learning_rate": 4.4074074074074076e-05, "loss": 0.1886, "step": 7750 }, { "epoch": 20.693333333333335, "grad_norm": 0.9259477853775024, "learning_rate": 4.405925925925926e-05, "loss": 0.1905, "step": 7760 }, { "epoch": 20.72, "grad_norm": 0.7656415104866028, "learning_rate": 4.404444444444445e-05, "loss": 0.1691, "step": 7770 }, { "epoch": 20.746666666666666, "grad_norm": 0.7031339406967163, "learning_rate": 4.402962962962963e-05, "loss": 0.1669, "step": 7780 }, { "epoch": 20.773333333333333, "grad_norm": 0.9130908250808716, "learning_rate": 4.401481481481481e-05, "loss": 0.1905, "step": 7790 }, { "epoch": 20.8, "grad_norm": 0.4964917302131653, "learning_rate": 4.4000000000000006e-05, "loss": 0.1802, "step": 7800 }, { "epoch": 20.826666666666668, "grad_norm": 0.788489043712616, "learning_rate": 4.3985185185185186e-05, "loss": 0.1937, "step": 7810 }, { "epoch": 20.85333333333333, "grad_norm": 0.763920247554779, "learning_rate": 4.3970370370370374e-05, "loss": 0.178, "step": 7820 }, { "epoch": 20.88, "grad_norm": 1.1586834192276, "learning_rate": 4.3955555555555554e-05, "loss": 0.191, "step": 7830 }, { "epoch": 20.906666666666666, "grad_norm": 0.872491180896759, "learning_rate": 4.394074074074074e-05, "loss": 0.1886, "step": 7840 }, { "epoch": 20.933333333333334, "grad_norm": 0.9791348576545715, "learning_rate": 4.392592592592593e-05, "loss": 0.2112, "step": 7850 }, { "epoch": 20.96, "grad_norm": 1.3266221284866333, "learning_rate": 4.3911111111111116e-05, "loss": 0.2018, "step": 7860 }, { "epoch": 20.986666666666668, "grad_norm": 1.6931546926498413, "learning_rate": 4.38962962962963e-05, "loss": 0.1839, "step": 7870 }, { "epoch": 21.0, "eval_accuracy": 0.89375, "eval_loss": 0.32217755913734436, "eval_runtime": 252.8854, "eval_samples_per_second": 47.452, "eval_steps_per_second": 1.483, "step": 7875 }, { "epoch": 21.013333333333332, "grad_norm": 0.8386087417602539, "learning_rate": 4.3881481481481484e-05, "loss": 0.1812, "step": 7880 }, { "epoch": 21.04, "grad_norm": 0.8113182187080383, "learning_rate": 4.3866666666666665e-05, "loss": 0.1758, "step": 7890 }, { "epoch": 21.066666666666666, "grad_norm": 0.9453726410865784, "learning_rate": 4.385185185185185e-05, "loss": 0.1995, "step": 7900 }, { "epoch": 21.093333333333334, "grad_norm": 0.8395352363586426, "learning_rate": 4.383703703703704e-05, "loss": 0.1612, "step": 7910 }, { "epoch": 21.12, "grad_norm": 0.9851044416427612, "learning_rate": 4.3822222222222227e-05, "loss": 0.1808, "step": 7920 }, { "epoch": 21.14666666666667, "grad_norm": 1.0393065214157104, "learning_rate": 4.380740740740741e-05, "loss": 0.1816, "step": 7930 }, { "epoch": 21.173333333333332, "grad_norm": 0.787501335144043, "learning_rate": 4.3792592592592594e-05, "loss": 0.1969, "step": 7940 }, { "epoch": 21.2, "grad_norm": 0.6561554074287415, "learning_rate": 4.377777777777778e-05, "loss": 0.1762, "step": 7950 }, { "epoch": 21.226666666666667, "grad_norm": 1.031649112701416, "learning_rate": 4.376296296296297e-05, "loss": 0.1748, "step": 7960 }, { "epoch": 21.253333333333334, "grad_norm": 1.063297152519226, "learning_rate": 4.374814814814815e-05, "loss": 0.1661, "step": 7970 }, { "epoch": 21.28, "grad_norm": 1.1451592445373535, "learning_rate": 4.373333333333334e-05, "loss": 0.1764, "step": 7980 }, { "epoch": 21.306666666666665, "grad_norm": 0.9897364974021912, "learning_rate": 4.371851851851852e-05, "loss": 0.1737, "step": 7990 }, { "epoch": 21.333333333333332, "grad_norm": 0.6504824161529541, "learning_rate": 4.3703703703703705e-05, "loss": 0.1667, "step": 8000 }, { "epoch": 21.36, "grad_norm": 1.1151783466339111, "learning_rate": 4.368888888888889e-05, "loss": 0.2116, "step": 8010 }, { "epoch": 21.386666666666667, "grad_norm": 1.1283199787139893, "learning_rate": 4.367407407407408e-05, "loss": 0.1799, "step": 8020 }, { "epoch": 21.413333333333334, "grad_norm": 1.1571197509765625, "learning_rate": 4.365925925925926e-05, "loss": 0.1563, "step": 8030 }, { "epoch": 21.44, "grad_norm": 1.2237275838851929, "learning_rate": 4.364444444444445e-05, "loss": 0.1751, "step": 8040 }, { "epoch": 21.466666666666665, "grad_norm": 0.8761997222900391, "learning_rate": 4.3629629629629635e-05, "loss": 0.1785, "step": 8050 }, { "epoch": 21.493333333333332, "grad_norm": 1.0804013013839722, "learning_rate": 4.361481481481482e-05, "loss": 0.183, "step": 8060 }, { "epoch": 21.52, "grad_norm": 0.8241725564002991, "learning_rate": 4.36e-05, "loss": 0.1536, "step": 8070 }, { "epoch": 21.546666666666667, "grad_norm": 1.452316403388977, "learning_rate": 4.358518518518519e-05, "loss": 0.1731, "step": 8080 }, { "epoch": 21.573333333333334, "grad_norm": 0.6904736161231995, "learning_rate": 4.357037037037037e-05, "loss": 0.2101, "step": 8090 }, { "epoch": 21.6, "grad_norm": 0.7161980867385864, "learning_rate": 4.355555555555556e-05, "loss": 0.1625, "step": 8100 }, { "epoch": 21.626666666666665, "grad_norm": 0.7790060043334961, "learning_rate": 4.3540740740740745e-05, "loss": 0.1787, "step": 8110 }, { "epoch": 21.653333333333332, "grad_norm": 0.5258254408836365, "learning_rate": 4.3525925925925926e-05, "loss": 0.1647, "step": 8120 }, { "epoch": 21.68, "grad_norm": 1.2902252674102783, "learning_rate": 4.351111111111111e-05, "loss": 0.1567, "step": 8130 }, { "epoch": 21.706666666666667, "grad_norm": 0.8799579739570618, "learning_rate": 4.3496296296296294e-05, "loss": 0.1979, "step": 8140 }, { "epoch": 21.733333333333334, "grad_norm": 0.7444628477096558, "learning_rate": 4.348148148148148e-05, "loss": 0.178, "step": 8150 }, { "epoch": 21.76, "grad_norm": 0.8602064847946167, "learning_rate": 4.346666666666667e-05, "loss": 0.1704, "step": 8160 }, { "epoch": 21.786666666666665, "grad_norm": 1.1372920274734497, "learning_rate": 4.3451851851851856e-05, "loss": 0.1884, "step": 8170 }, { "epoch": 21.813333333333333, "grad_norm": 0.932178795337677, "learning_rate": 4.3437037037037036e-05, "loss": 0.1911, "step": 8180 }, { "epoch": 21.84, "grad_norm": 0.761458694934845, "learning_rate": 4.3422222222222224e-05, "loss": 0.1959, "step": 8190 }, { "epoch": 21.866666666666667, "grad_norm": 1.028793454170227, "learning_rate": 4.340740740740741e-05, "loss": 0.1778, "step": 8200 }, { "epoch": 21.893333333333334, "grad_norm": 1.0833359956741333, "learning_rate": 4.33925925925926e-05, "loss": 0.195, "step": 8210 }, { "epoch": 21.92, "grad_norm": 0.7734977006912231, "learning_rate": 4.337777777777778e-05, "loss": 0.1742, "step": 8220 }, { "epoch": 21.946666666666665, "grad_norm": 0.8688709139823914, "learning_rate": 4.3362962962962966e-05, "loss": 0.168, "step": 8230 }, { "epoch": 21.973333333333333, "grad_norm": 1.3795506954193115, "learning_rate": 4.334814814814815e-05, "loss": 0.1504, "step": 8240 }, { "epoch": 22.0, "grad_norm": 1.1969883441925049, "learning_rate": 4.3333333333333334e-05, "loss": 0.1768, "step": 8250 }, { "epoch": 22.0, "eval_accuracy": 0.8876666666666667, "eval_loss": 0.3409099876880646, "eval_runtime": 252.569, "eval_samples_per_second": 47.512, "eval_steps_per_second": 1.485, "step": 8250 }, { "epoch": 22.026666666666667, "grad_norm": 0.7353700995445251, "learning_rate": 4.331851851851852e-05, "loss": 0.178, "step": 8260 }, { "epoch": 22.053333333333335, "grad_norm": 0.7419420480728149, "learning_rate": 4.330370370370371e-05, "loss": 0.1895, "step": 8270 }, { "epoch": 22.08, "grad_norm": 0.6869510412216187, "learning_rate": 4.328888888888889e-05, "loss": 0.1855, "step": 8280 }, { "epoch": 22.106666666666666, "grad_norm": 1.0026262998580933, "learning_rate": 4.327407407407408e-05, "loss": 0.1666, "step": 8290 }, { "epoch": 22.133333333333333, "grad_norm": 0.7855711579322815, "learning_rate": 4.325925925925926e-05, "loss": 0.1868, "step": 8300 }, { "epoch": 22.16, "grad_norm": 1.2874245643615723, "learning_rate": 4.324444444444445e-05, "loss": 0.1658, "step": 8310 }, { "epoch": 22.186666666666667, "grad_norm": 0.8713183999061584, "learning_rate": 4.322962962962963e-05, "loss": 0.207, "step": 8320 }, { "epoch": 22.213333333333335, "grad_norm": 0.8744196891784668, "learning_rate": 4.321481481481482e-05, "loss": 0.1731, "step": 8330 }, { "epoch": 22.24, "grad_norm": 1.1002644300460815, "learning_rate": 4.32e-05, "loss": 0.1884, "step": 8340 }, { "epoch": 22.266666666666666, "grad_norm": 1.0432552099227905, "learning_rate": 4.318518518518519e-05, "loss": 0.1945, "step": 8350 }, { "epoch": 22.293333333333333, "grad_norm": 0.9092620015144348, "learning_rate": 4.3170370370370374e-05, "loss": 0.1945, "step": 8360 }, { "epoch": 22.32, "grad_norm": 0.8668107390403748, "learning_rate": 4.315555555555556e-05, "loss": 0.185, "step": 8370 }, { "epoch": 22.346666666666668, "grad_norm": 0.6398547291755676, "learning_rate": 4.314074074074074e-05, "loss": 0.1668, "step": 8380 }, { "epoch": 22.373333333333335, "grad_norm": 1.4548838138580322, "learning_rate": 4.312592592592593e-05, "loss": 0.2037, "step": 8390 }, { "epoch": 22.4, "grad_norm": 0.9992258548736572, "learning_rate": 4.311111111111111e-05, "loss": 0.1851, "step": 8400 }, { "epoch": 22.426666666666666, "grad_norm": 0.6763677597045898, "learning_rate": 4.30962962962963e-05, "loss": 0.1779, "step": 8410 }, { "epoch": 22.453333333333333, "grad_norm": 0.7363944053649902, "learning_rate": 4.3081481481481485e-05, "loss": 0.1747, "step": 8420 }, { "epoch": 22.48, "grad_norm": 0.7682416439056396, "learning_rate": 4.3066666666666665e-05, "loss": 0.1907, "step": 8430 }, { "epoch": 22.506666666666668, "grad_norm": 0.6851952075958252, "learning_rate": 4.305185185185185e-05, "loss": 0.17, "step": 8440 }, { "epoch": 22.533333333333335, "grad_norm": 1.0802876949310303, "learning_rate": 4.303703703703704e-05, "loss": 0.1879, "step": 8450 }, { "epoch": 22.56, "grad_norm": 0.7615159749984741, "learning_rate": 4.302222222222223e-05, "loss": 0.1703, "step": 8460 }, { "epoch": 22.586666666666666, "grad_norm": 0.9228318333625793, "learning_rate": 4.300740740740741e-05, "loss": 0.1957, "step": 8470 }, { "epoch": 22.613333333333333, "grad_norm": 0.5299271941184998, "learning_rate": 4.2992592592592595e-05, "loss": 0.1663, "step": 8480 }, { "epoch": 22.64, "grad_norm": 0.9154703617095947, "learning_rate": 4.2977777777777776e-05, "loss": 0.1802, "step": 8490 }, { "epoch": 22.666666666666668, "grad_norm": 0.9980658888816833, "learning_rate": 4.296296296296296e-05, "loss": 0.2066, "step": 8500 }, { "epoch": 22.693333333333335, "grad_norm": 1.0865224599838257, "learning_rate": 4.294814814814815e-05, "loss": 0.1823, "step": 8510 }, { "epoch": 22.72, "grad_norm": 0.8318993449211121, "learning_rate": 4.293333333333334e-05, "loss": 0.1666, "step": 8520 }, { "epoch": 22.746666666666666, "grad_norm": 1.0815845727920532, "learning_rate": 4.291851851851852e-05, "loss": 0.1759, "step": 8530 }, { "epoch": 22.773333333333333, "grad_norm": 0.6411643624305725, "learning_rate": 4.2903703703703706e-05, "loss": 0.1709, "step": 8540 }, { "epoch": 22.8, "grad_norm": 1.19650399684906, "learning_rate": 4.2888888888888886e-05, "loss": 0.1817, "step": 8550 }, { "epoch": 22.826666666666668, "grad_norm": 0.6900277733802795, "learning_rate": 4.287407407407408e-05, "loss": 0.1871, "step": 8560 }, { "epoch": 22.85333333333333, "grad_norm": 0.8420649766921997, "learning_rate": 4.285925925925926e-05, "loss": 0.1949, "step": 8570 }, { "epoch": 22.88, "grad_norm": 0.4560328722000122, "learning_rate": 4.284444444444445e-05, "loss": 0.1858, "step": 8580 }, { "epoch": 22.906666666666666, "grad_norm": 0.7816135883331299, "learning_rate": 4.282962962962963e-05, "loss": 0.1695, "step": 8590 }, { "epoch": 22.933333333333334, "grad_norm": 0.741071343421936, "learning_rate": 4.2814814814814816e-05, "loss": 0.1857, "step": 8600 }, { "epoch": 22.96, "grad_norm": 1.2350037097930908, "learning_rate": 4.2800000000000004e-05, "loss": 0.1755, "step": 8610 }, { "epoch": 22.986666666666668, "grad_norm": 0.8331182599067688, "learning_rate": 4.278518518518519e-05, "loss": 0.1706, "step": 8620 }, { "epoch": 23.0, "eval_accuracy": 0.8998333333333334, "eval_loss": 0.2921205163002014, "eval_runtime": 251.8908, "eval_samples_per_second": 47.64, "eval_steps_per_second": 1.489, "step": 8625 }, { "epoch": 23.013333333333332, "grad_norm": 1.4009085893630981, "learning_rate": 4.277037037037037e-05, "loss": 0.181, "step": 8630 }, { "epoch": 23.04, "grad_norm": 0.9988806843757629, "learning_rate": 4.275555555555556e-05, "loss": 0.177, "step": 8640 }, { "epoch": 23.066666666666666, "grad_norm": 1.0534147024154663, "learning_rate": 4.274074074074074e-05, "loss": 0.1616, "step": 8650 }, { "epoch": 23.093333333333334, "grad_norm": 1.0849246978759766, "learning_rate": 4.2725925925925933e-05, "loss": 0.1835, "step": 8660 }, { "epoch": 23.12, "grad_norm": 0.6626443862915039, "learning_rate": 4.2711111111111114e-05, "loss": 0.1671, "step": 8670 }, { "epoch": 23.14666666666667, "grad_norm": 1.1908282041549683, "learning_rate": 4.26962962962963e-05, "loss": 0.1699, "step": 8680 }, { "epoch": 23.173333333333332, "grad_norm": 0.8376059532165527, "learning_rate": 4.268148148148148e-05, "loss": 0.1697, "step": 8690 }, { "epoch": 23.2, "grad_norm": 0.9271876811981201, "learning_rate": 4.266666666666667e-05, "loss": 0.2006, "step": 8700 }, { "epoch": 23.226666666666667, "grad_norm": 0.8758803009986877, "learning_rate": 4.2651851851851857e-05, "loss": 0.1656, "step": 8710 }, { "epoch": 23.253333333333334, "grad_norm": 0.8610839247703552, "learning_rate": 4.263703703703704e-05, "loss": 0.1677, "step": 8720 }, { "epoch": 23.28, "grad_norm": 0.6845949292182922, "learning_rate": 4.2622222222222224e-05, "loss": 0.1733, "step": 8730 }, { "epoch": 23.306666666666665, "grad_norm": 1.113952875137329, "learning_rate": 4.2607407407407405e-05, "loss": 0.1686, "step": 8740 }, { "epoch": 23.333333333333332, "grad_norm": 1.0626049041748047, "learning_rate": 4.259259259259259e-05, "loss": 0.1498, "step": 8750 }, { "epoch": 23.36, "grad_norm": 1.4771642684936523, "learning_rate": 4.257777777777778e-05, "loss": 0.1833, "step": 8760 }, { "epoch": 23.386666666666667, "grad_norm": 0.9757238626480103, "learning_rate": 4.256296296296297e-05, "loss": 0.1812, "step": 8770 }, { "epoch": 23.413333333333334, "grad_norm": 0.6607667207717896, "learning_rate": 4.254814814814815e-05, "loss": 0.1766, "step": 8780 }, { "epoch": 23.44, "grad_norm": 1.0310217142105103, "learning_rate": 4.2533333333333335e-05, "loss": 0.1969, "step": 8790 }, { "epoch": 23.466666666666665, "grad_norm": 1.017004132270813, "learning_rate": 4.2518518518518515e-05, "loss": 0.1892, "step": 8800 }, { "epoch": 23.493333333333332, "grad_norm": 0.9267727732658386, "learning_rate": 4.250370370370371e-05, "loss": 0.1727, "step": 8810 }, { "epoch": 23.52, "grad_norm": 0.8183227181434631, "learning_rate": 4.248888888888889e-05, "loss": 0.1984, "step": 8820 }, { "epoch": 23.546666666666667, "grad_norm": 1.0381815433502197, "learning_rate": 4.247407407407408e-05, "loss": 0.1718, "step": 8830 }, { "epoch": 23.573333333333334, "grad_norm": 0.8884240984916687, "learning_rate": 4.245925925925926e-05, "loss": 0.1807, "step": 8840 }, { "epoch": 23.6, "grad_norm": 0.7501320838928223, "learning_rate": 4.2444444444444445e-05, "loss": 0.1863, "step": 8850 }, { "epoch": 23.626666666666665, "grad_norm": 1.1587915420532227, "learning_rate": 4.242962962962963e-05, "loss": 0.1459, "step": 8860 }, { "epoch": 23.653333333333332, "grad_norm": 1.3702963590621948, "learning_rate": 4.241481481481482e-05, "loss": 0.1468, "step": 8870 }, { "epoch": 23.68, "grad_norm": 0.788389265537262, "learning_rate": 4.24e-05, "loss": 0.1699, "step": 8880 }, { "epoch": 23.706666666666667, "grad_norm": 0.7712949514389038, "learning_rate": 4.238518518518519e-05, "loss": 0.1521, "step": 8890 }, { "epoch": 23.733333333333334, "grad_norm": 0.9007423520088196, "learning_rate": 4.237037037037037e-05, "loss": 0.2026, "step": 8900 }, { "epoch": 23.76, "grad_norm": 0.5816249847412109, "learning_rate": 4.235555555555556e-05, "loss": 0.1763, "step": 8910 }, { "epoch": 23.786666666666665, "grad_norm": 0.8288398385047913, "learning_rate": 4.234074074074074e-05, "loss": 0.1808, "step": 8920 }, { "epoch": 23.813333333333333, "grad_norm": 0.9582520127296448, "learning_rate": 4.232592592592593e-05, "loss": 0.1585, "step": 8930 }, { "epoch": 23.84, "grad_norm": 0.9543741941452026, "learning_rate": 4.231111111111111e-05, "loss": 0.1722, "step": 8940 }, { "epoch": 23.866666666666667, "grad_norm": 0.9123662114143372, "learning_rate": 4.22962962962963e-05, "loss": 0.1762, "step": 8950 }, { "epoch": 23.893333333333334, "grad_norm": 0.9601418972015381, "learning_rate": 4.2281481481481486e-05, "loss": 0.1905, "step": 8960 }, { "epoch": 23.92, "grad_norm": 1.0358216762542725, "learning_rate": 4.226666666666667e-05, "loss": 0.1674, "step": 8970 }, { "epoch": 23.946666666666665, "grad_norm": 0.7353113889694214, "learning_rate": 4.2251851851851854e-05, "loss": 0.2169, "step": 8980 }, { "epoch": 23.973333333333333, "grad_norm": 0.687998354434967, "learning_rate": 4.223703703703704e-05, "loss": 0.1805, "step": 8990 }, { "epoch": 24.0, "grad_norm": 0.8310955166816711, "learning_rate": 4.222222222222222e-05, "loss": 0.1793, "step": 9000 }, { "epoch": 24.0, "eval_accuracy": 0.89725, "eval_loss": 0.30275094509124756, "eval_runtime": 252.7084, "eval_samples_per_second": 47.486, "eval_steps_per_second": 1.484, "step": 9000 }, { "epoch": 24.026666666666667, "grad_norm": 0.7066337466239929, "learning_rate": 4.220740740740741e-05, "loss": 0.1508, "step": 9010 }, { "epoch": 24.053333333333335, "grad_norm": 0.7717369794845581, "learning_rate": 4.2192592592592596e-05, "loss": 0.1511, "step": 9020 }, { "epoch": 24.08, "grad_norm": 0.5945690870285034, "learning_rate": 4.217777777777778e-05, "loss": 0.1586, "step": 9030 }, { "epoch": 24.106666666666666, "grad_norm": 0.7968681454658508, "learning_rate": 4.2162962962962964e-05, "loss": 0.1633, "step": 9040 }, { "epoch": 24.133333333333333, "grad_norm": 0.9050436615943909, "learning_rate": 4.2148148148148145e-05, "loss": 0.1505, "step": 9050 }, { "epoch": 24.16, "grad_norm": 1.5258382558822632, "learning_rate": 4.213333333333334e-05, "loss": 0.1947, "step": 9060 }, { "epoch": 24.186666666666667, "grad_norm": 0.7220850586891174, "learning_rate": 4.211851851851852e-05, "loss": 0.1795, "step": 9070 }, { "epoch": 24.213333333333335, "grad_norm": 0.7701992392539978, "learning_rate": 4.210370370370371e-05, "loss": 0.1814, "step": 9080 }, { "epoch": 24.24, "grad_norm": 1.10643470287323, "learning_rate": 4.208888888888889e-05, "loss": 0.1702, "step": 9090 }, { "epoch": 24.266666666666666, "grad_norm": 0.5304285287857056, "learning_rate": 4.2074074074074075e-05, "loss": 0.1429, "step": 9100 }, { "epoch": 24.293333333333333, "grad_norm": 0.7879608273506165, "learning_rate": 4.205925925925926e-05, "loss": 0.1642, "step": 9110 }, { "epoch": 24.32, "grad_norm": 0.9071942567825317, "learning_rate": 4.204444444444445e-05, "loss": 0.1603, "step": 9120 }, { "epoch": 24.346666666666668, "grad_norm": 0.5709224939346313, "learning_rate": 4.202962962962963e-05, "loss": 0.1761, "step": 9130 }, { "epoch": 24.373333333333335, "grad_norm": 0.7939537763595581, "learning_rate": 4.201481481481482e-05, "loss": 0.174, "step": 9140 }, { "epoch": 24.4, "grad_norm": 1.0654009580612183, "learning_rate": 4.2e-05, "loss": 0.1974, "step": 9150 }, { "epoch": 24.426666666666666, "grad_norm": 0.8201857805252075, "learning_rate": 4.198518518518519e-05, "loss": 0.1736, "step": 9160 }, { "epoch": 24.453333333333333, "grad_norm": 0.964053750038147, "learning_rate": 4.197037037037037e-05, "loss": 0.1754, "step": 9170 }, { "epoch": 24.48, "grad_norm": 0.7591426968574524, "learning_rate": 4.195555555555556e-05, "loss": 0.1521, "step": 9180 }, { "epoch": 24.506666666666668, "grad_norm": 0.9103859066963196, "learning_rate": 4.194074074074074e-05, "loss": 0.2021, "step": 9190 }, { "epoch": 24.533333333333335, "grad_norm": 0.9591417908668518, "learning_rate": 4.192592592592593e-05, "loss": 0.1773, "step": 9200 }, { "epoch": 24.56, "grad_norm": 0.9724812507629395, "learning_rate": 4.1911111111111115e-05, "loss": 0.1709, "step": 9210 }, { "epoch": 24.586666666666666, "grad_norm": 0.7648409605026245, "learning_rate": 4.18962962962963e-05, "loss": 0.1728, "step": 9220 }, { "epoch": 24.613333333333333, "grad_norm": 1.0305107831954956, "learning_rate": 4.188148148148148e-05, "loss": 0.1768, "step": 9230 }, { "epoch": 24.64, "grad_norm": 1.042624592781067, "learning_rate": 4.186666666666667e-05, "loss": 0.1741, "step": 9240 }, { "epoch": 24.666666666666668, "grad_norm": 0.8776698708534241, "learning_rate": 4.185185185185185e-05, "loss": 0.1739, "step": 9250 }, { "epoch": 24.693333333333335, "grad_norm": 0.8154869079589844, "learning_rate": 4.183703703703704e-05, "loss": 0.1644, "step": 9260 }, { "epoch": 24.72, "grad_norm": 1.0589091777801514, "learning_rate": 4.1822222222222225e-05, "loss": 0.1643, "step": 9270 }, { "epoch": 24.746666666666666, "grad_norm": 1.109400749206543, "learning_rate": 4.180740740740741e-05, "loss": 0.1893, "step": 9280 }, { "epoch": 24.773333333333333, "grad_norm": 0.5576030015945435, "learning_rate": 4.179259259259259e-05, "loss": 0.155, "step": 9290 }, { "epoch": 24.8, "grad_norm": 0.7653414607048035, "learning_rate": 4.177777777777778e-05, "loss": 0.1605, "step": 9300 }, { "epoch": 24.826666666666668, "grad_norm": 0.7315034866333008, "learning_rate": 4.176296296296297e-05, "loss": 0.1716, "step": 9310 }, { "epoch": 24.85333333333333, "grad_norm": 0.7963380813598633, "learning_rate": 4.1748148148148155e-05, "loss": 0.1437, "step": 9320 }, { "epoch": 24.88, "grad_norm": 1.1860369443893433, "learning_rate": 4.1733333333333336e-05, "loss": 0.1758, "step": 9330 }, { "epoch": 24.906666666666666, "grad_norm": 1.2217801809310913, "learning_rate": 4.1718518518518516e-05, "loss": 0.1697, "step": 9340 }, { "epoch": 24.933333333333334, "grad_norm": 0.728153645992279, "learning_rate": 4.1703703703703704e-05, "loss": 0.1498, "step": 9350 }, { "epoch": 24.96, "grad_norm": 0.8887326121330261, "learning_rate": 4.168888888888889e-05, "loss": 0.1998, "step": 9360 }, { "epoch": 24.986666666666668, "grad_norm": 0.6151113510131836, "learning_rate": 4.167407407407408e-05, "loss": 0.1777, "step": 9370 }, { "epoch": 25.0, "eval_accuracy": 0.898, "eval_loss": 0.3156568109989166, "eval_runtime": 251.8883, "eval_samples_per_second": 47.64, "eval_steps_per_second": 1.489, "step": 9375 }, { "epoch": 25.013333333333332, "grad_norm": 0.8027066588401794, "learning_rate": 4.165925925925926e-05, "loss": 0.1785, "step": 9380 }, { "epoch": 25.04, "grad_norm": 0.46272796392440796, "learning_rate": 4.1644444444444446e-05, "loss": 0.1591, "step": 9390 }, { "epoch": 25.066666666666666, "grad_norm": 0.48692336678504944, "learning_rate": 4.162962962962963e-05, "loss": 0.1428, "step": 9400 }, { "epoch": 25.093333333333334, "grad_norm": 0.8233329653739929, "learning_rate": 4.161481481481482e-05, "loss": 0.1575, "step": 9410 }, { "epoch": 25.12, "grad_norm": 0.957427442073822, "learning_rate": 4.16e-05, "loss": 0.1539, "step": 9420 }, { "epoch": 25.14666666666667, "grad_norm": 1.2377736568450928, "learning_rate": 4.158518518518519e-05, "loss": 0.1669, "step": 9430 }, { "epoch": 25.173333333333332, "grad_norm": 0.769623339176178, "learning_rate": 4.157037037037037e-05, "loss": 0.1879, "step": 9440 }, { "epoch": 25.2, "grad_norm": 0.766095757484436, "learning_rate": 4.155555555555556e-05, "loss": 0.1384, "step": 9450 }, { "epoch": 25.226666666666667, "grad_norm": 0.7639849185943604, "learning_rate": 4.1540740740740744e-05, "loss": 0.1478, "step": 9460 }, { "epoch": 25.253333333333334, "grad_norm": 0.6896493434906006, "learning_rate": 4.152592592592593e-05, "loss": 0.1598, "step": 9470 }, { "epoch": 25.28, "grad_norm": 0.6748881936073303, "learning_rate": 4.151111111111111e-05, "loss": 0.1768, "step": 9480 }, { "epoch": 25.306666666666665, "grad_norm": 1.2227346897125244, "learning_rate": 4.14962962962963e-05, "loss": 0.1774, "step": 9490 }, { "epoch": 25.333333333333332, "grad_norm": 0.663772702217102, "learning_rate": 4.148148148148148e-05, "loss": 0.1635, "step": 9500 }, { "epoch": 25.36, "grad_norm": 0.5167037844657898, "learning_rate": 4.146666666666667e-05, "loss": 0.1658, "step": 9510 }, { "epoch": 25.386666666666667, "grad_norm": 0.9501878619194031, "learning_rate": 4.1451851851851855e-05, "loss": 0.1382, "step": 9520 }, { "epoch": 25.413333333333334, "grad_norm": 1.1179039478302002, "learning_rate": 4.143703703703704e-05, "loss": 0.1724, "step": 9530 }, { "epoch": 25.44, "grad_norm": 0.7136002779006958, "learning_rate": 4.142222222222222e-05, "loss": 0.1542, "step": 9540 }, { "epoch": 25.466666666666665, "grad_norm": 0.8506696224212646, "learning_rate": 4.140740740740741e-05, "loss": 0.1491, "step": 9550 }, { "epoch": 25.493333333333332, "grad_norm": 1.212020754814148, "learning_rate": 4.13925925925926e-05, "loss": 0.1859, "step": 9560 }, { "epoch": 25.52, "grad_norm": 0.766791045665741, "learning_rate": 4.1377777777777784e-05, "loss": 0.1894, "step": 9570 }, { "epoch": 25.546666666666667, "grad_norm": 0.5400250554084778, "learning_rate": 4.1362962962962965e-05, "loss": 0.1541, "step": 9580 }, { "epoch": 25.573333333333334, "grad_norm": 0.6574545502662659, "learning_rate": 4.134814814814815e-05, "loss": 0.1592, "step": 9590 }, { "epoch": 25.6, "grad_norm": 1.0278068780899048, "learning_rate": 4.133333333333333e-05, "loss": 0.1543, "step": 9600 }, { "epoch": 25.626666666666665, "grad_norm": 1.0386019945144653, "learning_rate": 4.131851851851852e-05, "loss": 0.1552, "step": 9610 }, { "epoch": 25.653333333333332, "grad_norm": 0.5067430138587952, "learning_rate": 4.130370370370371e-05, "loss": 0.1764, "step": 9620 }, { "epoch": 25.68, "grad_norm": 0.7337875962257385, "learning_rate": 4.1288888888888895e-05, "loss": 0.1529, "step": 9630 }, { "epoch": 25.706666666666667, "grad_norm": 0.6260819435119629, "learning_rate": 4.1274074074074075e-05, "loss": 0.1748, "step": 9640 }, { "epoch": 25.733333333333334, "grad_norm": 0.8517183661460876, "learning_rate": 4.1259259259259256e-05, "loss": 0.141, "step": 9650 }, { "epoch": 25.76, "grad_norm": 0.6665200591087341, "learning_rate": 4.124444444444444e-05, "loss": 0.1562, "step": 9660 }, { "epoch": 25.786666666666665, "grad_norm": 0.6507882475852966, "learning_rate": 4.122962962962963e-05, "loss": 0.165, "step": 9670 }, { "epoch": 25.813333333333333, "grad_norm": 0.8839073777198792, "learning_rate": 4.121481481481482e-05, "loss": 0.2142, "step": 9680 }, { "epoch": 25.84, "grad_norm": 0.3860010802745819, "learning_rate": 4.12e-05, "loss": 0.161, "step": 9690 }, { "epoch": 25.866666666666667, "grad_norm": 0.7398421168327332, "learning_rate": 4.1185185185185186e-05, "loss": 0.1687, "step": 9700 }, { "epoch": 25.893333333333334, "grad_norm": 0.4246804416179657, "learning_rate": 4.117037037037037e-05, "loss": 0.1822, "step": 9710 }, { "epoch": 25.92, "grad_norm": 1.161210060119629, "learning_rate": 4.115555555555556e-05, "loss": 0.1382, "step": 9720 }, { "epoch": 25.946666666666665, "grad_norm": 1.0247435569763184, "learning_rate": 4.114074074074074e-05, "loss": 0.1373, "step": 9730 }, { "epoch": 25.973333333333333, "grad_norm": 0.814956545829773, "learning_rate": 4.112592592592593e-05, "loss": 0.1592, "step": 9740 }, { "epoch": 26.0, "grad_norm": 0.9313995838165283, "learning_rate": 4.111111111111111e-05, "loss": 0.1571, "step": 9750 }, { "epoch": 26.0, "eval_accuracy": 0.8990833333333333, "eval_loss": 0.31929996609687805, "eval_runtime": 253.0476, "eval_samples_per_second": 47.422, "eval_steps_per_second": 1.482, "step": 9750 }, { "epoch": 26.026666666666667, "grad_norm": 0.7782986164093018, "learning_rate": 4.1096296296296296e-05, "loss": 0.1752, "step": 9760 }, { "epoch": 26.053333333333335, "grad_norm": 0.9605236649513245, "learning_rate": 4.1081481481481484e-05, "loss": 0.1601, "step": 9770 }, { "epoch": 26.08, "grad_norm": 0.7013469338417053, "learning_rate": 4.106666666666667e-05, "loss": 0.1571, "step": 9780 }, { "epoch": 26.106666666666666, "grad_norm": 1.042792558670044, "learning_rate": 4.105185185185185e-05, "loss": 0.1628, "step": 9790 }, { "epoch": 26.133333333333333, "grad_norm": 1.104070782661438, "learning_rate": 4.103703703703704e-05, "loss": 0.1554, "step": 9800 }, { "epoch": 26.16, "grad_norm": 0.9003199338912964, "learning_rate": 4.1022222222222226e-05, "loss": 0.1665, "step": 9810 }, { "epoch": 26.186666666666667, "grad_norm": 1.1134809255599976, "learning_rate": 4.1007407407407414e-05, "loss": 0.162, "step": 9820 }, { "epoch": 26.213333333333335, "grad_norm": 0.6833969354629517, "learning_rate": 4.0992592592592594e-05, "loss": 0.1653, "step": 9830 }, { "epoch": 26.24, "grad_norm": 1.1178427934646606, "learning_rate": 4.097777777777778e-05, "loss": 0.1425, "step": 9840 }, { "epoch": 26.266666666666666, "grad_norm": 1.0028446912765503, "learning_rate": 4.096296296296296e-05, "loss": 0.17, "step": 9850 }, { "epoch": 26.293333333333333, "grad_norm": 0.7377941012382507, "learning_rate": 4.094814814814815e-05, "loss": 0.1753, "step": 9860 }, { "epoch": 26.32, "grad_norm": 0.7071134448051453, "learning_rate": 4.093333333333334e-05, "loss": 0.1381, "step": 9870 }, { "epoch": 26.346666666666668, "grad_norm": 0.9348256587982178, "learning_rate": 4.0918518518518524e-05, "loss": 0.1578, "step": 9880 }, { "epoch": 26.373333333333335, "grad_norm": 0.955427885055542, "learning_rate": 4.0903703703703705e-05, "loss": 0.1445, "step": 9890 }, { "epoch": 26.4, "grad_norm": 0.8554354310035706, "learning_rate": 4.088888888888889e-05, "loss": 0.1548, "step": 9900 }, { "epoch": 26.426666666666666, "grad_norm": 0.9663209319114685, "learning_rate": 4.087407407407407e-05, "loss": 0.1538, "step": 9910 }, { "epoch": 26.453333333333333, "grad_norm": 0.6183518171310425, "learning_rate": 4.0859259259259267e-05, "loss": 0.1667, "step": 9920 }, { "epoch": 26.48, "grad_norm": 0.6601312160491943, "learning_rate": 4.084444444444445e-05, "loss": 0.149, "step": 9930 }, { "epoch": 26.506666666666668, "grad_norm": 0.6924620270729065, "learning_rate": 4.0829629629629634e-05, "loss": 0.1702, "step": 9940 }, { "epoch": 26.533333333333335, "grad_norm": 1.4241288900375366, "learning_rate": 4.0814814814814815e-05, "loss": 0.1704, "step": 9950 }, { "epoch": 26.56, "grad_norm": 1.0676738023757935, "learning_rate": 4.08e-05, "loss": 0.1505, "step": 9960 }, { "epoch": 26.586666666666666, "grad_norm": 0.6703752279281616, "learning_rate": 4.078518518518519e-05, "loss": 0.1543, "step": 9970 }, { "epoch": 26.613333333333333, "grad_norm": 0.952796995639801, "learning_rate": 4.077037037037037e-05, "loss": 0.179, "step": 9980 }, { "epoch": 26.64, "grad_norm": 1.101239800453186, "learning_rate": 4.075555555555556e-05, "loss": 0.1629, "step": 9990 }, { "epoch": 26.666666666666668, "grad_norm": 0.9030396342277527, "learning_rate": 4.074074074074074e-05, "loss": 0.1674, "step": 10000 }, { "epoch": 26.693333333333335, "grad_norm": 0.7878081798553467, "learning_rate": 4.0725925925925926e-05, "loss": 0.1851, "step": 10010 }, { "epoch": 26.72, "grad_norm": 0.5717151165008545, "learning_rate": 4.071111111111111e-05, "loss": 0.1538, "step": 10020 }, { "epoch": 26.746666666666666, "grad_norm": 0.6442128419876099, "learning_rate": 4.06962962962963e-05, "loss": 0.1495, "step": 10030 }, { "epoch": 26.773333333333333, "grad_norm": 0.6916108727455139, "learning_rate": 4.068148148148148e-05, "loss": 0.1594, "step": 10040 }, { "epoch": 26.8, "grad_norm": 0.8664018511772156, "learning_rate": 4.066666666666667e-05, "loss": 0.2021, "step": 10050 }, { "epoch": 26.826666666666668, "grad_norm": 1.0689308643341064, "learning_rate": 4.0651851851851855e-05, "loss": 0.1732, "step": 10060 }, { "epoch": 26.85333333333333, "grad_norm": 1.2212198972702026, "learning_rate": 4.063703703703704e-05, "loss": 0.1521, "step": 10070 }, { "epoch": 26.88, "grad_norm": 0.5901145935058594, "learning_rate": 4.062222222222222e-05, "loss": 0.1703, "step": 10080 }, { "epoch": 26.906666666666666, "grad_norm": 0.9043041467666626, "learning_rate": 4.060740740740741e-05, "loss": 0.1891, "step": 10090 }, { "epoch": 26.933333333333334, "grad_norm": 0.6385757923126221, "learning_rate": 4.059259259259259e-05, "loss": 0.1531, "step": 10100 }, { "epoch": 26.96, "grad_norm": 0.9186438918113708, "learning_rate": 4.057777777777778e-05, "loss": 0.1886, "step": 10110 }, { "epoch": 26.986666666666668, "grad_norm": 0.9996051788330078, "learning_rate": 4.0562962962962966e-05, "loss": 0.1616, "step": 10120 }, { "epoch": 27.0, "eval_accuracy": 0.9008333333333334, "eval_loss": 0.31497037410736084, "eval_runtime": 252.7702, "eval_samples_per_second": 47.474, "eval_steps_per_second": 1.484, "step": 10125 }, { "epoch": 27.013333333333332, "grad_norm": 1.4487619400024414, "learning_rate": 4.054814814814815e-05, "loss": 0.1272, "step": 10130 }, { "epoch": 27.04, "grad_norm": 1.0402156114578247, "learning_rate": 4.0533333333333334e-05, "loss": 0.1405, "step": 10140 }, { "epoch": 27.066666666666666, "grad_norm": 0.7778382301330566, "learning_rate": 4.051851851851852e-05, "loss": 0.1266, "step": 10150 }, { "epoch": 27.093333333333334, "grad_norm": 0.7495517730712891, "learning_rate": 4.05037037037037e-05, "loss": 0.1381, "step": 10160 }, { "epoch": 27.12, "grad_norm": 1.0426610708236694, "learning_rate": 4.0488888888888896e-05, "loss": 0.1653, "step": 10170 }, { "epoch": 27.14666666666667, "grad_norm": 0.8395851850509644, "learning_rate": 4.0474074074074076e-05, "loss": 0.1599, "step": 10180 }, { "epoch": 27.173333333333332, "grad_norm": 0.8455336093902588, "learning_rate": 4.0459259259259264e-05, "loss": 0.1416, "step": 10190 }, { "epoch": 27.2, "grad_norm": 0.8600906133651733, "learning_rate": 4.0444444444444444e-05, "loss": 0.1641, "step": 10200 }, { "epoch": 27.226666666666667, "grad_norm": 1.121575951576233, "learning_rate": 4.042962962962963e-05, "loss": 0.168, "step": 10210 }, { "epoch": 27.253333333333334, "grad_norm": 1.0944111347198486, "learning_rate": 4.041481481481482e-05, "loss": 0.178, "step": 10220 }, { "epoch": 27.28, "grad_norm": 0.6407256126403809, "learning_rate": 4.0400000000000006e-05, "loss": 0.1445, "step": 10230 }, { "epoch": 27.306666666666665, "grad_norm": 0.79509437084198, "learning_rate": 4.038518518518519e-05, "loss": 0.1539, "step": 10240 }, { "epoch": 27.333333333333332, "grad_norm": 0.7339061498641968, "learning_rate": 4.0370370370370374e-05, "loss": 0.1574, "step": 10250 }, { "epoch": 27.36, "grad_norm": 0.8828989267349243, "learning_rate": 4.0355555555555555e-05, "loss": 0.1837, "step": 10260 }, { "epoch": 27.386666666666667, "grad_norm": 0.5819228887557983, "learning_rate": 4.034074074074074e-05, "loss": 0.1776, "step": 10270 }, { "epoch": 27.413333333333334, "grad_norm": 0.7457976937294006, "learning_rate": 4.032592592592593e-05, "loss": 0.1648, "step": 10280 }, { "epoch": 27.44, "grad_norm": 0.6604668498039246, "learning_rate": 4.031111111111111e-05, "loss": 0.1551, "step": 10290 }, { "epoch": 27.466666666666665, "grad_norm": 1.3926297426223755, "learning_rate": 4.02962962962963e-05, "loss": 0.1598, "step": 10300 }, { "epoch": 27.493333333333332, "grad_norm": 1.0974200963974, "learning_rate": 4.028148148148148e-05, "loss": 0.1873, "step": 10310 }, { "epoch": 27.52, "grad_norm": 0.817166268825531, "learning_rate": 4.026666666666667e-05, "loss": 0.1762, "step": 10320 }, { "epoch": 27.546666666666667, "grad_norm": 0.6444597244262695, "learning_rate": 4.025185185185185e-05, "loss": 0.1424, "step": 10330 }, { "epoch": 27.573333333333334, "grad_norm": 0.7346920967102051, "learning_rate": 4.023703703703704e-05, "loss": 0.1423, "step": 10340 }, { "epoch": 27.6, "grad_norm": 0.33930566906929016, "learning_rate": 4.022222222222222e-05, "loss": 0.1265, "step": 10350 }, { "epoch": 27.626666666666665, "grad_norm": 0.7126988768577576, "learning_rate": 4.020740740740741e-05, "loss": 0.1301, "step": 10360 }, { "epoch": 27.653333333333332, "grad_norm": 1.3599756956100464, "learning_rate": 4.0192592592592595e-05, "loss": 0.1516, "step": 10370 }, { "epoch": 27.68, "grad_norm": 0.9836394190788269, "learning_rate": 4.017777777777778e-05, "loss": 0.157, "step": 10380 }, { "epoch": 27.706666666666667, "grad_norm": 0.6310690641403198, "learning_rate": 4.016296296296296e-05, "loss": 0.1439, "step": 10390 }, { "epoch": 27.733333333333334, "grad_norm": 0.9054973125457764, "learning_rate": 4.014814814814815e-05, "loss": 0.1581, "step": 10400 }, { "epoch": 27.76, "grad_norm": 0.7506052851676941, "learning_rate": 4.013333333333333e-05, "loss": 0.1525, "step": 10410 }, { "epoch": 27.786666666666665, "grad_norm": 0.9047917723655701, "learning_rate": 4.0118518518518525e-05, "loss": 0.1639, "step": 10420 }, { "epoch": 27.813333333333333, "grad_norm": 0.7593700289726257, "learning_rate": 4.0103703703703705e-05, "loss": 0.1658, "step": 10430 }, { "epoch": 27.84, "grad_norm": 1.2208822965621948, "learning_rate": 4.008888888888889e-05, "loss": 0.1761, "step": 10440 }, { "epoch": 27.866666666666667, "grad_norm": 0.7650309205055237, "learning_rate": 4.007407407407407e-05, "loss": 0.1771, "step": 10450 }, { "epoch": 27.893333333333334, "grad_norm": 0.47849419713020325, "learning_rate": 4.005925925925926e-05, "loss": 0.1603, "step": 10460 }, { "epoch": 27.92, "grad_norm": 0.8781583309173584, "learning_rate": 4.004444444444445e-05, "loss": 0.1411, "step": 10470 }, { "epoch": 27.946666666666665, "grad_norm": 1.3224233388900757, "learning_rate": 4.0029629629629635e-05, "loss": 0.1545, "step": 10480 }, { "epoch": 27.973333333333333, "grad_norm": 0.8204091787338257, "learning_rate": 4.0014814814814816e-05, "loss": 0.1367, "step": 10490 }, { "epoch": 28.0, "grad_norm": 1.2398439645767212, "learning_rate": 4e-05, "loss": 0.1608, "step": 10500 }, { "epoch": 28.0, "eval_accuracy": 0.8994166666666666, "eval_loss": 0.3260481059551239, "eval_runtime": 252.8199, "eval_samples_per_second": 47.465, "eval_steps_per_second": 1.483, "step": 10500 }, { "epoch": 28.026666666666667, "grad_norm": 0.6893605589866638, "learning_rate": 3.9985185185185184e-05, "loss": 0.1558, "step": 10510 }, { "epoch": 28.053333333333335, "grad_norm": 0.7332105040550232, "learning_rate": 3.997037037037038e-05, "loss": 0.1641, "step": 10520 }, { "epoch": 28.08, "grad_norm": 0.9733380675315857, "learning_rate": 3.995555555555556e-05, "loss": 0.1593, "step": 10530 }, { "epoch": 28.106666666666666, "grad_norm": 0.5634269714355469, "learning_rate": 3.9940740740740746e-05, "loss": 0.1664, "step": 10540 }, { "epoch": 28.133333333333333, "grad_norm": 0.6527448296546936, "learning_rate": 3.9925925925925926e-05, "loss": 0.1576, "step": 10550 }, { "epoch": 28.16, "grad_norm": 1.0427942276000977, "learning_rate": 3.9911111111111114e-05, "loss": 0.1385, "step": 10560 }, { "epoch": 28.186666666666667, "grad_norm": 0.6839006543159485, "learning_rate": 3.98962962962963e-05, "loss": 0.1582, "step": 10570 }, { "epoch": 28.213333333333335, "grad_norm": 0.5583319664001465, "learning_rate": 3.988148148148148e-05, "loss": 0.1842, "step": 10580 }, { "epoch": 28.24, "grad_norm": 0.5305918455123901, "learning_rate": 3.986666666666667e-05, "loss": 0.1622, "step": 10590 }, { "epoch": 28.266666666666666, "grad_norm": 0.9706399440765381, "learning_rate": 3.985185185185185e-05, "loss": 0.1454, "step": 10600 }, { "epoch": 28.293333333333333, "grad_norm": 0.6750807762145996, "learning_rate": 3.983703703703704e-05, "loss": 0.1464, "step": 10610 }, { "epoch": 28.32, "grad_norm": 0.8013555407524109, "learning_rate": 3.9822222222222224e-05, "loss": 0.1567, "step": 10620 }, { "epoch": 28.346666666666668, "grad_norm": 1.144155740737915, "learning_rate": 3.980740740740741e-05, "loss": 0.154, "step": 10630 }, { "epoch": 28.373333333333335, "grad_norm": 0.9181743264198303, "learning_rate": 3.979259259259259e-05, "loss": 0.1528, "step": 10640 }, { "epoch": 28.4, "grad_norm": 0.9138596653938293, "learning_rate": 3.977777777777778e-05, "loss": 0.1942, "step": 10650 }, { "epoch": 28.426666666666666, "grad_norm": 0.940497100353241, "learning_rate": 3.976296296296296e-05, "loss": 0.1303, "step": 10660 }, { "epoch": 28.453333333333333, "grad_norm": 0.9832512736320496, "learning_rate": 3.9748148148148154e-05, "loss": 0.1414, "step": 10670 }, { "epoch": 28.48, "grad_norm": 0.6621248722076416, "learning_rate": 3.9733333333333335e-05, "loss": 0.1491, "step": 10680 }, { "epoch": 28.506666666666668, "grad_norm": 0.99233078956604, "learning_rate": 3.971851851851852e-05, "loss": 0.1631, "step": 10690 }, { "epoch": 28.533333333333335, "grad_norm": 0.7408146858215332, "learning_rate": 3.97037037037037e-05, "loss": 0.1417, "step": 10700 }, { "epoch": 28.56, "grad_norm": 1.1458914279937744, "learning_rate": 3.968888888888889e-05, "loss": 0.1643, "step": 10710 }, { "epoch": 28.586666666666666, "grad_norm": 0.629497230052948, "learning_rate": 3.967407407407408e-05, "loss": 0.1638, "step": 10720 }, { "epoch": 28.613333333333333, "grad_norm": 1.3338971138000488, "learning_rate": 3.9659259259259265e-05, "loss": 0.1267, "step": 10730 }, { "epoch": 28.64, "grad_norm": 0.5817397236824036, "learning_rate": 3.9644444444444445e-05, "loss": 0.1455, "step": 10740 }, { "epoch": 28.666666666666668, "grad_norm": 0.9284518957138062, "learning_rate": 3.962962962962963e-05, "loss": 0.151, "step": 10750 }, { "epoch": 28.693333333333335, "grad_norm": 1.0227954387664795, "learning_rate": 3.961481481481481e-05, "loss": 0.1405, "step": 10760 }, { "epoch": 28.72, "grad_norm": 0.7645326852798462, "learning_rate": 3.960000000000001e-05, "loss": 0.1459, "step": 10770 }, { "epoch": 28.746666666666666, "grad_norm": 0.7437626719474792, "learning_rate": 3.958518518518519e-05, "loss": 0.194, "step": 10780 }, { "epoch": 28.773333333333333, "grad_norm": 0.6487135887145996, "learning_rate": 3.9570370370370375e-05, "loss": 0.1542, "step": 10790 }, { "epoch": 28.8, "grad_norm": 0.6059247255325317, "learning_rate": 3.9555555555555556e-05, "loss": 0.1555, "step": 10800 }, { "epoch": 28.826666666666668, "grad_norm": 0.3758384883403778, "learning_rate": 3.954074074074074e-05, "loss": 0.1488, "step": 10810 }, { "epoch": 28.85333333333333, "grad_norm": 0.8953729271888733, "learning_rate": 3.952592592592593e-05, "loss": 0.1346, "step": 10820 }, { "epoch": 28.88, "grad_norm": 0.8550493717193604, "learning_rate": 3.951111111111112e-05, "loss": 0.1402, "step": 10830 }, { "epoch": 28.906666666666666, "grad_norm": 0.707980215549469, "learning_rate": 3.94962962962963e-05, "loss": 0.1821, "step": 10840 }, { "epoch": 28.933333333333334, "grad_norm": 0.7635376453399658, "learning_rate": 3.9481481481481485e-05, "loss": 0.1739, "step": 10850 }, { "epoch": 28.96, "grad_norm": 1.2454946041107178, "learning_rate": 3.9466666666666666e-05, "loss": 0.1487, "step": 10860 }, { "epoch": 28.986666666666668, "grad_norm": 0.9234296679496765, "learning_rate": 3.945185185185185e-05, "loss": 0.1766, "step": 10870 }, { "epoch": 29.0, "eval_accuracy": 0.8963333333333333, "eval_loss": 0.3143346905708313, "eval_runtime": 253.1085, "eval_samples_per_second": 47.41, "eval_steps_per_second": 1.482, "step": 10875 }, { "epoch": 29.013333333333332, "grad_norm": 0.6467958092689514, "learning_rate": 3.943703703703704e-05, "loss": 0.1514, "step": 10880 }, { "epoch": 29.04, "grad_norm": 0.6527116894721985, "learning_rate": 3.942222222222222e-05, "loss": 0.1486, "step": 10890 }, { "epoch": 29.066666666666666, "grad_norm": 0.6416818499565125, "learning_rate": 3.940740740740741e-05, "loss": 0.1366, "step": 10900 }, { "epoch": 29.093333333333334, "grad_norm": 1.0649131536483765, "learning_rate": 3.939259259259259e-05, "loss": 0.1524, "step": 10910 }, { "epoch": 29.12, "grad_norm": 1.2108582258224487, "learning_rate": 3.937777777777778e-05, "loss": 0.1365, "step": 10920 }, { "epoch": 29.14666666666667, "grad_norm": 1.0144089460372925, "learning_rate": 3.9362962962962964e-05, "loss": 0.1511, "step": 10930 }, { "epoch": 29.173333333333332, "grad_norm": 0.5941630005836487, "learning_rate": 3.934814814814815e-05, "loss": 0.1681, "step": 10940 }, { "epoch": 29.2, "grad_norm": 0.552924394607544, "learning_rate": 3.933333333333333e-05, "loss": 0.1401, "step": 10950 }, { "epoch": 29.226666666666667, "grad_norm": 0.5984042286872864, "learning_rate": 3.931851851851852e-05, "loss": 0.1735, "step": 10960 }, { "epoch": 29.253333333333334, "grad_norm": 0.5484638214111328, "learning_rate": 3.9303703703703706e-05, "loss": 0.1342, "step": 10970 }, { "epoch": 29.28, "grad_norm": 0.8591370582580566, "learning_rate": 3.9288888888888894e-05, "loss": 0.1574, "step": 10980 }, { "epoch": 29.306666666666665, "grad_norm": 0.8318890929222107, "learning_rate": 3.9274074074074074e-05, "loss": 0.1544, "step": 10990 }, { "epoch": 29.333333333333332, "grad_norm": 0.8118026256561279, "learning_rate": 3.925925925925926e-05, "loss": 0.1621, "step": 11000 }, { "epoch": 29.36, "grad_norm": 0.9545933604240417, "learning_rate": 3.924444444444444e-05, "loss": 0.1592, "step": 11010 }, { "epoch": 29.386666666666667, "grad_norm": 0.669881284236908, "learning_rate": 3.922962962962963e-05, "loss": 0.1515, "step": 11020 }, { "epoch": 29.413333333333334, "grad_norm": 0.639251172542572, "learning_rate": 3.921481481481482e-05, "loss": 0.1483, "step": 11030 }, { "epoch": 29.44, "grad_norm": 1.6298249959945679, "learning_rate": 3.9200000000000004e-05, "loss": 0.1349, "step": 11040 }, { "epoch": 29.466666666666665, "grad_norm": 0.496686726808548, "learning_rate": 3.9185185185185185e-05, "loss": 0.1591, "step": 11050 }, { "epoch": 29.493333333333332, "grad_norm": 0.6817299127578735, "learning_rate": 3.917037037037037e-05, "loss": 0.1288, "step": 11060 }, { "epoch": 29.52, "grad_norm": 0.7114832401275635, "learning_rate": 3.915555555555556e-05, "loss": 0.1533, "step": 11070 }, { "epoch": 29.546666666666667, "grad_norm": 1.1204123497009277, "learning_rate": 3.914074074074075e-05, "loss": 0.1638, "step": 11080 }, { "epoch": 29.573333333333334, "grad_norm": 0.6622611880302429, "learning_rate": 3.912592592592593e-05, "loss": 0.1578, "step": 11090 }, { "epoch": 29.6, "grad_norm": 0.8145710229873657, "learning_rate": 3.9111111111111115e-05, "loss": 0.1423, "step": 11100 }, { "epoch": 29.626666666666665, "grad_norm": 0.6247044801712036, "learning_rate": 3.9096296296296295e-05, "loss": 0.1772, "step": 11110 }, { "epoch": 29.653333333333332, "grad_norm": 0.6817605495452881, "learning_rate": 3.908148148148148e-05, "loss": 0.1838, "step": 11120 }, { "epoch": 29.68, "grad_norm": 1.0804976224899292, "learning_rate": 3.906666666666667e-05, "loss": 0.1616, "step": 11130 }, { "epoch": 29.706666666666667, "grad_norm": 1.0282964706420898, "learning_rate": 3.905185185185186e-05, "loss": 0.136, "step": 11140 }, { "epoch": 29.733333333333334, "grad_norm": 0.5476607084274292, "learning_rate": 3.903703703703704e-05, "loss": 0.114, "step": 11150 }, { "epoch": 29.76, "grad_norm": 1.141966700553894, "learning_rate": 3.9022222222222225e-05, "loss": 0.1525, "step": 11160 }, { "epoch": 29.786666666666665, "grad_norm": 0.7984287142753601, "learning_rate": 3.900740740740741e-05, "loss": 0.1648, "step": 11170 }, { "epoch": 29.813333333333333, "grad_norm": 1.0380336046218872, "learning_rate": 3.89925925925926e-05, "loss": 0.1769, "step": 11180 }, { "epoch": 29.84, "grad_norm": 0.8326897621154785, "learning_rate": 3.897777777777778e-05, "loss": 0.1746, "step": 11190 }, { "epoch": 29.866666666666667, "grad_norm": 0.9488481879234314, "learning_rate": 3.896296296296296e-05, "loss": 0.1595, "step": 11200 }, { "epoch": 29.893333333333334, "grad_norm": 0.6698833703994751, "learning_rate": 3.894814814814815e-05, "loss": 0.1609, "step": 11210 }, { "epoch": 29.92, "grad_norm": 0.7668611407279968, "learning_rate": 3.8933333333333336e-05, "loss": 0.1541, "step": 11220 }, { "epoch": 29.946666666666665, "grad_norm": 1.407020092010498, "learning_rate": 3.891851851851852e-05, "loss": 0.1369, "step": 11230 }, { "epoch": 29.973333333333333, "grad_norm": 0.7712295055389404, "learning_rate": 3.8903703703703703e-05, "loss": 0.1681, "step": 11240 }, { "epoch": 30.0, "grad_norm": 0.7841002345085144, "learning_rate": 3.888888888888889e-05, "loss": 0.1459, "step": 11250 }, { "epoch": 30.0, "eval_accuracy": 0.8990833333333333, "eval_loss": 0.326180100440979, "eval_runtime": 252.5821, "eval_samples_per_second": 47.509, "eval_steps_per_second": 1.485, "step": 11250 }, { "epoch": 30.026666666666667, "grad_norm": 0.8573657870292664, "learning_rate": 3.887407407407407e-05, "loss": 0.1519, "step": 11260 }, { "epoch": 30.053333333333335, "grad_norm": 0.6085878610610962, "learning_rate": 3.885925925925926e-05, "loss": 0.1618, "step": 11270 }, { "epoch": 30.08, "grad_norm": 1.2267919778823853, "learning_rate": 3.8844444444444446e-05, "loss": 0.152, "step": 11280 }, { "epoch": 30.106666666666666, "grad_norm": 0.7280980944633484, "learning_rate": 3.882962962962963e-05, "loss": 0.132, "step": 11290 }, { "epoch": 30.133333333333333, "grad_norm": 1.2680655717849731, "learning_rate": 3.8814814814814814e-05, "loss": 0.1241, "step": 11300 }, { "epoch": 30.16, "grad_norm": 0.8354300856590271, "learning_rate": 3.88e-05, "loss": 0.1487, "step": 11310 }, { "epoch": 30.186666666666667, "grad_norm": 1.194151520729065, "learning_rate": 3.878518518518519e-05, "loss": 0.1377, "step": 11320 }, { "epoch": 30.213333333333335, "grad_norm": 0.7555848956108093, "learning_rate": 3.8770370370370376e-05, "loss": 0.1421, "step": 11330 }, { "epoch": 30.24, "grad_norm": 0.5116603374481201, "learning_rate": 3.8755555555555556e-05, "loss": 0.1243, "step": 11340 }, { "epoch": 30.266666666666666, "grad_norm": 0.8198305368423462, "learning_rate": 3.8740740740740744e-05, "loss": 0.137, "step": 11350 }, { "epoch": 30.293333333333333, "grad_norm": 0.5630440711975098, "learning_rate": 3.8725925925925924e-05, "loss": 0.1473, "step": 11360 }, { "epoch": 30.32, "grad_norm": 0.7061154842376709, "learning_rate": 3.871111111111111e-05, "loss": 0.1961, "step": 11370 }, { "epoch": 30.346666666666668, "grad_norm": 0.8157947063446045, "learning_rate": 3.86962962962963e-05, "loss": 0.1352, "step": 11380 }, { "epoch": 30.373333333333335, "grad_norm": 1.1062180995941162, "learning_rate": 3.8681481481481486e-05, "loss": 0.1441, "step": 11390 }, { "epoch": 30.4, "grad_norm": 0.45194345712661743, "learning_rate": 3.866666666666667e-05, "loss": 0.1297, "step": 11400 }, { "epoch": 30.426666666666666, "grad_norm": 0.5673952102661133, "learning_rate": 3.8651851851851854e-05, "loss": 0.1578, "step": 11410 }, { "epoch": 30.453333333333333, "grad_norm": 0.5672792792320251, "learning_rate": 3.863703703703704e-05, "loss": 0.1453, "step": 11420 }, { "epoch": 30.48, "grad_norm": 0.5309438705444336, "learning_rate": 3.862222222222223e-05, "loss": 0.1648, "step": 11430 }, { "epoch": 30.506666666666668, "grad_norm": 0.8667115569114685, "learning_rate": 3.860740740740741e-05, "loss": 0.1487, "step": 11440 }, { "epoch": 30.533333333333335, "grad_norm": 0.9123988747596741, "learning_rate": 3.85925925925926e-05, "loss": 0.1563, "step": 11450 }, { "epoch": 30.56, "grad_norm": 0.7069024443626404, "learning_rate": 3.857777777777778e-05, "loss": 0.1411, "step": 11460 }, { "epoch": 30.586666666666666, "grad_norm": 0.9990876317024231, "learning_rate": 3.8562962962962965e-05, "loss": 0.1534, "step": 11470 }, { "epoch": 30.613333333333333, "grad_norm": 0.42457976937294006, "learning_rate": 3.854814814814815e-05, "loss": 0.1452, "step": 11480 }, { "epoch": 30.64, "grad_norm": 0.325662225484848, "learning_rate": 3.853333333333334e-05, "loss": 0.137, "step": 11490 }, { "epoch": 30.666666666666668, "grad_norm": 0.8207065463066101, "learning_rate": 3.851851851851852e-05, "loss": 0.1727, "step": 11500 }, { "epoch": 30.693333333333335, "grad_norm": 0.8283947706222534, "learning_rate": 3.85037037037037e-05, "loss": 0.1607, "step": 11510 }, { "epoch": 30.72, "grad_norm": 1.5957098007202148, "learning_rate": 3.848888888888889e-05, "loss": 0.1342, "step": 11520 }, { "epoch": 30.746666666666666, "grad_norm": 1.2843079566955566, "learning_rate": 3.8474074074074075e-05, "loss": 0.1509, "step": 11530 }, { "epoch": 30.773333333333333, "grad_norm": 0.7785205245018005, "learning_rate": 3.845925925925926e-05, "loss": 0.1509, "step": 11540 }, { "epoch": 30.8, "grad_norm": 0.38686737418174744, "learning_rate": 3.844444444444444e-05, "loss": 0.1571, "step": 11550 }, { "epoch": 30.826666666666668, "grad_norm": 0.4960973858833313, "learning_rate": 3.842962962962963e-05, "loss": 0.1071, "step": 11560 }, { "epoch": 30.85333333333333, "grad_norm": 0.8786376714706421, "learning_rate": 3.841481481481482e-05, "loss": 0.1881, "step": 11570 }, { "epoch": 30.88, "grad_norm": 0.6073949933052063, "learning_rate": 3.8400000000000005e-05, "loss": 0.1469, "step": 11580 }, { "epoch": 30.906666666666666, "grad_norm": 1.1761499643325806, "learning_rate": 3.8385185185185186e-05, "loss": 0.1522, "step": 11590 }, { "epoch": 30.933333333333334, "grad_norm": 1.1161147356033325, "learning_rate": 3.837037037037037e-05, "loss": 0.1566, "step": 11600 }, { "epoch": 30.96, "grad_norm": 0.718074381351471, "learning_rate": 3.8355555555555553e-05, "loss": 0.118, "step": 11610 }, { "epoch": 30.986666666666668, "grad_norm": 1.0799586772918701, "learning_rate": 3.834074074074074e-05, "loss": 0.112, "step": 11620 }, { "epoch": 31.0, "eval_accuracy": 0.9040833333333333, "eval_loss": 0.3329257071018219, "eval_runtime": 253.3806, "eval_samples_per_second": 47.36, "eval_steps_per_second": 1.48, "step": 11625 }, { "epoch": 31.013333333333332, "grad_norm": 1.0448365211486816, "learning_rate": 3.832592592592593e-05, "loss": 0.1387, "step": 11630 }, { "epoch": 31.04, "grad_norm": 0.8702309131622314, "learning_rate": 3.8311111111111115e-05, "loss": 0.1432, "step": 11640 }, { "epoch": 31.066666666666666, "grad_norm": 0.7754233479499817, "learning_rate": 3.8296296296296296e-05, "loss": 0.1544, "step": 11650 }, { "epoch": 31.093333333333334, "grad_norm": 0.9715024828910828, "learning_rate": 3.8281481481481483e-05, "loss": 0.1393, "step": 11660 }, { "epoch": 31.12, "grad_norm": 0.7901193499565125, "learning_rate": 3.8266666666666664e-05, "loss": 0.1531, "step": 11670 }, { "epoch": 31.14666666666667, "grad_norm": 0.44737014174461365, "learning_rate": 3.825185185185186e-05, "loss": 0.1261, "step": 11680 }, { "epoch": 31.173333333333332, "grad_norm": 0.9578866958618164, "learning_rate": 3.823703703703704e-05, "loss": 0.1562, "step": 11690 }, { "epoch": 31.2, "grad_norm": 0.9539816975593567, "learning_rate": 3.8222222222222226e-05, "loss": 0.1282, "step": 11700 }, { "epoch": 31.226666666666667, "grad_norm": 0.6584634780883789, "learning_rate": 3.8207407407407407e-05, "loss": 0.1649, "step": 11710 }, { "epoch": 31.253333333333334, "grad_norm": 0.8631150722503662, "learning_rate": 3.8192592592592594e-05, "loss": 0.1523, "step": 11720 }, { "epoch": 31.28, "grad_norm": 0.47979697585105896, "learning_rate": 3.817777777777778e-05, "loss": 0.1553, "step": 11730 }, { "epoch": 31.306666666666665, "grad_norm": 0.6728746891021729, "learning_rate": 3.816296296296297e-05, "loss": 0.1432, "step": 11740 }, { "epoch": 31.333333333333332, "grad_norm": 0.9024733304977417, "learning_rate": 3.814814814814815e-05, "loss": 0.1494, "step": 11750 }, { "epoch": 31.36, "grad_norm": 0.8229910135269165, "learning_rate": 3.8133333333333336e-05, "loss": 0.1279, "step": 11760 }, { "epoch": 31.386666666666667, "grad_norm": 0.8371192216873169, "learning_rate": 3.811851851851852e-05, "loss": 0.136, "step": 11770 }, { "epoch": 31.413333333333334, "grad_norm": 1.4966837167739868, "learning_rate": 3.810370370370371e-05, "loss": 0.1938, "step": 11780 }, { "epoch": 31.44, "grad_norm": 0.8800570368766785, "learning_rate": 3.808888888888889e-05, "loss": 0.1516, "step": 11790 }, { "epoch": 31.466666666666665, "grad_norm": 0.6718322038650513, "learning_rate": 3.807407407407408e-05, "loss": 0.1502, "step": 11800 }, { "epoch": 31.493333333333332, "grad_norm": 1.0114471912384033, "learning_rate": 3.805925925925926e-05, "loss": 0.1411, "step": 11810 }, { "epoch": 31.52, "grad_norm": 0.8189203143119812, "learning_rate": 3.804444444444445e-05, "loss": 0.1617, "step": 11820 }, { "epoch": 31.546666666666667, "grad_norm": 1.0306363105773926, "learning_rate": 3.8029629629629634e-05, "loss": 0.1477, "step": 11830 }, { "epoch": 31.573333333333334, "grad_norm": 0.5885746479034424, "learning_rate": 3.8014814814814815e-05, "loss": 0.1477, "step": 11840 }, { "epoch": 31.6, "grad_norm": 1.2009676694869995, "learning_rate": 3.8e-05, "loss": 0.1479, "step": 11850 }, { "epoch": 31.626666666666665, "grad_norm": 0.7326869368553162, "learning_rate": 3.798518518518518e-05, "loss": 0.1427, "step": 11860 }, { "epoch": 31.653333333333332, "grad_norm": 0.7947394847869873, "learning_rate": 3.797037037037037e-05, "loss": 0.14, "step": 11870 }, { "epoch": 31.68, "grad_norm": 0.9484646320343018, "learning_rate": 3.795555555555556e-05, "loss": 0.147, "step": 11880 }, { "epoch": 31.706666666666667, "grad_norm": 0.36476749181747437, "learning_rate": 3.7940740740740745e-05, "loss": 0.1627, "step": 11890 }, { "epoch": 31.733333333333334, "grad_norm": 0.829441249370575, "learning_rate": 3.7925925925925925e-05, "loss": 0.1692, "step": 11900 }, { "epoch": 31.76, "grad_norm": 0.4258587062358856, "learning_rate": 3.791111111111111e-05, "loss": 0.1148, "step": 11910 }, { "epoch": 31.786666666666665, "grad_norm": 0.6510931849479675, "learning_rate": 3.789629629629629e-05, "loss": 0.1162, "step": 11920 }, { "epoch": 31.813333333333333, "grad_norm": 1.0323469638824463, "learning_rate": 3.788148148148149e-05, "loss": 0.1516, "step": 11930 }, { "epoch": 31.84, "grad_norm": 1.32700777053833, "learning_rate": 3.786666666666667e-05, "loss": 0.1406, "step": 11940 }, { "epoch": 31.866666666666667, "grad_norm": 0.9105033874511719, "learning_rate": 3.7851851851851855e-05, "loss": 0.1297, "step": 11950 }, { "epoch": 31.893333333333334, "grad_norm": 0.7099591493606567, "learning_rate": 3.7837037037037036e-05, "loss": 0.1485, "step": 11960 }, { "epoch": 31.92, "grad_norm": 0.6305086612701416, "learning_rate": 3.782222222222222e-05, "loss": 0.1334, "step": 11970 }, { "epoch": 31.946666666666665, "grad_norm": 0.8867177963256836, "learning_rate": 3.780740740740741e-05, "loss": 0.1621, "step": 11980 }, { "epoch": 31.973333333333333, "grad_norm": 0.8763002157211304, "learning_rate": 3.77925925925926e-05, "loss": 0.1476, "step": 11990 }, { "epoch": 32.0, "grad_norm": 0.8974031805992126, "learning_rate": 3.777777777777778e-05, "loss": 0.1319, "step": 12000 }, { "epoch": 32.0, "eval_accuracy": 0.9004166666666666, "eval_loss": 0.31857413053512573, "eval_runtime": 253.257, "eval_samples_per_second": 47.383, "eval_steps_per_second": 1.481, "step": 12000 }, { "epoch": 32.026666666666664, "grad_norm": 0.7753136157989502, "learning_rate": 3.7762962962962966e-05, "loss": 0.1269, "step": 12010 }, { "epoch": 32.053333333333335, "grad_norm": 0.7995634078979492, "learning_rate": 3.7748148148148146e-05, "loss": 0.1411, "step": 12020 }, { "epoch": 32.08, "grad_norm": 0.6742477416992188, "learning_rate": 3.773333333333334e-05, "loss": 0.139, "step": 12030 }, { "epoch": 32.10666666666667, "grad_norm": 1.3187172412872314, "learning_rate": 3.771851851851852e-05, "loss": 0.1467, "step": 12040 }, { "epoch": 32.13333333333333, "grad_norm": 0.6753908395767212, "learning_rate": 3.770370370370371e-05, "loss": 0.1197, "step": 12050 }, { "epoch": 32.16, "grad_norm": 0.7020182013511658, "learning_rate": 3.768888888888889e-05, "loss": 0.1418, "step": 12060 }, { "epoch": 32.18666666666667, "grad_norm": 0.7069774270057678, "learning_rate": 3.7674074074074076e-05, "loss": 0.1519, "step": 12070 }, { "epoch": 32.21333333333333, "grad_norm": 1.3456929922103882, "learning_rate": 3.765925925925926e-05, "loss": 0.1732, "step": 12080 }, { "epoch": 32.24, "grad_norm": 0.7249400615692139, "learning_rate": 3.764444444444445e-05, "loss": 0.1523, "step": 12090 }, { "epoch": 32.266666666666666, "grad_norm": 0.6168241500854492, "learning_rate": 3.762962962962963e-05, "loss": 0.1349, "step": 12100 }, { "epoch": 32.29333333333334, "grad_norm": 0.5220170021057129, "learning_rate": 3.761481481481482e-05, "loss": 0.1464, "step": 12110 }, { "epoch": 32.32, "grad_norm": 0.5630850195884705, "learning_rate": 3.76e-05, "loss": 0.147, "step": 12120 }, { "epoch": 32.346666666666664, "grad_norm": 0.4130004048347473, "learning_rate": 3.7585185185185186e-05, "loss": 0.1293, "step": 12130 }, { "epoch": 32.373333333333335, "grad_norm": 0.7287957668304443, "learning_rate": 3.7570370370370374e-05, "loss": 0.1344, "step": 12140 }, { "epoch": 32.4, "grad_norm": 0.865244448184967, "learning_rate": 3.7555555555555554e-05, "loss": 0.1423, "step": 12150 }, { "epoch": 32.42666666666667, "grad_norm": 1.1962553262710571, "learning_rate": 3.754074074074074e-05, "loss": 0.1542, "step": 12160 }, { "epoch": 32.45333333333333, "grad_norm": 0.8940578103065491, "learning_rate": 3.752592592592592e-05, "loss": 0.128, "step": 12170 }, { "epoch": 32.48, "grad_norm": 0.642844021320343, "learning_rate": 3.7511111111111116e-05, "loss": 0.1276, "step": 12180 }, { "epoch": 32.50666666666667, "grad_norm": 0.5693470239639282, "learning_rate": 3.74962962962963e-05, "loss": 0.1579, "step": 12190 }, { "epoch": 32.53333333333333, "grad_norm": 0.6597217917442322, "learning_rate": 3.7481481481481484e-05, "loss": 0.1695, "step": 12200 }, { "epoch": 32.56, "grad_norm": 0.6610549688339233, "learning_rate": 3.7466666666666665e-05, "loss": 0.1263, "step": 12210 }, { "epoch": 32.586666666666666, "grad_norm": 0.5763738751411438, "learning_rate": 3.745185185185185e-05, "loss": 0.1153, "step": 12220 }, { "epoch": 32.61333333333333, "grad_norm": 0.8833099603652954, "learning_rate": 3.743703703703704e-05, "loss": 0.1636, "step": 12230 }, { "epoch": 32.64, "grad_norm": 1.3768240213394165, "learning_rate": 3.742222222222223e-05, "loss": 0.1457, "step": 12240 }, { "epoch": 32.666666666666664, "grad_norm": 0.9241883754730225, "learning_rate": 3.740740740740741e-05, "loss": 0.1194, "step": 12250 }, { "epoch": 32.693333333333335, "grad_norm": 1.0868351459503174, "learning_rate": 3.7392592592592595e-05, "loss": 0.1633, "step": 12260 }, { "epoch": 32.72, "grad_norm": 0.5179634690284729, "learning_rate": 3.7377777777777775e-05, "loss": 0.1464, "step": 12270 }, { "epoch": 32.74666666666667, "grad_norm": 0.8258621096611023, "learning_rate": 3.736296296296297e-05, "loss": 0.1486, "step": 12280 }, { "epoch": 32.77333333333333, "grad_norm": 0.6329468488693237, "learning_rate": 3.734814814814815e-05, "loss": 0.1274, "step": 12290 }, { "epoch": 32.8, "grad_norm": 1.055465579032898, "learning_rate": 3.733333333333334e-05, "loss": 0.1461, "step": 12300 }, { "epoch": 32.82666666666667, "grad_norm": 0.8224266767501831, "learning_rate": 3.731851851851852e-05, "loss": 0.1584, "step": 12310 }, { "epoch": 32.85333333333333, "grad_norm": 1.0598785877227783, "learning_rate": 3.7303703703703705e-05, "loss": 0.1316, "step": 12320 }, { "epoch": 32.88, "grad_norm": 1.0388379096984863, "learning_rate": 3.728888888888889e-05, "loss": 0.1451, "step": 12330 }, { "epoch": 32.906666666666666, "grad_norm": 1.242279052734375, "learning_rate": 3.727407407407408e-05, "loss": 0.1394, "step": 12340 }, { "epoch": 32.93333333333333, "grad_norm": 0.5607912540435791, "learning_rate": 3.725925925925926e-05, "loss": 0.163, "step": 12350 }, { "epoch": 32.96, "grad_norm": 0.5934064984321594, "learning_rate": 3.724444444444445e-05, "loss": 0.1504, "step": 12360 }, { "epoch": 32.986666666666665, "grad_norm": 0.8265310525894165, "learning_rate": 3.722962962962963e-05, "loss": 0.1526, "step": 12370 }, { "epoch": 33.0, "eval_accuracy": 0.8988333333333334, "eval_loss": 0.32392576336860657, "eval_runtime": 253.3924, "eval_samples_per_second": 47.357, "eval_steps_per_second": 1.48, "step": 12375 }, { "epoch": 33.013333333333335, "grad_norm": 0.7690653204917908, "learning_rate": 3.7214814814814816e-05, "loss": 0.1641, "step": 12380 }, { "epoch": 33.04, "grad_norm": 0.6992849111557007, "learning_rate": 3.72e-05, "loss": 0.1503, "step": 12390 }, { "epoch": 33.06666666666667, "grad_norm": 1.470149040222168, "learning_rate": 3.718518518518519e-05, "loss": 0.1424, "step": 12400 }, { "epoch": 33.093333333333334, "grad_norm": 0.8524302840232849, "learning_rate": 3.717037037037037e-05, "loss": 0.1408, "step": 12410 }, { "epoch": 33.12, "grad_norm": 0.7455756664276123, "learning_rate": 3.715555555555555e-05, "loss": 0.1433, "step": 12420 }, { "epoch": 33.14666666666667, "grad_norm": 0.9443094730377197, "learning_rate": 3.7140740740740746e-05, "loss": 0.1192, "step": 12430 }, { "epoch": 33.17333333333333, "grad_norm": 1.1599451303482056, "learning_rate": 3.7125925925925926e-05, "loss": 0.1251, "step": 12440 }, { "epoch": 33.2, "grad_norm": 1.0691704750061035, "learning_rate": 3.7111111111111113e-05, "loss": 0.1259, "step": 12450 }, { "epoch": 33.22666666666667, "grad_norm": 0.996192455291748, "learning_rate": 3.7096296296296294e-05, "loss": 0.151, "step": 12460 }, { "epoch": 33.25333333333333, "grad_norm": 0.7671313881874084, "learning_rate": 3.708148148148148e-05, "loss": 0.1795, "step": 12470 }, { "epoch": 33.28, "grad_norm": 0.9651719331741333, "learning_rate": 3.706666666666667e-05, "loss": 0.1382, "step": 12480 }, { "epoch": 33.306666666666665, "grad_norm": 0.6641609072685242, "learning_rate": 3.7051851851851856e-05, "loss": 0.1277, "step": 12490 }, { "epoch": 33.333333333333336, "grad_norm": 1.052465558052063, "learning_rate": 3.7037037037037037e-05, "loss": 0.1362, "step": 12500 }, { "epoch": 33.36, "grad_norm": 0.8863968849182129, "learning_rate": 3.7022222222222224e-05, "loss": 0.1629, "step": 12510 }, { "epoch": 33.38666666666666, "grad_norm": 1.2258726358413696, "learning_rate": 3.7007407407407404e-05, "loss": 0.1435, "step": 12520 }, { "epoch": 33.413333333333334, "grad_norm": 0.6132445335388184, "learning_rate": 3.69925925925926e-05, "loss": 0.1175, "step": 12530 }, { "epoch": 33.44, "grad_norm": 0.8157356381416321, "learning_rate": 3.697777777777778e-05, "loss": 0.1399, "step": 12540 }, { "epoch": 33.46666666666667, "grad_norm": 1.3738257884979248, "learning_rate": 3.6962962962962966e-05, "loss": 0.1682, "step": 12550 }, { "epoch": 33.49333333333333, "grad_norm": 0.6727016568183899, "learning_rate": 3.694814814814815e-05, "loss": 0.1539, "step": 12560 }, { "epoch": 33.52, "grad_norm": 0.5193202495574951, "learning_rate": 3.6933333333333334e-05, "loss": 0.137, "step": 12570 }, { "epoch": 33.54666666666667, "grad_norm": 0.9341437220573425, "learning_rate": 3.691851851851852e-05, "loss": 0.1289, "step": 12580 }, { "epoch": 33.57333333333333, "grad_norm": 0.8415389657020569, "learning_rate": 3.690370370370371e-05, "loss": 0.1322, "step": 12590 }, { "epoch": 33.6, "grad_norm": 0.573862612247467, "learning_rate": 3.688888888888889e-05, "loss": 0.1219, "step": 12600 }, { "epoch": 33.626666666666665, "grad_norm": 0.6681346893310547, "learning_rate": 3.687407407407408e-05, "loss": 0.1667, "step": 12610 }, { "epoch": 33.653333333333336, "grad_norm": 0.3955742418766022, "learning_rate": 3.685925925925926e-05, "loss": 0.1424, "step": 12620 }, { "epoch": 33.68, "grad_norm": 1.0248210430145264, "learning_rate": 3.6844444444444445e-05, "loss": 0.114, "step": 12630 }, { "epoch": 33.70666666666666, "grad_norm": 1.089159369468689, "learning_rate": 3.682962962962963e-05, "loss": 0.1163, "step": 12640 }, { "epoch": 33.733333333333334, "grad_norm": 0.7815674543380737, "learning_rate": 3.681481481481482e-05, "loss": 0.168, "step": 12650 }, { "epoch": 33.76, "grad_norm": 1.2996643781661987, "learning_rate": 3.68e-05, "loss": 0.1349, "step": 12660 }, { "epoch": 33.78666666666667, "grad_norm": 0.6737468838691711, "learning_rate": 3.678518518518519e-05, "loss": 0.1656, "step": 12670 }, { "epoch": 33.81333333333333, "grad_norm": 0.513012707233429, "learning_rate": 3.6770370370370375e-05, "loss": 0.1286, "step": 12680 }, { "epoch": 33.84, "grad_norm": 0.6336917281150818, "learning_rate": 3.675555555555556e-05, "loss": 0.1445, "step": 12690 }, { "epoch": 33.86666666666667, "grad_norm": 0.9191528558731079, "learning_rate": 3.674074074074074e-05, "loss": 0.1269, "step": 12700 }, { "epoch": 33.89333333333333, "grad_norm": 0.7947202324867249, "learning_rate": 3.672592592592593e-05, "loss": 0.1514, "step": 12710 }, { "epoch": 33.92, "grad_norm": 0.7362467050552368, "learning_rate": 3.671111111111111e-05, "loss": 0.1585, "step": 12720 }, { "epoch": 33.946666666666665, "grad_norm": 0.8674696087837219, "learning_rate": 3.66962962962963e-05, "loss": 0.1427, "step": 12730 }, { "epoch": 33.973333333333336, "grad_norm": 0.5792920589447021, "learning_rate": 3.6681481481481485e-05, "loss": 0.1478, "step": 12740 }, { "epoch": 34.0, "grad_norm": 0.5065246224403381, "learning_rate": 3.6666666666666666e-05, "loss": 0.1138, "step": 12750 }, { "epoch": 34.0, "eval_accuracy": 0.8975833333333333, "eval_loss": 0.34048619866371155, "eval_runtime": 253.7113, "eval_samples_per_second": 47.298, "eval_steps_per_second": 1.478, "step": 12750 }, { "epoch": 34.026666666666664, "grad_norm": 0.6351572275161743, "learning_rate": 3.665185185185185e-05, "loss": 0.1621, "step": 12760 }, { "epoch": 34.053333333333335, "grad_norm": 1.0246134996414185, "learning_rate": 3.6637037037037034e-05, "loss": 0.1538, "step": 12770 }, { "epoch": 34.08, "grad_norm": 1.550531268119812, "learning_rate": 3.662222222222223e-05, "loss": 0.148, "step": 12780 }, { "epoch": 34.10666666666667, "grad_norm": 0.7439724206924438, "learning_rate": 3.660740740740741e-05, "loss": 0.1468, "step": 12790 }, { "epoch": 34.13333333333333, "grad_norm": 0.7332127690315247, "learning_rate": 3.6592592592592596e-05, "loss": 0.1315, "step": 12800 }, { "epoch": 34.16, "grad_norm": 0.6775870323181152, "learning_rate": 3.6577777777777776e-05, "loss": 0.136, "step": 12810 }, { "epoch": 34.18666666666667, "grad_norm": 0.7522141337394714, "learning_rate": 3.6562962962962964e-05, "loss": 0.1384, "step": 12820 }, { "epoch": 34.21333333333333, "grad_norm": 0.885827898979187, "learning_rate": 3.654814814814815e-05, "loss": 0.1507, "step": 12830 }, { "epoch": 34.24, "grad_norm": 0.7200608849525452, "learning_rate": 3.653333333333334e-05, "loss": 0.143, "step": 12840 }, { "epoch": 34.266666666666666, "grad_norm": 0.8285389542579651, "learning_rate": 3.651851851851852e-05, "loss": 0.1418, "step": 12850 }, { "epoch": 34.29333333333334, "grad_norm": 0.5745165348052979, "learning_rate": 3.6503703703703706e-05, "loss": 0.1301, "step": 12860 }, { "epoch": 34.32, "grad_norm": 0.41124147176742554, "learning_rate": 3.648888888888889e-05, "loss": 0.1339, "step": 12870 }, { "epoch": 34.346666666666664, "grad_norm": 0.6520372033119202, "learning_rate": 3.6474074074074074e-05, "loss": 0.1234, "step": 12880 }, { "epoch": 34.373333333333335, "grad_norm": 1.0737919807434082, "learning_rate": 3.645925925925926e-05, "loss": 0.1267, "step": 12890 }, { "epoch": 34.4, "grad_norm": 0.9509351849555969, "learning_rate": 3.644444444444445e-05, "loss": 0.1256, "step": 12900 }, { "epoch": 34.42666666666667, "grad_norm": 1.3736263513565063, "learning_rate": 3.642962962962963e-05, "loss": 0.1391, "step": 12910 }, { "epoch": 34.45333333333333, "grad_norm": 0.7847578525543213, "learning_rate": 3.6414814814814817e-05, "loss": 0.1482, "step": 12920 }, { "epoch": 34.48, "grad_norm": 0.7375786304473877, "learning_rate": 3.6400000000000004e-05, "loss": 0.1374, "step": 12930 }, { "epoch": 34.50666666666667, "grad_norm": 0.7954359650611877, "learning_rate": 3.638518518518519e-05, "loss": 0.1362, "step": 12940 }, { "epoch": 34.53333333333333, "grad_norm": 0.5446063280105591, "learning_rate": 3.637037037037037e-05, "loss": 0.1065, "step": 12950 }, { "epoch": 34.56, "grad_norm": 0.6327025294303894, "learning_rate": 3.635555555555556e-05, "loss": 0.1247, "step": 12960 }, { "epoch": 34.586666666666666, "grad_norm": 0.5986203551292419, "learning_rate": 3.634074074074074e-05, "loss": 0.1319, "step": 12970 }, { "epoch": 34.61333333333333, "grad_norm": 0.9851693511009216, "learning_rate": 3.632592592592593e-05, "loss": 0.1348, "step": 12980 }, { "epoch": 34.64, "grad_norm": 0.8156079649925232, "learning_rate": 3.6311111111111114e-05, "loss": 0.1529, "step": 12990 }, { "epoch": 34.666666666666664, "grad_norm": 0.9944355487823486, "learning_rate": 3.62962962962963e-05, "loss": 0.1446, "step": 13000 }, { "epoch": 34.693333333333335, "grad_norm": 1.042147159576416, "learning_rate": 3.628148148148148e-05, "loss": 0.1516, "step": 13010 }, { "epoch": 34.72, "grad_norm": 0.9342076182365417, "learning_rate": 3.626666666666667e-05, "loss": 0.1183, "step": 13020 }, { "epoch": 34.74666666666667, "grad_norm": 0.9152241945266724, "learning_rate": 3.625185185185186e-05, "loss": 0.1335, "step": 13030 }, { "epoch": 34.77333333333333, "grad_norm": 0.6570676565170288, "learning_rate": 3.623703703703704e-05, "loss": 0.1572, "step": 13040 }, { "epoch": 34.8, "grad_norm": 0.7134150862693787, "learning_rate": 3.6222222222222225e-05, "loss": 0.16, "step": 13050 }, { "epoch": 34.82666666666667, "grad_norm": 0.7075513005256653, "learning_rate": 3.6207407407407405e-05, "loss": 0.1454, "step": 13060 }, { "epoch": 34.85333333333333, "grad_norm": 0.6469486355781555, "learning_rate": 3.619259259259259e-05, "loss": 0.1515, "step": 13070 }, { "epoch": 34.88, "grad_norm": 0.43984219431877136, "learning_rate": 3.617777777777778e-05, "loss": 0.1528, "step": 13080 }, { "epoch": 34.906666666666666, "grad_norm": 0.8607357144355774, "learning_rate": 3.616296296296297e-05, "loss": 0.132, "step": 13090 }, { "epoch": 34.93333333333333, "grad_norm": 1.310937762260437, "learning_rate": 3.614814814814815e-05, "loss": 0.1382, "step": 13100 }, { "epoch": 34.96, "grad_norm": 0.7271262407302856, "learning_rate": 3.6133333333333335e-05, "loss": 0.1221, "step": 13110 }, { "epoch": 34.986666666666665, "grad_norm": 1.6328643560409546, "learning_rate": 3.6118518518518516e-05, "loss": 0.1499, "step": 13120 }, { "epoch": 35.0, "eval_accuracy": 0.8975833333333333, "eval_loss": 0.33780360221862793, "eval_runtime": 253.3021, "eval_samples_per_second": 47.374, "eval_steps_per_second": 1.48, "step": 13125 }, { "epoch": 35.013333333333335, "grad_norm": 0.6441872119903564, "learning_rate": 3.61037037037037e-05, "loss": 0.148, "step": 13130 }, { "epoch": 35.04, "grad_norm": 0.8366817831993103, "learning_rate": 3.608888888888889e-05, "loss": 0.1482, "step": 13140 }, { "epoch": 35.06666666666667, "grad_norm": 0.7292802929878235, "learning_rate": 3.607407407407408e-05, "loss": 0.1563, "step": 13150 }, { "epoch": 35.093333333333334, "grad_norm": 0.7485653162002563, "learning_rate": 3.605925925925926e-05, "loss": 0.1396, "step": 13160 }, { "epoch": 35.12, "grad_norm": 0.5841584205627441, "learning_rate": 3.6044444444444446e-05, "loss": 0.1457, "step": 13170 }, { "epoch": 35.14666666666667, "grad_norm": 0.762127161026001, "learning_rate": 3.602962962962963e-05, "loss": 0.1242, "step": 13180 }, { "epoch": 35.17333333333333, "grad_norm": 1.2623951435089111, "learning_rate": 3.601481481481482e-05, "loss": 0.1096, "step": 13190 }, { "epoch": 35.2, "grad_norm": 0.7394558787345886, "learning_rate": 3.6e-05, "loss": 0.1247, "step": 13200 }, { "epoch": 35.22666666666667, "grad_norm": 0.47356802225112915, "learning_rate": 3.598518518518519e-05, "loss": 0.1289, "step": 13210 }, { "epoch": 35.25333333333333, "grad_norm": 0.46636152267456055, "learning_rate": 3.597037037037037e-05, "loss": 0.1304, "step": 13220 }, { "epoch": 35.28, "grad_norm": 0.6294062733650208, "learning_rate": 3.5955555555555556e-05, "loss": 0.1521, "step": 13230 }, { "epoch": 35.306666666666665, "grad_norm": 0.6311681270599365, "learning_rate": 3.5940740740740743e-05, "loss": 0.1539, "step": 13240 }, { "epoch": 35.333333333333336, "grad_norm": 0.8516069650650024, "learning_rate": 3.592592592592593e-05, "loss": 0.1236, "step": 13250 }, { "epoch": 35.36, "grad_norm": 0.7895090579986572, "learning_rate": 3.591111111111111e-05, "loss": 0.1375, "step": 13260 }, { "epoch": 35.38666666666666, "grad_norm": 1.0421847105026245, "learning_rate": 3.58962962962963e-05, "loss": 0.1259, "step": 13270 }, { "epoch": 35.413333333333334, "grad_norm": 0.566455602645874, "learning_rate": 3.588148148148148e-05, "loss": 0.1383, "step": 13280 }, { "epoch": 35.44, "grad_norm": 0.5035443902015686, "learning_rate": 3.586666666666667e-05, "loss": 0.1528, "step": 13290 }, { "epoch": 35.46666666666667, "grad_norm": 0.9292590618133545, "learning_rate": 3.5851851851851854e-05, "loss": 0.1396, "step": 13300 }, { "epoch": 35.49333333333333, "grad_norm": 0.5976445078849792, "learning_rate": 3.583703703703704e-05, "loss": 0.1488, "step": 13310 }, { "epoch": 35.52, "grad_norm": 0.7056884765625, "learning_rate": 3.582222222222222e-05, "loss": 0.1331, "step": 13320 }, { "epoch": 35.54666666666667, "grad_norm": 0.9672914147377014, "learning_rate": 3.580740740740741e-05, "loss": 0.1278, "step": 13330 }, { "epoch": 35.57333333333333, "grad_norm": 0.6320948004722595, "learning_rate": 3.5792592592592596e-05, "loss": 0.1427, "step": 13340 }, { "epoch": 35.6, "grad_norm": 1.376320242881775, "learning_rate": 3.577777777777778e-05, "loss": 0.1308, "step": 13350 }, { "epoch": 35.626666666666665, "grad_norm": 1.0108109712600708, "learning_rate": 3.5762962962962964e-05, "loss": 0.1621, "step": 13360 }, { "epoch": 35.653333333333336, "grad_norm": 0.5519050359725952, "learning_rate": 3.5748148148148145e-05, "loss": 0.1468, "step": 13370 }, { "epoch": 35.68, "grad_norm": 1.0791192054748535, "learning_rate": 3.573333333333333e-05, "loss": 0.1497, "step": 13380 }, { "epoch": 35.70666666666666, "grad_norm": 0.9764125943183899, "learning_rate": 3.571851851851852e-05, "loss": 0.1547, "step": 13390 }, { "epoch": 35.733333333333334, "grad_norm": 1.214794397354126, "learning_rate": 3.570370370370371e-05, "loss": 0.1479, "step": 13400 }, { "epoch": 35.76, "grad_norm": 0.46179693937301636, "learning_rate": 3.568888888888889e-05, "loss": 0.1382, "step": 13410 }, { "epoch": 35.78666666666667, "grad_norm": 0.6101595759391785, "learning_rate": 3.5674074074074075e-05, "loss": 0.1141, "step": 13420 }, { "epoch": 35.81333333333333, "grad_norm": 0.7943254709243774, "learning_rate": 3.565925925925926e-05, "loss": 0.1479, "step": 13430 }, { "epoch": 35.84, "grad_norm": 0.4523789882659912, "learning_rate": 3.564444444444445e-05, "loss": 0.1276, "step": 13440 }, { "epoch": 35.86666666666667, "grad_norm": 0.6252668499946594, "learning_rate": 3.562962962962963e-05, "loss": 0.1288, "step": 13450 }, { "epoch": 35.89333333333333, "grad_norm": 0.6102684736251831, "learning_rate": 3.561481481481482e-05, "loss": 0.1441, "step": 13460 }, { "epoch": 35.92, "grad_norm": 0.5815966725349426, "learning_rate": 3.56e-05, "loss": 0.1435, "step": 13470 }, { "epoch": 35.946666666666665, "grad_norm": 0.9414661526679993, "learning_rate": 3.5585185185185185e-05, "loss": 0.1477, "step": 13480 }, { "epoch": 35.973333333333336, "grad_norm": 0.8867117762565613, "learning_rate": 3.557037037037037e-05, "loss": 0.1323, "step": 13490 }, { "epoch": 36.0, "grad_norm": 0.4549649655818939, "learning_rate": 3.555555555555556e-05, "loss": 0.1123, "step": 13500 }, { "epoch": 36.0, "eval_accuracy": 0.9011666666666667, "eval_loss": 0.32743558287620544, "eval_runtime": 252.002, "eval_samples_per_second": 47.619, "eval_steps_per_second": 1.488, "step": 13500 }, { "epoch": 36.026666666666664, "grad_norm": 1.212974190711975, "learning_rate": 3.554074074074074e-05, "loss": 0.1284, "step": 13510 }, { "epoch": 36.053333333333335, "grad_norm": 0.8784121870994568, "learning_rate": 3.552592592592593e-05, "loss": 0.1277, "step": 13520 }, { "epoch": 36.08, "grad_norm": 0.8518645167350769, "learning_rate": 3.551111111111111e-05, "loss": 0.1426, "step": 13530 }, { "epoch": 36.10666666666667, "grad_norm": 0.8246267437934875, "learning_rate": 3.54962962962963e-05, "loss": 0.1458, "step": 13540 }, { "epoch": 36.13333333333333, "grad_norm": 0.7509289383888245, "learning_rate": 3.548148148148148e-05, "loss": 0.1184, "step": 13550 }, { "epoch": 36.16, "grad_norm": 1.4086122512817383, "learning_rate": 3.546666666666667e-05, "loss": 0.1492, "step": 13560 }, { "epoch": 36.18666666666667, "grad_norm": 1.3178306818008423, "learning_rate": 3.545185185185185e-05, "loss": 0.1248, "step": 13570 }, { "epoch": 36.21333333333333, "grad_norm": 1.0506410598754883, "learning_rate": 3.543703703703704e-05, "loss": 0.1611, "step": 13580 }, { "epoch": 36.24, "grad_norm": 0.6429629325866699, "learning_rate": 3.5422222222222226e-05, "loss": 0.1416, "step": 13590 }, { "epoch": 36.266666666666666, "grad_norm": 1.1766481399536133, "learning_rate": 3.540740740740741e-05, "loss": 0.1326, "step": 13600 }, { "epoch": 36.29333333333334, "grad_norm": 0.8868152499198914, "learning_rate": 3.5392592592592594e-05, "loss": 0.1183, "step": 13610 }, { "epoch": 36.32, "grad_norm": 0.6395604014396667, "learning_rate": 3.537777777777778e-05, "loss": 0.1231, "step": 13620 }, { "epoch": 36.346666666666664, "grad_norm": 0.6500803828239441, "learning_rate": 3.536296296296296e-05, "loss": 0.1518, "step": 13630 }, { "epoch": 36.373333333333335, "grad_norm": 0.9768928289413452, "learning_rate": 3.5348148148148156e-05, "loss": 0.1415, "step": 13640 }, { "epoch": 36.4, "grad_norm": 1.2233556509017944, "learning_rate": 3.5333333333333336e-05, "loss": 0.1388, "step": 13650 }, { "epoch": 36.42666666666667, "grad_norm": 0.6144688725471497, "learning_rate": 3.531851851851852e-05, "loss": 0.1137, "step": 13660 }, { "epoch": 36.45333333333333, "grad_norm": 0.7787757515907288, "learning_rate": 3.5303703703703704e-05, "loss": 0.1381, "step": 13670 }, { "epoch": 36.48, "grad_norm": 0.7986034154891968, "learning_rate": 3.528888888888889e-05, "loss": 0.1283, "step": 13680 }, { "epoch": 36.50666666666667, "grad_norm": 0.817489504814148, "learning_rate": 3.527407407407408e-05, "loss": 0.121, "step": 13690 }, { "epoch": 36.53333333333333, "grad_norm": 0.6848250031471252, "learning_rate": 3.525925925925926e-05, "loss": 0.1354, "step": 13700 }, { "epoch": 36.56, "grad_norm": 1.015969157218933, "learning_rate": 3.5244444444444447e-05, "loss": 0.1472, "step": 13710 }, { "epoch": 36.586666666666666, "grad_norm": 0.696994960308075, "learning_rate": 3.522962962962963e-05, "loss": 0.131, "step": 13720 }, { "epoch": 36.61333333333333, "grad_norm": 0.6195046305656433, "learning_rate": 3.5214814814814814e-05, "loss": 0.1474, "step": 13730 }, { "epoch": 36.64, "grad_norm": 0.8067151308059692, "learning_rate": 3.52e-05, "loss": 0.105, "step": 13740 }, { "epoch": 36.666666666666664, "grad_norm": 0.8105616569519043, "learning_rate": 3.518518518518519e-05, "loss": 0.1362, "step": 13750 }, { "epoch": 36.693333333333335, "grad_norm": 0.5336594581604004, "learning_rate": 3.517037037037037e-05, "loss": 0.1749, "step": 13760 }, { "epoch": 36.72, "grad_norm": 0.4899935722351074, "learning_rate": 3.515555555555556e-05, "loss": 0.1127, "step": 13770 }, { "epoch": 36.74666666666667, "grad_norm": 0.667278528213501, "learning_rate": 3.514074074074074e-05, "loss": 0.1542, "step": 13780 }, { "epoch": 36.77333333333333, "grad_norm": 0.7568264007568359, "learning_rate": 3.512592592592593e-05, "loss": 0.1274, "step": 13790 }, { "epoch": 36.8, "grad_norm": 0.6847347021102905, "learning_rate": 3.511111111111111e-05, "loss": 0.1475, "step": 13800 }, { "epoch": 36.82666666666667, "grad_norm": 0.8310431838035583, "learning_rate": 3.50962962962963e-05, "loss": 0.1408, "step": 13810 }, { "epoch": 36.85333333333333, "grad_norm": 0.6507230401039124, "learning_rate": 3.508148148148148e-05, "loss": 0.13, "step": 13820 }, { "epoch": 36.88, "grad_norm": 1.1377085447311401, "learning_rate": 3.506666666666667e-05, "loss": 0.1561, "step": 13830 }, { "epoch": 36.906666666666666, "grad_norm": 1.168576955795288, "learning_rate": 3.5051851851851855e-05, "loss": 0.1559, "step": 13840 }, { "epoch": 36.93333333333333, "grad_norm": 0.7437068223953247, "learning_rate": 3.503703703703704e-05, "loss": 0.1332, "step": 13850 }, { "epoch": 36.96, "grad_norm": 0.635266125202179, "learning_rate": 3.502222222222222e-05, "loss": 0.1298, "step": 13860 }, { "epoch": 36.986666666666665, "grad_norm": 1.225651741027832, "learning_rate": 3.500740740740741e-05, "loss": 0.1375, "step": 13870 }, { "epoch": 37.0, "eval_accuracy": 0.9001666666666667, "eval_loss": 0.3242860436439514, "eval_runtime": 251.5738, "eval_samples_per_second": 47.7, "eval_steps_per_second": 1.491, "step": 13875 }, { "epoch": 37.013333333333335, "grad_norm": 0.7417032122612, "learning_rate": 3.499259259259259e-05, "loss": 0.143, "step": 13880 }, { "epoch": 37.04, "grad_norm": 0.5635210275650024, "learning_rate": 3.4977777777777785e-05, "loss": 0.1325, "step": 13890 }, { "epoch": 37.06666666666667, "grad_norm": 0.47801390290260315, "learning_rate": 3.4962962962962965e-05, "loss": 0.1427, "step": 13900 }, { "epoch": 37.093333333333334, "grad_norm": 0.6503446698188782, "learning_rate": 3.494814814814815e-05, "loss": 0.1289, "step": 13910 }, { "epoch": 37.12, "grad_norm": 0.7092220187187195, "learning_rate": 3.493333333333333e-05, "loss": 0.1557, "step": 13920 }, { "epoch": 37.14666666666667, "grad_norm": 0.7625207304954529, "learning_rate": 3.491851851851852e-05, "loss": 0.1507, "step": 13930 }, { "epoch": 37.17333333333333, "grad_norm": 1.037205457687378, "learning_rate": 3.490370370370371e-05, "loss": 0.1561, "step": 13940 }, { "epoch": 37.2, "grad_norm": 1.1264344453811646, "learning_rate": 3.4888888888888895e-05, "loss": 0.1228, "step": 13950 }, { "epoch": 37.22666666666667, "grad_norm": 0.8767980933189392, "learning_rate": 3.4874074074074076e-05, "loss": 0.1259, "step": 13960 }, { "epoch": 37.25333333333333, "grad_norm": 0.781400203704834, "learning_rate": 3.4859259259259256e-05, "loss": 0.124, "step": 13970 }, { "epoch": 37.28, "grad_norm": 0.7508281469345093, "learning_rate": 3.4844444444444444e-05, "loss": 0.1095, "step": 13980 }, { "epoch": 37.306666666666665, "grad_norm": 0.754393994808197, "learning_rate": 3.482962962962963e-05, "loss": 0.1467, "step": 13990 }, { "epoch": 37.333333333333336, "grad_norm": 0.7221003174781799, "learning_rate": 3.481481481481482e-05, "loss": 0.1351, "step": 14000 }, { "epoch": 37.36, "grad_norm": 0.7134292721748352, "learning_rate": 3.48e-05, "loss": 0.114, "step": 14010 }, { "epoch": 37.38666666666666, "grad_norm": 0.9922940731048584, "learning_rate": 3.4785185185185186e-05, "loss": 0.1285, "step": 14020 }, { "epoch": 37.413333333333334, "grad_norm": 0.7211880683898926, "learning_rate": 3.477037037037037e-05, "loss": 0.1221, "step": 14030 }, { "epoch": 37.44, "grad_norm": 0.6565313935279846, "learning_rate": 3.475555555555556e-05, "loss": 0.1392, "step": 14040 }, { "epoch": 37.46666666666667, "grad_norm": 0.6743717789649963, "learning_rate": 3.474074074074074e-05, "loss": 0.1115, "step": 14050 }, { "epoch": 37.49333333333333, "grad_norm": 1.7883774042129517, "learning_rate": 3.472592592592593e-05, "loss": 0.1301, "step": 14060 }, { "epoch": 37.52, "grad_norm": 0.805345892906189, "learning_rate": 3.471111111111111e-05, "loss": 0.1167, "step": 14070 }, { "epoch": 37.54666666666667, "grad_norm": 1.4342106580734253, "learning_rate": 3.46962962962963e-05, "loss": 0.1232, "step": 14080 }, { "epoch": 37.57333333333333, "grad_norm": 0.4553696811199188, "learning_rate": 3.4681481481481484e-05, "loss": 0.1204, "step": 14090 }, { "epoch": 37.6, "grad_norm": 0.7249352335929871, "learning_rate": 3.466666666666667e-05, "loss": 0.1419, "step": 14100 }, { "epoch": 37.626666666666665, "grad_norm": 0.6591256260871887, "learning_rate": 3.465185185185185e-05, "loss": 0.1255, "step": 14110 }, { "epoch": 37.653333333333336, "grad_norm": 1.0625101327896118, "learning_rate": 3.463703703703704e-05, "loss": 0.1231, "step": 14120 }, { "epoch": 37.68, "grad_norm": 1.1617131233215332, "learning_rate": 3.462222222222222e-05, "loss": 0.1463, "step": 14130 }, { "epoch": 37.70666666666666, "grad_norm": 0.7959069013595581, "learning_rate": 3.4607407407407414e-05, "loss": 0.1385, "step": 14140 }, { "epoch": 37.733333333333334, "grad_norm": 1.442711591720581, "learning_rate": 3.4592592592592594e-05, "loss": 0.1228, "step": 14150 }, { "epoch": 37.76, "grad_norm": 1.193173885345459, "learning_rate": 3.457777777777778e-05, "loss": 0.1412, "step": 14160 }, { "epoch": 37.78666666666667, "grad_norm": 0.7857397198677063, "learning_rate": 3.456296296296296e-05, "loss": 0.1286, "step": 14170 }, { "epoch": 37.81333333333333, "grad_norm": 0.5885981321334839, "learning_rate": 3.454814814814815e-05, "loss": 0.1416, "step": 14180 }, { "epoch": 37.84, "grad_norm": 0.4125601351261139, "learning_rate": 3.453333333333334e-05, "loss": 0.1165, "step": 14190 }, { "epoch": 37.86666666666667, "grad_norm": 1.1467071771621704, "learning_rate": 3.4518518518518524e-05, "loss": 0.0922, "step": 14200 }, { "epoch": 37.89333333333333, "grad_norm": 1.42283034324646, "learning_rate": 3.4503703703703705e-05, "loss": 0.114, "step": 14210 }, { "epoch": 37.92, "grad_norm": 1.4116325378417969, "learning_rate": 3.448888888888889e-05, "loss": 0.1436, "step": 14220 }, { "epoch": 37.946666666666665, "grad_norm": 0.6621559858322144, "learning_rate": 3.447407407407407e-05, "loss": 0.1192, "step": 14230 }, { "epoch": 37.973333333333336, "grad_norm": 0.540582537651062, "learning_rate": 3.445925925925926e-05, "loss": 0.1098, "step": 14240 }, { "epoch": 38.0, "grad_norm": 1.037381887435913, "learning_rate": 3.444444444444445e-05, "loss": 0.1374, "step": 14250 }, { "epoch": 38.0, "eval_accuracy": 0.8965, "eval_loss": 0.34809452295303345, "eval_runtime": 251.4258, "eval_samples_per_second": 47.728, "eval_steps_per_second": 1.491, "step": 14250 }, { "epoch": 38.026666666666664, "grad_norm": 0.7166621088981628, "learning_rate": 3.4429629629629635e-05, "loss": 0.1303, "step": 14260 }, { "epoch": 38.053333333333335, "grad_norm": 0.8803855776786804, "learning_rate": 3.4414814814814815e-05, "loss": 0.1615, "step": 14270 }, { "epoch": 38.08, "grad_norm": 0.508794367313385, "learning_rate": 3.4399999999999996e-05, "loss": 0.1218, "step": 14280 }, { "epoch": 38.10666666666667, "grad_norm": 0.7889625430107117, "learning_rate": 3.438518518518519e-05, "loss": 0.1216, "step": 14290 }, { "epoch": 38.13333333333333, "grad_norm": 0.6536449193954468, "learning_rate": 3.437037037037037e-05, "loss": 0.1482, "step": 14300 }, { "epoch": 38.16, "grad_norm": 0.7631733417510986, "learning_rate": 3.435555555555556e-05, "loss": 0.1319, "step": 14310 }, { "epoch": 38.18666666666667, "grad_norm": 0.5255581736564636, "learning_rate": 3.434074074074074e-05, "loss": 0.1164, "step": 14320 }, { "epoch": 38.21333333333333, "grad_norm": 1.1684460639953613, "learning_rate": 3.4325925925925926e-05, "loss": 0.1395, "step": 14330 }, { "epoch": 38.24, "grad_norm": 0.559105634689331, "learning_rate": 3.431111111111111e-05, "loss": 0.1334, "step": 14340 }, { "epoch": 38.266666666666666, "grad_norm": 0.9589331746101379, "learning_rate": 3.42962962962963e-05, "loss": 0.1175, "step": 14350 }, { "epoch": 38.29333333333334, "grad_norm": 0.6816359758377075, "learning_rate": 3.428148148148148e-05, "loss": 0.1343, "step": 14360 }, { "epoch": 38.32, "grad_norm": 0.7111276388168335, "learning_rate": 3.426666666666667e-05, "loss": 0.1273, "step": 14370 }, { "epoch": 38.346666666666664, "grad_norm": 0.7280983328819275, "learning_rate": 3.425185185185185e-05, "loss": 0.1204, "step": 14380 }, { "epoch": 38.373333333333335, "grad_norm": 1.3807474374771118, "learning_rate": 3.423703703703704e-05, "loss": 0.1111, "step": 14390 }, { "epoch": 38.4, "grad_norm": 1.234544277191162, "learning_rate": 3.4222222222222224e-05, "loss": 0.1412, "step": 14400 }, { "epoch": 38.42666666666667, "grad_norm": 0.7091413140296936, "learning_rate": 3.420740740740741e-05, "loss": 0.1336, "step": 14410 }, { "epoch": 38.45333333333333, "grad_norm": 0.5706987977027893, "learning_rate": 3.419259259259259e-05, "loss": 0.1145, "step": 14420 }, { "epoch": 38.48, "grad_norm": 0.6795122623443604, "learning_rate": 3.417777777777778e-05, "loss": 0.1447, "step": 14430 }, { "epoch": 38.50666666666667, "grad_norm": 0.30239519476890564, "learning_rate": 3.4162962962962966e-05, "loss": 0.1219, "step": 14440 }, { "epoch": 38.53333333333333, "grad_norm": 1.0869932174682617, "learning_rate": 3.4148148148148153e-05, "loss": 0.1201, "step": 14450 }, { "epoch": 38.56, "grad_norm": 1.0687272548675537, "learning_rate": 3.4133333333333334e-05, "loss": 0.1252, "step": 14460 }, { "epoch": 38.586666666666666, "grad_norm": 1.136164903640747, "learning_rate": 3.411851851851852e-05, "loss": 0.1242, "step": 14470 }, { "epoch": 38.61333333333333, "grad_norm": 1.101167917251587, "learning_rate": 3.41037037037037e-05, "loss": 0.1709, "step": 14480 }, { "epoch": 38.64, "grad_norm": 0.6120354533195496, "learning_rate": 3.408888888888889e-05, "loss": 0.1288, "step": 14490 }, { "epoch": 38.666666666666664, "grad_norm": 0.9654986262321472, "learning_rate": 3.4074074074074077e-05, "loss": 0.1349, "step": 14500 }, { "epoch": 38.693333333333335, "grad_norm": 0.46039366722106934, "learning_rate": 3.4059259259259264e-05, "loss": 0.1366, "step": 14510 }, { "epoch": 38.72, "grad_norm": 1.0039660930633545, "learning_rate": 3.4044444444444445e-05, "loss": 0.1176, "step": 14520 }, { "epoch": 38.74666666666667, "grad_norm": 0.625465989112854, "learning_rate": 3.402962962962963e-05, "loss": 0.1479, "step": 14530 }, { "epoch": 38.77333333333333, "grad_norm": 1.7477797269821167, "learning_rate": 3.401481481481482e-05, "loss": 0.1471, "step": 14540 }, { "epoch": 38.8, "grad_norm": 0.5777425765991211, "learning_rate": 3.4000000000000007e-05, "loss": 0.1161, "step": 14550 }, { "epoch": 38.82666666666667, "grad_norm": 0.5771605968475342, "learning_rate": 3.398518518518519e-05, "loss": 0.1081, "step": 14560 }, { "epoch": 38.85333333333333, "grad_norm": 0.629884660243988, "learning_rate": 3.3970370370370374e-05, "loss": 0.122, "step": 14570 }, { "epoch": 38.88, "grad_norm": 0.6165542006492615, "learning_rate": 3.3955555555555555e-05, "loss": 0.0974, "step": 14580 }, { "epoch": 38.906666666666666, "grad_norm": 0.7050284147262573, "learning_rate": 3.394074074074074e-05, "loss": 0.1377, "step": 14590 }, { "epoch": 38.93333333333333, "grad_norm": 1.7434810400009155, "learning_rate": 3.392592592592593e-05, "loss": 0.1256, "step": 14600 }, { "epoch": 38.96, "grad_norm": 1.0927953720092773, "learning_rate": 3.391111111111111e-05, "loss": 0.1336, "step": 14610 }, { "epoch": 38.986666666666665, "grad_norm": 0.9946818947792053, "learning_rate": 3.38962962962963e-05, "loss": 0.0958, "step": 14620 }, { "epoch": 39.0, "eval_accuracy": 0.8960833333333333, "eval_loss": 0.3610909879207611, "eval_runtime": 251.5093, "eval_samples_per_second": 47.712, "eval_steps_per_second": 1.491, "step": 14625 }, { "epoch": 39.013333333333335, "grad_norm": 0.5719517469406128, "learning_rate": 3.388148148148148e-05, "loss": 0.1158, "step": 14630 }, { "epoch": 39.04, "grad_norm": 0.4408528506755829, "learning_rate": 3.3866666666666665e-05, "loss": 0.1092, "step": 14640 }, { "epoch": 39.06666666666667, "grad_norm": 0.6252496838569641, "learning_rate": 3.385185185185185e-05, "loss": 0.1209, "step": 14650 }, { "epoch": 39.093333333333334, "grad_norm": 0.8698192834854126, "learning_rate": 3.383703703703704e-05, "loss": 0.1142, "step": 14660 }, { "epoch": 39.12, "grad_norm": 1.196700096130371, "learning_rate": 3.382222222222222e-05, "loss": 0.1176, "step": 14670 }, { "epoch": 39.14666666666667, "grad_norm": 0.5499346852302551, "learning_rate": 3.380740740740741e-05, "loss": 0.1231, "step": 14680 }, { "epoch": 39.17333333333333, "grad_norm": 0.389573335647583, "learning_rate": 3.3792592592592595e-05, "loss": 0.1209, "step": 14690 }, { "epoch": 39.2, "grad_norm": 0.5306630730628967, "learning_rate": 3.377777777777778e-05, "loss": 0.1095, "step": 14700 }, { "epoch": 39.22666666666667, "grad_norm": 0.786679208278656, "learning_rate": 3.376296296296296e-05, "loss": 0.1418, "step": 14710 }, { "epoch": 39.25333333333333, "grad_norm": 0.49732303619384766, "learning_rate": 3.374814814814815e-05, "loss": 0.1068, "step": 14720 }, { "epoch": 39.28, "grad_norm": 1.2102797031402588, "learning_rate": 3.373333333333333e-05, "loss": 0.1514, "step": 14730 }, { "epoch": 39.306666666666665, "grad_norm": 0.6238965392112732, "learning_rate": 3.371851851851852e-05, "loss": 0.1591, "step": 14740 }, { "epoch": 39.333333333333336, "grad_norm": 0.6495566964149475, "learning_rate": 3.3703703703703706e-05, "loss": 0.107, "step": 14750 }, { "epoch": 39.36, "grad_norm": 0.5533037185668945, "learning_rate": 3.368888888888889e-05, "loss": 0.1287, "step": 14760 }, { "epoch": 39.38666666666666, "grad_norm": 1.017029881477356, "learning_rate": 3.3674074074074074e-05, "loss": 0.1076, "step": 14770 }, { "epoch": 39.413333333333334, "grad_norm": 1.006684422492981, "learning_rate": 3.365925925925926e-05, "loss": 0.1398, "step": 14780 }, { "epoch": 39.44, "grad_norm": 1.1622883081436157, "learning_rate": 3.364444444444445e-05, "loss": 0.1241, "step": 14790 }, { "epoch": 39.46666666666667, "grad_norm": 1.2200229167938232, "learning_rate": 3.3629629629629636e-05, "loss": 0.121, "step": 14800 }, { "epoch": 39.49333333333333, "grad_norm": 1.1513895988464355, "learning_rate": 3.3614814814814816e-05, "loss": 0.1246, "step": 14810 }, { "epoch": 39.52, "grad_norm": 0.5467257499694824, "learning_rate": 3.3600000000000004e-05, "loss": 0.1345, "step": 14820 }, { "epoch": 39.54666666666667, "grad_norm": 0.4860801100730896, "learning_rate": 3.3585185185185184e-05, "loss": 0.1187, "step": 14830 }, { "epoch": 39.57333333333333, "grad_norm": 0.7540624141693115, "learning_rate": 3.357037037037037e-05, "loss": 0.1533, "step": 14840 }, { "epoch": 39.6, "grad_norm": 0.9086800813674927, "learning_rate": 3.355555555555556e-05, "loss": 0.1415, "step": 14850 }, { "epoch": 39.626666666666665, "grad_norm": 0.5642034411430359, "learning_rate": 3.3540740740740746e-05, "loss": 0.1392, "step": 14860 }, { "epoch": 39.653333333333336, "grad_norm": 0.8766238689422607, "learning_rate": 3.352592592592593e-05, "loss": 0.1181, "step": 14870 }, { "epoch": 39.68, "grad_norm": 0.7619327306747437, "learning_rate": 3.3511111111111114e-05, "loss": 0.1283, "step": 14880 }, { "epoch": 39.70666666666666, "grad_norm": 0.8211836218833923, "learning_rate": 3.3496296296296295e-05, "loss": 0.1358, "step": 14890 }, { "epoch": 39.733333333333334, "grad_norm": 0.6400761008262634, "learning_rate": 3.348148148148148e-05, "loss": 0.1124, "step": 14900 }, { "epoch": 39.76, "grad_norm": 0.6918902397155762, "learning_rate": 3.346666666666667e-05, "loss": 0.1466, "step": 14910 }, { "epoch": 39.78666666666667, "grad_norm": 0.508161187171936, "learning_rate": 3.345185185185185e-05, "loss": 0.1327, "step": 14920 }, { "epoch": 39.81333333333333, "grad_norm": 0.7068108320236206, "learning_rate": 3.343703703703704e-05, "loss": 0.126, "step": 14930 }, { "epoch": 39.84, "grad_norm": 1.17863929271698, "learning_rate": 3.3422222222222224e-05, "loss": 0.1295, "step": 14940 }, { "epoch": 39.86666666666667, "grad_norm": 0.6790997385978699, "learning_rate": 3.340740740740741e-05, "loss": 0.1026, "step": 14950 }, { "epoch": 39.89333333333333, "grad_norm": 0.5771085619926453, "learning_rate": 3.339259259259259e-05, "loss": 0.1187, "step": 14960 }, { "epoch": 39.92, "grad_norm": 0.7192868590354919, "learning_rate": 3.337777777777778e-05, "loss": 0.1182, "step": 14970 }, { "epoch": 39.946666666666665, "grad_norm": 0.7595701813697815, "learning_rate": 3.336296296296296e-05, "loss": 0.1247, "step": 14980 }, { "epoch": 39.973333333333336, "grad_norm": 0.7476987242698669, "learning_rate": 3.334814814814815e-05, "loss": 0.1171, "step": 14990 }, { "epoch": 40.0, "grad_norm": 0.626864492893219, "learning_rate": 3.3333333333333335e-05, "loss": 0.1283, "step": 15000 }, { "epoch": 40.0, "eval_accuracy": 0.9004166666666666, "eval_loss": 0.3521290719509125, "eval_runtime": 251.3559, "eval_samples_per_second": 47.741, "eval_steps_per_second": 1.492, "step": 15000 }, { "epoch": 40.026666666666664, "grad_norm": 0.41568902134895325, "learning_rate": 3.331851851851852e-05, "loss": 0.1285, "step": 15010 }, { "epoch": 40.053333333333335, "grad_norm": 0.7474643588066101, "learning_rate": 3.33037037037037e-05, "loss": 0.1342, "step": 15020 }, { "epoch": 40.08, "grad_norm": 1.0370335578918457, "learning_rate": 3.328888888888889e-05, "loss": 0.1407, "step": 15030 }, { "epoch": 40.10666666666667, "grad_norm": 0.8611982464790344, "learning_rate": 3.327407407407408e-05, "loss": 0.1271, "step": 15040 }, { "epoch": 40.13333333333333, "grad_norm": 0.627683699131012, "learning_rate": 3.3259259259259265e-05, "loss": 0.1497, "step": 15050 }, { "epoch": 40.16, "grad_norm": 1.4769397974014282, "learning_rate": 3.3244444444444445e-05, "loss": 0.1544, "step": 15060 }, { "epoch": 40.18666666666667, "grad_norm": 0.7434845566749573, "learning_rate": 3.322962962962963e-05, "loss": 0.1311, "step": 15070 }, { "epoch": 40.21333333333333, "grad_norm": 0.9985266327857971, "learning_rate": 3.321481481481481e-05, "loss": 0.1245, "step": 15080 }, { "epoch": 40.24, "grad_norm": 0.537520706653595, "learning_rate": 3.32e-05, "loss": 0.1113, "step": 15090 }, { "epoch": 40.266666666666666, "grad_norm": 0.5798508524894714, "learning_rate": 3.318518518518519e-05, "loss": 0.1151, "step": 15100 }, { "epoch": 40.29333333333334, "grad_norm": 0.574065625667572, "learning_rate": 3.3170370370370375e-05, "loss": 0.1279, "step": 15110 }, { "epoch": 40.32, "grad_norm": 0.9477535486221313, "learning_rate": 3.3155555555555556e-05, "loss": 0.145, "step": 15120 }, { "epoch": 40.346666666666664, "grad_norm": 0.996489405632019, "learning_rate": 3.314074074074074e-05, "loss": 0.1386, "step": 15130 }, { "epoch": 40.373333333333335, "grad_norm": 1.104817509651184, "learning_rate": 3.3125925925925924e-05, "loss": 0.1229, "step": 15140 }, { "epoch": 40.4, "grad_norm": 0.7359675168991089, "learning_rate": 3.311111111111112e-05, "loss": 0.1397, "step": 15150 }, { "epoch": 40.42666666666667, "grad_norm": 0.5696702003479004, "learning_rate": 3.30962962962963e-05, "loss": 0.1275, "step": 15160 }, { "epoch": 40.45333333333333, "grad_norm": 0.4963131248950958, "learning_rate": 3.3081481481481486e-05, "loss": 0.1186, "step": 15170 }, { "epoch": 40.48, "grad_norm": 0.4819418787956238, "learning_rate": 3.3066666666666666e-05, "loss": 0.13, "step": 15180 }, { "epoch": 40.50666666666667, "grad_norm": 0.6714977622032166, "learning_rate": 3.3051851851851854e-05, "loss": 0.1385, "step": 15190 }, { "epoch": 40.53333333333333, "grad_norm": 1.2647731304168701, "learning_rate": 3.303703703703704e-05, "loss": 0.107, "step": 15200 }, { "epoch": 40.56, "grad_norm": 0.585480272769928, "learning_rate": 3.302222222222222e-05, "loss": 0.1375, "step": 15210 }, { "epoch": 40.586666666666666, "grad_norm": 0.6727729439735413, "learning_rate": 3.300740740740741e-05, "loss": 0.1149, "step": 15220 }, { "epoch": 40.61333333333333, "grad_norm": 0.8125377893447876, "learning_rate": 3.299259259259259e-05, "loss": 0.1231, "step": 15230 }, { "epoch": 40.64, "grad_norm": 0.9470720291137695, "learning_rate": 3.297777777777778e-05, "loss": 0.1232, "step": 15240 }, { "epoch": 40.666666666666664, "grad_norm": 0.8009923696517944, "learning_rate": 3.2962962962962964e-05, "loss": 0.1097, "step": 15250 }, { "epoch": 40.693333333333335, "grad_norm": 0.9782776832580566, "learning_rate": 3.294814814814815e-05, "loss": 0.1224, "step": 15260 }, { "epoch": 40.72, "grad_norm": 1.2802739143371582, "learning_rate": 3.293333333333333e-05, "loss": 0.1329, "step": 15270 }, { "epoch": 40.74666666666667, "grad_norm": 0.8636932373046875, "learning_rate": 3.291851851851852e-05, "loss": 0.1255, "step": 15280 }, { "epoch": 40.77333333333333, "grad_norm": 0.8853609561920166, "learning_rate": 3.29037037037037e-05, "loss": 0.123, "step": 15290 }, { "epoch": 40.8, "grad_norm": 0.7726976275444031, "learning_rate": 3.2888888888888894e-05, "loss": 0.1232, "step": 15300 }, { "epoch": 40.82666666666667, "grad_norm": 1.3522144556045532, "learning_rate": 3.2874074074074075e-05, "loss": 0.1349, "step": 15310 }, { "epoch": 40.85333333333333, "grad_norm": 0.4356692433357239, "learning_rate": 3.285925925925926e-05, "loss": 0.124, "step": 15320 }, { "epoch": 40.88, "grad_norm": 0.9283479452133179, "learning_rate": 3.284444444444444e-05, "loss": 0.1234, "step": 15330 }, { "epoch": 40.906666666666666, "grad_norm": 0.8456709980964661, "learning_rate": 3.282962962962963e-05, "loss": 0.1202, "step": 15340 }, { "epoch": 40.93333333333333, "grad_norm": 0.6898795962333679, "learning_rate": 3.281481481481482e-05, "loss": 0.1057, "step": 15350 }, { "epoch": 40.96, "grad_norm": 0.6814408302307129, "learning_rate": 3.2800000000000004e-05, "loss": 0.1086, "step": 15360 }, { "epoch": 40.986666666666665, "grad_norm": 0.2729504406452179, "learning_rate": 3.2785185185185185e-05, "loss": 0.1314, "step": 15370 }, { "epoch": 41.0, "eval_accuracy": 0.8981666666666667, "eval_loss": 0.34471485018730164, "eval_runtime": 251.4775, "eval_samples_per_second": 47.718, "eval_steps_per_second": 1.491, "step": 15375 }, { "epoch": 41.013333333333335, "grad_norm": 0.6671677231788635, "learning_rate": 3.277037037037037e-05, "loss": 0.131, "step": 15380 }, { "epoch": 41.04, "grad_norm": 0.7450612187385559, "learning_rate": 3.275555555555555e-05, "loss": 0.0954, "step": 15390 }, { "epoch": 41.06666666666667, "grad_norm": 0.40599867701530457, "learning_rate": 3.274074074074075e-05, "loss": 0.1425, "step": 15400 }, { "epoch": 41.093333333333334, "grad_norm": 1.0959832668304443, "learning_rate": 3.272592592592593e-05, "loss": 0.113, "step": 15410 }, { "epoch": 41.12, "grad_norm": 1.3606762886047363, "learning_rate": 3.2711111111111115e-05, "loss": 0.1151, "step": 15420 }, { "epoch": 41.14666666666667, "grad_norm": 1.1403651237487793, "learning_rate": 3.2696296296296295e-05, "loss": 0.1347, "step": 15430 }, { "epoch": 41.17333333333333, "grad_norm": 0.759689450263977, "learning_rate": 3.268148148148148e-05, "loss": 0.1144, "step": 15440 }, { "epoch": 41.2, "grad_norm": 0.7083584666252136, "learning_rate": 3.266666666666667e-05, "loss": 0.1409, "step": 15450 }, { "epoch": 41.22666666666667, "grad_norm": 0.3134825825691223, "learning_rate": 3.265185185185186e-05, "loss": 0.1262, "step": 15460 }, { "epoch": 41.25333333333333, "grad_norm": 0.913765549659729, "learning_rate": 3.263703703703704e-05, "loss": 0.1329, "step": 15470 }, { "epoch": 41.28, "grad_norm": 0.6508323550224304, "learning_rate": 3.2622222222222225e-05, "loss": 0.1195, "step": 15480 }, { "epoch": 41.306666666666665, "grad_norm": 0.6196288466453552, "learning_rate": 3.2607407407407406e-05, "loss": 0.1347, "step": 15490 }, { "epoch": 41.333333333333336, "grad_norm": 0.5625476837158203, "learning_rate": 3.25925925925926e-05, "loss": 0.1122, "step": 15500 }, { "epoch": 41.36, "grad_norm": 0.6837165951728821, "learning_rate": 3.257777777777778e-05, "loss": 0.1196, "step": 15510 }, { "epoch": 41.38666666666666, "grad_norm": 0.8440409302711487, "learning_rate": 3.256296296296296e-05, "loss": 0.1323, "step": 15520 }, { "epoch": 41.413333333333334, "grad_norm": 0.9584532976150513, "learning_rate": 3.254814814814815e-05, "loss": 0.1391, "step": 15530 }, { "epoch": 41.44, "grad_norm": 1.4705955982208252, "learning_rate": 3.253333333333333e-05, "loss": 0.1603, "step": 15540 }, { "epoch": 41.46666666666667, "grad_norm": 1.1904652118682861, "learning_rate": 3.251851851851852e-05, "loss": 0.1146, "step": 15550 }, { "epoch": 41.49333333333333, "grad_norm": 0.8853037357330322, "learning_rate": 3.2503703703703704e-05, "loss": 0.1139, "step": 15560 }, { "epoch": 41.52, "grad_norm": 0.8238078951835632, "learning_rate": 3.248888888888889e-05, "loss": 0.1327, "step": 15570 }, { "epoch": 41.54666666666667, "grad_norm": 0.8381800651550293, "learning_rate": 3.247407407407407e-05, "loss": 0.1337, "step": 15580 }, { "epoch": 41.57333333333333, "grad_norm": 0.7168253064155579, "learning_rate": 3.245925925925926e-05, "loss": 0.1243, "step": 15590 }, { "epoch": 41.6, "grad_norm": 0.36679548025131226, "learning_rate": 3.2444444444444446e-05, "loss": 0.1289, "step": 15600 }, { "epoch": 41.626666666666665, "grad_norm": 1.1263999938964844, "learning_rate": 3.2429629629629634e-05, "loss": 0.1439, "step": 15610 }, { "epoch": 41.653333333333336, "grad_norm": 0.8729699850082397, "learning_rate": 3.2414814814814814e-05, "loss": 0.12, "step": 15620 }, { "epoch": 41.68, "grad_norm": 0.8348574042320251, "learning_rate": 3.24e-05, "loss": 0.1172, "step": 15630 }, { "epoch": 41.70666666666666, "grad_norm": 0.5051025748252869, "learning_rate": 3.238518518518518e-05, "loss": 0.1209, "step": 15640 }, { "epoch": 41.733333333333334, "grad_norm": 0.5913931131362915, "learning_rate": 3.2370370370370376e-05, "loss": 0.1497, "step": 15650 }, { "epoch": 41.76, "grad_norm": 1.0688273906707764, "learning_rate": 3.235555555555556e-05, "loss": 0.1394, "step": 15660 }, { "epoch": 41.78666666666667, "grad_norm": 0.5799959301948547, "learning_rate": 3.2340740740740744e-05, "loss": 0.1422, "step": 15670 }, { "epoch": 41.81333333333333, "grad_norm": 0.6872878670692444, "learning_rate": 3.2325925925925925e-05, "loss": 0.1249, "step": 15680 }, { "epoch": 41.84, "grad_norm": 0.5501497387886047, "learning_rate": 3.231111111111111e-05, "loss": 0.1369, "step": 15690 }, { "epoch": 41.86666666666667, "grad_norm": 1.377920150756836, "learning_rate": 3.22962962962963e-05, "loss": 0.129, "step": 15700 }, { "epoch": 41.89333333333333, "grad_norm": 0.6324396729469299, "learning_rate": 3.228148148148149e-05, "loss": 0.1249, "step": 15710 }, { "epoch": 41.92, "grad_norm": 0.8195778131484985, "learning_rate": 3.226666666666667e-05, "loss": 0.1397, "step": 15720 }, { "epoch": 41.946666666666665, "grad_norm": 0.9175658822059631, "learning_rate": 3.2251851851851855e-05, "loss": 0.1083, "step": 15730 }, { "epoch": 41.973333333333336, "grad_norm": 0.2916625738143921, "learning_rate": 3.2237037037037035e-05, "loss": 0.1445, "step": 15740 }, { "epoch": 42.0, "grad_norm": 0.8220896124839783, "learning_rate": 3.222222222222223e-05, "loss": 0.1035, "step": 15750 }, { "epoch": 42.0, "eval_accuracy": 0.9038333333333334, "eval_loss": 0.33113691210746765, "eval_runtime": 251.3411, "eval_samples_per_second": 47.744, "eval_steps_per_second": 1.492, "step": 15750 }, { "epoch": 42.026666666666664, "grad_norm": 1.1726385354995728, "learning_rate": 3.220740740740741e-05, "loss": 0.1431, "step": 15760 }, { "epoch": 42.053333333333335, "grad_norm": 0.38585272431373596, "learning_rate": 3.21925925925926e-05, "loss": 0.1129, "step": 15770 }, { "epoch": 42.08, "grad_norm": 0.67658531665802, "learning_rate": 3.217777777777778e-05, "loss": 0.1139, "step": 15780 }, { "epoch": 42.10666666666667, "grad_norm": 0.6816834211349487, "learning_rate": 3.2162962962962965e-05, "loss": 0.138, "step": 15790 }, { "epoch": 42.13333333333333, "grad_norm": 0.5829227566719055, "learning_rate": 3.214814814814815e-05, "loss": 0.1126, "step": 15800 }, { "epoch": 42.16, "grad_norm": 0.5939732789993286, "learning_rate": 3.213333333333334e-05, "loss": 0.1113, "step": 15810 }, { "epoch": 42.18666666666667, "grad_norm": 1.0321975946426392, "learning_rate": 3.211851851851852e-05, "loss": 0.1008, "step": 15820 }, { "epoch": 42.21333333333333, "grad_norm": 0.6373071074485779, "learning_rate": 3.21037037037037e-05, "loss": 0.1099, "step": 15830 }, { "epoch": 42.24, "grad_norm": 0.9280217885971069, "learning_rate": 3.208888888888889e-05, "loss": 0.1208, "step": 15840 }, { "epoch": 42.266666666666666, "grad_norm": 0.8970444798469543, "learning_rate": 3.2074074074074075e-05, "loss": 0.1379, "step": 15850 }, { "epoch": 42.29333333333334, "grad_norm": 0.5511905550956726, "learning_rate": 3.205925925925926e-05, "loss": 0.126, "step": 15860 }, { "epoch": 42.32, "grad_norm": 1.341580867767334, "learning_rate": 3.204444444444444e-05, "loss": 0.1377, "step": 15870 }, { "epoch": 42.346666666666664, "grad_norm": 1.2140607833862305, "learning_rate": 3.202962962962963e-05, "loss": 0.1148, "step": 15880 }, { "epoch": 42.373333333333335, "grad_norm": 0.8168236613273621, "learning_rate": 3.201481481481481e-05, "loss": 0.1231, "step": 15890 }, { "epoch": 42.4, "grad_norm": 0.847783625125885, "learning_rate": 3.2000000000000005e-05, "loss": 0.1235, "step": 15900 }, { "epoch": 42.42666666666667, "grad_norm": 0.6168175339698792, "learning_rate": 3.1985185185185186e-05, "loss": 0.1168, "step": 15910 }, { "epoch": 42.45333333333333, "grad_norm": 1.0434849262237549, "learning_rate": 3.197037037037037e-05, "loss": 0.1342, "step": 15920 }, { "epoch": 42.48, "grad_norm": 0.7262018322944641, "learning_rate": 3.1955555555555554e-05, "loss": 0.1159, "step": 15930 }, { "epoch": 42.50666666666667, "grad_norm": 0.5176212787628174, "learning_rate": 3.194074074074074e-05, "loss": 0.106, "step": 15940 }, { "epoch": 42.53333333333333, "grad_norm": 0.7773478031158447, "learning_rate": 3.192592592592593e-05, "loss": 0.1247, "step": 15950 }, { "epoch": 42.56, "grad_norm": 1.5310711860656738, "learning_rate": 3.1911111111111116e-05, "loss": 0.1454, "step": 15960 }, { "epoch": 42.586666666666666, "grad_norm": 0.5892236828804016, "learning_rate": 3.1896296296296296e-05, "loss": 0.1073, "step": 15970 }, { "epoch": 42.61333333333333, "grad_norm": 0.5777662396430969, "learning_rate": 3.1881481481481484e-05, "loss": 0.1093, "step": 15980 }, { "epoch": 42.64, "grad_norm": 1.961869478225708, "learning_rate": 3.1866666666666664e-05, "loss": 0.1189, "step": 15990 }, { "epoch": 42.666666666666664, "grad_norm": 0.6930792927742004, "learning_rate": 3.185185185185185e-05, "loss": 0.1329, "step": 16000 }, { "epoch": 42.693333333333335, "grad_norm": 0.9752848148345947, "learning_rate": 3.183703703703704e-05, "loss": 0.1057, "step": 16010 }, { "epoch": 42.72, "grad_norm": 0.5700481534004211, "learning_rate": 3.1822222222222226e-05, "loss": 0.1022, "step": 16020 }, { "epoch": 42.74666666666667, "grad_norm": 0.489149808883667, "learning_rate": 3.180740740740741e-05, "loss": 0.1124, "step": 16030 }, { "epoch": 42.77333333333333, "grad_norm": 0.763787031173706, "learning_rate": 3.1792592592592594e-05, "loss": 0.1159, "step": 16040 }, { "epoch": 42.8, "grad_norm": 0.8953835964202881, "learning_rate": 3.177777777777778e-05, "loss": 0.1381, "step": 16050 }, { "epoch": 42.82666666666667, "grad_norm": 0.7403663992881775, "learning_rate": 3.176296296296297e-05, "loss": 0.1362, "step": 16060 }, { "epoch": 42.85333333333333, "grad_norm": 0.8902115225791931, "learning_rate": 3.174814814814815e-05, "loss": 0.1306, "step": 16070 }, { "epoch": 42.88, "grad_norm": 1.294203519821167, "learning_rate": 3.173333333333334e-05, "loss": 0.1145, "step": 16080 }, { "epoch": 42.906666666666666, "grad_norm": 0.7054836750030518, "learning_rate": 3.171851851851852e-05, "loss": 0.1219, "step": 16090 }, { "epoch": 42.93333333333333, "grad_norm": 1.0014545917510986, "learning_rate": 3.1703703703703705e-05, "loss": 0.1166, "step": 16100 }, { "epoch": 42.96, "grad_norm": 0.9486914873123169, "learning_rate": 3.168888888888889e-05, "loss": 0.1716, "step": 16110 }, { "epoch": 42.986666666666665, "grad_norm": 0.6005178093910217, "learning_rate": 3.167407407407408e-05, "loss": 0.1343, "step": 16120 }, { "epoch": 43.0, "eval_accuracy": 0.9003333333333333, "eval_loss": 0.3330574035644531, "eval_runtime": 251.3902, "eval_samples_per_second": 47.735, "eval_steps_per_second": 1.492, "step": 16125 }, { "epoch": 43.013333333333335, "grad_norm": 0.9363821744918823, "learning_rate": 3.165925925925926e-05, "loss": 0.1305, "step": 16130 }, { "epoch": 43.04, "grad_norm": 0.7136745452880859, "learning_rate": 3.164444444444444e-05, "loss": 0.1063, "step": 16140 }, { "epoch": 43.06666666666667, "grad_norm": 0.6924651861190796, "learning_rate": 3.1629629629629634e-05, "loss": 0.1109, "step": 16150 }, { "epoch": 43.093333333333334, "grad_norm": 0.9386874437332153, "learning_rate": 3.1614814814814815e-05, "loss": 0.1282, "step": 16160 }, { "epoch": 43.12, "grad_norm": 0.7837782502174377, "learning_rate": 3.16e-05, "loss": 0.128, "step": 16170 }, { "epoch": 43.14666666666667, "grad_norm": 0.8381037712097168, "learning_rate": 3.158518518518518e-05, "loss": 0.1089, "step": 16180 }, { "epoch": 43.17333333333333, "grad_norm": 0.6816710829734802, "learning_rate": 3.157037037037037e-05, "loss": 0.1171, "step": 16190 }, { "epoch": 43.2, "grad_norm": 1.027929663658142, "learning_rate": 3.155555555555556e-05, "loss": 0.1271, "step": 16200 }, { "epoch": 43.22666666666667, "grad_norm": 0.5163158178329468, "learning_rate": 3.1540740740740745e-05, "loss": 0.1458, "step": 16210 }, { "epoch": 43.25333333333333, "grad_norm": 0.49551698565483093, "learning_rate": 3.1525925925925926e-05, "loss": 0.1271, "step": 16220 }, { "epoch": 43.28, "grad_norm": 0.8512800931930542, "learning_rate": 3.151111111111111e-05, "loss": 0.1304, "step": 16230 }, { "epoch": 43.306666666666665, "grad_norm": 0.5508648157119751, "learning_rate": 3.1496296296296293e-05, "loss": 0.136, "step": 16240 }, { "epoch": 43.333333333333336, "grad_norm": 1.124014973640442, "learning_rate": 3.148148148148148e-05, "loss": 0.1127, "step": 16250 }, { "epoch": 43.36, "grad_norm": 1.2825756072998047, "learning_rate": 3.146666666666667e-05, "loss": 0.155, "step": 16260 }, { "epoch": 43.38666666666666, "grad_norm": 1.109536051750183, "learning_rate": 3.1451851851851855e-05, "loss": 0.1466, "step": 16270 }, { "epoch": 43.413333333333334, "grad_norm": 0.8152025938034058, "learning_rate": 3.1437037037037036e-05, "loss": 0.1314, "step": 16280 }, { "epoch": 43.44, "grad_norm": 1.2142354249954224, "learning_rate": 3.142222222222222e-05, "loss": 0.1304, "step": 16290 }, { "epoch": 43.46666666666667, "grad_norm": 1.314323902130127, "learning_rate": 3.140740740740741e-05, "loss": 0.1455, "step": 16300 }, { "epoch": 43.49333333333333, "grad_norm": 0.6168428063392639, "learning_rate": 3.13925925925926e-05, "loss": 0.1239, "step": 16310 }, { "epoch": 43.52, "grad_norm": 0.9281080961227417, "learning_rate": 3.137777777777778e-05, "loss": 0.1195, "step": 16320 }, { "epoch": 43.54666666666667, "grad_norm": 0.6874710321426392, "learning_rate": 3.1362962962962966e-05, "loss": 0.118, "step": 16330 }, { "epoch": 43.57333333333333, "grad_norm": 0.7968535423278809, "learning_rate": 3.1348148148148146e-05, "loss": 0.1173, "step": 16340 }, { "epoch": 43.6, "grad_norm": 0.8030575513839722, "learning_rate": 3.1333333333333334e-05, "loss": 0.1416, "step": 16350 }, { "epoch": 43.626666666666665, "grad_norm": 0.539986252784729, "learning_rate": 3.131851851851852e-05, "loss": 0.1132, "step": 16360 }, { "epoch": 43.653333333333336, "grad_norm": 0.7112353444099426, "learning_rate": 3.130370370370371e-05, "loss": 0.1214, "step": 16370 }, { "epoch": 43.68, "grad_norm": 0.751925528049469, "learning_rate": 3.128888888888889e-05, "loss": 0.1227, "step": 16380 }, { "epoch": 43.70666666666666, "grad_norm": 1.0294158458709717, "learning_rate": 3.1274074074074076e-05, "loss": 0.1116, "step": 16390 }, { "epoch": 43.733333333333334, "grad_norm": 0.9141790270805359, "learning_rate": 3.1259259259259264e-05, "loss": 0.133, "step": 16400 }, { "epoch": 43.76, "grad_norm": 0.5291667580604553, "learning_rate": 3.124444444444445e-05, "loss": 0.1198, "step": 16410 }, { "epoch": 43.78666666666667, "grad_norm": 0.7802924513816833, "learning_rate": 3.122962962962963e-05, "loss": 0.1135, "step": 16420 }, { "epoch": 43.81333333333333, "grad_norm": 0.928758442401886, "learning_rate": 3.121481481481482e-05, "loss": 0.119, "step": 16430 }, { "epoch": 43.84, "grad_norm": 0.4844142496585846, "learning_rate": 3.12e-05, "loss": 0.0992, "step": 16440 }, { "epoch": 43.86666666666667, "grad_norm": 0.7611650824546814, "learning_rate": 3.118518518518519e-05, "loss": 0.1087, "step": 16450 }, { "epoch": 43.89333333333333, "grad_norm": 1.0403081178665161, "learning_rate": 3.1170370370370374e-05, "loss": 0.14, "step": 16460 }, { "epoch": 43.92, "grad_norm": 0.540250301361084, "learning_rate": 3.1155555555555555e-05, "loss": 0.1101, "step": 16470 }, { "epoch": 43.946666666666665, "grad_norm": 0.8601893782615662, "learning_rate": 3.114074074074074e-05, "loss": 0.1198, "step": 16480 }, { "epoch": 43.973333333333336, "grad_norm": 0.7683752179145813, "learning_rate": 3.112592592592592e-05, "loss": 0.1193, "step": 16490 }, { "epoch": 44.0, "grad_norm": 0.9233737587928772, "learning_rate": 3.111111111111111e-05, "loss": 0.1163, "step": 16500 }, { "epoch": 44.0, "eval_accuracy": 0.901, "eval_loss": 0.3505781292915344, "eval_runtime": 251.3695, "eval_samples_per_second": 47.738, "eval_steps_per_second": 1.492, "step": 16500 }, { "epoch": 44.026666666666664, "grad_norm": 0.5083851218223572, "learning_rate": 3.10962962962963e-05, "loss": 0.1093, "step": 16510 }, { "epoch": 44.053333333333335, "grad_norm": 0.7215377688407898, "learning_rate": 3.1081481481481485e-05, "loss": 0.1259, "step": 16520 }, { "epoch": 44.08, "grad_norm": 1.2080796957015991, "learning_rate": 3.1066666666666665e-05, "loss": 0.1196, "step": 16530 }, { "epoch": 44.10666666666667, "grad_norm": 0.9492436051368713, "learning_rate": 3.105185185185185e-05, "loss": 0.1013, "step": 16540 }, { "epoch": 44.13333333333333, "grad_norm": 1.0404207706451416, "learning_rate": 3.103703703703704e-05, "loss": 0.1324, "step": 16550 }, { "epoch": 44.16, "grad_norm": 0.7048701643943787, "learning_rate": 3.102222222222223e-05, "loss": 0.1182, "step": 16560 }, { "epoch": 44.18666666666667, "grad_norm": 0.44903719425201416, "learning_rate": 3.100740740740741e-05, "loss": 0.114, "step": 16570 }, { "epoch": 44.21333333333333, "grad_norm": 0.8988425731658936, "learning_rate": 3.0992592592592595e-05, "loss": 0.1153, "step": 16580 }, { "epoch": 44.24, "grad_norm": 0.5105049014091492, "learning_rate": 3.0977777777777776e-05, "loss": 0.1203, "step": 16590 }, { "epoch": 44.266666666666666, "grad_norm": 0.8300052881240845, "learning_rate": 3.096296296296296e-05, "loss": 0.1078, "step": 16600 }, { "epoch": 44.29333333333334, "grad_norm": 0.7175353765487671, "learning_rate": 3.094814814814815e-05, "loss": 0.1234, "step": 16610 }, { "epoch": 44.32, "grad_norm": 1.221085548400879, "learning_rate": 3.093333333333334e-05, "loss": 0.1305, "step": 16620 }, { "epoch": 44.346666666666664, "grad_norm": 0.6117452383041382, "learning_rate": 3.091851851851852e-05, "loss": 0.1561, "step": 16630 }, { "epoch": 44.373333333333335, "grad_norm": 0.663759708404541, "learning_rate": 3.0903703703703705e-05, "loss": 0.1323, "step": 16640 }, { "epoch": 44.4, "grad_norm": 0.5485753417015076, "learning_rate": 3.088888888888889e-05, "loss": 0.1055, "step": 16650 }, { "epoch": 44.42666666666667, "grad_norm": 0.697367787361145, "learning_rate": 3.087407407407408e-05, "loss": 0.109, "step": 16660 }, { "epoch": 44.45333333333333, "grad_norm": 0.9931197762489319, "learning_rate": 3.085925925925926e-05, "loss": 0.1174, "step": 16670 }, { "epoch": 44.48, "grad_norm": 0.907964289188385, "learning_rate": 3.084444444444445e-05, "loss": 0.1087, "step": 16680 }, { "epoch": 44.50666666666667, "grad_norm": 0.6099154353141785, "learning_rate": 3.082962962962963e-05, "loss": 0.1358, "step": 16690 }, { "epoch": 44.53333333333333, "grad_norm": 1.640714406967163, "learning_rate": 3.0814814814814816e-05, "loss": 0.1356, "step": 16700 }, { "epoch": 44.56, "grad_norm": 0.6792948246002197, "learning_rate": 3.08e-05, "loss": 0.104, "step": 16710 }, { "epoch": 44.586666666666666, "grad_norm": 1.2282480001449585, "learning_rate": 3.078518518518519e-05, "loss": 0.1553, "step": 16720 }, { "epoch": 44.61333333333333, "grad_norm": 1.1024445295333862, "learning_rate": 3.077037037037037e-05, "loss": 0.1188, "step": 16730 }, { "epoch": 44.64, "grad_norm": 0.7203577756881714, "learning_rate": 3.075555555555556e-05, "loss": 0.1158, "step": 16740 }, { "epoch": 44.666666666666664, "grad_norm": 1.1606868505477905, "learning_rate": 3.074074074074074e-05, "loss": 0.1557, "step": 16750 }, { "epoch": 44.693333333333335, "grad_norm": 0.5337738394737244, "learning_rate": 3.0725925925925926e-05, "loss": 0.1091, "step": 16760 }, { "epoch": 44.72, "grad_norm": 0.6471222639083862, "learning_rate": 3.0711111111111114e-05, "loss": 0.1209, "step": 16770 }, { "epoch": 44.74666666666667, "grad_norm": 0.3534478545188904, "learning_rate": 3.0696296296296294e-05, "loss": 0.1133, "step": 16780 }, { "epoch": 44.77333333333333, "grad_norm": 0.6215720772743225, "learning_rate": 3.068148148148148e-05, "loss": 0.1229, "step": 16790 }, { "epoch": 44.8, "grad_norm": 0.9212892651557922, "learning_rate": 3.066666666666667e-05, "loss": 0.1408, "step": 16800 }, { "epoch": 44.82666666666667, "grad_norm": 1.1198707818984985, "learning_rate": 3.0651851851851856e-05, "loss": 0.1115, "step": 16810 }, { "epoch": 44.85333333333333, "grad_norm": 0.8587360978126526, "learning_rate": 3.063703703703704e-05, "loss": 0.1105, "step": 16820 }, { "epoch": 44.88, "grad_norm": 0.8749282956123352, "learning_rate": 3.0622222222222224e-05, "loss": 0.1271, "step": 16830 }, { "epoch": 44.906666666666666, "grad_norm": 0.6292451024055481, "learning_rate": 3.0607407407407405e-05, "loss": 0.1412, "step": 16840 }, { "epoch": 44.93333333333333, "grad_norm": 1.2952896356582642, "learning_rate": 3.059259259259259e-05, "loss": 0.1195, "step": 16850 }, { "epoch": 44.96, "grad_norm": 0.2476649284362793, "learning_rate": 3.057777777777778e-05, "loss": 0.1057, "step": 16860 }, { "epoch": 44.986666666666665, "grad_norm": 0.6779937744140625, "learning_rate": 3.056296296296297e-05, "loss": 0.1214, "step": 16870 }, { "epoch": 45.0, "eval_accuracy": 0.9005, "eval_loss": 0.34354647994041443, "eval_runtime": 253.5681, "eval_samples_per_second": 47.325, "eval_steps_per_second": 1.479, "step": 16875 }, { "epoch": 45.013333333333335, "grad_norm": 1.2206398248672485, "learning_rate": 3.054814814814815e-05, "loss": 0.1087, "step": 16880 }, { "epoch": 45.04, "grad_norm": 1.1203272342681885, "learning_rate": 3.0533333333333335e-05, "loss": 0.1166, "step": 16890 }, { "epoch": 45.06666666666667, "grad_norm": 0.9529656171798706, "learning_rate": 3.0518518518518515e-05, "loss": 0.1307, "step": 16900 }, { "epoch": 45.093333333333334, "grad_norm": 0.7583413124084473, "learning_rate": 3.0503703703703706e-05, "loss": 0.1311, "step": 16910 }, { "epoch": 45.12, "grad_norm": 0.9846914410591125, "learning_rate": 3.048888888888889e-05, "loss": 0.1384, "step": 16920 }, { "epoch": 45.14666666666667, "grad_norm": 0.7451393604278564, "learning_rate": 3.0474074074074077e-05, "loss": 0.1238, "step": 16930 }, { "epoch": 45.17333333333333, "grad_norm": 0.9685015082359314, "learning_rate": 3.045925925925926e-05, "loss": 0.1319, "step": 16940 }, { "epoch": 45.2, "grad_norm": 0.796222448348999, "learning_rate": 3.044444444444445e-05, "loss": 0.1306, "step": 16950 }, { "epoch": 45.22666666666667, "grad_norm": 0.5613497495651245, "learning_rate": 3.042962962962963e-05, "loss": 0.1302, "step": 16960 }, { "epoch": 45.25333333333333, "grad_norm": 0.46396738290786743, "learning_rate": 3.041481481481482e-05, "loss": 0.1031, "step": 16970 }, { "epoch": 45.28, "grad_norm": 1.0692193508148193, "learning_rate": 3.04e-05, "loss": 0.1222, "step": 16980 }, { "epoch": 45.306666666666665, "grad_norm": 0.6849391460418701, "learning_rate": 3.0385185185185188e-05, "loss": 0.1289, "step": 16990 }, { "epoch": 45.333333333333336, "grad_norm": 0.5194891095161438, "learning_rate": 3.037037037037037e-05, "loss": 0.1263, "step": 17000 }, { "epoch": 45.36, "grad_norm": 0.9299823641777039, "learning_rate": 3.035555555555556e-05, "loss": 0.1378, "step": 17010 }, { "epoch": 45.38666666666666, "grad_norm": 0.9953082799911499, "learning_rate": 3.0340740740740743e-05, "loss": 0.132, "step": 17020 }, { "epoch": 45.413333333333334, "grad_norm": 0.5512344837188721, "learning_rate": 3.032592592592593e-05, "loss": 0.1037, "step": 17030 }, { "epoch": 45.44, "grad_norm": 0.5295369625091553, "learning_rate": 3.031111111111111e-05, "loss": 0.1069, "step": 17040 }, { "epoch": 45.46666666666667, "grad_norm": 1.2764853239059448, "learning_rate": 3.02962962962963e-05, "loss": 0.1027, "step": 17050 }, { "epoch": 45.49333333333333, "grad_norm": 0.9638668894767761, "learning_rate": 3.0281481481481482e-05, "loss": 0.1159, "step": 17060 }, { "epoch": 45.52, "grad_norm": 1.0061888694763184, "learning_rate": 3.0266666666666666e-05, "loss": 0.1136, "step": 17070 }, { "epoch": 45.54666666666667, "grad_norm": 0.44770029187202454, "learning_rate": 3.0251851851851853e-05, "loss": 0.1006, "step": 17080 }, { "epoch": 45.57333333333333, "grad_norm": 0.6145328283309937, "learning_rate": 3.0237037037037037e-05, "loss": 0.0952, "step": 17090 }, { "epoch": 45.6, "grad_norm": 0.5946821570396423, "learning_rate": 3.0222222222222225e-05, "loss": 0.146, "step": 17100 }, { "epoch": 45.626666666666665, "grad_norm": 0.9481339454650879, "learning_rate": 3.0207407407407405e-05, "loss": 0.1024, "step": 17110 }, { "epoch": 45.653333333333336, "grad_norm": 0.9362908005714417, "learning_rate": 3.0192592592592596e-05, "loss": 0.1087, "step": 17120 }, { "epoch": 45.68, "grad_norm": 0.9882051348686218, "learning_rate": 3.0177777777777776e-05, "loss": 0.1276, "step": 17130 }, { "epoch": 45.70666666666666, "grad_norm": 1.1000326871871948, "learning_rate": 3.0162962962962964e-05, "loss": 0.1049, "step": 17140 }, { "epoch": 45.733333333333334, "grad_norm": 0.7420867681503296, "learning_rate": 3.0148148148148148e-05, "loss": 0.1146, "step": 17150 }, { "epoch": 45.76, "grad_norm": 0.5254116058349609, "learning_rate": 3.0133333333333335e-05, "loss": 0.1121, "step": 17160 }, { "epoch": 45.78666666666667, "grad_norm": 0.7504268288612366, "learning_rate": 3.011851851851852e-05, "loss": 0.1367, "step": 17170 }, { "epoch": 45.81333333333333, "grad_norm": 0.5725244283676147, "learning_rate": 3.0103703703703706e-05, "loss": 0.1522, "step": 17180 }, { "epoch": 45.84, "grad_norm": 0.6966990232467651, "learning_rate": 3.008888888888889e-05, "loss": 0.12, "step": 17190 }, { "epoch": 45.86666666666667, "grad_norm": 1.149040699005127, "learning_rate": 3.0074074074074078e-05, "loss": 0.1066, "step": 17200 }, { "epoch": 45.89333333333333, "grad_norm": 0.9212325215339661, "learning_rate": 3.0059259259259258e-05, "loss": 0.1176, "step": 17210 }, { "epoch": 45.92, "grad_norm": 0.48472830653190613, "learning_rate": 3.004444444444445e-05, "loss": 0.1076, "step": 17220 }, { "epoch": 45.946666666666665, "grad_norm": 0.621033787727356, "learning_rate": 3.002962962962963e-05, "loss": 0.1047, "step": 17230 }, { "epoch": 45.973333333333336, "grad_norm": 1.1546809673309326, "learning_rate": 3.0014814814814817e-05, "loss": 0.0987, "step": 17240 }, { "epoch": 46.0, "grad_norm": 0.5619125366210938, "learning_rate": 3e-05, "loss": 0.1055, "step": 17250 }, { "epoch": 46.0, "eval_accuracy": 0.9018333333333334, "eval_loss": 0.3587205410003662, "eval_runtime": 253.8347, "eval_samples_per_second": 47.275, "eval_steps_per_second": 1.477, "step": 17250 }, { "epoch": 46.026666666666664, "grad_norm": 0.7461891174316406, "learning_rate": 2.9985185185185188e-05, "loss": 0.155, "step": 17260 }, { "epoch": 46.053333333333335, "grad_norm": 0.5234472155570984, "learning_rate": 2.9970370370370372e-05, "loss": 0.111, "step": 17270 }, { "epoch": 46.08, "grad_norm": 0.43223243951797485, "learning_rate": 2.995555555555556e-05, "loss": 0.0947, "step": 17280 }, { "epoch": 46.10666666666667, "grad_norm": 0.7777111530303955, "learning_rate": 2.994074074074074e-05, "loss": 0.1127, "step": 17290 }, { "epoch": 46.13333333333333, "grad_norm": 0.8766204714775085, "learning_rate": 2.992592592592593e-05, "loss": 0.124, "step": 17300 }, { "epoch": 46.16, "grad_norm": 0.5274333357810974, "learning_rate": 2.991111111111111e-05, "loss": 0.121, "step": 17310 }, { "epoch": 46.18666666666667, "grad_norm": 0.4555768072605133, "learning_rate": 2.98962962962963e-05, "loss": 0.1103, "step": 17320 }, { "epoch": 46.21333333333333, "grad_norm": 0.6402236819267273, "learning_rate": 2.9881481481481482e-05, "loss": 0.0875, "step": 17330 }, { "epoch": 46.24, "grad_norm": 0.6981205344200134, "learning_rate": 2.986666666666667e-05, "loss": 0.1146, "step": 17340 }, { "epoch": 46.266666666666666, "grad_norm": 0.4717854857444763, "learning_rate": 2.9851851851851854e-05, "loss": 0.1087, "step": 17350 }, { "epoch": 46.29333333333334, "grad_norm": 0.7485230565071106, "learning_rate": 2.983703703703704e-05, "loss": 0.1358, "step": 17360 }, { "epoch": 46.32, "grad_norm": 0.9594528675079346, "learning_rate": 2.9822222222222225e-05, "loss": 0.0974, "step": 17370 }, { "epoch": 46.346666666666664, "grad_norm": 0.4352808892726898, "learning_rate": 2.9807407407407406e-05, "loss": 0.1207, "step": 17380 }, { "epoch": 46.373333333333335, "grad_norm": 0.753587007522583, "learning_rate": 2.9792592592592593e-05, "loss": 0.1167, "step": 17390 }, { "epoch": 46.4, "grad_norm": 0.6406862735748291, "learning_rate": 2.9777777777777777e-05, "loss": 0.1092, "step": 17400 }, { "epoch": 46.42666666666667, "grad_norm": 0.8874475955963135, "learning_rate": 2.9762962962962964e-05, "loss": 0.1305, "step": 17410 }, { "epoch": 46.45333333333333, "grad_norm": 0.9711248874664307, "learning_rate": 2.9748148148148148e-05, "loss": 0.1489, "step": 17420 }, { "epoch": 46.48, "grad_norm": 0.493867427110672, "learning_rate": 2.9733333333333336e-05, "loss": 0.1183, "step": 17430 }, { "epoch": 46.50666666666667, "grad_norm": 0.5929214954376221, "learning_rate": 2.9718518518518516e-05, "loss": 0.1022, "step": 17440 }, { "epoch": 46.53333333333333, "grad_norm": 0.5925045609474182, "learning_rate": 2.9703703703703707e-05, "loss": 0.111, "step": 17450 }, { "epoch": 46.56, "grad_norm": 0.7654463648796082, "learning_rate": 2.9688888888888887e-05, "loss": 0.1015, "step": 17460 }, { "epoch": 46.586666666666666, "grad_norm": 0.770209014415741, "learning_rate": 2.9674074074074075e-05, "loss": 0.1006, "step": 17470 }, { "epoch": 46.61333333333333, "grad_norm": 0.5277777314186096, "learning_rate": 2.965925925925926e-05, "loss": 0.1142, "step": 17480 }, { "epoch": 46.64, "grad_norm": 0.7141275405883789, "learning_rate": 2.9644444444444446e-05, "loss": 0.1225, "step": 17490 }, { "epoch": 46.666666666666664, "grad_norm": 1.0017422437667847, "learning_rate": 2.962962962962963e-05, "loss": 0.1032, "step": 17500 }, { "epoch": 46.693333333333335, "grad_norm": 0.8265091776847839, "learning_rate": 2.9614814814814817e-05, "loss": 0.1121, "step": 17510 }, { "epoch": 46.72, "grad_norm": 0.7294397354125977, "learning_rate": 2.96e-05, "loss": 0.1081, "step": 17520 }, { "epoch": 46.74666666666667, "grad_norm": 1.0573780536651611, "learning_rate": 2.958518518518519e-05, "loss": 0.1345, "step": 17530 }, { "epoch": 46.77333333333333, "grad_norm": 1.153691291809082, "learning_rate": 2.957037037037037e-05, "loss": 0.1243, "step": 17540 }, { "epoch": 46.8, "grad_norm": 0.9743576645851135, "learning_rate": 2.955555555555556e-05, "loss": 0.1166, "step": 17550 }, { "epoch": 46.82666666666667, "grad_norm": 0.5775934457778931, "learning_rate": 2.954074074074074e-05, "loss": 0.1194, "step": 17560 }, { "epoch": 46.85333333333333, "grad_norm": 0.4566071927547455, "learning_rate": 2.9525925925925928e-05, "loss": 0.1293, "step": 17570 }, { "epoch": 46.88, "grad_norm": 1.1192882061004639, "learning_rate": 2.951111111111111e-05, "loss": 0.1064, "step": 17580 }, { "epoch": 46.906666666666666, "grad_norm": 0.7127460241317749, "learning_rate": 2.94962962962963e-05, "loss": 0.1392, "step": 17590 }, { "epoch": 46.93333333333333, "grad_norm": 0.718596339225769, "learning_rate": 2.9481481481481483e-05, "loss": 0.1172, "step": 17600 }, { "epoch": 46.96, "grad_norm": 0.8184888362884521, "learning_rate": 2.946666666666667e-05, "loss": 0.122, "step": 17610 }, { "epoch": 46.986666666666665, "grad_norm": 0.4526049792766571, "learning_rate": 2.9451851851851854e-05, "loss": 0.1097, "step": 17620 }, { "epoch": 47.0, "eval_accuracy": 0.9020833333333333, "eval_loss": 0.3388381004333496, "eval_runtime": 253.8853, "eval_samples_per_second": 47.265, "eval_steps_per_second": 1.477, "step": 17625 }, { "epoch": 47.013333333333335, "grad_norm": 0.7311096787452698, "learning_rate": 2.943703703703704e-05, "loss": 0.1226, "step": 17630 }, { "epoch": 47.04, "grad_norm": 0.46326684951782227, "learning_rate": 2.9422222222222222e-05, "loss": 0.1057, "step": 17640 }, { "epoch": 47.06666666666667, "grad_norm": 0.7768539190292358, "learning_rate": 2.9407407407407413e-05, "loss": 0.1137, "step": 17650 }, { "epoch": 47.093333333333334, "grad_norm": 0.7905116677284241, "learning_rate": 2.9392592592592593e-05, "loss": 0.1402, "step": 17660 }, { "epoch": 47.12, "grad_norm": 1.0095783472061157, "learning_rate": 2.937777777777778e-05, "loss": 0.1094, "step": 17670 }, { "epoch": 47.14666666666667, "grad_norm": 0.7040125131607056, "learning_rate": 2.9362962962962965e-05, "loss": 0.1226, "step": 17680 }, { "epoch": 47.17333333333333, "grad_norm": 1.0941599607467651, "learning_rate": 2.9348148148148145e-05, "loss": 0.1191, "step": 17690 }, { "epoch": 47.2, "grad_norm": 0.590173602104187, "learning_rate": 2.9333333333333336e-05, "loss": 0.1294, "step": 17700 }, { "epoch": 47.22666666666667, "grad_norm": 0.5932841897010803, "learning_rate": 2.9318518518518517e-05, "loss": 0.1244, "step": 17710 }, { "epoch": 47.25333333333333, "grad_norm": 0.6381416320800781, "learning_rate": 2.9303703703703704e-05, "loss": 0.1247, "step": 17720 }, { "epoch": 47.28, "grad_norm": 0.4351062774658203, "learning_rate": 2.9288888888888888e-05, "loss": 0.1288, "step": 17730 }, { "epoch": 47.306666666666665, "grad_norm": 0.7778250575065613, "learning_rate": 2.9274074074074075e-05, "loss": 0.1075, "step": 17740 }, { "epoch": 47.333333333333336, "grad_norm": 1.0143440961837769, "learning_rate": 2.925925925925926e-05, "loss": 0.1323, "step": 17750 }, { "epoch": 47.36, "grad_norm": 0.426794171333313, "learning_rate": 2.9244444444444446e-05, "loss": 0.0843, "step": 17760 }, { "epoch": 47.38666666666666, "grad_norm": 0.5667079091072083, "learning_rate": 2.922962962962963e-05, "loss": 0.1109, "step": 17770 }, { "epoch": 47.413333333333334, "grad_norm": 1.1787670850753784, "learning_rate": 2.9214814814814818e-05, "loss": 0.1193, "step": 17780 }, { "epoch": 47.44, "grad_norm": 0.3884506821632385, "learning_rate": 2.9199999999999998e-05, "loss": 0.1307, "step": 17790 }, { "epoch": 47.46666666666667, "grad_norm": 0.512022078037262, "learning_rate": 2.918518518518519e-05, "loss": 0.1413, "step": 17800 }, { "epoch": 47.49333333333333, "grad_norm": 0.5937590599060059, "learning_rate": 2.917037037037037e-05, "loss": 0.1216, "step": 17810 }, { "epoch": 47.52, "grad_norm": 0.5365837812423706, "learning_rate": 2.9155555555555557e-05, "loss": 0.1248, "step": 17820 }, { "epoch": 47.54666666666667, "grad_norm": 0.7429771423339844, "learning_rate": 2.914074074074074e-05, "loss": 0.124, "step": 17830 }, { "epoch": 47.57333333333333, "grad_norm": 0.7039695978164673, "learning_rate": 2.9125925925925928e-05, "loss": 0.1249, "step": 17840 }, { "epoch": 47.6, "grad_norm": 0.45121780037879944, "learning_rate": 2.9111111111111112e-05, "loss": 0.1128, "step": 17850 }, { "epoch": 47.626666666666665, "grad_norm": 1.0913827419281006, "learning_rate": 2.90962962962963e-05, "loss": 0.1147, "step": 17860 }, { "epoch": 47.653333333333336, "grad_norm": 0.7693084478378296, "learning_rate": 2.9081481481481483e-05, "loss": 0.1177, "step": 17870 }, { "epoch": 47.68, "grad_norm": 0.8948861360549927, "learning_rate": 2.906666666666667e-05, "loss": 0.1137, "step": 17880 }, { "epoch": 47.70666666666666, "grad_norm": 0.8601765036582947, "learning_rate": 2.905185185185185e-05, "loss": 0.1554, "step": 17890 }, { "epoch": 47.733333333333334, "grad_norm": 0.599297821521759, "learning_rate": 2.9037037037037042e-05, "loss": 0.1228, "step": 17900 }, { "epoch": 47.76, "grad_norm": 0.5960290431976318, "learning_rate": 2.9022222222222223e-05, "loss": 0.1082, "step": 17910 }, { "epoch": 47.78666666666667, "grad_norm": 1.0994760990142822, "learning_rate": 2.900740740740741e-05, "loss": 0.1592, "step": 17920 }, { "epoch": 47.81333333333333, "grad_norm": 0.40384671092033386, "learning_rate": 2.8992592592592594e-05, "loss": 0.1365, "step": 17930 }, { "epoch": 47.84, "grad_norm": 0.7017285823822021, "learning_rate": 2.897777777777778e-05, "loss": 0.1431, "step": 17940 }, { "epoch": 47.86666666666667, "grad_norm": 0.8847180008888245, "learning_rate": 2.8962962962962965e-05, "loss": 0.1216, "step": 17950 }, { "epoch": 47.89333333333333, "grad_norm": 0.427737832069397, "learning_rate": 2.8948148148148152e-05, "loss": 0.0971, "step": 17960 }, { "epoch": 47.92, "grad_norm": 1.002913236618042, "learning_rate": 2.8933333333333333e-05, "loss": 0.1261, "step": 17970 }, { "epoch": 47.946666666666665, "grad_norm": 0.840640664100647, "learning_rate": 2.8918518518518524e-05, "loss": 0.0966, "step": 17980 }, { "epoch": 47.973333333333336, "grad_norm": 1.0228304862976074, "learning_rate": 2.8903703703703704e-05, "loss": 0.1244, "step": 17990 }, { "epoch": 48.0, "grad_norm": 0.6366199851036072, "learning_rate": 2.8888888888888888e-05, "loss": 0.1229, "step": 18000 }, { "epoch": 48.0, "eval_accuracy": 0.9040833333333333, "eval_loss": 0.3500368297100067, "eval_runtime": 253.8738, "eval_samples_per_second": 47.268, "eval_steps_per_second": 1.477, "step": 18000 }, { "epoch": 48.026666666666664, "grad_norm": 1.0985430479049683, "learning_rate": 2.8874074074074076e-05, "loss": 0.1234, "step": 18010 }, { "epoch": 48.053333333333335, "grad_norm": 1.1416891813278198, "learning_rate": 2.885925925925926e-05, "loss": 0.1302, "step": 18020 }, { "epoch": 48.08, "grad_norm": 0.9195489883422852, "learning_rate": 2.8844444444444447e-05, "loss": 0.1123, "step": 18030 }, { "epoch": 48.10666666666667, "grad_norm": 0.5616374611854553, "learning_rate": 2.8829629629629627e-05, "loss": 0.117, "step": 18040 }, { "epoch": 48.13333333333333, "grad_norm": 0.9357309341430664, "learning_rate": 2.8814814814814818e-05, "loss": 0.1365, "step": 18050 }, { "epoch": 48.16, "grad_norm": 0.5318824052810669, "learning_rate": 2.88e-05, "loss": 0.101, "step": 18060 }, { "epoch": 48.18666666666667, "grad_norm": 0.6028080582618713, "learning_rate": 2.8785185185185186e-05, "loss": 0.1117, "step": 18070 }, { "epoch": 48.21333333333333, "grad_norm": 1.1985206604003906, "learning_rate": 2.877037037037037e-05, "loss": 0.1311, "step": 18080 }, { "epoch": 48.24, "grad_norm": 0.5664718151092529, "learning_rate": 2.8755555555555557e-05, "loss": 0.106, "step": 18090 }, { "epoch": 48.266666666666666, "grad_norm": 0.8198311924934387, "learning_rate": 2.874074074074074e-05, "loss": 0.1435, "step": 18100 }, { "epoch": 48.29333333333334, "grad_norm": 0.687383770942688, "learning_rate": 2.872592592592593e-05, "loss": 0.133, "step": 18110 }, { "epoch": 48.32, "grad_norm": 0.48195791244506836, "learning_rate": 2.8711111111111113e-05, "loss": 0.1199, "step": 18120 }, { "epoch": 48.346666666666664, "grad_norm": 0.6707039475440979, "learning_rate": 2.86962962962963e-05, "loss": 0.12, "step": 18130 }, { "epoch": 48.373333333333335, "grad_norm": 0.9685347080230713, "learning_rate": 2.868148148148148e-05, "loss": 0.1086, "step": 18140 }, { "epoch": 48.4, "grad_norm": 0.7319927215576172, "learning_rate": 2.8666666666666668e-05, "loss": 0.1429, "step": 18150 }, { "epoch": 48.42666666666667, "grad_norm": 0.6034587621688843, "learning_rate": 2.8651851851851852e-05, "loss": 0.1062, "step": 18160 }, { "epoch": 48.45333333333333, "grad_norm": 1.1959223747253418, "learning_rate": 2.863703703703704e-05, "loss": 0.1515, "step": 18170 }, { "epoch": 48.48, "grad_norm": 0.5030449628829956, "learning_rate": 2.8622222222222223e-05, "loss": 0.1132, "step": 18180 }, { "epoch": 48.50666666666667, "grad_norm": 0.6360395550727844, "learning_rate": 2.860740740740741e-05, "loss": 0.1128, "step": 18190 }, { "epoch": 48.53333333333333, "grad_norm": 0.6620995998382568, "learning_rate": 2.8592592592592594e-05, "loss": 0.1152, "step": 18200 }, { "epoch": 48.56, "grad_norm": 0.7384064197540283, "learning_rate": 2.857777777777778e-05, "loss": 0.112, "step": 18210 }, { "epoch": 48.586666666666666, "grad_norm": 0.7673972845077515, "learning_rate": 2.8562962962962962e-05, "loss": 0.1302, "step": 18220 }, { "epoch": 48.61333333333333, "grad_norm": 0.7485019564628601, "learning_rate": 2.8548148148148153e-05, "loss": 0.0912, "step": 18230 }, { "epoch": 48.64, "grad_norm": 0.48040422797203064, "learning_rate": 2.8533333333333333e-05, "loss": 0.1311, "step": 18240 }, { "epoch": 48.666666666666664, "grad_norm": 0.8373307585716248, "learning_rate": 2.851851851851852e-05, "loss": 0.113, "step": 18250 }, { "epoch": 48.693333333333335, "grad_norm": 0.7600528597831726, "learning_rate": 2.8503703703703705e-05, "loss": 0.1101, "step": 18260 }, { "epoch": 48.72, "grad_norm": 0.7917771935462952, "learning_rate": 2.8488888888888892e-05, "loss": 0.1125, "step": 18270 }, { "epoch": 48.74666666666667, "grad_norm": 0.7849538326263428, "learning_rate": 2.8474074074074076e-05, "loss": 0.1102, "step": 18280 }, { "epoch": 48.77333333333333, "grad_norm": 0.623174786567688, "learning_rate": 2.8459259259259263e-05, "loss": 0.0954, "step": 18290 }, { "epoch": 48.8, "grad_norm": 0.8154776096343994, "learning_rate": 2.8444444444444447e-05, "loss": 0.1157, "step": 18300 }, { "epoch": 48.82666666666667, "grad_norm": 0.4827369153499603, "learning_rate": 2.8429629629629628e-05, "loss": 0.1076, "step": 18310 }, { "epoch": 48.85333333333333, "grad_norm": 0.579918384552002, "learning_rate": 2.8414814814814815e-05, "loss": 0.1073, "step": 18320 }, { "epoch": 48.88, "grad_norm": 0.34451261162757874, "learning_rate": 2.84e-05, "loss": 0.0907, "step": 18330 }, { "epoch": 48.906666666666666, "grad_norm": 1.1390894651412964, "learning_rate": 2.8385185185185186e-05, "loss": 0.1087, "step": 18340 }, { "epoch": 48.93333333333333, "grad_norm": 0.8791013956069946, "learning_rate": 2.837037037037037e-05, "loss": 0.128, "step": 18350 }, { "epoch": 48.96, "grad_norm": 0.6428954005241394, "learning_rate": 2.8355555555555558e-05, "loss": 0.1047, "step": 18360 }, { "epoch": 48.986666666666665, "grad_norm": 1.5035400390625, "learning_rate": 2.834074074074074e-05, "loss": 0.123, "step": 18370 }, { "epoch": 49.0, "eval_accuracy": 0.9036666666666666, "eval_loss": 0.3483108580112457, "eval_runtime": 253.9287, "eval_samples_per_second": 47.257, "eval_steps_per_second": 1.477, "step": 18375 }, { "epoch": 49.013333333333335, "grad_norm": 0.8014954924583435, "learning_rate": 2.832592592592593e-05, "loss": 0.1179, "step": 18380 }, { "epoch": 49.04, "grad_norm": 0.915111780166626, "learning_rate": 2.831111111111111e-05, "loss": 0.128, "step": 18390 }, { "epoch": 49.06666666666667, "grad_norm": 0.6840565800666809, "learning_rate": 2.8296296296296297e-05, "loss": 0.1058, "step": 18400 }, { "epoch": 49.093333333333334, "grad_norm": 0.8273472785949707, "learning_rate": 2.828148148148148e-05, "loss": 0.1146, "step": 18410 }, { "epoch": 49.12, "grad_norm": 0.6456076502799988, "learning_rate": 2.8266666666666668e-05, "loss": 0.1289, "step": 18420 }, { "epoch": 49.14666666666667, "grad_norm": 0.5452912449836731, "learning_rate": 2.8251851851851852e-05, "loss": 0.1327, "step": 18430 }, { "epoch": 49.17333333333333, "grad_norm": 0.5208062529563904, "learning_rate": 2.823703703703704e-05, "loss": 0.1053, "step": 18440 }, { "epoch": 49.2, "grad_norm": 0.888599157333374, "learning_rate": 2.8222222222222223e-05, "loss": 0.0915, "step": 18450 }, { "epoch": 49.22666666666667, "grad_norm": 1.3526356220245361, "learning_rate": 2.820740740740741e-05, "loss": 0.1216, "step": 18460 }, { "epoch": 49.25333333333333, "grad_norm": 0.8525989055633545, "learning_rate": 2.819259259259259e-05, "loss": 0.0951, "step": 18470 }, { "epoch": 49.28, "grad_norm": 1.2459921836853027, "learning_rate": 2.8177777777777782e-05, "loss": 0.1079, "step": 18480 }, { "epoch": 49.306666666666665, "grad_norm": 0.8043139576911926, "learning_rate": 2.8162962962962963e-05, "loss": 0.0949, "step": 18490 }, { "epoch": 49.333333333333336, "grad_norm": 0.7434647083282471, "learning_rate": 2.814814814814815e-05, "loss": 0.1062, "step": 18500 }, { "epoch": 49.36, "grad_norm": 0.8444651365280151, "learning_rate": 2.8133333333333334e-05, "loss": 0.115, "step": 18510 }, { "epoch": 49.38666666666666, "grad_norm": 0.47303712368011475, "learning_rate": 2.811851851851852e-05, "loss": 0.1233, "step": 18520 }, { "epoch": 49.413333333333334, "grad_norm": 1.3678315877914429, "learning_rate": 2.8103703703703705e-05, "loss": 0.1297, "step": 18530 }, { "epoch": 49.44, "grad_norm": 0.506630003452301, "learning_rate": 2.8088888888888893e-05, "loss": 0.1072, "step": 18540 }, { "epoch": 49.46666666666667, "grad_norm": 0.6883729100227356, "learning_rate": 2.8074074074074076e-05, "loss": 0.1182, "step": 18550 }, { "epoch": 49.49333333333333, "grad_norm": 0.7314412593841553, "learning_rate": 2.8059259259259264e-05, "loss": 0.1148, "step": 18560 }, { "epoch": 49.52, "grad_norm": 0.9019626379013062, "learning_rate": 2.8044444444444444e-05, "loss": 0.1207, "step": 18570 }, { "epoch": 49.54666666666667, "grad_norm": 0.601712703704834, "learning_rate": 2.8029629629629635e-05, "loss": 0.1231, "step": 18580 }, { "epoch": 49.57333333333333, "grad_norm": 0.6320507526397705, "learning_rate": 2.8014814814814816e-05, "loss": 0.1208, "step": 18590 }, { "epoch": 49.6, "grad_norm": 0.9620966911315918, "learning_rate": 2.8000000000000003e-05, "loss": 0.1057, "step": 18600 }, { "epoch": 49.626666666666665, "grad_norm": 0.9534189701080322, "learning_rate": 2.7985185185185187e-05, "loss": 0.1166, "step": 18610 }, { "epoch": 49.653333333333336, "grad_norm": 0.7791820764541626, "learning_rate": 2.7970370370370367e-05, "loss": 0.1107, "step": 18620 }, { "epoch": 49.68, "grad_norm": 0.9915904998779297, "learning_rate": 2.7955555555555558e-05, "loss": 0.1342, "step": 18630 }, { "epoch": 49.70666666666666, "grad_norm": 0.5442671179771423, "learning_rate": 2.794074074074074e-05, "loss": 0.116, "step": 18640 }, { "epoch": 49.733333333333334, "grad_norm": 0.8549047708511353, "learning_rate": 2.7925925925925926e-05, "loss": 0.1127, "step": 18650 }, { "epoch": 49.76, "grad_norm": 0.5355319380760193, "learning_rate": 2.791111111111111e-05, "loss": 0.1077, "step": 18660 }, { "epoch": 49.78666666666667, "grad_norm": 0.5735291242599487, "learning_rate": 2.7896296296296297e-05, "loss": 0.1205, "step": 18670 }, { "epoch": 49.81333333333333, "grad_norm": 1.1089893579483032, "learning_rate": 2.788148148148148e-05, "loss": 0.1047, "step": 18680 }, { "epoch": 49.84, "grad_norm": 0.6288029551506042, "learning_rate": 2.786666666666667e-05, "loss": 0.1056, "step": 18690 }, { "epoch": 49.86666666666667, "grad_norm": 0.9746517539024353, "learning_rate": 2.7851851851851853e-05, "loss": 0.1172, "step": 18700 }, { "epoch": 49.89333333333333, "grad_norm": 1.2414524555206299, "learning_rate": 2.783703703703704e-05, "loss": 0.107, "step": 18710 }, { "epoch": 49.92, "grad_norm": 0.6638383865356445, "learning_rate": 2.782222222222222e-05, "loss": 0.1043, "step": 18720 }, { "epoch": 49.946666666666665, "grad_norm": 0.5987620949745178, "learning_rate": 2.780740740740741e-05, "loss": 0.1207, "step": 18730 }, { "epoch": 49.973333333333336, "grad_norm": 0.6998955607414246, "learning_rate": 2.7792592592592592e-05, "loss": 0.1207, "step": 18740 }, { "epoch": 50.0, "grad_norm": 0.37233802676200867, "learning_rate": 2.777777777777778e-05, "loss": 0.1238, "step": 18750 }, { "epoch": 50.0, "eval_accuracy": 0.89975, "eval_loss": 0.35206934809684753, "eval_runtime": 254.1653, "eval_samples_per_second": 47.213, "eval_steps_per_second": 1.475, "step": 18750 }, { "epoch": 50.026666666666664, "grad_norm": 0.7466848492622375, "learning_rate": 2.7762962962962963e-05, "loss": 0.1336, "step": 18760 }, { "epoch": 50.053333333333335, "grad_norm": 0.6644850969314575, "learning_rate": 2.774814814814815e-05, "loss": 0.1256, "step": 18770 }, { "epoch": 50.08, "grad_norm": 0.2608025074005127, "learning_rate": 2.7733333333333334e-05, "loss": 0.1077, "step": 18780 }, { "epoch": 50.10666666666667, "grad_norm": 0.47813212871551514, "learning_rate": 2.771851851851852e-05, "loss": 0.0848, "step": 18790 }, { "epoch": 50.13333333333333, "grad_norm": 0.6277278065681458, "learning_rate": 2.7703703703703706e-05, "loss": 0.0951, "step": 18800 }, { "epoch": 50.16, "grad_norm": 0.6985889077186584, "learning_rate": 2.7688888888888893e-05, "loss": 0.092, "step": 18810 }, { "epoch": 50.18666666666667, "grad_norm": 0.7696321606636047, "learning_rate": 2.7674074074074074e-05, "loss": 0.0999, "step": 18820 }, { "epoch": 50.21333333333333, "grad_norm": 0.7499311566352844, "learning_rate": 2.765925925925926e-05, "loss": 0.1101, "step": 18830 }, { "epoch": 50.24, "grad_norm": 1.2586036920547485, "learning_rate": 2.7644444444444445e-05, "loss": 0.1202, "step": 18840 }, { "epoch": 50.266666666666666, "grad_norm": 0.7985758781433105, "learning_rate": 2.7629629629629632e-05, "loss": 0.1078, "step": 18850 }, { "epoch": 50.29333333333334, "grad_norm": 0.9623746275901794, "learning_rate": 2.7614814814814816e-05, "loss": 0.1138, "step": 18860 }, { "epoch": 50.32, "grad_norm": 1.2047063112258911, "learning_rate": 2.7600000000000003e-05, "loss": 0.1172, "step": 18870 }, { "epoch": 50.346666666666664, "grad_norm": 0.7687171697616577, "learning_rate": 2.7585185185185187e-05, "loss": 0.1307, "step": 18880 }, { "epoch": 50.373333333333335, "grad_norm": 0.8604133129119873, "learning_rate": 2.7570370370370375e-05, "loss": 0.115, "step": 18890 }, { "epoch": 50.4, "grad_norm": 0.5652578473091125, "learning_rate": 2.7555555555555555e-05, "loss": 0.0991, "step": 18900 }, { "epoch": 50.42666666666667, "grad_norm": 0.8642829060554504, "learning_rate": 2.7540740740740746e-05, "loss": 0.1086, "step": 18910 }, { "epoch": 50.45333333333333, "grad_norm": 0.6288286447525024, "learning_rate": 2.7525925925925927e-05, "loss": 0.1013, "step": 18920 }, { "epoch": 50.48, "grad_norm": 0.5690379738807678, "learning_rate": 2.751111111111111e-05, "loss": 0.1047, "step": 18930 }, { "epoch": 50.50666666666667, "grad_norm": 0.6165653467178345, "learning_rate": 2.7496296296296298e-05, "loss": 0.1103, "step": 18940 }, { "epoch": 50.53333333333333, "grad_norm": 0.6078413724899292, "learning_rate": 2.7481481481481482e-05, "loss": 0.1044, "step": 18950 }, { "epoch": 50.56, "grad_norm": 0.5568577647209167, "learning_rate": 2.746666666666667e-05, "loss": 0.112, "step": 18960 }, { "epoch": 50.586666666666666, "grad_norm": 0.533805787563324, "learning_rate": 2.745185185185185e-05, "loss": 0.1287, "step": 18970 }, { "epoch": 50.61333333333333, "grad_norm": 0.5819263458251953, "learning_rate": 2.743703703703704e-05, "loss": 0.1097, "step": 18980 }, { "epoch": 50.64, "grad_norm": 0.7459146976470947, "learning_rate": 2.742222222222222e-05, "loss": 0.1032, "step": 18990 }, { "epoch": 50.666666666666664, "grad_norm": 1.0337797403335571, "learning_rate": 2.7407407407407408e-05, "loss": 0.118, "step": 19000 }, { "epoch": 50.693333333333335, "grad_norm": 0.33238255977630615, "learning_rate": 2.7392592592592592e-05, "loss": 0.1424, "step": 19010 }, { "epoch": 50.72, "grad_norm": 0.7003692388534546, "learning_rate": 2.737777777777778e-05, "loss": 0.1249, "step": 19020 }, { "epoch": 50.74666666666667, "grad_norm": 0.3677314519882202, "learning_rate": 2.7362962962962963e-05, "loss": 0.1272, "step": 19030 }, { "epoch": 50.77333333333333, "grad_norm": 0.7883759140968323, "learning_rate": 2.734814814814815e-05, "loss": 0.109, "step": 19040 }, { "epoch": 50.8, "grad_norm": 0.5291357636451721, "learning_rate": 2.733333333333333e-05, "loss": 0.1179, "step": 19050 }, { "epoch": 50.82666666666667, "grad_norm": 0.6483950614929199, "learning_rate": 2.7318518518518522e-05, "loss": 0.1104, "step": 19060 }, { "epoch": 50.85333333333333, "grad_norm": 0.611803412437439, "learning_rate": 2.7303703703703703e-05, "loss": 0.1245, "step": 19070 }, { "epoch": 50.88, "grad_norm": 0.5900137424468994, "learning_rate": 2.728888888888889e-05, "loss": 0.127, "step": 19080 }, { "epoch": 50.906666666666666, "grad_norm": 0.4367186427116394, "learning_rate": 2.7274074074074074e-05, "loss": 0.1171, "step": 19090 }, { "epoch": 50.93333333333333, "grad_norm": 0.538131058216095, "learning_rate": 2.725925925925926e-05, "loss": 0.1203, "step": 19100 }, { "epoch": 50.96, "grad_norm": 0.5565964579582214, "learning_rate": 2.7244444444444445e-05, "loss": 0.1141, "step": 19110 }, { "epoch": 50.986666666666665, "grad_norm": 0.6284306049346924, "learning_rate": 2.7229629629629633e-05, "loss": 0.1249, "step": 19120 }, { "epoch": 51.0, "eval_accuracy": 0.90525, "eval_loss": 0.34239399433135986, "eval_runtime": 252.2077, "eval_samples_per_second": 47.58, "eval_steps_per_second": 1.487, "step": 19125 }, { "epoch": 51.013333333333335, "grad_norm": 1.2406744956970215, "learning_rate": 2.7214814814814817e-05, "loss": 0.1179, "step": 19130 }, { "epoch": 51.04, "grad_norm": 1.0814391374588013, "learning_rate": 2.7200000000000004e-05, "loss": 0.105, "step": 19140 }, { "epoch": 51.06666666666667, "grad_norm": 0.4586455821990967, "learning_rate": 2.7185185185185184e-05, "loss": 0.1086, "step": 19150 }, { "epoch": 51.093333333333334, "grad_norm": 0.6702836751937866, "learning_rate": 2.7170370370370375e-05, "loss": 0.0884, "step": 19160 }, { "epoch": 51.12, "grad_norm": 0.6787272691726685, "learning_rate": 2.7155555555555556e-05, "loss": 0.107, "step": 19170 }, { "epoch": 51.14666666666667, "grad_norm": 0.642193615436554, "learning_rate": 2.7140740740740743e-05, "loss": 0.0812, "step": 19180 }, { "epoch": 51.17333333333333, "grad_norm": 0.8027759790420532, "learning_rate": 2.7125925925925927e-05, "loss": 0.1075, "step": 19190 }, { "epoch": 51.2, "grad_norm": 0.6455164551734924, "learning_rate": 2.7111111111111114e-05, "loss": 0.1246, "step": 19200 }, { "epoch": 51.22666666666667, "grad_norm": 0.7553550601005554, "learning_rate": 2.7096296296296298e-05, "loss": 0.1115, "step": 19210 }, { "epoch": 51.25333333333333, "grad_norm": 0.413303941488266, "learning_rate": 2.7081481481481486e-05, "loss": 0.1072, "step": 19220 }, { "epoch": 51.28, "grad_norm": 0.5619508624076843, "learning_rate": 2.706666666666667e-05, "loss": 0.1028, "step": 19230 }, { "epoch": 51.306666666666665, "grad_norm": 0.9154611229896545, "learning_rate": 2.705185185185185e-05, "loss": 0.1167, "step": 19240 }, { "epoch": 51.333333333333336, "grad_norm": 0.9925470352172852, "learning_rate": 2.7037037037037037e-05, "loss": 0.0831, "step": 19250 }, { "epoch": 51.36, "grad_norm": 0.7799338102340698, "learning_rate": 2.702222222222222e-05, "loss": 0.1061, "step": 19260 }, { "epoch": 51.38666666666666, "grad_norm": 0.7379835844039917, "learning_rate": 2.700740740740741e-05, "loss": 0.1054, "step": 19270 }, { "epoch": 51.413333333333334, "grad_norm": 1.0529745817184448, "learning_rate": 2.6992592592592593e-05, "loss": 0.1063, "step": 19280 }, { "epoch": 51.44, "grad_norm": 0.9061985015869141, "learning_rate": 2.697777777777778e-05, "loss": 0.1073, "step": 19290 }, { "epoch": 51.46666666666667, "grad_norm": 0.39818140864372253, "learning_rate": 2.696296296296296e-05, "loss": 0.0845, "step": 19300 }, { "epoch": 51.49333333333333, "grad_norm": 0.6215844750404358, "learning_rate": 2.694814814814815e-05, "loss": 0.1085, "step": 19310 }, { "epoch": 51.52, "grad_norm": 0.7406467199325562, "learning_rate": 2.6933333333333332e-05, "loss": 0.1052, "step": 19320 }, { "epoch": 51.54666666666667, "grad_norm": 1.1003071069717407, "learning_rate": 2.691851851851852e-05, "loss": 0.114, "step": 19330 }, { "epoch": 51.57333333333333, "grad_norm": 0.7772546410560608, "learning_rate": 2.6903703703703703e-05, "loss": 0.12, "step": 19340 }, { "epoch": 51.6, "grad_norm": 0.5900471210479736, "learning_rate": 2.688888888888889e-05, "loss": 0.1103, "step": 19350 }, { "epoch": 51.626666666666665, "grad_norm": 0.4610118269920349, "learning_rate": 2.6874074074074074e-05, "loss": 0.0976, "step": 19360 }, { "epoch": 51.653333333333336, "grad_norm": 0.7819445133209229, "learning_rate": 2.6859259259259262e-05, "loss": 0.1261, "step": 19370 }, { "epoch": 51.68, "grad_norm": 0.34965381026268005, "learning_rate": 2.6844444444444446e-05, "loss": 0.1075, "step": 19380 }, { "epoch": 51.70666666666666, "grad_norm": 0.46014639735221863, "learning_rate": 2.6829629629629633e-05, "loss": 0.0917, "step": 19390 }, { "epoch": 51.733333333333334, "grad_norm": 1.039361834526062, "learning_rate": 2.6814814814814814e-05, "loss": 0.1075, "step": 19400 }, { "epoch": 51.76, "grad_norm": 1.3970975875854492, "learning_rate": 2.6800000000000004e-05, "loss": 0.1345, "step": 19410 }, { "epoch": 51.78666666666667, "grad_norm": 0.7886126041412354, "learning_rate": 2.6785185185185185e-05, "loss": 0.1063, "step": 19420 }, { "epoch": 51.81333333333333, "grad_norm": 1.1258819103240967, "learning_rate": 2.6770370370370372e-05, "loss": 0.1116, "step": 19430 }, { "epoch": 51.84, "grad_norm": 0.7099321484565735, "learning_rate": 2.6755555555555556e-05, "loss": 0.1226, "step": 19440 }, { "epoch": 51.86666666666667, "grad_norm": 1.0013525485992432, "learning_rate": 2.6740740740740743e-05, "loss": 0.1155, "step": 19450 }, { "epoch": 51.89333333333333, "grad_norm": 0.6939754486083984, "learning_rate": 2.6725925925925927e-05, "loss": 0.1031, "step": 19460 }, { "epoch": 51.92, "grad_norm": 0.8334268927574158, "learning_rate": 2.6711111111111115e-05, "loss": 0.1038, "step": 19470 }, { "epoch": 51.946666666666665, "grad_norm": 0.4391489028930664, "learning_rate": 2.66962962962963e-05, "loss": 0.0995, "step": 19480 }, { "epoch": 51.973333333333336, "grad_norm": 0.42255011200904846, "learning_rate": 2.6681481481481486e-05, "loss": 0.144, "step": 19490 }, { "epoch": 52.0, "grad_norm": 1.1266640424728394, "learning_rate": 2.6666666666666667e-05, "loss": 0.1409, "step": 19500 }, { "epoch": 52.0, "eval_accuracy": 0.9028333333333334, "eval_loss": 0.34650227427482605, "eval_runtime": 252.8891, "eval_samples_per_second": 47.452, "eval_steps_per_second": 1.483, "step": 19500 }, { "epoch": 52.026666666666664, "grad_norm": 0.5483550429344177, "learning_rate": 2.6651851851851857e-05, "loss": 0.0969, "step": 19510 }, { "epoch": 52.053333333333335, "grad_norm": 1.0991977453231812, "learning_rate": 2.6637037037037038e-05, "loss": 0.0967, "step": 19520 }, { "epoch": 52.08, "grad_norm": 0.9379845261573792, "learning_rate": 2.6622222222222225e-05, "loss": 0.1074, "step": 19530 }, { "epoch": 52.10666666666667, "grad_norm": 0.8575564026832581, "learning_rate": 2.660740740740741e-05, "loss": 0.0959, "step": 19540 }, { "epoch": 52.13333333333333, "grad_norm": 0.5938505530357361, "learning_rate": 2.659259259259259e-05, "loss": 0.1003, "step": 19550 }, { "epoch": 52.16, "grad_norm": 1.1276493072509766, "learning_rate": 2.657777777777778e-05, "loss": 0.1133, "step": 19560 }, { "epoch": 52.18666666666667, "grad_norm": 0.9531975388526917, "learning_rate": 2.656296296296296e-05, "loss": 0.1117, "step": 19570 }, { "epoch": 52.21333333333333, "grad_norm": 0.6895321607589722, "learning_rate": 2.654814814814815e-05, "loss": 0.1003, "step": 19580 }, { "epoch": 52.24, "grad_norm": 0.6923683285713196, "learning_rate": 2.6533333333333332e-05, "loss": 0.1107, "step": 19590 }, { "epoch": 52.266666666666666, "grad_norm": 0.528456449508667, "learning_rate": 2.651851851851852e-05, "loss": 0.1122, "step": 19600 }, { "epoch": 52.29333333333334, "grad_norm": 0.928973913192749, "learning_rate": 2.6503703703703704e-05, "loss": 0.1075, "step": 19610 }, { "epoch": 52.32, "grad_norm": 1.0252000093460083, "learning_rate": 2.648888888888889e-05, "loss": 0.0995, "step": 19620 }, { "epoch": 52.346666666666664, "grad_norm": 0.5680385231971741, "learning_rate": 2.6474074074074075e-05, "loss": 0.1277, "step": 19630 }, { "epoch": 52.373333333333335, "grad_norm": 0.8542535305023193, "learning_rate": 2.6459259259259262e-05, "loss": 0.1338, "step": 19640 }, { "epoch": 52.4, "grad_norm": 0.9812256097793579, "learning_rate": 2.6444444444444443e-05, "loss": 0.1118, "step": 19650 }, { "epoch": 52.42666666666667, "grad_norm": 0.6184626817703247, "learning_rate": 2.6429629629629633e-05, "loss": 0.1159, "step": 19660 }, { "epoch": 52.45333333333333, "grad_norm": 0.48384109139442444, "learning_rate": 2.6414814814814814e-05, "loss": 0.1114, "step": 19670 }, { "epoch": 52.48, "grad_norm": 1.1777026653289795, "learning_rate": 2.64e-05, "loss": 0.1325, "step": 19680 }, { "epoch": 52.50666666666667, "grad_norm": 0.52642422914505, "learning_rate": 2.6385185185185185e-05, "loss": 0.1057, "step": 19690 }, { "epoch": 52.53333333333333, "grad_norm": 0.5037238001823425, "learning_rate": 2.6370370370370373e-05, "loss": 0.0968, "step": 19700 }, { "epoch": 52.56, "grad_norm": 0.6868501901626587, "learning_rate": 2.6355555555555557e-05, "loss": 0.1047, "step": 19710 }, { "epoch": 52.586666666666666, "grad_norm": 0.7349966168403625, "learning_rate": 2.6340740740740744e-05, "loss": 0.0965, "step": 19720 }, { "epoch": 52.61333333333333, "grad_norm": 1.68825364112854, "learning_rate": 2.6325925925925924e-05, "loss": 0.1074, "step": 19730 }, { "epoch": 52.64, "grad_norm": 0.6620669960975647, "learning_rate": 2.6311111111111115e-05, "loss": 0.1171, "step": 19740 }, { "epoch": 52.666666666666664, "grad_norm": 0.8925554156303406, "learning_rate": 2.6296296296296296e-05, "loss": 0.1256, "step": 19750 }, { "epoch": 52.693333333333335, "grad_norm": 0.8769292831420898, "learning_rate": 2.6281481481481483e-05, "loss": 0.1198, "step": 19760 }, { "epoch": 52.72, "grad_norm": 0.4674606919288635, "learning_rate": 2.6266666666666667e-05, "loss": 0.0888, "step": 19770 }, { "epoch": 52.74666666666667, "grad_norm": 1.0681183338165283, "learning_rate": 2.6251851851851854e-05, "loss": 0.1151, "step": 19780 }, { "epoch": 52.77333333333333, "grad_norm": 0.5794731378555298, "learning_rate": 2.623703703703704e-05, "loss": 0.0967, "step": 19790 }, { "epoch": 52.8, "grad_norm": 0.6610031723976135, "learning_rate": 2.6222222222222226e-05, "loss": 0.141, "step": 19800 }, { "epoch": 52.82666666666667, "grad_norm": 1.003202199935913, "learning_rate": 2.620740740740741e-05, "loss": 0.1173, "step": 19810 }, { "epoch": 52.85333333333333, "grad_norm": 0.5001841187477112, "learning_rate": 2.6192592592592597e-05, "loss": 0.1005, "step": 19820 }, { "epoch": 52.88, "grad_norm": 0.706732451915741, "learning_rate": 2.6177777777777777e-05, "loss": 0.1149, "step": 19830 }, { "epoch": 52.906666666666666, "grad_norm": 0.7133508324623108, "learning_rate": 2.6162962962962968e-05, "loss": 0.0949, "step": 19840 }, { "epoch": 52.93333333333333, "grad_norm": 0.8902855515480042, "learning_rate": 2.614814814814815e-05, "loss": 0.1344, "step": 19850 }, { "epoch": 52.96, "grad_norm": 0.6898523569107056, "learning_rate": 2.6133333333333333e-05, "loss": 0.1199, "step": 19860 }, { "epoch": 52.986666666666665, "grad_norm": 0.9370724558830261, "learning_rate": 2.611851851851852e-05, "loss": 0.0906, "step": 19870 }, { "epoch": 53.0, "eval_accuracy": 0.9040833333333333, "eval_loss": 0.3507191836833954, "eval_runtime": 251.3993, "eval_samples_per_second": 47.733, "eval_steps_per_second": 1.492, "step": 19875 }, { "epoch": 53.013333333333335, "grad_norm": 0.6654468178749084, "learning_rate": 2.6103703703703704e-05, "loss": 0.1057, "step": 19880 }, { "epoch": 53.04, "grad_norm": 0.7314413189888, "learning_rate": 2.608888888888889e-05, "loss": 0.1276, "step": 19890 }, { "epoch": 53.06666666666667, "grad_norm": 1.121352195739746, "learning_rate": 2.6074074074074072e-05, "loss": 0.1237, "step": 19900 }, { "epoch": 53.093333333333334, "grad_norm": 0.6047077775001526, "learning_rate": 2.6059259259259263e-05, "loss": 0.1083, "step": 19910 }, { "epoch": 53.12, "grad_norm": 0.7145724296569824, "learning_rate": 2.6044444444444443e-05, "loss": 0.1382, "step": 19920 }, { "epoch": 53.14666666666667, "grad_norm": 0.6806608438491821, "learning_rate": 2.602962962962963e-05, "loss": 0.1135, "step": 19930 }, { "epoch": 53.17333333333333, "grad_norm": 1.2009620666503906, "learning_rate": 2.6014814814814814e-05, "loss": 0.1385, "step": 19940 }, { "epoch": 53.2, "grad_norm": 0.5773588418960571, "learning_rate": 2.6000000000000002e-05, "loss": 0.0932, "step": 19950 }, { "epoch": 53.22666666666667, "grad_norm": 0.661574125289917, "learning_rate": 2.5985185185185186e-05, "loss": 0.1207, "step": 19960 }, { "epoch": 53.25333333333333, "grad_norm": 0.734674334526062, "learning_rate": 2.5970370370370373e-05, "loss": 0.0981, "step": 19970 }, { "epoch": 53.28, "grad_norm": 0.7607903480529785, "learning_rate": 2.5955555555555554e-05, "loss": 0.0946, "step": 19980 }, { "epoch": 53.306666666666665, "grad_norm": 1.0973612070083618, "learning_rate": 2.5940740740740744e-05, "loss": 0.1232, "step": 19990 }, { "epoch": 53.333333333333336, "grad_norm": 0.4742031693458557, "learning_rate": 2.5925925925925925e-05, "loss": 0.1219, "step": 20000 }, { "epoch": 53.36, "grad_norm": 0.7020147442817688, "learning_rate": 2.5911111111111112e-05, "loss": 0.0946, "step": 20010 }, { "epoch": 53.38666666666666, "grad_norm": 0.852869987487793, "learning_rate": 2.5896296296296296e-05, "loss": 0.101, "step": 20020 }, { "epoch": 53.413333333333334, "grad_norm": 0.7520203590393066, "learning_rate": 2.5881481481481484e-05, "loss": 0.1224, "step": 20030 }, { "epoch": 53.44, "grad_norm": 0.5920900106430054, "learning_rate": 2.5866666666666667e-05, "loss": 0.1082, "step": 20040 }, { "epoch": 53.46666666666667, "grad_norm": 0.8343285918235779, "learning_rate": 2.5851851851851855e-05, "loss": 0.0963, "step": 20050 }, { "epoch": 53.49333333333333, "grad_norm": 0.7654612064361572, "learning_rate": 2.583703703703704e-05, "loss": 0.1089, "step": 20060 }, { "epoch": 53.52, "grad_norm": 0.9402092099189758, "learning_rate": 2.5822222222222226e-05, "loss": 0.1154, "step": 20070 }, { "epoch": 53.54666666666667, "grad_norm": 0.8136700391769409, "learning_rate": 2.5807407407407407e-05, "loss": 0.1232, "step": 20080 }, { "epoch": 53.57333333333333, "grad_norm": 0.5199759602546692, "learning_rate": 2.5792592592592597e-05, "loss": 0.1104, "step": 20090 }, { "epoch": 53.6, "grad_norm": 1.010179042816162, "learning_rate": 2.5777777777777778e-05, "loss": 0.0938, "step": 20100 }, { "epoch": 53.626666666666665, "grad_norm": 0.4636317193508148, "learning_rate": 2.5762962962962965e-05, "loss": 0.1168, "step": 20110 }, { "epoch": 53.653333333333336, "grad_norm": 2.01253342628479, "learning_rate": 2.574814814814815e-05, "loss": 0.1207, "step": 20120 }, { "epoch": 53.68, "grad_norm": 0.681442141532898, "learning_rate": 2.5733333333333337e-05, "loss": 0.1087, "step": 20130 }, { "epoch": 53.70666666666666, "grad_norm": 0.6114698648452759, "learning_rate": 2.571851851851852e-05, "loss": 0.1145, "step": 20140 }, { "epoch": 53.733333333333334, "grad_norm": 1.143951177597046, "learning_rate": 2.5703703703703708e-05, "loss": 0.1181, "step": 20150 }, { "epoch": 53.76, "grad_norm": 0.8228276371955872, "learning_rate": 2.5688888888888892e-05, "loss": 0.1024, "step": 20160 }, { "epoch": 53.78666666666667, "grad_norm": 0.6687818169593811, "learning_rate": 2.5674074074074072e-05, "loss": 0.0995, "step": 20170 }, { "epoch": 53.81333333333333, "grad_norm": 0.5723560452461243, "learning_rate": 2.565925925925926e-05, "loss": 0.11, "step": 20180 }, { "epoch": 53.84, "grad_norm": 0.8131089210510254, "learning_rate": 2.5644444444444444e-05, "loss": 0.1186, "step": 20190 }, { "epoch": 53.86666666666667, "grad_norm": 0.9216879606246948, "learning_rate": 2.562962962962963e-05, "loss": 0.1063, "step": 20200 }, { "epoch": 53.89333333333333, "grad_norm": 0.8571296334266663, "learning_rate": 2.5614814814814815e-05, "loss": 0.1177, "step": 20210 }, { "epoch": 53.92, "grad_norm": 0.5185639262199402, "learning_rate": 2.5600000000000002e-05, "loss": 0.089, "step": 20220 }, { "epoch": 53.946666666666665, "grad_norm": 1.7001179456710815, "learning_rate": 2.5585185185185183e-05, "loss": 0.1163, "step": 20230 }, { "epoch": 53.973333333333336, "grad_norm": 0.9040560722351074, "learning_rate": 2.5570370370370374e-05, "loss": 0.1038, "step": 20240 }, { "epoch": 54.0, "grad_norm": 0.9965651035308838, "learning_rate": 2.5555555555555554e-05, "loss": 0.1137, "step": 20250 }, { "epoch": 54.0, "eval_accuracy": 0.90225, "eval_loss": 0.3423898220062256, "eval_runtime": 252.2075, "eval_samples_per_second": 47.58, "eval_steps_per_second": 1.487, "step": 20250 }, { "epoch": 54.026666666666664, "grad_norm": 1.1846202611923218, "learning_rate": 2.554074074074074e-05, "loss": 0.138, "step": 20260 }, { "epoch": 54.053333333333335, "grad_norm": 0.7119896411895752, "learning_rate": 2.5525925925925925e-05, "loss": 0.1104, "step": 20270 }, { "epoch": 54.08, "grad_norm": 0.7142273187637329, "learning_rate": 2.5511111111111113e-05, "loss": 0.0775, "step": 20280 }, { "epoch": 54.10666666666667, "grad_norm": 0.4612995684146881, "learning_rate": 2.5496296296296297e-05, "loss": 0.108, "step": 20290 }, { "epoch": 54.13333333333333, "grad_norm": 0.6033573746681213, "learning_rate": 2.5481481481481484e-05, "loss": 0.1197, "step": 20300 }, { "epoch": 54.16, "grad_norm": 0.6175103187561035, "learning_rate": 2.5466666666666668e-05, "loss": 0.0999, "step": 20310 }, { "epoch": 54.18666666666667, "grad_norm": 0.6694178581237793, "learning_rate": 2.5451851851851855e-05, "loss": 0.1344, "step": 20320 }, { "epoch": 54.21333333333333, "grad_norm": 0.47251537442207336, "learning_rate": 2.5437037037037036e-05, "loss": 0.1198, "step": 20330 }, { "epoch": 54.24, "grad_norm": 0.76850825548172, "learning_rate": 2.5422222222222227e-05, "loss": 0.1274, "step": 20340 }, { "epoch": 54.266666666666666, "grad_norm": 1.2185297012329102, "learning_rate": 2.5407407407407407e-05, "loss": 0.1126, "step": 20350 }, { "epoch": 54.29333333333334, "grad_norm": 0.7711465358734131, "learning_rate": 2.5392592592592594e-05, "loss": 0.1003, "step": 20360 }, { "epoch": 54.32, "grad_norm": 0.5719056129455566, "learning_rate": 2.537777777777778e-05, "loss": 0.1031, "step": 20370 }, { "epoch": 54.346666666666664, "grad_norm": 0.6603631973266602, "learning_rate": 2.5362962962962966e-05, "loss": 0.1084, "step": 20380 }, { "epoch": 54.373333333333335, "grad_norm": 0.4617520570755005, "learning_rate": 2.534814814814815e-05, "loss": 0.0954, "step": 20390 }, { "epoch": 54.4, "grad_norm": 0.8691810369491577, "learning_rate": 2.5333333333333337e-05, "loss": 0.1071, "step": 20400 }, { "epoch": 54.42666666666667, "grad_norm": 0.7390445470809937, "learning_rate": 2.5318518518518518e-05, "loss": 0.1265, "step": 20410 }, { "epoch": 54.45333333333333, "grad_norm": 0.3044273555278778, "learning_rate": 2.5303703703703708e-05, "loss": 0.0977, "step": 20420 }, { "epoch": 54.48, "grad_norm": 0.6567471623420715, "learning_rate": 2.528888888888889e-05, "loss": 0.1105, "step": 20430 }, { "epoch": 54.50666666666667, "grad_norm": 0.4924421012401581, "learning_rate": 2.5274074074074076e-05, "loss": 0.1235, "step": 20440 }, { "epoch": 54.53333333333333, "grad_norm": 1.1057689189910889, "learning_rate": 2.525925925925926e-05, "loss": 0.1104, "step": 20450 }, { "epoch": 54.56, "grad_norm": 0.47551071643829346, "learning_rate": 2.5244444444444447e-05, "loss": 0.1109, "step": 20460 }, { "epoch": 54.586666666666666, "grad_norm": 0.5585640668869019, "learning_rate": 2.522962962962963e-05, "loss": 0.0955, "step": 20470 }, { "epoch": 54.61333333333333, "grad_norm": 0.5886541604995728, "learning_rate": 2.5214814814814812e-05, "loss": 0.1018, "step": 20480 }, { "epoch": 54.64, "grad_norm": 0.8945900797843933, "learning_rate": 2.5200000000000003e-05, "loss": 0.1234, "step": 20490 }, { "epoch": 54.666666666666664, "grad_norm": 0.6299301981925964, "learning_rate": 2.5185185185185183e-05, "loss": 0.1002, "step": 20500 }, { "epoch": 54.693333333333335, "grad_norm": 0.8101232647895813, "learning_rate": 2.517037037037037e-05, "loss": 0.0961, "step": 20510 }, { "epoch": 54.72, "grad_norm": 0.8895696401596069, "learning_rate": 2.5155555555555555e-05, "loss": 0.1002, "step": 20520 }, { "epoch": 54.74666666666667, "grad_norm": 0.8636345863342285, "learning_rate": 2.5140740740740742e-05, "loss": 0.1152, "step": 20530 }, { "epoch": 54.77333333333333, "grad_norm": 0.6430239081382751, "learning_rate": 2.5125925925925926e-05, "loss": 0.0845, "step": 20540 }, { "epoch": 54.8, "grad_norm": 0.5371702909469604, "learning_rate": 2.5111111111111113e-05, "loss": 0.1324, "step": 20550 }, { "epoch": 54.82666666666667, "grad_norm": 0.5197726488113403, "learning_rate": 2.5096296296296297e-05, "loss": 0.1193, "step": 20560 }, { "epoch": 54.85333333333333, "grad_norm": 0.5994065999984741, "learning_rate": 2.5081481481481484e-05, "loss": 0.1087, "step": 20570 }, { "epoch": 54.88, "grad_norm": 0.4849262535572052, "learning_rate": 2.5066666666666665e-05, "loss": 0.1053, "step": 20580 }, { "epoch": 54.906666666666666, "grad_norm": 0.6818738579750061, "learning_rate": 2.5051851851851856e-05, "loss": 0.1273, "step": 20590 }, { "epoch": 54.93333333333333, "grad_norm": 0.5953255295753479, "learning_rate": 2.5037037037037036e-05, "loss": 0.115, "step": 20600 }, { "epoch": 54.96, "grad_norm": 0.9372193813323975, "learning_rate": 2.5022222222222224e-05, "loss": 0.1112, "step": 20610 }, { "epoch": 54.986666666666665, "grad_norm": 0.4269486665725708, "learning_rate": 2.5007407407407408e-05, "loss": 0.0957, "step": 20620 }, { "epoch": 55.0, "eval_accuracy": 0.9009166666666667, "eval_loss": 0.3625262975692749, "eval_runtime": 253.0709, "eval_samples_per_second": 47.418, "eval_steps_per_second": 1.482, "step": 20625 }, { "epoch": 55.013333333333335, "grad_norm": 0.9814882874488831, "learning_rate": 2.499259259259259e-05, "loss": 0.1226, "step": 20630 }, { "epoch": 55.04, "grad_norm": 0.36696818470954895, "learning_rate": 2.497777777777778e-05, "loss": 0.0846, "step": 20640 }, { "epoch": 55.06666666666667, "grad_norm": 0.815235435962677, "learning_rate": 2.4962962962962963e-05, "loss": 0.1105, "step": 20650 }, { "epoch": 55.093333333333334, "grad_norm": 0.5760468244552612, "learning_rate": 2.4948148148148147e-05, "loss": 0.1199, "step": 20660 }, { "epoch": 55.12, "grad_norm": 0.7937754988670349, "learning_rate": 2.4933333333333334e-05, "loss": 0.1013, "step": 20670 }, { "epoch": 55.14666666666667, "grad_norm": 0.7340512871742249, "learning_rate": 2.4918518518518518e-05, "loss": 0.1064, "step": 20680 }, { "epoch": 55.17333333333333, "grad_norm": 1.0124377012252808, "learning_rate": 2.4903703703703705e-05, "loss": 0.1315, "step": 20690 }, { "epoch": 55.2, "grad_norm": 0.5560145378112793, "learning_rate": 2.488888888888889e-05, "loss": 0.0997, "step": 20700 }, { "epoch": 55.22666666666667, "grad_norm": 0.544284462928772, "learning_rate": 2.4874074074074073e-05, "loss": 0.0933, "step": 20710 }, { "epoch": 55.25333333333333, "grad_norm": 0.7541294693946838, "learning_rate": 2.485925925925926e-05, "loss": 0.1093, "step": 20720 }, { "epoch": 55.28, "grad_norm": 0.6316329836845398, "learning_rate": 2.4844444444444444e-05, "loss": 0.1007, "step": 20730 }, { "epoch": 55.306666666666665, "grad_norm": 0.7037729024887085, "learning_rate": 2.4829629629629632e-05, "loss": 0.1125, "step": 20740 }, { "epoch": 55.333333333333336, "grad_norm": 0.6622397303581238, "learning_rate": 2.4814814814814816e-05, "loss": 0.1021, "step": 20750 }, { "epoch": 55.36, "grad_norm": 0.5579321384429932, "learning_rate": 2.48e-05, "loss": 0.0864, "step": 20760 }, { "epoch": 55.38666666666666, "grad_norm": 0.5158767104148865, "learning_rate": 2.4785185185185187e-05, "loss": 0.1159, "step": 20770 }, { "epoch": 55.413333333333334, "grad_norm": 1.2095023393630981, "learning_rate": 2.477037037037037e-05, "loss": 0.1125, "step": 20780 }, { "epoch": 55.44, "grad_norm": 0.7903284430503845, "learning_rate": 2.475555555555556e-05, "loss": 0.0962, "step": 20790 }, { "epoch": 55.46666666666667, "grad_norm": 0.45998406410217285, "learning_rate": 2.4740740740740742e-05, "loss": 0.1053, "step": 20800 }, { "epoch": 55.49333333333333, "grad_norm": 0.6135699152946472, "learning_rate": 2.4725925925925926e-05, "loss": 0.1246, "step": 20810 }, { "epoch": 55.52, "grad_norm": 0.8106532096862793, "learning_rate": 2.4711111111111114e-05, "loss": 0.0947, "step": 20820 }, { "epoch": 55.54666666666667, "grad_norm": 0.38377055525779724, "learning_rate": 2.4696296296296298e-05, "loss": 0.1182, "step": 20830 }, { "epoch": 55.57333333333333, "grad_norm": 0.7477769255638123, "learning_rate": 2.4681481481481485e-05, "loss": 0.1061, "step": 20840 }, { "epoch": 55.6, "grad_norm": 0.7652304172515869, "learning_rate": 2.466666666666667e-05, "loss": 0.0896, "step": 20850 }, { "epoch": 55.626666666666665, "grad_norm": 0.6366835832595825, "learning_rate": 2.4651851851851853e-05, "loss": 0.1104, "step": 20860 }, { "epoch": 55.653333333333336, "grad_norm": 0.6330248713493347, "learning_rate": 2.463703703703704e-05, "loss": 0.1211, "step": 20870 }, { "epoch": 55.68, "grad_norm": 0.7449114322662354, "learning_rate": 2.4622222222222224e-05, "loss": 0.1185, "step": 20880 }, { "epoch": 55.70666666666666, "grad_norm": 1.0321539640426636, "learning_rate": 2.4607407407407408e-05, "loss": 0.1119, "step": 20890 }, { "epoch": 55.733333333333334, "grad_norm": 0.5899551510810852, "learning_rate": 2.4592592592592595e-05, "loss": 0.1192, "step": 20900 }, { "epoch": 55.76, "grad_norm": 1.1250054836273193, "learning_rate": 2.457777777777778e-05, "loss": 0.1096, "step": 20910 }, { "epoch": 55.78666666666667, "grad_norm": 1.1822185516357422, "learning_rate": 2.4562962962962967e-05, "loss": 0.1117, "step": 20920 }, { "epoch": 55.81333333333333, "grad_norm": 0.3752869665622711, "learning_rate": 2.454814814814815e-05, "loss": 0.0921, "step": 20930 }, { "epoch": 55.84, "grad_norm": 0.7649368643760681, "learning_rate": 2.4533333333333334e-05, "loss": 0.0851, "step": 20940 }, { "epoch": 55.86666666666667, "grad_norm": 0.756144642829895, "learning_rate": 2.451851851851852e-05, "loss": 0.0889, "step": 20950 }, { "epoch": 55.89333333333333, "grad_norm": 1.4061423540115356, "learning_rate": 2.4503703703703702e-05, "loss": 0.1115, "step": 20960 }, { "epoch": 55.92, "grad_norm": 0.8722385764122009, "learning_rate": 2.448888888888889e-05, "loss": 0.1218, "step": 20970 }, { "epoch": 55.946666666666665, "grad_norm": 0.8162955045700073, "learning_rate": 2.4474074074074074e-05, "loss": 0.1027, "step": 20980 }, { "epoch": 55.973333333333336, "grad_norm": 0.6883504986763, "learning_rate": 2.445925925925926e-05, "loss": 0.1129, "step": 20990 }, { "epoch": 56.0, "grad_norm": 0.7958362698554993, "learning_rate": 2.4444444444444445e-05, "loss": 0.1015, "step": 21000 }, { "epoch": 56.0, "eval_accuracy": 0.9049166666666667, "eval_loss": 0.373552531003952, "eval_runtime": 251.9389, "eval_samples_per_second": 47.631, "eval_steps_per_second": 1.488, "step": 21000 }, { "epoch": 56.026666666666664, "grad_norm": 0.7372122406959534, "learning_rate": 2.442962962962963e-05, "loss": 0.1046, "step": 21010 }, { "epoch": 56.053333333333335, "grad_norm": 0.5306940078735352, "learning_rate": 2.4414814814814816e-05, "loss": 0.1133, "step": 21020 }, { "epoch": 56.08, "grad_norm": 0.8220292925834656, "learning_rate": 2.44e-05, "loss": 0.1199, "step": 21030 }, { "epoch": 56.10666666666667, "grad_norm": 0.5492140054702759, "learning_rate": 2.4385185185185188e-05, "loss": 0.1011, "step": 21040 }, { "epoch": 56.13333333333333, "grad_norm": 0.6529495716094971, "learning_rate": 2.437037037037037e-05, "loss": 0.1029, "step": 21050 }, { "epoch": 56.16, "grad_norm": 0.766482949256897, "learning_rate": 2.4355555555555555e-05, "loss": 0.1152, "step": 21060 }, { "epoch": 56.18666666666667, "grad_norm": 0.7869422435760498, "learning_rate": 2.4340740740740743e-05, "loss": 0.1142, "step": 21070 }, { "epoch": 56.21333333333333, "grad_norm": 0.8023734092712402, "learning_rate": 2.4325925925925927e-05, "loss": 0.1122, "step": 21080 }, { "epoch": 56.24, "grad_norm": 0.8885458111763, "learning_rate": 2.431111111111111e-05, "loss": 0.1094, "step": 21090 }, { "epoch": 56.266666666666666, "grad_norm": 1.0350416898727417, "learning_rate": 2.4296296296296298e-05, "loss": 0.1091, "step": 21100 }, { "epoch": 56.29333333333334, "grad_norm": 0.9093277454376221, "learning_rate": 2.4281481481481482e-05, "loss": 0.1216, "step": 21110 }, { "epoch": 56.32, "grad_norm": 0.496748149394989, "learning_rate": 2.426666666666667e-05, "loss": 0.1266, "step": 21120 }, { "epoch": 56.346666666666664, "grad_norm": 1.2328885793685913, "learning_rate": 2.4251851851851853e-05, "loss": 0.0956, "step": 21130 }, { "epoch": 56.373333333333335, "grad_norm": 0.6635181307792664, "learning_rate": 2.4237037037037037e-05, "loss": 0.1135, "step": 21140 }, { "epoch": 56.4, "grad_norm": 1.018630862236023, "learning_rate": 2.4222222222222224e-05, "loss": 0.1163, "step": 21150 }, { "epoch": 56.42666666666667, "grad_norm": 0.8815622925758362, "learning_rate": 2.420740740740741e-05, "loss": 0.0887, "step": 21160 }, { "epoch": 56.45333333333333, "grad_norm": 1.0139894485473633, "learning_rate": 2.4192592592592596e-05, "loss": 0.1231, "step": 21170 }, { "epoch": 56.48, "grad_norm": 0.8004248142242432, "learning_rate": 2.417777777777778e-05, "loss": 0.1148, "step": 21180 }, { "epoch": 56.50666666666667, "grad_norm": 0.8550395369529724, "learning_rate": 2.4162962962962964e-05, "loss": 0.1161, "step": 21190 }, { "epoch": 56.53333333333333, "grad_norm": 0.9331701397895813, "learning_rate": 2.414814814814815e-05, "loss": 0.1044, "step": 21200 }, { "epoch": 56.56, "grad_norm": 0.8349881172180176, "learning_rate": 2.4133333333333335e-05, "loss": 0.1045, "step": 21210 }, { "epoch": 56.586666666666666, "grad_norm": 1.2735644578933716, "learning_rate": 2.4118518518518522e-05, "loss": 0.1169, "step": 21220 }, { "epoch": 56.61333333333333, "grad_norm": 0.8714974522590637, "learning_rate": 2.4103703703703706e-05, "loss": 0.1259, "step": 21230 }, { "epoch": 56.64, "grad_norm": 0.5187882781028748, "learning_rate": 2.408888888888889e-05, "loss": 0.0943, "step": 21240 }, { "epoch": 56.666666666666664, "grad_norm": 0.43540939688682556, "learning_rate": 2.4074074074074074e-05, "loss": 0.0985, "step": 21250 }, { "epoch": 56.693333333333335, "grad_norm": 0.4787781536579132, "learning_rate": 2.4059259259259258e-05, "loss": 0.1128, "step": 21260 }, { "epoch": 56.72, "grad_norm": 0.4473596215248108, "learning_rate": 2.4044444444444445e-05, "loss": 0.1012, "step": 21270 }, { "epoch": 56.74666666666667, "grad_norm": 0.32798486948013306, "learning_rate": 2.402962962962963e-05, "loss": 0.1118, "step": 21280 }, { "epoch": 56.77333333333333, "grad_norm": 0.6130265593528748, "learning_rate": 2.4014814814814817e-05, "loss": 0.0988, "step": 21290 }, { "epoch": 56.8, "grad_norm": 0.7345811128616333, "learning_rate": 2.4e-05, "loss": 0.1095, "step": 21300 }, { "epoch": 56.82666666666667, "grad_norm": 0.7747665047645569, "learning_rate": 2.3985185185185185e-05, "loss": 0.1241, "step": 21310 }, { "epoch": 56.85333333333333, "grad_norm": 0.9727655053138733, "learning_rate": 2.3970370370370372e-05, "loss": 0.1149, "step": 21320 }, { "epoch": 56.88, "grad_norm": 1.0749186277389526, "learning_rate": 2.3955555555555556e-05, "loss": 0.1178, "step": 21330 }, { "epoch": 56.906666666666666, "grad_norm": 0.9204607605934143, "learning_rate": 2.394074074074074e-05, "loss": 0.1114, "step": 21340 }, { "epoch": 56.93333333333333, "grad_norm": 0.48743870854377747, "learning_rate": 2.3925925925925927e-05, "loss": 0.1033, "step": 21350 }, { "epoch": 56.96, "grad_norm": 0.4297689199447632, "learning_rate": 2.391111111111111e-05, "loss": 0.0875, "step": 21360 }, { "epoch": 56.986666666666665, "grad_norm": 0.43958503007888794, "learning_rate": 2.38962962962963e-05, "loss": 0.127, "step": 21370 }, { "epoch": 57.0, "eval_accuracy": 0.90825, "eval_loss": 0.33916670083999634, "eval_runtime": 251.1053, "eval_samples_per_second": 47.789, "eval_steps_per_second": 1.493, "step": 21375 }, { "epoch": 57.013333333333335, "grad_norm": 0.8018772602081299, "learning_rate": 2.3881481481481482e-05, "loss": 0.1153, "step": 21380 }, { "epoch": 57.04, "grad_norm": 0.6165487170219421, "learning_rate": 2.3866666666666666e-05, "loss": 0.0808, "step": 21390 }, { "epoch": 57.06666666666667, "grad_norm": 0.4442841410636902, "learning_rate": 2.3851851851851854e-05, "loss": 0.1008, "step": 21400 }, { "epoch": 57.093333333333334, "grad_norm": 0.5491738319396973, "learning_rate": 2.3837037037037038e-05, "loss": 0.1126, "step": 21410 }, { "epoch": 57.12, "grad_norm": 0.7244901657104492, "learning_rate": 2.3822222222222225e-05, "loss": 0.0914, "step": 21420 }, { "epoch": 57.14666666666667, "grad_norm": 0.9319353699684143, "learning_rate": 2.380740740740741e-05, "loss": 0.1071, "step": 21430 }, { "epoch": 57.17333333333333, "grad_norm": 0.7370308041572571, "learning_rate": 2.3792592592592593e-05, "loss": 0.1168, "step": 21440 }, { "epoch": 57.2, "grad_norm": 0.975963830947876, "learning_rate": 2.377777777777778e-05, "loss": 0.121, "step": 21450 }, { "epoch": 57.22666666666667, "grad_norm": 0.6367535591125488, "learning_rate": 2.3762962962962964e-05, "loss": 0.1086, "step": 21460 }, { "epoch": 57.25333333333333, "grad_norm": 1.0800801515579224, "learning_rate": 2.374814814814815e-05, "loss": 0.1012, "step": 21470 }, { "epoch": 57.28, "grad_norm": 0.40590035915374756, "learning_rate": 2.3733333333333335e-05, "loss": 0.0871, "step": 21480 }, { "epoch": 57.306666666666665, "grad_norm": 0.8625735640525818, "learning_rate": 2.371851851851852e-05, "loss": 0.1094, "step": 21490 }, { "epoch": 57.333333333333336, "grad_norm": 0.6254645586013794, "learning_rate": 2.3703703703703707e-05, "loss": 0.1153, "step": 21500 }, { "epoch": 57.36, "grad_norm": 0.6897726655006409, "learning_rate": 2.368888888888889e-05, "loss": 0.106, "step": 21510 }, { "epoch": 57.38666666666666, "grad_norm": 0.4901174008846283, "learning_rate": 2.3674074074074078e-05, "loss": 0.1086, "step": 21520 }, { "epoch": 57.413333333333334, "grad_norm": 0.829415500164032, "learning_rate": 2.3659259259259262e-05, "loss": 0.1254, "step": 21530 }, { "epoch": 57.44, "grad_norm": 0.9125663638114929, "learning_rate": 2.3644444444444446e-05, "loss": 0.1103, "step": 21540 }, { "epoch": 57.46666666666667, "grad_norm": 1.0103572607040405, "learning_rate": 2.3629629629629633e-05, "loss": 0.0958, "step": 21550 }, { "epoch": 57.49333333333333, "grad_norm": 0.4855523407459259, "learning_rate": 2.3614814814814814e-05, "loss": 0.0942, "step": 21560 }, { "epoch": 57.52, "grad_norm": 1.4078803062438965, "learning_rate": 2.36e-05, "loss": 0.1047, "step": 21570 }, { "epoch": 57.54666666666667, "grad_norm": 0.7950993180274963, "learning_rate": 2.3585185185185185e-05, "loss": 0.1213, "step": 21580 }, { "epoch": 57.57333333333333, "grad_norm": 1.0884138345718384, "learning_rate": 2.357037037037037e-05, "loss": 0.0886, "step": 21590 }, { "epoch": 57.6, "grad_norm": 1.912618637084961, "learning_rate": 2.3555555555555556e-05, "loss": 0.1028, "step": 21600 }, { "epoch": 57.626666666666665, "grad_norm": 0.9463043808937073, "learning_rate": 2.354074074074074e-05, "loss": 0.1184, "step": 21610 }, { "epoch": 57.653333333333336, "grad_norm": 0.7650777101516724, "learning_rate": 2.3525925925925928e-05, "loss": 0.1027, "step": 21620 }, { "epoch": 57.68, "grad_norm": 0.761574923992157, "learning_rate": 2.351111111111111e-05, "loss": 0.1105, "step": 21630 }, { "epoch": 57.70666666666666, "grad_norm": 0.5409091114997864, "learning_rate": 2.3496296296296295e-05, "loss": 0.1037, "step": 21640 }, { "epoch": 57.733333333333334, "grad_norm": 0.5423007011413574, "learning_rate": 2.3481481481481483e-05, "loss": 0.1194, "step": 21650 }, { "epoch": 57.76, "grad_norm": 0.5755845308303833, "learning_rate": 2.3466666666666667e-05, "loss": 0.0896, "step": 21660 }, { "epoch": 57.78666666666667, "grad_norm": 0.6536055207252502, "learning_rate": 2.3451851851851854e-05, "loss": 0.1082, "step": 21670 }, { "epoch": 57.81333333333333, "grad_norm": 0.37602904438972473, "learning_rate": 2.3437037037037038e-05, "loss": 0.1076, "step": 21680 }, { "epoch": 57.84, "grad_norm": 0.8181330561637878, "learning_rate": 2.3422222222222222e-05, "loss": 0.0842, "step": 21690 }, { "epoch": 57.86666666666667, "grad_norm": 1.4925469160079956, "learning_rate": 2.340740740740741e-05, "loss": 0.1174, "step": 21700 }, { "epoch": 57.89333333333333, "grad_norm": 1.300069808959961, "learning_rate": 2.3392592592592593e-05, "loss": 0.0963, "step": 21710 }, { "epoch": 57.92, "grad_norm": 0.5960765480995178, "learning_rate": 2.337777777777778e-05, "loss": 0.1059, "step": 21720 }, { "epoch": 57.946666666666665, "grad_norm": 0.8465743064880371, "learning_rate": 2.3362962962962965e-05, "loss": 0.1241, "step": 21730 }, { "epoch": 57.973333333333336, "grad_norm": 0.6664037108421326, "learning_rate": 2.334814814814815e-05, "loss": 0.1216, "step": 21740 }, { "epoch": 58.0, "grad_norm": 0.7164819240570068, "learning_rate": 2.3333333333333336e-05, "loss": 0.1052, "step": 21750 }, { "epoch": 58.0, "eval_accuracy": 0.90375, "eval_loss": 0.3561854958534241, "eval_runtime": 251.0263, "eval_samples_per_second": 47.804, "eval_steps_per_second": 1.494, "step": 21750 }, { "epoch": 58.026666666666664, "grad_norm": 1.269797682762146, "learning_rate": 2.331851851851852e-05, "loss": 0.1071, "step": 21760 }, { "epoch": 58.053333333333335, "grad_norm": 0.9424992203712463, "learning_rate": 2.3303703703703704e-05, "loss": 0.107, "step": 21770 }, { "epoch": 58.08, "grad_norm": 0.7366050481796265, "learning_rate": 2.328888888888889e-05, "loss": 0.1296, "step": 21780 }, { "epoch": 58.10666666666667, "grad_norm": 0.7592846155166626, "learning_rate": 2.3274074074074075e-05, "loss": 0.1214, "step": 21790 }, { "epoch": 58.13333333333333, "grad_norm": 0.6315038800239563, "learning_rate": 2.3259259259259262e-05, "loss": 0.1116, "step": 21800 }, { "epoch": 58.16, "grad_norm": 0.4826793968677521, "learning_rate": 2.3244444444444446e-05, "loss": 0.1049, "step": 21810 }, { "epoch": 58.18666666666667, "grad_norm": 0.7681486010551453, "learning_rate": 2.322962962962963e-05, "loss": 0.1219, "step": 21820 }, { "epoch": 58.21333333333333, "grad_norm": 1.0546191930770874, "learning_rate": 2.3214814814814818e-05, "loss": 0.1191, "step": 21830 }, { "epoch": 58.24, "grad_norm": 0.7406566739082336, "learning_rate": 2.32e-05, "loss": 0.1194, "step": 21840 }, { "epoch": 58.266666666666666, "grad_norm": 0.7936819791793823, "learning_rate": 2.318518518518519e-05, "loss": 0.086, "step": 21850 }, { "epoch": 58.29333333333334, "grad_norm": 0.8432274460792542, "learning_rate": 2.3170370370370373e-05, "loss": 0.1074, "step": 21860 }, { "epoch": 58.32, "grad_norm": 0.7144952416419983, "learning_rate": 2.3155555555555557e-05, "loss": 0.1269, "step": 21870 }, { "epoch": 58.346666666666664, "grad_norm": 0.57988041639328, "learning_rate": 2.314074074074074e-05, "loss": 0.0962, "step": 21880 }, { "epoch": 58.373333333333335, "grad_norm": 0.7650472521781921, "learning_rate": 2.3125925925925925e-05, "loss": 0.1084, "step": 21890 }, { "epoch": 58.4, "grad_norm": 0.7300851941108704, "learning_rate": 2.3111111111111112e-05, "loss": 0.1245, "step": 21900 }, { "epoch": 58.42666666666667, "grad_norm": 0.6340977549552917, "learning_rate": 2.3096296296296296e-05, "loss": 0.1049, "step": 21910 }, { "epoch": 58.45333333333333, "grad_norm": 0.5822761654853821, "learning_rate": 2.3081481481481483e-05, "loss": 0.0815, "step": 21920 }, { "epoch": 58.48, "grad_norm": 0.6962836980819702, "learning_rate": 2.3066666666666667e-05, "loss": 0.0973, "step": 21930 }, { "epoch": 58.50666666666667, "grad_norm": 0.6490551233291626, "learning_rate": 2.305185185185185e-05, "loss": 0.1187, "step": 21940 }, { "epoch": 58.53333333333333, "grad_norm": 1.0636241436004639, "learning_rate": 2.303703703703704e-05, "loss": 0.0904, "step": 21950 }, { "epoch": 58.56, "grad_norm": 0.7011326551437378, "learning_rate": 2.3022222222222222e-05, "loss": 0.1191, "step": 21960 }, { "epoch": 58.586666666666666, "grad_norm": 0.6702389717102051, "learning_rate": 2.300740740740741e-05, "loss": 0.1114, "step": 21970 }, { "epoch": 58.61333333333333, "grad_norm": 0.5666784048080444, "learning_rate": 2.2992592592592594e-05, "loss": 0.0874, "step": 21980 }, { "epoch": 58.64, "grad_norm": 0.6011951565742493, "learning_rate": 2.2977777777777778e-05, "loss": 0.0776, "step": 21990 }, { "epoch": 58.666666666666664, "grad_norm": 0.7326487898826599, "learning_rate": 2.2962962962962965e-05, "loss": 0.1042, "step": 22000 }, { "epoch": 58.693333333333335, "grad_norm": 0.9952179193496704, "learning_rate": 2.294814814814815e-05, "loss": 0.1088, "step": 22010 }, { "epoch": 58.72, "grad_norm": 0.7761932015419006, "learning_rate": 2.2933333333333333e-05, "loss": 0.0942, "step": 22020 }, { "epoch": 58.74666666666667, "grad_norm": 0.5672218203544617, "learning_rate": 2.291851851851852e-05, "loss": 0.0995, "step": 22030 }, { "epoch": 58.77333333333333, "grad_norm": 0.3637765347957611, "learning_rate": 2.2903703703703704e-05, "loss": 0.1052, "step": 22040 }, { "epoch": 58.8, "grad_norm": 0.8737623691558838, "learning_rate": 2.288888888888889e-05, "loss": 0.1059, "step": 22050 }, { "epoch": 58.82666666666667, "grad_norm": 0.7890958786010742, "learning_rate": 2.2874074074074075e-05, "loss": 0.1115, "step": 22060 }, { "epoch": 58.85333333333333, "grad_norm": 0.9339655637741089, "learning_rate": 2.285925925925926e-05, "loss": 0.1069, "step": 22070 }, { "epoch": 58.88, "grad_norm": 0.8260341882705688, "learning_rate": 2.2844444444444447e-05, "loss": 0.1083, "step": 22080 }, { "epoch": 58.906666666666666, "grad_norm": 0.9457599520683289, "learning_rate": 2.282962962962963e-05, "loss": 0.107, "step": 22090 }, { "epoch": 58.93333333333333, "grad_norm": 0.6401690244674683, "learning_rate": 2.2814814814814818e-05, "loss": 0.0843, "step": 22100 }, { "epoch": 58.96, "grad_norm": 0.8054176568984985, "learning_rate": 2.2800000000000002e-05, "loss": 0.1149, "step": 22110 }, { "epoch": 58.986666666666665, "grad_norm": 0.5587853193283081, "learning_rate": 2.2785185185185186e-05, "loss": 0.1341, "step": 22120 }, { "epoch": 59.0, "eval_accuracy": 0.9050833333333334, "eval_loss": 0.3501264750957489, "eval_runtime": 252.9226, "eval_samples_per_second": 47.445, "eval_steps_per_second": 1.483, "step": 22125 }, { "epoch": 59.013333333333335, "grad_norm": 0.6033284068107605, "learning_rate": 2.2770370370370373e-05, "loss": 0.1009, "step": 22130 }, { "epoch": 59.04, "grad_norm": 0.6120572686195374, "learning_rate": 2.2755555555555557e-05, "loss": 0.1015, "step": 22140 }, { "epoch": 59.06666666666667, "grad_norm": 0.6673848032951355, "learning_rate": 2.2740740740740744e-05, "loss": 0.1075, "step": 22150 }, { "epoch": 59.093333333333334, "grad_norm": 0.8071389198303223, "learning_rate": 2.272592592592593e-05, "loss": 0.0947, "step": 22160 }, { "epoch": 59.12, "grad_norm": 0.9277157187461853, "learning_rate": 2.2711111111111112e-05, "loss": 0.1048, "step": 22170 }, { "epoch": 59.14666666666667, "grad_norm": 0.4567291736602783, "learning_rate": 2.2696296296296296e-05, "loss": 0.116, "step": 22180 }, { "epoch": 59.17333333333333, "grad_norm": 0.644817590713501, "learning_rate": 2.268148148148148e-05, "loss": 0.089, "step": 22190 }, { "epoch": 59.2, "grad_norm": 0.9096694588661194, "learning_rate": 2.2666666666666668e-05, "loss": 0.0937, "step": 22200 }, { "epoch": 59.22666666666667, "grad_norm": 0.8013559579849243, "learning_rate": 2.265185185185185e-05, "loss": 0.1091, "step": 22210 }, { "epoch": 59.25333333333333, "grad_norm": 0.7758790850639343, "learning_rate": 2.2637037037037036e-05, "loss": 0.128, "step": 22220 }, { "epoch": 59.28, "grad_norm": 0.7872348427772522, "learning_rate": 2.2622222222222223e-05, "loss": 0.1144, "step": 22230 }, { "epoch": 59.306666666666665, "grad_norm": 0.7660977840423584, "learning_rate": 2.2607407407407407e-05, "loss": 0.0834, "step": 22240 }, { "epoch": 59.333333333333336, "grad_norm": 0.6157160401344299, "learning_rate": 2.2592592592592594e-05, "loss": 0.0985, "step": 22250 }, { "epoch": 59.36, "grad_norm": 0.38788917660713196, "learning_rate": 2.2577777777777778e-05, "loss": 0.0912, "step": 22260 }, { "epoch": 59.38666666666666, "grad_norm": 0.7269772291183472, "learning_rate": 2.2562962962962962e-05, "loss": 0.0865, "step": 22270 }, { "epoch": 59.413333333333334, "grad_norm": 0.5136067271232605, "learning_rate": 2.254814814814815e-05, "loss": 0.1053, "step": 22280 }, { "epoch": 59.44, "grad_norm": 0.7449811697006226, "learning_rate": 2.2533333333333333e-05, "loss": 0.1007, "step": 22290 }, { "epoch": 59.46666666666667, "grad_norm": 0.6225616335868835, "learning_rate": 2.251851851851852e-05, "loss": 0.0865, "step": 22300 }, { "epoch": 59.49333333333333, "grad_norm": 0.7305272817611694, "learning_rate": 2.2503703703703705e-05, "loss": 0.0952, "step": 22310 }, { "epoch": 59.52, "grad_norm": 0.7931828498840332, "learning_rate": 2.248888888888889e-05, "loss": 0.1318, "step": 22320 }, { "epoch": 59.54666666666667, "grad_norm": 0.6465429663658142, "learning_rate": 2.2474074074074076e-05, "loss": 0.1057, "step": 22330 }, { "epoch": 59.57333333333333, "grad_norm": 0.5452882051467896, "learning_rate": 2.245925925925926e-05, "loss": 0.1026, "step": 22340 }, { "epoch": 59.6, "grad_norm": 0.6973422765731812, "learning_rate": 2.2444444444444447e-05, "loss": 0.1102, "step": 22350 }, { "epoch": 59.626666666666665, "grad_norm": 0.6449379920959473, "learning_rate": 2.242962962962963e-05, "loss": 0.1105, "step": 22360 }, { "epoch": 59.653333333333336, "grad_norm": 0.6876383423805237, "learning_rate": 2.2414814814814815e-05, "loss": 0.1288, "step": 22370 }, { "epoch": 59.68, "grad_norm": 0.8773509860038757, "learning_rate": 2.2400000000000002e-05, "loss": 0.0968, "step": 22380 }, { "epoch": 59.70666666666666, "grad_norm": 0.9409114718437195, "learning_rate": 2.2385185185185186e-05, "loss": 0.0983, "step": 22390 }, { "epoch": 59.733333333333334, "grad_norm": 0.6347073316574097, "learning_rate": 2.2370370370370374e-05, "loss": 0.1042, "step": 22400 }, { "epoch": 59.76, "grad_norm": 0.3518627882003784, "learning_rate": 2.2355555555555558e-05, "loss": 0.1072, "step": 22410 }, { "epoch": 59.78666666666667, "grad_norm": 1.0639209747314453, "learning_rate": 2.234074074074074e-05, "loss": 0.1204, "step": 22420 }, { "epoch": 59.81333333333333, "grad_norm": 0.6734100580215454, "learning_rate": 2.232592592592593e-05, "loss": 0.1024, "step": 22430 }, { "epoch": 59.84, "grad_norm": 0.6965450048446655, "learning_rate": 2.2311111111111113e-05, "loss": 0.1261, "step": 22440 }, { "epoch": 59.86666666666667, "grad_norm": 0.5725679397583008, "learning_rate": 2.2296296296296297e-05, "loss": 0.1025, "step": 22450 }, { "epoch": 59.89333333333333, "grad_norm": 0.5571090579032898, "learning_rate": 2.2281481481481484e-05, "loss": 0.0912, "step": 22460 }, { "epoch": 59.92, "grad_norm": 0.6965648531913757, "learning_rate": 2.2266666666666668e-05, "loss": 0.0803, "step": 22470 }, { "epoch": 59.946666666666665, "grad_norm": 0.6672995686531067, "learning_rate": 2.2251851851851855e-05, "loss": 0.1214, "step": 22480 }, { "epoch": 59.973333333333336, "grad_norm": 0.6836172938346863, "learning_rate": 2.2237037037037036e-05, "loss": 0.0836, "step": 22490 }, { "epoch": 60.0, "grad_norm": 0.9594629406929016, "learning_rate": 2.2222222222222223e-05, "loss": 0.0942, "step": 22500 }, { "epoch": 60.0, "eval_accuracy": 0.9, "eval_loss": 0.38503962755203247, "eval_runtime": 253.7084, "eval_samples_per_second": 47.298, "eval_steps_per_second": 1.478, "step": 22500 } ], "logging_steps": 10, "max_steps": 37500, "num_input_tokens_seen": 0, "num_train_epochs": 100, "save_steps": 500, "total_flos": 1.6407306791092224e+21, "train_batch_size": 32, "trial_name": null, "trial_params": null }