diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,16311 @@ +{ + "best_metric": 0.90825, + "best_model_checkpoint": "nathanReitinger/FASHION-vision/checkpoint-21375", + "epoch": 60.0, + "eval_steps": 500, + "global_step": 22500, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.02666666666666667, + "grad_norm": 0.523047685623169, + "learning_rate": 1.3333333333333334e-07, + "loss": 2.3075, + "step": 10 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 0.5552763342857361, + "learning_rate": 2.6666666666666667e-07, + "loss": 2.3074, + "step": 20 + }, + { + "epoch": 0.08, + "grad_norm": 0.5376197099685669, + "learning_rate": 4.0000000000000003e-07, + "loss": 2.3035, + "step": 30 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 0.6457321643829346, + "learning_rate": 5.333333333333333e-07, + "loss": 2.3037, + "step": 40 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 0.5918385982513428, + "learning_rate": 6.666666666666667e-07, + "loss": 2.299, + "step": 50 + }, + { + "epoch": 0.16, + "grad_norm": 0.49572938680648804, + "learning_rate": 8.000000000000001e-07, + "loss": 2.2936, + "step": 60 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 0.5726321935653687, + "learning_rate": 9.333333333333334e-07, + "loss": 2.2912, + "step": 70 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 0.546880841255188, + "learning_rate": 1.0666666666666667e-06, + "loss": 2.2876, + "step": 80 + }, + { + "epoch": 0.24, + "grad_norm": 0.5502996444702148, + "learning_rate": 1.2000000000000002e-06, + "loss": 2.2779, + "step": 90 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 0.5014591813087463, + "learning_rate": 1.3333333333333334e-06, + "loss": 2.269, + "step": 100 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 0.6471307873725891, + "learning_rate": 1.4666666666666667e-06, + "loss": 2.2635, + "step": 110 + }, + { + "epoch": 0.32, + "grad_norm": 0.5403459668159485, + "learning_rate": 1.6000000000000001e-06, + "loss": 2.2593, + "step": 120 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 0.685127317905426, + "learning_rate": 1.7333333333333334e-06, + "loss": 2.2469, + "step": 130 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 0.5315631031990051, + "learning_rate": 1.8666666666666669e-06, + "loss": 2.2402, + "step": 140 + }, + { + "epoch": 0.4, + "grad_norm": 0.5637540817260742, + "learning_rate": 2.0000000000000003e-06, + "loss": 2.2254, + "step": 150 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 0.516559898853302, + "learning_rate": 2.1333333333333334e-06, + "loss": 2.2143, + "step": 160 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 0.5694682002067566, + "learning_rate": 2.266666666666667e-06, + "loss": 2.2023, + "step": 170 + }, + { + "epoch": 0.48, + "grad_norm": 0.5600557327270508, + "learning_rate": 2.4000000000000003e-06, + "loss": 2.1909, + "step": 180 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 0.5678396821022034, + "learning_rate": 2.5333333333333334e-06, + "loss": 2.1622, + "step": 190 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 0.5785785913467407, + "learning_rate": 2.666666666666667e-06, + "loss": 2.142, + "step": 200 + }, + { + "epoch": 0.56, + "grad_norm": 0.6398864984512329, + "learning_rate": 2.8000000000000003e-06, + "loss": 2.1258, + "step": 210 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 0.5946400165557861, + "learning_rate": 2.9333333333333333e-06, + "loss": 2.1083, + "step": 220 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 0.582646906375885, + "learning_rate": 3.066666666666667e-06, + "loss": 2.0785, + "step": 230 + }, + { + "epoch": 0.64, + "grad_norm": 0.5856070518493652, + "learning_rate": 3.2000000000000003e-06, + "loss": 2.0405, + "step": 240 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 0.5840105414390564, + "learning_rate": 3.3333333333333333e-06, + "loss": 2.0181, + "step": 250 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 0.6193951964378357, + "learning_rate": 3.466666666666667e-06, + "loss": 1.9919, + "step": 260 + }, + { + "epoch": 0.72, + "grad_norm": 0.6050300002098083, + "learning_rate": 3.6e-06, + "loss": 1.9446, + "step": 270 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 0.6478451490402222, + "learning_rate": 3.7333333333333337e-06, + "loss": 1.9049, + "step": 280 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 0.6568677425384521, + "learning_rate": 3.866666666666667e-06, + "loss": 1.8365, + "step": 290 + }, + { + "epoch": 0.8, + "grad_norm": 0.6807597875595093, + "learning_rate": 4.000000000000001e-06, + "loss": 1.7904, + "step": 300 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 0.726629376411438, + "learning_rate": 4.133333333333333e-06, + "loss": 1.7604, + "step": 310 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 0.666414201259613, + "learning_rate": 4.266666666666667e-06, + "loss": 1.6925, + "step": 320 + }, + { + "epoch": 0.88, + "grad_norm": 0.7060936689376831, + "learning_rate": 4.4e-06, + "loss": 1.6647, + "step": 330 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 0.7357079386711121, + "learning_rate": 4.533333333333334e-06, + "loss": 1.5809, + "step": 340 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 0.7015929818153381, + "learning_rate": 4.666666666666667e-06, + "loss": 1.5496, + "step": 350 + }, + { + "epoch": 0.96, + "grad_norm": 0.6975520849227905, + "learning_rate": 4.800000000000001e-06, + "loss": 1.4738, + "step": 360 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 0.6449431777000427, + "learning_rate": 4.933333333333333e-06, + "loss": 1.4678, + "step": 370 + }, + { + "epoch": 1.0, + "eval_accuracy": 0.7154166666666667, + "eval_loss": 1.4123508930206299, + "eval_runtime": 251.7129, + "eval_samples_per_second": 47.673, + "eval_steps_per_second": 1.49, + "step": 375 + }, + { + "epoch": 1.0133333333333334, + "grad_norm": 0.7132147550582886, + "learning_rate": 5.066666666666667e-06, + "loss": 1.4103, + "step": 380 + }, + { + "epoch": 1.04, + "grad_norm": 0.6486594080924988, + "learning_rate": 5.2e-06, + "loss": 1.3621, + "step": 390 + }, + { + "epoch": 1.0666666666666667, + "grad_norm": 0.7866731286048889, + "learning_rate": 5.333333333333334e-06, + "loss": 1.338, + "step": 400 + }, + { + "epoch": 1.0933333333333333, + "grad_norm": 0.7460314631462097, + "learning_rate": 5.466666666666667e-06, + "loss": 1.3044, + "step": 410 + }, + { + "epoch": 1.12, + "grad_norm": 0.672776997089386, + "learning_rate": 5.600000000000001e-06, + "loss": 1.2234, + "step": 420 + }, + { + "epoch": 1.1466666666666667, + "grad_norm": 0.7854825258255005, + "learning_rate": 5.733333333333333e-06, + "loss": 1.2487, + "step": 430 + }, + { + "epoch": 1.1733333333333333, + "grad_norm": 0.7380782961845398, + "learning_rate": 5.866666666666667e-06, + "loss": 1.1797, + "step": 440 + }, + { + "epoch": 1.2, + "grad_norm": 0.7625659108161926, + "learning_rate": 6e-06, + "loss": 1.1746, + "step": 450 + }, + { + "epoch": 1.2266666666666666, + "grad_norm": 0.8111923336982727, + "learning_rate": 6.133333333333334e-06, + "loss": 1.1691, + "step": 460 + }, + { + "epoch": 1.2533333333333334, + "grad_norm": 0.7667580842971802, + "learning_rate": 6.266666666666666e-06, + "loss": 1.1411, + "step": 470 + }, + { + "epoch": 1.28, + "grad_norm": 0.753954291343689, + "learning_rate": 6.4000000000000006e-06, + "loss": 1.1054, + "step": 480 + }, + { + "epoch": 1.3066666666666666, + "grad_norm": 0.7377068996429443, + "learning_rate": 6.533333333333333e-06, + "loss": 1.0828, + "step": 490 + }, + { + "epoch": 1.3333333333333333, + "grad_norm": 0.9820953011512756, + "learning_rate": 6.666666666666667e-06, + "loss": 1.0424, + "step": 500 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 0.7644351124763489, + "learning_rate": 6.800000000000001e-06, + "loss": 1.0573, + "step": 510 + }, + { + "epoch": 1.3866666666666667, + "grad_norm": 0.8212087154388428, + "learning_rate": 6.933333333333334e-06, + "loss": 1.0173, + "step": 520 + }, + { + "epoch": 1.4133333333333333, + "grad_norm": 0.8315467834472656, + "learning_rate": 7.066666666666667e-06, + "loss": 0.9692, + "step": 530 + }, + { + "epoch": 1.44, + "grad_norm": 1.069244146347046, + "learning_rate": 7.2e-06, + "loss": 0.978, + "step": 540 + }, + { + "epoch": 1.4666666666666668, + "grad_norm": 0.7936562895774841, + "learning_rate": 7.333333333333334e-06, + "loss": 0.9424, + "step": 550 + }, + { + "epoch": 1.4933333333333334, + "grad_norm": 0.7659708857536316, + "learning_rate": 7.4666666666666675e-06, + "loss": 0.9823, + "step": 560 + }, + { + "epoch": 1.52, + "grad_norm": 0.9382613301277161, + "learning_rate": 7.6e-06, + "loss": 0.9453, + "step": 570 + }, + { + "epoch": 1.5466666666666666, + "grad_norm": 1.0581766366958618, + "learning_rate": 7.733333333333334e-06, + "loss": 0.9409, + "step": 580 + }, + { + "epoch": 1.5733333333333333, + "grad_norm": 1.069870114326477, + "learning_rate": 7.866666666666667e-06, + "loss": 0.9508, + "step": 590 + }, + { + "epoch": 1.6, + "grad_norm": 0.90777188539505, + "learning_rate": 8.000000000000001e-06, + "loss": 0.887, + "step": 600 + }, + { + "epoch": 1.6266666666666667, + "grad_norm": 1.2335937023162842, + "learning_rate": 8.133333333333332e-06, + "loss": 0.9311, + "step": 610 + }, + { + "epoch": 1.6533333333333333, + "grad_norm": 1.0029135942459106, + "learning_rate": 8.266666666666667e-06, + "loss": 0.8561, + "step": 620 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 1.072263240814209, + "learning_rate": 8.400000000000001e-06, + "loss": 0.8644, + "step": 630 + }, + { + "epoch": 1.7066666666666666, + "grad_norm": 1.0174798965454102, + "learning_rate": 8.533333333333334e-06, + "loss": 0.8713, + "step": 640 + }, + { + "epoch": 1.7333333333333334, + "grad_norm": 0.9830342531204224, + "learning_rate": 8.666666666666668e-06, + "loss": 0.852, + "step": 650 + }, + { + "epoch": 1.76, + "grad_norm": 1.1105958223342896, + "learning_rate": 8.8e-06, + "loss": 0.8331, + "step": 660 + }, + { + "epoch": 1.7866666666666666, + "grad_norm": 1.3445558547973633, + "learning_rate": 8.933333333333333e-06, + "loss": 0.8595, + "step": 670 + }, + { + "epoch": 1.8133333333333335, + "grad_norm": 0.9208192229270935, + "learning_rate": 9.066666666666667e-06, + "loss": 0.8327, + "step": 680 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 0.8158299326896667, + "learning_rate": 9.2e-06, + "loss": 0.8052, + "step": 690 + }, + { + "epoch": 1.8666666666666667, + "grad_norm": 1.1894135475158691, + "learning_rate": 9.333333333333334e-06, + "loss": 0.8085, + "step": 700 + }, + { + "epoch": 1.8933333333333333, + "grad_norm": 1.1022515296936035, + "learning_rate": 9.466666666666667e-06, + "loss": 0.8196, + "step": 710 + }, + { + "epoch": 1.92, + "grad_norm": 0.8503223657608032, + "learning_rate": 9.600000000000001e-06, + "loss": 0.8264, + "step": 720 + }, + { + "epoch": 1.9466666666666668, + "grad_norm": 0.9416592717170715, + "learning_rate": 9.733333333333334e-06, + "loss": 0.764, + "step": 730 + }, + { + "epoch": 1.9733333333333334, + "grad_norm": 1.018501877784729, + "learning_rate": 9.866666666666667e-06, + "loss": 0.7963, + "step": 740 + }, + { + "epoch": 2.0, + "grad_norm": 1.1012654304504395, + "learning_rate": 1e-05, + "loss": 0.7684, + "step": 750 + }, + { + "epoch": 2.0, + "eval_accuracy": 0.8094166666666667, + "eval_loss": 0.7787800431251526, + "eval_runtime": 253.0715, + "eval_samples_per_second": 47.417, + "eval_steps_per_second": 1.482, + "step": 750 + }, + { + "epoch": 2.026666666666667, + "grad_norm": 1.0708824396133423, + "learning_rate": 1.0133333333333333e-05, + "loss": 0.7822, + "step": 760 + }, + { + "epoch": 2.0533333333333332, + "grad_norm": 1.4673056602478027, + "learning_rate": 1.0266666666666668e-05, + "loss": 0.7869, + "step": 770 + }, + { + "epoch": 2.08, + "grad_norm": 1.2150228023529053, + "learning_rate": 1.04e-05, + "loss": 0.7484, + "step": 780 + }, + { + "epoch": 2.1066666666666665, + "grad_norm": 1.5481164455413818, + "learning_rate": 1.0533333333333335e-05, + "loss": 0.7442, + "step": 790 + }, + { + "epoch": 2.1333333333333333, + "grad_norm": 1.0784778594970703, + "learning_rate": 1.0666666666666667e-05, + "loss": 0.7409, + "step": 800 + }, + { + "epoch": 2.16, + "grad_norm": 1.052842617034912, + "learning_rate": 1.08e-05, + "loss": 0.7421, + "step": 810 + }, + { + "epoch": 2.1866666666666665, + "grad_norm": 1.390291690826416, + "learning_rate": 1.0933333333333334e-05, + "loss": 0.7394, + "step": 820 + }, + { + "epoch": 2.2133333333333334, + "grad_norm": 1.1223007440567017, + "learning_rate": 1.1066666666666667e-05, + "loss": 0.7283, + "step": 830 + }, + { + "epoch": 2.24, + "grad_norm": 1.1918033361434937, + "learning_rate": 1.1200000000000001e-05, + "loss": 0.7162, + "step": 840 + }, + { + "epoch": 2.2666666666666666, + "grad_norm": 0.9362882375717163, + "learning_rate": 1.1333333333333334e-05, + "loss": 0.655, + "step": 850 + }, + { + "epoch": 2.2933333333333334, + "grad_norm": 1.0802836418151855, + "learning_rate": 1.1466666666666666e-05, + "loss": 0.7099, + "step": 860 + }, + { + "epoch": 2.32, + "grad_norm": 1.641676902770996, + "learning_rate": 1.16e-05, + "loss": 0.7111, + "step": 870 + }, + { + "epoch": 2.3466666666666667, + "grad_norm": 0.9850042462348938, + "learning_rate": 1.1733333333333333e-05, + "loss": 0.7058, + "step": 880 + }, + { + "epoch": 2.3733333333333335, + "grad_norm": 1.418823003768921, + "learning_rate": 1.1866666666666668e-05, + "loss": 0.6992, + "step": 890 + }, + { + "epoch": 2.4, + "grad_norm": 1.0583059787750244, + "learning_rate": 1.2e-05, + "loss": 0.7026, + "step": 900 + }, + { + "epoch": 2.4266666666666667, + "grad_norm": 1.0806751251220703, + "learning_rate": 1.2133333333333335e-05, + "loss": 0.6775, + "step": 910 + }, + { + "epoch": 2.453333333333333, + "grad_norm": 1.477805495262146, + "learning_rate": 1.2266666666666667e-05, + "loss": 0.6401, + "step": 920 + }, + { + "epoch": 2.48, + "grad_norm": 1.37532639503479, + "learning_rate": 1.24e-05, + "loss": 0.692, + "step": 930 + }, + { + "epoch": 2.506666666666667, + "grad_norm": 1.0383663177490234, + "learning_rate": 1.2533333333333332e-05, + "loss": 0.6767, + "step": 940 + }, + { + "epoch": 2.533333333333333, + "grad_norm": 1.5573583841323853, + "learning_rate": 1.2666666666666668e-05, + "loss": 0.7033, + "step": 950 + }, + { + "epoch": 2.56, + "grad_norm": 1.3657231330871582, + "learning_rate": 1.2800000000000001e-05, + "loss": 0.6657, + "step": 960 + }, + { + "epoch": 2.586666666666667, + "grad_norm": 1.0886105298995972, + "learning_rate": 1.2933333333333334e-05, + "loss": 0.6653, + "step": 970 + }, + { + "epoch": 2.6133333333333333, + "grad_norm": 1.4899654388427734, + "learning_rate": 1.3066666666666666e-05, + "loss": 0.6736, + "step": 980 + }, + { + "epoch": 2.64, + "grad_norm": 1.0892140865325928, + "learning_rate": 1.32e-05, + "loss": 0.6602, + "step": 990 + }, + { + "epoch": 2.6666666666666665, + "grad_norm": 1.757778286933899, + "learning_rate": 1.3333333333333333e-05, + "loss": 0.6438, + "step": 1000 + }, + { + "epoch": 2.6933333333333334, + "grad_norm": 1.4072977304458618, + "learning_rate": 1.3466666666666666e-05, + "loss": 0.6454, + "step": 1010 + }, + { + "epoch": 2.7199999999999998, + "grad_norm": 1.4191005229949951, + "learning_rate": 1.3600000000000002e-05, + "loss": 0.65, + "step": 1020 + }, + { + "epoch": 2.7466666666666666, + "grad_norm": 1.2355992794036865, + "learning_rate": 1.3733333333333335e-05, + "loss": 0.6468, + "step": 1030 + }, + { + "epoch": 2.7733333333333334, + "grad_norm": 1.0899584293365479, + "learning_rate": 1.3866666666666667e-05, + "loss": 0.6195, + "step": 1040 + }, + { + "epoch": 2.8, + "grad_norm": 1.1220864057540894, + "learning_rate": 1.4000000000000001e-05, + "loss": 0.6447, + "step": 1050 + }, + { + "epoch": 2.8266666666666667, + "grad_norm": 1.2130671739578247, + "learning_rate": 1.4133333333333334e-05, + "loss": 0.6363, + "step": 1060 + }, + { + "epoch": 2.8533333333333335, + "grad_norm": 1.6652445793151855, + "learning_rate": 1.4266666666666667e-05, + "loss": 0.649, + "step": 1070 + }, + { + "epoch": 2.88, + "grad_norm": 1.573158860206604, + "learning_rate": 1.44e-05, + "loss": 0.6131, + "step": 1080 + }, + { + "epoch": 2.9066666666666667, + "grad_norm": 1.6508690118789673, + "learning_rate": 1.4533333333333335e-05, + "loss": 0.6425, + "step": 1090 + }, + { + "epoch": 2.9333333333333336, + "grad_norm": 1.027748465538025, + "learning_rate": 1.4666666666666668e-05, + "loss": 0.5706, + "step": 1100 + }, + { + "epoch": 2.96, + "grad_norm": 1.4707986116409302, + "learning_rate": 1.48e-05, + "loss": 0.6557, + "step": 1110 + }, + { + "epoch": 2.986666666666667, + "grad_norm": 1.1269705295562744, + "learning_rate": 1.4933333333333335e-05, + "loss": 0.601, + "step": 1120 + }, + { + "epoch": 3.0, + "eval_accuracy": 0.8335833333333333, + "eval_loss": 0.6188022494316101, + "eval_runtime": 252.8818, + "eval_samples_per_second": 47.453, + "eval_steps_per_second": 1.483, + "step": 1125 + }, + { + "epoch": 3.013333333333333, + "grad_norm": 1.1408145427703857, + "learning_rate": 1.5066666666666668e-05, + "loss": 0.5949, + "step": 1130 + }, + { + "epoch": 3.04, + "grad_norm": 1.154862642288208, + "learning_rate": 1.52e-05, + "loss": 0.5827, + "step": 1140 + }, + { + "epoch": 3.066666666666667, + "grad_norm": 0.9795767664909363, + "learning_rate": 1.5333333333333334e-05, + "loss": 0.6098, + "step": 1150 + }, + { + "epoch": 3.0933333333333333, + "grad_norm": 1.275421380996704, + "learning_rate": 1.546666666666667e-05, + "loss": 0.5785, + "step": 1160 + }, + { + "epoch": 3.12, + "grad_norm": 1.1093873977661133, + "learning_rate": 1.56e-05, + "loss": 0.5576, + "step": 1170 + }, + { + "epoch": 3.1466666666666665, + "grad_norm": 1.3806421756744385, + "learning_rate": 1.5733333333333334e-05, + "loss": 0.5579, + "step": 1180 + }, + { + "epoch": 3.1733333333333333, + "grad_norm": 1.3961694240570068, + "learning_rate": 1.586666666666667e-05, + "loss": 0.5812, + "step": 1190 + }, + { + "epoch": 3.2, + "grad_norm": 1.3505513668060303, + "learning_rate": 1.6000000000000003e-05, + "loss": 0.5477, + "step": 1200 + }, + { + "epoch": 3.2266666666666666, + "grad_norm": 1.1637428998947144, + "learning_rate": 1.6133333333333334e-05, + "loss": 0.5827, + "step": 1210 + }, + { + "epoch": 3.2533333333333334, + "grad_norm": 1.7076727151870728, + "learning_rate": 1.6266666666666665e-05, + "loss": 0.5917, + "step": 1220 + }, + { + "epoch": 3.2800000000000002, + "grad_norm": 1.0909322500228882, + "learning_rate": 1.6400000000000002e-05, + "loss": 0.5832, + "step": 1230 + }, + { + "epoch": 3.3066666666666666, + "grad_norm": 1.4935245513916016, + "learning_rate": 1.6533333333333333e-05, + "loss": 0.5456, + "step": 1240 + }, + { + "epoch": 3.3333333333333335, + "grad_norm": 1.6042735576629639, + "learning_rate": 1.6666666666666667e-05, + "loss": 0.5733, + "step": 1250 + }, + { + "epoch": 3.36, + "grad_norm": 1.4420127868652344, + "learning_rate": 1.6800000000000002e-05, + "loss": 0.5261, + "step": 1260 + }, + { + "epoch": 3.3866666666666667, + "grad_norm": 1.5541865825653076, + "learning_rate": 1.6933333333333333e-05, + "loss": 0.5683, + "step": 1270 + }, + { + "epoch": 3.413333333333333, + "grad_norm": 1.48206627368927, + "learning_rate": 1.7066666666666667e-05, + "loss": 0.553, + "step": 1280 + }, + { + "epoch": 3.44, + "grad_norm": 1.8646939992904663, + "learning_rate": 1.7199999999999998e-05, + "loss": 0.5466, + "step": 1290 + }, + { + "epoch": 3.466666666666667, + "grad_norm": 1.1181879043579102, + "learning_rate": 1.7333333333333336e-05, + "loss": 0.5524, + "step": 1300 + }, + { + "epoch": 3.493333333333333, + "grad_norm": 1.9017016887664795, + "learning_rate": 1.7466666666666667e-05, + "loss": 0.5124, + "step": 1310 + }, + { + "epoch": 3.52, + "grad_norm": 1.369870901107788, + "learning_rate": 1.76e-05, + "loss": 0.5608, + "step": 1320 + }, + { + "epoch": 3.546666666666667, + "grad_norm": 1.1890102624893188, + "learning_rate": 1.7733333333333335e-05, + "loss": 0.5535, + "step": 1330 + }, + { + "epoch": 3.5733333333333333, + "grad_norm": 1.8598867654800415, + "learning_rate": 1.7866666666666666e-05, + "loss": 0.5625, + "step": 1340 + }, + { + "epoch": 3.6, + "grad_norm": 1.178681492805481, + "learning_rate": 1.8e-05, + "loss": 0.5843, + "step": 1350 + }, + { + "epoch": 3.626666666666667, + "grad_norm": 1.5860885381698608, + "learning_rate": 1.8133333333333335e-05, + "loss": 0.5634, + "step": 1360 + }, + { + "epoch": 3.6533333333333333, + "grad_norm": 1.6016782522201538, + "learning_rate": 1.826666666666667e-05, + "loss": 0.5384, + "step": 1370 + }, + { + "epoch": 3.68, + "grad_norm": 1.3504785299301147, + "learning_rate": 1.84e-05, + "loss": 0.5482, + "step": 1380 + }, + { + "epoch": 3.7066666666666666, + "grad_norm": 1.182882308959961, + "learning_rate": 1.8533333333333334e-05, + "loss": 0.5324, + "step": 1390 + }, + { + "epoch": 3.7333333333333334, + "grad_norm": 1.7216957807540894, + "learning_rate": 1.866666666666667e-05, + "loss": 0.5483, + "step": 1400 + }, + { + "epoch": 3.76, + "grad_norm": 1.4555907249450684, + "learning_rate": 1.88e-05, + "loss": 0.5522, + "step": 1410 + }, + { + "epoch": 3.7866666666666666, + "grad_norm": 1.782230257987976, + "learning_rate": 1.8933333333333334e-05, + "loss": 0.5186, + "step": 1420 + }, + { + "epoch": 3.8133333333333335, + "grad_norm": 1.5357329845428467, + "learning_rate": 1.9066666666666668e-05, + "loss": 0.5092, + "step": 1430 + }, + { + "epoch": 3.84, + "grad_norm": 1.3541619777679443, + "learning_rate": 1.9200000000000003e-05, + "loss": 0.5472, + "step": 1440 + }, + { + "epoch": 3.8666666666666667, + "grad_norm": 1.345468521118164, + "learning_rate": 1.9333333333333333e-05, + "loss": 0.4959, + "step": 1450 + }, + { + "epoch": 3.8933333333333335, + "grad_norm": 1.1840789318084717, + "learning_rate": 1.9466666666666668e-05, + "loss": 0.5329, + "step": 1460 + }, + { + "epoch": 3.92, + "grad_norm": 1.0094152688980103, + "learning_rate": 1.9600000000000002e-05, + "loss": 0.496, + "step": 1470 + }, + { + "epoch": 3.9466666666666668, + "grad_norm": 1.2937079668045044, + "learning_rate": 1.9733333333333333e-05, + "loss": 0.5044, + "step": 1480 + }, + { + "epoch": 3.9733333333333336, + "grad_norm": 1.416028380393982, + "learning_rate": 1.9866666666666667e-05, + "loss": 0.529, + "step": 1490 + }, + { + "epoch": 4.0, + "grad_norm": 1.1835155487060547, + "learning_rate": 2e-05, + "loss": 0.5112, + "step": 1500 + }, + { + "epoch": 4.0, + "eval_accuracy": 0.8478333333333333, + "eval_loss": 0.5264700055122375, + "eval_runtime": 250.783, + "eval_samples_per_second": 47.85, + "eval_steps_per_second": 1.495, + "step": 1500 + }, + { + "epoch": 4.026666666666666, + "grad_norm": 1.2850406169891357, + "learning_rate": 2.0133333333333336e-05, + "loss": 0.5615, + "step": 1510 + }, + { + "epoch": 4.053333333333334, + "grad_norm": 1.0897717475891113, + "learning_rate": 2.0266666666666667e-05, + "loss": 0.4814, + "step": 1520 + }, + { + "epoch": 4.08, + "grad_norm": 1.2198373079299927, + "learning_rate": 2.04e-05, + "loss": 0.4884, + "step": 1530 + }, + { + "epoch": 4.1066666666666665, + "grad_norm": 2.1793172359466553, + "learning_rate": 2.0533333333333336e-05, + "loss": 0.5041, + "step": 1540 + }, + { + "epoch": 4.133333333333334, + "grad_norm": 1.349697232246399, + "learning_rate": 2.0666666666666666e-05, + "loss": 0.521, + "step": 1550 + }, + { + "epoch": 4.16, + "grad_norm": 0.9776567816734314, + "learning_rate": 2.08e-05, + "loss": 0.4784, + "step": 1560 + }, + { + "epoch": 4.1866666666666665, + "grad_norm": 1.6105858087539673, + "learning_rate": 2.0933333333333335e-05, + "loss": 0.4507, + "step": 1570 + }, + { + "epoch": 4.213333333333333, + "grad_norm": 1.2502280473709106, + "learning_rate": 2.106666666666667e-05, + "loss": 0.4966, + "step": 1580 + }, + { + "epoch": 4.24, + "grad_norm": 0.8996163606643677, + "learning_rate": 2.12e-05, + "loss": 0.4883, + "step": 1590 + }, + { + "epoch": 4.266666666666667, + "grad_norm": 1.2022095918655396, + "learning_rate": 2.1333333333333335e-05, + "loss": 0.5084, + "step": 1600 + }, + { + "epoch": 4.293333333333333, + "grad_norm": 1.7620633840560913, + "learning_rate": 2.146666666666667e-05, + "loss": 0.4464, + "step": 1610 + }, + { + "epoch": 4.32, + "grad_norm": 1.4631232023239136, + "learning_rate": 2.16e-05, + "loss": 0.4833, + "step": 1620 + }, + { + "epoch": 4.346666666666667, + "grad_norm": 1.3216817378997803, + "learning_rate": 2.1733333333333334e-05, + "loss": 0.4602, + "step": 1630 + }, + { + "epoch": 4.373333333333333, + "grad_norm": 1.222000241279602, + "learning_rate": 2.186666666666667e-05, + "loss": 0.4289, + "step": 1640 + }, + { + "epoch": 4.4, + "grad_norm": 1.6202765703201294, + "learning_rate": 2.2000000000000003e-05, + "loss": 0.4526, + "step": 1650 + }, + { + "epoch": 4.426666666666667, + "grad_norm": 1.584963083267212, + "learning_rate": 2.2133333333333334e-05, + "loss": 0.4787, + "step": 1660 + }, + { + "epoch": 4.453333333333333, + "grad_norm": 1.5327050685882568, + "learning_rate": 2.2266666666666668e-05, + "loss": 0.4913, + "step": 1670 + }, + { + "epoch": 4.48, + "grad_norm": 1.238145112991333, + "learning_rate": 2.2400000000000002e-05, + "loss": 0.4781, + "step": 1680 + }, + { + "epoch": 4.506666666666667, + "grad_norm": 1.416844367980957, + "learning_rate": 2.2533333333333333e-05, + "loss": 0.4928, + "step": 1690 + }, + { + "epoch": 4.533333333333333, + "grad_norm": 1.2246005535125732, + "learning_rate": 2.2666666666666668e-05, + "loss": 0.4514, + "step": 1700 + }, + { + "epoch": 4.5600000000000005, + "grad_norm": 1.5167866945266724, + "learning_rate": 2.2800000000000002e-05, + "loss": 0.4464, + "step": 1710 + }, + { + "epoch": 4.586666666666667, + "grad_norm": 1.5583484172821045, + "learning_rate": 2.2933333333333333e-05, + "loss": 0.4596, + "step": 1720 + }, + { + "epoch": 4.613333333333333, + "grad_norm": 1.2330771684646606, + "learning_rate": 2.3066666666666667e-05, + "loss": 0.4377, + "step": 1730 + }, + { + "epoch": 4.64, + "grad_norm": 2.0583174228668213, + "learning_rate": 2.32e-05, + "loss": 0.4643, + "step": 1740 + }, + { + "epoch": 4.666666666666667, + "grad_norm": 1.3421686887741089, + "learning_rate": 2.3333333333333336e-05, + "loss": 0.4514, + "step": 1750 + }, + { + "epoch": 4.693333333333333, + "grad_norm": 1.4690873622894287, + "learning_rate": 2.3466666666666667e-05, + "loss": 0.4514, + "step": 1760 + }, + { + "epoch": 4.72, + "grad_norm": 1.2651149034500122, + "learning_rate": 2.36e-05, + "loss": 0.4753, + "step": 1770 + }, + { + "epoch": 4.746666666666667, + "grad_norm": 1.4450587034225464, + "learning_rate": 2.3733333333333335e-05, + "loss": 0.4703, + "step": 1780 + }, + { + "epoch": 4.773333333333333, + "grad_norm": 1.1887861490249634, + "learning_rate": 2.3866666666666666e-05, + "loss": 0.4948, + "step": 1790 + }, + { + "epoch": 4.8, + "grad_norm": 1.1826320886611938, + "learning_rate": 2.4e-05, + "loss": 0.4476, + "step": 1800 + }, + { + "epoch": 4.826666666666666, + "grad_norm": 1.2198917865753174, + "learning_rate": 2.4133333333333335e-05, + "loss": 0.4432, + "step": 1810 + }, + { + "epoch": 4.8533333333333335, + "grad_norm": 1.5406042337417603, + "learning_rate": 2.426666666666667e-05, + "loss": 0.4328, + "step": 1820 + }, + { + "epoch": 4.88, + "grad_norm": 1.405493974685669, + "learning_rate": 2.44e-05, + "loss": 0.481, + "step": 1830 + }, + { + "epoch": 4.906666666666666, + "grad_norm": 1.1060372591018677, + "learning_rate": 2.4533333333333334e-05, + "loss": 0.4566, + "step": 1840 + }, + { + "epoch": 4.933333333333334, + "grad_norm": 1.3357353210449219, + "learning_rate": 2.466666666666667e-05, + "loss": 0.4348, + "step": 1850 + }, + { + "epoch": 4.96, + "grad_norm": 1.412351131439209, + "learning_rate": 2.48e-05, + "loss": 0.4525, + "step": 1860 + }, + { + "epoch": 4.986666666666666, + "grad_norm": 1.0553109645843506, + "learning_rate": 2.4933333333333334e-05, + "loss": 0.4207, + "step": 1870 + }, + { + "epoch": 5.0, + "eval_accuracy": 0.8620833333333333, + "eval_loss": 0.44949954748153687, + "eval_runtime": 249.7348, + "eval_samples_per_second": 48.051, + "eval_steps_per_second": 1.502, + "step": 1875 + }, + { + "epoch": 5.013333333333334, + "grad_norm": 1.487226963043213, + "learning_rate": 2.5066666666666665e-05, + "loss": 0.3724, + "step": 1880 + }, + { + "epoch": 5.04, + "grad_norm": 0.9325187802314758, + "learning_rate": 2.5200000000000003e-05, + "loss": 0.4163, + "step": 1890 + }, + { + "epoch": 5.066666666666666, + "grad_norm": 1.2603026628494263, + "learning_rate": 2.5333333333333337e-05, + "loss": 0.4303, + "step": 1900 + }, + { + "epoch": 5.093333333333334, + "grad_norm": 1.299117088317871, + "learning_rate": 2.5466666666666668e-05, + "loss": 0.4388, + "step": 1910 + }, + { + "epoch": 5.12, + "grad_norm": 1.4388401508331299, + "learning_rate": 2.5600000000000002e-05, + "loss": 0.4215, + "step": 1920 + }, + { + "epoch": 5.1466666666666665, + "grad_norm": 1.1698435544967651, + "learning_rate": 2.5733333333333337e-05, + "loss": 0.4436, + "step": 1930 + }, + { + "epoch": 5.173333333333334, + "grad_norm": 1.224798560142517, + "learning_rate": 2.5866666666666667e-05, + "loss": 0.4204, + "step": 1940 + }, + { + "epoch": 5.2, + "grad_norm": 1.1372491121292114, + "learning_rate": 2.6000000000000002e-05, + "loss": 0.3966, + "step": 1950 + }, + { + "epoch": 5.226666666666667, + "grad_norm": 1.7697786092758179, + "learning_rate": 2.6133333333333333e-05, + "loss": 0.4531, + "step": 1960 + }, + { + "epoch": 5.253333333333333, + "grad_norm": 1.1250134706497192, + "learning_rate": 2.6266666666666667e-05, + "loss": 0.4479, + "step": 1970 + }, + { + "epoch": 5.28, + "grad_norm": 1.1149576902389526, + "learning_rate": 2.64e-05, + "loss": 0.4024, + "step": 1980 + }, + { + "epoch": 5.306666666666667, + "grad_norm": 0.8580728769302368, + "learning_rate": 2.6533333333333332e-05, + "loss": 0.4095, + "step": 1990 + }, + { + "epoch": 5.333333333333333, + "grad_norm": 1.3150044679641724, + "learning_rate": 2.6666666666666667e-05, + "loss": 0.4311, + "step": 2000 + }, + { + "epoch": 5.36, + "grad_norm": 1.5291498899459839, + "learning_rate": 2.6800000000000004e-05, + "loss": 0.3829, + "step": 2010 + }, + { + "epoch": 5.386666666666667, + "grad_norm": 1.1148710250854492, + "learning_rate": 2.6933333333333332e-05, + "loss": 0.3988, + "step": 2020 + }, + { + "epoch": 5.413333333333333, + "grad_norm": 1.181640625, + "learning_rate": 2.706666666666667e-05, + "loss": 0.4108, + "step": 2030 + }, + { + "epoch": 5.44, + "grad_norm": 1.1221822500228882, + "learning_rate": 2.7200000000000004e-05, + "loss": 0.3953, + "step": 2040 + }, + { + "epoch": 5.466666666666667, + "grad_norm": 1.305713415145874, + "learning_rate": 2.733333333333333e-05, + "loss": 0.3891, + "step": 2050 + }, + { + "epoch": 5.493333333333333, + "grad_norm": 1.1887928247451782, + "learning_rate": 2.746666666666667e-05, + "loss": 0.3832, + "step": 2060 + }, + { + "epoch": 5.52, + "grad_norm": 1.0353480577468872, + "learning_rate": 2.7600000000000003e-05, + "loss": 0.4395, + "step": 2070 + }, + { + "epoch": 5.546666666666667, + "grad_norm": 1.3996936082839966, + "learning_rate": 2.7733333333333334e-05, + "loss": 0.429, + "step": 2080 + }, + { + "epoch": 5.573333333333333, + "grad_norm": 1.3166385889053345, + "learning_rate": 2.786666666666667e-05, + "loss": 0.4384, + "step": 2090 + }, + { + "epoch": 5.6, + "grad_norm": 1.241619348526001, + "learning_rate": 2.8000000000000003e-05, + "loss": 0.4302, + "step": 2100 + }, + { + "epoch": 5.626666666666667, + "grad_norm": 1.4851853847503662, + "learning_rate": 2.8133333333333334e-05, + "loss": 0.4094, + "step": 2110 + }, + { + "epoch": 5.653333333333333, + "grad_norm": 1.774938702583313, + "learning_rate": 2.8266666666666668e-05, + "loss": 0.4453, + "step": 2120 + }, + { + "epoch": 5.68, + "grad_norm": 1.681108832359314, + "learning_rate": 2.84e-05, + "loss": 0.4176, + "step": 2130 + }, + { + "epoch": 5.706666666666667, + "grad_norm": 1.012275218963623, + "learning_rate": 2.8533333333333333e-05, + "loss": 0.3822, + "step": 2140 + }, + { + "epoch": 5.733333333333333, + "grad_norm": 0.9668782949447632, + "learning_rate": 2.8666666666666668e-05, + "loss": 0.4064, + "step": 2150 + }, + { + "epoch": 5.76, + "grad_norm": 1.0975890159606934, + "learning_rate": 2.88e-05, + "loss": 0.3868, + "step": 2160 + }, + { + "epoch": 5.786666666666667, + "grad_norm": 1.3022563457489014, + "learning_rate": 2.8933333333333333e-05, + "loss": 0.3942, + "step": 2170 + }, + { + "epoch": 5.8133333333333335, + "grad_norm": 1.1875505447387695, + "learning_rate": 2.906666666666667e-05, + "loss": 0.3838, + "step": 2180 + }, + { + "epoch": 5.84, + "grad_norm": 1.2263437509536743, + "learning_rate": 2.9199999999999998e-05, + "loss": 0.3611, + "step": 2190 + }, + { + "epoch": 5.866666666666667, + "grad_norm": 1.5053207874298096, + "learning_rate": 2.9333333333333336e-05, + "loss": 0.4357, + "step": 2200 + }, + { + "epoch": 5.8933333333333335, + "grad_norm": 1.1794692277908325, + "learning_rate": 2.946666666666667e-05, + "loss": 0.403, + "step": 2210 + }, + { + "epoch": 5.92, + "grad_norm": 1.2697879076004028, + "learning_rate": 2.96e-05, + "loss": 0.4162, + "step": 2220 + }, + { + "epoch": 5.946666666666666, + "grad_norm": 0.9458759427070618, + "learning_rate": 2.9733333333333336e-05, + "loss": 0.4084, + "step": 2230 + }, + { + "epoch": 5.973333333333334, + "grad_norm": 1.431753396987915, + "learning_rate": 2.986666666666667e-05, + "loss": 0.3758, + "step": 2240 + }, + { + "epoch": 6.0, + "grad_norm": 1.057325839996338, + "learning_rate": 3e-05, + "loss": 0.3604, + "step": 2250 + }, + { + "epoch": 6.0, + "eval_accuracy": 0.8655, + "eval_loss": 0.41260525584220886, + "eval_runtime": 250.054, + "eval_samples_per_second": 47.99, + "eval_steps_per_second": 1.5, + "step": 2250 + }, + { + "epoch": 6.026666666666666, + "grad_norm": 1.1537690162658691, + "learning_rate": 3.0133333333333335e-05, + "loss": 0.3781, + "step": 2260 + }, + { + "epoch": 6.053333333333334, + "grad_norm": 0.9227214455604553, + "learning_rate": 3.0266666666666666e-05, + "loss": 0.3751, + "step": 2270 + }, + { + "epoch": 6.08, + "grad_norm": 1.1220436096191406, + "learning_rate": 3.04e-05, + "loss": 0.385, + "step": 2280 + }, + { + "epoch": 6.1066666666666665, + "grad_norm": 1.316062331199646, + "learning_rate": 3.0533333333333335e-05, + "loss": 0.3743, + "step": 2290 + }, + { + "epoch": 6.133333333333334, + "grad_norm": 1.233098030090332, + "learning_rate": 3.066666666666667e-05, + "loss": 0.4141, + "step": 2300 + }, + { + "epoch": 6.16, + "grad_norm": 1.0905852317810059, + "learning_rate": 3.08e-05, + "loss": 0.4025, + "step": 2310 + }, + { + "epoch": 6.1866666666666665, + "grad_norm": 1.383314609527588, + "learning_rate": 3.093333333333334e-05, + "loss": 0.3936, + "step": 2320 + }, + { + "epoch": 6.213333333333333, + "grad_norm": 1.0277948379516602, + "learning_rate": 3.1066666666666665e-05, + "loss": 0.373, + "step": 2330 + }, + { + "epoch": 6.24, + "grad_norm": 0.9248735904693604, + "learning_rate": 3.12e-05, + "loss": 0.3813, + "step": 2340 + }, + { + "epoch": 6.266666666666667, + "grad_norm": 0.980923056602478, + "learning_rate": 3.1333333333333334e-05, + "loss": 0.3758, + "step": 2350 + }, + { + "epoch": 6.293333333333333, + "grad_norm": 1.0026986598968506, + "learning_rate": 3.146666666666667e-05, + "loss": 0.3455, + "step": 2360 + }, + { + "epoch": 6.32, + "grad_norm": 1.2889373302459717, + "learning_rate": 3.16e-05, + "loss": 0.4124, + "step": 2370 + }, + { + "epoch": 6.346666666666667, + "grad_norm": 1.1151232719421387, + "learning_rate": 3.173333333333334e-05, + "loss": 0.3937, + "step": 2380 + }, + { + "epoch": 6.373333333333333, + "grad_norm": 1.1859952211380005, + "learning_rate": 3.1866666666666664e-05, + "loss": 0.4234, + "step": 2390 + }, + { + "epoch": 6.4, + "grad_norm": 1.0505211353302002, + "learning_rate": 3.2000000000000005e-05, + "loss": 0.3916, + "step": 2400 + }, + { + "epoch": 6.426666666666667, + "grad_norm": 0.9080841541290283, + "learning_rate": 3.213333333333334e-05, + "loss": 0.3525, + "step": 2410 + }, + { + "epoch": 6.453333333333333, + "grad_norm": 1.016626000404358, + "learning_rate": 3.226666666666667e-05, + "loss": 0.3775, + "step": 2420 + }, + { + "epoch": 6.48, + "grad_norm": 1.3775297403335571, + "learning_rate": 3.24e-05, + "loss": 0.3756, + "step": 2430 + }, + { + "epoch": 6.506666666666667, + "grad_norm": 0.775924563407898, + "learning_rate": 3.253333333333333e-05, + "loss": 0.3378, + "step": 2440 + }, + { + "epoch": 6.533333333333333, + "grad_norm": 1.5069085359573364, + "learning_rate": 3.266666666666667e-05, + "loss": 0.3614, + "step": 2450 + }, + { + "epoch": 6.5600000000000005, + "grad_norm": 1.3161460161209106, + "learning_rate": 3.2800000000000004e-05, + "loss": 0.3943, + "step": 2460 + }, + { + "epoch": 6.586666666666667, + "grad_norm": 1.3259575366973877, + "learning_rate": 3.293333333333333e-05, + "loss": 0.3717, + "step": 2470 + }, + { + "epoch": 6.613333333333333, + "grad_norm": 1.3593661785125732, + "learning_rate": 3.3066666666666666e-05, + "loss": 0.4385, + "step": 2480 + }, + { + "epoch": 6.64, + "grad_norm": 1.1150352954864502, + "learning_rate": 3.32e-05, + "loss": 0.3576, + "step": 2490 + }, + { + "epoch": 6.666666666666667, + "grad_norm": 0.9887901544570923, + "learning_rate": 3.3333333333333335e-05, + "loss": 0.392, + "step": 2500 + }, + { + "epoch": 6.693333333333333, + "grad_norm": 1.388339877128601, + "learning_rate": 3.346666666666667e-05, + "loss": 0.381, + "step": 2510 + }, + { + "epoch": 6.72, + "grad_norm": 1.0314621925354004, + "learning_rate": 3.3600000000000004e-05, + "loss": 0.38, + "step": 2520 + }, + { + "epoch": 6.746666666666667, + "grad_norm": 1.588046669960022, + "learning_rate": 3.373333333333333e-05, + "loss": 0.3897, + "step": 2530 + }, + { + "epoch": 6.773333333333333, + "grad_norm": 1.0398540496826172, + "learning_rate": 3.3866666666666665e-05, + "loss": 0.3474, + "step": 2540 + }, + { + "epoch": 6.8, + "grad_norm": 1.2241482734680176, + "learning_rate": 3.4000000000000007e-05, + "loss": 0.38, + "step": 2550 + }, + { + "epoch": 6.826666666666666, + "grad_norm": 1.2187809944152832, + "learning_rate": 3.4133333333333334e-05, + "loss": 0.3424, + "step": 2560 + }, + { + "epoch": 6.8533333333333335, + "grad_norm": 1.665645718574524, + "learning_rate": 3.426666666666667e-05, + "loss": 0.3767, + "step": 2570 + }, + { + "epoch": 6.88, + "grad_norm": 1.106926679611206, + "learning_rate": 3.4399999999999996e-05, + "loss": 0.367, + "step": 2580 + }, + { + "epoch": 6.906666666666666, + "grad_norm": 1.2827609777450562, + "learning_rate": 3.453333333333334e-05, + "loss": 0.3687, + "step": 2590 + }, + { + "epoch": 6.933333333333334, + "grad_norm": 1.010549545288086, + "learning_rate": 3.466666666666667e-05, + "loss": 0.3698, + "step": 2600 + }, + { + "epoch": 6.96, + "grad_norm": 1.1130890846252441, + "learning_rate": 3.48e-05, + "loss": 0.4127, + "step": 2610 + }, + { + "epoch": 6.986666666666666, + "grad_norm": 1.268324851989746, + "learning_rate": 3.493333333333333e-05, + "loss": 0.3618, + "step": 2620 + }, + { + "epoch": 7.0, + "eval_accuracy": 0.8690833333333333, + "eval_loss": 0.38323599100112915, + "eval_runtime": 250.1627, + "eval_samples_per_second": 47.969, + "eval_steps_per_second": 1.499, + "step": 2625 + }, + { + "epoch": 7.013333333333334, + "grad_norm": 1.3853873014450073, + "learning_rate": 3.506666666666667e-05, + "loss": 0.3221, + "step": 2630 + }, + { + "epoch": 7.04, + "grad_norm": 1.3326914310455322, + "learning_rate": 3.52e-05, + "loss": 0.3467, + "step": 2640 + }, + { + "epoch": 7.066666666666666, + "grad_norm": 2.0146069526672363, + "learning_rate": 3.5333333333333336e-05, + "loss": 0.3611, + "step": 2650 + }, + { + "epoch": 7.093333333333334, + "grad_norm": 1.1076328754425049, + "learning_rate": 3.546666666666667e-05, + "loss": 0.3699, + "step": 2660 + }, + { + "epoch": 7.12, + "grad_norm": 1.0090011358261108, + "learning_rate": 3.56e-05, + "loss": 0.3292, + "step": 2670 + }, + { + "epoch": 7.1466666666666665, + "grad_norm": 0.9773492217063904, + "learning_rate": 3.573333333333333e-05, + "loss": 0.3614, + "step": 2680 + }, + { + "epoch": 7.173333333333334, + "grad_norm": 1.2434812784194946, + "learning_rate": 3.586666666666667e-05, + "loss": 0.3878, + "step": 2690 + }, + { + "epoch": 7.2, + "grad_norm": 1.3080124855041504, + "learning_rate": 3.6e-05, + "loss": 0.3534, + "step": 2700 + }, + { + "epoch": 7.226666666666667, + "grad_norm": 1.4765065908432007, + "learning_rate": 3.6133333333333335e-05, + "loss": 0.3499, + "step": 2710 + }, + { + "epoch": 7.253333333333333, + "grad_norm": 1.1715103387832642, + "learning_rate": 3.626666666666667e-05, + "loss": 0.4057, + "step": 2720 + }, + { + "epoch": 7.28, + "grad_norm": 0.97383713722229, + "learning_rate": 3.6400000000000004e-05, + "loss": 0.3326, + "step": 2730 + }, + { + "epoch": 7.306666666666667, + "grad_norm": 1.017042636871338, + "learning_rate": 3.653333333333334e-05, + "loss": 0.3264, + "step": 2740 + }, + { + "epoch": 7.333333333333333, + "grad_norm": 0.9164740443229675, + "learning_rate": 3.6666666666666666e-05, + "loss": 0.3715, + "step": 2750 + }, + { + "epoch": 7.36, + "grad_norm": 1.0807558298110962, + "learning_rate": 3.68e-05, + "loss": 0.3452, + "step": 2760 + }, + { + "epoch": 7.386666666666667, + "grad_norm": 1.3183648586273193, + "learning_rate": 3.6933333333333334e-05, + "loss": 0.366, + "step": 2770 + }, + { + "epoch": 7.413333333333333, + "grad_norm": 1.0195010900497437, + "learning_rate": 3.706666666666667e-05, + "loss": 0.3302, + "step": 2780 + }, + { + "epoch": 7.44, + "grad_norm": 1.145652174949646, + "learning_rate": 3.72e-05, + "loss": 0.3296, + "step": 2790 + }, + { + "epoch": 7.466666666666667, + "grad_norm": 1.095531940460205, + "learning_rate": 3.733333333333334e-05, + "loss": 0.3203, + "step": 2800 + }, + { + "epoch": 7.493333333333333, + "grad_norm": 0.988767683506012, + "learning_rate": 3.7466666666666665e-05, + "loss": 0.3708, + "step": 2810 + }, + { + "epoch": 7.52, + "grad_norm": 1.335120439529419, + "learning_rate": 3.76e-05, + "loss": 0.351, + "step": 2820 + }, + { + "epoch": 7.546666666666667, + "grad_norm": 1.0117450952529907, + "learning_rate": 3.773333333333334e-05, + "loss": 0.3532, + "step": 2830 + }, + { + "epoch": 7.573333333333333, + "grad_norm": 1.1973203420639038, + "learning_rate": 3.786666666666667e-05, + "loss": 0.3907, + "step": 2840 + }, + { + "epoch": 7.6, + "grad_norm": 1.3828959465026855, + "learning_rate": 3.8e-05, + "loss": 0.3896, + "step": 2850 + }, + { + "epoch": 7.626666666666667, + "grad_norm": 0.7788476347923279, + "learning_rate": 3.8133333333333336e-05, + "loss": 0.3396, + "step": 2860 + }, + { + "epoch": 7.653333333333333, + "grad_norm": 1.0035938024520874, + "learning_rate": 3.8266666666666664e-05, + "loss": 0.3589, + "step": 2870 + }, + { + "epoch": 7.68, + "grad_norm": 0.9664866924285889, + "learning_rate": 3.8400000000000005e-05, + "loss": 0.3619, + "step": 2880 + }, + { + "epoch": 7.706666666666667, + "grad_norm": 0.9333173632621765, + "learning_rate": 3.853333333333334e-05, + "loss": 0.3367, + "step": 2890 + }, + { + "epoch": 7.733333333333333, + "grad_norm": 0.9549736976623535, + "learning_rate": 3.866666666666667e-05, + "loss": 0.3677, + "step": 2900 + }, + { + "epoch": 7.76, + "grad_norm": 1.210145115852356, + "learning_rate": 3.88e-05, + "loss": 0.3352, + "step": 2910 + }, + { + "epoch": 7.786666666666667, + "grad_norm": 0.7399745583534241, + "learning_rate": 3.8933333333333336e-05, + "loss": 0.3796, + "step": 2920 + }, + { + "epoch": 7.8133333333333335, + "grad_norm": 0.7903591394424438, + "learning_rate": 3.906666666666667e-05, + "loss": 0.3641, + "step": 2930 + }, + { + "epoch": 7.84, + "grad_norm": 1.0947338342666626, + "learning_rate": 3.9200000000000004e-05, + "loss": 0.3329, + "step": 2940 + }, + { + "epoch": 7.866666666666667, + "grad_norm": 1.385036587715149, + "learning_rate": 3.933333333333333e-05, + "loss": 0.3625, + "step": 2950 + }, + { + "epoch": 7.8933333333333335, + "grad_norm": 1.1349703073501587, + "learning_rate": 3.9466666666666666e-05, + "loss": 0.3562, + "step": 2960 + }, + { + "epoch": 7.92, + "grad_norm": 1.0462818145751953, + "learning_rate": 3.960000000000001e-05, + "loss": 0.3747, + "step": 2970 + }, + { + "epoch": 7.946666666666666, + "grad_norm": 1.184927225112915, + "learning_rate": 3.9733333333333335e-05, + "loss": 0.3355, + "step": 2980 + }, + { + "epoch": 7.973333333333334, + "grad_norm": 0.7963899970054626, + "learning_rate": 3.986666666666667e-05, + "loss": 0.3353, + "step": 2990 + }, + { + "epoch": 8.0, + "grad_norm": 1.0202020406723022, + "learning_rate": 4e-05, + "loss": 0.3129, + "step": 3000 + }, + { + "epoch": 8.0, + "eval_accuracy": 0.8735, + "eval_loss": 0.3670659065246582, + "eval_runtime": 249.9213, + "eval_samples_per_second": 48.015, + "eval_steps_per_second": 1.5, + "step": 3000 + }, + { + "epoch": 8.026666666666667, + "grad_norm": 1.1990036964416504, + "learning_rate": 4.013333333333333e-05, + "loss": 0.324, + "step": 3010 + }, + { + "epoch": 8.053333333333333, + "grad_norm": 1.1469494104385376, + "learning_rate": 4.026666666666667e-05, + "loss": 0.3332, + "step": 3020 + }, + { + "epoch": 8.08, + "grad_norm": 1.1124786138534546, + "learning_rate": 4.0400000000000006e-05, + "loss": 0.3552, + "step": 3030 + }, + { + "epoch": 8.106666666666667, + "grad_norm": 0.8214703798294067, + "learning_rate": 4.0533333333333334e-05, + "loss": 0.3089, + "step": 3040 + }, + { + "epoch": 8.133333333333333, + "grad_norm": 1.2005770206451416, + "learning_rate": 4.066666666666667e-05, + "loss": 0.3419, + "step": 3050 + }, + { + "epoch": 8.16, + "grad_norm": 0.9036789536476135, + "learning_rate": 4.08e-05, + "loss": 0.3024, + "step": 3060 + }, + { + "epoch": 8.186666666666667, + "grad_norm": 1.2493318319320679, + "learning_rate": 4.093333333333334e-05, + "loss": 0.3455, + "step": 3070 + }, + { + "epoch": 8.213333333333333, + "grad_norm": 0.7038171291351318, + "learning_rate": 4.106666666666667e-05, + "loss": 0.3569, + "step": 3080 + }, + { + "epoch": 8.24, + "grad_norm": 1.1271955966949463, + "learning_rate": 4.12e-05, + "loss": 0.2989, + "step": 3090 + }, + { + "epoch": 8.266666666666667, + "grad_norm": 0.9328200221061707, + "learning_rate": 4.133333333333333e-05, + "loss": 0.3237, + "step": 3100 + }, + { + "epoch": 8.293333333333333, + "grad_norm": 1.0676214694976807, + "learning_rate": 4.146666666666667e-05, + "loss": 0.301, + "step": 3110 + }, + { + "epoch": 8.32, + "grad_norm": 0.7362902164459229, + "learning_rate": 4.16e-05, + "loss": 0.364, + "step": 3120 + }, + { + "epoch": 8.346666666666668, + "grad_norm": 1.4200522899627686, + "learning_rate": 4.1733333333333336e-05, + "loss": 0.3329, + "step": 3130 + }, + { + "epoch": 8.373333333333333, + "grad_norm": 0.8434764742851257, + "learning_rate": 4.186666666666667e-05, + "loss": 0.3369, + "step": 3140 + }, + { + "epoch": 8.4, + "grad_norm": 1.1177301406860352, + "learning_rate": 4.2e-05, + "loss": 0.3113, + "step": 3150 + }, + { + "epoch": 8.426666666666666, + "grad_norm": 1.1583192348480225, + "learning_rate": 4.213333333333334e-05, + "loss": 0.3282, + "step": 3160 + }, + { + "epoch": 8.453333333333333, + "grad_norm": 1.2726008892059326, + "learning_rate": 4.226666666666667e-05, + "loss": 0.3586, + "step": 3170 + }, + { + "epoch": 8.48, + "grad_norm": 0.9566053152084351, + "learning_rate": 4.24e-05, + "loss": 0.314, + "step": 3180 + }, + { + "epoch": 8.506666666666666, + "grad_norm": 1.1776909828186035, + "learning_rate": 4.2533333333333335e-05, + "loss": 0.3177, + "step": 3190 + }, + { + "epoch": 8.533333333333333, + "grad_norm": 0.870840311050415, + "learning_rate": 4.266666666666667e-05, + "loss": 0.3434, + "step": 3200 + }, + { + "epoch": 8.56, + "grad_norm": 1.181289553642273, + "learning_rate": 4.2800000000000004e-05, + "loss": 0.3377, + "step": 3210 + }, + { + "epoch": 8.586666666666666, + "grad_norm": 1.1119019985198975, + "learning_rate": 4.293333333333334e-05, + "loss": 0.3224, + "step": 3220 + }, + { + "epoch": 8.613333333333333, + "grad_norm": 1.068803310394287, + "learning_rate": 4.3066666666666665e-05, + "loss": 0.3196, + "step": 3230 + }, + { + "epoch": 8.64, + "grad_norm": 1.019371747970581, + "learning_rate": 4.32e-05, + "loss": 0.3256, + "step": 3240 + }, + { + "epoch": 8.666666666666666, + "grad_norm": 1.0368677377700806, + "learning_rate": 4.3333333333333334e-05, + "loss": 0.2868, + "step": 3250 + }, + { + "epoch": 8.693333333333333, + "grad_norm": 0.9881754517555237, + "learning_rate": 4.346666666666667e-05, + "loss": 0.3422, + "step": 3260 + }, + { + "epoch": 8.72, + "grad_norm": 1.313144326210022, + "learning_rate": 4.36e-05, + "loss": 0.3383, + "step": 3270 + }, + { + "epoch": 8.746666666666666, + "grad_norm": 0.9378319978713989, + "learning_rate": 4.373333333333334e-05, + "loss": 0.3408, + "step": 3280 + }, + { + "epoch": 8.773333333333333, + "grad_norm": 1.3141783475875854, + "learning_rate": 4.3866666666666665e-05, + "loss": 0.3411, + "step": 3290 + }, + { + "epoch": 8.8, + "grad_norm": 0.7097713351249695, + "learning_rate": 4.4000000000000006e-05, + "loss": 0.3235, + "step": 3300 + }, + { + "epoch": 8.826666666666666, + "grad_norm": 1.3685508966445923, + "learning_rate": 4.413333333333334e-05, + "loss": 0.3393, + "step": 3310 + }, + { + "epoch": 8.853333333333333, + "grad_norm": 1.2369203567504883, + "learning_rate": 4.426666666666667e-05, + "loss": 0.3581, + "step": 3320 + }, + { + "epoch": 8.88, + "grad_norm": 1.0951428413391113, + "learning_rate": 4.44e-05, + "loss": 0.3092, + "step": 3330 + }, + { + "epoch": 8.906666666666666, + "grad_norm": 1.0099565982818604, + "learning_rate": 4.4533333333333336e-05, + "loss": 0.3235, + "step": 3340 + }, + { + "epoch": 8.933333333333334, + "grad_norm": 1.0069804191589355, + "learning_rate": 4.466666666666667e-05, + "loss": 0.323, + "step": 3350 + }, + { + "epoch": 8.96, + "grad_norm": 1.22927987575531, + "learning_rate": 4.4800000000000005e-05, + "loss": 0.3611, + "step": 3360 + }, + { + "epoch": 8.986666666666666, + "grad_norm": 0.9956313371658325, + "learning_rate": 4.493333333333333e-05, + "loss": 0.2918, + "step": 3370 + }, + { + "epoch": 9.0, + "eval_accuracy": 0.8794166666666666, + "eval_loss": 0.34058070182800293, + "eval_runtime": 250.0227, + "eval_samples_per_second": 47.996, + "eval_steps_per_second": 1.5, + "step": 3375 + }, + { + "epoch": 9.013333333333334, + "grad_norm": 1.331423044204712, + "learning_rate": 4.5066666666666667e-05, + "loss": 0.3068, + "step": 3380 + }, + { + "epoch": 9.04, + "grad_norm": 0.7804103493690491, + "learning_rate": 4.52e-05, + "loss": 0.2974, + "step": 3390 + }, + { + "epoch": 9.066666666666666, + "grad_norm": 1.0219981670379639, + "learning_rate": 4.5333333333333335e-05, + "loss": 0.3184, + "step": 3400 + }, + { + "epoch": 9.093333333333334, + "grad_norm": 0.8608193397521973, + "learning_rate": 4.546666666666667e-05, + "loss": 0.3138, + "step": 3410 + }, + { + "epoch": 9.12, + "grad_norm": 1.299875020980835, + "learning_rate": 4.5600000000000004e-05, + "loss": 0.3433, + "step": 3420 + }, + { + "epoch": 9.146666666666667, + "grad_norm": 1.1877332925796509, + "learning_rate": 4.573333333333333e-05, + "loss": 0.366, + "step": 3430 + }, + { + "epoch": 9.173333333333334, + "grad_norm": 0.7962378263473511, + "learning_rate": 4.5866666666666666e-05, + "loss": 0.2866, + "step": 3440 + }, + { + "epoch": 9.2, + "grad_norm": 0.6703245639801025, + "learning_rate": 4.600000000000001e-05, + "loss": 0.301, + "step": 3450 + }, + { + "epoch": 9.226666666666667, + "grad_norm": 0.9960207343101501, + "learning_rate": 4.6133333333333334e-05, + "loss": 0.3151, + "step": 3460 + }, + { + "epoch": 9.253333333333334, + "grad_norm": 0.9815031886100769, + "learning_rate": 4.626666666666667e-05, + "loss": 0.3238, + "step": 3470 + }, + { + "epoch": 9.28, + "grad_norm": 0.917545735836029, + "learning_rate": 4.64e-05, + "loss": 0.3104, + "step": 3480 + }, + { + "epoch": 9.306666666666667, + "grad_norm": 1.035467267036438, + "learning_rate": 4.653333333333334e-05, + "loss": 0.3103, + "step": 3490 + }, + { + "epoch": 9.333333333333334, + "grad_norm": 1.051026463508606, + "learning_rate": 4.666666666666667e-05, + "loss": 0.3206, + "step": 3500 + }, + { + "epoch": 9.36, + "grad_norm": 0.7698755860328674, + "learning_rate": 4.6800000000000006e-05, + "loss": 0.3308, + "step": 3510 + }, + { + "epoch": 9.386666666666667, + "grad_norm": 0.9168539047241211, + "learning_rate": 4.6933333333333333e-05, + "loss": 0.3123, + "step": 3520 + }, + { + "epoch": 9.413333333333334, + "grad_norm": 1.0283716917037964, + "learning_rate": 4.706666666666667e-05, + "loss": 0.3258, + "step": 3530 + }, + { + "epoch": 9.44, + "grad_norm": 1.1083451509475708, + "learning_rate": 4.72e-05, + "loss": 0.3099, + "step": 3540 + }, + { + "epoch": 9.466666666666667, + "grad_norm": 0.8982616662979126, + "learning_rate": 4.7333333333333336e-05, + "loss": 0.3027, + "step": 3550 + }, + { + "epoch": 9.493333333333334, + "grad_norm": 1.0877487659454346, + "learning_rate": 4.746666666666667e-05, + "loss": 0.2956, + "step": 3560 + }, + { + "epoch": 9.52, + "grad_norm": 1.191184163093567, + "learning_rate": 4.76e-05, + "loss": 0.342, + "step": 3570 + }, + { + "epoch": 9.546666666666667, + "grad_norm": 0.8474676609039307, + "learning_rate": 4.773333333333333e-05, + "loss": 0.304, + "step": 3580 + }, + { + "epoch": 9.573333333333334, + "grad_norm": 1.0417426824569702, + "learning_rate": 4.7866666666666674e-05, + "loss": 0.2965, + "step": 3590 + }, + { + "epoch": 9.6, + "grad_norm": 1.1297999620437622, + "learning_rate": 4.8e-05, + "loss": 0.2915, + "step": 3600 + }, + { + "epoch": 9.626666666666667, + "grad_norm": 1.0381224155426025, + "learning_rate": 4.8133333333333336e-05, + "loss": 0.2923, + "step": 3610 + }, + { + "epoch": 9.653333333333332, + "grad_norm": 1.0109899044036865, + "learning_rate": 4.826666666666667e-05, + "loss": 0.3172, + "step": 3620 + }, + { + "epoch": 9.68, + "grad_norm": 1.2492258548736572, + "learning_rate": 4.8400000000000004e-05, + "loss": 0.2996, + "step": 3630 + }, + { + "epoch": 9.706666666666667, + "grad_norm": 1.4475677013397217, + "learning_rate": 4.853333333333334e-05, + "loss": 0.3148, + "step": 3640 + }, + { + "epoch": 9.733333333333333, + "grad_norm": 1.0414727926254272, + "learning_rate": 4.866666666666667e-05, + "loss": 0.2643, + "step": 3650 + }, + { + "epoch": 9.76, + "grad_norm": 1.4769376516342163, + "learning_rate": 4.88e-05, + "loss": 0.3219, + "step": 3660 + }, + { + "epoch": 9.786666666666667, + "grad_norm": 1.0891233682632446, + "learning_rate": 4.8933333333333335e-05, + "loss": 0.3165, + "step": 3670 + }, + { + "epoch": 9.813333333333333, + "grad_norm": 1.1873751878738403, + "learning_rate": 4.906666666666667e-05, + "loss": 0.3067, + "step": 3680 + }, + { + "epoch": 9.84, + "grad_norm": 1.2168985605239868, + "learning_rate": 4.92e-05, + "loss": 0.3141, + "step": 3690 + }, + { + "epoch": 9.866666666666667, + "grad_norm": 1.4385560750961304, + "learning_rate": 4.933333333333334e-05, + "loss": 0.2948, + "step": 3700 + }, + { + "epoch": 9.893333333333333, + "grad_norm": 0.9587885141372681, + "learning_rate": 4.9466666666666665e-05, + "loss": 0.2999, + "step": 3710 + }, + { + "epoch": 9.92, + "grad_norm": 0.7605528831481934, + "learning_rate": 4.96e-05, + "loss": 0.2904, + "step": 3720 + }, + { + "epoch": 9.946666666666667, + "grad_norm": 0.9197943210601807, + "learning_rate": 4.973333333333334e-05, + "loss": 0.3002, + "step": 3730 + }, + { + "epoch": 9.973333333333333, + "grad_norm": 0.9895532131195068, + "learning_rate": 4.986666666666667e-05, + "loss": 0.3425, + "step": 3740 + }, + { + "epoch": 10.0, + "grad_norm": 1.0051286220550537, + "learning_rate": 5e-05, + "loss": 0.3278, + "step": 3750 + }, + { + "epoch": 10.0, + "eval_accuracy": 0.8774166666666666, + "eval_loss": 0.3483765721321106, + "eval_runtime": 249.4341, + "eval_samples_per_second": 48.109, + "eval_steps_per_second": 1.503, + "step": 3750 + }, + { + "epoch": 10.026666666666667, + "grad_norm": 0.8491660952568054, + "learning_rate": 4.998518518518518e-05, + "loss": 0.2767, + "step": 3760 + }, + { + "epoch": 10.053333333333333, + "grad_norm": 1.0298689603805542, + "learning_rate": 4.997037037037037e-05, + "loss": 0.2852, + "step": 3770 + }, + { + "epoch": 10.08, + "grad_norm": 1.0634586811065674, + "learning_rate": 4.995555555555556e-05, + "loss": 0.3026, + "step": 3780 + }, + { + "epoch": 10.106666666666667, + "grad_norm": 1.0354704856872559, + "learning_rate": 4.9940740740740745e-05, + "loss": 0.2877, + "step": 3790 + }, + { + "epoch": 10.133333333333333, + "grad_norm": 1.0123462677001953, + "learning_rate": 4.9925925925925926e-05, + "loss": 0.3132, + "step": 3800 + }, + { + "epoch": 10.16, + "grad_norm": 0.8517223596572876, + "learning_rate": 4.991111111111111e-05, + "loss": 0.2845, + "step": 3810 + }, + { + "epoch": 10.186666666666667, + "grad_norm": 0.8956115245819092, + "learning_rate": 4.9896296296296293e-05, + "loss": 0.3102, + "step": 3820 + }, + { + "epoch": 10.213333333333333, + "grad_norm": 1.0428314208984375, + "learning_rate": 4.988148148148149e-05, + "loss": 0.3161, + "step": 3830 + }, + { + "epoch": 10.24, + "grad_norm": 0.9418639540672302, + "learning_rate": 4.986666666666667e-05, + "loss": 0.325, + "step": 3840 + }, + { + "epoch": 10.266666666666667, + "grad_norm": 1.0829304456710815, + "learning_rate": 4.9851851851851855e-05, + "loss": 0.2889, + "step": 3850 + }, + { + "epoch": 10.293333333333333, + "grad_norm": 0.9718042016029358, + "learning_rate": 4.9837037037037036e-05, + "loss": 0.3158, + "step": 3860 + }, + { + "epoch": 10.32, + "grad_norm": 0.8945780992507935, + "learning_rate": 4.982222222222222e-05, + "loss": 0.3376, + "step": 3870 + }, + { + "epoch": 10.346666666666668, + "grad_norm": 1.2482484579086304, + "learning_rate": 4.980740740740741e-05, + "loss": 0.2983, + "step": 3880 + }, + { + "epoch": 10.373333333333333, + "grad_norm": 0.8141582608222961, + "learning_rate": 4.97925925925926e-05, + "loss": 0.2929, + "step": 3890 + }, + { + "epoch": 10.4, + "grad_norm": 0.7104393243789673, + "learning_rate": 4.977777777777778e-05, + "loss": 0.2917, + "step": 3900 + }, + { + "epoch": 10.426666666666666, + "grad_norm": 1.1380536556243896, + "learning_rate": 4.9762962962962966e-05, + "loss": 0.2948, + "step": 3910 + }, + { + "epoch": 10.453333333333333, + "grad_norm": 1.0419397354125977, + "learning_rate": 4.9748148148148146e-05, + "loss": 0.2796, + "step": 3920 + }, + { + "epoch": 10.48, + "grad_norm": 1.1697673797607422, + "learning_rate": 4.973333333333334e-05, + "loss": 0.2972, + "step": 3930 + }, + { + "epoch": 10.506666666666666, + "grad_norm": 1.0109014511108398, + "learning_rate": 4.971851851851852e-05, + "loss": 0.2916, + "step": 3940 + }, + { + "epoch": 10.533333333333333, + "grad_norm": 0.9663733243942261, + "learning_rate": 4.970370370370371e-05, + "loss": 0.282, + "step": 3950 + }, + { + "epoch": 10.56, + "grad_norm": 1.3836638927459717, + "learning_rate": 4.968888888888889e-05, + "loss": 0.2923, + "step": 3960 + }, + { + "epoch": 10.586666666666666, + "grad_norm": 0.7263649106025696, + "learning_rate": 4.9674074074074076e-05, + "loss": 0.3028, + "step": 3970 + }, + { + "epoch": 10.613333333333333, + "grad_norm": 0.9863650798797607, + "learning_rate": 4.9659259259259264e-05, + "loss": 0.3059, + "step": 3980 + }, + { + "epoch": 10.64, + "grad_norm": 1.039373755455017, + "learning_rate": 4.964444444444445e-05, + "loss": 0.3095, + "step": 3990 + }, + { + "epoch": 10.666666666666666, + "grad_norm": 0.9459337592124939, + "learning_rate": 4.962962962962963e-05, + "loss": 0.334, + "step": 4000 + }, + { + "epoch": 10.693333333333333, + "grad_norm": 0.6720755100250244, + "learning_rate": 4.961481481481482e-05, + "loss": 0.2931, + "step": 4010 + }, + { + "epoch": 10.72, + "grad_norm": 1.0891010761260986, + "learning_rate": 4.96e-05, + "loss": 0.281, + "step": 4020 + }, + { + "epoch": 10.746666666666666, + "grad_norm": 1.2608108520507812, + "learning_rate": 4.958518518518519e-05, + "loss": 0.2978, + "step": 4030 + }, + { + "epoch": 10.773333333333333, + "grad_norm": 1.0872828960418701, + "learning_rate": 4.9570370370370374e-05, + "loss": 0.2845, + "step": 4040 + }, + { + "epoch": 10.8, + "grad_norm": 1.4261547327041626, + "learning_rate": 4.955555555555556e-05, + "loss": 0.2991, + "step": 4050 + }, + { + "epoch": 10.826666666666666, + "grad_norm": 1.3085424900054932, + "learning_rate": 4.954074074074074e-05, + "loss": 0.2823, + "step": 4060 + }, + { + "epoch": 10.853333333333333, + "grad_norm": 0.7995527386665344, + "learning_rate": 4.952592592592592e-05, + "loss": 0.267, + "step": 4070 + }, + { + "epoch": 10.88, + "grad_norm": 0.8985316157341003, + "learning_rate": 4.951111111111112e-05, + "loss": 0.2907, + "step": 4080 + }, + { + "epoch": 10.906666666666666, + "grad_norm": 0.8624246716499329, + "learning_rate": 4.94962962962963e-05, + "loss": 0.2791, + "step": 4090 + }, + { + "epoch": 10.933333333333334, + "grad_norm": 0.9527334570884705, + "learning_rate": 4.9481481481481485e-05, + "loss": 0.2943, + "step": 4100 + }, + { + "epoch": 10.96, + "grad_norm": 0.5632626414299011, + "learning_rate": 4.9466666666666665e-05, + "loss": 0.2531, + "step": 4110 + }, + { + "epoch": 10.986666666666666, + "grad_norm": 1.0168466567993164, + "learning_rate": 4.945185185185185e-05, + "loss": 0.2951, + "step": 4120 + }, + { + "epoch": 11.0, + "eval_accuracy": 0.8813333333333333, + "eval_loss": 0.33049798011779785, + "eval_runtime": 249.6891, + "eval_samples_per_second": 48.06, + "eval_steps_per_second": 1.502, + "step": 4125 + }, + { + "epoch": 11.013333333333334, + "grad_norm": 1.1329760551452637, + "learning_rate": 4.943703703703704e-05, + "loss": 0.2945, + "step": 4130 + }, + { + "epoch": 11.04, + "grad_norm": 0.7936837673187256, + "learning_rate": 4.942222222222223e-05, + "loss": 0.2884, + "step": 4140 + }, + { + "epoch": 11.066666666666666, + "grad_norm": 1.3211606740951538, + "learning_rate": 4.940740740740741e-05, + "loss": 0.2503, + "step": 4150 + }, + { + "epoch": 11.093333333333334, + "grad_norm": 0.750946044921875, + "learning_rate": 4.9392592592592595e-05, + "loss": 0.2706, + "step": 4160 + }, + { + "epoch": 11.12, + "grad_norm": 1.0144660472869873, + "learning_rate": 4.9377777777777776e-05, + "loss": 0.2889, + "step": 4170 + }, + { + "epoch": 11.146666666666667, + "grad_norm": 1.0185914039611816, + "learning_rate": 4.936296296296297e-05, + "loss": 0.2771, + "step": 4180 + }, + { + "epoch": 11.173333333333334, + "grad_norm": 1.0491774082183838, + "learning_rate": 4.934814814814815e-05, + "loss": 0.2743, + "step": 4190 + }, + { + "epoch": 11.2, + "grad_norm": 0.9106046557426453, + "learning_rate": 4.933333333333334e-05, + "loss": 0.2816, + "step": 4200 + }, + { + "epoch": 11.226666666666667, + "grad_norm": 0.985514223575592, + "learning_rate": 4.931851851851852e-05, + "loss": 0.2804, + "step": 4210 + }, + { + "epoch": 11.253333333333334, + "grad_norm": 0.9636727571487427, + "learning_rate": 4.9303703703703705e-05, + "loss": 0.3098, + "step": 4220 + }, + { + "epoch": 11.28, + "grad_norm": 1.0055756568908691, + "learning_rate": 4.928888888888889e-05, + "loss": 0.2865, + "step": 4230 + }, + { + "epoch": 11.306666666666667, + "grad_norm": 1.032878041267395, + "learning_rate": 4.927407407407408e-05, + "loss": 0.2618, + "step": 4240 + }, + { + "epoch": 11.333333333333334, + "grad_norm": 0.9672583341598511, + "learning_rate": 4.925925925925926e-05, + "loss": 0.2949, + "step": 4250 + }, + { + "epoch": 11.36, + "grad_norm": 0.6188272833824158, + "learning_rate": 4.924444444444445e-05, + "loss": 0.2757, + "step": 4260 + }, + { + "epoch": 11.386666666666667, + "grad_norm": 0.9915037751197815, + "learning_rate": 4.922962962962963e-05, + "loss": 0.3073, + "step": 4270 + }, + { + "epoch": 11.413333333333334, + "grad_norm": 1.1850367784500122, + "learning_rate": 4.9214814814814816e-05, + "loss": 0.3185, + "step": 4280 + }, + { + "epoch": 11.44, + "grad_norm": 1.137850284576416, + "learning_rate": 4.92e-05, + "loss": 0.2654, + "step": 4290 + }, + { + "epoch": 11.466666666666667, + "grad_norm": 0.8076909184455872, + "learning_rate": 4.918518518518519e-05, + "loss": 0.2792, + "step": 4300 + }, + { + "epoch": 11.493333333333334, + "grad_norm": 1.014146327972412, + "learning_rate": 4.917037037037037e-05, + "loss": 0.2832, + "step": 4310 + }, + { + "epoch": 11.52, + "grad_norm": 0.6529107093811035, + "learning_rate": 4.915555555555556e-05, + "loss": 0.2933, + "step": 4320 + }, + { + "epoch": 11.546666666666667, + "grad_norm": 0.8933963179588318, + "learning_rate": 4.9140740740740746e-05, + "loss": 0.3036, + "step": 4330 + }, + { + "epoch": 11.573333333333334, + "grad_norm": 0.8025181293487549, + "learning_rate": 4.912592592592593e-05, + "loss": 0.288, + "step": 4340 + }, + { + "epoch": 11.6, + "grad_norm": 0.8378201723098755, + "learning_rate": 4.9111111111111114e-05, + "loss": 0.2609, + "step": 4350 + }, + { + "epoch": 11.626666666666667, + "grad_norm": 1.2006419897079468, + "learning_rate": 4.90962962962963e-05, + "loss": 0.2834, + "step": 4360 + }, + { + "epoch": 11.653333333333332, + "grad_norm": 0.883449912071228, + "learning_rate": 4.908148148148148e-05, + "loss": 0.2972, + "step": 4370 + }, + { + "epoch": 11.68, + "grad_norm": 1.1643561124801636, + "learning_rate": 4.906666666666667e-05, + "loss": 0.28, + "step": 4380 + }, + { + "epoch": 11.706666666666667, + "grad_norm": 0.8465391397476196, + "learning_rate": 4.9051851851851856e-05, + "loss": 0.2626, + "step": 4390 + }, + { + "epoch": 11.733333333333333, + "grad_norm": 0.8113766312599182, + "learning_rate": 4.903703703703704e-05, + "loss": 0.2754, + "step": 4400 + }, + { + "epoch": 11.76, + "grad_norm": 1.1312212944030762, + "learning_rate": 4.9022222222222224e-05, + "loss": 0.2874, + "step": 4410 + }, + { + "epoch": 11.786666666666667, + "grad_norm": 0.9732006192207336, + "learning_rate": 4.9007407407407405e-05, + "loss": 0.2585, + "step": 4420 + }, + { + "epoch": 11.813333333333333, + "grad_norm": 0.9120191335678101, + "learning_rate": 4.89925925925926e-05, + "loss": 0.2626, + "step": 4430 + }, + { + "epoch": 11.84, + "grad_norm": 0.82260662317276, + "learning_rate": 4.897777777777778e-05, + "loss": 0.2612, + "step": 4440 + }, + { + "epoch": 11.866666666666667, + "grad_norm": 0.853863000869751, + "learning_rate": 4.896296296296297e-05, + "loss": 0.2579, + "step": 4450 + }, + { + "epoch": 11.893333333333333, + "grad_norm": 0.8941542506217957, + "learning_rate": 4.894814814814815e-05, + "loss": 0.2431, + "step": 4460 + }, + { + "epoch": 11.92, + "grad_norm": 1.0879697799682617, + "learning_rate": 4.8933333333333335e-05, + "loss": 0.2936, + "step": 4470 + }, + { + "epoch": 11.946666666666667, + "grad_norm": 0.7603148818016052, + "learning_rate": 4.891851851851852e-05, + "loss": 0.2454, + "step": 4480 + }, + { + "epoch": 11.973333333333333, + "grad_norm": 1.0221105813980103, + "learning_rate": 4.890370370370371e-05, + "loss": 0.2402, + "step": 4490 + }, + { + "epoch": 12.0, + "grad_norm": 0.8571638464927673, + "learning_rate": 4.888888888888889e-05, + "loss": 0.278, + "step": 4500 + }, + { + "epoch": 12.0, + "eval_accuracy": 0.8811666666666667, + "eval_loss": 0.3329264223575592, + "eval_runtime": 249.4858, + "eval_samples_per_second": 48.099, + "eval_steps_per_second": 1.503, + "step": 4500 + }, + { + "epoch": 12.026666666666667, + "grad_norm": 1.126734733581543, + "learning_rate": 4.887407407407408e-05, + "loss": 0.2715, + "step": 4510 + }, + { + "epoch": 12.053333333333333, + "grad_norm": 1.0949597358703613, + "learning_rate": 4.885925925925926e-05, + "loss": 0.3059, + "step": 4520 + }, + { + "epoch": 12.08, + "grad_norm": 0.9064618945121765, + "learning_rate": 4.8844444444444445e-05, + "loss": 0.2748, + "step": 4530 + }, + { + "epoch": 12.106666666666667, + "grad_norm": 1.054699420928955, + "learning_rate": 4.882962962962963e-05, + "loss": 0.2541, + "step": 4540 + }, + { + "epoch": 12.133333333333333, + "grad_norm": 1.0697853565216064, + "learning_rate": 4.881481481481482e-05, + "loss": 0.2448, + "step": 4550 + }, + { + "epoch": 12.16, + "grad_norm": 0.7116659879684448, + "learning_rate": 4.88e-05, + "loss": 0.2448, + "step": 4560 + }, + { + "epoch": 12.186666666666667, + "grad_norm": 0.8856263756752014, + "learning_rate": 4.878518518518519e-05, + "loss": 0.2794, + "step": 4570 + }, + { + "epoch": 12.213333333333333, + "grad_norm": 0.9276167750358582, + "learning_rate": 4.8770370370370375e-05, + "loss": 0.2662, + "step": 4580 + }, + { + "epoch": 12.24, + "grad_norm": 0.9007221460342407, + "learning_rate": 4.875555555555556e-05, + "loss": 0.239, + "step": 4590 + }, + { + "epoch": 12.266666666666667, + "grad_norm": 1.0693758726119995, + "learning_rate": 4.874074074074074e-05, + "loss": 0.2466, + "step": 4600 + }, + { + "epoch": 12.293333333333333, + "grad_norm": 0.9888723492622375, + "learning_rate": 4.872592592592593e-05, + "loss": 0.2629, + "step": 4610 + }, + { + "epoch": 12.32, + "grad_norm": 1.1285632848739624, + "learning_rate": 4.871111111111111e-05, + "loss": 0.2445, + "step": 4620 + }, + { + "epoch": 12.346666666666668, + "grad_norm": 1.2479591369628906, + "learning_rate": 4.86962962962963e-05, + "loss": 0.2818, + "step": 4630 + }, + { + "epoch": 12.373333333333333, + "grad_norm": 0.888307511806488, + "learning_rate": 4.8681481481481485e-05, + "loss": 0.2595, + "step": 4640 + }, + { + "epoch": 12.4, + "grad_norm": 0.939766526222229, + "learning_rate": 4.866666666666667e-05, + "loss": 0.254, + "step": 4650 + }, + { + "epoch": 12.426666666666666, + "grad_norm": 0.9327693581581116, + "learning_rate": 4.865185185185185e-05, + "loss": 0.256, + "step": 4660 + }, + { + "epoch": 12.453333333333333, + "grad_norm": 0.5767496228218079, + "learning_rate": 4.863703703703704e-05, + "loss": 0.2647, + "step": 4670 + }, + { + "epoch": 12.48, + "grad_norm": 1.1379495859146118, + "learning_rate": 4.862222222222222e-05, + "loss": 0.2787, + "step": 4680 + }, + { + "epoch": 12.506666666666666, + "grad_norm": 0.8261799812316895, + "learning_rate": 4.860740740740741e-05, + "loss": 0.243, + "step": 4690 + }, + { + "epoch": 12.533333333333333, + "grad_norm": 0.7199703454971313, + "learning_rate": 4.8592592592592596e-05, + "loss": 0.267, + "step": 4700 + }, + { + "epoch": 12.56, + "grad_norm": 0.843106210231781, + "learning_rate": 4.8577777777777776e-05, + "loss": 0.2858, + "step": 4710 + }, + { + "epoch": 12.586666666666666, + "grad_norm": 0.9174416661262512, + "learning_rate": 4.8562962962962964e-05, + "loss": 0.2734, + "step": 4720 + }, + { + "epoch": 12.613333333333333, + "grad_norm": 0.9142345190048218, + "learning_rate": 4.854814814814815e-05, + "loss": 0.2426, + "step": 4730 + }, + { + "epoch": 12.64, + "grad_norm": 0.7256776690483093, + "learning_rate": 4.853333333333334e-05, + "loss": 0.268, + "step": 4740 + }, + { + "epoch": 12.666666666666666, + "grad_norm": 0.8155712485313416, + "learning_rate": 4.851851851851852e-05, + "loss": 0.2605, + "step": 4750 + }, + { + "epoch": 12.693333333333333, + "grad_norm": 1.0268746614456177, + "learning_rate": 4.8503703703703706e-05, + "loss": 0.2592, + "step": 4760 + }, + { + "epoch": 12.72, + "grad_norm": 1.0284401178359985, + "learning_rate": 4.848888888888889e-05, + "loss": 0.2465, + "step": 4770 + }, + { + "epoch": 12.746666666666666, + "grad_norm": 0.9450557827949524, + "learning_rate": 4.8474074074074074e-05, + "loss": 0.2594, + "step": 4780 + }, + { + "epoch": 12.773333333333333, + "grad_norm": 0.7002690434455872, + "learning_rate": 4.845925925925926e-05, + "loss": 0.2314, + "step": 4790 + }, + { + "epoch": 12.8, + "grad_norm": 1.3233262300491333, + "learning_rate": 4.844444444444445e-05, + "loss": 0.2488, + "step": 4800 + }, + { + "epoch": 12.826666666666666, + "grad_norm": 1.1148347854614258, + "learning_rate": 4.842962962962963e-05, + "loss": 0.2747, + "step": 4810 + }, + { + "epoch": 12.853333333333333, + "grad_norm": 0.7571829557418823, + "learning_rate": 4.841481481481482e-05, + "loss": 0.2389, + "step": 4820 + }, + { + "epoch": 12.88, + "grad_norm": 0.9332305788993835, + "learning_rate": 4.8400000000000004e-05, + "loss": 0.241, + "step": 4830 + }, + { + "epoch": 12.906666666666666, + "grad_norm": 1.1315864324569702, + "learning_rate": 4.838518518518519e-05, + "loss": 0.2931, + "step": 4840 + }, + { + "epoch": 12.933333333333334, + "grad_norm": 0.8548458814620972, + "learning_rate": 4.837037037037037e-05, + "loss": 0.2529, + "step": 4850 + }, + { + "epoch": 12.96, + "grad_norm": 0.7947821021080017, + "learning_rate": 4.835555555555556e-05, + "loss": 0.2767, + "step": 4860 + }, + { + "epoch": 12.986666666666666, + "grad_norm": 1.2046189308166504, + "learning_rate": 4.834074074074074e-05, + "loss": 0.3618, + "step": 4870 + }, + { + "epoch": 13.0, + "eval_accuracy": 0.8835833333333334, + "eval_loss": 0.3177317678928375, + "eval_runtime": 249.4484, + "eval_samples_per_second": 48.106, + "eval_steps_per_second": 1.503, + "step": 4875 + }, + { + "epoch": 13.013333333333334, + "grad_norm": 0.7338574528694153, + "learning_rate": 4.832592592592593e-05, + "loss": 0.2784, + "step": 4880 + }, + { + "epoch": 13.04, + "grad_norm": 0.729314386844635, + "learning_rate": 4.8311111111111115e-05, + "loss": 0.2239, + "step": 4890 + }, + { + "epoch": 13.066666666666666, + "grad_norm": 0.64952152967453, + "learning_rate": 4.82962962962963e-05, + "loss": 0.2318, + "step": 4900 + }, + { + "epoch": 13.093333333333334, + "grad_norm": 0.8439804911613464, + "learning_rate": 4.828148148148148e-05, + "loss": 0.2338, + "step": 4910 + }, + { + "epoch": 13.12, + "grad_norm": 0.8302816152572632, + "learning_rate": 4.826666666666667e-05, + "loss": 0.2594, + "step": 4920 + }, + { + "epoch": 13.146666666666667, + "grad_norm": 1.2588374614715576, + "learning_rate": 4.825185185185185e-05, + "loss": 0.2298, + "step": 4930 + }, + { + "epoch": 13.173333333333334, + "grad_norm": 0.9967134594917297, + "learning_rate": 4.8237037037037045e-05, + "loss": 0.2415, + "step": 4940 + }, + { + "epoch": 13.2, + "grad_norm": 0.7642468214035034, + "learning_rate": 4.8222222222222225e-05, + "loss": 0.2304, + "step": 4950 + }, + { + "epoch": 13.226666666666667, + "grad_norm": 0.9817863702774048, + "learning_rate": 4.820740740740741e-05, + "loss": 0.2736, + "step": 4960 + }, + { + "epoch": 13.253333333333334, + "grad_norm": 0.6865203976631165, + "learning_rate": 4.819259259259259e-05, + "loss": 0.2337, + "step": 4970 + }, + { + "epoch": 13.28, + "grad_norm": 0.850912868976593, + "learning_rate": 4.817777777777778e-05, + "loss": 0.2265, + "step": 4980 + }, + { + "epoch": 13.306666666666667, + "grad_norm": 0.797937273979187, + "learning_rate": 4.816296296296297e-05, + "loss": 0.2371, + "step": 4990 + }, + { + "epoch": 13.333333333333334, + "grad_norm": 0.7671889662742615, + "learning_rate": 4.814814814814815e-05, + "loss": 0.242, + "step": 5000 + }, + { + "epoch": 13.36, + "grad_norm": 1.253916621208191, + "learning_rate": 4.8133333333333336e-05, + "loss": 0.2642, + "step": 5010 + }, + { + "epoch": 13.386666666666667, + "grad_norm": 0.7739356756210327, + "learning_rate": 4.8118518518518516e-05, + "loss": 0.2236, + "step": 5020 + }, + { + "epoch": 13.413333333333334, + "grad_norm": 1.0052436590194702, + "learning_rate": 4.8103703703703703e-05, + "loss": 0.2335, + "step": 5030 + }, + { + "epoch": 13.44, + "grad_norm": 0.6017870306968689, + "learning_rate": 4.808888888888889e-05, + "loss": 0.2408, + "step": 5040 + }, + { + "epoch": 13.466666666666667, + "grad_norm": 0.8387773633003235, + "learning_rate": 4.807407407407408e-05, + "loss": 0.261, + "step": 5050 + }, + { + "epoch": 13.493333333333334, + "grad_norm": 1.0903067588806152, + "learning_rate": 4.805925925925926e-05, + "loss": 0.2802, + "step": 5060 + }, + { + "epoch": 13.52, + "grad_norm": 1.0829507112503052, + "learning_rate": 4.8044444444444446e-05, + "loss": 0.221, + "step": 5070 + }, + { + "epoch": 13.546666666666667, + "grad_norm": 0.752372145652771, + "learning_rate": 4.802962962962963e-05, + "loss": 0.2392, + "step": 5080 + }, + { + "epoch": 13.573333333333334, + "grad_norm": 0.884834349155426, + "learning_rate": 4.801481481481482e-05, + "loss": 0.2359, + "step": 5090 + }, + { + "epoch": 13.6, + "grad_norm": 1.199129581451416, + "learning_rate": 4.8e-05, + "loss": 0.2713, + "step": 5100 + }, + { + "epoch": 13.626666666666667, + "grad_norm": 0.9208950400352478, + "learning_rate": 4.798518518518519e-05, + "loss": 0.243, + "step": 5110 + }, + { + "epoch": 13.653333333333332, + "grad_norm": 1.113991141319275, + "learning_rate": 4.797037037037037e-05, + "loss": 0.2388, + "step": 5120 + }, + { + "epoch": 13.68, + "grad_norm": 0.7170684337615967, + "learning_rate": 4.7955555555555556e-05, + "loss": 0.2571, + "step": 5130 + }, + { + "epoch": 13.706666666666667, + "grad_norm": 0.7488929033279419, + "learning_rate": 4.7940740740740744e-05, + "loss": 0.2355, + "step": 5140 + }, + { + "epoch": 13.733333333333333, + "grad_norm": 0.9703030586242676, + "learning_rate": 4.792592592592593e-05, + "loss": 0.2772, + "step": 5150 + }, + { + "epoch": 13.76, + "grad_norm": 0.6981998085975647, + "learning_rate": 4.791111111111111e-05, + "loss": 0.2205, + "step": 5160 + }, + { + "epoch": 13.786666666666667, + "grad_norm": 1.1885621547698975, + "learning_rate": 4.78962962962963e-05, + "loss": 0.2315, + "step": 5170 + }, + { + "epoch": 13.813333333333333, + "grad_norm": 0.8561756610870361, + "learning_rate": 4.788148148148148e-05, + "loss": 0.2619, + "step": 5180 + }, + { + "epoch": 13.84, + "grad_norm": 0.6427872776985168, + "learning_rate": 4.7866666666666674e-05, + "loss": 0.2412, + "step": 5190 + }, + { + "epoch": 13.866666666666667, + "grad_norm": 0.7743550539016724, + "learning_rate": 4.7851851851851854e-05, + "loss": 0.226, + "step": 5200 + }, + { + "epoch": 13.893333333333333, + "grad_norm": 1.053391695022583, + "learning_rate": 4.783703703703704e-05, + "loss": 0.2573, + "step": 5210 + }, + { + "epoch": 13.92, + "grad_norm": 0.7874213457107544, + "learning_rate": 4.782222222222222e-05, + "loss": 0.2731, + "step": 5220 + }, + { + "epoch": 13.946666666666667, + "grad_norm": 0.8373676538467407, + "learning_rate": 4.780740740740741e-05, + "loss": 0.2985, + "step": 5230 + }, + { + "epoch": 13.973333333333333, + "grad_norm": 1.0595630407333374, + "learning_rate": 4.77925925925926e-05, + "loss": 0.2804, + "step": 5240 + }, + { + "epoch": 14.0, + "grad_norm": 0.9218273758888245, + "learning_rate": 4.7777777777777784e-05, + "loss": 0.2448, + "step": 5250 + }, + { + "epoch": 14.0, + "eval_accuracy": 0.8925833333333333, + "eval_loss": 0.30693358182907104, + "eval_runtime": 249.8608, + "eval_samples_per_second": 48.027, + "eval_steps_per_second": 1.501, + "step": 5250 + }, + { + "epoch": 14.026666666666667, + "grad_norm": 1.2409112453460693, + "learning_rate": 4.7762962962962965e-05, + "loss": 0.2172, + "step": 5260 + }, + { + "epoch": 14.053333333333333, + "grad_norm": 0.7531927227973938, + "learning_rate": 4.774814814814815e-05, + "loss": 0.2561, + "step": 5270 + }, + { + "epoch": 14.08, + "grad_norm": 1.0628620386123657, + "learning_rate": 4.773333333333333e-05, + "loss": 0.268, + "step": 5280 + }, + { + "epoch": 14.106666666666667, + "grad_norm": 0.810427725315094, + "learning_rate": 4.771851851851853e-05, + "loss": 0.2286, + "step": 5290 + }, + { + "epoch": 14.133333333333333, + "grad_norm": 0.6282049417495728, + "learning_rate": 4.770370370370371e-05, + "loss": 0.2479, + "step": 5300 + }, + { + "epoch": 14.16, + "grad_norm": 0.8406832218170166, + "learning_rate": 4.768888888888889e-05, + "loss": 0.2246, + "step": 5310 + }, + { + "epoch": 14.186666666666667, + "grad_norm": 1.1238325834274292, + "learning_rate": 4.7674074074074075e-05, + "loss": 0.2667, + "step": 5320 + }, + { + "epoch": 14.213333333333333, + "grad_norm": 1.0784190893173218, + "learning_rate": 4.7659259259259256e-05, + "loss": 0.2615, + "step": 5330 + }, + { + "epoch": 14.24, + "grad_norm": 0.7037746906280518, + "learning_rate": 4.764444444444445e-05, + "loss": 0.2359, + "step": 5340 + }, + { + "epoch": 14.266666666666667, + "grad_norm": 0.9757088422775269, + "learning_rate": 4.762962962962963e-05, + "loss": 0.2232, + "step": 5350 + }, + { + "epoch": 14.293333333333333, + "grad_norm": 0.9441906213760376, + "learning_rate": 4.761481481481482e-05, + "loss": 0.2501, + "step": 5360 + }, + { + "epoch": 14.32, + "grad_norm": 1.210986852645874, + "learning_rate": 4.76e-05, + "loss": 0.2329, + "step": 5370 + }, + { + "epoch": 14.346666666666668, + "grad_norm": 0.9474188685417175, + "learning_rate": 4.7585185185185186e-05, + "loss": 0.2453, + "step": 5380 + }, + { + "epoch": 14.373333333333333, + "grad_norm": 0.6864265203475952, + "learning_rate": 4.757037037037037e-05, + "loss": 0.2601, + "step": 5390 + }, + { + "epoch": 14.4, + "grad_norm": 1.1126164197921753, + "learning_rate": 4.755555555555556e-05, + "loss": 0.2385, + "step": 5400 + }, + { + "epoch": 14.426666666666666, + "grad_norm": 0.9865297675132751, + "learning_rate": 4.754074074074074e-05, + "loss": 0.2057, + "step": 5410 + }, + { + "epoch": 14.453333333333333, + "grad_norm": 1.42702054977417, + "learning_rate": 4.752592592592593e-05, + "loss": 0.2158, + "step": 5420 + }, + { + "epoch": 14.48, + "grad_norm": 0.8993312120437622, + "learning_rate": 4.751111111111111e-05, + "loss": 0.2436, + "step": 5430 + }, + { + "epoch": 14.506666666666666, + "grad_norm": 0.9271665215492249, + "learning_rate": 4.74962962962963e-05, + "loss": 0.2507, + "step": 5440 + }, + { + "epoch": 14.533333333333333, + "grad_norm": 0.9794839024543762, + "learning_rate": 4.7481481481481483e-05, + "loss": 0.2034, + "step": 5450 + }, + { + "epoch": 14.56, + "grad_norm": 0.7170578241348267, + "learning_rate": 4.746666666666667e-05, + "loss": 0.2525, + "step": 5460 + }, + { + "epoch": 14.586666666666666, + "grad_norm": 1.1436090469360352, + "learning_rate": 4.745185185185185e-05, + "loss": 0.2485, + "step": 5470 + }, + { + "epoch": 14.613333333333333, + "grad_norm": 1.1626040935516357, + "learning_rate": 4.743703703703704e-05, + "loss": 0.2815, + "step": 5480 + }, + { + "epoch": 14.64, + "grad_norm": 0.6691455245018005, + "learning_rate": 4.7422222222222226e-05, + "loss": 0.2357, + "step": 5490 + }, + { + "epoch": 14.666666666666666, + "grad_norm": 0.7307310104370117, + "learning_rate": 4.740740740740741e-05, + "loss": 0.2381, + "step": 5500 + }, + { + "epoch": 14.693333333333333, + "grad_norm": 0.7989517450332642, + "learning_rate": 4.7392592592592594e-05, + "loss": 0.2347, + "step": 5510 + }, + { + "epoch": 14.72, + "grad_norm": 0.9122467637062073, + "learning_rate": 4.737777777777778e-05, + "loss": 0.2322, + "step": 5520 + }, + { + "epoch": 14.746666666666666, + "grad_norm": 0.9169259071350098, + "learning_rate": 4.736296296296296e-05, + "loss": 0.2282, + "step": 5530 + }, + { + "epoch": 14.773333333333333, + "grad_norm": 1.1285344362258911, + "learning_rate": 4.7348148148148156e-05, + "loss": 0.2417, + "step": 5540 + }, + { + "epoch": 14.8, + "grad_norm": 0.8034947514533997, + "learning_rate": 4.7333333333333336e-05, + "loss": 0.1917, + "step": 5550 + }, + { + "epoch": 14.826666666666666, + "grad_norm": 1.2625291347503662, + "learning_rate": 4.7318518518518524e-05, + "loss": 0.2726, + "step": 5560 + }, + { + "epoch": 14.853333333333333, + "grad_norm": 0.8303372859954834, + "learning_rate": 4.7303703703703704e-05, + "loss": 0.2483, + "step": 5570 + }, + { + "epoch": 14.88, + "grad_norm": 0.9976439476013184, + "learning_rate": 4.728888888888889e-05, + "loss": 0.2252, + "step": 5580 + }, + { + "epoch": 14.906666666666666, + "grad_norm": 0.8537195324897766, + "learning_rate": 4.727407407407408e-05, + "loss": 0.2504, + "step": 5590 + }, + { + "epoch": 14.933333333333334, + "grad_norm": 0.8124051690101624, + "learning_rate": 4.7259259259259266e-05, + "loss": 0.2387, + "step": 5600 + }, + { + "epoch": 14.96, + "grad_norm": 0.8286536335945129, + "learning_rate": 4.724444444444445e-05, + "loss": 0.2044, + "step": 5610 + }, + { + "epoch": 14.986666666666666, + "grad_norm": 0.6831819415092468, + "learning_rate": 4.722962962962963e-05, + "loss": 0.2256, + "step": 5620 + }, + { + "epoch": 15.0, + "eval_accuracy": 0.895, + "eval_loss": 0.305128812789917, + "eval_runtime": 250.4452, + "eval_samples_per_second": 47.915, + "eval_steps_per_second": 1.497, + "step": 5625 + }, + { + "epoch": 15.013333333333334, + "grad_norm": 0.8780859112739563, + "learning_rate": 4.7214814814814815e-05, + "loss": 0.1993, + "step": 5630 + }, + { + "epoch": 15.04, + "grad_norm": 1.15898597240448, + "learning_rate": 4.72e-05, + "loss": 0.224, + "step": 5640 + }, + { + "epoch": 15.066666666666666, + "grad_norm": 1.075177550315857, + "learning_rate": 4.718518518518519e-05, + "loss": 0.2336, + "step": 5650 + }, + { + "epoch": 15.093333333333334, + "grad_norm": 0.7190340757369995, + "learning_rate": 4.717037037037037e-05, + "loss": 0.2276, + "step": 5660 + }, + { + "epoch": 15.12, + "grad_norm": 0.8303045630455017, + "learning_rate": 4.715555555555556e-05, + "loss": 0.2415, + "step": 5670 + }, + { + "epoch": 15.146666666666667, + "grad_norm": 0.8324750661849976, + "learning_rate": 4.714074074074074e-05, + "loss": 0.2528, + "step": 5680 + }, + { + "epoch": 15.173333333333334, + "grad_norm": 1.0571017265319824, + "learning_rate": 4.712592592592593e-05, + "loss": 0.2206, + "step": 5690 + }, + { + "epoch": 15.2, + "grad_norm": 1.1469885110855103, + "learning_rate": 4.711111111111111e-05, + "loss": 0.237, + "step": 5700 + }, + { + "epoch": 15.226666666666667, + "grad_norm": 0.7209925651550293, + "learning_rate": 4.70962962962963e-05, + "loss": 0.2493, + "step": 5710 + }, + { + "epoch": 15.253333333333334, + "grad_norm": 1.4051053524017334, + "learning_rate": 4.708148148148148e-05, + "loss": 0.1988, + "step": 5720 + }, + { + "epoch": 15.28, + "grad_norm": 0.8226048946380615, + "learning_rate": 4.706666666666667e-05, + "loss": 0.241, + "step": 5730 + }, + { + "epoch": 15.306666666666667, + "grad_norm": 0.8640329241752625, + "learning_rate": 4.7051851851851855e-05, + "loss": 0.2015, + "step": 5740 + }, + { + "epoch": 15.333333333333334, + "grad_norm": 1.0002055168151855, + "learning_rate": 4.703703703703704e-05, + "loss": 0.2489, + "step": 5750 + }, + { + "epoch": 15.36, + "grad_norm": 0.9465985894203186, + "learning_rate": 4.702222222222222e-05, + "loss": 0.217, + "step": 5760 + }, + { + "epoch": 15.386666666666667, + "grad_norm": 1.2353829145431519, + "learning_rate": 4.700740740740741e-05, + "loss": 0.2383, + "step": 5770 + }, + { + "epoch": 15.413333333333334, + "grad_norm": 0.9031379222869873, + "learning_rate": 4.699259259259259e-05, + "loss": 0.2399, + "step": 5780 + }, + { + "epoch": 15.44, + "grad_norm": 0.9846685528755188, + "learning_rate": 4.6977777777777785e-05, + "loss": 0.2661, + "step": 5790 + }, + { + "epoch": 15.466666666666667, + "grad_norm": 0.9312131404876709, + "learning_rate": 4.6962962962962966e-05, + "loss": 0.2157, + "step": 5800 + }, + { + "epoch": 15.493333333333334, + "grad_norm": 0.9156227707862854, + "learning_rate": 4.694814814814815e-05, + "loss": 0.2248, + "step": 5810 + }, + { + "epoch": 15.52, + "grad_norm": 0.9699175357818604, + "learning_rate": 4.6933333333333333e-05, + "loss": 0.2347, + "step": 5820 + }, + { + "epoch": 15.546666666666667, + "grad_norm": 1.1148622035980225, + "learning_rate": 4.691851851851852e-05, + "loss": 0.241, + "step": 5830 + }, + { + "epoch": 15.573333333333334, + "grad_norm": 0.8843104243278503, + "learning_rate": 4.690370370370371e-05, + "loss": 0.217, + "step": 5840 + }, + { + "epoch": 15.6, + "grad_norm": 1.0564892292022705, + "learning_rate": 4.6888888888888895e-05, + "loss": 0.2354, + "step": 5850 + }, + { + "epoch": 15.626666666666667, + "grad_norm": 0.9679903984069824, + "learning_rate": 4.6874074074074076e-05, + "loss": 0.2365, + "step": 5860 + }, + { + "epoch": 15.653333333333332, + "grad_norm": 1.2783359289169312, + "learning_rate": 4.685925925925926e-05, + "loss": 0.2255, + "step": 5870 + }, + { + "epoch": 15.68, + "grad_norm": 0.748306930065155, + "learning_rate": 4.6844444444444444e-05, + "loss": 0.2017, + "step": 5880 + }, + { + "epoch": 15.706666666666667, + "grad_norm": 1.0005475282669067, + "learning_rate": 4.682962962962963e-05, + "loss": 0.2301, + "step": 5890 + }, + { + "epoch": 15.733333333333333, + "grad_norm": 0.9688641428947449, + "learning_rate": 4.681481481481482e-05, + "loss": 0.2319, + "step": 5900 + }, + { + "epoch": 15.76, + "grad_norm": 0.977564811706543, + "learning_rate": 4.6800000000000006e-05, + "loss": 0.222, + "step": 5910 + }, + { + "epoch": 15.786666666666667, + "grad_norm": 0.8027255535125732, + "learning_rate": 4.6785185185185186e-05, + "loss": 0.2346, + "step": 5920 + }, + { + "epoch": 15.813333333333333, + "grad_norm": 0.8266276717185974, + "learning_rate": 4.677037037037037e-05, + "loss": 0.2228, + "step": 5930 + }, + { + "epoch": 15.84, + "grad_norm": 0.9315988421440125, + "learning_rate": 4.675555555555556e-05, + "loss": 0.2323, + "step": 5940 + }, + { + "epoch": 15.866666666666667, + "grad_norm": 0.9123389720916748, + "learning_rate": 4.674074074074074e-05, + "loss": 0.2102, + "step": 5950 + }, + { + "epoch": 15.893333333333333, + "grad_norm": 0.7363046407699585, + "learning_rate": 4.672592592592593e-05, + "loss": 0.2461, + "step": 5960 + }, + { + "epoch": 15.92, + "grad_norm": 0.8314365744590759, + "learning_rate": 4.671111111111111e-05, + "loss": 0.1871, + "step": 5970 + }, + { + "epoch": 15.946666666666667, + "grad_norm": 0.5943475365638733, + "learning_rate": 4.66962962962963e-05, + "loss": 0.2433, + "step": 5980 + }, + { + "epoch": 15.973333333333333, + "grad_norm": 1.1373237371444702, + "learning_rate": 4.6681481481481484e-05, + "loss": 0.2252, + "step": 5990 + }, + { + "epoch": 16.0, + "grad_norm": 1.013159155845642, + "learning_rate": 4.666666666666667e-05, + "loss": 0.2345, + "step": 6000 + }, + { + "epoch": 16.0, + "eval_accuracy": 0.8869166666666667, + "eval_loss": 0.3172546923160553, + "eval_runtime": 250.0354, + "eval_samples_per_second": 47.993, + "eval_steps_per_second": 1.5, + "step": 6000 + }, + { + "epoch": 16.026666666666667, + "grad_norm": 0.5933257937431335, + "learning_rate": 4.665185185185185e-05, + "loss": 0.1982, + "step": 6010 + }, + { + "epoch": 16.053333333333335, + "grad_norm": 0.6856117248535156, + "learning_rate": 4.663703703703704e-05, + "loss": 0.2018, + "step": 6020 + }, + { + "epoch": 16.08, + "grad_norm": 0.952616274356842, + "learning_rate": 4.662222222222222e-05, + "loss": 0.2311, + "step": 6030 + }, + { + "epoch": 16.106666666666666, + "grad_norm": 0.873878538608551, + "learning_rate": 4.660740740740741e-05, + "loss": 0.2194, + "step": 6040 + }, + { + "epoch": 16.133333333333333, + "grad_norm": 0.7192165851593018, + "learning_rate": 4.6592592592592595e-05, + "loss": 0.214, + "step": 6050 + }, + { + "epoch": 16.16, + "grad_norm": 0.7372754216194153, + "learning_rate": 4.657777777777778e-05, + "loss": 0.2287, + "step": 6060 + }, + { + "epoch": 16.186666666666667, + "grad_norm": 1.0513696670532227, + "learning_rate": 4.656296296296296e-05, + "loss": 0.2246, + "step": 6070 + }, + { + "epoch": 16.213333333333335, + "grad_norm": 0.9082813262939453, + "learning_rate": 4.654814814814815e-05, + "loss": 0.2133, + "step": 6080 + }, + { + "epoch": 16.24, + "grad_norm": 1.0280488729476929, + "learning_rate": 4.653333333333334e-05, + "loss": 0.2253, + "step": 6090 + }, + { + "epoch": 16.266666666666666, + "grad_norm": 0.6344209909439087, + "learning_rate": 4.6518518518518525e-05, + "loss": 0.23, + "step": 6100 + }, + { + "epoch": 16.293333333333333, + "grad_norm": 0.8463193774223328, + "learning_rate": 4.6503703703703705e-05, + "loss": 0.2062, + "step": 6110 + }, + { + "epoch": 16.32, + "grad_norm": 1.276474118232727, + "learning_rate": 4.648888888888889e-05, + "loss": 0.2177, + "step": 6120 + }, + { + "epoch": 16.346666666666668, + "grad_norm": 0.983705997467041, + "learning_rate": 4.647407407407407e-05, + "loss": 0.252, + "step": 6130 + }, + { + "epoch": 16.373333333333335, + "grad_norm": 1.0397183895111084, + "learning_rate": 4.645925925925926e-05, + "loss": 0.2137, + "step": 6140 + }, + { + "epoch": 16.4, + "grad_norm": 0.6958578824996948, + "learning_rate": 4.644444444444445e-05, + "loss": 0.2029, + "step": 6150 + }, + { + "epoch": 16.426666666666666, + "grad_norm": 0.7723661661148071, + "learning_rate": 4.6429629629629635e-05, + "loss": 0.2035, + "step": 6160 + }, + { + "epoch": 16.453333333333333, + "grad_norm": 0.7995575070381165, + "learning_rate": 4.6414814814814816e-05, + "loss": 0.2244, + "step": 6170 + }, + { + "epoch": 16.48, + "grad_norm": 0.8854344487190247, + "learning_rate": 4.64e-05, + "loss": 0.2211, + "step": 6180 + }, + { + "epoch": 16.506666666666668, + "grad_norm": 0.9779818654060364, + "learning_rate": 4.638518518518519e-05, + "loss": 0.2238, + "step": 6190 + }, + { + "epoch": 16.533333333333335, + "grad_norm": 1.0446619987487793, + "learning_rate": 4.637037037037038e-05, + "loss": 0.2309, + "step": 6200 + }, + { + "epoch": 16.56, + "grad_norm": 1.2140849828720093, + "learning_rate": 4.635555555555556e-05, + "loss": 0.2527, + "step": 6210 + }, + { + "epoch": 16.586666666666666, + "grad_norm": 0.6466585397720337, + "learning_rate": 4.6340740740740746e-05, + "loss": 0.1961, + "step": 6220 + }, + { + "epoch": 16.613333333333333, + "grad_norm": 0.8170985579490662, + "learning_rate": 4.6325925925925926e-05, + "loss": 0.2212, + "step": 6230 + }, + { + "epoch": 16.64, + "grad_norm": 1.0058077573776245, + "learning_rate": 4.6311111111111113e-05, + "loss": 0.2334, + "step": 6240 + }, + { + "epoch": 16.666666666666668, + "grad_norm": 0.8503581881523132, + "learning_rate": 4.62962962962963e-05, + "loss": 0.2354, + "step": 6250 + }, + { + "epoch": 16.693333333333335, + "grad_norm": 1.0003212690353394, + "learning_rate": 4.628148148148148e-05, + "loss": 0.24, + "step": 6260 + }, + { + "epoch": 16.72, + "grad_norm": 0.8633155226707458, + "learning_rate": 4.626666666666667e-05, + "loss": 0.236, + "step": 6270 + }, + { + "epoch": 16.746666666666666, + "grad_norm": 0.5616276264190674, + "learning_rate": 4.625185185185185e-05, + "loss": 0.2056, + "step": 6280 + }, + { + "epoch": 16.773333333333333, + "grad_norm": 0.8033865094184875, + "learning_rate": 4.6237037037037037e-05, + "loss": 0.2031, + "step": 6290 + }, + { + "epoch": 16.8, + "grad_norm": 1.333404779434204, + "learning_rate": 4.6222222222222224e-05, + "loss": 0.2149, + "step": 6300 + }, + { + "epoch": 16.826666666666668, + "grad_norm": 1.1390050649642944, + "learning_rate": 4.620740740740741e-05, + "loss": 0.2059, + "step": 6310 + }, + { + "epoch": 16.85333333333333, + "grad_norm": 1.1555438041687012, + "learning_rate": 4.619259259259259e-05, + "loss": 0.229, + "step": 6320 + }, + { + "epoch": 16.88, + "grad_norm": 0.8743488192558289, + "learning_rate": 4.617777777777778e-05, + "loss": 0.2045, + "step": 6330 + }, + { + "epoch": 16.906666666666666, + "grad_norm": 0.9817400574684143, + "learning_rate": 4.6162962962962966e-05, + "loss": 0.2247, + "step": 6340 + }, + { + "epoch": 16.933333333333334, + "grad_norm": 0.6580103039741516, + "learning_rate": 4.6148148148148154e-05, + "loss": 0.2145, + "step": 6350 + }, + { + "epoch": 16.96, + "grad_norm": 1.186204433441162, + "learning_rate": 4.6133333333333334e-05, + "loss": 0.2558, + "step": 6360 + }, + { + "epoch": 16.986666666666668, + "grad_norm": 0.786339521408081, + "learning_rate": 4.611851851851852e-05, + "loss": 0.2121, + "step": 6370 + }, + { + "epoch": 17.0, + "eval_accuracy": 0.8954166666666666, + "eval_loss": 0.309306800365448, + "eval_runtime": 250.3724, + "eval_samples_per_second": 47.929, + "eval_steps_per_second": 1.498, + "step": 6375 + }, + { + "epoch": 17.013333333333332, + "grad_norm": 1.0847649574279785, + "learning_rate": 4.61037037037037e-05, + "loss": 0.2219, + "step": 6380 + }, + { + "epoch": 17.04, + "grad_norm": 0.6315633654594421, + "learning_rate": 4.608888888888889e-05, + "loss": 0.223, + "step": 6390 + }, + { + "epoch": 17.066666666666666, + "grad_norm": 0.8920674324035645, + "learning_rate": 4.607407407407408e-05, + "loss": 0.209, + "step": 6400 + }, + { + "epoch": 17.093333333333334, + "grad_norm": 1.1400494575500488, + "learning_rate": 4.6059259259259264e-05, + "loss": 0.2122, + "step": 6410 + }, + { + "epoch": 17.12, + "grad_norm": 0.7829921841621399, + "learning_rate": 4.6044444444444445e-05, + "loss": 0.1807, + "step": 6420 + }, + { + "epoch": 17.14666666666667, + "grad_norm": 1.2247706651687622, + "learning_rate": 4.602962962962963e-05, + "loss": 0.2122, + "step": 6430 + }, + { + "epoch": 17.173333333333332, + "grad_norm": 0.9251999855041504, + "learning_rate": 4.601481481481482e-05, + "loss": 0.1936, + "step": 6440 + }, + { + "epoch": 17.2, + "grad_norm": 1.129963994026184, + "learning_rate": 4.600000000000001e-05, + "loss": 0.2154, + "step": 6450 + }, + { + "epoch": 17.226666666666667, + "grad_norm": 1.1568506956100464, + "learning_rate": 4.598518518518519e-05, + "loss": 0.1798, + "step": 6460 + }, + { + "epoch": 17.253333333333334, + "grad_norm": 0.8407930731773376, + "learning_rate": 4.5970370370370375e-05, + "loss": 0.2208, + "step": 6470 + }, + { + "epoch": 17.28, + "grad_norm": 1.0254485607147217, + "learning_rate": 4.5955555555555555e-05, + "loss": 0.2072, + "step": 6480 + }, + { + "epoch": 17.306666666666665, + "grad_norm": 0.6046079993247986, + "learning_rate": 4.594074074074074e-05, + "loss": 0.2177, + "step": 6490 + }, + { + "epoch": 17.333333333333332, + "grad_norm": 0.7018064260482788, + "learning_rate": 4.592592592592593e-05, + "loss": 0.2115, + "step": 6500 + }, + { + "epoch": 17.36, + "grad_norm": 0.7071021199226379, + "learning_rate": 4.591111111111112e-05, + "loss": 0.2046, + "step": 6510 + }, + { + "epoch": 17.386666666666667, + "grad_norm": 0.9970195889472961, + "learning_rate": 4.58962962962963e-05, + "loss": 0.2329, + "step": 6520 + }, + { + "epoch": 17.413333333333334, + "grad_norm": 1.0762938261032104, + "learning_rate": 4.5881481481481485e-05, + "loss": 0.2395, + "step": 6530 + }, + { + "epoch": 17.44, + "grad_norm": 1.3508251905441284, + "learning_rate": 4.5866666666666666e-05, + "loss": 0.2469, + "step": 6540 + }, + { + "epoch": 17.466666666666665, + "grad_norm": 1.1004494428634644, + "learning_rate": 4.585185185185185e-05, + "loss": 0.1896, + "step": 6550 + }, + { + "epoch": 17.493333333333332, + "grad_norm": 1.2068158388137817, + "learning_rate": 4.583703703703704e-05, + "loss": 0.2233, + "step": 6560 + }, + { + "epoch": 17.52, + "grad_norm": 0.9937577247619629, + "learning_rate": 4.582222222222222e-05, + "loss": 0.1951, + "step": 6570 + }, + { + "epoch": 17.546666666666667, + "grad_norm": 0.9528632164001465, + "learning_rate": 4.580740740740741e-05, + "loss": 0.2104, + "step": 6580 + }, + { + "epoch": 17.573333333333334, + "grad_norm": 0.8297341465950012, + "learning_rate": 4.5792592592592596e-05, + "loss": 0.1931, + "step": 6590 + }, + { + "epoch": 17.6, + "grad_norm": 1.4589300155639648, + "learning_rate": 4.577777777777778e-05, + "loss": 0.2236, + "step": 6600 + }, + { + "epoch": 17.626666666666665, + "grad_norm": 0.8489493131637573, + "learning_rate": 4.5762962962962964e-05, + "loss": 0.2011, + "step": 6610 + }, + { + "epoch": 17.653333333333332, + "grad_norm": 0.8059865832328796, + "learning_rate": 4.574814814814815e-05, + "loss": 0.2079, + "step": 6620 + }, + { + "epoch": 17.68, + "grad_norm": 0.8653674125671387, + "learning_rate": 4.573333333333333e-05, + "loss": 0.1874, + "step": 6630 + }, + { + "epoch": 17.706666666666667, + "grad_norm": 0.794390082359314, + "learning_rate": 4.571851851851852e-05, + "loss": 0.2341, + "step": 6640 + }, + { + "epoch": 17.733333333333334, + "grad_norm": 0.8734914660453796, + "learning_rate": 4.5703703703703706e-05, + "loss": 0.2185, + "step": 6650 + }, + { + "epoch": 17.76, + "grad_norm": 0.9834457039833069, + "learning_rate": 4.5688888888888893e-05, + "loss": 0.2247, + "step": 6660 + }, + { + "epoch": 17.786666666666665, + "grad_norm": 0.6483538746833801, + "learning_rate": 4.5674074074074074e-05, + "loss": 0.1868, + "step": 6670 + }, + { + "epoch": 17.813333333333333, + "grad_norm": 0.7812337279319763, + "learning_rate": 4.565925925925926e-05, + "loss": 0.1862, + "step": 6680 + }, + { + "epoch": 17.84, + "grad_norm": 0.6785242557525635, + "learning_rate": 4.564444444444444e-05, + "loss": 0.1967, + "step": 6690 + }, + { + "epoch": 17.866666666666667, + "grad_norm": 1.0414509773254395, + "learning_rate": 4.5629629629629636e-05, + "loss": 0.2338, + "step": 6700 + }, + { + "epoch": 17.893333333333334, + "grad_norm": 0.7245619297027588, + "learning_rate": 4.5614814814814817e-05, + "loss": 0.2138, + "step": 6710 + }, + { + "epoch": 17.92, + "grad_norm": 1.0841164588928223, + "learning_rate": 4.5600000000000004e-05, + "loss": 0.1885, + "step": 6720 + }, + { + "epoch": 17.946666666666665, + "grad_norm": 1.136484980583191, + "learning_rate": 4.5585185185185184e-05, + "loss": 0.2296, + "step": 6730 + }, + { + "epoch": 17.973333333333333, + "grad_norm": 1.0612092018127441, + "learning_rate": 4.557037037037037e-05, + "loss": 0.241, + "step": 6740 + }, + { + "epoch": 18.0, + "grad_norm": 0.9051516652107239, + "learning_rate": 4.555555555555556e-05, + "loss": 0.2335, + "step": 6750 + }, + { + "epoch": 18.0, + "eval_accuracy": 0.8955, + "eval_loss": 0.30209314823150635, + "eval_runtime": 249.9246, + "eval_samples_per_second": 48.014, + "eval_steps_per_second": 1.5, + "step": 6750 + }, + { + "epoch": 18.026666666666667, + "grad_norm": 0.6505367159843445, + "learning_rate": 4.5540740740740746e-05, + "loss": 0.2015, + "step": 6760 + }, + { + "epoch": 18.053333333333335, + "grad_norm": 0.9085814356803894, + "learning_rate": 4.552592592592593e-05, + "loss": 0.2366, + "step": 6770 + }, + { + "epoch": 18.08, + "grad_norm": 0.7052538990974426, + "learning_rate": 4.5511111111111114e-05, + "loss": 0.182, + "step": 6780 + }, + { + "epoch": 18.106666666666666, + "grad_norm": 0.7736017107963562, + "learning_rate": 4.5496296296296295e-05, + "loss": 0.2197, + "step": 6790 + }, + { + "epoch": 18.133333333333333, + "grad_norm": 0.666124165058136, + "learning_rate": 4.548148148148149e-05, + "loss": 0.1842, + "step": 6800 + }, + { + "epoch": 18.16, + "grad_norm": 0.5719690918922424, + "learning_rate": 4.546666666666667e-05, + "loss": 0.2052, + "step": 6810 + }, + { + "epoch": 18.186666666666667, + "grad_norm": 0.7998666763305664, + "learning_rate": 4.545185185185186e-05, + "loss": 0.1978, + "step": 6820 + }, + { + "epoch": 18.213333333333335, + "grad_norm": 0.8826988935470581, + "learning_rate": 4.543703703703704e-05, + "loss": 0.1857, + "step": 6830 + }, + { + "epoch": 18.24, + "grad_norm": 0.8675973415374756, + "learning_rate": 4.5422222222222225e-05, + "loss": 0.2091, + "step": 6840 + }, + { + "epoch": 18.266666666666666, + "grad_norm": 0.6671814322471619, + "learning_rate": 4.540740740740741e-05, + "loss": 0.2148, + "step": 6850 + }, + { + "epoch": 18.293333333333333, + "grad_norm": 0.7314287424087524, + "learning_rate": 4.539259259259259e-05, + "loss": 0.2154, + "step": 6860 + }, + { + "epoch": 18.32, + "grad_norm": 0.9431774616241455, + "learning_rate": 4.537777777777778e-05, + "loss": 0.217, + "step": 6870 + }, + { + "epoch": 18.346666666666668, + "grad_norm": 0.8163052201271057, + "learning_rate": 4.536296296296296e-05, + "loss": 0.2084, + "step": 6880 + }, + { + "epoch": 18.373333333333335, + "grad_norm": 0.7082629203796387, + "learning_rate": 4.534814814814815e-05, + "loss": 0.2197, + "step": 6890 + }, + { + "epoch": 18.4, + "grad_norm": 0.8074229955673218, + "learning_rate": 4.5333333333333335e-05, + "loss": 0.2156, + "step": 6900 + }, + { + "epoch": 18.426666666666666, + "grad_norm": 0.9027374982833862, + "learning_rate": 4.531851851851852e-05, + "loss": 0.2098, + "step": 6910 + }, + { + "epoch": 18.453333333333333, + "grad_norm": 0.6998944878578186, + "learning_rate": 4.53037037037037e-05, + "loss": 0.1942, + "step": 6920 + }, + { + "epoch": 18.48, + "grad_norm": 0.7281433343887329, + "learning_rate": 4.528888888888889e-05, + "loss": 0.1907, + "step": 6930 + }, + { + "epoch": 18.506666666666668, + "grad_norm": 0.6471507549285889, + "learning_rate": 4.527407407407407e-05, + "loss": 0.2214, + "step": 6940 + }, + { + "epoch": 18.533333333333335, + "grad_norm": 0.7700861692428589, + "learning_rate": 4.5259259259259265e-05, + "loss": 0.2097, + "step": 6950 + }, + { + "epoch": 18.56, + "grad_norm": 0.6788780689239502, + "learning_rate": 4.5244444444444446e-05, + "loss": 0.1795, + "step": 6960 + }, + { + "epoch": 18.586666666666666, + "grad_norm": 0.7007779479026794, + "learning_rate": 4.522962962962963e-05, + "loss": 0.1936, + "step": 6970 + }, + { + "epoch": 18.613333333333333, + "grad_norm": 0.867875337600708, + "learning_rate": 4.5214814814814814e-05, + "loss": 0.212, + "step": 6980 + }, + { + "epoch": 18.64, + "grad_norm": 0.9867449998855591, + "learning_rate": 4.52e-05, + "loss": 0.1954, + "step": 6990 + }, + { + "epoch": 18.666666666666668, + "grad_norm": 1.0442817211151123, + "learning_rate": 4.518518518518519e-05, + "loss": 0.2091, + "step": 7000 + }, + { + "epoch": 18.693333333333335, + "grad_norm": 1.0887091159820557, + "learning_rate": 4.5170370370370376e-05, + "loss": 0.1934, + "step": 7010 + }, + { + "epoch": 18.72, + "grad_norm": 0.9661551117897034, + "learning_rate": 4.5155555555555556e-05, + "loss": 0.2058, + "step": 7020 + }, + { + "epoch": 18.746666666666666, + "grad_norm": 0.654455304145813, + "learning_rate": 4.5140740740740743e-05, + "loss": 0.1811, + "step": 7030 + }, + { + "epoch": 18.773333333333333, + "grad_norm": 1.4048088788986206, + "learning_rate": 4.5125925925925924e-05, + "loss": 0.2461, + "step": 7040 + }, + { + "epoch": 18.8, + "grad_norm": 1.0240541696548462, + "learning_rate": 4.511111111111112e-05, + "loss": 0.2117, + "step": 7050 + }, + { + "epoch": 18.826666666666668, + "grad_norm": 0.8644067049026489, + "learning_rate": 4.50962962962963e-05, + "loss": 0.204, + "step": 7060 + }, + { + "epoch": 18.85333333333333, + "grad_norm": 1.051024079322815, + "learning_rate": 4.5081481481481486e-05, + "loss": 0.2289, + "step": 7070 + }, + { + "epoch": 18.88, + "grad_norm": 0.7867690920829773, + "learning_rate": 4.5066666666666667e-05, + "loss": 0.1644, + "step": 7080 + }, + { + "epoch": 18.906666666666666, + "grad_norm": 0.8934321403503418, + "learning_rate": 4.5051851851851854e-05, + "loss": 0.2173, + "step": 7090 + }, + { + "epoch": 18.933333333333334, + "grad_norm": 1.1223819255828857, + "learning_rate": 4.503703703703704e-05, + "loss": 0.2125, + "step": 7100 + }, + { + "epoch": 18.96, + "grad_norm": 0.8107485771179199, + "learning_rate": 4.502222222222223e-05, + "loss": 0.1964, + "step": 7110 + }, + { + "epoch": 18.986666666666668, + "grad_norm": 0.9979279041290283, + "learning_rate": 4.500740740740741e-05, + "loss": 0.2169, + "step": 7120 + }, + { + "epoch": 19.0, + "eval_accuracy": 0.8891666666666667, + "eval_loss": 0.3249436020851135, + "eval_runtime": 250.4677, + "eval_samples_per_second": 47.91, + "eval_steps_per_second": 1.497, + "step": 7125 + }, + { + "epoch": 19.013333333333332, + "grad_norm": 0.5381714701652527, + "learning_rate": 4.4992592592592597e-05, + "loss": 0.2025, + "step": 7130 + }, + { + "epoch": 19.04, + "grad_norm": 1.0808249711990356, + "learning_rate": 4.497777777777778e-05, + "loss": 0.1914, + "step": 7140 + }, + { + "epoch": 19.066666666666666, + "grad_norm": 0.6208426356315613, + "learning_rate": 4.496296296296297e-05, + "loss": 0.1679, + "step": 7150 + }, + { + "epoch": 19.093333333333334, + "grad_norm": 1.240587830543518, + "learning_rate": 4.494814814814815e-05, + "loss": 0.1985, + "step": 7160 + }, + { + "epoch": 19.12, + "grad_norm": 1.2524210214614868, + "learning_rate": 4.493333333333333e-05, + "loss": 0.2159, + "step": 7170 + }, + { + "epoch": 19.14666666666667, + "grad_norm": 1.103708267211914, + "learning_rate": 4.491851851851852e-05, + "loss": 0.1812, + "step": 7180 + }, + { + "epoch": 19.173333333333332, + "grad_norm": 0.7198252081871033, + "learning_rate": 4.49037037037037e-05, + "loss": 0.2187, + "step": 7190 + }, + { + "epoch": 19.2, + "grad_norm": 0.6944759488105774, + "learning_rate": 4.4888888888888894e-05, + "loss": 0.1774, + "step": 7200 + }, + { + "epoch": 19.226666666666667, + "grad_norm": 0.8930229544639587, + "learning_rate": 4.4874074074074075e-05, + "loss": 0.2069, + "step": 7210 + }, + { + "epoch": 19.253333333333334, + "grad_norm": 0.9005588293075562, + "learning_rate": 4.485925925925926e-05, + "loss": 0.2113, + "step": 7220 + }, + { + "epoch": 19.28, + "grad_norm": 0.8683817982673645, + "learning_rate": 4.484444444444444e-05, + "loss": 0.1643, + "step": 7230 + }, + { + "epoch": 19.306666666666665, + "grad_norm": 0.8800892233848572, + "learning_rate": 4.482962962962963e-05, + "loss": 0.207, + "step": 7240 + }, + { + "epoch": 19.333333333333332, + "grad_norm": 0.7513169050216675, + "learning_rate": 4.481481481481482e-05, + "loss": 0.2171, + "step": 7250 + }, + { + "epoch": 19.36, + "grad_norm": 0.8226156830787659, + "learning_rate": 4.4800000000000005e-05, + "loss": 0.2023, + "step": 7260 + }, + { + "epoch": 19.386666666666667, + "grad_norm": 0.9768080711364746, + "learning_rate": 4.4785185185185185e-05, + "loss": 0.1596, + "step": 7270 + }, + { + "epoch": 19.413333333333334, + "grad_norm": 1.1303435564041138, + "learning_rate": 4.477037037037037e-05, + "loss": 0.1941, + "step": 7280 + }, + { + "epoch": 19.44, + "grad_norm": 1.7983283996582031, + "learning_rate": 4.475555555555555e-05, + "loss": 0.2218, + "step": 7290 + }, + { + "epoch": 19.466666666666665, + "grad_norm": 0.6958315968513489, + "learning_rate": 4.474074074074075e-05, + "loss": 0.1762, + "step": 7300 + }, + { + "epoch": 19.493333333333332, + "grad_norm": 0.845567524433136, + "learning_rate": 4.472592592592593e-05, + "loss": 0.2016, + "step": 7310 + }, + { + "epoch": 19.52, + "grad_norm": 1.0077093839645386, + "learning_rate": 4.4711111111111115e-05, + "loss": 0.1856, + "step": 7320 + }, + { + "epoch": 19.546666666666667, + "grad_norm": 0.8518097996711731, + "learning_rate": 4.4696296296296296e-05, + "loss": 0.1841, + "step": 7330 + }, + { + "epoch": 19.573333333333334, + "grad_norm": 0.9338054656982422, + "learning_rate": 4.468148148148148e-05, + "loss": 0.1909, + "step": 7340 + }, + { + "epoch": 19.6, + "grad_norm": 0.854891836643219, + "learning_rate": 4.466666666666667e-05, + "loss": 0.1942, + "step": 7350 + }, + { + "epoch": 19.626666666666665, + "grad_norm": 1.1921600103378296, + "learning_rate": 4.465185185185186e-05, + "loss": 0.1869, + "step": 7360 + }, + { + "epoch": 19.653333333333332, + "grad_norm": 1.2619552612304688, + "learning_rate": 4.463703703703704e-05, + "loss": 0.1961, + "step": 7370 + }, + { + "epoch": 19.68, + "grad_norm": 1.0258257389068604, + "learning_rate": 4.4622222222222226e-05, + "loss": 0.2015, + "step": 7380 + }, + { + "epoch": 19.706666666666667, + "grad_norm": 0.8175105452537537, + "learning_rate": 4.4607407407407406e-05, + "loss": 0.1842, + "step": 7390 + }, + { + "epoch": 19.733333333333334, + "grad_norm": 0.8806605339050293, + "learning_rate": 4.4592592592592594e-05, + "loss": 0.1993, + "step": 7400 + }, + { + "epoch": 19.76, + "grad_norm": 0.7799044847488403, + "learning_rate": 4.457777777777778e-05, + "loss": 0.2101, + "step": 7410 + }, + { + "epoch": 19.786666666666665, + "grad_norm": 0.9906026721000671, + "learning_rate": 4.456296296296297e-05, + "loss": 0.1883, + "step": 7420 + }, + { + "epoch": 19.813333333333333, + "grad_norm": 0.716210663318634, + "learning_rate": 4.454814814814815e-05, + "loss": 0.2153, + "step": 7430 + }, + { + "epoch": 19.84, + "grad_norm": 0.8464218974113464, + "learning_rate": 4.4533333333333336e-05, + "loss": 0.1849, + "step": 7440 + }, + { + "epoch": 19.866666666666667, + "grad_norm": 0.6615992784500122, + "learning_rate": 4.4518518518518523e-05, + "loss": 0.208, + "step": 7450 + }, + { + "epoch": 19.893333333333334, + "grad_norm": 0.8176917433738708, + "learning_rate": 4.450370370370371e-05, + "loss": 0.2124, + "step": 7460 + }, + { + "epoch": 19.92, + "grad_norm": 0.9772405624389648, + "learning_rate": 4.448888888888889e-05, + "loss": 0.214, + "step": 7470 + }, + { + "epoch": 19.946666666666665, + "grad_norm": 0.8531501293182373, + "learning_rate": 4.447407407407407e-05, + "loss": 0.1954, + "step": 7480 + }, + { + "epoch": 19.973333333333333, + "grad_norm": 0.7524469494819641, + "learning_rate": 4.445925925925926e-05, + "loss": 0.2099, + "step": 7490 + }, + { + "epoch": 20.0, + "grad_norm": 0.9186290502548218, + "learning_rate": 4.4444444444444447e-05, + "loss": 0.1899, + "step": 7500 + }, + { + "epoch": 20.0, + "eval_accuracy": 0.895, + "eval_loss": 0.3019094467163086, + "eval_runtime": 252.2921, + "eval_samples_per_second": 47.564, + "eval_steps_per_second": 1.486, + "step": 7500 + }, + { + "epoch": 20.026666666666667, + "grad_norm": 0.974155604839325, + "learning_rate": 4.4429629629629634e-05, + "loss": 0.1876, + "step": 7510 + }, + { + "epoch": 20.053333333333335, + "grad_norm": 1.0890696048736572, + "learning_rate": 4.4414814814814814e-05, + "loss": 0.1716, + "step": 7520 + }, + { + "epoch": 20.08, + "grad_norm": 0.680019199848175, + "learning_rate": 4.44e-05, + "loss": 0.158, + "step": 7530 + }, + { + "epoch": 20.106666666666666, + "grad_norm": 1.1356762647628784, + "learning_rate": 4.438518518518518e-05, + "loss": 0.1784, + "step": 7540 + }, + { + "epoch": 20.133333333333333, + "grad_norm": 1.1568999290466309, + "learning_rate": 4.4370370370370376e-05, + "loss": 0.1971, + "step": 7550 + }, + { + "epoch": 20.16, + "grad_norm": 1.0519245862960815, + "learning_rate": 4.435555555555556e-05, + "loss": 0.1969, + "step": 7560 + }, + { + "epoch": 20.186666666666667, + "grad_norm": 0.7984748482704163, + "learning_rate": 4.4340740740740744e-05, + "loss": 0.2016, + "step": 7570 + }, + { + "epoch": 20.213333333333335, + "grad_norm": 1.0421602725982666, + "learning_rate": 4.4325925925925925e-05, + "loss": 0.1909, + "step": 7580 + }, + { + "epoch": 20.24, + "grad_norm": 1.0614240169525146, + "learning_rate": 4.431111111111111e-05, + "loss": 0.2089, + "step": 7590 + }, + { + "epoch": 20.266666666666666, + "grad_norm": 0.9773007035255432, + "learning_rate": 4.42962962962963e-05, + "loss": 0.2172, + "step": 7600 + }, + { + "epoch": 20.293333333333333, + "grad_norm": 0.8822944760322571, + "learning_rate": 4.428148148148149e-05, + "loss": 0.2107, + "step": 7610 + }, + { + "epoch": 20.32, + "grad_norm": 0.9824352264404297, + "learning_rate": 4.426666666666667e-05, + "loss": 0.197, + "step": 7620 + }, + { + "epoch": 20.346666666666668, + "grad_norm": 0.5978705286979675, + "learning_rate": 4.4251851851851855e-05, + "loss": 0.1996, + "step": 7630 + }, + { + "epoch": 20.373333333333335, + "grad_norm": 0.7914773225784302, + "learning_rate": 4.4237037037037035e-05, + "loss": 0.1977, + "step": 7640 + }, + { + "epoch": 20.4, + "grad_norm": 0.9881728887557983, + "learning_rate": 4.422222222222222e-05, + "loss": 0.1981, + "step": 7650 + }, + { + "epoch": 20.426666666666666, + "grad_norm": 1.231351375579834, + "learning_rate": 4.420740740740741e-05, + "loss": 0.1522, + "step": 7660 + }, + { + "epoch": 20.453333333333333, + "grad_norm": 1.2548089027404785, + "learning_rate": 4.41925925925926e-05, + "loss": 0.2017, + "step": 7670 + }, + { + "epoch": 20.48, + "grad_norm": 0.6990628838539124, + "learning_rate": 4.417777777777778e-05, + "loss": 0.1821, + "step": 7680 + }, + { + "epoch": 20.506666666666668, + "grad_norm": 0.8536621332168579, + "learning_rate": 4.4162962962962965e-05, + "loss": 0.2056, + "step": 7690 + }, + { + "epoch": 20.533333333333335, + "grad_norm": 0.6946174502372742, + "learning_rate": 4.414814814814815e-05, + "loss": 0.1724, + "step": 7700 + }, + { + "epoch": 20.56, + "grad_norm": 1.3559132814407349, + "learning_rate": 4.413333333333334e-05, + "loss": 0.2002, + "step": 7710 + }, + { + "epoch": 20.586666666666666, + "grad_norm": 0.5767248272895813, + "learning_rate": 4.411851851851852e-05, + "loss": 0.1816, + "step": 7720 + }, + { + "epoch": 20.613333333333333, + "grad_norm": 0.7752051949501038, + "learning_rate": 4.410370370370371e-05, + "loss": 0.1953, + "step": 7730 + }, + { + "epoch": 20.64, + "grad_norm": 0.7078379988670349, + "learning_rate": 4.408888888888889e-05, + "loss": 0.1701, + "step": 7740 + }, + { + "epoch": 20.666666666666668, + "grad_norm": 0.9532902240753174, + "learning_rate": 4.4074074074074076e-05, + "loss": 0.1886, + "step": 7750 + }, + { + "epoch": 20.693333333333335, + "grad_norm": 0.9259477853775024, + "learning_rate": 4.405925925925926e-05, + "loss": 0.1905, + "step": 7760 + }, + { + "epoch": 20.72, + "grad_norm": 0.7656415104866028, + "learning_rate": 4.404444444444445e-05, + "loss": 0.1691, + "step": 7770 + }, + { + "epoch": 20.746666666666666, + "grad_norm": 0.7031339406967163, + "learning_rate": 4.402962962962963e-05, + "loss": 0.1669, + "step": 7780 + }, + { + "epoch": 20.773333333333333, + "grad_norm": 0.9130908250808716, + "learning_rate": 4.401481481481481e-05, + "loss": 0.1905, + "step": 7790 + }, + { + "epoch": 20.8, + "grad_norm": 0.4964917302131653, + "learning_rate": 4.4000000000000006e-05, + "loss": 0.1802, + "step": 7800 + }, + { + "epoch": 20.826666666666668, + "grad_norm": 0.788489043712616, + "learning_rate": 4.3985185185185186e-05, + "loss": 0.1937, + "step": 7810 + }, + { + "epoch": 20.85333333333333, + "grad_norm": 0.763920247554779, + "learning_rate": 4.3970370370370374e-05, + "loss": 0.178, + "step": 7820 + }, + { + "epoch": 20.88, + "grad_norm": 1.1586834192276, + "learning_rate": 4.3955555555555554e-05, + "loss": 0.191, + "step": 7830 + }, + { + "epoch": 20.906666666666666, + "grad_norm": 0.872491180896759, + "learning_rate": 4.394074074074074e-05, + "loss": 0.1886, + "step": 7840 + }, + { + "epoch": 20.933333333333334, + "grad_norm": 0.9791348576545715, + "learning_rate": 4.392592592592593e-05, + "loss": 0.2112, + "step": 7850 + }, + { + "epoch": 20.96, + "grad_norm": 1.3266221284866333, + "learning_rate": 4.3911111111111116e-05, + "loss": 0.2018, + "step": 7860 + }, + { + "epoch": 20.986666666666668, + "grad_norm": 1.6931546926498413, + "learning_rate": 4.38962962962963e-05, + "loss": 0.1839, + "step": 7870 + }, + { + "epoch": 21.0, + "eval_accuracy": 0.89375, + "eval_loss": 0.32217755913734436, + "eval_runtime": 252.8854, + "eval_samples_per_second": 47.452, + "eval_steps_per_second": 1.483, + "step": 7875 + }, + { + "epoch": 21.013333333333332, + "grad_norm": 0.8386087417602539, + "learning_rate": 4.3881481481481484e-05, + "loss": 0.1812, + "step": 7880 + }, + { + "epoch": 21.04, + "grad_norm": 0.8113182187080383, + "learning_rate": 4.3866666666666665e-05, + "loss": 0.1758, + "step": 7890 + }, + { + "epoch": 21.066666666666666, + "grad_norm": 0.9453726410865784, + "learning_rate": 4.385185185185185e-05, + "loss": 0.1995, + "step": 7900 + }, + { + "epoch": 21.093333333333334, + "grad_norm": 0.8395352363586426, + "learning_rate": 4.383703703703704e-05, + "loss": 0.1612, + "step": 7910 + }, + { + "epoch": 21.12, + "grad_norm": 0.9851044416427612, + "learning_rate": 4.3822222222222227e-05, + "loss": 0.1808, + "step": 7920 + }, + { + "epoch": 21.14666666666667, + "grad_norm": 1.0393065214157104, + "learning_rate": 4.380740740740741e-05, + "loss": 0.1816, + "step": 7930 + }, + { + "epoch": 21.173333333333332, + "grad_norm": 0.787501335144043, + "learning_rate": 4.3792592592592594e-05, + "loss": 0.1969, + "step": 7940 + }, + { + "epoch": 21.2, + "grad_norm": 0.6561554074287415, + "learning_rate": 4.377777777777778e-05, + "loss": 0.1762, + "step": 7950 + }, + { + "epoch": 21.226666666666667, + "grad_norm": 1.031649112701416, + "learning_rate": 4.376296296296297e-05, + "loss": 0.1748, + "step": 7960 + }, + { + "epoch": 21.253333333333334, + "grad_norm": 1.063297152519226, + "learning_rate": 4.374814814814815e-05, + "loss": 0.1661, + "step": 7970 + }, + { + "epoch": 21.28, + "grad_norm": 1.1451592445373535, + "learning_rate": 4.373333333333334e-05, + "loss": 0.1764, + "step": 7980 + }, + { + "epoch": 21.306666666666665, + "grad_norm": 0.9897364974021912, + "learning_rate": 4.371851851851852e-05, + "loss": 0.1737, + "step": 7990 + }, + { + "epoch": 21.333333333333332, + "grad_norm": 0.6504824161529541, + "learning_rate": 4.3703703703703705e-05, + "loss": 0.1667, + "step": 8000 + }, + { + "epoch": 21.36, + "grad_norm": 1.1151783466339111, + "learning_rate": 4.368888888888889e-05, + "loss": 0.2116, + "step": 8010 + }, + { + "epoch": 21.386666666666667, + "grad_norm": 1.1283199787139893, + "learning_rate": 4.367407407407408e-05, + "loss": 0.1799, + "step": 8020 + }, + { + "epoch": 21.413333333333334, + "grad_norm": 1.1571197509765625, + "learning_rate": 4.365925925925926e-05, + "loss": 0.1563, + "step": 8030 + }, + { + "epoch": 21.44, + "grad_norm": 1.2237275838851929, + "learning_rate": 4.364444444444445e-05, + "loss": 0.1751, + "step": 8040 + }, + { + "epoch": 21.466666666666665, + "grad_norm": 0.8761997222900391, + "learning_rate": 4.3629629629629635e-05, + "loss": 0.1785, + "step": 8050 + }, + { + "epoch": 21.493333333333332, + "grad_norm": 1.0804013013839722, + "learning_rate": 4.361481481481482e-05, + "loss": 0.183, + "step": 8060 + }, + { + "epoch": 21.52, + "grad_norm": 0.8241725564002991, + "learning_rate": 4.36e-05, + "loss": 0.1536, + "step": 8070 + }, + { + "epoch": 21.546666666666667, + "grad_norm": 1.452316403388977, + "learning_rate": 4.358518518518519e-05, + "loss": 0.1731, + "step": 8080 + }, + { + "epoch": 21.573333333333334, + "grad_norm": 0.6904736161231995, + "learning_rate": 4.357037037037037e-05, + "loss": 0.2101, + "step": 8090 + }, + { + "epoch": 21.6, + "grad_norm": 0.7161980867385864, + "learning_rate": 4.355555555555556e-05, + "loss": 0.1625, + "step": 8100 + }, + { + "epoch": 21.626666666666665, + "grad_norm": 0.7790060043334961, + "learning_rate": 4.3540740740740745e-05, + "loss": 0.1787, + "step": 8110 + }, + { + "epoch": 21.653333333333332, + "grad_norm": 0.5258254408836365, + "learning_rate": 4.3525925925925926e-05, + "loss": 0.1647, + "step": 8120 + }, + { + "epoch": 21.68, + "grad_norm": 1.2902252674102783, + "learning_rate": 4.351111111111111e-05, + "loss": 0.1567, + "step": 8130 + }, + { + "epoch": 21.706666666666667, + "grad_norm": 0.8799579739570618, + "learning_rate": 4.3496296296296294e-05, + "loss": 0.1979, + "step": 8140 + }, + { + "epoch": 21.733333333333334, + "grad_norm": 0.7444628477096558, + "learning_rate": 4.348148148148148e-05, + "loss": 0.178, + "step": 8150 + }, + { + "epoch": 21.76, + "grad_norm": 0.8602064847946167, + "learning_rate": 4.346666666666667e-05, + "loss": 0.1704, + "step": 8160 + }, + { + "epoch": 21.786666666666665, + "grad_norm": 1.1372920274734497, + "learning_rate": 4.3451851851851856e-05, + "loss": 0.1884, + "step": 8170 + }, + { + "epoch": 21.813333333333333, + "grad_norm": 0.932178795337677, + "learning_rate": 4.3437037037037036e-05, + "loss": 0.1911, + "step": 8180 + }, + { + "epoch": 21.84, + "grad_norm": 0.761458694934845, + "learning_rate": 4.3422222222222224e-05, + "loss": 0.1959, + "step": 8190 + }, + { + "epoch": 21.866666666666667, + "grad_norm": 1.028793454170227, + "learning_rate": 4.340740740740741e-05, + "loss": 0.1778, + "step": 8200 + }, + { + "epoch": 21.893333333333334, + "grad_norm": 1.0833359956741333, + "learning_rate": 4.33925925925926e-05, + "loss": 0.195, + "step": 8210 + }, + { + "epoch": 21.92, + "grad_norm": 0.7734977006912231, + "learning_rate": 4.337777777777778e-05, + "loss": 0.1742, + "step": 8220 + }, + { + "epoch": 21.946666666666665, + "grad_norm": 0.8688709139823914, + "learning_rate": 4.3362962962962966e-05, + "loss": 0.168, + "step": 8230 + }, + { + "epoch": 21.973333333333333, + "grad_norm": 1.3795506954193115, + "learning_rate": 4.334814814814815e-05, + "loss": 0.1504, + "step": 8240 + }, + { + "epoch": 22.0, + "grad_norm": 1.1969883441925049, + "learning_rate": 4.3333333333333334e-05, + "loss": 0.1768, + "step": 8250 + }, + { + "epoch": 22.0, + "eval_accuracy": 0.8876666666666667, + "eval_loss": 0.3409099876880646, + "eval_runtime": 252.569, + "eval_samples_per_second": 47.512, + "eval_steps_per_second": 1.485, + "step": 8250 + }, + { + "epoch": 22.026666666666667, + "grad_norm": 0.7353700995445251, + "learning_rate": 4.331851851851852e-05, + "loss": 0.178, + "step": 8260 + }, + { + "epoch": 22.053333333333335, + "grad_norm": 0.7419420480728149, + "learning_rate": 4.330370370370371e-05, + "loss": 0.1895, + "step": 8270 + }, + { + "epoch": 22.08, + "grad_norm": 0.6869510412216187, + "learning_rate": 4.328888888888889e-05, + "loss": 0.1855, + "step": 8280 + }, + { + "epoch": 22.106666666666666, + "grad_norm": 1.0026262998580933, + "learning_rate": 4.327407407407408e-05, + "loss": 0.1666, + "step": 8290 + }, + { + "epoch": 22.133333333333333, + "grad_norm": 0.7855711579322815, + "learning_rate": 4.325925925925926e-05, + "loss": 0.1868, + "step": 8300 + }, + { + "epoch": 22.16, + "grad_norm": 1.2874245643615723, + "learning_rate": 4.324444444444445e-05, + "loss": 0.1658, + "step": 8310 + }, + { + "epoch": 22.186666666666667, + "grad_norm": 0.8713183999061584, + "learning_rate": 4.322962962962963e-05, + "loss": 0.207, + "step": 8320 + }, + { + "epoch": 22.213333333333335, + "grad_norm": 0.8744196891784668, + "learning_rate": 4.321481481481482e-05, + "loss": 0.1731, + "step": 8330 + }, + { + "epoch": 22.24, + "grad_norm": 1.1002644300460815, + "learning_rate": 4.32e-05, + "loss": 0.1884, + "step": 8340 + }, + { + "epoch": 22.266666666666666, + "grad_norm": 1.0432552099227905, + "learning_rate": 4.318518518518519e-05, + "loss": 0.1945, + "step": 8350 + }, + { + "epoch": 22.293333333333333, + "grad_norm": 0.9092620015144348, + "learning_rate": 4.3170370370370374e-05, + "loss": 0.1945, + "step": 8360 + }, + { + "epoch": 22.32, + "grad_norm": 0.8668107390403748, + "learning_rate": 4.315555555555556e-05, + "loss": 0.185, + "step": 8370 + }, + { + "epoch": 22.346666666666668, + "grad_norm": 0.6398547291755676, + "learning_rate": 4.314074074074074e-05, + "loss": 0.1668, + "step": 8380 + }, + { + "epoch": 22.373333333333335, + "grad_norm": 1.4548838138580322, + "learning_rate": 4.312592592592593e-05, + "loss": 0.2037, + "step": 8390 + }, + { + "epoch": 22.4, + "grad_norm": 0.9992258548736572, + "learning_rate": 4.311111111111111e-05, + "loss": 0.1851, + "step": 8400 + }, + { + "epoch": 22.426666666666666, + "grad_norm": 0.6763677597045898, + "learning_rate": 4.30962962962963e-05, + "loss": 0.1779, + "step": 8410 + }, + { + "epoch": 22.453333333333333, + "grad_norm": 0.7363944053649902, + "learning_rate": 4.3081481481481485e-05, + "loss": 0.1747, + "step": 8420 + }, + { + "epoch": 22.48, + "grad_norm": 0.7682416439056396, + "learning_rate": 4.3066666666666665e-05, + "loss": 0.1907, + "step": 8430 + }, + { + "epoch": 22.506666666666668, + "grad_norm": 0.6851952075958252, + "learning_rate": 4.305185185185185e-05, + "loss": 0.17, + "step": 8440 + }, + { + "epoch": 22.533333333333335, + "grad_norm": 1.0802876949310303, + "learning_rate": 4.303703703703704e-05, + "loss": 0.1879, + "step": 8450 + }, + { + "epoch": 22.56, + "grad_norm": 0.7615159749984741, + "learning_rate": 4.302222222222223e-05, + "loss": 0.1703, + "step": 8460 + }, + { + "epoch": 22.586666666666666, + "grad_norm": 0.9228318333625793, + "learning_rate": 4.300740740740741e-05, + "loss": 0.1957, + "step": 8470 + }, + { + "epoch": 22.613333333333333, + "grad_norm": 0.5299271941184998, + "learning_rate": 4.2992592592592595e-05, + "loss": 0.1663, + "step": 8480 + }, + { + "epoch": 22.64, + "grad_norm": 0.9154703617095947, + "learning_rate": 4.2977777777777776e-05, + "loss": 0.1802, + "step": 8490 + }, + { + "epoch": 22.666666666666668, + "grad_norm": 0.9980658888816833, + "learning_rate": 4.296296296296296e-05, + "loss": 0.2066, + "step": 8500 + }, + { + "epoch": 22.693333333333335, + "grad_norm": 1.0865224599838257, + "learning_rate": 4.294814814814815e-05, + "loss": 0.1823, + "step": 8510 + }, + { + "epoch": 22.72, + "grad_norm": 0.8318993449211121, + "learning_rate": 4.293333333333334e-05, + "loss": 0.1666, + "step": 8520 + }, + { + "epoch": 22.746666666666666, + "grad_norm": 1.0815845727920532, + "learning_rate": 4.291851851851852e-05, + "loss": 0.1759, + "step": 8530 + }, + { + "epoch": 22.773333333333333, + "grad_norm": 0.6411643624305725, + "learning_rate": 4.2903703703703706e-05, + "loss": 0.1709, + "step": 8540 + }, + { + "epoch": 22.8, + "grad_norm": 1.19650399684906, + "learning_rate": 4.2888888888888886e-05, + "loss": 0.1817, + "step": 8550 + }, + { + "epoch": 22.826666666666668, + "grad_norm": 0.6900277733802795, + "learning_rate": 4.287407407407408e-05, + "loss": 0.1871, + "step": 8560 + }, + { + "epoch": 22.85333333333333, + "grad_norm": 0.8420649766921997, + "learning_rate": 4.285925925925926e-05, + "loss": 0.1949, + "step": 8570 + }, + { + "epoch": 22.88, + "grad_norm": 0.4560328722000122, + "learning_rate": 4.284444444444445e-05, + "loss": 0.1858, + "step": 8580 + }, + { + "epoch": 22.906666666666666, + "grad_norm": 0.7816135883331299, + "learning_rate": 4.282962962962963e-05, + "loss": 0.1695, + "step": 8590 + }, + { + "epoch": 22.933333333333334, + "grad_norm": 0.741071343421936, + "learning_rate": 4.2814814814814816e-05, + "loss": 0.1857, + "step": 8600 + }, + { + "epoch": 22.96, + "grad_norm": 1.2350037097930908, + "learning_rate": 4.2800000000000004e-05, + "loss": 0.1755, + "step": 8610 + }, + { + "epoch": 22.986666666666668, + "grad_norm": 0.8331182599067688, + "learning_rate": 4.278518518518519e-05, + "loss": 0.1706, + "step": 8620 + }, + { + "epoch": 23.0, + "eval_accuracy": 0.8998333333333334, + "eval_loss": 0.2921205163002014, + "eval_runtime": 251.8908, + "eval_samples_per_second": 47.64, + "eval_steps_per_second": 1.489, + "step": 8625 + }, + { + "epoch": 23.013333333333332, + "grad_norm": 1.4009085893630981, + "learning_rate": 4.277037037037037e-05, + "loss": 0.181, + "step": 8630 + }, + { + "epoch": 23.04, + "grad_norm": 0.9988806843757629, + "learning_rate": 4.275555555555556e-05, + "loss": 0.177, + "step": 8640 + }, + { + "epoch": 23.066666666666666, + "grad_norm": 1.0534147024154663, + "learning_rate": 4.274074074074074e-05, + "loss": 0.1616, + "step": 8650 + }, + { + "epoch": 23.093333333333334, + "grad_norm": 1.0849246978759766, + "learning_rate": 4.2725925925925933e-05, + "loss": 0.1835, + "step": 8660 + }, + { + "epoch": 23.12, + "grad_norm": 0.6626443862915039, + "learning_rate": 4.2711111111111114e-05, + "loss": 0.1671, + "step": 8670 + }, + { + "epoch": 23.14666666666667, + "grad_norm": 1.1908282041549683, + "learning_rate": 4.26962962962963e-05, + "loss": 0.1699, + "step": 8680 + }, + { + "epoch": 23.173333333333332, + "grad_norm": 0.8376059532165527, + "learning_rate": 4.268148148148148e-05, + "loss": 0.1697, + "step": 8690 + }, + { + "epoch": 23.2, + "grad_norm": 0.9271876811981201, + "learning_rate": 4.266666666666667e-05, + "loss": 0.2006, + "step": 8700 + }, + { + "epoch": 23.226666666666667, + "grad_norm": 0.8758803009986877, + "learning_rate": 4.2651851851851857e-05, + "loss": 0.1656, + "step": 8710 + }, + { + "epoch": 23.253333333333334, + "grad_norm": 0.8610839247703552, + "learning_rate": 4.263703703703704e-05, + "loss": 0.1677, + "step": 8720 + }, + { + "epoch": 23.28, + "grad_norm": 0.6845949292182922, + "learning_rate": 4.2622222222222224e-05, + "loss": 0.1733, + "step": 8730 + }, + { + "epoch": 23.306666666666665, + "grad_norm": 1.113952875137329, + "learning_rate": 4.2607407407407405e-05, + "loss": 0.1686, + "step": 8740 + }, + { + "epoch": 23.333333333333332, + "grad_norm": 1.0626049041748047, + "learning_rate": 4.259259259259259e-05, + "loss": 0.1498, + "step": 8750 + }, + { + "epoch": 23.36, + "grad_norm": 1.4771642684936523, + "learning_rate": 4.257777777777778e-05, + "loss": 0.1833, + "step": 8760 + }, + { + "epoch": 23.386666666666667, + "grad_norm": 0.9757238626480103, + "learning_rate": 4.256296296296297e-05, + "loss": 0.1812, + "step": 8770 + }, + { + "epoch": 23.413333333333334, + "grad_norm": 0.6607667207717896, + "learning_rate": 4.254814814814815e-05, + "loss": 0.1766, + "step": 8780 + }, + { + "epoch": 23.44, + "grad_norm": 1.0310217142105103, + "learning_rate": 4.2533333333333335e-05, + "loss": 0.1969, + "step": 8790 + }, + { + "epoch": 23.466666666666665, + "grad_norm": 1.017004132270813, + "learning_rate": 4.2518518518518515e-05, + "loss": 0.1892, + "step": 8800 + }, + { + "epoch": 23.493333333333332, + "grad_norm": 0.9267727732658386, + "learning_rate": 4.250370370370371e-05, + "loss": 0.1727, + "step": 8810 + }, + { + "epoch": 23.52, + "grad_norm": 0.8183227181434631, + "learning_rate": 4.248888888888889e-05, + "loss": 0.1984, + "step": 8820 + }, + { + "epoch": 23.546666666666667, + "grad_norm": 1.0381815433502197, + "learning_rate": 4.247407407407408e-05, + "loss": 0.1718, + "step": 8830 + }, + { + "epoch": 23.573333333333334, + "grad_norm": 0.8884240984916687, + "learning_rate": 4.245925925925926e-05, + "loss": 0.1807, + "step": 8840 + }, + { + "epoch": 23.6, + "grad_norm": 0.7501320838928223, + "learning_rate": 4.2444444444444445e-05, + "loss": 0.1863, + "step": 8850 + }, + { + "epoch": 23.626666666666665, + "grad_norm": 1.1587915420532227, + "learning_rate": 4.242962962962963e-05, + "loss": 0.1459, + "step": 8860 + }, + { + "epoch": 23.653333333333332, + "grad_norm": 1.3702963590621948, + "learning_rate": 4.241481481481482e-05, + "loss": 0.1468, + "step": 8870 + }, + { + "epoch": 23.68, + "grad_norm": 0.788389265537262, + "learning_rate": 4.24e-05, + "loss": 0.1699, + "step": 8880 + }, + { + "epoch": 23.706666666666667, + "grad_norm": 0.7712949514389038, + "learning_rate": 4.238518518518519e-05, + "loss": 0.1521, + "step": 8890 + }, + { + "epoch": 23.733333333333334, + "grad_norm": 0.9007423520088196, + "learning_rate": 4.237037037037037e-05, + "loss": 0.2026, + "step": 8900 + }, + { + "epoch": 23.76, + "grad_norm": 0.5816249847412109, + "learning_rate": 4.235555555555556e-05, + "loss": 0.1763, + "step": 8910 + }, + { + "epoch": 23.786666666666665, + "grad_norm": 0.8288398385047913, + "learning_rate": 4.234074074074074e-05, + "loss": 0.1808, + "step": 8920 + }, + { + "epoch": 23.813333333333333, + "grad_norm": 0.9582520127296448, + "learning_rate": 4.232592592592593e-05, + "loss": 0.1585, + "step": 8930 + }, + { + "epoch": 23.84, + "grad_norm": 0.9543741941452026, + "learning_rate": 4.231111111111111e-05, + "loss": 0.1722, + "step": 8940 + }, + { + "epoch": 23.866666666666667, + "grad_norm": 0.9123662114143372, + "learning_rate": 4.22962962962963e-05, + "loss": 0.1762, + "step": 8950 + }, + { + "epoch": 23.893333333333334, + "grad_norm": 0.9601418972015381, + "learning_rate": 4.2281481481481486e-05, + "loss": 0.1905, + "step": 8960 + }, + { + "epoch": 23.92, + "grad_norm": 1.0358216762542725, + "learning_rate": 4.226666666666667e-05, + "loss": 0.1674, + "step": 8970 + }, + { + "epoch": 23.946666666666665, + "grad_norm": 0.7353113889694214, + "learning_rate": 4.2251851851851854e-05, + "loss": 0.2169, + "step": 8980 + }, + { + "epoch": 23.973333333333333, + "grad_norm": 0.687998354434967, + "learning_rate": 4.223703703703704e-05, + "loss": 0.1805, + "step": 8990 + }, + { + "epoch": 24.0, + "grad_norm": 0.8310955166816711, + "learning_rate": 4.222222222222222e-05, + "loss": 0.1793, + "step": 9000 + }, + { + "epoch": 24.0, + "eval_accuracy": 0.89725, + "eval_loss": 0.30275094509124756, + "eval_runtime": 252.7084, + "eval_samples_per_second": 47.486, + "eval_steps_per_second": 1.484, + "step": 9000 + }, + { + "epoch": 24.026666666666667, + "grad_norm": 0.7066337466239929, + "learning_rate": 4.220740740740741e-05, + "loss": 0.1508, + "step": 9010 + }, + { + "epoch": 24.053333333333335, + "grad_norm": 0.7717369794845581, + "learning_rate": 4.2192592592592596e-05, + "loss": 0.1511, + "step": 9020 + }, + { + "epoch": 24.08, + "grad_norm": 0.5945690870285034, + "learning_rate": 4.217777777777778e-05, + "loss": 0.1586, + "step": 9030 + }, + { + "epoch": 24.106666666666666, + "grad_norm": 0.7968681454658508, + "learning_rate": 4.2162962962962964e-05, + "loss": 0.1633, + "step": 9040 + }, + { + "epoch": 24.133333333333333, + "grad_norm": 0.9050436615943909, + "learning_rate": 4.2148148148148145e-05, + "loss": 0.1505, + "step": 9050 + }, + { + "epoch": 24.16, + "grad_norm": 1.5258382558822632, + "learning_rate": 4.213333333333334e-05, + "loss": 0.1947, + "step": 9060 + }, + { + "epoch": 24.186666666666667, + "grad_norm": 0.7220850586891174, + "learning_rate": 4.211851851851852e-05, + "loss": 0.1795, + "step": 9070 + }, + { + "epoch": 24.213333333333335, + "grad_norm": 0.7701992392539978, + "learning_rate": 4.210370370370371e-05, + "loss": 0.1814, + "step": 9080 + }, + { + "epoch": 24.24, + "grad_norm": 1.10643470287323, + "learning_rate": 4.208888888888889e-05, + "loss": 0.1702, + "step": 9090 + }, + { + "epoch": 24.266666666666666, + "grad_norm": 0.5304285287857056, + "learning_rate": 4.2074074074074075e-05, + "loss": 0.1429, + "step": 9100 + }, + { + "epoch": 24.293333333333333, + "grad_norm": 0.7879608273506165, + "learning_rate": 4.205925925925926e-05, + "loss": 0.1642, + "step": 9110 + }, + { + "epoch": 24.32, + "grad_norm": 0.9071942567825317, + "learning_rate": 4.204444444444445e-05, + "loss": 0.1603, + "step": 9120 + }, + { + "epoch": 24.346666666666668, + "grad_norm": 0.5709224939346313, + "learning_rate": 4.202962962962963e-05, + "loss": 0.1761, + "step": 9130 + }, + { + "epoch": 24.373333333333335, + "grad_norm": 0.7939537763595581, + "learning_rate": 4.201481481481482e-05, + "loss": 0.174, + "step": 9140 + }, + { + "epoch": 24.4, + "grad_norm": 1.0654009580612183, + "learning_rate": 4.2e-05, + "loss": 0.1974, + "step": 9150 + }, + { + "epoch": 24.426666666666666, + "grad_norm": 0.8201857805252075, + "learning_rate": 4.198518518518519e-05, + "loss": 0.1736, + "step": 9160 + }, + { + "epoch": 24.453333333333333, + "grad_norm": 0.964053750038147, + "learning_rate": 4.197037037037037e-05, + "loss": 0.1754, + "step": 9170 + }, + { + "epoch": 24.48, + "grad_norm": 0.7591426968574524, + "learning_rate": 4.195555555555556e-05, + "loss": 0.1521, + "step": 9180 + }, + { + "epoch": 24.506666666666668, + "grad_norm": 0.9103859066963196, + "learning_rate": 4.194074074074074e-05, + "loss": 0.2021, + "step": 9190 + }, + { + "epoch": 24.533333333333335, + "grad_norm": 0.9591417908668518, + "learning_rate": 4.192592592592593e-05, + "loss": 0.1773, + "step": 9200 + }, + { + "epoch": 24.56, + "grad_norm": 0.9724812507629395, + "learning_rate": 4.1911111111111115e-05, + "loss": 0.1709, + "step": 9210 + }, + { + "epoch": 24.586666666666666, + "grad_norm": 0.7648409605026245, + "learning_rate": 4.18962962962963e-05, + "loss": 0.1728, + "step": 9220 + }, + { + "epoch": 24.613333333333333, + "grad_norm": 1.0305107831954956, + "learning_rate": 4.188148148148148e-05, + "loss": 0.1768, + "step": 9230 + }, + { + "epoch": 24.64, + "grad_norm": 1.042624592781067, + "learning_rate": 4.186666666666667e-05, + "loss": 0.1741, + "step": 9240 + }, + { + "epoch": 24.666666666666668, + "grad_norm": 0.8776698708534241, + "learning_rate": 4.185185185185185e-05, + "loss": 0.1739, + "step": 9250 + }, + { + "epoch": 24.693333333333335, + "grad_norm": 0.8154869079589844, + "learning_rate": 4.183703703703704e-05, + "loss": 0.1644, + "step": 9260 + }, + { + "epoch": 24.72, + "grad_norm": 1.0589091777801514, + "learning_rate": 4.1822222222222225e-05, + "loss": 0.1643, + "step": 9270 + }, + { + "epoch": 24.746666666666666, + "grad_norm": 1.109400749206543, + "learning_rate": 4.180740740740741e-05, + "loss": 0.1893, + "step": 9280 + }, + { + "epoch": 24.773333333333333, + "grad_norm": 0.5576030015945435, + "learning_rate": 4.179259259259259e-05, + "loss": 0.155, + "step": 9290 + }, + { + "epoch": 24.8, + "grad_norm": 0.7653414607048035, + "learning_rate": 4.177777777777778e-05, + "loss": 0.1605, + "step": 9300 + }, + { + "epoch": 24.826666666666668, + "grad_norm": 0.7315034866333008, + "learning_rate": 4.176296296296297e-05, + "loss": 0.1716, + "step": 9310 + }, + { + "epoch": 24.85333333333333, + "grad_norm": 0.7963380813598633, + "learning_rate": 4.1748148148148155e-05, + "loss": 0.1437, + "step": 9320 + }, + { + "epoch": 24.88, + "grad_norm": 1.1860369443893433, + "learning_rate": 4.1733333333333336e-05, + "loss": 0.1758, + "step": 9330 + }, + { + "epoch": 24.906666666666666, + "grad_norm": 1.2217801809310913, + "learning_rate": 4.1718518518518516e-05, + "loss": 0.1697, + "step": 9340 + }, + { + "epoch": 24.933333333333334, + "grad_norm": 0.728153645992279, + "learning_rate": 4.1703703703703704e-05, + "loss": 0.1498, + "step": 9350 + }, + { + "epoch": 24.96, + "grad_norm": 0.8887326121330261, + "learning_rate": 4.168888888888889e-05, + "loss": 0.1998, + "step": 9360 + }, + { + "epoch": 24.986666666666668, + "grad_norm": 0.6151113510131836, + "learning_rate": 4.167407407407408e-05, + "loss": 0.1777, + "step": 9370 + }, + { + "epoch": 25.0, + "eval_accuracy": 0.898, + "eval_loss": 0.3156568109989166, + "eval_runtime": 251.8883, + "eval_samples_per_second": 47.64, + "eval_steps_per_second": 1.489, + "step": 9375 + }, + { + "epoch": 25.013333333333332, + "grad_norm": 0.8027066588401794, + "learning_rate": 4.165925925925926e-05, + "loss": 0.1785, + "step": 9380 + }, + { + "epoch": 25.04, + "grad_norm": 0.46272796392440796, + "learning_rate": 4.1644444444444446e-05, + "loss": 0.1591, + "step": 9390 + }, + { + "epoch": 25.066666666666666, + "grad_norm": 0.48692336678504944, + "learning_rate": 4.162962962962963e-05, + "loss": 0.1428, + "step": 9400 + }, + { + "epoch": 25.093333333333334, + "grad_norm": 0.8233329653739929, + "learning_rate": 4.161481481481482e-05, + "loss": 0.1575, + "step": 9410 + }, + { + "epoch": 25.12, + "grad_norm": 0.957427442073822, + "learning_rate": 4.16e-05, + "loss": 0.1539, + "step": 9420 + }, + { + "epoch": 25.14666666666667, + "grad_norm": 1.2377736568450928, + "learning_rate": 4.158518518518519e-05, + "loss": 0.1669, + "step": 9430 + }, + { + "epoch": 25.173333333333332, + "grad_norm": 0.769623339176178, + "learning_rate": 4.157037037037037e-05, + "loss": 0.1879, + "step": 9440 + }, + { + "epoch": 25.2, + "grad_norm": 0.766095757484436, + "learning_rate": 4.155555555555556e-05, + "loss": 0.1384, + "step": 9450 + }, + { + "epoch": 25.226666666666667, + "grad_norm": 0.7639849185943604, + "learning_rate": 4.1540740740740744e-05, + "loss": 0.1478, + "step": 9460 + }, + { + "epoch": 25.253333333333334, + "grad_norm": 0.6896493434906006, + "learning_rate": 4.152592592592593e-05, + "loss": 0.1598, + "step": 9470 + }, + { + "epoch": 25.28, + "grad_norm": 0.6748881936073303, + "learning_rate": 4.151111111111111e-05, + "loss": 0.1768, + "step": 9480 + }, + { + "epoch": 25.306666666666665, + "grad_norm": 1.2227346897125244, + "learning_rate": 4.14962962962963e-05, + "loss": 0.1774, + "step": 9490 + }, + { + "epoch": 25.333333333333332, + "grad_norm": 0.663772702217102, + "learning_rate": 4.148148148148148e-05, + "loss": 0.1635, + "step": 9500 + }, + { + "epoch": 25.36, + "grad_norm": 0.5167037844657898, + "learning_rate": 4.146666666666667e-05, + "loss": 0.1658, + "step": 9510 + }, + { + "epoch": 25.386666666666667, + "grad_norm": 0.9501878619194031, + "learning_rate": 4.1451851851851855e-05, + "loss": 0.1382, + "step": 9520 + }, + { + "epoch": 25.413333333333334, + "grad_norm": 1.1179039478302002, + "learning_rate": 4.143703703703704e-05, + "loss": 0.1724, + "step": 9530 + }, + { + "epoch": 25.44, + "grad_norm": 0.7136002779006958, + "learning_rate": 4.142222222222222e-05, + "loss": 0.1542, + "step": 9540 + }, + { + "epoch": 25.466666666666665, + "grad_norm": 0.8506696224212646, + "learning_rate": 4.140740740740741e-05, + "loss": 0.1491, + "step": 9550 + }, + { + "epoch": 25.493333333333332, + "grad_norm": 1.212020754814148, + "learning_rate": 4.13925925925926e-05, + "loss": 0.1859, + "step": 9560 + }, + { + "epoch": 25.52, + "grad_norm": 0.766791045665741, + "learning_rate": 4.1377777777777784e-05, + "loss": 0.1894, + "step": 9570 + }, + { + "epoch": 25.546666666666667, + "grad_norm": 0.5400250554084778, + "learning_rate": 4.1362962962962965e-05, + "loss": 0.1541, + "step": 9580 + }, + { + "epoch": 25.573333333333334, + "grad_norm": 0.6574545502662659, + "learning_rate": 4.134814814814815e-05, + "loss": 0.1592, + "step": 9590 + }, + { + "epoch": 25.6, + "grad_norm": 1.0278068780899048, + "learning_rate": 4.133333333333333e-05, + "loss": 0.1543, + "step": 9600 + }, + { + "epoch": 25.626666666666665, + "grad_norm": 1.0386019945144653, + "learning_rate": 4.131851851851852e-05, + "loss": 0.1552, + "step": 9610 + }, + { + "epoch": 25.653333333333332, + "grad_norm": 0.5067430138587952, + "learning_rate": 4.130370370370371e-05, + "loss": 0.1764, + "step": 9620 + }, + { + "epoch": 25.68, + "grad_norm": 0.7337875962257385, + "learning_rate": 4.1288888888888895e-05, + "loss": 0.1529, + "step": 9630 + }, + { + "epoch": 25.706666666666667, + "grad_norm": 0.6260819435119629, + "learning_rate": 4.1274074074074075e-05, + "loss": 0.1748, + "step": 9640 + }, + { + "epoch": 25.733333333333334, + "grad_norm": 0.8517183661460876, + "learning_rate": 4.1259259259259256e-05, + "loss": 0.141, + "step": 9650 + }, + { + "epoch": 25.76, + "grad_norm": 0.6665200591087341, + "learning_rate": 4.124444444444444e-05, + "loss": 0.1562, + "step": 9660 + }, + { + "epoch": 25.786666666666665, + "grad_norm": 0.6507882475852966, + "learning_rate": 4.122962962962963e-05, + "loss": 0.165, + "step": 9670 + }, + { + "epoch": 25.813333333333333, + "grad_norm": 0.8839073777198792, + "learning_rate": 4.121481481481482e-05, + "loss": 0.2142, + "step": 9680 + }, + { + "epoch": 25.84, + "grad_norm": 0.3860010802745819, + "learning_rate": 4.12e-05, + "loss": 0.161, + "step": 9690 + }, + { + "epoch": 25.866666666666667, + "grad_norm": 0.7398421168327332, + "learning_rate": 4.1185185185185186e-05, + "loss": 0.1687, + "step": 9700 + }, + { + "epoch": 25.893333333333334, + "grad_norm": 0.4246804416179657, + "learning_rate": 4.117037037037037e-05, + "loss": 0.1822, + "step": 9710 + }, + { + "epoch": 25.92, + "grad_norm": 1.161210060119629, + "learning_rate": 4.115555555555556e-05, + "loss": 0.1382, + "step": 9720 + }, + { + "epoch": 25.946666666666665, + "grad_norm": 1.0247435569763184, + "learning_rate": 4.114074074074074e-05, + "loss": 0.1373, + "step": 9730 + }, + { + "epoch": 25.973333333333333, + "grad_norm": 0.814956545829773, + "learning_rate": 4.112592592592593e-05, + "loss": 0.1592, + "step": 9740 + }, + { + "epoch": 26.0, + "grad_norm": 0.9313995838165283, + "learning_rate": 4.111111111111111e-05, + "loss": 0.1571, + "step": 9750 + }, + { + "epoch": 26.0, + "eval_accuracy": 0.8990833333333333, + "eval_loss": 0.31929996609687805, + "eval_runtime": 253.0476, + "eval_samples_per_second": 47.422, + "eval_steps_per_second": 1.482, + "step": 9750 + }, + { + "epoch": 26.026666666666667, + "grad_norm": 0.7782986164093018, + "learning_rate": 4.1096296296296296e-05, + "loss": 0.1752, + "step": 9760 + }, + { + "epoch": 26.053333333333335, + "grad_norm": 0.9605236649513245, + "learning_rate": 4.1081481481481484e-05, + "loss": 0.1601, + "step": 9770 + }, + { + "epoch": 26.08, + "grad_norm": 0.7013469338417053, + "learning_rate": 4.106666666666667e-05, + "loss": 0.1571, + "step": 9780 + }, + { + "epoch": 26.106666666666666, + "grad_norm": 1.042792558670044, + "learning_rate": 4.105185185185185e-05, + "loss": 0.1628, + "step": 9790 + }, + { + "epoch": 26.133333333333333, + "grad_norm": 1.104070782661438, + "learning_rate": 4.103703703703704e-05, + "loss": 0.1554, + "step": 9800 + }, + { + "epoch": 26.16, + "grad_norm": 0.9003199338912964, + "learning_rate": 4.1022222222222226e-05, + "loss": 0.1665, + "step": 9810 + }, + { + "epoch": 26.186666666666667, + "grad_norm": 1.1134809255599976, + "learning_rate": 4.1007407407407414e-05, + "loss": 0.162, + "step": 9820 + }, + { + "epoch": 26.213333333333335, + "grad_norm": 0.6833969354629517, + "learning_rate": 4.0992592592592594e-05, + "loss": 0.1653, + "step": 9830 + }, + { + "epoch": 26.24, + "grad_norm": 1.1178427934646606, + "learning_rate": 4.097777777777778e-05, + "loss": 0.1425, + "step": 9840 + }, + { + "epoch": 26.266666666666666, + "grad_norm": 1.0028446912765503, + "learning_rate": 4.096296296296296e-05, + "loss": 0.17, + "step": 9850 + }, + { + "epoch": 26.293333333333333, + "grad_norm": 0.7377941012382507, + "learning_rate": 4.094814814814815e-05, + "loss": 0.1753, + "step": 9860 + }, + { + "epoch": 26.32, + "grad_norm": 0.7071134448051453, + "learning_rate": 4.093333333333334e-05, + "loss": 0.1381, + "step": 9870 + }, + { + "epoch": 26.346666666666668, + "grad_norm": 0.9348256587982178, + "learning_rate": 4.0918518518518524e-05, + "loss": 0.1578, + "step": 9880 + }, + { + "epoch": 26.373333333333335, + "grad_norm": 0.955427885055542, + "learning_rate": 4.0903703703703705e-05, + "loss": 0.1445, + "step": 9890 + }, + { + "epoch": 26.4, + "grad_norm": 0.8554354310035706, + "learning_rate": 4.088888888888889e-05, + "loss": 0.1548, + "step": 9900 + }, + { + "epoch": 26.426666666666666, + "grad_norm": 0.9663209319114685, + "learning_rate": 4.087407407407407e-05, + "loss": 0.1538, + "step": 9910 + }, + { + "epoch": 26.453333333333333, + "grad_norm": 0.6183518171310425, + "learning_rate": 4.0859259259259267e-05, + "loss": 0.1667, + "step": 9920 + }, + { + "epoch": 26.48, + "grad_norm": 0.6601312160491943, + "learning_rate": 4.084444444444445e-05, + "loss": 0.149, + "step": 9930 + }, + { + "epoch": 26.506666666666668, + "grad_norm": 0.6924620270729065, + "learning_rate": 4.0829629629629634e-05, + "loss": 0.1702, + "step": 9940 + }, + { + "epoch": 26.533333333333335, + "grad_norm": 1.4241288900375366, + "learning_rate": 4.0814814814814815e-05, + "loss": 0.1704, + "step": 9950 + }, + { + "epoch": 26.56, + "grad_norm": 1.0676738023757935, + "learning_rate": 4.08e-05, + "loss": 0.1505, + "step": 9960 + }, + { + "epoch": 26.586666666666666, + "grad_norm": 0.6703752279281616, + "learning_rate": 4.078518518518519e-05, + "loss": 0.1543, + "step": 9970 + }, + { + "epoch": 26.613333333333333, + "grad_norm": 0.952796995639801, + "learning_rate": 4.077037037037037e-05, + "loss": 0.179, + "step": 9980 + }, + { + "epoch": 26.64, + "grad_norm": 1.101239800453186, + "learning_rate": 4.075555555555556e-05, + "loss": 0.1629, + "step": 9990 + }, + { + "epoch": 26.666666666666668, + "grad_norm": 0.9030396342277527, + "learning_rate": 4.074074074074074e-05, + "loss": 0.1674, + "step": 10000 + }, + { + "epoch": 26.693333333333335, + "grad_norm": 0.7878081798553467, + "learning_rate": 4.0725925925925926e-05, + "loss": 0.1851, + "step": 10010 + }, + { + "epoch": 26.72, + "grad_norm": 0.5717151165008545, + "learning_rate": 4.071111111111111e-05, + "loss": 0.1538, + "step": 10020 + }, + { + "epoch": 26.746666666666666, + "grad_norm": 0.6442128419876099, + "learning_rate": 4.06962962962963e-05, + "loss": 0.1495, + "step": 10030 + }, + { + "epoch": 26.773333333333333, + "grad_norm": 0.6916108727455139, + "learning_rate": 4.068148148148148e-05, + "loss": 0.1594, + "step": 10040 + }, + { + "epoch": 26.8, + "grad_norm": 0.8664018511772156, + "learning_rate": 4.066666666666667e-05, + "loss": 0.2021, + "step": 10050 + }, + { + "epoch": 26.826666666666668, + "grad_norm": 1.0689308643341064, + "learning_rate": 4.0651851851851855e-05, + "loss": 0.1732, + "step": 10060 + }, + { + "epoch": 26.85333333333333, + "grad_norm": 1.2212198972702026, + "learning_rate": 4.063703703703704e-05, + "loss": 0.1521, + "step": 10070 + }, + { + "epoch": 26.88, + "grad_norm": 0.5901145935058594, + "learning_rate": 4.062222222222222e-05, + "loss": 0.1703, + "step": 10080 + }, + { + "epoch": 26.906666666666666, + "grad_norm": 0.9043041467666626, + "learning_rate": 4.060740740740741e-05, + "loss": 0.1891, + "step": 10090 + }, + { + "epoch": 26.933333333333334, + "grad_norm": 0.6385757923126221, + "learning_rate": 4.059259259259259e-05, + "loss": 0.1531, + "step": 10100 + }, + { + "epoch": 26.96, + "grad_norm": 0.9186438918113708, + "learning_rate": 4.057777777777778e-05, + "loss": 0.1886, + "step": 10110 + }, + { + "epoch": 26.986666666666668, + "grad_norm": 0.9996051788330078, + "learning_rate": 4.0562962962962966e-05, + "loss": 0.1616, + "step": 10120 + }, + { + "epoch": 27.0, + "eval_accuracy": 0.9008333333333334, + "eval_loss": 0.31497037410736084, + "eval_runtime": 252.7702, + "eval_samples_per_second": 47.474, + "eval_steps_per_second": 1.484, + "step": 10125 + }, + { + "epoch": 27.013333333333332, + "grad_norm": 1.4487619400024414, + "learning_rate": 4.054814814814815e-05, + "loss": 0.1272, + "step": 10130 + }, + { + "epoch": 27.04, + "grad_norm": 1.0402156114578247, + "learning_rate": 4.0533333333333334e-05, + "loss": 0.1405, + "step": 10140 + }, + { + "epoch": 27.066666666666666, + "grad_norm": 0.7778382301330566, + "learning_rate": 4.051851851851852e-05, + "loss": 0.1266, + "step": 10150 + }, + { + "epoch": 27.093333333333334, + "grad_norm": 0.7495517730712891, + "learning_rate": 4.05037037037037e-05, + "loss": 0.1381, + "step": 10160 + }, + { + "epoch": 27.12, + "grad_norm": 1.0426610708236694, + "learning_rate": 4.0488888888888896e-05, + "loss": 0.1653, + "step": 10170 + }, + { + "epoch": 27.14666666666667, + "grad_norm": 0.8395851850509644, + "learning_rate": 4.0474074074074076e-05, + "loss": 0.1599, + "step": 10180 + }, + { + "epoch": 27.173333333333332, + "grad_norm": 0.8455336093902588, + "learning_rate": 4.0459259259259264e-05, + "loss": 0.1416, + "step": 10190 + }, + { + "epoch": 27.2, + "grad_norm": 0.8600906133651733, + "learning_rate": 4.0444444444444444e-05, + "loss": 0.1641, + "step": 10200 + }, + { + "epoch": 27.226666666666667, + "grad_norm": 1.121575951576233, + "learning_rate": 4.042962962962963e-05, + "loss": 0.168, + "step": 10210 + }, + { + "epoch": 27.253333333333334, + "grad_norm": 1.0944111347198486, + "learning_rate": 4.041481481481482e-05, + "loss": 0.178, + "step": 10220 + }, + { + "epoch": 27.28, + "grad_norm": 0.6407256126403809, + "learning_rate": 4.0400000000000006e-05, + "loss": 0.1445, + "step": 10230 + }, + { + "epoch": 27.306666666666665, + "grad_norm": 0.79509437084198, + "learning_rate": 4.038518518518519e-05, + "loss": 0.1539, + "step": 10240 + }, + { + "epoch": 27.333333333333332, + "grad_norm": 0.7339061498641968, + "learning_rate": 4.0370370370370374e-05, + "loss": 0.1574, + "step": 10250 + }, + { + "epoch": 27.36, + "grad_norm": 0.8828989267349243, + "learning_rate": 4.0355555555555555e-05, + "loss": 0.1837, + "step": 10260 + }, + { + "epoch": 27.386666666666667, + "grad_norm": 0.5819228887557983, + "learning_rate": 4.034074074074074e-05, + "loss": 0.1776, + "step": 10270 + }, + { + "epoch": 27.413333333333334, + "grad_norm": 0.7457976937294006, + "learning_rate": 4.032592592592593e-05, + "loss": 0.1648, + "step": 10280 + }, + { + "epoch": 27.44, + "grad_norm": 0.6604668498039246, + "learning_rate": 4.031111111111111e-05, + "loss": 0.1551, + "step": 10290 + }, + { + "epoch": 27.466666666666665, + "grad_norm": 1.3926297426223755, + "learning_rate": 4.02962962962963e-05, + "loss": 0.1598, + "step": 10300 + }, + { + "epoch": 27.493333333333332, + "grad_norm": 1.0974200963974, + "learning_rate": 4.028148148148148e-05, + "loss": 0.1873, + "step": 10310 + }, + { + "epoch": 27.52, + "grad_norm": 0.817166268825531, + "learning_rate": 4.026666666666667e-05, + "loss": 0.1762, + "step": 10320 + }, + { + "epoch": 27.546666666666667, + "grad_norm": 0.6444597244262695, + "learning_rate": 4.025185185185185e-05, + "loss": 0.1424, + "step": 10330 + }, + { + "epoch": 27.573333333333334, + "grad_norm": 0.7346920967102051, + "learning_rate": 4.023703703703704e-05, + "loss": 0.1423, + "step": 10340 + }, + { + "epoch": 27.6, + "grad_norm": 0.33930566906929016, + "learning_rate": 4.022222222222222e-05, + "loss": 0.1265, + "step": 10350 + }, + { + "epoch": 27.626666666666665, + "grad_norm": 0.7126988768577576, + "learning_rate": 4.020740740740741e-05, + "loss": 0.1301, + "step": 10360 + }, + { + "epoch": 27.653333333333332, + "grad_norm": 1.3599756956100464, + "learning_rate": 4.0192592592592595e-05, + "loss": 0.1516, + "step": 10370 + }, + { + "epoch": 27.68, + "grad_norm": 0.9836394190788269, + "learning_rate": 4.017777777777778e-05, + "loss": 0.157, + "step": 10380 + }, + { + "epoch": 27.706666666666667, + "grad_norm": 0.6310690641403198, + "learning_rate": 4.016296296296296e-05, + "loss": 0.1439, + "step": 10390 + }, + { + "epoch": 27.733333333333334, + "grad_norm": 0.9054973125457764, + "learning_rate": 4.014814814814815e-05, + "loss": 0.1581, + "step": 10400 + }, + { + "epoch": 27.76, + "grad_norm": 0.7506052851676941, + "learning_rate": 4.013333333333333e-05, + "loss": 0.1525, + "step": 10410 + }, + { + "epoch": 27.786666666666665, + "grad_norm": 0.9047917723655701, + "learning_rate": 4.0118518518518525e-05, + "loss": 0.1639, + "step": 10420 + }, + { + "epoch": 27.813333333333333, + "grad_norm": 0.7593700289726257, + "learning_rate": 4.0103703703703705e-05, + "loss": 0.1658, + "step": 10430 + }, + { + "epoch": 27.84, + "grad_norm": 1.2208822965621948, + "learning_rate": 4.008888888888889e-05, + "loss": 0.1761, + "step": 10440 + }, + { + "epoch": 27.866666666666667, + "grad_norm": 0.7650309205055237, + "learning_rate": 4.007407407407407e-05, + "loss": 0.1771, + "step": 10450 + }, + { + "epoch": 27.893333333333334, + "grad_norm": 0.47849419713020325, + "learning_rate": 4.005925925925926e-05, + "loss": 0.1603, + "step": 10460 + }, + { + "epoch": 27.92, + "grad_norm": 0.8781583309173584, + "learning_rate": 4.004444444444445e-05, + "loss": 0.1411, + "step": 10470 + }, + { + "epoch": 27.946666666666665, + "grad_norm": 1.3224233388900757, + "learning_rate": 4.0029629629629635e-05, + "loss": 0.1545, + "step": 10480 + }, + { + "epoch": 27.973333333333333, + "grad_norm": 0.8204091787338257, + "learning_rate": 4.0014814814814816e-05, + "loss": 0.1367, + "step": 10490 + }, + { + "epoch": 28.0, + "grad_norm": 1.2398439645767212, + "learning_rate": 4e-05, + "loss": 0.1608, + "step": 10500 + }, + { + "epoch": 28.0, + "eval_accuracy": 0.8994166666666666, + "eval_loss": 0.3260481059551239, + "eval_runtime": 252.8199, + "eval_samples_per_second": 47.465, + "eval_steps_per_second": 1.483, + "step": 10500 + }, + { + "epoch": 28.026666666666667, + "grad_norm": 0.6893605589866638, + "learning_rate": 3.9985185185185184e-05, + "loss": 0.1558, + "step": 10510 + }, + { + "epoch": 28.053333333333335, + "grad_norm": 0.7332105040550232, + "learning_rate": 3.997037037037038e-05, + "loss": 0.1641, + "step": 10520 + }, + { + "epoch": 28.08, + "grad_norm": 0.9733380675315857, + "learning_rate": 3.995555555555556e-05, + "loss": 0.1593, + "step": 10530 + }, + { + "epoch": 28.106666666666666, + "grad_norm": 0.5634269714355469, + "learning_rate": 3.9940740740740746e-05, + "loss": 0.1664, + "step": 10540 + }, + { + "epoch": 28.133333333333333, + "grad_norm": 0.6527448296546936, + "learning_rate": 3.9925925925925926e-05, + "loss": 0.1576, + "step": 10550 + }, + { + "epoch": 28.16, + "grad_norm": 1.0427942276000977, + "learning_rate": 3.9911111111111114e-05, + "loss": 0.1385, + "step": 10560 + }, + { + "epoch": 28.186666666666667, + "grad_norm": 0.6839006543159485, + "learning_rate": 3.98962962962963e-05, + "loss": 0.1582, + "step": 10570 + }, + { + "epoch": 28.213333333333335, + "grad_norm": 0.5583319664001465, + "learning_rate": 3.988148148148148e-05, + "loss": 0.1842, + "step": 10580 + }, + { + "epoch": 28.24, + "grad_norm": 0.5305918455123901, + "learning_rate": 3.986666666666667e-05, + "loss": 0.1622, + "step": 10590 + }, + { + "epoch": 28.266666666666666, + "grad_norm": 0.9706399440765381, + "learning_rate": 3.985185185185185e-05, + "loss": 0.1454, + "step": 10600 + }, + { + "epoch": 28.293333333333333, + "grad_norm": 0.6750807762145996, + "learning_rate": 3.983703703703704e-05, + "loss": 0.1464, + "step": 10610 + }, + { + "epoch": 28.32, + "grad_norm": 0.8013555407524109, + "learning_rate": 3.9822222222222224e-05, + "loss": 0.1567, + "step": 10620 + }, + { + "epoch": 28.346666666666668, + "grad_norm": 1.144155740737915, + "learning_rate": 3.980740740740741e-05, + "loss": 0.154, + "step": 10630 + }, + { + "epoch": 28.373333333333335, + "grad_norm": 0.9181743264198303, + "learning_rate": 3.979259259259259e-05, + "loss": 0.1528, + "step": 10640 + }, + { + "epoch": 28.4, + "grad_norm": 0.9138596653938293, + "learning_rate": 3.977777777777778e-05, + "loss": 0.1942, + "step": 10650 + }, + { + "epoch": 28.426666666666666, + "grad_norm": 0.940497100353241, + "learning_rate": 3.976296296296296e-05, + "loss": 0.1303, + "step": 10660 + }, + { + "epoch": 28.453333333333333, + "grad_norm": 0.9832512736320496, + "learning_rate": 3.9748148148148154e-05, + "loss": 0.1414, + "step": 10670 + }, + { + "epoch": 28.48, + "grad_norm": 0.6621248722076416, + "learning_rate": 3.9733333333333335e-05, + "loss": 0.1491, + "step": 10680 + }, + { + "epoch": 28.506666666666668, + "grad_norm": 0.99233078956604, + "learning_rate": 3.971851851851852e-05, + "loss": 0.1631, + "step": 10690 + }, + { + "epoch": 28.533333333333335, + "grad_norm": 0.7408146858215332, + "learning_rate": 3.97037037037037e-05, + "loss": 0.1417, + "step": 10700 + }, + { + "epoch": 28.56, + "grad_norm": 1.1458914279937744, + "learning_rate": 3.968888888888889e-05, + "loss": 0.1643, + "step": 10710 + }, + { + "epoch": 28.586666666666666, + "grad_norm": 0.629497230052948, + "learning_rate": 3.967407407407408e-05, + "loss": 0.1638, + "step": 10720 + }, + { + "epoch": 28.613333333333333, + "grad_norm": 1.3338971138000488, + "learning_rate": 3.9659259259259265e-05, + "loss": 0.1267, + "step": 10730 + }, + { + "epoch": 28.64, + "grad_norm": 0.5817397236824036, + "learning_rate": 3.9644444444444445e-05, + "loss": 0.1455, + "step": 10740 + }, + { + "epoch": 28.666666666666668, + "grad_norm": 0.9284518957138062, + "learning_rate": 3.962962962962963e-05, + "loss": 0.151, + "step": 10750 + }, + { + "epoch": 28.693333333333335, + "grad_norm": 1.0227954387664795, + "learning_rate": 3.961481481481481e-05, + "loss": 0.1405, + "step": 10760 + }, + { + "epoch": 28.72, + "grad_norm": 0.7645326852798462, + "learning_rate": 3.960000000000001e-05, + "loss": 0.1459, + "step": 10770 + }, + { + "epoch": 28.746666666666666, + "grad_norm": 0.7437626719474792, + "learning_rate": 3.958518518518519e-05, + "loss": 0.194, + "step": 10780 + }, + { + "epoch": 28.773333333333333, + "grad_norm": 0.6487135887145996, + "learning_rate": 3.9570370370370375e-05, + "loss": 0.1542, + "step": 10790 + }, + { + "epoch": 28.8, + "grad_norm": 0.6059247255325317, + "learning_rate": 3.9555555555555556e-05, + "loss": 0.1555, + "step": 10800 + }, + { + "epoch": 28.826666666666668, + "grad_norm": 0.3758384883403778, + "learning_rate": 3.954074074074074e-05, + "loss": 0.1488, + "step": 10810 + }, + { + "epoch": 28.85333333333333, + "grad_norm": 0.8953729271888733, + "learning_rate": 3.952592592592593e-05, + "loss": 0.1346, + "step": 10820 + }, + { + "epoch": 28.88, + "grad_norm": 0.8550493717193604, + "learning_rate": 3.951111111111112e-05, + "loss": 0.1402, + "step": 10830 + }, + { + "epoch": 28.906666666666666, + "grad_norm": 0.707980215549469, + "learning_rate": 3.94962962962963e-05, + "loss": 0.1821, + "step": 10840 + }, + { + "epoch": 28.933333333333334, + "grad_norm": 0.7635376453399658, + "learning_rate": 3.9481481481481485e-05, + "loss": 0.1739, + "step": 10850 + }, + { + "epoch": 28.96, + "grad_norm": 1.2454946041107178, + "learning_rate": 3.9466666666666666e-05, + "loss": 0.1487, + "step": 10860 + }, + { + "epoch": 28.986666666666668, + "grad_norm": 0.9234296679496765, + "learning_rate": 3.945185185185185e-05, + "loss": 0.1766, + "step": 10870 + }, + { + "epoch": 29.0, + "eval_accuracy": 0.8963333333333333, + "eval_loss": 0.3143346905708313, + "eval_runtime": 253.1085, + "eval_samples_per_second": 47.41, + "eval_steps_per_second": 1.482, + "step": 10875 + }, + { + "epoch": 29.013333333333332, + "grad_norm": 0.6467958092689514, + "learning_rate": 3.943703703703704e-05, + "loss": 0.1514, + "step": 10880 + }, + { + "epoch": 29.04, + "grad_norm": 0.6527116894721985, + "learning_rate": 3.942222222222222e-05, + "loss": 0.1486, + "step": 10890 + }, + { + "epoch": 29.066666666666666, + "grad_norm": 0.6416818499565125, + "learning_rate": 3.940740740740741e-05, + "loss": 0.1366, + "step": 10900 + }, + { + "epoch": 29.093333333333334, + "grad_norm": 1.0649131536483765, + "learning_rate": 3.939259259259259e-05, + "loss": 0.1524, + "step": 10910 + }, + { + "epoch": 29.12, + "grad_norm": 1.2108582258224487, + "learning_rate": 3.937777777777778e-05, + "loss": 0.1365, + "step": 10920 + }, + { + "epoch": 29.14666666666667, + "grad_norm": 1.0144089460372925, + "learning_rate": 3.9362962962962964e-05, + "loss": 0.1511, + "step": 10930 + }, + { + "epoch": 29.173333333333332, + "grad_norm": 0.5941630005836487, + "learning_rate": 3.934814814814815e-05, + "loss": 0.1681, + "step": 10940 + }, + { + "epoch": 29.2, + "grad_norm": 0.552924394607544, + "learning_rate": 3.933333333333333e-05, + "loss": 0.1401, + "step": 10950 + }, + { + "epoch": 29.226666666666667, + "grad_norm": 0.5984042286872864, + "learning_rate": 3.931851851851852e-05, + "loss": 0.1735, + "step": 10960 + }, + { + "epoch": 29.253333333333334, + "grad_norm": 0.5484638214111328, + "learning_rate": 3.9303703703703706e-05, + "loss": 0.1342, + "step": 10970 + }, + { + "epoch": 29.28, + "grad_norm": 0.8591370582580566, + "learning_rate": 3.9288888888888894e-05, + "loss": 0.1574, + "step": 10980 + }, + { + "epoch": 29.306666666666665, + "grad_norm": 0.8318890929222107, + "learning_rate": 3.9274074074074074e-05, + "loss": 0.1544, + "step": 10990 + }, + { + "epoch": 29.333333333333332, + "grad_norm": 0.8118026256561279, + "learning_rate": 3.925925925925926e-05, + "loss": 0.1621, + "step": 11000 + }, + { + "epoch": 29.36, + "grad_norm": 0.9545933604240417, + "learning_rate": 3.924444444444444e-05, + "loss": 0.1592, + "step": 11010 + }, + { + "epoch": 29.386666666666667, + "grad_norm": 0.669881284236908, + "learning_rate": 3.922962962962963e-05, + "loss": 0.1515, + "step": 11020 + }, + { + "epoch": 29.413333333333334, + "grad_norm": 0.639251172542572, + "learning_rate": 3.921481481481482e-05, + "loss": 0.1483, + "step": 11030 + }, + { + "epoch": 29.44, + "grad_norm": 1.6298249959945679, + "learning_rate": 3.9200000000000004e-05, + "loss": 0.1349, + "step": 11040 + }, + { + "epoch": 29.466666666666665, + "grad_norm": 0.496686726808548, + "learning_rate": 3.9185185185185185e-05, + "loss": 0.1591, + "step": 11050 + }, + { + "epoch": 29.493333333333332, + "grad_norm": 0.6817299127578735, + "learning_rate": 3.917037037037037e-05, + "loss": 0.1288, + "step": 11060 + }, + { + "epoch": 29.52, + "grad_norm": 0.7114832401275635, + "learning_rate": 3.915555555555556e-05, + "loss": 0.1533, + "step": 11070 + }, + { + "epoch": 29.546666666666667, + "grad_norm": 1.1204123497009277, + "learning_rate": 3.914074074074075e-05, + "loss": 0.1638, + "step": 11080 + }, + { + "epoch": 29.573333333333334, + "grad_norm": 0.6622611880302429, + "learning_rate": 3.912592592592593e-05, + "loss": 0.1578, + "step": 11090 + }, + { + "epoch": 29.6, + "grad_norm": 0.8145710229873657, + "learning_rate": 3.9111111111111115e-05, + "loss": 0.1423, + "step": 11100 + }, + { + "epoch": 29.626666666666665, + "grad_norm": 0.6247044801712036, + "learning_rate": 3.9096296296296295e-05, + "loss": 0.1772, + "step": 11110 + }, + { + "epoch": 29.653333333333332, + "grad_norm": 0.6817605495452881, + "learning_rate": 3.908148148148148e-05, + "loss": 0.1838, + "step": 11120 + }, + { + "epoch": 29.68, + "grad_norm": 1.0804976224899292, + "learning_rate": 3.906666666666667e-05, + "loss": 0.1616, + "step": 11130 + }, + { + "epoch": 29.706666666666667, + "grad_norm": 1.0282964706420898, + "learning_rate": 3.905185185185186e-05, + "loss": 0.136, + "step": 11140 + }, + { + "epoch": 29.733333333333334, + "grad_norm": 0.5476607084274292, + "learning_rate": 3.903703703703704e-05, + "loss": 0.114, + "step": 11150 + }, + { + "epoch": 29.76, + "grad_norm": 1.141966700553894, + "learning_rate": 3.9022222222222225e-05, + "loss": 0.1525, + "step": 11160 + }, + { + "epoch": 29.786666666666665, + "grad_norm": 0.7984287142753601, + "learning_rate": 3.900740740740741e-05, + "loss": 0.1648, + "step": 11170 + }, + { + "epoch": 29.813333333333333, + "grad_norm": 1.0380336046218872, + "learning_rate": 3.89925925925926e-05, + "loss": 0.1769, + "step": 11180 + }, + { + "epoch": 29.84, + "grad_norm": 0.8326897621154785, + "learning_rate": 3.897777777777778e-05, + "loss": 0.1746, + "step": 11190 + }, + { + "epoch": 29.866666666666667, + "grad_norm": 0.9488481879234314, + "learning_rate": 3.896296296296296e-05, + "loss": 0.1595, + "step": 11200 + }, + { + "epoch": 29.893333333333334, + "grad_norm": 0.6698833703994751, + "learning_rate": 3.894814814814815e-05, + "loss": 0.1609, + "step": 11210 + }, + { + "epoch": 29.92, + "grad_norm": 0.7668611407279968, + "learning_rate": 3.8933333333333336e-05, + "loss": 0.1541, + "step": 11220 + }, + { + "epoch": 29.946666666666665, + "grad_norm": 1.407020092010498, + "learning_rate": 3.891851851851852e-05, + "loss": 0.1369, + "step": 11230 + }, + { + "epoch": 29.973333333333333, + "grad_norm": 0.7712295055389404, + "learning_rate": 3.8903703703703703e-05, + "loss": 0.1681, + "step": 11240 + }, + { + "epoch": 30.0, + "grad_norm": 0.7841002345085144, + "learning_rate": 3.888888888888889e-05, + "loss": 0.1459, + "step": 11250 + }, + { + "epoch": 30.0, + "eval_accuracy": 0.8990833333333333, + "eval_loss": 0.326180100440979, + "eval_runtime": 252.5821, + "eval_samples_per_second": 47.509, + "eval_steps_per_second": 1.485, + "step": 11250 + }, + { + "epoch": 30.026666666666667, + "grad_norm": 0.8573657870292664, + "learning_rate": 3.887407407407407e-05, + "loss": 0.1519, + "step": 11260 + }, + { + "epoch": 30.053333333333335, + "grad_norm": 0.6085878610610962, + "learning_rate": 3.885925925925926e-05, + "loss": 0.1618, + "step": 11270 + }, + { + "epoch": 30.08, + "grad_norm": 1.2267919778823853, + "learning_rate": 3.8844444444444446e-05, + "loss": 0.152, + "step": 11280 + }, + { + "epoch": 30.106666666666666, + "grad_norm": 0.7280980944633484, + "learning_rate": 3.882962962962963e-05, + "loss": 0.132, + "step": 11290 + }, + { + "epoch": 30.133333333333333, + "grad_norm": 1.2680655717849731, + "learning_rate": 3.8814814814814814e-05, + "loss": 0.1241, + "step": 11300 + }, + { + "epoch": 30.16, + "grad_norm": 0.8354300856590271, + "learning_rate": 3.88e-05, + "loss": 0.1487, + "step": 11310 + }, + { + "epoch": 30.186666666666667, + "grad_norm": 1.194151520729065, + "learning_rate": 3.878518518518519e-05, + "loss": 0.1377, + "step": 11320 + }, + { + "epoch": 30.213333333333335, + "grad_norm": 0.7555848956108093, + "learning_rate": 3.8770370370370376e-05, + "loss": 0.1421, + "step": 11330 + }, + { + "epoch": 30.24, + "grad_norm": 0.5116603374481201, + "learning_rate": 3.8755555555555556e-05, + "loss": 0.1243, + "step": 11340 + }, + { + "epoch": 30.266666666666666, + "grad_norm": 0.8198305368423462, + "learning_rate": 3.8740740740740744e-05, + "loss": 0.137, + "step": 11350 + }, + { + "epoch": 30.293333333333333, + "grad_norm": 0.5630440711975098, + "learning_rate": 3.8725925925925924e-05, + "loss": 0.1473, + "step": 11360 + }, + { + "epoch": 30.32, + "grad_norm": 0.7061154842376709, + "learning_rate": 3.871111111111111e-05, + "loss": 0.1961, + "step": 11370 + }, + { + "epoch": 30.346666666666668, + "grad_norm": 0.8157947063446045, + "learning_rate": 3.86962962962963e-05, + "loss": 0.1352, + "step": 11380 + }, + { + "epoch": 30.373333333333335, + "grad_norm": 1.1062180995941162, + "learning_rate": 3.8681481481481486e-05, + "loss": 0.1441, + "step": 11390 + }, + { + "epoch": 30.4, + "grad_norm": 0.45194345712661743, + "learning_rate": 3.866666666666667e-05, + "loss": 0.1297, + "step": 11400 + }, + { + "epoch": 30.426666666666666, + "grad_norm": 0.5673952102661133, + "learning_rate": 3.8651851851851854e-05, + "loss": 0.1578, + "step": 11410 + }, + { + "epoch": 30.453333333333333, + "grad_norm": 0.5672792792320251, + "learning_rate": 3.863703703703704e-05, + "loss": 0.1453, + "step": 11420 + }, + { + "epoch": 30.48, + "grad_norm": 0.5309438705444336, + "learning_rate": 3.862222222222223e-05, + "loss": 0.1648, + "step": 11430 + }, + { + "epoch": 30.506666666666668, + "grad_norm": 0.8667115569114685, + "learning_rate": 3.860740740740741e-05, + "loss": 0.1487, + "step": 11440 + }, + { + "epoch": 30.533333333333335, + "grad_norm": 0.9123988747596741, + "learning_rate": 3.85925925925926e-05, + "loss": 0.1563, + "step": 11450 + }, + { + "epoch": 30.56, + "grad_norm": 0.7069024443626404, + "learning_rate": 3.857777777777778e-05, + "loss": 0.1411, + "step": 11460 + }, + { + "epoch": 30.586666666666666, + "grad_norm": 0.9990876317024231, + "learning_rate": 3.8562962962962965e-05, + "loss": 0.1534, + "step": 11470 + }, + { + "epoch": 30.613333333333333, + "grad_norm": 0.42457976937294006, + "learning_rate": 3.854814814814815e-05, + "loss": 0.1452, + "step": 11480 + }, + { + "epoch": 30.64, + "grad_norm": 0.325662225484848, + "learning_rate": 3.853333333333334e-05, + "loss": 0.137, + "step": 11490 + }, + { + "epoch": 30.666666666666668, + "grad_norm": 0.8207065463066101, + "learning_rate": 3.851851851851852e-05, + "loss": 0.1727, + "step": 11500 + }, + { + "epoch": 30.693333333333335, + "grad_norm": 0.8283947706222534, + "learning_rate": 3.85037037037037e-05, + "loss": 0.1607, + "step": 11510 + }, + { + "epoch": 30.72, + "grad_norm": 1.5957098007202148, + "learning_rate": 3.848888888888889e-05, + "loss": 0.1342, + "step": 11520 + }, + { + "epoch": 30.746666666666666, + "grad_norm": 1.2843079566955566, + "learning_rate": 3.8474074074074075e-05, + "loss": 0.1509, + "step": 11530 + }, + { + "epoch": 30.773333333333333, + "grad_norm": 0.7785205245018005, + "learning_rate": 3.845925925925926e-05, + "loss": 0.1509, + "step": 11540 + }, + { + "epoch": 30.8, + "grad_norm": 0.38686737418174744, + "learning_rate": 3.844444444444444e-05, + "loss": 0.1571, + "step": 11550 + }, + { + "epoch": 30.826666666666668, + "grad_norm": 0.4960973858833313, + "learning_rate": 3.842962962962963e-05, + "loss": 0.1071, + "step": 11560 + }, + { + "epoch": 30.85333333333333, + "grad_norm": 0.8786376714706421, + "learning_rate": 3.841481481481482e-05, + "loss": 0.1881, + "step": 11570 + }, + { + "epoch": 30.88, + "grad_norm": 0.6073949933052063, + "learning_rate": 3.8400000000000005e-05, + "loss": 0.1469, + "step": 11580 + }, + { + "epoch": 30.906666666666666, + "grad_norm": 1.1761499643325806, + "learning_rate": 3.8385185185185186e-05, + "loss": 0.1522, + "step": 11590 + }, + { + "epoch": 30.933333333333334, + "grad_norm": 1.1161147356033325, + "learning_rate": 3.837037037037037e-05, + "loss": 0.1566, + "step": 11600 + }, + { + "epoch": 30.96, + "grad_norm": 0.718074381351471, + "learning_rate": 3.8355555555555553e-05, + "loss": 0.118, + "step": 11610 + }, + { + "epoch": 30.986666666666668, + "grad_norm": 1.0799586772918701, + "learning_rate": 3.834074074074074e-05, + "loss": 0.112, + "step": 11620 + }, + { + "epoch": 31.0, + "eval_accuracy": 0.9040833333333333, + "eval_loss": 0.3329257071018219, + "eval_runtime": 253.3806, + "eval_samples_per_second": 47.36, + "eval_steps_per_second": 1.48, + "step": 11625 + }, + { + "epoch": 31.013333333333332, + "grad_norm": 1.0448365211486816, + "learning_rate": 3.832592592592593e-05, + "loss": 0.1387, + "step": 11630 + }, + { + "epoch": 31.04, + "grad_norm": 0.8702309131622314, + "learning_rate": 3.8311111111111115e-05, + "loss": 0.1432, + "step": 11640 + }, + { + "epoch": 31.066666666666666, + "grad_norm": 0.7754233479499817, + "learning_rate": 3.8296296296296296e-05, + "loss": 0.1544, + "step": 11650 + }, + { + "epoch": 31.093333333333334, + "grad_norm": 0.9715024828910828, + "learning_rate": 3.8281481481481483e-05, + "loss": 0.1393, + "step": 11660 + }, + { + "epoch": 31.12, + "grad_norm": 0.7901193499565125, + "learning_rate": 3.8266666666666664e-05, + "loss": 0.1531, + "step": 11670 + }, + { + "epoch": 31.14666666666667, + "grad_norm": 0.44737014174461365, + "learning_rate": 3.825185185185186e-05, + "loss": 0.1261, + "step": 11680 + }, + { + "epoch": 31.173333333333332, + "grad_norm": 0.9578866958618164, + "learning_rate": 3.823703703703704e-05, + "loss": 0.1562, + "step": 11690 + }, + { + "epoch": 31.2, + "grad_norm": 0.9539816975593567, + "learning_rate": 3.8222222222222226e-05, + "loss": 0.1282, + "step": 11700 + }, + { + "epoch": 31.226666666666667, + "grad_norm": 0.6584634780883789, + "learning_rate": 3.8207407407407407e-05, + "loss": 0.1649, + "step": 11710 + }, + { + "epoch": 31.253333333333334, + "grad_norm": 0.8631150722503662, + "learning_rate": 3.8192592592592594e-05, + "loss": 0.1523, + "step": 11720 + }, + { + "epoch": 31.28, + "grad_norm": 0.47979697585105896, + "learning_rate": 3.817777777777778e-05, + "loss": 0.1553, + "step": 11730 + }, + { + "epoch": 31.306666666666665, + "grad_norm": 0.6728746891021729, + "learning_rate": 3.816296296296297e-05, + "loss": 0.1432, + "step": 11740 + }, + { + "epoch": 31.333333333333332, + "grad_norm": 0.9024733304977417, + "learning_rate": 3.814814814814815e-05, + "loss": 0.1494, + "step": 11750 + }, + { + "epoch": 31.36, + "grad_norm": 0.8229910135269165, + "learning_rate": 3.8133333333333336e-05, + "loss": 0.1279, + "step": 11760 + }, + { + "epoch": 31.386666666666667, + "grad_norm": 0.8371192216873169, + "learning_rate": 3.811851851851852e-05, + "loss": 0.136, + "step": 11770 + }, + { + "epoch": 31.413333333333334, + "grad_norm": 1.4966837167739868, + "learning_rate": 3.810370370370371e-05, + "loss": 0.1938, + "step": 11780 + }, + { + "epoch": 31.44, + "grad_norm": 0.8800570368766785, + "learning_rate": 3.808888888888889e-05, + "loss": 0.1516, + "step": 11790 + }, + { + "epoch": 31.466666666666665, + "grad_norm": 0.6718322038650513, + "learning_rate": 3.807407407407408e-05, + "loss": 0.1502, + "step": 11800 + }, + { + "epoch": 31.493333333333332, + "grad_norm": 1.0114471912384033, + "learning_rate": 3.805925925925926e-05, + "loss": 0.1411, + "step": 11810 + }, + { + "epoch": 31.52, + "grad_norm": 0.8189203143119812, + "learning_rate": 3.804444444444445e-05, + "loss": 0.1617, + "step": 11820 + }, + { + "epoch": 31.546666666666667, + "grad_norm": 1.0306363105773926, + "learning_rate": 3.8029629629629634e-05, + "loss": 0.1477, + "step": 11830 + }, + { + "epoch": 31.573333333333334, + "grad_norm": 0.5885746479034424, + "learning_rate": 3.8014814814814815e-05, + "loss": 0.1477, + "step": 11840 + }, + { + "epoch": 31.6, + "grad_norm": 1.2009676694869995, + "learning_rate": 3.8e-05, + "loss": 0.1479, + "step": 11850 + }, + { + "epoch": 31.626666666666665, + "grad_norm": 0.7326869368553162, + "learning_rate": 3.798518518518518e-05, + "loss": 0.1427, + "step": 11860 + }, + { + "epoch": 31.653333333333332, + "grad_norm": 0.7947394847869873, + "learning_rate": 3.797037037037037e-05, + "loss": 0.14, + "step": 11870 + }, + { + "epoch": 31.68, + "grad_norm": 0.9484646320343018, + "learning_rate": 3.795555555555556e-05, + "loss": 0.147, + "step": 11880 + }, + { + "epoch": 31.706666666666667, + "grad_norm": 0.36476749181747437, + "learning_rate": 3.7940740740740745e-05, + "loss": 0.1627, + "step": 11890 + }, + { + "epoch": 31.733333333333334, + "grad_norm": 0.829441249370575, + "learning_rate": 3.7925925925925925e-05, + "loss": 0.1692, + "step": 11900 + }, + { + "epoch": 31.76, + "grad_norm": 0.4258587062358856, + "learning_rate": 3.791111111111111e-05, + "loss": 0.1148, + "step": 11910 + }, + { + "epoch": 31.786666666666665, + "grad_norm": 0.6510931849479675, + "learning_rate": 3.789629629629629e-05, + "loss": 0.1162, + "step": 11920 + }, + { + "epoch": 31.813333333333333, + "grad_norm": 1.0323469638824463, + "learning_rate": 3.788148148148149e-05, + "loss": 0.1516, + "step": 11930 + }, + { + "epoch": 31.84, + "grad_norm": 1.32700777053833, + "learning_rate": 3.786666666666667e-05, + "loss": 0.1406, + "step": 11940 + }, + { + "epoch": 31.866666666666667, + "grad_norm": 0.9105033874511719, + "learning_rate": 3.7851851851851855e-05, + "loss": 0.1297, + "step": 11950 + }, + { + "epoch": 31.893333333333334, + "grad_norm": 0.7099591493606567, + "learning_rate": 3.7837037037037036e-05, + "loss": 0.1485, + "step": 11960 + }, + { + "epoch": 31.92, + "grad_norm": 0.6305086612701416, + "learning_rate": 3.782222222222222e-05, + "loss": 0.1334, + "step": 11970 + }, + { + "epoch": 31.946666666666665, + "grad_norm": 0.8867177963256836, + "learning_rate": 3.780740740740741e-05, + "loss": 0.1621, + "step": 11980 + }, + { + "epoch": 31.973333333333333, + "grad_norm": 0.8763002157211304, + "learning_rate": 3.77925925925926e-05, + "loss": 0.1476, + "step": 11990 + }, + { + "epoch": 32.0, + "grad_norm": 0.8974031805992126, + "learning_rate": 3.777777777777778e-05, + "loss": 0.1319, + "step": 12000 + }, + { + "epoch": 32.0, + "eval_accuracy": 0.9004166666666666, + "eval_loss": 0.31857413053512573, + "eval_runtime": 253.257, + "eval_samples_per_second": 47.383, + "eval_steps_per_second": 1.481, + "step": 12000 + }, + { + "epoch": 32.026666666666664, + "grad_norm": 0.7753136157989502, + "learning_rate": 3.7762962962962966e-05, + "loss": 0.1269, + "step": 12010 + }, + { + "epoch": 32.053333333333335, + "grad_norm": 0.7995634078979492, + "learning_rate": 3.7748148148148146e-05, + "loss": 0.1411, + "step": 12020 + }, + { + "epoch": 32.08, + "grad_norm": 0.6742477416992188, + "learning_rate": 3.773333333333334e-05, + "loss": 0.139, + "step": 12030 + }, + { + "epoch": 32.10666666666667, + "grad_norm": 1.3187172412872314, + "learning_rate": 3.771851851851852e-05, + "loss": 0.1467, + "step": 12040 + }, + { + "epoch": 32.13333333333333, + "grad_norm": 0.6753908395767212, + "learning_rate": 3.770370370370371e-05, + "loss": 0.1197, + "step": 12050 + }, + { + "epoch": 32.16, + "grad_norm": 0.7020182013511658, + "learning_rate": 3.768888888888889e-05, + "loss": 0.1418, + "step": 12060 + }, + { + "epoch": 32.18666666666667, + "grad_norm": 0.7069774270057678, + "learning_rate": 3.7674074074074076e-05, + "loss": 0.1519, + "step": 12070 + }, + { + "epoch": 32.21333333333333, + "grad_norm": 1.3456929922103882, + "learning_rate": 3.765925925925926e-05, + "loss": 0.1732, + "step": 12080 + }, + { + "epoch": 32.24, + "grad_norm": 0.7249400615692139, + "learning_rate": 3.764444444444445e-05, + "loss": 0.1523, + "step": 12090 + }, + { + "epoch": 32.266666666666666, + "grad_norm": 0.6168241500854492, + "learning_rate": 3.762962962962963e-05, + "loss": 0.1349, + "step": 12100 + }, + { + "epoch": 32.29333333333334, + "grad_norm": 0.5220170021057129, + "learning_rate": 3.761481481481482e-05, + "loss": 0.1464, + "step": 12110 + }, + { + "epoch": 32.32, + "grad_norm": 0.5630850195884705, + "learning_rate": 3.76e-05, + "loss": 0.147, + "step": 12120 + }, + { + "epoch": 32.346666666666664, + "grad_norm": 0.4130004048347473, + "learning_rate": 3.7585185185185186e-05, + "loss": 0.1293, + "step": 12130 + }, + { + "epoch": 32.373333333333335, + "grad_norm": 0.7287957668304443, + "learning_rate": 3.7570370370370374e-05, + "loss": 0.1344, + "step": 12140 + }, + { + "epoch": 32.4, + "grad_norm": 0.865244448184967, + "learning_rate": 3.7555555555555554e-05, + "loss": 0.1423, + "step": 12150 + }, + { + "epoch": 32.42666666666667, + "grad_norm": 1.1962553262710571, + "learning_rate": 3.754074074074074e-05, + "loss": 0.1542, + "step": 12160 + }, + { + "epoch": 32.45333333333333, + "grad_norm": 0.8940578103065491, + "learning_rate": 3.752592592592592e-05, + "loss": 0.128, + "step": 12170 + }, + { + "epoch": 32.48, + "grad_norm": 0.642844021320343, + "learning_rate": 3.7511111111111116e-05, + "loss": 0.1276, + "step": 12180 + }, + { + "epoch": 32.50666666666667, + "grad_norm": 0.5693470239639282, + "learning_rate": 3.74962962962963e-05, + "loss": 0.1579, + "step": 12190 + }, + { + "epoch": 32.53333333333333, + "grad_norm": 0.6597217917442322, + "learning_rate": 3.7481481481481484e-05, + "loss": 0.1695, + "step": 12200 + }, + { + "epoch": 32.56, + "grad_norm": 0.6610549688339233, + "learning_rate": 3.7466666666666665e-05, + "loss": 0.1263, + "step": 12210 + }, + { + "epoch": 32.586666666666666, + "grad_norm": 0.5763738751411438, + "learning_rate": 3.745185185185185e-05, + "loss": 0.1153, + "step": 12220 + }, + { + "epoch": 32.61333333333333, + "grad_norm": 0.8833099603652954, + "learning_rate": 3.743703703703704e-05, + "loss": 0.1636, + "step": 12230 + }, + { + "epoch": 32.64, + "grad_norm": 1.3768240213394165, + "learning_rate": 3.742222222222223e-05, + "loss": 0.1457, + "step": 12240 + }, + { + "epoch": 32.666666666666664, + "grad_norm": 0.9241883754730225, + "learning_rate": 3.740740740740741e-05, + "loss": 0.1194, + "step": 12250 + }, + { + "epoch": 32.693333333333335, + "grad_norm": 1.0868351459503174, + "learning_rate": 3.7392592592592595e-05, + "loss": 0.1633, + "step": 12260 + }, + { + "epoch": 32.72, + "grad_norm": 0.5179634690284729, + "learning_rate": 3.7377777777777775e-05, + "loss": 0.1464, + "step": 12270 + }, + { + "epoch": 32.74666666666667, + "grad_norm": 0.8258621096611023, + "learning_rate": 3.736296296296297e-05, + "loss": 0.1486, + "step": 12280 + }, + { + "epoch": 32.77333333333333, + "grad_norm": 0.6329468488693237, + "learning_rate": 3.734814814814815e-05, + "loss": 0.1274, + "step": 12290 + }, + { + "epoch": 32.8, + "grad_norm": 1.055465579032898, + "learning_rate": 3.733333333333334e-05, + "loss": 0.1461, + "step": 12300 + }, + { + "epoch": 32.82666666666667, + "grad_norm": 0.8224266767501831, + "learning_rate": 3.731851851851852e-05, + "loss": 0.1584, + "step": 12310 + }, + { + "epoch": 32.85333333333333, + "grad_norm": 1.0598785877227783, + "learning_rate": 3.7303703703703705e-05, + "loss": 0.1316, + "step": 12320 + }, + { + "epoch": 32.88, + "grad_norm": 1.0388379096984863, + "learning_rate": 3.728888888888889e-05, + "loss": 0.1451, + "step": 12330 + }, + { + "epoch": 32.906666666666666, + "grad_norm": 1.242279052734375, + "learning_rate": 3.727407407407408e-05, + "loss": 0.1394, + "step": 12340 + }, + { + "epoch": 32.93333333333333, + "grad_norm": 0.5607912540435791, + "learning_rate": 3.725925925925926e-05, + "loss": 0.163, + "step": 12350 + }, + { + "epoch": 32.96, + "grad_norm": 0.5934064984321594, + "learning_rate": 3.724444444444445e-05, + "loss": 0.1504, + "step": 12360 + }, + { + "epoch": 32.986666666666665, + "grad_norm": 0.8265310525894165, + "learning_rate": 3.722962962962963e-05, + "loss": 0.1526, + "step": 12370 + }, + { + "epoch": 33.0, + "eval_accuracy": 0.8988333333333334, + "eval_loss": 0.32392576336860657, + "eval_runtime": 253.3924, + "eval_samples_per_second": 47.357, + "eval_steps_per_second": 1.48, + "step": 12375 + }, + { + "epoch": 33.013333333333335, + "grad_norm": 0.7690653204917908, + "learning_rate": 3.7214814814814816e-05, + "loss": 0.1641, + "step": 12380 + }, + { + "epoch": 33.04, + "grad_norm": 0.6992849111557007, + "learning_rate": 3.72e-05, + "loss": 0.1503, + "step": 12390 + }, + { + "epoch": 33.06666666666667, + "grad_norm": 1.470149040222168, + "learning_rate": 3.718518518518519e-05, + "loss": 0.1424, + "step": 12400 + }, + { + "epoch": 33.093333333333334, + "grad_norm": 0.8524302840232849, + "learning_rate": 3.717037037037037e-05, + "loss": 0.1408, + "step": 12410 + }, + { + "epoch": 33.12, + "grad_norm": 0.7455756664276123, + "learning_rate": 3.715555555555555e-05, + "loss": 0.1433, + "step": 12420 + }, + { + "epoch": 33.14666666666667, + "grad_norm": 0.9443094730377197, + "learning_rate": 3.7140740740740746e-05, + "loss": 0.1192, + "step": 12430 + }, + { + "epoch": 33.17333333333333, + "grad_norm": 1.1599451303482056, + "learning_rate": 3.7125925925925926e-05, + "loss": 0.1251, + "step": 12440 + }, + { + "epoch": 33.2, + "grad_norm": 1.0691704750061035, + "learning_rate": 3.7111111111111113e-05, + "loss": 0.1259, + "step": 12450 + }, + { + "epoch": 33.22666666666667, + "grad_norm": 0.996192455291748, + "learning_rate": 3.7096296296296294e-05, + "loss": 0.151, + "step": 12460 + }, + { + "epoch": 33.25333333333333, + "grad_norm": 0.7671313881874084, + "learning_rate": 3.708148148148148e-05, + "loss": 0.1795, + "step": 12470 + }, + { + "epoch": 33.28, + "grad_norm": 0.9651719331741333, + "learning_rate": 3.706666666666667e-05, + "loss": 0.1382, + "step": 12480 + }, + { + "epoch": 33.306666666666665, + "grad_norm": 0.6641609072685242, + "learning_rate": 3.7051851851851856e-05, + "loss": 0.1277, + "step": 12490 + }, + { + "epoch": 33.333333333333336, + "grad_norm": 1.052465558052063, + "learning_rate": 3.7037037037037037e-05, + "loss": 0.1362, + "step": 12500 + }, + { + "epoch": 33.36, + "grad_norm": 0.8863968849182129, + "learning_rate": 3.7022222222222224e-05, + "loss": 0.1629, + "step": 12510 + }, + { + "epoch": 33.38666666666666, + "grad_norm": 1.2258726358413696, + "learning_rate": 3.7007407407407404e-05, + "loss": 0.1435, + "step": 12520 + }, + { + "epoch": 33.413333333333334, + "grad_norm": 0.6132445335388184, + "learning_rate": 3.69925925925926e-05, + "loss": 0.1175, + "step": 12530 + }, + { + "epoch": 33.44, + "grad_norm": 0.8157356381416321, + "learning_rate": 3.697777777777778e-05, + "loss": 0.1399, + "step": 12540 + }, + { + "epoch": 33.46666666666667, + "grad_norm": 1.3738257884979248, + "learning_rate": 3.6962962962962966e-05, + "loss": 0.1682, + "step": 12550 + }, + { + "epoch": 33.49333333333333, + "grad_norm": 0.6727016568183899, + "learning_rate": 3.694814814814815e-05, + "loss": 0.1539, + "step": 12560 + }, + { + "epoch": 33.52, + "grad_norm": 0.5193202495574951, + "learning_rate": 3.6933333333333334e-05, + "loss": 0.137, + "step": 12570 + }, + { + "epoch": 33.54666666666667, + "grad_norm": 0.9341437220573425, + "learning_rate": 3.691851851851852e-05, + "loss": 0.1289, + "step": 12580 + }, + { + "epoch": 33.57333333333333, + "grad_norm": 0.8415389657020569, + "learning_rate": 3.690370370370371e-05, + "loss": 0.1322, + "step": 12590 + }, + { + "epoch": 33.6, + "grad_norm": 0.573862612247467, + "learning_rate": 3.688888888888889e-05, + "loss": 0.1219, + "step": 12600 + }, + { + "epoch": 33.626666666666665, + "grad_norm": 0.6681346893310547, + "learning_rate": 3.687407407407408e-05, + "loss": 0.1667, + "step": 12610 + }, + { + "epoch": 33.653333333333336, + "grad_norm": 0.3955742418766022, + "learning_rate": 3.685925925925926e-05, + "loss": 0.1424, + "step": 12620 + }, + { + "epoch": 33.68, + "grad_norm": 1.0248210430145264, + "learning_rate": 3.6844444444444445e-05, + "loss": 0.114, + "step": 12630 + }, + { + "epoch": 33.70666666666666, + "grad_norm": 1.089159369468689, + "learning_rate": 3.682962962962963e-05, + "loss": 0.1163, + "step": 12640 + }, + { + "epoch": 33.733333333333334, + "grad_norm": 0.7815674543380737, + "learning_rate": 3.681481481481482e-05, + "loss": 0.168, + "step": 12650 + }, + { + "epoch": 33.76, + "grad_norm": 1.2996643781661987, + "learning_rate": 3.68e-05, + "loss": 0.1349, + "step": 12660 + }, + { + "epoch": 33.78666666666667, + "grad_norm": 0.6737468838691711, + "learning_rate": 3.678518518518519e-05, + "loss": 0.1656, + "step": 12670 + }, + { + "epoch": 33.81333333333333, + "grad_norm": 0.513012707233429, + "learning_rate": 3.6770370370370375e-05, + "loss": 0.1286, + "step": 12680 + }, + { + "epoch": 33.84, + "grad_norm": 0.6336917281150818, + "learning_rate": 3.675555555555556e-05, + "loss": 0.1445, + "step": 12690 + }, + { + "epoch": 33.86666666666667, + "grad_norm": 0.9191528558731079, + "learning_rate": 3.674074074074074e-05, + "loss": 0.1269, + "step": 12700 + }, + { + "epoch": 33.89333333333333, + "grad_norm": 0.7947202324867249, + "learning_rate": 3.672592592592593e-05, + "loss": 0.1514, + "step": 12710 + }, + { + "epoch": 33.92, + "grad_norm": 0.7362467050552368, + "learning_rate": 3.671111111111111e-05, + "loss": 0.1585, + "step": 12720 + }, + { + "epoch": 33.946666666666665, + "grad_norm": 0.8674696087837219, + "learning_rate": 3.66962962962963e-05, + "loss": 0.1427, + "step": 12730 + }, + { + "epoch": 33.973333333333336, + "grad_norm": 0.5792920589447021, + "learning_rate": 3.6681481481481485e-05, + "loss": 0.1478, + "step": 12740 + }, + { + "epoch": 34.0, + "grad_norm": 0.5065246224403381, + "learning_rate": 3.6666666666666666e-05, + "loss": 0.1138, + "step": 12750 + }, + { + "epoch": 34.0, + "eval_accuracy": 0.8975833333333333, + "eval_loss": 0.34048619866371155, + "eval_runtime": 253.7113, + "eval_samples_per_second": 47.298, + "eval_steps_per_second": 1.478, + "step": 12750 + }, + { + "epoch": 34.026666666666664, + "grad_norm": 0.6351572275161743, + "learning_rate": 3.665185185185185e-05, + "loss": 0.1621, + "step": 12760 + }, + { + "epoch": 34.053333333333335, + "grad_norm": 1.0246134996414185, + "learning_rate": 3.6637037037037034e-05, + "loss": 0.1538, + "step": 12770 + }, + { + "epoch": 34.08, + "grad_norm": 1.550531268119812, + "learning_rate": 3.662222222222223e-05, + "loss": 0.148, + "step": 12780 + }, + { + "epoch": 34.10666666666667, + "grad_norm": 0.7439724206924438, + "learning_rate": 3.660740740740741e-05, + "loss": 0.1468, + "step": 12790 + }, + { + "epoch": 34.13333333333333, + "grad_norm": 0.7332127690315247, + "learning_rate": 3.6592592592592596e-05, + "loss": 0.1315, + "step": 12800 + }, + { + "epoch": 34.16, + "grad_norm": 0.6775870323181152, + "learning_rate": 3.6577777777777776e-05, + "loss": 0.136, + "step": 12810 + }, + { + "epoch": 34.18666666666667, + "grad_norm": 0.7522141337394714, + "learning_rate": 3.6562962962962964e-05, + "loss": 0.1384, + "step": 12820 + }, + { + "epoch": 34.21333333333333, + "grad_norm": 0.885827898979187, + "learning_rate": 3.654814814814815e-05, + "loss": 0.1507, + "step": 12830 + }, + { + "epoch": 34.24, + "grad_norm": 0.7200608849525452, + "learning_rate": 3.653333333333334e-05, + "loss": 0.143, + "step": 12840 + }, + { + "epoch": 34.266666666666666, + "grad_norm": 0.8285389542579651, + "learning_rate": 3.651851851851852e-05, + "loss": 0.1418, + "step": 12850 + }, + { + "epoch": 34.29333333333334, + "grad_norm": 0.5745165348052979, + "learning_rate": 3.6503703703703706e-05, + "loss": 0.1301, + "step": 12860 + }, + { + "epoch": 34.32, + "grad_norm": 0.41124147176742554, + "learning_rate": 3.648888888888889e-05, + "loss": 0.1339, + "step": 12870 + }, + { + "epoch": 34.346666666666664, + "grad_norm": 0.6520372033119202, + "learning_rate": 3.6474074074074074e-05, + "loss": 0.1234, + "step": 12880 + }, + { + "epoch": 34.373333333333335, + "grad_norm": 1.0737919807434082, + "learning_rate": 3.645925925925926e-05, + "loss": 0.1267, + "step": 12890 + }, + { + "epoch": 34.4, + "grad_norm": 0.9509351849555969, + "learning_rate": 3.644444444444445e-05, + "loss": 0.1256, + "step": 12900 + }, + { + "epoch": 34.42666666666667, + "grad_norm": 1.3736263513565063, + "learning_rate": 3.642962962962963e-05, + "loss": 0.1391, + "step": 12910 + }, + { + "epoch": 34.45333333333333, + "grad_norm": 0.7847578525543213, + "learning_rate": 3.6414814814814817e-05, + "loss": 0.1482, + "step": 12920 + }, + { + "epoch": 34.48, + "grad_norm": 0.7375786304473877, + "learning_rate": 3.6400000000000004e-05, + "loss": 0.1374, + "step": 12930 + }, + { + "epoch": 34.50666666666667, + "grad_norm": 0.7954359650611877, + "learning_rate": 3.638518518518519e-05, + "loss": 0.1362, + "step": 12940 + }, + { + "epoch": 34.53333333333333, + "grad_norm": 0.5446063280105591, + "learning_rate": 3.637037037037037e-05, + "loss": 0.1065, + "step": 12950 + }, + { + "epoch": 34.56, + "grad_norm": 0.6327025294303894, + "learning_rate": 3.635555555555556e-05, + "loss": 0.1247, + "step": 12960 + }, + { + "epoch": 34.586666666666666, + "grad_norm": 0.5986203551292419, + "learning_rate": 3.634074074074074e-05, + "loss": 0.1319, + "step": 12970 + }, + { + "epoch": 34.61333333333333, + "grad_norm": 0.9851693511009216, + "learning_rate": 3.632592592592593e-05, + "loss": 0.1348, + "step": 12980 + }, + { + "epoch": 34.64, + "grad_norm": 0.8156079649925232, + "learning_rate": 3.6311111111111114e-05, + "loss": 0.1529, + "step": 12990 + }, + { + "epoch": 34.666666666666664, + "grad_norm": 0.9944355487823486, + "learning_rate": 3.62962962962963e-05, + "loss": 0.1446, + "step": 13000 + }, + { + "epoch": 34.693333333333335, + "grad_norm": 1.042147159576416, + "learning_rate": 3.628148148148148e-05, + "loss": 0.1516, + "step": 13010 + }, + { + "epoch": 34.72, + "grad_norm": 0.9342076182365417, + "learning_rate": 3.626666666666667e-05, + "loss": 0.1183, + "step": 13020 + }, + { + "epoch": 34.74666666666667, + "grad_norm": 0.9152241945266724, + "learning_rate": 3.625185185185186e-05, + "loss": 0.1335, + "step": 13030 + }, + { + "epoch": 34.77333333333333, + "grad_norm": 0.6570676565170288, + "learning_rate": 3.623703703703704e-05, + "loss": 0.1572, + "step": 13040 + }, + { + "epoch": 34.8, + "grad_norm": 0.7134150862693787, + "learning_rate": 3.6222222222222225e-05, + "loss": 0.16, + "step": 13050 + }, + { + "epoch": 34.82666666666667, + "grad_norm": 0.7075513005256653, + "learning_rate": 3.6207407407407405e-05, + "loss": 0.1454, + "step": 13060 + }, + { + "epoch": 34.85333333333333, + "grad_norm": 0.6469486355781555, + "learning_rate": 3.619259259259259e-05, + "loss": 0.1515, + "step": 13070 + }, + { + "epoch": 34.88, + "grad_norm": 0.43984219431877136, + "learning_rate": 3.617777777777778e-05, + "loss": 0.1528, + "step": 13080 + }, + { + "epoch": 34.906666666666666, + "grad_norm": 0.8607357144355774, + "learning_rate": 3.616296296296297e-05, + "loss": 0.132, + "step": 13090 + }, + { + "epoch": 34.93333333333333, + "grad_norm": 1.310937762260437, + "learning_rate": 3.614814814814815e-05, + "loss": 0.1382, + "step": 13100 + }, + { + "epoch": 34.96, + "grad_norm": 0.7271262407302856, + "learning_rate": 3.6133333333333335e-05, + "loss": 0.1221, + "step": 13110 + }, + { + "epoch": 34.986666666666665, + "grad_norm": 1.6328643560409546, + "learning_rate": 3.6118518518518516e-05, + "loss": 0.1499, + "step": 13120 + }, + { + "epoch": 35.0, + "eval_accuracy": 0.8975833333333333, + "eval_loss": 0.33780360221862793, + "eval_runtime": 253.3021, + "eval_samples_per_second": 47.374, + "eval_steps_per_second": 1.48, + "step": 13125 + }, + { + "epoch": 35.013333333333335, + "grad_norm": 0.6441872119903564, + "learning_rate": 3.61037037037037e-05, + "loss": 0.148, + "step": 13130 + }, + { + "epoch": 35.04, + "grad_norm": 0.8366817831993103, + "learning_rate": 3.608888888888889e-05, + "loss": 0.1482, + "step": 13140 + }, + { + "epoch": 35.06666666666667, + "grad_norm": 0.7292802929878235, + "learning_rate": 3.607407407407408e-05, + "loss": 0.1563, + "step": 13150 + }, + { + "epoch": 35.093333333333334, + "grad_norm": 0.7485653162002563, + "learning_rate": 3.605925925925926e-05, + "loss": 0.1396, + "step": 13160 + }, + { + "epoch": 35.12, + "grad_norm": 0.5841584205627441, + "learning_rate": 3.6044444444444446e-05, + "loss": 0.1457, + "step": 13170 + }, + { + "epoch": 35.14666666666667, + "grad_norm": 0.762127161026001, + "learning_rate": 3.602962962962963e-05, + "loss": 0.1242, + "step": 13180 + }, + { + "epoch": 35.17333333333333, + "grad_norm": 1.2623951435089111, + "learning_rate": 3.601481481481482e-05, + "loss": 0.1096, + "step": 13190 + }, + { + "epoch": 35.2, + "grad_norm": 0.7394558787345886, + "learning_rate": 3.6e-05, + "loss": 0.1247, + "step": 13200 + }, + { + "epoch": 35.22666666666667, + "grad_norm": 0.47356802225112915, + "learning_rate": 3.598518518518519e-05, + "loss": 0.1289, + "step": 13210 + }, + { + "epoch": 35.25333333333333, + "grad_norm": 0.46636152267456055, + "learning_rate": 3.597037037037037e-05, + "loss": 0.1304, + "step": 13220 + }, + { + "epoch": 35.28, + "grad_norm": 0.6294062733650208, + "learning_rate": 3.5955555555555556e-05, + "loss": 0.1521, + "step": 13230 + }, + { + "epoch": 35.306666666666665, + "grad_norm": 0.6311681270599365, + "learning_rate": 3.5940740740740743e-05, + "loss": 0.1539, + "step": 13240 + }, + { + "epoch": 35.333333333333336, + "grad_norm": 0.8516069650650024, + "learning_rate": 3.592592592592593e-05, + "loss": 0.1236, + "step": 13250 + }, + { + "epoch": 35.36, + "grad_norm": 0.7895090579986572, + "learning_rate": 3.591111111111111e-05, + "loss": 0.1375, + "step": 13260 + }, + { + "epoch": 35.38666666666666, + "grad_norm": 1.0421847105026245, + "learning_rate": 3.58962962962963e-05, + "loss": 0.1259, + "step": 13270 + }, + { + "epoch": 35.413333333333334, + "grad_norm": 0.566455602645874, + "learning_rate": 3.588148148148148e-05, + "loss": 0.1383, + "step": 13280 + }, + { + "epoch": 35.44, + "grad_norm": 0.5035443902015686, + "learning_rate": 3.586666666666667e-05, + "loss": 0.1528, + "step": 13290 + }, + { + "epoch": 35.46666666666667, + "grad_norm": 0.9292590618133545, + "learning_rate": 3.5851851851851854e-05, + "loss": 0.1396, + "step": 13300 + }, + { + "epoch": 35.49333333333333, + "grad_norm": 0.5976445078849792, + "learning_rate": 3.583703703703704e-05, + "loss": 0.1488, + "step": 13310 + }, + { + "epoch": 35.52, + "grad_norm": 0.7056884765625, + "learning_rate": 3.582222222222222e-05, + "loss": 0.1331, + "step": 13320 + }, + { + "epoch": 35.54666666666667, + "grad_norm": 0.9672914147377014, + "learning_rate": 3.580740740740741e-05, + "loss": 0.1278, + "step": 13330 + }, + { + "epoch": 35.57333333333333, + "grad_norm": 0.6320948004722595, + "learning_rate": 3.5792592592592596e-05, + "loss": 0.1427, + "step": 13340 + }, + { + "epoch": 35.6, + "grad_norm": 1.376320242881775, + "learning_rate": 3.577777777777778e-05, + "loss": 0.1308, + "step": 13350 + }, + { + "epoch": 35.626666666666665, + "grad_norm": 1.0108109712600708, + "learning_rate": 3.5762962962962964e-05, + "loss": 0.1621, + "step": 13360 + }, + { + "epoch": 35.653333333333336, + "grad_norm": 0.5519050359725952, + "learning_rate": 3.5748148148148145e-05, + "loss": 0.1468, + "step": 13370 + }, + { + "epoch": 35.68, + "grad_norm": 1.0791192054748535, + "learning_rate": 3.573333333333333e-05, + "loss": 0.1497, + "step": 13380 + }, + { + "epoch": 35.70666666666666, + "grad_norm": 0.9764125943183899, + "learning_rate": 3.571851851851852e-05, + "loss": 0.1547, + "step": 13390 + }, + { + "epoch": 35.733333333333334, + "grad_norm": 1.214794397354126, + "learning_rate": 3.570370370370371e-05, + "loss": 0.1479, + "step": 13400 + }, + { + "epoch": 35.76, + "grad_norm": 0.46179693937301636, + "learning_rate": 3.568888888888889e-05, + "loss": 0.1382, + "step": 13410 + }, + { + "epoch": 35.78666666666667, + "grad_norm": 0.6101595759391785, + "learning_rate": 3.5674074074074075e-05, + "loss": 0.1141, + "step": 13420 + }, + { + "epoch": 35.81333333333333, + "grad_norm": 0.7943254709243774, + "learning_rate": 3.565925925925926e-05, + "loss": 0.1479, + "step": 13430 + }, + { + "epoch": 35.84, + "grad_norm": 0.4523789882659912, + "learning_rate": 3.564444444444445e-05, + "loss": 0.1276, + "step": 13440 + }, + { + "epoch": 35.86666666666667, + "grad_norm": 0.6252668499946594, + "learning_rate": 3.562962962962963e-05, + "loss": 0.1288, + "step": 13450 + }, + { + "epoch": 35.89333333333333, + "grad_norm": 0.6102684736251831, + "learning_rate": 3.561481481481482e-05, + "loss": 0.1441, + "step": 13460 + }, + { + "epoch": 35.92, + "grad_norm": 0.5815966725349426, + "learning_rate": 3.56e-05, + "loss": 0.1435, + "step": 13470 + }, + { + "epoch": 35.946666666666665, + "grad_norm": 0.9414661526679993, + "learning_rate": 3.5585185185185185e-05, + "loss": 0.1477, + "step": 13480 + }, + { + "epoch": 35.973333333333336, + "grad_norm": 0.8867117762565613, + "learning_rate": 3.557037037037037e-05, + "loss": 0.1323, + "step": 13490 + }, + { + "epoch": 36.0, + "grad_norm": 0.4549649655818939, + "learning_rate": 3.555555555555556e-05, + "loss": 0.1123, + "step": 13500 + }, + { + "epoch": 36.0, + "eval_accuracy": 0.9011666666666667, + "eval_loss": 0.32743558287620544, + "eval_runtime": 252.002, + "eval_samples_per_second": 47.619, + "eval_steps_per_second": 1.488, + "step": 13500 + }, + { + "epoch": 36.026666666666664, + "grad_norm": 1.212974190711975, + "learning_rate": 3.554074074074074e-05, + "loss": 0.1284, + "step": 13510 + }, + { + "epoch": 36.053333333333335, + "grad_norm": 0.8784121870994568, + "learning_rate": 3.552592592592593e-05, + "loss": 0.1277, + "step": 13520 + }, + { + "epoch": 36.08, + "grad_norm": 0.8518645167350769, + "learning_rate": 3.551111111111111e-05, + "loss": 0.1426, + "step": 13530 + }, + { + "epoch": 36.10666666666667, + "grad_norm": 0.8246267437934875, + "learning_rate": 3.54962962962963e-05, + "loss": 0.1458, + "step": 13540 + }, + { + "epoch": 36.13333333333333, + "grad_norm": 0.7509289383888245, + "learning_rate": 3.548148148148148e-05, + "loss": 0.1184, + "step": 13550 + }, + { + "epoch": 36.16, + "grad_norm": 1.4086122512817383, + "learning_rate": 3.546666666666667e-05, + "loss": 0.1492, + "step": 13560 + }, + { + "epoch": 36.18666666666667, + "grad_norm": 1.3178306818008423, + "learning_rate": 3.545185185185185e-05, + "loss": 0.1248, + "step": 13570 + }, + { + "epoch": 36.21333333333333, + "grad_norm": 1.0506410598754883, + "learning_rate": 3.543703703703704e-05, + "loss": 0.1611, + "step": 13580 + }, + { + "epoch": 36.24, + "grad_norm": 0.6429629325866699, + "learning_rate": 3.5422222222222226e-05, + "loss": 0.1416, + "step": 13590 + }, + { + "epoch": 36.266666666666666, + "grad_norm": 1.1766481399536133, + "learning_rate": 3.540740740740741e-05, + "loss": 0.1326, + "step": 13600 + }, + { + "epoch": 36.29333333333334, + "grad_norm": 0.8868152499198914, + "learning_rate": 3.5392592592592594e-05, + "loss": 0.1183, + "step": 13610 + }, + { + "epoch": 36.32, + "grad_norm": 0.6395604014396667, + "learning_rate": 3.537777777777778e-05, + "loss": 0.1231, + "step": 13620 + }, + { + "epoch": 36.346666666666664, + "grad_norm": 0.6500803828239441, + "learning_rate": 3.536296296296296e-05, + "loss": 0.1518, + "step": 13630 + }, + { + "epoch": 36.373333333333335, + "grad_norm": 0.9768928289413452, + "learning_rate": 3.5348148148148156e-05, + "loss": 0.1415, + "step": 13640 + }, + { + "epoch": 36.4, + "grad_norm": 1.2233556509017944, + "learning_rate": 3.5333333333333336e-05, + "loss": 0.1388, + "step": 13650 + }, + { + "epoch": 36.42666666666667, + "grad_norm": 0.6144688725471497, + "learning_rate": 3.531851851851852e-05, + "loss": 0.1137, + "step": 13660 + }, + { + "epoch": 36.45333333333333, + "grad_norm": 0.7787757515907288, + "learning_rate": 3.5303703703703704e-05, + "loss": 0.1381, + "step": 13670 + }, + { + "epoch": 36.48, + "grad_norm": 0.7986034154891968, + "learning_rate": 3.528888888888889e-05, + "loss": 0.1283, + "step": 13680 + }, + { + "epoch": 36.50666666666667, + "grad_norm": 0.817489504814148, + "learning_rate": 3.527407407407408e-05, + "loss": 0.121, + "step": 13690 + }, + { + "epoch": 36.53333333333333, + "grad_norm": 0.6848250031471252, + "learning_rate": 3.525925925925926e-05, + "loss": 0.1354, + "step": 13700 + }, + { + "epoch": 36.56, + "grad_norm": 1.015969157218933, + "learning_rate": 3.5244444444444447e-05, + "loss": 0.1472, + "step": 13710 + }, + { + "epoch": 36.586666666666666, + "grad_norm": 0.696994960308075, + "learning_rate": 3.522962962962963e-05, + "loss": 0.131, + "step": 13720 + }, + { + "epoch": 36.61333333333333, + "grad_norm": 0.6195046305656433, + "learning_rate": 3.5214814814814814e-05, + "loss": 0.1474, + "step": 13730 + }, + { + "epoch": 36.64, + "grad_norm": 0.8067151308059692, + "learning_rate": 3.52e-05, + "loss": 0.105, + "step": 13740 + }, + { + "epoch": 36.666666666666664, + "grad_norm": 0.8105616569519043, + "learning_rate": 3.518518518518519e-05, + "loss": 0.1362, + "step": 13750 + }, + { + "epoch": 36.693333333333335, + "grad_norm": 0.5336594581604004, + "learning_rate": 3.517037037037037e-05, + "loss": 0.1749, + "step": 13760 + }, + { + "epoch": 36.72, + "grad_norm": 0.4899935722351074, + "learning_rate": 3.515555555555556e-05, + "loss": 0.1127, + "step": 13770 + }, + { + "epoch": 36.74666666666667, + "grad_norm": 0.667278528213501, + "learning_rate": 3.514074074074074e-05, + "loss": 0.1542, + "step": 13780 + }, + { + "epoch": 36.77333333333333, + "grad_norm": 0.7568264007568359, + "learning_rate": 3.512592592592593e-05, + "loss": 0.1274, + "step": 13790 + }, + { + "epoch": 36.8, + "grad_norm": 0.6847347021102905, + "learning_rate": 3.511111111111111e-05, + "loss": 0.1475, + "step": 13800 + }, + { + "epoch": 36.82666666666667, + "grad_norm": 0.8310431838035583, + "learning_rate": 3.50962962962963e-05, + "loss": 0.1408, + "step": 13810 + }, + { + "epoch": 36.85333333333333, + "grad_norm": 0.6507230401039124, + "learning_rate": 3.508148148148148e-05, + "loss": 0.13, + "step": 13820 + }, + { + "epoch": 36.88, + "grad_norm": 1.1377085447311401, + "learning_rate": 3.506666666666667e-05, + "loss": 0.1561, + "step": 13830 + }, + { + "epoch": 36.906666666666666, + "grad_norm": 1.168576955795288, + "learning_rate": 3.5051851851851855e-05, + "loss": 0.1559, + "step": 13840 + }, + { + "epoch": 36.93333333333333, + "grad_norm": 0.7437068223953247, + "learning_rate": 3.503703703703704e-05, + "loss": 0.1332, + "step": 13850 + }, + { + "epoch": 36.96, + "grad_norm": 0.635266125202179, + "learning_rate": 3.502222222222222e-05, + "loss": 0.1298, + "step": 13860 + }, + { + "epoch": 36.986666666666665, + "grad_norm": 1.225651741027832, + "learning_rate": 3.500740740740741e-05, + "loss": 0.1375, + "step": 13870 + }, + { + "epoch": 37.0, + "eval_accuracy": 0.9001666666666667, + "eval_loss": 0.3242860436439514, + "eval_runtime": 251.5738, + "eval_samples_per_second": 47.7, + "eval_steps_per_second": 1.491, + "step": 13875 + }, + { + "epoch": 37.013333333333335, + "grad_norm": 0.7417032122612, + "learning_rate": 3.499259259259259e-05, + "loss": 0.143, + "step": 13880 + }, + { + "epoch": 37.04, + "grad_norm": 0.5635210275650024, + "learning_rate": 3.4977777777777785e-05, + "loss": 0.1325, + "step": 13890 + }, + { + "epoch": 37.06666666666667, + "grad_norm": 0.47801390290260315, + "learning_rate": 3.4962962962962965e-05, + "loss": 0.1427, + "step": 13900 + }, + { + "epoch": 37.093333333333334, + "grad_norm": 0.6503446698188782, + "learning_rate": 3.494814814814815e-05, + "loss": 0.1289, + "step": 13910 + }, + { + "epoch": 37.12, + "grad_norm": 0.7092220187187195, + "learning_rate": 3.493333333333333e-05, + "loss": 0.1557, + "step": 13920 + }, + { + "epoch": 37.14666666666667, + "grad_norm": 0.7625207304954529, + "learning_rate": 3.491851851851852e-05, + "loss": 0.1507, + "step": 13930 + }, + { + "epoch": 37.17333333333333, + "grad_norm": 1.037205457687378, + "learning_rate": 3.490370370370371e-05, + "loss": 0.1561, + "step": 13940 + }, + { + "epoch": 37.2, + "grad_norm": 1.1264344453811646, + "learning_rate": 3.4888888888888895e-05, + "loss": 0.1228, + "step": 13950 + }, + { + "epoch": 37.22666666666667, + "grad_norm": 0.8767980933189392, + "learning_rate": 3.4874074074074076e-05, + "loss": 0.1259, + "step": 13960 + }, + { + "epoch": 37.25333333333333, + "grad_norm": 0.781400203704834, + "learning_rate": 3.4859259259259256e-05, + "loss": 0.124, + "step": 13970 + }, + { + "epoch": 37.28, + "grad_norm": 0.7508281469345093, + "learning_rate": 3.4844444444444444e-05, + "loss": 0.1095, + "step": 13980 + }, + { + "epoch": 37.306666666666665, + "grad_norm": 0.754393994808197, + "learning_rate": 3.482962962962963e-05, + "loss": 0.1467, + "step": 13990 + }, + { + "epoch": 37.333333333333336, + "grad_norm": 0.7221003174781799, + "learning_rate": 3.481481481481482e-05, + "loss": 0.1351, + "step": 14000 + }, + { + "epoch": 37.36, + "grad_norm": 0.7134292721748352, + "learning_rate": 3.48e-05, + "loss": 0.114, + "step": 14010 + }, + { + "epoch": 37.38666666666666, + "grad_norm": 0.9922940731048584, + "learning_rate": 3.4785185185185186e-05, + "loss": 0.1285, + "step": 14020 + }, + { + "epoch": 37.413333333333334, + "grad_norm": 0.7211880683898926, + "learning_rate": 3.477037037037037e-05, + "loss": 0.1221, + "step": 14030 + }, + { + "epoch": 37.44, + "grad_norm": 0.6565313935279846, + "learning_rate": 3.475555555555556e-05, + "loss": 0.1392, + "step": 14040 + }, + { + "epoch": 37.46666666666667, + "grad_norm": 0.6743717789649963, + "learning_rate": 3.474074074074074e-05, + "loss": 0.1115, + "step": 14050 + }, + { + "epoch": 37.49333333333333, + "grad_norm": 1.7883774042129517, + "learning_rate": 3.472592592592593e-05, + "loss": 0.1301, + "step": 14060 + }, + { + "epoch": 37.52, + "grad_norm": 0.805345892906189, + "learning_rate": 3.471111111111111e-05, + "loss": 0.1167, + "step": 14070 + }, + { + "epoch": 37.54666666666667, + "grad_norm": 1.4342106580734253, + "learning_rate": 3.46962962962963e-05, + "loss": 0.1232, + "step": 14080 + }, + { + "epoch": 37.57333333333333, + "grad_norm": 0.4553696811199188, + "learning_rate": 3.4681481481481484e-05, + "loss": 0.1204, + "step": 14090 + }, + { + "epoch": 37.6, + "grad_norm": 0.7249352335929871, + "learning_rate": 3.466666666666667e-05, + "loss": 0.1419, + "step": 14100 + }, + { + "epoch": 37.626666666666665, + "grad_norm": 0.6591256260871887, + "learning_rate": 3.465185185185185e-05, + "loss": 0.1255, + "step": 14110 + }, + { + "epoch": 37.653333333333336, + "grad_norm": 1.0625101327896118, + "learning_rate": 3.463703703703704e-05, + "loss": 0.1231, + "step": 14120 + }, + { + "epoch": 37.68, + "grad_norm": 1.1617131233215332, + "learning_rate": 3.462222222222222e-05, + "loss": 0.1463, + "step": 14130 + }, + { + "epoch": 37.70666666666666, + "grad_norm": 0.7959069013595581, + "learning_rate": 3.4607407407407414e-05, + "loss": 0.1385, + "step": 14140 + }, + { + "epoch": 37.733333333333334, + "grad_norm": 1.442711591720581, + "learning_rate": 3.4592592592592594e-05, + "loss": 0.1228, + "step": 14150 + }, + { + "epoch": 37.76, + "grad_norm": 1.193173885345459, + "learning_rate": 3.457777777777778e-05, + "loss": 0.1412, + "step": 14160 + }, + { + "epoch": 37.78666666666667, + "grad_norm": 0.7857397198677063, + "learning_rate": 3.456296296296296e-05, + "loss": 0.1286, + "step": 14170 + }, + { + "epoch": 37.81333333333333, + "grad_norm": 0.5885981321334839, + "learning_rate": 3.454814814814815e-05, + "loss": 0.1416, + "step": 14180 + }, + { + "epoch": 37.84, + "grad_norm": 0.4125601351261139, + "learning_rate": 3.453333333333334e-05, + "loss": 0.1165, + "step": 14190 + }, + { + "epoch": 37.86666666666667, + "grad_norm": 1.1467071771621704, + "learning_rate": 3.4518518518518524e-05, + "loss": 0.0922, + "step": 14200 + }, + { + "epoch": 37.89333333333333, + "grad_norm": 1.42283034324646, + "learning_rate": 3.4503703703703705e-05, + "loss": 0.114, + "step": 14210 + }, + { + "epoch": 37.92, + "grad_norm": 1.4116325378417969, + "learning_rate": 3.448888888888889e-05, + "loss": 0.1436, + "step": 14220 + }, + { + "epoch": 37.946666666666665, + "grad_norm": 0.6621559858322144, + "learning_rate": 3.447407407407407e-05, + "loss": 0.1192, + "step": 14230 + }, + { + "epoch": 37.973333333333336, + "grad_norm": 0.540582537651062, + "learning_rate": 3.445925925925926e-05, + "loss": 0.1098, + "step": 14240 + }, + { + "epoch": 38.0, + "grad_norm": 1.037381887435913, + "learning_rate": 3.444444444444445e-05, + "loss": 0.1374, + "step": 14250 + }, + { + "epoch": 38.0, + "eval_accuracy": 0.8965, + "eval_loss": 0.34809452295303345, + "eval_runtime": 251.4258, + "eval_samples_per_second": 47.728, + "eval_steps_per_second": 1.491, + "step": 14250 + }, + { + "epoch": 38.026666666666664, + "grad_norm": 0.7166621088981628, + "learning_rate": 3.4429629629629635e-05, + "loss": 0.1303, + "step": 14260 + }, + { + "epoch": 38.053333333333335, + "grad_norm": 0.8803855776786804, + "learning_rate": 3.4414814814814815e-05, + "loss": 0.1615, + "step": 14270 + }, + { + "epoch": 38.08, + "grad_norm": 0.508794367313385, + "learning_rate": 3.4399999999999996e-05, + "loss": 0.1218, + "step": 14280 + }, + { + "epoch": 38.10666666666667, + "grad_norm": 0.7889625430107117, + "learning_rate": 3.438518518518519e-05, + "loss": 0.1216, + "step": 14290 + }, + { + "epoch": 38.13333333333333, + "grad_norm": 0.6536449193954468, + "learning_rate": 3.437037037037037e-05, + "loss": 0.1482, + "step": 14300 + }, + { + "epoch": 38.16, + "grad_norm": 0.7631733417510986, + "learning_rate": 3.435555555555556e-05, + "loss": 0.1319, + "step": 14310 + }, + { + "epoch": 38.18666666666667, + "grad_norm": 0.5255581736564636, + "learning_rate": 3.434074074074074e-05, + "loss": 0.1164, + "step": 14320 + }, + { + "epoch": 38.21333333333333, + "grad_norm": 1.1684460639953613, + "learning_rate": 3.4325925925925926e-05, + "loss": 0.1395, + "step": 14330 + }, + { + "epoch": 38.24, + "grad_norm": 0.559105634689331, + "learning_rate": 3.431111111111111e-05, + "loss": 0.1334, + "step": 14340 + }, + { + "epoch": 38.266666666666666, + "grad_norm": 0.9589331746101379, + "learning_rate": 3.42962962962963e-05, + "loss": 0.1175, + "step": 14350 + }, + { + "epoch": 38.29333333333334, + "grad_norm": 0.6816359758377075, + "learning_rate": 3.428148148148148e-05, + "loss": 0.1343, + "step": 14360 + }, + { + "epoch": 38.32, + "grad_norm": 0.7111276388168335, + "learning_rate": 3.426666666666667e-05, + "loss": 0.1273, + "step": 14370 + }, + { + "epoch": 38.346666666666664, + "grad_norm": 0.7280983328819275, + "learning_rate": 3.425185185185185e-05, + "loss": 0.1204, + "step": 14380 + }, + { + "epoch": 38.373333333333335, + "grad_norm": 1.3807474374771118, + "learning_rate": 3.423703703703704e-05, + "loss": 0.1111, + "step": 14390 + }, + { + "epoch": 38.4, + "grad_norm": 1.234544277191162, + "learning_rate": 3.4222222222222224e-05, + "loss": 0.1412, + "step": 14400 + }, + { + "epoch": 38.42666666666667, + "grad_norm": 0.7091413140296936, + "learning_rate": 3.420740740740741e-05, + "loss": 0.1336, + "step": 14410 + }, + { + "epoch": 38.45333333333333, + "grad_norm": 0.5706987977027893, + "learning_rate": 3.419259259259259e-05, + "loss": 0.1145, + "step": 14420 + }, + { + "epoch": 38.48, + "grad_norm": 0.6795122623443604, + "learning_rate": 3.417777777777778e-05, + "loss": 0.1447, + "step": 14430 + }, + { + "epoch": 38.50666666666667, + "grad_norm": 0.30239519476890564, + "learning_rate": 3.4162962962962966e-05, + "loss": 0.1219, + "step": 14440 + }, + { + "epoch": 38.53333333333333, + "grad_norm": 1.0869932174682617, + "learning_rate": 3.4148148148148153e-05, + "loss": 0.1201, + "step": 14450 + }, + { + "epoch": 38.56, + "grad_norm": 1.0687272548675537, + "learning_rate": 3.4133333333333334e-05, + "loss": 0.1252, + "step": 14460 + }, + { + "epoch": 38.586666666666666, + "grad_norm": 1.136164903640747, + "learning_rate": 3.411851851851852e-05, + "loss": 0.1242, + "step": 14470 + }, + { + "epoch": 38.61333333333333, + "grad_norm": 1.101167917251587, + "learning_rate": 3.41037037037037e-05, + "loss": 0.1709, + "step": 14480 + }, + { + "epoch": 38.64, + "grad_norm": 0.6120354533195496, + "learning_rate": 3.408888888888889e-05, + "loss": 0.1288, + "step": 14490 + }, + { + "epoch": 38.666666666666664, + "grad_norm": 0.9654986262321472, + "learning_rate": 3.4074074074074077e-05, + "loss": 0.1349, + "step": 14500 + }, + { + "epoch": 38.693333333333335, + "grad_norm": 0.46039366722106934, + "learning_rate": 3.4059259259259264e-05, + "loss": 0.1366, + "step": 14510 + }, + { + "epoch": 38.72, + "grad_norm": 1.0039660930633545, + "learning_rate": 3.4044444444444445e-05, + "loss": 0.1176, + "step": 14520 + }, + { + "epoch": 38.74666666666667, + "grad_norm": 0.625465989112854, + "learning_rate": 3.402962962962963e-05, + "loss": 0.1479, + "step": 14530 + }, + { + "epoch": 38.77333333333333, + "grad_norm": 1.7477797269821167, + "learning_rate": 3.401481481481482e-05, + "loss": 0.1471, + "step": 14540 + }, + { + "epoch": 38.8, + "grad_norm": 0.5777425765991211, + "learning_rate": 3.4000000000000007e-05, + "loss": 0.1161, + "step": 14550 + }, + { + "epoch": 38.82666666666667, + "grad_norm": 0.5771605968475342, + "learning_rate": 3.398518518518519e-05, + "loss": 0.1081, + "step": 14560 + }, + { + "epoch": 38.85333333333333, + "grad_norm": 0.629884660243988, + "learning_rate": 3.3970370370370374e-05, + "loss": 0.122, + "step": 14570 + }, + { + "epoch": 38.88, + "grad_norm": 0.6165542006492615, + "learning_rate": 3.3955555555555555e-05, + "loss": 0.0974, + "step": 14580 + }, + { + "epoch": 38.906666666666666, + "grad_norm": 0.7050284147262573, + "learning_rate": 3.394074074074074e-05, + "loss": 0.1377, + "step": 14590 + }, + { + "epoch": 38.93333333333333, + "grad_norm": 1.7434810400009155, + "learning_rate": 3.392592592592593e-05, + "loss": 0.1256, + "step": 14600 + }, + { + "epoch": 38.96, + "grad_norm": 1.0927953720092773, + "learning_rate": 3.391111111111111e-05, + "loss": 0.1336, + "step": 14610 + }, + { + "epoch": 38.986666666666665, + "grad_norm": 0.9946818947792053, + "learning_rate": 3.38962962962963e-05, + "loss": 0.0958, + "step": 14620 + }, + { + "epoch": 39.0, + "eval_accuracy": 0.8960833333333333, + "eval_loss": 0.3610909879207611, + "eval_runtime": 251.5093, + "eval_samples_per_second": 47.712, + "eval_steps_per_second": 1.491, + "step": 14625 + }, + { + "epoch": 39.013333333333335, + "grad_norm": 0.5719517469406128, + "learning_rate": 3.388148148148148e-05, + "loss": 0.1158, + "step": 14630 + }, + { + "epoch": 39.04, + "grad_norm": 0.4408528506755829, + "learning_rate": 3.3866666666666665e-05, + "loss": 0.1092, + "step": 14640 + }, + { + "epoch": 39.06666666666667, + "grad_norm": 0.6252496838569641, + "learning_rate": 3.385185185185185e-05, + "loss": 0.1209, + "step": 14650 + }, + { + "epoch": 39.093333333333334, + "grad_norm": 0.8698192834854126, + "learning_rate": 3.383703703703704e-05, + "loss": 0.1142, + "step": 14660 + }, + { + "epoch": 39.12, + "grad_norm": 1.196700096130371, + "learning_rate": 3.382222222222222e-05, + "loss": 0.1176, + "step": 14670 + }, + { + "epoch": 39.14666666666667, + "grad_norm": 0.5499346852302551, + "learning_rate": 3.380740740740741e-05, + "loss": 0.1231, + "step": 14680 + }, + { + "epoch": 39.17333333333333, + "grad_norm": 0.389573335647583, + "learning_rate": 3.3792592592592595e-05, + "loss": 0.1209, + "step": 14690 + }, + { + "epoch": 39.2, + "grad_norm": 0.5306630730628967, + "learning_rate": 3.377777777777778e-05, + "loss": 0.1095, + "step": 14700 + }, + { + "epoch": 39.22666666666667, + "grad_norm": 0.786679208278656, + "learning_rate": 3.376296296296296e-05, + "loss": 0.1418, + "step": 14710 + }, + { + "epoch": 39.25333333333333, + "grad_norm": 0.49732303619384766, + "learning_rate": 3.374814814814815e-05, + "loss": 0.1068, + "step": 14720 + }, + { + "epoch": 39.28, + "grad_norm": 1.2102797031402588, + "learning_rate": 3.373333333333333e-05, + "loss": 0.1514, + "step": 14730 + }, + { + "epoch": 39.306666666666665, + "grad_norm": 0.6238965392112732, + "learning_rate": 3.371851851851852e-05, + "loss": 0.1591, + "step": 14740 + }, + { + "epoch": 39.333333333333336, + "grad_norm": 0.6495566964149475, + "learning_rate": 3.3703703703703706e-05, + "loss": 0.107, + "step": 14750 + }, + { + "epoch": 39.36, + "grad_norm": 0.5533037185668945, + "learning_rate": 3.368888888888889e-05, + "loss": 0.1287, + "step": 14760 + }, + { + "epoch": 39.38666666666666, + "grad_norm": 1.017029881477356, + "learning_rate": 3.3674074074074074e-05, + "loss": 0.1076, + "step": 14770 + }, + { + "epoch": 39.413333333333334, + "grad_norm": 1.006684422492981, + "learning_rate": 3.365925925925926e-05, + "loss": 0.1398, + "step": 14780 + }, + { + "epoch": 39.44, + "grad_norm": 1.1622883081436157, + "learning_rate": 3.364444444444445e-05, + "loss": 0.1241, + "step": 14790 + }, + { + "epoch": 39.46666666666667, + "grad_norm": 1.2200229167938232, + "learning_rate": 3.3629629629629636e-05, + "loss": 0.121, + "step": 14800 + }, + { + "epoch": 39.49333333333333, + "grad_norm": 1.1513895988464355, + "learning_rate": 3.3614814814814816e-05, + "loss": 0.1246, + "step": 14810 + }, + { + "epoch": 39.52, + "grad_norm": 0.5467257499694824, + "learning_rate": 3.3600000000000004e-05, + "loss": 0.1345, + "step": 14820 + }, + { + "epoch": 39.54666666666667, + "grad_norm": 0.4860801100730896, + "learning_rate": 3.3585185185185184e-05, + "loss": 0.1187, + "step": 14830 + }, + { + "epoch": 39.57333333333333, + "grad_norm": 0.7540624141693115, + "learning_rate": 3.357037037037037e-05, + "loss": 0.1533, + "step": 14840 + }, + { + "epoch": 39.6, + "grad_norm": 0.9086800813674927, + "learning_rate": 3.355555555555556e-05, + "loss": 0.1415, + "step": 14850 + }, + { + "epoch": 39.626666666666665, + "grad_norm": 0.5642034411430359, + "learning_rate": 3.3540740740740746e-05, + "loss": 0.1392, + "step": 14860 + }, + { + "epoch": 39.653333333333336, + "grad_norm": 0.8766238689422607, + "learning_rate": 3.352592592592593e-05, + "loss": 0.1181, + "step": 14870 + }, + { + "epoch": 39.68, + "grad_norm": 0.7619327306747437, + "learning_rate": 3.3511111111111114e-05, + "loss": 0.1283, + "step": 14880 + }, + { + "epoch": 39.70666666666666, + "grad_norm": 0.8211836218833923, + "learning_rate": 3.3496296296296295e-05, + "loss": 0.1358, + "step": 14890 + }, + { + "epoch": 39.733333333333334, + "grad_norm": 0.6400761008262634, + "learning_rate": 3.348148148148148e-05, + "loss": 0.1124, + "step": 14900 + }, + { + "epoch": 39.76, + "grad_norm": 0.6918902397155762, + "learning_rate": 3.346666666666667e-05, + "loss": 0.1466, + "step": 14910 + }, + { + "epoch": 39.78666666666667, + "grad_norm": 0.508161187171936, + "learning_rate": 3.345185185185185e-05, + "loss": 0.1327, + "step": 14920 + }, + { + "epoch": 39.81333333333333, + "grad_norm": 0.7068108320236206, + "learning_rate": 3.343703703703704e-05, + "loss": 0.126, + "step": 14930 + }, + { + "epoch": 39.84, + "grad_norm": 1.17863929271698, + "learning_rate": 3.3422222222222224e-05, + "loss": 0.1295, + "step": 14940 + }, + { + "epoch": 39.86666666666667, + "grad_norm": 0.6790997385978699, + "learning_rate": 3.340740740740741e-05, + "loss": 0.1026, + "step": 14950 + }, + { + "epoch": 39.89333333333333, + "grad_norm": 0.5771085619926453, + "learning_rate": 3.339259259259259e-05, + "loss": 0.1187, + "step": 14960 + }, + { + "epoch": 39.92, + "grad_norm": 0.7192868590354919, + "learning_rate": 3.337777777777778e-05, + "loss": 0.1182, + "step": 14970 + }, + { + "epoch": 39.946666666666665, + "grad_norm": 0.7595701813697815, + "learning_rate": 3.336296296296296e-05, + "loss": 0.1247, + "step": 14980 + }, + { + "epoch": 39.973333333333336, + "grad_norm": 0.7476987242698669, + "learning_rate": 3.334814814814815e-05, + "loss": 0.1171, + "step": 14990 + }, + { + "epoch": 40.0, + "grad_norm": 0.626864492893219, + "learning_rate": 3.3333333333333335e-05, + "loss": 0.1283, + "step": 15000 + }, + { + "epoch": 40.0, + "eval_accuracy": 0.9004166666666666, + "eval_loss": 0.3521290719509125, + "eval_runtime": 251.3559, + "eval_samples_per_second": 47.741, + "eval_steps_per_second": 1.492, + "step": 15000 + }, + { + "epoch": 40.026666666666664, + "grad_norm": 0.41568902134895325, + "learning_rate": 3.331851851851852e-05, + "loss": 0.1285, + "step": 15010 + }, + { + "epoch": 40.053333333333335, + "grad_norm": 0.7474643588066101, + "learning_rate": 3.33037037037037e-05, + "loss": 0.1342, + "step": 15020 + }, + { + "epoch": 40.08, + "grad_norm": 1.0370335578918457, + "learning_rate": 3.328888888888889e-05, + "loss": 0.1407, + "step": 15030 + }, + { + "epoch": 40.10666666666667, + "grad_norm": 0.8611982464790344, + "learning_rate": 3.327407407407408e-05, + "loss": 0.1271, + "step": 15040 + }, + { + "epoch": 40.13333333333333, + "grad_norm": 0.627683699131012, + "learning_rate": 3.3259259259259265e-05, + "loss": 0.1497, + "step": 15050 + }, + { + "epoch": 40.16, + "grad_norm": 1.4769397974014282, + "learning_rate": 3.3244444444444445e-05, + "loss": 0.1544, + "step": 15060 + }, + { + "epoch": 40.18666666666667, + "grad_norm": 0.7434845566749573, + "learning_rate": 3.322962962962963e-05, + "loss": 0.1311, + "step": 15070 + }, + { + "epoch": 40.21333333333333, + "grad_norm": 0.9985266327857971, + "learning_rate": 3.321481481481481e-05, + "loss": 0.1245, + "step": 15080 + }, + { + "epoch": 40.24, + "grad_norm": 0.537520706653595, + "learning_rate": 3.32e-05, + "loss": 0.1113, + "step": 15090 + }, + { + "epoch": 40.266666666666666, + "grad_norm": 0.5798508524894714, + "learning_rate": 3.318518518518519e-05, + "loss": 0.1151, + "step": 15100 + }, + { + "epoch": 40.29333333333334, + "grad_norm": 0.574065625667572, + "learning_rate": 3.3170370370370375e-05, + "loss": 0.1279, + "step": 15110 + }, + { + "epoch": 40.32, + "grad_norm": 0.9477535486221313, + "learning_rate": 3.3155555555555556e-05, + "loss": 0.145, + "step": 15120 + }, + { + "epoch": 40.346666666666664, + "grad_norm": 0.996489405632019, + "learning_rate": 3.314074074074074e-05, + "loss": 0.1386, + "step": 15130 + }, + { + "epoch": 40.373333333333335, + "grad_norm": 1.104817509651184, + "learning_rate": 3.3125925925925924e-05, + "loss": 0.1229, + "step": 15140 + }, + { + "epoch": 40.4, + "grad_norm": 0.7359675168991089, + "learning_rate": 3.311111111111112e-05, + "loss": 0.1397, + "step": 15150 + }, + { + "epoch": 40.42666666666667, + "grad_norm": 0.5696702003479004, + "learning_rate": 3.30962962962963e-05, + "loss": 0.1275, + "step": 15160 + }, + { + "epoch": 40.45333333333333, + "grad_norm": 0.4963131248950958, + "learning_rate": 3.3081481481481486e-05, + "loss": 0.1186, + "step": 15170 + }, + { + "epoch": 40.48, + "grad_norm": 0.4819418787956238, + "learning_rate": 3.3066666666666666e-05, + "loss": 0.13, + "step": 15180 + }, + { + "epoch": 40.50666666666667, + "grad_norm": 0.6714977622032166, + "learning_rate": 3.3051851851851854e-05, + "loss": 0.1385, + "step": 15190 + }, + { + "epoch": 40.53333333333333, + "grad_norm": 1.2647731304168701, + "learning_rate": 3.303703703703704e-05, + "loss": 0.107, + "step": 15200 + }, + { + "epoch": 40.56, + "grad_norm": 0.585480272769928, + "learning_rate": 3.302222222222222e-05, + "loss": 0.1375, + "step": 15210 + }, + { + "epoch": 40.586666666666666, + "grad_norm": 0.6727729439735413, + "learning_rate": 3.300740740740741e-05, + "loss": 0.1149, + "step": 15220 + }, + { + "epoch": 40.61333333333333, + "grad_norm": 0.8125377893447876, + "learning_rate": 3.299259259259259e-05, + "loss": 0.1231, + "step": 15230 + }, + { + "epoch": 40.64, + "grad_norm": 0.9470720291137695, + "learning_rate": 3.297777777777778e-05, + "loss": 0.1232, + "step": 15240 + }, + { + "epoch": 40.666666666666664, + "grad_norm": 0.8009923696517944, + "learning_rate": 3.2962962962962964e-05, + "loss": 0.1097, + "step": 15250 + }, + { + "epoch": 40.693333333333335, + "grad_norm": 0.9782776832580566, + "learning_rate": 3.294814814814815e-05, + "loss": 0.1224, + "step": 15260 + }, + { + "epoch": 40.72, + "grad_norm": 1.2802739143371582, + "learning_rate": 3.293333333333333e-05, + "loss": 0.1329, + "step": 15270 + }, + { + "epoch": 40.74666666666667, + "grad_norm": 0.8636932373046875, + "learning_rate": 3.291851851851852e-05, + "loss": 0.1255, + "step": 15280 + }, + { + "epoch": 40.77333333333333, + "grad_norm": 0.8853609561920166, + "learning_rate": 3.29037037037037e-05, + "loss": 0.123, + "step": 15290 + }, + { + "epoch": 40.8, + "grad_norm": 0.7726976275444031, + "learning_rate": 3.2888888888888894e-05, + "loss": 0.1232, + "step": 15300 + }, + { + "epoch": 40.82666666666667, + "grad_norm": 1.3522144556045532, + "learning_rate": 3.2874074074074075e-05, + "loss": 0.1349, + "step": 15310 + }, + { + "epoch": 40.85333333333333, + "grad_norm": 0.4356692433357239, + "learning_rate": 3.285925925925926e-05, + "loss": 0.124, + "step": 15320 + }, + { + "epoch": 40.88, + "grad_norm": 0.9283479452133179, + "learning_rate": 3.284444444444444e-05, + "loss": 0.1234, + "step": 15330 + }, + { + "epoch": 40.906666666666666, + "grad_norm": 0.8456709980964661, + "learning_rate": 3.282962962962963e-05, + "loss": 0.1202, + "step": 15340 + }, + { + "epoch": 40.93333333333333, + "grad_norm": 0.6898795962333679, + "learning_rate": 3.281481481481482e-05, + "loss": 0.1057, + "step": 15350 + }, + { + "epoch": 40.96, + "grad_norm": 0.6814408302307129, + "learning_rate": 3.2800000000000004e-05, + "loss": 0.1086, + "step": 15360 + }, + { + "epoch": 40.986666666666665, + "grad_norm": 0.2729504406452179, + "learning_rate": 3.2785185185185185e-05, + "loss": 0.1314, + "step": 15370 + }, + { + "epoch": 41.0, + "eval_accuracy": 0.8981666666666667, + "eval_loss": 0.34471485018730164, + "eval_runtime": 251.4775, + "eval_samples_per_second": 47.718, + "eval_steps_per_second": 1.491, + "step": 15375 + }, + { + "epoch": 41.013333333333335, + "grad_norm": 0.6671677231788635, + "learning_rate": 3.277037037037037e-05, + "loss": 0.131, + "step": 15380 + }, + { + "epoch": 41.04, + "grad_norm": 0.7450612187385559, + "learning_rate": 3.275555555555555e-05, + "loss": 0.0954, + "step": 15390 + }, + { + "epoch": 41.06666666666667, + "grad_norm": 0.40599867701530457, + "learning_rate": 3.274074074074075e-05, + "loss": 0.1425, + "step": 15400 + }, + { + "epoch": 41.093333333333334, + "grad_norm": 1.0959832668304443, + "learning_rate": 3.272592592592593e-05, + "loss": 0.113, + "step": 15410 + }, + { + "epoch": 41.12, + "grad_norm": 1.3606762886047363, + "learning_rate": 3.2711111111111115e-05, + "loss": 0.1151, + "step": 15420 + }, + { + "epoch": 41.14666666666667, + "grad_norm": 1.1403651237487793, + "learning_rate": 3.2696296296296295e-05, + "loss": 0.1347, + "step": 15430 + }, + { + "epoch": 41.17333333333333, + "grad_norm": 0.759689450263977, + "learning_rate": 3.268148148148148e-05, + "loss": 0.1144, + "step": 15440 + }, + { + "epoch": 41.2, + "grad_norm": 0.7083584666252136, + "learning_rate": 3.266666666666667e-05, + "loss": 0.1409, + "step": 15450 + }, + { + "epoch": 41.22666666666667, + "grad_norm": 0.3134825825691223, + "learning_rate": 3.265185185185186e-05, + "loss": 0.1262, + "step": 15460 + }, + { + "epoch": 41.25333333333333, + "grad_norm": 0.913765549659729, + "learning_rate": 3.263703703703704e-05, + "loss": 0.1329, + "step": 15470 + }, + { + "epoch": 41.28, + "grad_norm": 0.6508323550224304, + "learning_rate": 3.2622222222222225e-05, + "loss": 0.1195, + "step": 15480 + }, + { + "epoch": 41.306666666666665, + "grad_norm": 0.6196288466453552, + "learning_rate": 3.2607407407407406e-05, + "loss": 0.1347, + "step": 15490 + }, + { + "epoch": 41.333333333333336, + "grad_norm": 0.5625476837158203, + "learning_rate": 3.25925925925926e-05, + "loss": 0.1122, + "step": 15500 + }, + { + "epoch": 41.36, + "grad_norm": 0.6837165951728821, + "learning_rate": 3.257777777777778e-05, + "loss": 0.1196, + "step": 15510 + }, + { + "epoch": 41.38666666666666, + "grad_norm": 0.8440409302711487, + "learning_rate": 3.256296296296296e-05, + "loss": 0.1323, + "step": 15520 + }, + { + "epoch": 41.413333333333334, + "grad_norm": 0.9584532976150513, + "learning_rate": 3.254814814814815e-05, + "loss": 0.1391, + "step": 15530 + }, + { + "epoch": 41.44, + "grad_norm": 1.4705955982208252, + "learning_rate": 3.253333333333333e-05, + "loss": 0.1603, + "step": 15540 + }, + { + "epoch": 41.46666666666667, + "grad_norm": 1.1904652118682861, + "learning_rate": 3.251851851851852e-05, + "loss": 0.1146, + "step": 15550 + }, + { + "epoch": 41.49333333333333, + "grad_norm": 0.8853037357330322, + "learning_rate": 3.2503703703703704e-05, + "loss": 0.1139, + "step": 15560 + }, + { + "epoch": 41.52, + "grad_norm": 0.8238078951835632, + "learning_rate": 3.248888888888889e-05, + "loss": 0.1327, + "step": 15570 + }, + { + "epoch": 41.54666666666667, + "grad_norm": 0.8381800651550293, + "learning_rate": 3.247407407407407e-05, + "loss": 0.1337, + "step": 15580 + }, + { + "epoch": 41.57333333333333, + "grad_norm": 0.7168253064155579, + "learning_rate": 3.245925925925926e-05, + "loss": 0.1243, + "step": 15590 + }, + { + "epoch": 41.6, + "grad_norm": 0.36679548025131226, + "learning_rate": 3.2444444444444446e-05, + "loss": 0.1289, + "step": 15600 + }, + { + "epoch": 41.626666666666665, + "grad_norm": 1.1263999938964844, + "learning_rate": 3.2429629629629634e-05, + "loss": 0.1439, + "step": 15610 + }, + { + "epoch": 41.653333333333336, + "grad_norm": 0.8729699850082397, + "learning_rate": 3.2414814814814814e-05, + "loss": 0.12, + "step": 15620 + }, + { + "epoch": 41.68, + "grad_norm": 0.8348574042320251, + "learning_rate": 3.24e-05, + "loss": 0.1172, + "step": 15630 + }, + { + "epoch": 41.70666666666666, + "grad_norm": 0.5051025748252869, + "learning_rate": 3.238518518518518e-05, + "loss": 0.1209, + "step": 15640 + }, + { + "epoch": 41.733333333333334, + "grad_norm": 0.5913931131362915, + "learning_rate": 3.2370370370370376e-05, + "loss": 0.1497, + "step": 15650 + }, + { + "epoch": 41.76, + "grad_norm": 1.0688273906707764, + "learning_rate": 3.235555555555556e-05, + "loss": 0.1394, + "step": 15660 + }, + { + "epoch": 41.78666666666667, + "grad_norm": 0.5799959301948547, + "learning_rate": 3.2340740740740744e-05, + "loss": 0.1422, + "step": 15670 + }, + { + "epoch": 41.81333333333333, + "grad_norm": 0.6872878670692444, + "learning_rate": 3.2325925925925925e-05, + "loss": 0.1249, + "step": 15680 + }, + { + "epoch": 41.84, + "grad_norm": 0.5501497387886047, + "learning_rate": 3.231111111111111e-05, + "loss": 0.1369, + "step": 15690 + }, + { + "epoch": 41.86666666666667, + "grad_norm": 1.377920150756836, + "learning_rate": 3.22962962962963e-05, + "loss": 0.129, + "step": 15700 + }, + { + "epoch": 41.89333333333333, + "grad_norm": 0.6324396729469299, + "learning_rate": 3.228148148148149e-05, + "loss": 0.1249, + "step": 15710 + }, + { + "epoch": 41.92, + "grad_norm": 0.8195778131484985, + "learning_rate": 3.226666666666667e-05, + "loss": 0.1397, + "step": 15720 + }, + { + "epoch": 41.946666666666665, + "grad_norm": 0.9175658822059631, + "learning_rate": 3.2251851851851855e-05, + "loss": 0.1083, + "step": 15730 + }, + { + "epoch": 41.973333333333336, + "grad_norm": 0.2916625738143921, + "learning_rate": 3.2237037037037035e-05, + "loss": 0.1445, + "step": 15740 + }, + { + "epoch": 42.0, + "grad_norm": 0.8220896124839783, + "learning_rate": 3.222222222222223e-05, + "loss": 0.1035, + "step": 15750 + }, + { + "epoch": 42.0, + "eval_accuracy": 0.9038333333333334, + "eval_loss": 0.33113691210746765, + "eval_runtime": 251.3411, + "eval_samples_per_second": 47.744, + "eval_steps_per_second": 1.492, + "step": 15750 + }, + { + "epoch": 42.026666666666664, + "grad_norm": 1.1726385354995728, + "learning_rate": 3.220740740740741e-05, + "loss": 0.1431, + "step": 15760 + }, + { + "epoch": 42.053333333333335, + "grad_norm": 0.38585272431373596, + "learning_rate": 3.21925925925926e-05, + "loss": 0.1129, + "step": 15770 + }, + { + "epoch": 42.08, + "grad_norm": 0.67658531665802, + "learning_rate": 3.217777777777778e-05, + "loss": 0.1139, + "step": 15780 + }, + { + "epoch": 42.10666666666667, + "grad_norm": 0.6816834211349487, + "learning_rate": 3.2162962962962965e-05, + "loss": 0.138, + "step": 15790 + }, + { + "epoch": 42.13333333333333, + "grad_norm": 0.5829227566719055, + "learning_rate": 3.214814814814815e-05, + "loss": 0.1126, + "step": 15800 + }, + { + "epoch": 42.16, + "grad_norm": 0.5939732789993286, + "learning_rate": 3.213333333333334e-05, + "loss": 0.1113, + "step": 15810 + }, + { + "epoch": 42.18666666666667, + "grad_norm": 1.0321975946426392, + "learning_rate": 3.211851851851852e-05, + "loss": 0.1008, + "step": 15820 + }, + { + "epoch": 42.21333333333333, + "grad_norm": 0.6373071074485779, + "learning_rate": 3.21037037037037e-05, + "loss": 0.1099, + "step": 15830 + }, + { + "epoch": 42.24, + "grad_norm": 0.9280217885971069, + "learning_rate": 3.208888888888889e-05, + "loss": 0.1208, + "step": 15840 + }, + { + "epoch": 42.266666666666666, + "grad_norm": 0.8970444798469543, + "learning_rate": 3.2074074074074075e-05, + "loss": 0.1379, + "step": 15850 + }, + { + "epoch": 42.29333333333334, + "grad_norm": 0.5511905550956726, + "learning_rate": 3.205925925925926e-05, + "loss": 0.126, + "step": 15860 + }, + { + "epoch": 42.32, + "grad_norm": 1.341580867767334, + "learning_rate": 3.204444444444444e-05, + "loss": 0.1377, + "step": 15870 + }, + { + "epoch": 42.346666666666664, + "grad_norm": 1.2140607833862305, + "learning_rate": 3.202962962962963e-05, + "loss": 0.1148, + "step": 15880 + }, + { + "epoch": 42.373333333333335, + "grad_norm": 0.8168236613273621, + "learning_rate": 3.201481481481481e-05, + "loss": 0.1231, + "step": 15890 + }, + { + "epoch": 42.4, + "grad_norm": 0.847783625125885, + "learning_rate": 3.2000000000000005e-05, + "loss": 0.1235, + "step": 15900 + }, + { + "epoch": 42.42666666666667, + "grad_norm": 0.6168175339698792, + "learning_rate": 3.1985185185185186e-05, + "loss": 0.1168, + "step": 15910 + }, + { + "epoch": 42.45333333333333, + "grad_norm": 1.0434849262237549, + "learning_rate": 3.197037037037037e-05, + "loss": 0.1342, + "step": 15920 + }, + { + "epoch": 42.48, + "grad_norm": 0.7262018322944641, + "learning_rate": 3.1955555555555554e-05, + "loss": 0.1159, + "step": 15930 + }, + { + "epoch": 42.50666666666667, + "grad_norm": 0.5176212787628174, + "learning_rate": 3.194074074074074e-05, + "loss": 0.106, + "step": 15940 + }, + { + "epoch": 42.53333333333333, + "grad_norm": 0.7773478031158447, + "learning_rate": 3.192592592592593e-05, + "loss": 0.1247, + "step": 15950 + }, + { + "epoch": 42.56, + "grad_norm": 1.5310711860656738, + "learning_rate": 3.1911111111111116e-05, + "loss": 0.1454, + "step": 15960 + }, + { + "epoch": 42.586666666666666, + "grad_norm": 0.5892236828804016, + "learning_rate": 3.1896296296296296e-05, + "loss": 0.1073, + "step": 15970 + }, + { + "epoch": 42.61333333333333, + "grad_norm": 0.5777662396430969, + "learning_rate": 3.1881481481481484e-05, + "loss": 0.1093, + "step": 15980 + }, + { + "epoch": 42.64, + "grad_norm": 1.961869478225708, + "learning_rate": 3.1866666666666664e-05, + "loss": 0.1189, + "step": 15990 + }, + { + "epoch": 42.666666666666664, + "grad_norm": 0.6930792927742004, + "learning_rate": 3.185185185185185e-05, + "loss": 0.1329, + "step": 16000 + }, + { + "epoch": 42.693333333333335, + "grad_norm": 0.9752848148345947, + "learning_rate": 3.183703703703704e-05, + "loss": 0.1057, + "step": 16010 + }, + { + "epoch": 42.72, + "grad_norm": 0.5700481534004211, + "learning_rate": 3.1822222222222226e-05, + "loss": 0.1022, + "step": 16020 + }, + { + "epoch": 42.74666666666667, + "grad_norm": 0.489149808883667, + "learning_rate": 3.180740740740741e-05, + "loss": 0.1124, + "step": 16030 + }, + { + "epoch": 42.77333333333333, + "grad_norm": 0.763787031173706, + "learning_rate": 3.1792592592592594e-05, + "loss": 0.1159, + "step": 16040 + }, + { + "epoch": 42.8, + "grad_norm": 0.8953835964202881, + "learning_rate": 3.177777777777778e-05, + "loss": 0.1381, + "step": 16050 + }, + { + "epoch": 42.82666666666667, + "grad_norm": 0.7403663992881775, + "learning_rate": 3.176296296296297e-05, + "loss": 0.1362, + "step": 16060 + }, + { + "epoch": 42.85333333333333, + "grad_norm": 0.8902115225791931, + "learning_rate": 3.174814814814815e-05, + "loss": 0.1306, + "step": 16070 + }, + { + "epoch": 42.88, + "grad_norm": 1.294203519821167, + "learning_rate": 3.173333333333334e-05, + "loss": 0.1145, + "step": 16080 + }, + { + "epoch": 42.906666666666666, + "grad_norm": 0.7054836750030518, + "learning_rate": 3.171851851851852e-05, + "loss": 0.1219, + "step": 16090 + }, + { + "epoch": 42.93333333333333, + "grad_norm": 1.0014545917510986, + "learning_rate": 3.1703703703703705e-05, + "loss": 0.1166, + "step": 16100 + }, + { + "epoch": 42.96, + "grad_norm": 0.9486914873123169, + "learning_rate": 3.168888888888889e-05, + "loss": 0.1716, + "step": 16110 + }, + { + "epoch": 42.986666666666665, + "grad_norm": 0.6005178093910217, + "learning_rate": 3.167407407407408e-05, + "loss": 0.1343, + "step": 16120 + }, + { + "epoch": 43.0, + "eval_accuracy": 0.9003333333333333, + "eval_loss": 0.3330574035644531, + "eval_runtime": 251.3902, + "eval_samples_per_second": 47.735, + "eval_steps_per_second": 1.492, + "step": 16125 + }, + { + "epoch": 43.013333333333335, + "grad_norm": 0.9363821744918823, + "learning_rate": 3.165925925925926e-05, + "loss": 0.1305, + "step": 16130 + }, + { + "epoch": 43.04, + "grad_norm": 0.7136745452880859, + "learning_rate": 3.164444444444444e-05, + "loss": 0.1063, + "step": 16140 + }, + { + "epoch": 43.06666666666667, + "grad_norm": 0.6924651861190796, + "learning_rate": 3.1629629629629634e-05, + "loss": 0.1109, + "step": 16150 + }, + { + "epoch": 43.093333333333334, + "grad_norm": 0.9386874437332153, + "learning_rate": 3.1614814814814815e-05, + "loss": 0.1282, + "step": 16160 + }, + { + "epoch": 43.12, + "grad_norm": 0.7837782502174377, + "learning_rate": 3.16e-05, + "loss": 0.128, + "step": 16170 + }, + { + "epoch": 43.14666666666667, + "grad_norm": 0.8381037712097168, + "learning_rate": 3.158518518518518e-05, + "loss": 0.1089, + "step": 16180 + }, + { + "epoch": 43.17333333333333, + "grad_norm": 0.6816710829734802, + "learning_rate": 3.157037037037037e-05, + "loss": 0.1171, + "step": 16190 + }, + { + "epoch": 43.2, + "grad_norm": 1.027929663658142, + "learning_rate": 3.155555555555556e-05, + "loss": 0.1271, + "step": 16200 + }, + { + "epoch": 43.22666666666667, + "grad_norm": 0.5163158178329468, + "learning_rate": 3.1540740740740745e-05, + "loss": 0.1458, + "step": 16210 + }, + { + "epoch": 43.25333333333333, + "grad_norm": 0.49551698565483093, + "learning_rate": 3.1525925925925926e-05, + "loss": 0.1271, + "step": 16220 + }, + { + "epoch": 43.28, + "grad_norm": 0.8512800931930542, + "learning_rate": 3.151111111111111e-05, + "loss": 0.1304, + "step": 16230 + }, + { + "epoch": 43.306666666666665, + "grad_norm": 0.5508648157119751, + "learning_rate": 3.1496296296296293e-05, + "loss": 0.136, + "step": 16240 + }, + { + "epoch": 43.333333333333336, + "grad_norm": 1.124014973640442, + "learning_rate": 3.148148148148148e-05, + "loss": 0.1127, + "step": 16250 + }, + { + "epoch": 43.36, + "grad_norm": 1.2825756072998047, + "learning_rate": 3.146666666666667e-05, + "loss": 0.155, + "step": 16260 + }, + { + "epoch": 43.38666666666666, + "grad_norm": 1.109536051750183, + "learning_rate": 3.1451851851851855e-05, + "loss": 0.1466, + "step": 16270 + }, + { + "epoch": 43.413333333333334, + "grad_norm": 0.8152025938034058, + "learning_rate": 3.1437037037037036e-05, + "loss": 0.1314, + "step": 16280 + }, + { + "epoch": 43.44, + "grad_norm": 1.2142354249954224, + "learning_rate": 3.142222222222222e-05, + "loss": 0.1304, + "step": 16290 + }, + { + "epoch": 43.46666666666667, + "grad_norm": 1.314323902130127, + "learning_rate": 3.140740740740741e-05, + "loss": 0.1455, + "step": 16300 + }, + { + "epoch": 43.49333333333333, + "grad_norm": 0.6168428063392639, + "learning_rate": 3.13925925925926e-05, + "loss": 0.1239, + "step": 16310 + }, + { + "epoch": 43.52, + "grad_norm": 0.9281080961227417, + "learning_rate": 3.137777777777778e-05, + "loss": 0.1195, + "step": 16320 + }, + { + "epoch": 43.54666666666667, + "grad_norm": 0.6874710321426392, + "learning_rate": 3.1362962962962966e-05, + "loss": 0.118, + "step": 16330 + }, + { + "epoch": 43.57333333333333, + "grad_norm": 0.7968535423278809, + "learning_rate": 3.1348148148148146e-05, + "loss": 0.1173, + "step": 16340 + }, + { + "epoch": 43.6, + "grad_norm": 0.8030575513839722, + "learning_rate": 3.1333333333333334e-05, + "loss": 0.1416, + "step": 16350 + }, + { + "epoch": 43.626666666666665, + "grad_norm": 0.539986252784729, + "learning_rate": 3.131851851851852e-05, + "loss": 0.1132, + "step": 16360 + }, + { + "epoch": 43.653333333333336, + "grad_norm": 0.7112353444099426, + "learning_rate": 3.130370370370371e-05, + "loss": 0.1214, + "step": 16370 + }, + { + "epoch": 43.68, + "grad_norm": 0.751925528049469, + "learning_rate": 3.128888888888889e-05, + "loss": 0.1227, + "step": 16380 + }, + { + "epoch": 43.70666666666666, + "grad_norm": 1.0294158458709717, + "learning_rate": 3.1274074074074076e-05, + "loss": 0.1116, + "step": 16390 + }, + { + "epoch": 43.733333333333334, + "grad_norm": 0.9141790270805359, + "learning_rate": 3.1259259259259264e-05, + "loss": 0.133, + "step": 16400 + }, + { + "epoch": 43.76, + "grad_norm": 0.5291667580604553, + "learning_rate": 3.124444444444445e-05, + "loss": 0.1198, + "step": 16410 + }, + { + "epoch": 43.78666666666667, + "grad_norm": 0.7802924513816833, + "learning_rate": 3.122962962962963e-05, + "loss": 0.1135, + "step": 16420 + }, + { + "epoch": 43.81333333333333, + "grad_norm": 0.928758442401886, + "learning_rate": 3.121481481481482e-05, + "loss": 0.119, + "step": 16430 + }, + { + "epoch": 43.84, + "grad_norm": 0.4844142496585846, + "learning_rate": 3.12e-05, + "loss": 0.0992, + "step": 16440 + }, + { + "epoch": 43.86666666666667, + "grad_norm": 0.7611650824546814, + "learning_rate": 3.118518518518519e-05, + "loss": 0.1087, + "step": 16450 + }, + { + "epoch": 43.89333333333333, + "grad_norm": 1.0403081178665161, + "learning_rate": 3.1170370370370374e-05, + "loss": 0.14, + "step": 16460 + }, + { + "epoch": 43.92, + "grad_norm": 0.540250301361084, + "learning_rate": 3.1155555555555555e-05, + "loss": 0.1101, + "step": 16470 + }, + { + "epoch": 43.946666666666665, + "grad_norm": 0.8601893782615662, + "learning_rate": 3.114074074074074e-05, + "loss": 0.1198, + "step": 16480 + }, + { + "epoch": 43.973333333333336, + "grad_norm": 0.7683752179145813, + "learning_rate": 3.112592592592592e-05, + "loss": 0.1193, + "step": 16490 + }, + { + "epoch": 44.0, + "grad_norm": 0.9233737587928772, + "learning_rate": 3.111111111111111e-05, + "loss": 0.1163, + "step": 16500 + }, + { + "epoch": 44.0, + "eval_accuracy": 0.901, + "eval_loss": 0.3505781292915344, + "eval_runtime": 251.3695, + "eval_samples_per_second": 47.738, + "eval_steps_per_second": 1.492, + "step": 16500 + }, + { + "epoch": 44.026666666666664, + "grad_norm": 0.5083851218223572, + "learning_rate": 3.10962962962963e-05, + "loss": 0.1093, + "step": 16510 + }, + { + "epoch": 44.053333333333335, + "grad_norm": 0.7215377688407898, + "learning_rate": 3.1081481481481485e-05, + "loss": 0.1259, + "step": 16520 + }, + { + "epoch": 44.08, + "grad_norm": 1.2080796957015991, + "learning_rate": 3.1066666666666665e-05, + "loss": 0.1196, + "step": 16530 + }, + { + "epoch": 44.10666666666667, + "grad_norm": 0.9492436051368713, + "learning_rate": 3.105185185185185e-05, + "loss": 0.1013, + "step": 16540 + }, + { + "epoch": 44.13333333333333, + "grad_norm": 1.0404207706451416, + "learning_rate": 3.103703703703704e-05, + "loss": 0.1324, + "step": 16550 + }, + { + "epoch": 44.16, + "grad_norm": 0.7048701643943787, + "learning_rate": 3.102222222222223e-05, + "loss": 0.1182, + "step": 16560 + }, + { + "epoch": 44.18666666666667, + "grad_norm": 0.44903719425201416, + "learning_rate": 3.100740740740741e-05, + "loss": 0.114, + "step": 16570 + }, + { + "epoch": 44.21333333333333, + "grad_norm": 0.8988425731658936, + "learning_rate": 3.0992592592592595e-05, + "loss": 0.1153, + "step": 16580 + }, + { + "epoch": 44.24, + "grad_norm": 0.5105049014091492, + "learning_rate": 3.0977777777777776e-05, + "loss": 0.1203, + "step": 16590 + }, + { + "epoch": 44.266666666666666, + "grad_norm": 0.8300052881240845, + "learning_rate": 3.096296296296296e-05, + "loss": 0.1078, + "step": 16600 + }, + { + "epoch": 44.29333333333334, + "grad_norm": 0.7175353765487671, + "learning_rate": 3.094814814814815e-05, + "loss": 0.1234, + "step": 16610 + }, + { + "epoch": 44.32, + "grad_norm": 1.221085548400879, + "learning_rate": 3.093333333333334e-05, + "loss": 0.1305, + "step": 16620 + }, + { + "epoch": 44.346666666666664, + "grad_norm": 0.6117452383041382, + "learning_rate": 3.091851851851852e-05, + "loss": 0.1561, + "step": 16630 + }, + { + "epoch": 44.373333333333335, + "grad_norm": 0.663759708404541, + "learning_rate": 3.0903703703703705e-05, + "loss": 0.1323, + "step": 16640 + }, + { + "epoch": 44.4, + "grad_norm": 0.5485753417015076, + "learning_rate": 3.088888888888889e-05, + "loss": 0.1055, + "step": 16650 + }, + { + "epoch": 44.42666666666667, + "grad_norm": 0.697367787361145, + "learning_rate": 3.087407407407408e-05, + "loss": 0.109, + "step": 16660 + }, + { + "epoch": 44.45333333333333, + "grad_norm": 0.9931197762489319, + "learning_rate": 3.085925925925926e-05, + "loss": 0.1174, + "step": 16670 + }, + { + "epoch": 44.48, + "grad_norm": 0.907964289188385, + "learning_rate": 3.084444444444445e-05, + "loss": 0.1087, + "step": 16680 + }, + { + "epoch": 44.50666666666667, + "grad_norm": 0.6099154353141785, + "learning_rate": 3.082962962962963e-05, + "loss": 0.1358, + "step": 16690 + }, + { + "epoch": 44.53333333333333, + "grad_norm": 1.640714406967163, + "learning_rate": 3.0814814814814816e-05, + "loss": 0.1356, + "step": 16700 + }, + { + "epoch": 44.56, + "grad_norm": 0.6792948246002197, + "learning_rate": 3.08e-05, + "loss": 0.104, + "step": 16710 + }, + { + "epoch": 44.586666666666666, + "grad_norm": 1.2282480001449585, + "learning_rate": 3.078518518518519e-05, + "loss": 0.1553, + "step": 16720 + }, + { + "epoch": 44.61333333333333, + "grad_norm": 1.1024445295333862, + "learning_rate": 3.077037037037037e-05, + "loss": 0.1188, + "step": 16730 + }, + { + "epoch": 44.64, + "grad_norm": 0.7203577756881714, + "learning_rate": 3.075555555555556e-05, + "loss": 0.1158, + "step": 16740 + }, + { + "epoch": 44.666666666666664, + "grad_norm": 1.1606868505477905, + "learning_rate": 3.074074074074074e-05, + "loss": 0.1557, + "step": 16750 + }, + { + "epoch": 44.693333333333335, + "grad_norm": 0.5337738394737244, + "learning_rate": 3.0725925925925926e-05, + "loss": 0.1091, + "step": 16760 + }, + { + "epoch": 44.72, + "grad_norm": 0.6471222639083862, + "learning_rate": 3.0711111111111114e-05, + "loss": 0.1209, + "step": 16770 + }, + { + "epoch": 44.74666666666667, + "grad_norm": 0.3534478545188904, + "learning_rate": 3.0696296296296294e-05, + "loss": 0.1133, + "step": 16780 + }, + { + "epoch": 44.77333333333333, + "grad_norm": 0.6215720772743225, + "learning_rate": 3.068148148148148e-05, + "loss": 0.1229, + "step": 16790 + }, + { + "epoch": 44.8, + "grad_norm": 0.9212892651557922, + "learning_rate": 3.066666666666667e-05, + "loss": 0.1408, + "step": 16800 + }, + { + "epoch": 44.82666666666667, + "grad_norm": 1.1198707818984985, + "learning_rate": 3.0651851851851856e-05, + "loss": 0.1115, + "step": 16810 + }, + { + "epoch": 44.85333333333333, + "grad_norm": 0.8587360978126526, + "learning_rate": 3.063703703703704e-05, + "loss": 0.1105, + "step": 16820 + }, + { + "epoch": 44.88, + "grad_norm": 0.8749282956123352, + "learning_rate": 3.0622222222222224e-05, + "loss": 0.1271, + "step": 16830 + }, + { + "epoch": 44.906666666666666, + "grad_norm": 0.6292451024055481, + "learning_rate": 3.0607407407407405e-05, + "loss": 0.1412, + "step": 16840 + }, + { + "epoch": 44.93333333333333, + "grad_norm": 1.2952896356582642, + "learning_rate": 3.059259259259259e-05, + "loss": 0.1195, + "step": 16850 + }, + { + "epoch": 44.96, + "grad_norm": 0.2476649284362793, + "learning_rate": 3.057777777777778e-05, + "loss": 0.1057, + "step": 16860 + }, + { + "epoch": 44.986666666666665, + "grad_norm": 0.6779937744140625, + "learning_rate": 3.056296296296297e-05, + "loss": 0.1214, + "step": 16870 + }, + { + "epoch": 45.0, + "eval_accuracy": 0.9005, + "eval_loss": 0.34354647994041443, + "eval_runtime": 253.5681, + "eval_samples_per_second": 47.325, + "eval_steps_per_second": 1.479, + "step": 16875 + }, + { + "epoch": 45.013333333333335, + "grad_norm": 1.2206398248672485, + "learning_rate": 3.054814814814815e-05, + "loss": 0.1087, + "step": 16880 + }, + { + "epoch": 45.04, + "grad_norm": 1.1203272342681885, + "learning_rate": 3.0533333333333335e-05, + "loss": 0.1166, + "step": 16890 + }, + { + "epoch": 45.06666666666667, + "grad_norm": 0.9529656171798706, + "learning_rate": 3.0518518518518515e-05, + "loss": 0.1307, + "step": 16900 + }, + { + "epoch": 45.093333333333334, + "grad_norm": 0.7583413124084473, + "learning_rate": 3.0503703703703706e-05, + "loss": 0.1311, + "step": 16910 + }, + { + "epoch": 45.12, + "grad_norm": 0.9846914410591125, + "learning_rate": 3.048888888888889e-05, + "loss": 0.1384, + "step": 16920 + }, + { + "epoch": 45.14666666666667, + "grad_norm": 0.7451393604278564, + "learning_rate": 3.0474074074074077e-05, + "loss": 0.1238, + "step": 16930 + }, + { + "epoch": 45.17333333333333, + "grad_norm": 0.9685015082359314, + "learning_rate": 3.045925925925926e-05, + "loss": 0.1319, + "step": 16940 + }, + { + "epoch": 45.2, + "grad_norm": 0.796222448348999, + "learning_rate": 3.044444444444445e-05, + "loss": 0.1306, + "step": 16950 + }, + { + "epoch": 45.22666666666667, + "grad_norm": 0.5613497495651245, + "learning_rate": 3.042962962962963e-05, + "loss": 0.1302, + "step": 16960 + }, + { + "epoch": 45.25333333333333, + "grad_norm": 0.46396738290786743, + "learning_rate": 3.041481481481482e-05, + "loss": 0.1031, + "step": 16970 + }, + { + "epoch": 45.28, + "grad_norm": 1.0692193508148193, + "learning_rate": 3.04e-05, + "loss": 0.1222, + "step": 16980 + }, + { + "epoch": 45.306666666666665, + "grad_norm": 0.6849391460418701, + "learning_rate": 3.0385185185185188e-05, + "loss": 0.1289, + "step": 16990 + }, + { + "epoch": 45.333333333333336, + "grad_norm": 0.5194891095161438, + "learning_rate": 3.037037037037037e-05, + "loss": 0.1263, + "step": 17000 + }, + { + "epoch": 45.36, + "grad_norm": 0.9299823641777039, + "learning_rate": 3.035555555555556e-05, + "loss": 0.1378, + "step": 17010 + }, + { + "epoch": 45.38666666666666, + "grad_norm": 0.9953082799911499, + "learning_rate": 3.0340740740740743e-05, + "loss": 0.132, + "step": 17020 + }, + { + "epoch": 45.413333333333334, + "grad_norm": 0.5512344837188721, + "learning_rate": 3.032592592592593e-05, + "loss": 0.1037, + "step": 17030 + }, + { + "epoch": 45.44, + "grad_norm": 0.5295369625091553, + "learning_rate": 3.031111111111111e-05, + "loss": 0.1069, + "step": 17040 + }, + { + "epoch": 45.46666666666667, + "grad_norm": 1.2764853239059448, + "learning_rate": 3.02962962962963e-05, + "loss": 0.1027, + "step": 17050 + }, + { + "epoch": 45.49333333333333, + "grad_norm": 0.9638668894767761, + "learning_rate": 3.0281481481481482e-05, + "loss": 0.1159, + "step": 17060 + }, + { + "epoch": 45.52, + "grad_norm": 1.0061888694763184, + "learning_rate": 3.0266666666666666e-05, + "loss": 0.1136, + "step": 17070 + }, + { + "epoch": 45.54666666666667, + "grad_norm": 0.44770029187202454, + "learning_rate": 3.0251851851851853e-05, + "loss": 0.1006, + "step": 17080 + }, + { + "epoch": 45.57333333333333, + "grad_norm": 0.6145328283309937, + "learning_rate": 3.0237037037037037e-05, + "loss": 0.0952, + "step": 17090 + }, + { + "epoch": 45.6, + "grad_norm": 0.5946821570396423, + "learning_rate": 3.0222222222222225e-05, + "loss": 0.146, + "step": 17100 + }, + { + "epoch": 45.626666666666665, + "grad_norm": 0.9481339454650879, + "learning_rate": 3.0207407407407405e-05, + "loss": 0.1024, + "step": 17110 + }, + { + "epoch": 45.653333333333336, + "grad_norm": 0.9362908005714417, + "learning_rate": 3.0192592592592596e-05, + "loss": 0.1087, + "step": 17120 + }, + { + "epoch": 45.68, + "grad_norm": 0.9882051348686218, + "learning_rate": 3.0177777777777776e-05, + "loss": 0.1276, + "step": 17130 + }, + { + "epoch": 45.70666666666666, + "grad_norm": 1.1000326871871948, + "learning_rate": 3.0162962962962964e-05, + "loss": 0.1049, + "step": 17140 + }, + { + "epoch": 45.733333333333334, + "grad_norm": 0.7420867681503296, + "learning_rate": 3.0148148148148148e-05, + "loss": 0.1146, + "step": 17150 + }, + { + "epoch": 45.76, + "grad_norm": 0.5254116058349609, + "learning_rate": 3.0133333333333335e-05, + "loss": 0.1121, + "step": 17160 + }, + { + "epoch": 45.78666666666667, + "grad_norm": 0.7504268288612366, + "learning_rate": 3.011851851851852e-05, + "loss": 0.1367, + "step": 17170 + }, + { + "epoch": 45.81333333333333, + "grad_norm": 0.5725244283676147, + "learning_rate": 3.0103703703703706e-05, + "loss": 0.1522, + "step": 17180 + }, + { + "epoch": 45.84, + "grad_norm": 0.6966990232467651, + "learning_rate": 3.008888888888889e-05, + "loss": 0.12, + "step": 17190 + }, + { + "epoch": 45.86666666666667, + "grad_norm": 1.149040699005127, + "learning_rate": 3.0074074074074078e-05, + "loss": 0.1066, + "step": 17200 + }, + { + "epoch": 45.89333333333333, + "grad_norm": 0.9212325215339661, + "learning_rate": 3.0059259259259258e-05, + "loss": 0.1176, + "step": 17210 + }, + { + "epoch": 45.92, + "grad_norm": 0.48472830653190613, + "learning_rate": 3.004444444444445e-05, + "loss": 0.1076, + "step": 17220 + }, + { + "epoch": 45.946666666666665, + "grad_norm": 0.621033787727356, + "learning_rate": 3.002962962962963e-05, + "loss": 0.1047, + "step": 17230 + }, + { + "epoch": 45.973333333333336, + "grad_norm": 1.1546809673309326, + "learning_rate": 3.0014814814814817e-05, + "loss": 0.0987, + "step": 17240 + }, + { + "epoch": 46.0, + "grad_norm": 0.5619125366210938, + "learning_rate": 3e-05, + "loss": 0.1055, + "step": 17250 + }, + { + "epoch": 46.0, + "eval_accuracy": 0.9018333333333334, + "eval_loss": 0.3587205410003662, + "eval_runtime": 253.8347, + "eval_samples_per_second": 47.275, + "eval_steps_per_second": 1.477, + "step": 17250 + }, + { + "epoch": 46.026666666666664, + "grad_norm": 0.7461891174316406, + "learning_rate": 2.9985185185185188e-05, + "loss": 0.155, + "step": 17260 + }, + { + "epoch": 46.053333333333335, + "grad_norm": 0.5234472155570984, + "learning_rate": 2.9970370370370372e-05, + "loss": 0.111, + "step": 17270 + }, + { + "epoch": 46.08, + "grad_norm": 0.43223243951797485, + "learning_rate": 2.995555555555556e-05, + "loss": 0.0947, + "step": 17280 + }, + { + "epoch": 46.10666666666667, + "grad_norm": 0.7777111530303955, + "learning_rate": 2.994074074074074e-05, + "loss": 0.1127, + "step": 17290 + }, + { + "epoch": 46.13333333333333, + "grad_norm": 0.8766204714775085, + "learning_rate": 2.992592592592593e-05, + "loss": 0.124, + "step": 17300 + }, + { + "epoch": 46.16, + "grad_norm": 0.5274333357810974, + "learning_rate": 2.991111111111111e-05, + "loss": 0.121, + "step": 17310 + }, + { + "epoch": 46.18666666666667, + "grad_norm": 0.4555768072605133, + "learning_rate": 2.98962962962963e-05, + "loss": 0.1103, + "step": 17320 + }, + { + "epoch": 46.21333333333333, + "grad_norm": 0.6402236819267273, + "learning_rate": 2.9881481481481482e-05, + "loss": 0.0875, + "step": 17330 + }, + { + "epoch": 46.24, + "grad_norm": 0.6981205344200134, + "learning_rate": 2.986666666666667e-05, + "loss": 0.1146, + "step": 17340 + }, + { + "epoch": 46.266666666666666, + "grad_norm": 0.4717854857444763, + "learning_rate": 2.9851851851851854e-05, + "loss": 0.1087, + "step": 17350 + }, + { + "epoch": 46.29333333333334, + "grad_norm": 0.7485230565071106, + "learning_rate": 2.983703703703704e-05, + "loss": 0.1358, + "step": 17360 + }, + { + "epoch": 46.32, + "grad_norm": 0.9594528675079346, + "learning_rate": 2.9822222222222225e-05, + "loss": 0.0974, + "step": 17370 + }, + { + "epoch": 46.346666666666664, + "grad_norm": 0.4352808892726898, + "learning_rate": 2.9807407407407406e-05, + "loss": 0.1207, + "step": 17380 + }, + { + "epoch": 46.373333333333335, + "grad_norm": 0.753587007522583, + "learning_rate": 2.9792592592592593e-05, + "loss": 0.1167, + "step": 17390 + }, + { + "epoch": 46.4, + "grad_norm": 0.6406862735748291, + "learning_rate": 2.9777777777777777e-05, + "loss": 0.1092, + "step": 17400 + }, + { + "epoch": 46.42666666666667, + "grad_norm": 0.8874475955963135, + "learning_rate": 2.9762962962962964e-05, + "loss": 0.1305, + "step": 17410 + }, + { + "epoch": 46.45333333333333, + "grad_norm": 0.9711248874664307, + "learning_rate": 2.9748148148148148e-05, + "loss": 0.1489, + "step": 17420 + }, + { + "epoch": 46.48, + "grad_norm": 0.493867427110672, + "learning_rate": 2.9733333333333336e-05, + "loss": 0.1183, + "step": 17430 + }, + { + "epoch": 46.50666666666667, + "grad_norm": 0.5929214954376221, + "learning_rate": 2.9718518518518516e-05, + "loss": 0.1022, + "step": 17440 + }, + { + "epoch": 46.53333333333333, + "grad_norm": 0.5925045609474182, + "learning_rate": 2.9703703703703707e-05, + "loss": 0.111, + "step": 17450 + }, + { + "epoch": 46.56, + "grad_norm": 0.7654463648796082, + "learning_rate": 2.9688888888888887e-05, + "loss": 0.1015, + "step": 17460 + }, + { + "epoch": 46.586666666666666, + "grad_norm": 0.770209014415741, + "learning_rate": 2.9674074074074075e-05, + "loss": 0.1006, + "step": 17470 + }, + { + "epoch": 46.61333333333333, + "grad_norm": 0.5277777314186096, + "learning_rate": 2.965925925925926e-05, + "loss": 0.1142, + "step": 17480 + }, + { + "epoch": 46.64, + "grad_norm": 0.7141275405883789, + "learning_rate": 2.9644444444444446e-05, + "loss": 0.1225, + "step": 17490 + }, + { + "epoch": 46.666666666666664, + "grad_norm": 1.0017422437667847, + "learning_rate": 2.962962962962963e-05, + "loss": 0.1032, + "step": 17500 + }, + { + "epoch": 46.693333333333335, + "grad_norm": 0.8265091776847839, + "learning_rate": 2.9614814814814817e-05, + "loss": 0.1121, + "step": 17510 + }, + { + "epoch": 46.72, + "grad_norm": 0.7294397354125977, + "learning_rate": 2.96e-05, + "loss": 0.1081, + "step": 17520 + }, + { + "epoch": 46.74666666666667, + "grad_norm": 1.0573780536651611, + "learning_rate": 2.958518518518519e-05, + "loss": 0.1345, + "step": 17530 + }, + { + "epoch": 46.77333333333333, + "grad_norm": 1.153691291809082, + "learning_rate": 2.957037037037037e-05, + "loss": 0.1243, + "step": 17540 + }, + { + "epoch": 46.8, + "grad_norm": 0.9743576645851135, + "learning_rate": 2.955555555555556e-05, + "loss": 0.1166, + "step": 17550 + }, + { + "epoch": 46.82666666666667, + "grad_norm": 0.5775934457778931, + "learning_rate": 2.954074074074074e-05, + "loss": 0.1194, + "step": 17560 + }, + { + "epoch": 46.85333333333333, + "grad_norm": 0.4566071927547455, + "learning_rate": 2.9525925925925928e-05, + "loss": 0.1293, + "step": 17570 + }, + { + "epoch": 46.88, + "grad_norm": 1.1192882061004639, + "learning_rate": 2.951111111111111e-05, + "loss": 0.1064, + "step": 17580 + }, + { + "epoch": 46.906666666666666, + "grad_norm": 0.7127460241317749, + "learning_rate": 2.94962962962963e-05, + "loss": 0.1392, + "step": 17590 + }, + { + "epoch": 46.93333333333333, + "grad_norm": 0.718596339225769, + "learning_rate": 2.9481481481481483e-05, + "loss": 0.1172, + "step": 17600 + }, + { + "epoch": 46.96, + "grad_norm": 0.8184888362884521, + "learning_rate": 2.946666666666667e-05, + "loss": 0.122, + "step": 17610 + }, + { + "epoch": 46.986666666666665, + "grad_norm": 0.4526049792766571, + "learning_rate": 2.9451851851851854e-05, + "loss": 0.1097, + "step": 17620 + }, + { + "epoch": 47.0, + "eval_accuracy": 0.9020833333333333, + "eval_loss": 0.3388381004333496, + "eval_runtime": 253.8853, + "eval_samples_per_second": 47.265, + "eval_steps_per_second": 1.477, + "step": 17625 + }, + { + "epoch": 47.013333333333335, + "grad_norm": 0.7311096787452698, + "learning_rate": 2.943703703703704e-05, + "loss": 0.1226, + "step": 17630 + }, + { + "epoch": 47.04, + "grad_norm": 0.46326684951782227, + "learning_rate": 2.9422222222222222e-05, + "loss": 0.1057, + "step": 17640 + }, + { + "epoch": 47.06666666666667, + "grad_norm": 0.7768539190292358, + "learning_rate": 2.9407407407407413e-05, + "loss": 0.1137, + "step": 17650 + }, + { + "epoch": 47.093333333333334, + "grad_norm": 0.7905116677284241, + "learning_rate": 2.9392592592592593e-05, + "loss": 0.1402, + "step": 17660 + }, + { + "epoch": 47.12, + "grad_norm": 1.0095783472061157, + "learning_rate": 2.937777777777778e-05, + "loss": 0.1094, + "step": 17670 + }, + { + "epoch": 47.14666666666667, + "grad_norm": 0.7040125131607056, + "learning_rate": 2.9362962962962965e-05, + "loss": 0.1226, + "step": 17680 + }, + { + "epoch": 47.17333333333333, + "grad_norm": 1.0941599607467651, + "learning_rate": 2.9348148148148145e-05, + "loss": 0.1191, + "step": 17690 + }, + { + "epoch": 47.2, + "grad_norm": 0.590173602104187, + "learning_rate": 2.9333333333333336e-05, + "loss": 0.1294, + "step": 17700 + }, + { + "epoch": 47.22666666666667, + "grad_norm": 0.5932841897010803, + "learning_rate": 2.9318518518518517e-05, + "loss": 0.1244, + "step": 17710 + }, + { + "epoch": 47.25333333333333, + "grad_norm": 0.6381416320800781, + "learning_rate": 2.9303703703703704e-05, + "loss": 0.1247, + "step": 17720 + }, + { + "epoch": 47.28, + "grad_norm": 0.4351062774658203, + "learning_rate": 2.9288888888888888e-05, + "loss": 0.1288, + "step": 17730 + }, + { + "epoch": 47.306666666666665, + "grad_norm": 0.7778250575065613, + "learning_rate": 2.9274074074074075e-05, + "loss": 0.1075, + "step": 17740 + }, + { + "epoch": 47.333333333333336, + "grad_norm": 1.0143440961837769, + "learning_rate": 2.925925925925926e-05, + "loss": 0.1323, + "step": 17750 + }, + { + "epoch": 47.36, + "grad_norm": 0.426794171333313, + "learning_rate": 2.9244444444444446e-05, + "loss": 0.0843, + "step": 17760 + }, + { + "epoch": 47.38666666666666, + "grad_norm": 0.5667079091072083, + "learning_rate": 2.922962962962963e-05, + "loss": 0.1109, + "step": 17770 + }, + { + "epoch": 47.413333333333334, + "grad_norm": 1.1787670850753784, + "learning_rate": 2.9214814814814818e-05, + "loss": 0.1193, + "step": 17780 + }, + { + "epoch": 47.44, + "grad_norm": 0.3884506821632385, + "learning_rate": 2.9199999999999998e-05, + "loss": 0.1307, + "step": 17790 + }, + { + "epoch": 47.46666666666667, + "grad_norm": 0.512022078037262, + "learning_rate": 2.918518518518519e-05, + "loss": 0.1413, + "step": 17800 + }, + { + "epoch": 47.49333333333333, + "grad_norm": 0.5937590599060059, + "learning_rate": 2.917037037037037e-05, + "loss": 0.1216, + "step": 17810 + }, + { + "epoch": 47.52, + "grad_norm": 0.5365837812423706, + "learning_rate": 2.9155555555555557e-05, + "loss": 0.1248, + "step": 17820 + }, + { + "epoch": 47.54666666666667, + "grad_norm": 0.7429771423339844, + "learning_rate": 2.914074074074074e-05, + "loss": 0.124, + "step": 17830 + }, + { + "epoch": 47.57333333333333, + "grad_norm": 0.7039695978164673, + "learning_rate": 2.9125925925925928e-05, + "loss": 0.1249, + "step": 17840 + }, + { + "epoch": 47.6, + "grad_norm": 0.45121780037879944, + "learning_rate": 2.9111111111111112e-05, + "loss": 0.1128, + "step": 17850 + }, + { + "epoch": 47.626666666666665, + "grad_norm": 1.0913827419281006, + "learning_rate": 2.90962962962963e-05, + "loss": 0.1147, + "step": 17860 + }, + { + "epoch": 47.653333333333336, + "grad_norm": 0.7693084478378296, + "learning_rate": 2.9081481481481483e-05, + "loss": 0.1177, + "step": 17870 + }, + { + "epoch": 47.68, + "grad_norm": 0.8948861360549927, + "learning_rate": 2.906666666666667e-05, + "loss": 0.1137, + "step": 17880 + }, + { + "epoch": 47.70666666666666, + "grad_norm": 0.8601765036582947, + "learning_rate": 2.905185185185185e-05, + "loss": 0.1554, + "step": 17890 + }, + { + "epoch": 47.733333333333334, + "grad_norm": 0.599297821521759, + "learning_rate": 2.9037037037037042e-05, + "loss": 0.1228, + "step": 17900 + }, + { + "epoch": 47.76, + "grad_norm": 0.5960290431976318, + "learning_rate": 2.9022222222222223e-05, + "loss": 0.1082, + "step": 17910 + }, + { + "epoch": 47.78666666666667, + "grad_norm": 1.0994760990142822, + "learning_rate": 2.900740740740741e-05, + "loss": 0.1592, + "step": 17920 + }, + { + "epoch": 47.81333333333333, + "grad_norm": 0.40384671092033386, + "learning_rate": 2.8992592592592594e-05, + "loss": 0.1365, + "step": 17930 + }, + { + "epoch": 47.84, + "grad_norm": 0.7017285823822021, + "learning_rate": 2.897777777777778e-05, + "loss": 0.1431, + "step": 17940 + }, + { + "epoch": 47.86666666666667, + "grad_norm": 0.8847180008888245, + "learning_rate": 2.8962962962962965e-05, + "loss": 0.1216, + "step": 17950 + }, + { + "epoch": 47.89333333333333, + "grad_norm": 0.427737832069397, + "learning_rate": 2.8948148148148152e-05, + "loss": 0.0971, + "step": 17960 + }, + { + "epoch": 47.92, + "grad_norm": 1.002913236618042, + "learning_rate": 2.8933333333333333e-05, + "loss": 0.1261, + "step": 17970 + }, + { + "epoch": 47.946666666666665, + "grad_norm": 0.840640664100647, + "learning_rate": 2.8918518518518524e-05, + "loss": 0.0966, + "step": 17980 + }, + { + "epoch": 47.973333333333336, + "grad_norm": 1.0228304862976074, + "learning_rate": 2.8903703703703704e-05, + "loss": 0.1244, + "step": 17990 + }, + { + "epoch": 48.0, + "grad_norm": 0.6366199851036072, + "learning_rate": 2.8888888888888888e-05, + "loss": 0.1229, + "step": 18000 + }, + { + "epoch": 48.0, + "eval_accuracy": 0.9040833333333333, + "eval_loss": 0.3500368297100067, + "eval_runtime": 253.8738, + "eval_samples_per_second": 47.268, + "eval_steps_per_second": 1.477, + "step": 18000 + }, + { + "epoch": 48.026666666666664, + "grad_norm": 1.0985430479049683, + "learning_rate": 2.8874074074074076e-05, + "loss": 0.1234, + "step": 18010 + }, + { + "epoch": 48.053333333333335, + "grad_norm": 1.1416891813278198, + "learning_rate": 2.885925925925926e-05, + "loss": 0.1302, + "step": 18020 + }, + { + "epoch": 48.08, + "grad_norm": 0.9195489883422852, + "learning_rate": 2.8844444444444447e-05, + "loss": 0.1123, + "step": 18030 + }, + { + "epoch": 48.10666666666667, + "grad_norm": 0.5616374611854553, + "learning_rate": 2.8829629629629627e-05, + "loss": 0.117, + "step": 18040 + }, + { + "epoch": 48.13333333333333, + "grad_norm": 0.9357309341430664, + "learning_rate": 2.8814814814814818e-05, + "loss": 0.1365, + "step": 18050 + }, + { + "epoch": 48.16, + "grad_norm": 0.5318824052810669, + "learning_rate": 2.88e-05, + "loss": 0.101, + "step": 18060 + }, + { + "epoch": 48.18666666666667, + "grad_norm": 0.6028080582618713, + "learning_rate": 2.8785185185185186e-05, + "loss": 0.1117, + "step": 18070 + }, + { + "epoch": 48.21333333333333, + "grad_norm": 1.1985206604003906, + "learning_rate": 2.877037037037037e-05, + "loss": 0.1311, + "step": 18080 + }, + { + "epoch": 48.24, + "grad_norm": 0.5664718151092529, + "learning_rate": 2.8755555555555557e-05, + "loss": 0.106, + "step": 18090 + }, + { + "epoch": 48.266666666666666, + "grad_norm": 0.8198311924934387, + "learning_rate": 2.874074074074074e-05, + "loss": 0.1435, + "step": 18100 + }, + { + "epoch": 48.29333333333334, + "grad_norm": 0.687383770942688, + "learning_rate": 2.872592592592593e-05, + "loss": 0.133, + "step": 18110 + }, + { + "epoch": 48.32, + "grad_norm": 0.48195791244506836, + "learning_rate": 2.8711111111111113e-05, + "loss": 0.1199, + "step": 18120 + }, + { + "epoch": 48.346666666666664, + "grad_norm": 0.6707039475440979, + "learning_rate": 2.86962962962963e-05, + "loss": 0.12, + "step": 18130 + }, + { + "epoch": 48.373333333333335, + "grad_norm": 0.9685347080230713, + "learning_rate": 2.868148148148148e-05, + "loss": 0.1086, + "step": 18140 + }, + { + "epoch": 48.4, + "grad_norm": 0.7319927215576172, + "learning_rate": 2.8666666666666668e-05, + "loss": 0.1429, + "step": 18150 + }, + { + "epoch": 48.42666666666667, + "grad_norm": 0.6034587621688843, + "learning_rate": 2.8651851851851852e-05, + "loss": 0.1062, + "step": 18160 + }, + { + "epoch": 48.45333333333333, + "grad_norm": 1.1959223747253418, + "learning_rate": 2.863703703703704e-05, + "loss": 0.1515, + "step": 18170 + }, + { + "epoch": 48.48, + "grad_norm": 0.5030449628829956, + "learning_rate": 2.8622222222222223e-05, + "loss": 0.1132, + "step": 18180 + }, + { + "epoch": 48.50666666666667, + "grad_norm": 0.6360395550727844, + "learning_rate": 2.860740740740741e-05, + "loss": 0.1128, + "step": 18190 + }, + { + "epoch": 48.53333333333333, + "grad_norm": 0.6620995998382568, + "learning_rate": 2.8592592592592594e-05, + "loss": 0.1152, + "step": 18200 + }, + { + "epoch": 48.56, + "grad_norm": 0.7384064197540283, + "learning_rate": 2.857777777777778e-05, + "loss": 0.112, + "step": 18210 + }, + { + "epoch": 48.586666666666666, + "grad_norm": 0.7673972845077515, + "learning_rate": 2.8562962962962962e-05, + "loss": 0.1302, + "step": 18220 + }, + { + "epoch": 48.61333333333333, + "grad_norm": 0.7485019564628601, + "learning_rate": 2.8548148148148153e-05, + "loss": 0.0912, + "step": 18230 + }, + { + "epoch": 48.64, + "grad_norm": 0.48040422797203064, + "learning_rate": 2.8533333333333333e-05, + "loss": 0.1311, + "step": 18240 + }, + { + "epoch": 48.666666666666664, + "grad_norm": 0.8373307585716248, + "learning_rate": 2.851851851851852e-05, + "loss": 0.113, + "step": 18250 + }, + { + "epoch": 48.693333333333335, + "grad_norm": 0.7600528597831726, + "learning_rate": 2.8503703703703705e-05, + "loss": 0.1101, + "step": 18260 + }, + { + "epoch": 48.72, + "grad_norm": 0.7917771935462952, + "learning_rate": 2.8488888888888892e-05, + "loss": 0.1125, + "step": 18270 + }, + { + "epoch": 48.74666666666667, + "grad_norm": 0.7849538326263428, + "learning_rate": 2.8474074074074076e-05, + "loss": 0.1102, + "step": 18280 + }, + { + "epoch": 48.77333333333333, + "grad_norm": 0.623174786567688, + "learning_rate": 2.8459259259259263e-05, + "loss": 0.0954, + "step": 18290 + }, + { + "epoch": 48.8, + "grad_norm": 0.8154776096343994, + "learning_rate": 2.8444444444444447e-05, + "loss": 0.1157, + "step": 18300 + }, + { + "epoch": 48.82666666666667, + "grad_norm": 0.4827369153499603, + "learning_rate": 2.8429629629629628e-05, + "loss": 0.1076, + "step": 18310 + }, + { + "epoch": 48.85333333333333, + "grad_norm": 0.579918384552002, + "learning_rate": 2.8414814814814815e-05, + "loss": 0.1073, + "step": 18320 + }, + { + "epoch": 48.88, + "grad_norm": 0.34451261162757874, + "learning_rate": 2.84e-05, + "loss": 0.0907, + "step": 18330 + }, + { + "epoch": 48.906666666666666, + "grad_norm": 1.1390894651412964, + "learning_rate": 2.8385185185185186e-05, + "loss": 0.1087, + "step": 18340 + }, + { + "epoch": 48.93333333333333, + "grad_norm": 0.8791013956069946, + "learning_rate": 2.837037037037037e-05, + "loss": 0.128, + "step": 18350 + }, + { + "epoch": 48.96, + "grad_norm": 0.6428954005241394, + "learning_rate": 2.8355555555555558e-05, + "loss": 0.1047, + "step": 18360 + }, + { + "epoch": 48.986666666666665, + "grad_norm": 1.5035400390625, + "learning_rate": 2.834074074074074e-05, + "loss": 0.123, + "step": 18370 + }, + { + "epoch": 49.0, + "eval_accuracy": 0.9036666666666666, + "eval_loss": 0.3483108580112457, + "eval_runtime": 253.9287, + "eval_samples_per_second": 47.257, + "eval_steps_per_second": 1.477, + "step": 18375 + }, + { + "epoch": 49.013333333333335, + "grad_norm": 0.8014954924583435, + "learning_rate": 2.832592592592593e-05, + "loss": 0.1179, + "step": 18380 + }, + { + "epoch": 49.04, + "grad_norm": 0.915111780166626, + "learning_rate": 2.831111111111111e-05, + "loss": 0.128, + "step": 18390 + }, + { + "epoch": 49.06666666666667, + "grad_norm": 0.6840565800666809, + "learning_rate": 2.8296296296296297e-05, + "loss": 0.1058, + "step": 18400 + }, + { + "epoch": 49.093333333333334, + "grad_norm": 0.8273472785949707, + "learning_rate": 2.828148148148148e-05, + "loss": 0.1146, + "step": 18410 + }, + { + "epoch": 49.12, + "grad_norm": 0.6456076502799988, + "learning_rate": 2.8266666666666668e-05, + "loss": 0.1289, + "step": 18420 + }, + { + "epoch": 49.14666666666667, + "grad_norm": 0.5452912449836731, + "learning_rate": 2.8251851851851852e-05, + "loss": 0.1327, + "step": 18430 + }, + { + "epoch": 49.17333333333333, + "grad_norm": 0.5208062529563904, + "learning_rate": 2.823703703703704e-05, + "loss": 0.1053, + "step": 18440 + }, + { + "epoch": 49.2, + "grad_norm": 0.888599157333374, + "learning_rate": 2.8222222222222223e-05, + "loss": 0.0915, + "step": 18450 + }, + { + "epoch": 49.22666666666667, + "grad_norm": 1.3526356220245361, + "learning_rate": 2.820740740740741e-05, + "loss": 0.1216, + "step": 18460 + }, + { + "epoch": 49.25333333333333, + "grad_norm": 0.8525989055633545, + "learning_rate": 2.819259259259259e-05, + "loss": 0.0951, + "step": 18470 + }, + { + "epoch": 49.28, + "grad_norm": 1.2459921836853027, + "learning_rate": 2.8177777777777782e-05, + "loss": 0.1079, + "step": 18480 + }, + { + "epoch": 49.306666666666665, + "grad_norm": 0.8043139576911926, + "learning_rate": 2.8162962962962963e-05, + "loss": 0.0949, + "step": 18490 + }, + { + "epoch": 49.333333333333336, + "grad_norm": 0.7434647083282471, + "learning_rate": 2.814814814814815e-05, + "loss": 0.1062, + "step": 18500 + }, + { + "epoch": 49.36, + "grad_norm": 0.8444651365280151, + "learning_rate": 2.8133333333333334e-05, + "loss": 0.115, + "step": 18510 + }, + { + "epoch": 49.38666666666666, + "grad_norm": 0.47303712368011475, + "learning_rate": 2.811851851851852e-05, + "loss": 0.1233, + "step": 18520 + }, + { + "epoch": 49.413333333333334, + "grad_norm": 1.3678315877914429, + "learning_rate": 2.8103703703703705e-05, + "loss": 0.1297, + "step": 18530 + }, + { + "epoch": 49.44, + "grad_norm": 0.506630003452301, + "learning_rate": 2.8088888888888893e-05, + "loss": 0.1072, + "step": 18540 + }, + { + "epoch": 49.46666666666667, + "grad_norm": 0.6883729100227356, + "learning_rate": 2.8074074074074076e-05, + "loss": 0.1182, + "step": 18550 + }, + { + "epoch": 49.49333333333333, + "grad_norm": 0.7314412593841553, + "learning_rate": 2.8059259259259264e-05, + "loss": 0.1148, + "step": 18560 + }, + { + "epoch": 49.52, + "grad_norm": 0.9019626379013062, + "learning_rate": 2.8044444444444444e-05, + "loss": 0.1207, + "step": 18570 + }, + { + "epoch": 49.54666666666667, + "grad_norm": 0.601712703704834, + "learning_rate": 2.8029629629629635e-05, + "loss": 0.1231, + "step": 18580 + }, + { + "epoch": 49.57333333333333, + "grad_norm": 0.6320507526397705, + "learning_rate": 2.8014814814814816e-05, + "loss": 0.1208, + "step": 18590 + }, + { + "epoch": 49.6, + "grad_norm": 0.9620966911315918, + "learning_rate": 2.8000000000000003e-05, + "loss": 0.1057, + "step": 18600 + }, + { + "epoch": 49.626666666666665, + "grad_norm": 0.9534189701080322, + "learning_rate": 2.7985185185185187e-05, + "loss": 0.1166, + "step": 18610 + }, + { + "epoch": 49.653333333333336, + "grad_norm": 0.7791820764541626, + "learning_rate": 2.7970370370370367e-05, + "loss": 0.1107, + "step": 18620 + }, + { + "epoch": 49.68, + "grad_norm": 0.9915904998779297, + "learning_rate": 2.7955555555555558e-05, + "loss": 0.1342, + "step": 18630 + }, + { + "epoch": 49.70666666666666, + "grad_norm": 0.5442671179771423, + "learning_rate": 2.794074074074074e-05, + "loss": 0.116, + "step": 18640 + }, + { + "epoch": 49.733333333333334, + "grad_norm": 0.8549047708511353, + "learning_rate": 2.7925925925925926e-05, + "loss": 0.1127, + "step": 18650 + }, + { + "epoch": 49.76, + "grad_norm": 0.5355319380760193, + "learning_rate": 2.791111111111111e-05, + "loss": 0.1077, + "step": 18660 + }, + { + "epoch": 49.78666666666667, + "grad_norm": 0.5735291242599487, + "learning_rate": 2.7896296296296297e-05, + "loss": 0.1205, + "step": 18670 + }, + { + "epoch": 49.81333333333333, + "grad_norm": 1.1089893579483032, + "learning_rate": 2.788148148148148e-05, + "loss": 0.1047, + "step": 18680 + }, + { + "epoch": 49.84, + "grad_norm": 0.6288029551506042, + "learning_rate": 2.786666666666667e-05, + "loss": 0.1056, + "step": 18690 + }, + { + "epoch": 49.86666666666667, + "grad_norm": 0.9746517539024353, + "learning_rate": 2.7851851851851853e-05, + "loss": 0.1172, + "step": 18700 + }, + { + "epoch": 49.89333333333333, + "grad_norm": 1.2414524555206299, + "learning_rate": 2.783703703703704e-05, + "loss": 0.107, + "step": 18710 + }, + { + "epoch": 49.92, + "grad_norm": 0.6638383865356445, + "learning_rate": 2.782222222222222e-05, + "loss": 0.1043, + "step": 18720 + }, + { + "epoch": 49.946666666666665, + "grad_norm": 0.5987620949745178, + "learning_rate": 2.780740740740741e-05, + "loss": 0.1207, + "step": 18730 + }, + { + "epoch": 49.973333333333336, + "grad_norm": 0.6998955607414246, + "learning_rate": 2.7792592592592592e-05, + "loss": 0.1207, + "step": 18740 + }, + { + "epoch": 50.0, + "grad_norm": 0.37233802676200867, + "learning_rate": 2.777777777777778e-05, + "loss": 0.1238, + "step": 18750 + }, + { + "epoch": 50.0, + "eval_accuracy": 0.89975, + "eval_loss": 0.35206934809684753, + "eval_runtime": 254.1653, + "eval_samples_per_second": 47.213, + "eval_steps_per_second": 1.475, + "step": 18750 + }, + { + "epoch": 50.026666666666664, + "grad_norm": 0.7466848492622375, + "learning_rate": 2.7762962962962963e-05, + "loss": 0.1336, + "step": 18760 + }, + { + "epoch": 50.053333333333335, + "grad_norm": 0.6644850969314575, + "learning_rate": 2.774814814814815e-05, + "loss": 0.1256, + "step": 18770 + }, + { + "epoch": 50.08, + "grad_norm": 0.2608025074005127, + "learning_rate": 2.7733333333333334e-05, + "loss": 0.1077, + "step": 18780 + }, + { + "epoch": 50.10666666666667, + "grad_norm": 0.47813212871551514, + "learning_rate": 2.771851851851852e-05, + "loss": 0.0848, + "step": 18790 + }, + { + "epoch": 50.13333333333333, + "grad_norm": 0.6277278065681458, + "learning_rate": 2.7703703703703706e-05, + "loss": 0.0951, + "step": 18800 + }, + { + "epoch": 50.16, + "grad_norm": 0.6985889077186584, + "learning_rate": 2.7688888888888893e-05, + "loss": 0.092, + "step": 18810 + }, + { + "epoch": 50.18666666666667, + "grad_norm": 0.7696321606636047, + "learning_rate": 2.7674074074074074e-05, + "loss": 0.0999, + "step": 18820 + }, + { + "epoch": 50.21333333333333, + "grad_norm": 0.7499311566352844, + "learning_rate": 2.765925925925926e-05, + "loss": 0.1101, + "step": 18830 + }, + { + "epoch": 50.24, + "grad_norm": 1.2586036920547485, + "learning_rate": 2.7644444444444445e-05, + "loss": 0.1202, + "step": 18840 + }, + { + "epoch": 50.266666666666666, + "grad_norm": 0.7985758781433105, + "learning_rate": 2.7629629629629632e-05, + "loss": 0.1078, + "step": 18850 + }, + { + "epoch": 50.29333333333334, + "grad_norm": 0.9623746275901794, + "learning_rate": 2.7614814814814816e-05, + "loss": 0.1138, + "step": 18860 + }, + { + "epoch": 50.32, + "grad_norm": 1.2047063112258911, + "learning_rate": 2.7600000000000003e-05, + "loss": 0.1172, + "step": 18870 + }, + { + "epoch": 50.346666666666664, + "grad_norm": 0.7687171697616577, + "learning_rate": 2.7585185185185187e-05, + "loss": 0.1307, + "step": 18880 + }, + { + "epoch": 50.373333333333335, + "grad_norm": 0.8604133129119873, + "learning_rate": 2.7570370370370375e-05, + "loss": 0.115, + "step": 18890 + }, + { + "epoch": 50.4, + "grad_norm": 0.5652578473091125, + "learning_rate": 2.7555555555555555e-05, + "loss": 0.0991, + "step": 18900 + }, + { + "epoch": 50.42666666666667, + "grad_norm": 0.8642829060554504, + "learning_rate": 2.7540740740740746e-05, + "loss": 0.1086, + "step": 18910 + }, + { + "epoch": 50.45333333333333, + "grad_norm": 0.6288286447525024, + "learning_rate": 2.7525925925925927e-05, + "loss": 0.1013, + "step": 18920 + }, + { + "epoch": 50.48, + "grad_norm": 0.5690379738807678, + "learning_rate": 2.751111111111111e-05, + "loss": 0.1047, + "step": 18930 + }, + { + "epoch": 50.50666666666667, + "grad_norm": 0.6165653467178345, + "learning_rate": 2.7496296296296298e-05, + "loss": 0.1103, + "step": 18940 + }, + { + "epoch": 50.53333333333333, + "grad_norm": 0.6078413724899292, + "learning_rate": 2.7481481481481482e-05, + "loss": 0.1044, + "step": 18950 + }, + { + "epoch": 50.56, + "grad_norm": 0.5568577647209167, + "learning_rate": 2.746666666666667e-05, + "loss": 0.112, + "step": 18960 + }, + { + "epoch": 50.586666666666666, + "grad_norm": 0.533805787563324, + "learning_rate": 2.745185185185185e-05, + "loss": 0.1287, + "step": 18970 + }, + { + "epoch": 50.61333333333333, + "grad_norm": 0.5819263458251953, + "learning_rate": 2.743703703703704e-05, + "loss": 0.1097, + "step": 18980 + }, + { + "epoch": 50.64, + "grad_norm": 0.7459146976470947, + "learning_rate": 2.742222222222222e-05, + "loss": 0.1032, + "step": 18990 + }, + { + "epoch": 50.666666666666664, + "grad_norm": 1.0337797403335571, + "learning_rate": 2.7407407407407408e-05, + "loss": 0.118, + "step": 19000 + }, + { + "epoch": 50.693333333333335, + "grad_norm": 0.33238255977630615, + "learning_rate": 2.7392592592592592e-05, + "loss": 0.1424, + "step": 19010 + }, + { + "epoch": 50.72, + "grad_norm": 0.7003692388534546, + "learning_rate": 2.737777777777778e-05, + "loss": 0.1249, + "step": 19020 + }, + { + "epoch": 50.74666666666667, + "grad_norm": 0.3677314519882202, + "learning_rate": 2.7362962962962963e-05, + "loss": 0.1272, + "step": 19030 + }, + { + "epoch": 50.77333333333333, + "grad_norm": 0.7883759140968323, + "learning_rate": 2.734814814814815e-05, + "loss": 0.109, + "step": 19040 + }, + { + "epoch": 50.8, + "grad_norm": 0.5291357636451721, + "learning_rate": 2.733333333333333e-05, + "loss": 0.1179, + "step": 19050 + }, + { + "epoch": 50.82666666666667, + "grad_norm": 0.6483950614929199, + "learning_rate": 2.7318518518518522e-05, + "loss": 0.1104, + "step": 19060 + }, + { + "epoch": 50.85333333333333, + "grad_norm": 0.611803412437439, + "learning_rate": 2.7303703703703703e-05, + "loss": 0.1245, + "step": 19070 + }, + { + "epoch": 50.88, + "grad_norm": 0.5900137424468994, + "learning_rate": 2.728888888888889e-05, + "loss": 0.127, + "step": 19080 + }, + { + "epoch": 50.906666666666666, + "grad_norm": 0.4367186427116394, + "learning_rate": 2.7274074074074074e-05, + "loss": 0.1171, + "step": 19090 + }, + { + "epoch": 50.93333333333333, + "grad_norm": 0.538131058216095, + "learning_rate": 2.725925925925926e-05, + "loss": 0.1203, + "step": 19100 + }, + { + "epoch": 50.96, + "grad_norm": 0.5565964579582214, + "learning_rate": 2.7244444444444445e-05, + "loss": 0.1141, + "step": 19110 + }, + { + "epoch": 50.986666666666665, + "grad_norm": 0.6284306049346924, + "learning_rate": 2.7229629629629633e-05, + "loss": 0.1249, + "step": 19120 + }, + { + "epoch": 51.0, + "eval_accuracy": 0.90525, + "eval_loss": 0.34239399433135986, + "eval_runtime": 252.2077, + "eval_samples_per_second": 47.58, + "eval_steps_per_second": 1.487, + "step": 19125 + }, + { + "epoch": 51.013333333333335, + "grad_norm": 1.2406744956970215, + "learning_rate": 2.7214814814814817e-05, + "loss": 0.1179, + "step": 19130 + }, + { + "epoch": 51.04, + "grad_norm": 1.0814391374588013, + "learning_rate": 2.7200000000000004e-05, + "loss": 0.105, + "step": 19140 + }, + { + "epoch": 51.06666666666667, + "grad_norm": 0.4586455821990967, + "learning_rate": 2.7185185185185184e-05, + "loss": 0.1086, + "step": 19150 + }, + { + "epoch": 51.093333333333334, + "grad_norm": 0.6702836751937866, + "learning_rate": 2.7170370370370375e-05, + "loss": 0.0884, + "step": 19160 + }, + { + "epoch": 51.12, + "grad_norm": 0.6787272691726685, + "learning_rate": 2.7155555555555556e-05, + "loss": 0.107, + "step": 19170 + }, + { + "epoch": 51.14666666666667, + "grad_norm": 0.642193615436554, + "learning_rate": 2.7140740740740743e-05, + "loss": 0.0812, + "step": 19180 + }, + { + "epoch": 51.17333333333333, + "grad_norm": 0.8027759790420532, + "learning_rate": 2.7125925925925927e-05, + "loss": 0.1075, + "step": 19190 + }, + { + "epoch": 51.2, + "grad_norm": 0.6455164551734924, + "learning_rate": 2.7111111111111114e-05, + "loss": 0.1246, + "step": 19200 + }, + { + "epoch": 51.22666666666667, + "grad_norm": 0.7553550601005554, + "learning_rate": 2.7096296296296298e-05, + "loss": 0.1115, + "step": 19210 + }, + { + "epoch": 51.25333333333333, + "grad_norm": 0.413303941488266, + "learning_rate": 2.7081481481481486e-05, + "loss": 0.1072, + "step": 19220 + }, + { + "epoch": 51.28, + "grad_norm": 0.5619508624076843, + "learning_rate": 2.706666666666667e-05, + "loss": 0.1028, + "step": 19230 + }, + { + "epoch": 51.306666666666665, + "grad_norm": 0.9154611229896545, + "learning_rate": 2.705185185185185e-05, + "loss": 0.1167, + "step": 19240 + }, + { + "epoch": 51.333333333333336, + "grad_norm": 0.9925470352172852, + "learning_rate": 2.7037037037037037e-05, + "loss": 0.0831, + "step": 19250 + }, + { + "epoch": 51.36, + "grad_norm": 0.7799338102340698, + "learning_rate": 2.702222222222222e-05, + "loss": 0.1061, + "step": 19260 + }, + { + "epoch": 51.38666666666666, + "grad_norm": 0.7379835844039917, + "learning_rate": 2.700740740740741e-05, + "loss": 0.1054, + "step": 19270 + }, + { + "epoch": 51.413333333333334, + "grad_norm": 1.0529745817184448, + "learning_rate": 2.6992592592592593e-05, + "loss": 0.1063, + "step": 19280 + }, + { + "epoch": 51.44, + "grad_norm": 0.9061985015869141, + "learning_rate": 2.697777777777778e-05, + "loss": 0.1073, + "step": 19290 + }, + { + "epoch": 51.46666666666667, + "grad_norm": 0.39818140864372253, + "learning_rate": 2.696296296296296e-05, + "loss": 0.0845, + "step": 19300 + }, + { + "epoch": 51.49333333333333, + "grad_norm": 0.6215844750404358, + "learning_rate": 2.694814814814815e-05, + "loss": 0.1085, + "step": 19310 + }, + { + "epoch": 51.52, + "grad_norm": 0.7406467199325562, + "learning_rate": 2.6933333333333332e-05, + "loss": 0.1052, + "step": 19320 + }, + { + "epoch": 51.54666666666667, + "grad_norm": 1.1003071069717407, + "learning_rate": 2.691851851851852e-05, + "loss": 0.114, + "step": 19330 + }, + { + "epoch": 51.57333333333333, + "grad_norm": 0.7772546410560608, + "learning_rate": 2.6903703703703703e-05, + "loss": 0.12, + "step": 19340 + }, + { + "epoch": 51.6, + "grad_norm": 0.5900471210479736, + "learning_rate": 2.688888888888889e-05, + "loss": 0.1103, + "step": 19350 + }, + { + "epoch": 51.626666666666665, + "grad_norm": 0.4610118269920349, + "learning_rate": 2.6874074074074074e-05, + "loss": 0.0976, + "step": 19360 + }, + { + "epoch": 51.653333333333336, + "grad_norm": 0.7819445133209229, + "learning_rate": 2.6859259259259262e-05, + "loss": 0.1261, + "step": 19370 + }, + { + "epoch": 51.68, + "grad_norm": 0.34965381026268005, + "learning_rate": 2.6844444444444446e-05, + "loss": 0.1075, + "step": 19380 + }, + { + "epoch": 51.70666666666666, + "grad_norm": 0.46014639735221863, + "learning_rate": 2.6829629629629633e-05, + "loss": 0.0917, + "step": 19390 + }, + { + "epoch": 51.733333333333334, + "grad_norm": 1.039361834526062, + "learning_rate": 2.6814814814814814e-05, + "loss": 0.1075, + "step": 19400 + }, + { + "epoch": 51.76, + "grad_norm": 1.3970975875854492, + "learning_rate": 2.6800000000000004e-05, + "loss": 0.1345, + "step": 19410 + }, + { + "epoch": 51.78666666666667, + "grad_norm": 0.7886126041412354, + "learning_rate": 2.6785185185185185e-05, + "loss": 0.1063, + "step": 19420 + }, + { + "epoch": 51.81333333333333, + "grad_norm": 1.1258819103240967, + "learning_rate": 2.6770370370370372e-05, + "loss": 0.1116, + "step": 19430 + }, + { + "epoch": 51.84, + "grad_norm": 0.7099321484565735, + "learning_rate": 2.6755555555555556e-05, + "loss": 0.1226, + "step": 19440 + }, + { + "epoch": 51.86666666666667, + "grad_norm": 1.0013525485992432, + "learning_rate": 2.6740740740740743e-05, + "loss": 0.1155, + "step": 19450 + }, + { + "epoch": 51.89333333333333, + "grad_norm": 0.6939754486083984, + "learning_rate": 2.6725925925925927e-05, + "loss": 0.1031, + "step": 19460 + }, + { + "epoch": 51.92, + "grad_norm": 0.8334268927574158, + "learning_rate": 2.6711111111111115e-05, + "loss": 0.1038, + "step": 19470 + }, + { + "epoch": 51.946666666666665, + "grad_norm": 0.4391489028930664, + "learning_rate": 2.66962962962963e-05, + "loss": 0.0995, + "step": 19480 + }, + { + "epoch": 51.973333333333336, + "grad_norm": 0.42255011200904846, + "learning_rate": 2.6681481481481486e-05, + "loss": 0.144, + "step": 19490 + }, + { + "epoch": 52.0, + "grad_norm": 1.1266640424728394, + "learning_rate": 2.6666666666666667e-05, + "loss": 0.1409, + "step": 19500 + }, + { + "epoch": 52.0, + "eval_accuracy": 0.9028333333333334, + "eval_loss": 0.34650227427482605, + "eval_runtime": 252.8891, + "eval_samples_per_second": 47.452, + "eval_steps_per_second": 1.483, + "step": 19500 + }, + { + "epoch": 52.026666666666664, + "grad_norm": 0.5483550429344177, + "learning_rate": 2.6651851851851857e-05, + "loss": 0.0969, + "step": 19510 + }, + { + "epoch": 52.053333333333335, + "grad_norm": 1.0991977453231812, + "learning_rate": 2.6637037037037038e-05, + "loss": 0.0967, + "step": 19520 + }, + { + "epoch": 52.08, + "grad_norm": 0.9379845261573792, + "learning_rate": 2.6622222222222225e-05, + "loss": 0.1074, + "step": 19530 + }, + { + "epoch": 52.10666666666667, + "grad_norm": 0.8575564026832581, + "learning_rate": 2.660740740740741e-05, + "loss": 0.0959, + "step": 19540 + }, + { + "epoch": 52.13333333333333, + "grad_norm": 0.5938505530357361, + "learning_rate": 2.659259259259259e-05, + "loss": 0.1003, + "step": 19550 + }, + { + "epoch": 52.16, + "grad_norm": 1.1276493072509766, + "learning_rate": 2.657777777777778e-05, + "loss": 0.1133, + "step": 19560 + }, + { + "epoch": 52.18666666666667, + "grad_norm": 0.9531975388526917, + "learning_rate": 2.656296296296296e-05, + "loss": 0.1117, + "step": 19570 + }, + { + "epoch": 52.21333333333333, + "grad_norm": 0.6895321607589722, + "learning_rate": 2.654814814814815e-05, + "loss": 0.1003, + "step": 19580 + }, + { + "epoch": 52.24, + "grad_norm": 0.6923683285713196, + "learning_rate": 2.6533333333333332e-05, + "loss": 0.1107, + "step": 19590 + }, + { + "epoch": 52.266666666666666, + "grad_norm": 0.528456449508667, + "learning_rate": 2.651851851851852e-05, + "loss": 0.1122, + "step": 19600 + }, + { + "epoch": 52.29333333333334, + "grad_norm": 0.928973913192749, + "learning_rate": 2.6503703703703704e-05, + "loss": 0.1075, + "step": 19610 + }, + { + "epoch": 52.32, + "grad_norm": 1.0252000093460083, + "learning_rate": 2.648888888888889e-05, + "loss": 0.0995, + "step": 19620 + }, + { + "epoch": 52.346666666666664, + "grad_norm": 0.5680385231971741, + "learning_rate": 2.6474074074074075e-05, + "loss": 0.1277, + "step": 19630 + }, + { + "epoch": 52.373333333333335, + "grad_norm": 0.8542535305023193, + "learning_rate": 2.6459259259259262e-05, + "loss": 0.1338, + "step": 19640 + }, + { + "epoch": 52.4, + "grad_norm": 0.9812256097793579, + "learning_rate": 2.6444444444444443e-05, + "loss": 0.1118, + "step": 19650 + }, + { + "epoch": 52.42666666666667, + "grad_norm": 0.6184626817703247, + "learning_rate": 2.6429629629629633e-05, + "loss": 0.1159, + "step": 19660 + }, + { + "epoch": 52.45333333333333, + "grad_norm": 0.48384109139442444, + "learning_rate": 2.6414814814814814e-05, + "loss": 0.1114, + "step": 19670 + }, + { + "epoch": 52.48, + "grad_norm": 1.1777026653289795, + "learning_rate": 2.64e-05, + "loss": 0.1325, + "step": 19680 + }, + { + "epoch": 52.50666666666667, + "grad_norm": 0.52642422914505, + "learning_rate": 2.6385185185185185e-05, + "loss": 0.1057, + "step": 19690 + }, + { + "epoch": 52.53333333333333, + "grad_norm": 0.5037238001823425, + "learning_rate": 2.6370370370370373e-05, + "loss": 0.0968, + "step": 19700 + }, + { + "epoch": 52.56, + "grad_norm": 0.6868501901626587, + "learning_rate": 2.6355555555555557e-05, + "loss": 0.1047, + "step": 19710 + }, + { + "epoch": 52.586666666666666, + "grad_norm": 0.7349966168403625, + "learning_rate": 2.6340740740740744e-05, + "loss": 0.0965, + "step": 19720 + }, + { + "epoch": 52.61333333333333, + "grad_norm": 1.68825364112854, + "learning_rate": 2.6325925925925924e-05, + "loss": 0.1074, + "step": 19730 + }, + { + "epoch": 52.64, + "grad_norm": 0.6620669960975647, + "learning_rate": 2.6311111111111115e-05, + "loss": 0.1171, + "step": 19740 + }, + { + "epoch": 52.666666666666664, + "grad_norm": 0.8925554156303406, + "learning_rate": 2.6296296296296296e-05, + "loss": 0.1256, + "step": 19750 + }, + { + "epoch": 52.693333333333335, + "grad_norm": 0.8769292831420898, + "learning_rate": 2.6281481481481483e-05, + "loss": 0.1198, + "step": 19760 + }, + { + "epoch": 52.72, + "grad_norm": 0.4674606919288635, + "learning_rate": 2.6266666666666667e-05, + "loss": 0.0888, + "step": 19770 + }, + { + "epoch": 52.74666666666667, + "grad_norm": 1.0681183338165283, + "learning_rate": 2.6251851851851854e-05, + "loss": 0.1151, + "step": 19780 + }, + { + "epoch": 52.77333333333333, + "grad_norm": 0.5794731378555298, + "learning_rate": 2.623703703703704e-05, + "loss": 0.0967, + "step": 19790 + }, + { + "epoch": 52.8, + "grad_norm": 0.6610031723976135, + "learning_rate": 2.6222222222222226e-05, + "loss": 0.141, + "step": 19800 + }, + { + "epoch": 52.82666666666667, + "grad_norm": 1.003202199935913, + "learning_rate": 2.620740740740741e-05, + "loss": 0.1173, + "step": 19810 + }, + { + "epoch": 52.85333333333333, + "grad_norm": 0.5001841187477112, + "learning_rate": 2.6192592592592597e-05, + "loss": 0.1005, + "step": 19820 + }, + { + "epoch": 52.88, + "grad_norm": 0.706732451915741, + "learning_rate": 2.6177777777777777e-05, + "loss": 0.1149, + "step": 19830 + }, + { + "epoch": 52.906666666666666, + "grad_norm": 0.7133508324623108, + "learning_rate": 2.6162962962962968e-05, + "loss": 0.0949, + "step": 19840 + }, + { + "epoch": 52.93333333333333, + "grad_norm": 0.8902855515480042, + "learning_rate": 2.614814814814815e-05, + "loss": 0.1344, + "step": 19850 + }, + { + "epoch": 52.96, + "grad_norm": 0.6898523569107056, + "learning_rate": 2.6133333333333333e-05, + "loss": 0.1199, + "step": 19860 + }, + { + "epoch": 52.986666666666665, + "grad_norm": 0.9370724558830261, + "learning_rate": 2.611851851851852e-05, + "loss": 0.0906, + "step": 19870 + }, + { + "epoch": 53.0, + "eval_accuracy": 0.9040833333333333, + "eval_loss": 0.3507191836833954, + "eval_runtime": 251.3993, + "eval_samples_per_second": 47.733, + "eval_steps_per_second": 1.492, + "step": 19875 + }, + { + "epoch": 53.013333333333335, + "grad_norm": 0.6654468178749084, + "learning_rate": 2.6103703703703704e-05, + "loss": 0.1057, + "step": 19880 + }, + { + "epoch": 53.04, + "grad_norm": 0.7314413189888, + "learning_rate": 2.608888888888889e-05, + "loss": 0.1276, + "step": 19890 + }, + { + "epoch": 53.06666666666667, + "grad_norm": 1.121352195739746, + "learning_rate": 2.6074074074074072e-05, + "loss": 0.1237, + "step": 19900 + }, + { + "epoch": 53.093333333333334, + "grad_norm": 0.6047077775001526, + "learning_rate": 2.6059259259259263e-05, + "loss": 0.1083, + "step": 19910 + }, + { + "epoch": 53.12, + "grad_norm": 0.7145724296569824, + "learning_rate": 2.6044444444444443e-05, + "loss": 0.1382, + "step": 19920 + }, + { + "epoch": 53.14666666666667, + "grad_norm": 0.6806608438491821, + "learning_rate": 2.602962962962963e-05, + "loss": 0.1135, + "step": 19930 + }, + { + "epoch": 53.17333333333333, + "grad_norm": 1.2009620666503906, + "learning_rate": 2.6014814814814814e-05, + "loss": 0.1385, + "step": 19940 + }, + { + "epoch": 53.2, + "grad_norm": 0.5773588418960571, + "learning_rate": 2.6000000000000002e-05, + "loss": 0.0932, + "step": 19950 + }, + { + "epoch": 53.22666666666667, + "grad_norm": 0.661574125289917, + "learning_rate": 2.5985185185185186e-05, + "loss": 0.1207, + "step": 19960 + }, + { + "epoch": 53.25333333333333, + "grad_norm": 0.734674334526062, + "learning_rate": 2.5970370370370373e-05, + "loss": 0.0981, + "step": 19970 + }, + { + "epoch": 53.28, + "grad_norm": 0.7607903480529785, + "learning_rate": 2.5955555555555554e-05, + "loss": 0.0946, + "step": 19980 + }, + { + "epoch": 53.306666666666665, + "grad_norm": 1.0973612070083618, + "learning_rate": 2.5940740740740744e-05, + "loss": 0.1232, + "step": 19990 + }, + { + "epoch": 53.333333333333336, + "grad_norm": 0.4742031693458557, + "learning_rate": 2.5925925925925925e-05, + "loss": 0.1219, + "step": 20000 + }, + { + "epoch": 53.36, + "grad_norm": 0.7020147442817688, + "learning_rate": 2.5911111111111112e-05, + "loss": 0.0946, + "step": 20010 + }, + { + "epoch": 53.38666666666666, + "grad_norm": 0.852869987487793, + "learning_rate": 2.5896296296296296e-05, + "loss": 0.101, + "step": 20020 + }, + { + "epoch": 53.413333333333334, + "grad_norm": 0.7520203590393066, + "learning_rate": 2.5881481481481484e-05, + "loss": 0.1224, + "step": 20030 + }, + { + "epoch": 53.44, + "grad_norm": 0.5920900106430054, + "learning_rate": 2.5866666666666667e-05, + "loss": 0.1082, + "step": 20040 + }, + { + "epoch": 53.46666666666667, + "grad_norm": 0.8343285918235779, + "learning_rate": 2.5851851851851855e-05, + "loss": 0.0963, + "step": 20050 + }, + { + "epoch": 53.49333333333333, + "grad_norm": 0.7654612064361572, + "learning_rate": 2.583703703703704e-05, + "loss": 0.1089, + "step": 20060 + }, + { + "epoch": 53.52, + "grad_norm": 0.9402092099189758, + "learning_rate": 2.5822222222222226e-05, + "loss": 0.1154, + "step": 20070 + }, + { + "epoch": 53.54666666666667, + "grad_norm": 0.8136700391769409, + "learning_rate": 2.5807407407407407e-05, + "loss": 0.1232, + "step": 20080 + }, + { + "epoch": 53.57333333333333, + "grad_norm": 0.5199759602546692, + "learning_rate": 2.5792592592592597e-05, + "loss": 0.1104, + "step": 20090 + }, + { + "epoch": 53.6, + "grad_norm": 1.010179042816162, + "learning_rate": 2.5777777777777778e-05, + "loss": 0.0938, + "step": 20100 + }, + { + "epoch": 53.626666666666665, + "grad_norm": 0.4636317193508148, + "learning_rate": 2.5762962962962965e-05, + "loss": 0.1168, + "step": 20110 + }, + { + "epoch": 53.653333333333336, + "grad_norm": 2.01253342628479, + "learning_rate": 2.574814814814815e-05, + "loss": 0.1207, + "step": 20120 + }, + { + "epoch": 53.68, + "grad_norm": 0.681442141532898, + "learning_rate": 2.5733333333333337e-05, + "loss": 0.1087, + "step": 20130 + }, + { + "epoch": 53.70666666666666, + "grad_norm": 0.6114698648452759, + "learning_rate": 2.571851851851852e-05, + "loss": 0.1145, + "step": 20140 + }, + { + "epoch": 53.733333333333334, + "grad_norm": 1.143951177597046, + "learning_rate": 2.5703703703703708e-05, + "loss": 0.1181, + "step": 20150 + }, + { + "epoch": 53.76, + "grad_norm": 0.8228276371955872, + "learning_rate": 2.5688888888888892e-05, + "loss": 0.1024, + "step": 20160 + }, + { + "epoch": 53.78666666666667, + "grad_norm": 0.6687818169593811, + "learning_rate": 2.5674074074074072e-05, + "loss": 0.0995, + "step": 20170 + }, + { + "epoch": 53.81333333333333, + "grad_norm": 0.5723560452461243, + "learning_rate": 2.565925925925926e-05, + "loss": 0.11, + "step": 20180 + }, + { + "epoch": 53.84, + "grad_norm": 0.8131089210510254, + "learning_rate": 2.5644444444444444e-05, + "loss": 0.1186, + "step": 20190 + }, + { + "epoch": 53.86666666666667, + "grad_norm": 0.9216879606246948, + "learning_rate": 2.562962962962963e-05, + "loss": 0.1063, + "step": 20200 + }, + { + "epoch": 53.89333333333333, + "grad_norm": 0.8571296334266663, + "learning_rate": 2.5614814814814815e-05, + "loss": 0.1177, + "step": 20210 + }, + { + "epoch": 53.92, + "grad_norm": 0.5185639262199402, + "learning_rate": 2.5600000000000002e-05, + "loss": 0.089, + "step": 20220 + }, + { + "epoch": 53.946666666666665, + "grad_norm": 1.7001179456710815, + "learning_rate": 2.5585185185185183e-05, + "loss": 0.1163, + "step": 20230 + }, + { + "epoch": 53.973333333333336, + "grad_norm": 0.9040560722351074, + "learning_rate": 2.5570370370370374e-05, + "loss": 0.1038, + "step": 20240 + }, + { + "epoch": 54.0, + "grad_norm": 0.9965651035308838, + "learning_rate": 2.5555555555555554e-05, + "loss": 0.1137, + "step": 20250 + }, + { + "epoch": 54.0, + "eval_accuracy": 0.90225, + "eval_loss": 0.3423898220062256, + "eval_runtime": 252.2075, + "eval_samples_per_second": 47.58, + "eval_steps_per_second": 1.487, + "step": 20250 + }, + { + "epoch": 54.026666666666664, + "grad_norm": 1.1846202611923218, + "learning_rate": 2.554074074074074e-05, + "loss": 0.138, + "step": 20260 + }, + { + "epoch": 54.053333333333335, + "grad_norm": 0.7119896411895752, + "learning_rate": 2.5525925925925925e-05, + "loss": 0.1104, + "step": 20270 + }, + { + "epoch": 54.08, + "grad_norm": 0.7142273187637329, + "learning_rate": 2.5511111111111113e-05, + "loss": 0.0775, + "step": 20280 + }, + { + "epoch": 54.10666666666667, + "grad_norm": 0.4612995684146881, + "learning_rate": 2.5496296296296297e-05, + "loss": 0.108, + "step": 20290 + }, + { + "epoch": 54.13333333333333, + "grad_norm": 0.6033573746681213, + "learning_rate": 2.5481481481481484e-05, + "loss": 0.1197, + "step": 20300 + }, + { + "epoch": 54.16, + "grad_norm": 0.6175103187561035, + "learning_rate": 2.5466666666666668e-05, + "loss": 0.0999, + "step": 20310 + }, + { + "epoch": 54.18666666666667, + "grad_norm": 0.6694178581237793, + "learning_rate": 2.5451851851851855e-05, + "loss": 0.1344, + "step": 20320 + }, + { + "epoch": 54.21333333333333, + "grad_norm": 0.47251537442207336, + "learning_rate": 2.5437037037037036e-05, + "loss": 0.1198, + "step": 20330 + }, + { + "epoch": 54.24, + "grad_norm": 0.76850825548172, + "learning_rate": 2.5422222222222227e-05, + "loss": 0.1274, + "step": 20340 + }, + { + "epoch": 54.266666666666666, + "grad_norm": 1.2185297012329102, + "learning_rate": 2.5407407407407407e-05, + "loss": 0.1126, + "step": 20350 + }, + { + "epoch": 54.29333333333334, + "grad_norm": 0.7711465358734131, + "learning_rate": 2.5392592592592594e-05, + "loss": 0.1003, + "step": 20360 + }, + { + "epoch": 54.32, + "grad_norm": 0.5719056129455566, + "learning_rate": 2.537777777777778e-05, + "loss": 0.1031, + "step": 20370 + }, + { + "epoch": 54.346666666666664, + "grad_norm": 0.6603631973266602, + "learning_rate": 2.5362962962962966e-05, + "loss": 0.1084, + "step": 20380 + }, + { + "epoch": 54.373333333333335, + "grad_norm": 0.4617520570755005, + "learning_rate": 2.534814814814815e-05, + "loss": 0.0954, + "step": 20390 + }, + { + "epoch": 54.4, + "grad_norm": 0.8691810369491577, + "learning_rate": 2.5333333333333337e-05, + "loss": 0.1071, + "step": 20400 + }, + { + "epoch": 54.42666666666667, + "grad_norm": 0.7390445470809937, + "learning_rate": 2.5318518518518518e-05, + "loss": 0.1265, + "step": 20410 + }, + { + "epoch": 54.45333333333333, + "grad_norm": 0.3044273555278778, + "learning_rate": 2.5303703703703708e-05, + "loss": 0.0977, + "step": 20420 + }, + { + "epoch": 54.48, + "grad_norm": 0.6567471623420715, + "learning_rate": 2.528888888888889e-05, + "loss": 0.1105, + "step": 20430 + }, + { + "epoch": 54.50666666666667, + "grad_norm": 0.4924421012401581, + "learning_rate": 2.5274074074074076e-05, + "loss": 0.1235, + "step": 20440 + }, + { + "epoch": 54.53333333333333, + "grad_norm": 1.1057689189910889, + "learning_rate": 2.525925925925926e-05, + "loss": 0.1104, + "step": 20450 + }, + { + "epoch": 54.56, + "grad_norm": 0.47551071643829346, + "learning_rate": 2.5244444444444447e-05, + "loss": 0.1109, + "step": 20460 + }, + { + "epoch": 54.586666666666666, + "grad_norm": 0.5585640668869019, + "learning_rate": 2.522962962962963e-05, + "loss": 0.0955, + "step": 20470 + }, + { + "epoch": 54.61333333333333, + "grad_norm": 0.5886541604995728, + "learning_rate": 2.5214814814814812e-05, + "loss": 0.1018, + "step": 20480 + }, + { + "epoch": 54.64, + "grad_norm": 0.8945900797843933, + "learning_rate": 2.5200000000000003e-05, + "loss": 0.1234, + "step": 20490 + }, + { + "epoch": 54.666666666666664, + "grad_norm": 0.6299301981925964, + "learning_rate": 2.5185185185185183e-05, + "loss": 0.1002, + "step": 20500 + }, + { + "epoch": 54.693333333333335, + "grad_norm": 0.8101232647895813, + "learning_rate": 2.517037037037037e-05, + "loss": 0.0961, + "step": 20510 + }, + { + "epoch": 54.72, + "grad_norm": 0.8895696401596069, + "learning_rate": 2.5155555555555555e-05, + "loss": 0.1002, + "step": 20520 + }, + { + "epoch": 54.74666666666667, + "grad_norm": 0.8636345863342285, + "learning_rate": 2.5140740740740742e-05, + "loss": 0.1152, + "step": 20530 + }, + { + "epoch": 54.77333333333333, + "grad_norm": 0.6430239081382751, + "learning_rate": 2.5125925925925926e-05, + "loss": 0.0845, + "step": 20540 + }, + { + "epoch": 54.8, + "grad_norm": 0.5371702909469604, + "learning_rate": 2.5111111111111113e-05, + "loss": 0.1324, + "step": 20550 + }, + { + "epoch": 54.82666666666667, + "grad_norm": 0.5197726488113403, + "learning_rate": 2.5096296296296297e-05, + "loss": 0.1193, + "step": 20560 + }, + { + "epoch": 54.85333333333333, + "grad_norm": 0.5994065999984741, + "learning_rate": 2.5081481481481484e-05, + "loss": 0.1087, + "step": 20570 + }, + { + "epoch": 54.88, + "grad_norm": 0.4849262535572052, + "learning_rate": 2.5066666666666665e-05, + "loss": 0.1053, + "step": 20580 + }, + { + "epoch": 54.906666666666666, + "grad_norm": 0.6818738579750061, + "learning_rate": 2.5051851851851856e-05, + "loss": 0.1273, + "step": 20590 + }, + { + "epoch": 54.93333333333333, + "grad_norm": 0.5953255295753479, + "learning_rate": 2.5037037037037036e-05, + "loss": 0.115, + "step": 20600 + }, + { + "epoch": 54.96, + "grad_norm": 0.9372193813323975, + "learning_rate": 2.5022222222222224e-05, + "loss": 0.1112, + "step": 20610 + }, + { + "epoch": 54.986666666666665, + "grad_norm": 0.4269486665725708, + "learning_rate": 2.5007407407407408e-05, + "loss": 0.0957, + "step": 20620 + }, + { + "epoch": 55.0, + "eval_accuracy": 0.9009166666666667, + "eval_loss": 0.3625262975692749, + "eval_runtime": 253.0709, + "eval_samples_per_second": 47.418, + "eval_steps_per_second": 1.482, + "step": 20625 + }, + { + "epoch": 55.013333333333335, + "grad_norm": 0.9814882874488831, + "learning_rate": 2.499259259259259e-05, + "loss": 0.1226, + "step": 20630 + }, + { + "epoch": 55.04, + "grad_norm": 0.36696818470954895, + "learning_rate": 2.497777777777778e-05, + "loss": 0.0846, + "step": 20640 + }, + { + "epoch": 55.06666666666667, + "grad_norm": 0.815235435962677, + "learning_rate": 2.4962962962962963e-05, + "loss": 0.1105, + "step": 20650 + }, + { + "epoch": 55.093333333333334, + "grad_norm": 0.5760468244552612, + "learning_rate": 2.4948148148148147e-05, + "loss": 0.1199, + "step": 20660 + }, + { + "epoch": 55.12, + "grad_norm": 0.7937754988670349, + "learning_rate": 2.4933333333333334e-05, + "loss": 0.1013, + "step": 20670 + }, + { + "epoch": 55.14666666666667, + "grad_norm": 0.7340512871742249, + "learning_rate": 2.4918518518518518e-05, + "loss": 0.1064, + "step": 20680 + }, + { + "epoch": 55.17333333333333, + "grad_norm": 1.0124377012252808, + "learning_rate": 2.4903703703703705e-05, + "loss": 0.1315, + "step": 20690 + }, + { + "epoch": 55.2, + "grad_norm": 0.5560145378112793, + "learning_rate": 2.488888888888889e-05, + "loss": 0.0997, + "step": 20700 + }, + { + "epoch": 55.22666666666667, + "grad_norm": 0.544284462928772, + "learning_rate": 2.4874074074074073e-05, + "loss": 0.0933, + "step": 20710 + }, + { + "epoch": 55.25333333333333, + "grad_norm": 0.7541294693946838, + "learning_rate": 2.485925925925926e-05, + "loss": 0.1093, + "step": 20720 + }, + { + "epoch": 55.28, + "grad_norm": 0.6316329836845398, + "learning_rate": 2.4844444444444444e-05, + "loss": 0.1007, + "step": 20730 + }, + { + "epoch": 55.306666666666665, + "grad_norm": 0.7037729024887085, + "learning_rate": 2.4829629629629632e-05, + "loss": 0.1125, + "step": 20740 + }, + { + "epoch": 55.333333333333336, + "grad_norm": 0.6622397303581238, + "learning_rate": 2.4814814814814816e-05, + "loss": 0.1021, + "step": 20750 + }, + { + "epoch": 55.36, + "grad_norm": 0.5579321384429932, + "learning_rate": 2.48e-05, + "loss": 0.0864, + "step": 20760 + }, + { + "epoch": 55.38666666666666, + "grad_norm": 0.5158767104148865, + "learning_rate": 2.4785185185185187e-05, + "loss": 0.1159, + "step": 20770 + }, + { + "epoch": 55.413333333333334, + "grad_norm": 1.2095023393630981, + "learning_rate": 2.477037037037037e-05, + "loss": 0.1125, + "step": 20780 + }, + { + "epoch": 55.44, + "grad_norm": 0.7903284430503845, + "learning_rate": 2.475555555555556e-05, + "loss": 0.0962, + "step": 20790 + }, + { + "epoch": 55.46666666666667, + "grad_norm": 0.45998406410217285, + "learning_rate": 2.4740740740740742e-05, + "loss": 0.1053, + "step": 20800 + }, + { + "epoch": 55.49333333333333, + "grad_norm": 0.6135699152946472, + "learning_rate": 2.4725925925925926e-05, + "loss": 0.1246, + "step": 20810 + }, + { + "epoch": 55.52, + "grad_norm": 0.8106532096862793, + "learning_rate": 2.4711111111111114e-05, + "loss": 0.0947, + "step": 20820 + }, + { + "epoch": 55.54666666666667, + "grad_norm": 0.38377055525779724, + "learning_rate": 2.4696296296296298e-05, + "loss": 0.1182, + "step": 20830 + }, + { + "epoch": 55.57333333333333, + "grad_norm": 0.7477769255638123, + "learning_rate": 2.4681481481481485e-05, + "loss": 0.1061, + "step": 20840 + }, + { + "epoch": 55.6, + "grad_norm": 0.7652304172515869, + "learning_rate": 2.466666666666667e-05, + "loss": 0.0896, + "step": 20850 + }, + { + "epoch": 55.626666666666665, + "grad_norm": 0.6366835832595825, + "learning_rate": 2.4651851851851853e-05, + "loss": 0.1104, + "step": 20860 + }, + { + "epoch": 55.653333333333336, + "grad_norm": 0.6330248713493347, + "learning_rate": 2.463703703703704e-05, + "loss": 0.1211, + "step": 20870 + }, + { + "epoch": 55.68, + "grad_norm": 0.7449114322662354, + "learning_rate": 2.4622222222222224e-05, + "loss": 0.1185, + "step": 20880 + }, + { + "epoch": 55.70666666666666, + "grad_norm": 1.0321539640426636, + "learning_rate": 2.4607407407407408e-05, + "loss": 0.1119, + "step": 20890 + }, + { + "epoch": 55.733333333333334, + "grad_norm": 0.5899551510810852, + "learning_rate": 2.4592592592592595e-05, + "loss": 0.1192, + "step": 20900 + }, + { + "epoch": 55.76, + "grad_norm": 1.1250054836273193, + "learning_rate": 2.457777777777778e-05, + "loss": 0.1096, + "step": 20910 + }, + { + "epoch": 55.78666666666667, + "grad_norm": 1.1822185516357422, + "learning_rate": 2.4562962962962967e-05, + "loss": 0.1117, + "step": 20920 + }, + { + "epoch": 55.81333333333333, + "grad_norm": 0.3752869665622711, + "learning_rate": 2.454814814814815e-05, + "loss": 0.0921, + "step": 20930 + }, + { + "epoch": 55.84, + "grad_norm": 0.7649368643760681, + "learning_rate": 2.4533333333333334e-05, + "loss": 0.0851, + "step": 20940 + }, + { + "epoch": 55.86666666666667, + "grad_norm": 0.756144642829895, + "learning_rate": 2.451851851851852e-05, + "loss": 0.0889, + "step": 20950 + }, + { + "epoch": 55.89333333333333, + "grad_norm": 1.4061423540115356, + "learning_rate": 2.4503703703703702e-05, + "loss": 0.1115, + "step": 20960 + }, + { + "epoch": 55.92, + "grad_norm": 0.8722385764122009, + "learning_rate": 2.448888888888889e-05, + "loss": 0.1218, + "step": 20970 + }, + { + "epoch": 55.946666666666665, + "grad_norm": 0.8162955045700073, + "learning_rate": 2.4474074074074074e-05, + "loss": 0.1027, + "step": 20980 + }, + { + "epoch": 55.973333333333336, + "grad_norm": 0.6883504986763, + "learning_rate": 2.445925925925926e-05, + "loss": 0.1129, + "step": 20990 + }, + { + "epoch": 56.0, + "grad_norm": 0.7958362698554993, + "learning_rate": 2.4444444444444445e-05, + "loss": 0.1015, + "step": 21000 + }, + { + "epoch": 56.0, + "eval_accuracy": 0.9049166666666667, + "eval_loss": 0.373552531003952, + "eval_runtime": 251.9389, + "eval_samples_per_second": 47.631, + "eval_steps_per_second": 1.488, + "step": 21000 + }, + { + "epoch": 56.026666666666664, + "grad_norm": 0.7372122406959534, + "learning_rate": 2.442962962962963e-05, + "loss": 0.1046, + "step": 21010 + }, + { + "epoch": 56.053333333333335, + "grad_norm": 0.5306940078735352, + "learning_rate": 2.4414814814814816e-05, + "loss": 0.1133, + "step": 21020 + }, + { + "epoch": 56.08, + "grad_norm": 0.8220292925834656, + "learning_rate": 2.44e-05, + "loss": 0.1199, + "step": 21030 + }, + { + "epoch": 56.10666666666667, + "grad_norm": 0.5492140054702759, + "learning_rate": 2.4385185185185188e-05, + "loss": 0.1011, + "step": 21040 + }, + { + "epoch": 56.13333333333333, + "grad_norm": 0.6529495716094971, + "learning_rate": 2.437037037037037e-05, + "loss": 0.1029, + "step": 21050 + }, + { + "epoch": 56.16, + "grad_norm": 0.766482949256897, + "learning_rate": 2.4355555555555555e-05, + "loss": 0.1152, + "step": 21060 + }, + { + "epoch": 56.18666666666667, + "grad_norm": 0.7869422435760498, + "learning_rate": 2.4340740740740743e-05, + "loss": 0.1142, + "step": 21070 + }, + { + "epoch": 56.21333333333333, + "grad_norm": 0.8023734092712402, + "learning_rate": 2.4325925925925927e-05, + "loss": 0.1122, + "step": 21080 + }, + { + "epoch": 56.24, + "grad_norm": 0.8885458111763, + "learning_rate": 2.431111111111111e-05, + "loss": 0.1094, + "step": 21090 + }, + { + "epoch": 56.266666666666666, + "grad_norm": 1.0350416898727417, + "learning_rate": 2.4296296296296298e-05, + "loss": 0.1091, + "step": 21100 + }, + { + "epoch": 56.29333333333334, + "grad_norm": 0.9093277454376221, + "learning_rate": 2.4281481481481482e-05, + "loss": 0.1216, + "step": 21110 + }, + { + "epoch": 56.32, + "grad_norm": 0.496748149394989, + "learning_rate": 2.426666666666667e-05, + "loss": 0.1266, + "step": 21120 + }, + { + "epoch": 56.346666666666664, + "grad_norm": 1.2328885793685913, + "learning_rate": 2.4251851851851853e-05, + "loss": 0.0956, + "step": 21130 + }, + { + "epoch": 56.373333333333335, + "grad_norm": 0.6635181307792664, + "learning_rate": 2.4237037037037037e-05, + "loss": 0.1135, + "step": 21140 + }, + { + "epoch": 56.4, + "grad_norm": 1.018630862236023, + "learning_rate": 2.4222222222222224e-05, + "loss": 0.1163, + "step": 21150 + }, + { + "epoch": 56.42666666666667, + "grad_norm": 0.8815622925758362, + "learning_rate": 2.420740740740741e-05, + "loss": 0.0887, + "step": 21160 + }, + { + "epoch": 56.45333333333333, + "grad_norm": 1.0139894485473633, + "learning_rate": 2.4192592592592596e-05, + "loss": 0.1231, + "step": 21170 + }, + { + "epoch": 56.48, + "grad_norm": 0.8004248142242432, + "learning_rate": 2.417777777777778e-05, + "loss": 0.1148, + "step": 21180 + }, + { + "epoch": 56.50666666666667, + "grad_norm": 0.8550395369529724, + "learning_rate": 2.4162962962962964e-05, + "loss": 0.1161, + "step": 21190 + }, + { + "epoch": 56.53333333333333, + "grad_norm": 0.9331701397895813, + "learning_rate": 2.414814814814815e-05, + "loss": 0.1044, + "step": 21200 + }, + { + "epoch": 56.56, + "grad_norm": 0.8349881172180176, + "learning_rate": 2.4133333333333335e-05, + "loss": 0.1045, + "step": 21210 + }, + { + "epoch": 56.586666666666666, + "grad_norm": 1.2735644578933716, + "learning_rate": 2.4118518518518522e-05, + "loss": 0.1169, + "step": 21220 + }, + { + "epoch": 56.61333333333333, + "grad_norm": 0.8714974522590637, + "learning_rate": 2.4103703703703706e-05, + "loss": 0.1259, + "step": 21230 + }, + { + "epoch": 56.64, + "grad_norm": 0.5187882781028748, + "learning_rate": 2.408888888888889e-05, + "loss": 0.0943, + "step": 21240 + }, + { + "epoch": 56.666666666666664, + "grad_norm": 0.43540939688682556, + "learning_rate": 2.4074074074074074e-05, + "loss": 0.0985, + "step": 21250 + }, + { + "epoch": 56.693333333333335, + "grad_norm": 0.4787781536579132, + "learning_rate": 2.4059259259259258e-05, + "loss": 0.1128, + "step": 21260 + }, + { + "epoch": 56.72, + "grad_norm": 0.4473596215248108, + "learning_rate": 2.4044444444444445e-05, + "loss": 0.1012, + "step": 21270 + }, + { + "epoch": 56.74666666666667, + "grad_norm": 0.32798486948013306, + "learning_rate": 2.402962962962963e-05, + "loss": 0.1118, + "step": 21280 + }, + { + "epoch": 56.77333333333333, + "grad_norm": 0.6130265593528748, + "learning_rate": 2.4014814814814817e-05, + "loss": 0.0988, + "step": 21290 + }, + { + "epoch": 56.8, + "grad_norm": 0.7345811128616333, + "learning_rate": 2.4e-05, + "loss": 0.1095, + "step": 21300 + }, + { + "epoch": 56.82666666666667, + "grad_norm": 0.7747665047645569, + "learning_rate": 2.3985185185185185e-05, + "loss": 0.1241, + "step": 21310 + }, + { + "epoch": 56.85333333333333, + "grad_norm": 0.9727655053138733, + "learning_rate": 2.3970370370370372e-05, + "loss": 0.1149, + "step": 21320 + }, + { + "epoch": 56.88, + "grad_norm": 1.0749186277389526, + "learning_rate": 2.3955555555555556e-05, + "loss": 0.1178, + "step": 21330 + }, + { + "epoch": 56.906666666666666, + "grad_norm": 0.9204607605934143, + "learning_rate": 2.394074074074074e-05, + "loss": 0.1114, + "step": 21340 + }, + { + "epoch": 56.93333333333333, + "grad_norm": 0.48743870854377747, + "learning_rate": 2.3925925925925927e-05, + "loss": 0.1033, + "step": 21350 + }, + { + "epoch": 56.96, + "grad_norm": 0.4297689199447632, + "learning_rate": 2.391111111111111e-05, + "loss": 0.0875, + "step": 21360 + }, + { + "epoch": 56.986666666666665, + "grad_norm": 0.43958503007888794, + "learning_rate": 2.38962962962963e-05, + "loss": 0.127, + "step": 21370 + }, + { + "epoch": 57.0, + "eval_accuracy": 0.90825, + "eval_loss": 0.33916670083999634, + "eval_runtime": 251.1053, + "eval_samples_per_second": 47.789, + "eval_steps_per_second": 1.493, + "step": 21375 + }, + { + "epoch": 57.013333333333335, + "grad_norm": 0.8018772602081299, + "learning_rate": 2.3881481481481482e-05, + "loss": 0.1153, + "step": 21380 + }, + { + "epoch": 57.04, + "grad_norm": 0.6165487170219421, + "learning_rate": 2.3866666666666666e-05, + "loss": 0.0808, + "step": 21390 + }, + { + "epoch": 57.06666666666667, + "grad_norm": 0.4442841410636902, + "learning_rate": 2.3851851851851854e-05, + "loss": 0.1008, + "step": 21400 + }, + { + "epoch": 57.093333333333334, + "grad_norm": 0.5491738319396973, + "learning_rate": 2.3837037037037038e-05, + "loss": 0.1126, + "step": 21410 + }, + { + "epoch": 57.12, + "grad_norm": 0.7244901657104492, + "learning_rate": 2.3822222222222225e-05, + "loss": 0.0914, + "step": 21420 + }, + { + "epoch": 57.14666666666667, + "grad_norm": 0.9319353699684143, + "learning_rate": 2.380740740740741e-05, + "loss": 0.1071, + "step": 21430 + }, + { + "epoch": 57.17333333333333, + "grad_norm": 0.7370308041572571, + "learning_rate": 2.3792592592592593e-05, + "loss": 0.1168, + "step": 21440 + }, + { + "epoch": 57.2, + "grad_norm": 0.975963830947876, + "learning_rate": 2.377777777777778e-05, + "loss": 0.121, + "step": 21450 + }, + { + "epoch": 57.22666666666667, + "grad_norm": 0.6367535591125488, + "learning_rate": 2.3762962962962964e-05, + "loss": 0.1086, + "step": 21460 + }, + { + "epoch": 57.25333333333333, + "grad_norm": 1.0800801515579224, + "learning_rate": 2.374814814814815e-05, + "loss": 0.1012, + "step": 21470 + }, + { + "epoch": 57.28, + "grad_norm": 0.40590035915374756, + "learning_rate": 2.3733333333333335e-05, + "loss": 0.0871, + "step": 21480 + }, + { + "epoch": 57.306666666666665, + "grad_norm": 0.8625735640525818, + "learning_rate": 2.371851851851852e-05, + "loss": 0.1094, + "step": 21490 + }, + { + "epoch": 57.333333333333336, + "grad_norm": 0.6254645586013794, + "learning_rate": 2.3703703703703707e-05, + "loss": 0.1153, + "step": 21500 + }, + { + "epoch": 57.36, + "grad_norm": 0.6897726655006409, + "learning_rate": 2.368888888888889e-05, + "loss": 0.106, + "step": 21510 + }, + { + "epoch": 57.38666666666666, + "grad_norm": 0.4901174008846283, + "learning_rate": 2.3674074074074078e-05, + "loss": 0.1086, + "step": 21520 + }, + { + "epoch": 57.413333333333334, + "grad_norm": 0.829415500164032, + "learning_rate": 2.3659259259259262e-05, + "loss": 0.1254, + "step": 21530 + }, + { + "epoch": 57.44, + "grad_norm": 0.9125663638114929, + "learning_rate": 2.3644444444444446e-05, + "loss": 0.1103, + "step": 21540 + }, + { + "epoch": 57.46666666666667, + "grad_norm": 1.0103572607040405, + "learning_rate": 2.3629629629629633e-05, + "loss": 0.0958, + "step": 21550 + }, + { + "epoch": 57.49333333333333, + "grad_norm": 0.4855523407459259, + "learning_rate": 2.3614814814814814e-05, + "loss": 0.0942, + "step": 21560 + }, + { + "epoch": 57.52, + "grad_norm": 1.4078803062438965, + "learning_rate": 2.36e-05, + "loss": 0.1047, + "step": 21570 + }, + { + "epoch": 57.54666666666667, + "grad_norm": 0.7950993180274963, + "learning_rate": 2.3585185185185185e-05, + "loss": 0.1213, + "step": 21580 + }, + { + "epoch": 57.57333333333333, + "grad_norm": 1.0884138345718384, + "learning_rate": 2.357037037037037e-05, + "loss": 0.0886, + "step": 21590 + }, + { + "epoch": 57.6, + "grad_norm": 1.912618637084961, + "learning_rate": 2.3555555555555556e-05, + "loss": 0.1028, + "step": 21600 + }, + { + "epoch": 57.626666666666665, + "grad_norm": 0.9463043808937073, + "learning_rate": 2.354074074074074e-05, + "loss": 0.1184, + "step": 21610 + }, + { + "epoch": 57.653333333333336, + "grad_norm": 0.7650777101516724, + "learning_rate": 2.3525925925925928e-05, + "loss": 0.1027, + "step": 21620 + }, + { + "epoch": 57.68, + "grad_norm": 0.761574923992157, + "learning_rate": 2.351111111111111e-05, + "loss": 0.1105, + "step": 21630 + }, + { + "epoch": 57.70666666666666, + "grad_norm": 0.5409091114997864, + "learning_rate": 2.3496296296296295e-05, + "loss": 0.1037, + "step": 21640 + }, + { + "epoch": 57.733333333333334, + "grad_norm": 0.5423007011413574, + "learning_rate": 2.3481481481481483e-05, + "loss": 0.1194, + "step": 21650 + }, + { + "epoch": 57.76, + "grad_norm": 0.5755845308303833, + "learning_rate": 2.3466666666666667e-05, + "loss": 0.0896, + "step": 21660 + }, + { + "epoch": 57.78666666666667, + "grad_norm": 0.6536055207252502, + "learning_rate": 2.3451851851851854e-05, + "loss": 0.1082, + "step": 21670 + }, + { + "epoch": 57.81333333333333, + "grad_norm": 0.37602904438972473, + "learning_rate": 2.3437037037037038e-05, + "loss": 0.1076, + "step": 21680 + }, + { + "epoch": 57.84, + "grad_norm": 0.8181330561637878, + "learning_rate": 2.3422222222222222e-05, + "loss": 0.0842, + "step": 21690 + }, + { + "epoch": 57.86666666666667, + "grad_norm": 1.4925469160079956, + "learning_rate": 2.340740740740741e-05, + "loss": 0.1174, + "step": 21700 + }, + { + "epoch": 57.89333333333333, + "grad_norm": 1.300069808959961, + "learning_rate": 2.3392592592592593e-05, + "loss": 0.0963, + "step": 21710 + }, + { + "epoch": 57.92, + "grad_norm": 0.5960765480995178, + "learning_rate": 2.337777777777778e-05, + "loss": 0.1059, + "step": 21720 + }, + { + "epoch": 57.946666666666665, + "grad_norm": 0.8465743064880371, + "learning_rate": 2.3362962962962965e-05, + "loss": 0.1241, + "step": 21730 + }, + { + "epoch": 57.973333333333336, + "grad_norm": 0.6664037108421326, + "learning_rate": 2.334814814814815e-05, + "loss": 0.1216, + "step": 21740 + }, + { + "epoch": 58.0, + "grad_norm": 0.7164819240570068, + "learning_rate": 2.3333333333333336e-05, + "loss": 0.1052, + "step": 21750 + }, + { + "epoch": 58.0, + "eval_accuracy": 0.90375, + "eval_loss": 0.3561854958534241, + "eval_runtime": 251.0263, + "eval_samples_per_second": 47.804, + "eval_steps_per_second": 1.494, + "step": 21750 + }, + { + "epoch": 58.026666666666664, + "grad_norm": 1.269797682762146, + "learning_rate": 2.331851851851852e-05, + "loss": 0.1071, + "step": 21760 + }, + { + "epoch": 58.053333333333335, + "grad_norm": 0.9424992203712463, + "learning_rate": 2.3303703703703704e-05, + "loss": 0.107, + "step": 21770 + }, + { + "epoch": 58.08, + "grad_norm": 0.7366050481796265, + "learning_rate": 2.328888888888889e-05, + "loss": 0.1296, + "step": 21780 + }, + { + "epoch": 58.10666666666667, + "grad_norm": 0.7592846155166626, + "learning_rate": 2.3274074074074075e-05, + "loss": 0.1214, + "step": 21790 + }, + { + "epoch": 58.13333333333333, + "grad_norm": 0.6315038800239563, + "learning_rate": 2.3259259259259262e-05, + "loss": 0.1116, + "step": 21800 + }, + { + "epoch": 58.16, + "grad_norm": 0.4826793968677521, + "learning_rate": 2.3244444444444446e-05, + "loss": 0.1049, + "step": 21810 + }, + { + "epoch": 58.18666666666667, + "grad_norm": 0.7681486010551453, + "learning_rate": 2.322962962962963e-05, + "loss": 0.1219, + "step": 21820 + }, + { + "epoch": 58.21333333333333, + "grad_norm": 1.0546191930770874, + "learning_rate": 2.3214814814814818e-05, + "loss": 0.1191, + "step": 21830 + }, + { + "epoch": 58.24, + "grad_norm": 0.7406566739082336, + "learning_rate": 2.32e-05, + "loss": 0.1194, + "step": 21840 + }, + { + "epoch": 58.266666666666666, + "grad_norm": 0.7936819791793823, + "learning_rate": 2.318518518518519e-05, + "loss": 0.086, + "step": 21850 + }, + { + "epoch": 58.29333333333334, + "grad_norm": 0.8432274460792542, + "learning_rate": 2.3170370370370373e-05, + "loss": 0.1074, + "step": 21860 + }, + { + "epoch": 58.32, + "grad_norm": 0.7144952416419983, + "learning_rate": 2.3155555555555557e-05, + "loss": 0.1269, + "step": 21870 + }, + { + "epoch": 58.346666666666664, + "grad_norm": 0.57988041639328, + "learning_rate": 2.314074074074074e-05, + "loss": 0.0962, + "step": 21880 + }, + { + "epoch": 58.373333333333335, + "grad_norm": 0.7650472521781921, + "learning_rate": 2.3125925925925925e-05, + "loss": 0.1084, + "step": 21890 + }, + { + "epoch": 58.4, + "grad_norm": 0.7300851941108704, + "learning_rate": 2.3111111111111112e-05, + "loss": 0.1245, + "step": 21900 + }, + { + "epoch": 58.42666666666667, + "grad_norm": 0.6340977549552917, + "learning_rate": 2.3096296296296296e-05, + "loss": 0.1049, + "step": 21910 + }, + { + "epoch": 58.45333333333333, + "grad_norm": 0.5822761654853821, + "learning_rate": 2.3081481481481483e-05, + "loss": 0.0815, + "step": 21920 + }, + { + "epoch": 58.48, + "grad_norm": 0.6962836980819702, + "learning_rate": 2.3066666666666667e-05, + "loss": 0.0973, + "step": 21930 + }, + { + "epoch": 58.50666666666667, + "grad_norm": 0.6490551233291626, + "learning_rate": 2.305185185185185e-05, + "loss": 0.1187, + "step": 21940 + }, + { + "epoch": 58.53333333333333, + "grad_norm": 1.0636241436004639, + "learning_rate": 2.303703703703704e-05, + "loss": 0.0904, + "step": 21950 + }, + { + "epoch": 58.56, + "grad_norm": 0.7011326551437378, + "learning_rate": 2.3022222222222222e-05, + "loss": 0.1191, + "step": 21960 + }, + { + "epoch": 58.586666666666666, + "grad_norm": 0.6702389717102051, + "learning_rate": 2.300740740740741e-05, + "loss": 0.1114, + "step": 21970 + }, + { + "epoch": 58.61333333333333, + "grad_norm": 0.5666784048080444, + "learning_rate": 2.2992592592592594e-05, + "loss": 0.0874, + "step": 21980 + }, + { + "epoch": 58.64, + "grad_norm": 0.6011951565742493, + "learning_rate": 2.2977777777777778e-05, + "loss": 0.0776, + "step": 21990 + }, + { + "epoch": 58.666666666666664, + "grad_norm": 0.7326487898826599, + "learning_rate": 2.2962962962962965e-05, + "loss": 0.1042, + "step": 22000 + }, + { + "epoch": 58.693333333333335, + "grad_norm": 0.9952179193496704, + "learning_rate": 2.294814814814815e-05, + "loss": 0.1088, + "step": 22010 + }, + { + "epoch": 58.72, + "grad_norm": 0.7761932015419006, + "learning_rate": 2.2933333333333333e-05, + "loss": 0.0942, + "step": 22020 + }, + { + "epoch": 58.74666666666667, + "grad_norm": 0.5672218203544617, + "learning_rate": 2.291851851851852e-05, + "loss": 0.0995, + "step": 22030 + }, + { + "epoch": 58.77333333333333, + "grad_norm": 0.3637765347957611, + "learning_rate": 2.2903703703703704e-05, + "loss": 0.1052, + "step": 22040 + }, + { + "epoch": 58.8, + "grad_norm": 0.8737623691558838, + "learning_rate": 2.288888888888889e-05, + "loss": 0.1059, + "step": 22050 + }, + { + "epoch": 58.82666666666667, + "grad_norm": 0.7890958786010742, + "learning_rate": 2.2874074074074075e-05, + "loss": 0.1115, + "step": 22060 + }, + { + "epoch": 58.85333333333333, + "grad_norm": 0.9339655637741089, + "learning_rate": 2.285925925925926e-05, + "loss": 0.1069, + "step": 22070 + }, + { + "epoch": 58.88, + "grad_norm": 0.8260341882705688, + "learning_rate": 2.2844444444444447e-05, + "loss": 0.1083, + "step": 22080 + }, + { + "epoch": 58.906666666666666, + "grad_norm": 0.9457599520683289, + "learning_rate": 2.282962962962963e-05, + "loss": 0.107, + "step": 22090 + }, + { + "epoch": 58.93333333333333, + "grad_norm": 0.6401690244674683, + "learning_rate": 2.2814814814814818e-05, + "loss": 0.0843, + "step": 22100 + }, + { + "epoch": 58.96, + "grad_norm": 0.8054176568984985, + "learning_rate": 2.2800000000000002e-05, + "loss": 0.1149, + "step": 22110 + }, + { + "epoch": 58.986666666666665, + "grad_norm": 0.5587853193283081, + "learning_rate": 2.2785185185185186e-05, + "loss": 0.1341, + "step": 22120 + }, + { + "epoch": 59.0, + "eval_accuracy": 0.9050833333333334, + "eval_loss": 0.3501264750957489, + "eval_runtime": 252.9226, + "eval_samples_per_second": 47.445, + "eval_steps_per_second": 1.483, + "step": 22125 + }, + { + "epoch": 59.013333333333335, + "grad_norm": 0.6033284068107605, + "learning_rate": 2.2770370370370373e-05, + "loss": 0.1009, + "step": 22130 + }, + { + "epoch": 59.04, + "grad_norm": 0.6120572686195374, + "learning_rate": 2.2755555555555557e-05, + "loss": 0.1015, + "step": 22140 + }, + { + "epoch": 59.06666666666667, + "grad_norm": 0.6673848032951355, + "learning_rate": 2.2740740740740744e-05, + "loss": 0.1075, + "step": 22150 + }, + { + "epoch": 59.093333333333334, + "grad_norm": 0.8071389198303223, + "learning_rate": 2.272592592592593e-05, + "loss": 0.0947, + "step": 22160 + }, + { + "epoch": 59.12, + "grad_norm": 0.9277157187461853, + "learning_rate": 2.2711111111111112e-05, + "loss": 0.1048, + "step": 22170 + }, + { + "epoch": 59.14666666666667, + "grad_norm": 0.4567291736602783, + "learning_rate": 2.2696296296296296e-05, + "loss": 0.116, + "step": 22180 + }, + { + "epoch": 59.17333333333333, + "grad_norm": 0.644817590713501, + "learning_rate": 2.268148148148148e-05, + "loss": 0.089, + "step": 22190 + }, + { + "epoch": 59.2, + "grad_norm": 0.9096694588661194, + "learning_rate": 2.2666666666666668e-05, + "loss": 0.0937, + "step": 22200 + }, + { + "epoch": 59.22666666666667, + "grad_norm": 0.8013559579849243, + "learning_rate": 2.265185185185185e-05, + "loss": 0.1091, + "step": 22210 + }, + { + "epoch": 59.25333333333333, + "grad_norm": 0.7758790850639343, + "learning_rate": 2.2637037037037036e-05, + "loss": 0.128, + "step": 22220 + }, + { + "epoch": 59.28, + "grad_norm": 0.7872348427772522, + "learning_rate": 2.2622222222222223e-05, + "loss": 0.1144, + "step": 22230 + }, + { + "epoch": 59.306666666666665, + "grad_norm": 0.7660977840423584, + "learning_rate": 2.2607407407407407e-05, + "loss": 0.0834, + "step": 22240 + }, + { + "epoch": 59.333333333333336, + "grad_norm": 0.6157160401344299, + "learning_rate": 2.2592592592592594e-05, + "loss": 0.0985, + "step": 22250 + }, + { + "epoch": 59.36, + "grad_norm": 0.38788917660713196, + "learning_rate": 2.2577777777777778e-05, + "loss": 0.0912, + "step": 22260 + }, + { + "epoch": 59.38666666666666, + "grad_norm": 0.7269772291183472, + "learning_rate": 2.2562962962962962e-05, + "loss": 0.0865, + "step": 22270 + }, + { + "epoch": 59.413333333333334, + "grad_norm": 0.5136067271232605, + "learning_rate": 2.254814814814815e-05, + "loss": 0.1053, + "step": 22280 + }, + { + "epoch": 59.44, + "grad_norm": 0.7449811697006226, + "learning_rate": 2.2533333333333333e-05, + "loss": 0.1007, + "step": 22290 + }, + { + "epoch": 59.46666666666667, + "grad_norm": 0.6225616335868835, + "learning_rate": 2.251851851851852e-05, + "loss": 0.0865, + "step": 22300 + }, + { + "epoch": 59.49333333333333, + "grad_norm": 0.7305272817611694, + "learning_rate": 2.2503703703703705e-05, + "loss": 0.0952, + "step": 22310 + }, + { + "epoch": 59.52, + "grad_norm": 0.7931828498840332, + "learning_rate": 2.248888888888889e-05, + "loss": 0.1318, + "step": 22320 + }, + { + "epoch": 59.54666666666667, + "grad_norm": 0.6465429663658142, + "learning_rate": 2.2474074074074076e-05, + "loss": 0.1057, + "step": 22330 + }, + { + "epoch": 59.57333333333333, + "grad_norm": 0.5452882051467896, + "learning_rate": 2.245925925925926e-05, + "loss": 0.1026, + "step": 22340 + }, + { + "epoch": 59.6, + "grad_norm": 0.6973422765731812, + "learning_rate": 2.2444444444444447e-05, + "loss": 0.1102, + "step": 22350 + }, + { + "epoch": 59.626666666666665, + "grad_norm": 0.6449379920959473, + "learning_rate": 2.242962962962963e-05, + "loss": 0.1105, + "step": 22360 + }, + { + "epoch": 59.653333333333336, + "grad_norm": 0.6876383423805237, + "learning_rate": 2.2414814814814815e-05, + "loss": 0.1288, + "step": 22370 + }, + { + "epoch": 59.68, + "grad_norm": 0.8773509860038757, + "learning_rate": 2.2400000000000002e-05, + "loss": 0.0968, + "step": 22380 + }, + { + "epoch": 59.70666666666666, + "grad_norm": 0.9409114718437195, + "learning_rate": 2.2385185185185186e-05, + "loss": 0.0983, + "step": 22390 + }, + { + "epoch": 59.733333333333334, + "grad_norm": 0.6347073316574097, + "learning_rate": 2.2370370370370374e-05, + "loss": 0.1042, + "step": 22400 + }, + { + "epoch": 59.76, + "grad_norm": 0.3518627882003784, + "learning_rate": 2.2355555555555558e-05, + "loss": 0.1072, + "step": 22410 + }, + { + "epoch": 59.78666666666667, + "grad_norm": 1.0639209747314453, + "learning_rate": 2.234074074074074e-05, + "loss": 0.1204, + "step": 22420 + }, + { + "epoch": 59.81333333333333, + "grad_norm": 0.6734100580215454, + "learning_rate": 2.232592592592593e-05, + "loss": 0.1024, + "step": 22430 + }, + { + "epoch": 59.84, + "grad_norm": 0.6965450048446655, + "learning_rate": 2.2311111111111113e-05, + "loss": 0.1261, + "step": 22440 + }, + { + "epoch": 59.86666666666667, + "grad_norm": 0.5725679397583008, + "learning_rate": 2.2296296296296297e-05, + "loss": 0.1025, + "step": 22450 + }, + { + "epoch": 59.89333333333333, + "grad_norm": 0.5571090579032898, + "learning_rate": 2.2281481481481484e-05, + "loss": 0.0912, + "step": 22460 + }, + { + "epoch": 59.92, + "grad_norm": 0.6965648531913757, + "learning_rate": 2.2266666666666668e-05, + "loss": 0.0803, + "step": 22470 + }, + { + "epoch": 59.946666666666665, + "grad_norm": 0.6672995686531067, + "learning_rate": 2.2251851851851855e-05, + "loss": 0.1214, + "step": 22480 + }, + { + "epoch": 59.973333333333336, + "grad_norm": 0.6836172938346863, + "learning_rate": 2.2237037037037036e-05, + "loss": 0.0836, + "step": 22490 + }, + { + "epoch": 60.0, + "grad_norm": 0.9594629406929016, + "learning_rate": 2.2222222222222223e-05, + "loss": 0.0942, + "step": 22500 + }, + { + "epoch": 60.0, + "eval_accuracy": 0.9, + "eval_loss": 0.38503962755203247, + "eval_runtime": 253.7084, + "eval_samples_per_second": 47.298, + "eval_steps_per_second": 1.478, + "step": 22500 + } + ], + "logging_steps": 10, + "max_steps": 37500, + "num_input_tokens_seen": 0, + "num_train_epochs": 100, + "save_steps": 500, + "total_flos": 1.6407306791092224e+21, + "train_batch_size": 32, + "trial_name": null, + "trial_params": null +}