{ "best_metric": null, "best_model_checkpoint": null, "epoch": 10.0, "eval_steps": 500, "global_step": 1200, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.008333333333333333, "grad_norm": 120.0, "learning_rate": 1.6666666666666667e-06, "loss": 23.2208, "step": 1 }, { "epoch": 0.041666666666666664, "grad_norm": 108.0, "learning_rate": 8.333333333333334e-06, "loss": 22.3863, "step": 5 }, { "epoch": 0.08333333333333333, "grad_norm": 89.5, "learning_rate": 1.6666666666666667e-05, "loss": 20.201, "step": 10 }, { "epoch": 0.125, "grad_norm": 32.0, "learning_rate": 2.5e-05, "loss": 15.5897, "step": 15 }, { "epoch": 0.16666666666666666, "grad_norm": 25.5, "learning_rate": 3.3333333333333335e-05, "loss": 13.9721, "step": 20 }, { "epoch": 0.20833333333333334, "grad_norm": 20.375, "learning_rate": 4.166666666666667e-05, "loss": 12.549, "step": 25 }, { "epoch": 0.25, "grad_norm": 5.15625, "learning_rate": 5e-05, "loss": 9.902, "step": 30 }, { "epoch": 0.2916666666666667, "grad_norm": 7.375, "learning_rate": 5.833333333333334e-05, "loss": 9.2506, "step": 35 }, { "epoch": 0.3333333333333333, "grad_norm": 3.0625, "learning_rate": 6.666666666666667e-05, "loss": 9.3509, "step": 40 }, { "epoch": 0.375, "grad_norm": 6.03125, "learning_rate": 7.500000000000001e-05, "loss": 8.6313, "step": 45 }, { "epoch": 0.4166666666666667, "grad_norm": 10.8125, "learning_rate": 8.333333333333334e-05, "loss": 8.1781, "step": 50 }, { "epoch": 0.4583333333333333, "grad_norm": 21.875, "learning_rate": 9.166666666666667e-05, "loss": 6.1168, "step": 55 }, { "epoch": 0.5, "grad_norm": 3.640625, "learning_rate": 0.0001, "loss": 3.5536, "step": 60 }, { "epoch": 0.5416666666666666, "grad_norm": 2.671875, "learning_rate": 0.00010833333333333333, "loss": 2.7801, "step": 65 }, { "epoch": 0.5833333333333334, "grad_norm": 1.4609375, "learning_rate": 0.00011666666666666668, "loss": 2.9275, "step": 70 }, { "epoch": 0.625, "grad_norm": 1.546875, "learning_rate": 0.000125, "loss": 2.7622, "step": 75 }, { "epoch": 0.6666666666666666, "grad_norm": 6.0625, "learning_rate": 0.00013333333333333334, "loss": 2.8203, "step": 80 }, { "epoch": 0.7083333333333334, "grad_norm": 3.765625, "learning_rate": 0.00014166666666666668, "loss": 2.627, "step": 85 }, { "epoch": 0.75, "grad_norm": 2.03125, "learning_rate": 0.00015000000000000001, "loss": 2.5998, "step": 90 }, { "epoch": 0.7916666666666666, "grad_norm": 2.453125, "learning_rate": 0.00015833333333333332, "loss": 2.638, "step": 95 }, { "epoch": 0.8333333333333334, "grad_norm": 1.8828125, "learning_rate": 0.0001666666666666667, "loss": 2.561, "step": 100 }, { "epoch": 0.875, "grad_norm": 1.5625, "learning_rate": 0.000175, "loss": 2.5675, "step": 105 }, { "epoch": 0.9166666666666666, "grad_norm": 4.0625, "learning_rate": 0.00018333333333333334, "loss": 2.4268, "step": 110 }, { "epoch": 0.9583333333333334, "grad_norm": 1.9296875, "learning_rate": 0.00019166666666666667, "loss": 2.2916, "step": 115 }, { "epoch": 1.0, "grad_norm": 2.234375, "learning_rate": 0.0002, "loss": 2.357, "step": 120 }, { "epoch": 1.0, "eval_loss": 2.2526559829711914, "eval_runtime": 22.5811, "eval_samples_per_second": 4.606, "eval_steps_per_second": 1.151, "step": 120 }, { "epoch": 1.0416666666666667, "grad_norm": 1.3828125, "learning_rate": 0.00019998942319271077, "loss": 2.2039, "step": 125 }, { "epoch": 1.0833333333333333, "grad_norm": 1.890625, "learning_rate": 0.0001999576950082201, "loss": 2.6306, "step": 130 }, { "epoch": 1.125, "grad_norm": 1.546875, "learning_rate": 0.0001999048221581858, "loss": 2.3529, "step": 135 }, { "epoch": 1.1666666666666667, "grad_norm": 1.53125, "learning_rate": 0.00019983081582712685, "loss": 2.1073, "step": 140 }, { "epoch": 1.2083333333333333, "grad_norm": 19.0, "learning_rate": 0.00019973569167005723, "loss": 2.6663, "step": 145 }, { "epoch": 1.25, "grad_norm": 1.59375, "learning_rate": 0.00019961946980917456, "loss": 2.1206, "step": 150 }, { "epoch": 1.2916666666666667, "grad_norm": 1.3828125, "learning_rate": 0.0001994821748296033, "loss": 2.358, "step": 155 }, { "epoch": 1.3333333333333333, "grad_norm": 1.1640625, "learning_rate": 0.00019932383577419432, "loss": 2.2704, "step": 160 }, { "epoch": 1.375, "grad_norm": 2.953125, "learning_rate": 0.00019914448613738106, "loss": 2.4684, "step": 165 }, { "epoch": 1.4166666666666667, "grad_norm": 1.6796875, "learning_rate": 0.00019894416385809444, "loss": 2.2589, "step": 170 }, { "epoch": 1.4583333333333333, "grad_norm": 1.453125, "learning_rate": 0.00019872291131173742, "loss": 2.0498, "step": 175 }, { "epoch": 1.5, "grad_norm": 0.9375, "learning_rate": 0.00019848077530122083, "loss": 2.1424, "step": 180 }, { "epoch": 1.5416666666666665, "grad_norm": 1.3046875, "learning_rate": 0.00019821780704706307, "loss": 2.0694, "step": 185 }, { "epoch": 1.5833333333333335, "grad_norm": 1.5390625, "learning_rate": 0.00019793406217655517, "loss": 2.265, "step": 190 }, { "epoch": 1.625, "grad_norm": 1.4921875, "learning_rate": 0.00019762960071199333, "loss": 2.0767, "step": 195 }, { "epoch": 1.6666666666666665, "grad_norm": 3.671875, "learning_rate": 0.00019730448705798239, "loss": 2.1, "step": 200 }, { "epoch": 1.7083333333333335, "grad_norm": 1.015625, "learning_rate": 0.0001969587899878116, "loss": 2.1602, "step": 205 }, { "epoch": 1.75, "grad_norm": 1.0390625, "learning_rate": 0.00019659258262890683, "loss": 2.0545, "step": 210 }, { "epoch": 1.7916666666666665, "grad_norm": 1.09375, "learning_rate": 0.00019620594244736133, "loss": 2.0273, "step": 215 }, { "epoch": 1.8333333333333335, "grad_norm": 0.90234375, "learning_rate": 0.0001957989512315489, "loss": 2.0589, "step": 220 }, { "epoch": 1.875, "grad_norm": 0.98828125, "learning_rate": 0.0001953716950748227, "loss": 2.2168, "step": 225 }, { "epoch": 1.9166666666666665, "grad_norm": 1.875, "learning_rate": 0.0001949242643573034, "loss": 1.9791, "step": 230 }, { "epoch": 1.9583333333333335, "grad_norm": 2.90625, "learning_rate": 0.0001944567537267605, "loss": 2.244, "step": 235 }, { "epoch": 2.0, "grad_norm": 1.96875, "learning_rate": 0.00019396926207859084, "loss": 1.8805, "step": 240 }, { "epoch": 2.0, "eval_loss": 1.8900933265686035, "eval_runtime": 22.6149, "eval_samples_per_second": 4.599, "eval_steps_per_second": 1.15, "step": 240 }, { "epoch": 2.0416666666666665, "grad_norm": 1.328125, "learning_rate": 0.00019346189253489885, "loss": 1.7162, "step": 245 }, { "epoch": 2.0833333333333335, "grad_norm": 1.140625, "learning_rate": 0.00019293475242268223, "loss": 1.6133, "step": 250 }, { "epoch": 2.125, "grad_norm": 1.4140625, "learning_rate": 0.0001923879532511287, "loss": 1.529, "step": 255 }, { "epoch": 2.1666666666666665, "grad_norm": 1.2421875, "learning_rate": 0.00019182161068802741, "loss": 1.6521, "step": 260 }, { "epoch": 2.2083333333333335, "grad_norm": 1.1484375, "learning_rate": 0.00019123584453530144, "loss": 1.7569, "step": 265 }, { "epoch": 2.25, "grad_norm": 1.390625, "learning_rate": 0.000190630778703665, "loss": 1.4932, "step": 270 }, { "epoch": 2.2916666666666665, "grad_norm": 1.265625, "learning_rate": 0.00019000654118641211, "loss": 1.7407, "step": 275 }, { "epoch": 2.3333333333333335, "grad_norm": 1.7109375, "learning_rate": 0.00018936326403234125, "loss": 1.6984, "step": 280 }, { "epoch": 2.375, "grad_norm": 1.1796875, "learning_rate": 0.00018870108331782217, "loss": 1.7803, "step": 285 }, { "epoch": 2.4166666666666665, "grad_norm": 1.453125, "learning_rate": 0.00018802013911801112, "loss": 1.8513, "step": 290 }, { "epoch": 2.4583333333333335, "grad_norm": 1.1875, "learning_rate": 0.0001873205754772196, "loss": 1.6966, "step": 295 }, { "epoch": 2.5, "grad_norm": 1.390625, "learning_rate": 0.00018660254037844388, "loss": 1.6205, "step": 300 }, { "epoch": 2.5416666666666665, "grad_norm": 1.640625, "learning_rate": 0.00018586618571206134, "loss": 1.8264, "step": 305 }, { "epoch": 2.5833333333333335, "grad_norm": 1.28125, "learning_rate": 0.00018511166724369997, "loss": 1.7517, "step": 310 }, { "epoch": 2.625, "grad_norm": 1.328125, "learning_rate": 0.0001843391445812886, "loss": 1.6381, "step": 315 }, { "epoch": 2.6666666666666665, "grad_norm": 1.5859375, "learning_rate": 0.00018354878114129367, "loss": 1.5737, "step": 320 }, { "epoch": 2.7083333333333335, "grad_norm": 1.375, "learning_rate": 0.00018274074411415105, "loss": 1.4307, "step": 325 }, { "epoch": 2.75, "grad_norm": 2.140625, "learning_rate": 0.0001819152044288992, "loss": 1.5472, "step": 330 }, { "epoch": 2.7916666666666665, "grad_norm": 1.5703125, "learning_rate": 0.00018107233671702124, "loss": 1.6712, "step": 335 }, { "epoch": 2.8333333333333335, "grad_norm": 1.296875, "learning_rate": 0.0001802123192755044, "loss": 1.6829, "step": 340 }, { "epoch": 2.875, "grad_norm": 1.65625, "learning_rate": 0.00017933533402912354, "loss": 1.6765, "step": 345 }, { "epoch": 2.9166666666666665, "grad_norm": 1.234375, "learning_rate": 0.00017844156649195759, "loss": 1.534, "step": 350 }, { "epoch": 2.9583333333333335, "grad_norm": 1.40625, "learning_rate": 0.0001775312057281466, "loss": 1.4458, "step": 355 }, { "epoch": 3.0, "grad_norm": 1.484375, "learning_rate": 0.0001766044443118978, "loss": 1.5884, "step": 360 }, { "epoch": 3.0, "eval_loss": 1.6506251096725464, "eval_runtime": 22.6518, "eval_samples_per_second": 4.591, "eval_steps_per_second": 1.148, "step": 360 }, { "epoch": 3.0416666666666665, "grad_norm": 1.671875, "learning_rate": 0.00017566147828674931, "loss": 1.1334, "step": 365 }, { "epoch": 3.0833333333333335, "grad_norm": 2.359375, "learning_rate": 0.0001747025071240996, "loss": 1.3137, "step": 370 }, { "epoch": 3.125, "grad_norm": 1.34375, "learning_rate": 0.0001737277336810124, "loss": 1.2017, "step": 375 }, { "epoch": 3.1666666666666665, "grad_norm": 1.6484375, "learning_rate": 0.00017273736415730488, "loss": 1.2455, "step": 380 }, { "epoch": 3.2083333333333335, "grad_norm": 1.828125, "learning_rate": 0.00017173160805192893, "loss": 1.041, "step": 385 }, { "epoch": 3.25, "grad_norm": 1.609375, "learning_rate": 0.00017071067811865476, "loss": 1.1316, "step": 390 }, { "epoch": 3.2916666666666665, "grad_norm": 1.53125, "learning_rate": 0.0001696747903210655, "loss": 0.8524, "step": 395 }, { "epoch": 3.3333333333333335, "grad_norm": 1.4609375, "learning_rate": 0.0001686241637868734, "loss": 1.0369, "step": 400 }, { "epoch": 3.375, "grad_norm": 2.0, "learning_rate": 0.00016755902076156604, "loss": 1.0085, "step": 405 }, { "epoch": 3.4166666666666665, "grad_norm": 1.3359375, "learning_rate": 0.00016647958656139378, "loss": 1.275, "step": 410 }, { "epoch": 3.4583333333333335, "grad_norm": 1.5625, "learning_rate": 0.00016538608952570698, "loss": 1.2037, "step": 415 }, { "epoch": 3.5, "grad_norm": 1.4921875, "learning_rate": 0.00016427876096865394, "loss": 0.9427, "step": 420 }, { "epoch": 3.5416666666666665, "grad_norm": 1.46875, "learning_rate": 0.00016315783513024977, "loss": 1.0746, "step": 425 }, { "epoch": 3.5833333333333335, "grad_norm": 1.7109375, "learning_rate": 0.000162023549126826, "loss": 1.1905, "step": 430 }, { "epoch": 3.625, "grad_norm": 1.546875, "learning_rate": 0.00016087614290087208, "loss": 1.047, "step": 435 }, { "epoch": 3.6666666666666665, "grad_norm": 1.8515625, "learning_rate": 0.00015971585917027862, "loss": 0.9996, "step": 440 }, { "epoch": 3.7083333333333335, "grad_norm": 1.609375, "learning_rate": 0.00015854294337699408, "loss": 1.0106, "step": 445 }, { "epoch": 3.75, "grad_norm": 1.328125, "learning_rate": 0.0001573576436351046, "loss": 1.6606, "step": 450 }, { "epoch": 3.7916666666666665, "grad_norm": 1.6484375, "learning_rate": 0.0001561602106783493, "loss": 0.9552, "step": 455 }, { "epoch": 3.8333333333333335, "grad_norm": 1.7734375, "learning_rate": 0.0001549508978070806, "loss": 1.2775, "step": 460 }, { "epoch": 3.875, "grad_norm": 1.59375, "learning_rate": 0.0001537299608346824, "loss": 0.8644, "step": 465 }, { "epoch": 3.9166666666666665, "grad_norm": 1.65625, "learning_rate": 0.000152497658033456, "loss": 1.1973, "step": 470 }, { "epoch": 3.9583333333333335, "grad_norm": 1.7578125, "learning_rate": 0.00015125425007998653, "loss": 1.0881, "step": 475 }, { "epoch": 4.0, "grad_norm": 1.421875, "learning_rate": 0.00015000000000000001, "loss": 0.976, "step": 480 }, { "epoch": 4.0, "eval_loss": 1.4923341274261475, "eval_runtime": 22.6533, "eval_samples_per_second": 4.591, "eval_steps_per_second": 1.148, "step": 480 }, { "epoch": 4.041666666666667, "grad_norm": 1.9609375, "learning_rate": 0.00014873517311272423, "loss": 0.8099, "step": 485 }, { "epoch": 4.083333333333333, "grad_norm": 1.578125, "learning_rate": 0.00014746003697476404, "loss": 0.7811, "step": 490 }, { "epoch": 4.125, "grad_norm": 1.71875, "learning_rate": 0.00014617486132350343, "loss": 0.891, "step": 495 }, { "epoch": 4.166666666666667, "grad_norm": 1.5390625, "learning_rate": 0.00014487991802004623, "loss": 1.0188, "step": 500 }, { "epoch": 4.208333333333333, "grad_norm": 1.9140625, "learning_rate": 0.00014357548099170795, "loss": 0.7671, "step": 505 }, { "epoch": 4.25, "grad_norm": 1.6953125, "learning_rate": 0.00014226182617406996, "loss": 0.656, "step": 510 }, { "epoch": 4.291666666666667, "grad_norm": 1.4609375, "learning_rate": 0.00014093923145260925, "loss": 0.7351, "step": 515 }, { "epoch": 4.333333333333333, "grad_norm": 1.6015625, "learning_rate": 0.0001396079766039157, "loss": 0.6366, "step": 520 }, { "epoch": 4.375, "grad_norm": 1.921875, "learning_rate": 0.000138268343236509, "loss": 1.1278, "step": 525 }, { "epoch": 4.416666666666667, "grad_norm": 1.421875, "learning_rate": 0.00013692061473126845, "loss": 0.5021, "step": 530 }, { "epoch": 4.458333333333333, "grad_norm": 1.5859375, "learning_rate": 0.0001355650761814877, "loss": 0.7822, "step": 535 }, { "epoch": 4.5, "grad_norm": 1.7890625, "learning_rate": 0.00013420201433256689, "loss": 0.653, "step": 540 }, { "epoch": 4.541666666666667, "grad_norm": 1.59375, "learning_rate": 0.00013283171752135614, "loss": 0.7442, "step": 545 }, { "epoch": 4.583333333333333, "grad_norm": 1.5625, "learning_rate": 0.00013145447561516138, "loss": 0.7451, "step": 550 }, { "epoch": 4.625, "grad_norm": 1.890625, "learning_rate": 0.00013007057995042732, "loss": 0.8068, "step": 555 }, { "epoch": 4.666666666666667, "grad_norm": 1.6328125, "learning_rate": 0.00012868032327110904, "loss": 0.5302, "step": 560 }, { "epoch": 4.708333333333333, "grad_norm": 1.9765625, "learning_rate": 0.00012728399966674612, "loss": 0.8653, "step": 565 }, { "epoch": 4.75, "grad_norm": 1.578125, "learning_rate": 0.00012588190451025207, "loss": 0.6963, "step": 570 }, { "epoch": 4.791666666666667, "grad_norm": 1.875, "learning_rate": 0.0001244743343954324, "loss": 0.9519, "step": 575 }, { "epoch": 4.833333333333333, "grad_norm": 1.7265625, "learning_rate": 0.00012306158707424403, "loss": 0.7992, "step": 580 }, { "epoch": 4.875, "grad_norm": 1.625, "learning_rate": 0.00012164396139381029, "loss": 0.6708, "step": 585 }, { "epoch": 4.916666666666667, "grad_norm": 1.921875, "learning_rate": 0.00012022175723320381, "loss": 0.5493, "step": 590 }, { "epoch": 4.958333333333333, "grad_norm": 1.703125, "learning_rate": 0.00011879527544001119, "loss": 0.4953, "step": 595 }, { "epoch": 5.0, "grad_norm": 1.4375, "learning_rate": 0.00011736481776669306, "loss": 0.494, "step": 600 }, { "epoch": 5.0, "eval_loss": 1.4527199268341064, "eval_runtime": 22.5273, "eval_samples_per_second": 4.617, "eval_steps_per_second": 1.154, "step": 600 }, { "epoch": 5.041666666666667, "grad_norm": 1.8125, "learning_rate": 0.00011593068680675228, "loss": 0.4172, "step": 605 }, { "epoch": 5.083333333333333, "grad_norm": 1.6640625, "learning_rate": 0.00011449318593072466, "loss": 0.515, "step": 610 }, { "epoch": 5.125, "grad_norm": 1.3984375, "learning_rate": 0.00011305261922200519, "loss": 0.3984, "step": 615 }, { "epoch": 5.166666666666667, "grad_norm": 1.7734375, "learning_rate": 0.00011160929141252303, "loss": 0.3962, "step": 620 }, { "epoch": 5.208333333333333, "grad_norm": 1.5625, "learning_rate": 0.00011016350781828019, "loss": 0.5541, "step": 625 }, { "epoch": 5.25, "grad_norm": 1.5546875, "learning_rate": 0.00010871557427476583, "loss": 0.5564, "step": 630 }, { "epoch": 5.291666666666667, "grad_norm": 1.3671875, "learning_rate": 0.00010726579707226108, "loss": 0.6518, "step": 635 }, { "epoch": 5.333333333333333, "grad_norm": 1.53125, "learning_rate": 0.00010581448289104758, "loss": 0.4448, "step": 640 }, { "epoch": 5.375, "grad_norm": 1.4609375, "learning_rate": 0.00010436193873653361, "loss": 0.4689, "step": 645 }, { "epoch": 5.416666666666667, "grad_norm": 1.578125, "learning_rate": 0.00010290847187431113, "loss": 0.3511, "step": 650 }, { "epoch": 5.458333333333333, "grad_norm": 1.515625, "learning_rate": 0.00010145438976515828, "loss": 0.5423, "step": 655 }, { "epoch": 5.5, "grad_norm": 1.6015625, "learning_rate": 0.0001, "loss": 0.5626, "step": 660 }, { "epoch": 5.541666666666667, "grad_norm": 1.3359375, "learning_rate": 9.854561023484173e-05, "loss": 0.5551, "step": 665 }, { "epoch": 5.583333333333333, "grad_norm": 2.015625, "learning_rate": 9.709152812568886e-05, "loss": 0.3925, "step": 670 }, { "epoch": 5.625, "grad_norm": 1.5546875, "learning_rate": 9.563806126346642e-05, "loss": 0.5825, "step": 675 }, { "epoch": 5.666666666666667, "grad_norm": 1.6484375, "learning_rate": 9.418551710895243e-05, "loss": 0.4172, "step": 680 }, { "epoch": 5.708333333333333, "grad_norm": 1.6484375, "learning_rate": 9.273420292773894e-05, "loss": 0.8449, "step": 685 }, { "epoch": 5.75, "grad_norm": 1.75, "learning_rate": 9.128442572523417e-05, "loss": 0.6815, "step": 690 }, { "epoch": 5.791666666666667, "grad_norm": 1.40625, "learning_rate": 8.983649218171982e-05, "loss": 0.5505, "step": 695 }, { "epoch": 5.833333333333333, "grad_norm": 1.5703125, "learning_rate": 8.839070858747697e-05, "loss": 0.3779, "step": 700 }, { "epoch": 5.875, "grad_norm": 1.46875, "learning_rate": 8.694738077799488e-05, "loss": 0.4549, "step": 705 }, { "epoch": 5.916666666666667, "grad_norm": 1.4921875, "learning_rate": 8.550681406927535e-05, "loss": 0.6878, "step": 710 }, { "epoch": 5.958333333333333, "grad_norm": 1.65625, "learning_rate": 8.406931319324776e-05, "loss": 0.4205, "step": 715 }, { "epoch": 6.0, "grad_norm": 1.2109375, "learning_rate": 8.263518223330697e-05, "loss": 0.6722, "step": 720 }, { "epoch": 6.0, "eval_loss": 1.525636911392212, "eval_runtime": 22.6057, "eval_samples_per_second": 4.601, "eval_steps_per_second": 1.15, "step": 720 }, { "epoch": 6.041666666666667, "grad_norm": 1.1484375, "learning_rate": 8.120472455998882e-05, "loss": 0.4366, "step": 725 }, { "epoch": 6.083333333333333, "grad_norm": 1.75, "learning_rate": 7.977824276679623e-05, "loss": 0.436, "step": 730 }, { "epoch": 6.125, "grad_norm": 1.21875, "learning_rate": 7.835603860618972e-05, "loss": 0.2727, "step": 735 }, { "epoch": 6.166666666666667, "grad_norm": 1.4296875, "learning_rate": 7.693841292575598e-05, "loss": 0.2859, "step": 740 }, { "epoch": 6.208333333333333, "grad_norm": 1.4375, "learning_rate": 7.552566560456762e-05, "loss": 0.1582, "step": 745 }, { "epoch": 6.25, "grad_norm": 1.2734375, "learning_rate": 7.411809548974792e-05, "loss": 0.9857, "step": 750 }, { "epoch": 6.291666666666667, "grad_norm": 1.4296875, "learning_rate": 7.271600033325393e-05, "loss": 0.179, "step": 755 }, { "epoch": 6.333333333333333, "grad_norm": 1.265625, "learning_rate": 7.131967672889101e-05, "loss": 0.3008, "step": 760 }, { "epoch": 6.375, "grad_norm": 1.5234375, "learning_rate": 6.992942004957271e-05, "loss": 0.5605, "step": 765 }, { "epoch": 6.416666666666667, "grad_norm": 1.4453125, "learning_rate": 6.854552438483865e-05, "loss": 0.7157, "step": 770 }, { "epoch": 6.458333333333333, "grad_norm": 1.421875, "learning_rate": 6.71682824786439e-05, "loss": 0.553, "step": 775 }, { "epoch": 6.5, "grad_norm": 1.4453125, "learning_rate": 6.579798566743314e-05, "loss": 0.3089, "step": 780 }, { "epoch": 6.541666666666667, "grad_norm": 1.140625, "learning_rate": 6.443492381851237e-05, "loss": 0.3487, "step": 785 }, { "epoch": 6.583333333333333, "grad_norm": 1.140625, "learning_rate": 6.307938526873157e-05, "loss": 0.1653, "step": 790 }, { "epoch": 6.625, "grad_norm": 1.4140625, "learning_rate": 6.173165676349103e-05, "loss": 0.1644, "step": 795 }, { "epoch": 6.666666666666667, "grad_norm": 1.21875, "learning_rate": 6.039202339608432e-05, "loss": 0.6784, "step": 800 }, { "epoch": 6.708333333333333, "grad_norm": 1.21875, "learning_rate": 5.906076854739074e-05, "loss": 0.1487, "step": 805 }, { "epoch": 6.75, "grad_norm": 1.1171875, "learning_rate": 5.773817382593008e-05, "loss": 0.4259, "step": 810 }, { "epoch": 6.791666666666667, "grad_norm": 1.0703125, "learning_rate": 5.642451900829209e-05, "loss": 0.2837, "step": 815 }, { "epoch": 6.833333333333333, "grad_norm": 1.3359375, "learning_rate": 5.5120081979953785e-05, "loss": 0.5631, "step": 820 }, { "epoch": 6.875, "grad_norm": 1.1328125, "learning_rate": 5.382513867649663e-05, "loss": 0.2979, "step": 825 }, { "epoch": 6.916666666666667, "grad_norm": 1.171875, "learning_rate": 5.253996302523596e-05, "loss": 0.5848, "step": 830 }, { "epoch": 6.958333333333333, "grad_norm": 1.2421875, "learning_rate": 5.1264826887275776e-05, "loss": 0.4305, "step": 835 }, { "epoch": 7.0, "grad_norm": 1.234375, "learning_rate": 5.000000000000002e-05, "loss": 0.4155, "step": 840 }, { "epoch": 7.0, "eval_loss": 1.6936991214752197, "eval_runtime": 22.6399, "eval_samples_per_second": 4.594, "eval_steps_per_second": 1.148, "step": 840 }, { "epoch": 7.041666666666667, "grad_norm": 0.73828125, "learning_rate": 4.8745749920013486e-05, "loss": 0.6698, "step": 845 }, { "epoch": 7.083333333333333, "grad_norm": 0.875, "learning_rate": 4.7502341966544e-05, "loss": 0.2309, "step": 850 }, { "epoch": 7.125, "grad_norm": 1.078125, "learning_rate": 4.6270039165317605e-05, "loss": 0.2385, "step": 855 }, { "epoch": 7.166666666666667, "grad_norm": 1.03125, "learning_rate": 4.50491021929194e-05, "loss": 0.2467, "step": 860 }, { "epoch": 7.208333333333333, "grad_norm": 0.86328125, "learning_rate": 4.383978932165073e-05, "loss": 0.221, "step": 865 }, { "epoch": 7.25, "grad_norm": 0.8828125, "learning_rate": 4.264235636489542e-05, "loss": 0.2445, "step": 870 }, { "epoch": 7.291666666666667, "grad_norm": 0.80859375, "learning_rate": 4.145705662300595e-05, "loss": 0.3784, "step": 875 }, { "epoch": 7.333333333333333, "grad_norm": 0.85546875, "learning_rate": 4.028414082972141e-05, "loss": 0.3635, "step": 880 }, { "epoch": 7.375, "grad_norm": 1.0078125, "learning_rate": 3.9123857099127936e-05, "loss": 0.2154, "step": 885 }, { "epoch": 7.416666666666667, "grad_norm": 1.1015625, "learning_rate": 3.7976450873174005e-05, "loss": 0.3507, "step": 890 }, { "epoch": 7.458333333333333, "grad_norm": 0.79296875, "learning_rate": 3.684216486975026e-05, "loss": 0.4884, "step": 895 }, { "epoch": 7.5, "grad_norm": 0.90234375, "learning_rate": 3.5721239031346066e-05, "loss": 0.4011, "step": 900 }, { "epoch": 7.541666666666667, "grad_norm": 1.1328125, "learning_rate": 3.461391047429304e-05, "loss": 0.6994, "step": 905 }, { "epoch": 7.583333333333333, "grad_norm": 1.3671875, "learning_rate": 3.352041343860621e-05, "loss": 0.2219, "step": 910 }, { "epoch": 7.625, "grad_norm": 0.87890625, "learning_rate": 3.244097923843398e-05, "loss": 0.2272, "step": 915 }, { "epoch": 7.666666666666667, "grad_norm": 0.80859375, "learning_rate": 3.137583621312665e-05, "loss": 0.3568, "step": 920 }, { "epoch": 7.708333333333333, "grad_norm": 1.1953125, "learning_rate": 3.032520967893453e-05, "loss": 0.3737, "step": 925 }, { "epoch": 7.75, "grad_norm": 1.0234375, "learning_rate": 2.9289321881345254e-05, "loss": 0.2172, "step": 930 }, { "epoch": 7.791666666666667, "grad_norm": 0.91015625, "learning_rate": 2.826839194807105e-05, "loss": 0.224, "step": 935 }, { "epoch": 7.833333333333333, "grad_norm": 1.0859375, "learning_rate": 2.7262635842695127e-05, "loss": 0.5041, "step": 940 }, { "epoch": 7.875, "grad_norm": 0.85546875, "learning_rate": 2.6272266318987603e-05, "loss": 0.2266, "step": 945 }, { "epoch": 7.916666666666667, "grad_norm": 0.9921875, "learning_rate": 2.529749287590042e-05, "loss": 0.218, "step": 950 }, { "epoch": 7.958333333333333, "grad_norm": 1.125, "learning_rate": 2.433852171325072e-05, "loss": 0.3768, "step": 955 }, { "epoch": 8.0, "grad_norm": 0.7578125, "learning_rate": 2.339555568810221e-05, "loss": 0.3646, "step": 960 }, { "epoch": 8.0, "eval_loss": 1.938859462738037, "eval_runtime": 22.6326, "eval_samples_per_second": 4.595, "eval_steps_per_second": 1.149, "step": 960 }, { "epoch": 8.041666666666666, "grad_norm": 0.5546875, "learning_rate": 2.246879427185341e-05, "loss": 0.5024, "step": 965 }, { "epoch": 8.083333333333334, "grad_norm": 0.64453125, "learning_rate": 2.155843350804243e-05, "loss": 0.3399, "step": 970 }, { "epoch": 8.125, "grad_norm": 0.466796875, "learning_rate": 2.0664665970876496e-05, "loss": 0.3527, "step": 975 }, { "epoch": 8.166666666666666, "grad_norm": 0.72265625, "learning_rate": 1.9787680724495617e-05, "loss": 0.217, "step": 980 }, { "epoch": 8.208333333333334, "grad_norm": 0.79296875, "learning_rate": 1.892766328297878e-05, "loss": 0.0848, "step": 985 }, { "epoch": 8.25, "grad_norm": 0.6015625, "learning_rate": 1.808479557110081e-05, "loss": 0.3246, "step": 990 }, { "epoch": 8.291666666666666, "grad_norm": 0.5703125, "learning_rate": 1.7259255885848946e-05, "loss": 0.2188, "step": 995 }, { "epoch": 8.333333333333334, "grad_norm": 0.83203125, "learning_rate": 1.6451218858706374e-05, "loss": 0.2043, "step": 1000 }, { "epoch": 8.375, "grad_norm": 0.5234375, "learning_rate": 1.566085541871145e-05, "loss": 0.4651, "step": 1005 }, { "epoch": 8.416666666666666, "grad_norm": 0.6640625, "learning_rate": 1.4888332756300027e-05, "loss": 0.2083, "step": 1010 }, { "epoch": 8.458333333333334, "grad_norm": 0.609375, "learning_rate": 1.4133814287938706e-05, "loss": 0.3251, "step": 1015 }, { "epoch": 8.5, "grad_norm": 0.53515625, "learning_rate": 1.339745962155613e-05, "loss": 0.2172, "step": 1020 }, { "epoch": 8.541666666666666, "grad_norm": 0.82421875, "learning_rate": 1.2679424522780426e-05, "loss": 0.4828, "step": 1025 }, { "epoch": 8.583333333333334, "grad_norm": 0.6484375, "learning_rate": 1.1979860881988902e-05, "loss": 0.0766, "step": 1030 }, { "epoch": 8.625, "grad_norm": 0.58203125, "learning_rate": 1.129891668217783e-05, "loss": 0.0783, "step": 1035 }, { "epoch": 8.666666666666666, "grad_norm": 0.65234375, "learning_rate": 1.0636735967658784e-05, "loss": 0.4582, "step": 1040 }, { "epoch": 8.708333333333334, "grad_norm": 0.52734375, "learning_rate": 9.993458813587885e-06, "loss": 0.3475, "step": 1045 }, { "epoch": 8.75, "grad_norm": 0.61328125, "learning_rate": 9.369221296335006e-06, "loss": 0.2503, "step": 1050 }, { "epoch": 8.791666666666666, "grad_norm": 0.73046875, "learning_rate": 8.764155464698597e-06, "loss": 0.341, "step": 1055 }, { "epoch": 8.833333333333334, "grad_norm": 0.83984375, "learning_rate": 8.178389311972612e-06, "loss": 0.8334, "step": 1060 }, { "epoch": 8.875, "grad_norm": 0.51953125, "learning_rate": 7.612046748871327e-06, "loss": 0.0811, "step": 1065 }, { "epoch": 8.916666666666666, "grad_norm": 1.015625, "learning_rate": 7.0652475773177464e-06, "loss": 0.774, "step": 1070 }, { "epoch": 8.958333333333334, "grad_norm": 0.59375, "learning_rate": 6.538107465101162e-06, "loss": 0.0741, "step": 1075 }, { "epoch": 9.0, "grad_norm": 0.7578125, "learning_rate": 6.030737921409169e-06, "loss": 0.1977, "step": 1080 }, { "epoch": 9.0, "eval_loss": 2.0741000175476074, "eval_runtime": 22.6206, "eval_samples_per_second": 4.598, "eval_steps_per_second": 1.149, "step": 1080 }, { "epoch": 9.041666666666666, "grad_norm": 0.58203125, "learning_rate": 5.543246273239533e-06, "loss": 0.2191, "step": 1085 }, { "epoch": 9.083333333333334, "grad_norm": 0.53515625, "learning_rate": 5.075735642696611e-06, "loss": 0.4713, "step": 1090 }, { "epoch": 9.125, "grad_norm": 0.78125, "learning_rate": 4.628304925177318e-06, "loss": 0.3392, "step": 1095 }, { "epoch": 9.166666666666666, "grad_norm": 0.62890625, "learning_rate": 4.20104876845111e-06, "loss": 0.0738, "step": 1100 }, { "epoch": 9.208333333333334, "grad_norm": 0.5, "learning_rate": 3.7940575526386857e-06, "loss": 0.2017, "step": 1105 }, { "epoch": 9.25, "grad_norm": 0.78125, "learning_rate": 3.40741737109318e-06, "loss": 0.3269, "step": 1110 }, { "epoch": 9.291666666666666, "grad_norm": 0.6796875, "learning_rate": 3.0412100121884e-06, "loss": 0.3239, "step": 1115 }, { "epoch": 9.333333333333334, "grad_norm": 0.43359375, "learning_rate": 2.6955129420176196e-06, "loss": 0.0673, "step": 1120 }, { "epoch": 9.375, "grad_norm": 0.5, "learning_rate": 2.3703992880066638e-06, "loss": 0.3198, "step": 1125 }, { "epoch": 9.416666666666666, "grad_norm": 0.8359375, "learning_rate": 2.0659378234448525e-06, "loss": 0.7339, "step": 1130 }, { "epoch": 9.458333333333334, "grad_norm": 0.828125, "learning_rate": 1.7821929529369342e-06, "loss": 0.3398, "step": 1135 }, { "epoch": 9.5, "grad_norm": 0.6015625, "learning_rate": 1.5192246987791981e-06, "loss": 0.1931, "step": 1140 }, { "epoch": 9.541666666666666, "grad_norm": 0.6015625, "learning_rate": 1.2770886882625955e-06, "loss": 0.469, "step": 1145 }, { "epoch": 9.583333333333334, "grad_norm": 0.62109375, "learning_rate": 1.055836141905553e-06, "loss": 0.2, "step": 1150 }, { "epoch": 9.625, "grad_norm": 0.53125, "learning_rate": 8.555138626189618e-07, "loss": 0.4784, "step": 1155 }, { "epoch": 9.666666666666666, "grad_norm": 0.66015625, "learning_rate": 6.761642258056978e-07, "loss": 0.1963, "step": 1160 }, { "epoch": 9.708333333333334, "grad_norm": 0.54296875, "learning_rate": 5.178251703967018e-07, "loss": 0.3549, "step": 1165 }, { "epoch": 9.75, "grad_norm": 0.6875, "learning_rate": 3.805301908254455e-07, "loss": 0.4622, "step": 1170 }, { "epoch": 9.791666666666666, "grad_norm": 0.5546875, "learning_rate": 2.643083299427751e-07, "loss": 0.1921, "step": 1175 }, { "epoch": 9.833333333333334, "grad_norm": 0.515625, "learning_rate": 1.6918417287318245e-07, "loss": 0.1627, "step": 1180 }, { "epoch": 9.875, "grad_norm": 0.78125, "learning_rate": 9.517784181422019e-08, "loss": 0.6005, "step": 1185 }, { "epoch": 9.916666666666666, "grad_norm": 0.56640625, "learning_rate": 4.230499177994007e-08, "loss": 0.216, "step": 1190 }, { "epoch": 9.958333333333334, "grad_norm": 0.625, "learning_rate": 1.0576807289253143e-08, "loss": 0.3567, "step": 1195 }, { "epoch": 10.0, "grad_norm": 0.546875, "learning_rate": 0.0, "loss": 0.072, "step": 1200 }, { "epoch": 10.0, "eval_loss": 2.0755438804626465, "eval_runtime": 22.4954, "eval_samples_per_second": 4.623, "eval_steps_per_second": 1.156, "step": 1200 }, { "epoch": 10.0, "step": 1200, "total_flos": 4.601366288709714e+17, "train_loss": 1.470840223133564, "train_runtime": 6806.2457, "train_samples_per_second": 1.408, "train_steps_per_second": 0.176 } ], "logging_steps": 5, "max_steps": 1200, "num_input_tokens_seen": 0, "num_train_epochs": 10, "save_steps": 100, "total_flos": 4.601366288709714e+17, "train_batch_size": 2, "trial_name": null, "trial_params": null }