|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 10.0, |
|
"eval_steps": 500, |
|
"global_step": 1200, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.008333333333333333, |
|
"grad_norm": 120.0, |
|
"learning_rate": 1.6666666666666667e-06, |
|
"loss": 23.2208, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.041666666666666664, |
|
"grad_norm": 108.0, |
|
"learning_rate": 8.333333333333334e-06, |
|
"loss": 22.3863, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.08333333333333333, |
|
"grad_norm": 89.5, |
|
"learning_rate": 1.6666666666666667e-05, |
|
"loss": 20.201, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.125, |
|
"grad_norm": 32.0, |
|
"learning_rate": 2.5e-05, |
|
"loss": 15.5897, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"grad_norm": 25.5, |
|
"learning_rate": 3.3333333333333335e-05, |
|
"loss": 13.9721, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.20833333333333334, |
|
"grad_norm": 20.375, |
|
"learning_rate": 4.166666666666667e-05, |
|
"loss": 12.549, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"grad_norm": 5.15625, |
|
"learning_rate": 5e-05, |
|
"loss": 9.902, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.2916666666666667, |
|
"grad_norm": 7.375, |
|
"learning_rate": 5.833333333333334e-05, |
|
"loss": 9.2506, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"grad_norm": 3.0625, |
|
"learning_rate": 6.666666666666667e-05, |
|
"loss": 9.3509, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.375, |
|
"grad_norm": 6.03125, |
|
"learning_rate": 7.500000000000001e-05, |
|
"loss": 8.6313, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 0.4166666666666667, |
|
"grad_norm": 10.8125, |
|
"learning_rate": 8.333333333333334e-05, |
|
"loss": 8.1781, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.4583333333333333, |
|
"grad_norm": 21.875, |
|
"learning_rate": 9.166666666666667e-05, |
|
"loss": 6.1168, |
|
"step": 55 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 3.640625, |
|
"learning_rate": 0.0001, |
|
"loss": 3.5536, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.5416666666666666, |
|
"grad_norm": 2.671875, |
|
"learning_rate": 0.00010833333333333333, |
|
"loss": 2.7801, |
|
"step": 65 |
|
}, |
|
{ |
|
"epoch": 0.5833333333333334, |
|
"grad_norm": 1.4609375, |
|
"learning_rate": 0.00011666666666666668, |
|
"loss": 2.9275, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 0.625, |
|
"grad_norm": 1.546875, |
|
"learning_rate": 0.000125, |
|
"loss": 2.7622, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 6.0625, |
|
"learning_rate": 0.00013333333333333334, |
|
"loss": 2.8203, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 0.7083333333333334, |
|
"grad_norm": 3.765625, |
|
"learning_rate": 0.00014166666666666668, |
|
"loss": 2.627, |
|
"step": 85 |
|
}, |
|
{ |
|
"epoch": 0.75, |
|
"grad_norm": 2.03125, |
|
"learning_rate": 0.00015000000000000001, |
|
"loss": 2.5998, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 0.7916666666666666, |
|
"grad_norm": 2.453125, |
|
"learning_rate": 0.00015833333333333332, |
|
"loss": 2.638, |
|
"step": 95 |
|
}, |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"grad_norm": 1.8828125, |
|
"learning_rate": 0.0001666666666666667, |
|
"loss": 2.561, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.875, |
|
"grad_norm": 1.5625, |
|
"learning_rate": 0.000175, |
|
"loss": 2.5675, |
|
"step": 105 |
|
}, |
|
{ |
|
"epoch": 0.9166666666666666, |
|
"grad_norm": 4.0625, |
|
"learning_rate": 0.00018333333333333334, |
|
"loss": 2.4268, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 0.9583333333333334, |
|
"grad_norm": 1.9296875, |
|
"learning_rate": 0.00019166666666666667, |
|
"loss": 2.2916, |
|
"step": 115 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 2.234375, |
|
"learning_rate": 0.0002, |
|
"loss": 2.357, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"eval_loss": 2.2526559829711914, |
|
"eval_runtime": 22.5811, |
|
"eval_samples_per_second": 4.606, |
|
"eval_steps_per_second": 1.151, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 1.0416666666666667, |
|
"grad_norm": 1.3828125, |
|
"learning_rate": 0.00019998942319271077, |
|
"loss": 2.2039, |
|
"step": 125 |
|
}, |
|
{ |
|
"epoch": 1.0833333333333333, |
|
"grad_norm": 1.890625, |
|
"learning_rate": 0.0001999576950082201, |
|
"loss": 2.6306, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 1.125, |
|
"grad_norm": 1.546875, |
|
"learning_rate": 0.0001999048221581858, |
|
"loss": 2.3529, |
|
"step": 135 |
|
}, |
|
{ |
|
"epoch": 1.1666666666666667, |
|
"grad_norm": 1.53125, |
|
"learning_rate": 0.00019983081582712685, |
|
"loss": 2.1073, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 1.2083333333333333, |
|
"grad_norm": 19.0, |
|
"learning_rate": 0.00019973569167005723, |
|
"loss": 2.6663, |
|
"step": 145 |
|
}, |
|
{ |
|
"epoch": 1.25, |
|
"grad_norm": 1.59375, |
|
"learning_rate": 0.00019961946980917456, |
|
"loss": 2.1206, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 1.2916666666666667, |
|
"grad_norm": 1.3828125, |
|
"learning_rate": 0.0001994821748296033, |
|
"loss": 2.358, |
|
"step": 155 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"grad_norm": 1.1640625, |
|
"learning_rate": 0.00019932383577419432, |
|
"loss": 2.2704, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 1.375, |
|
"grad_norm": 2.953125, |
|
"learning_rate": 0.00019914448613738106, |
|
"loss": 2.4684, |
|
"step": 165 |
|
}, |
|
{ |
|
"epoch": 1.4166666666666667, |
|
"grad_norm": 1.6796875, |
|
"learning_rate": 0.00019894416385809444, |
|
"loss": 2.2589, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 1.4583333333333333, |
|
"grad_norm": 1.453125, |
|
"learning_rate": 0.00019872291131173742, |
|
"loss": 2.0498, |
|
"step": 175 |
|
}, |
|
{ |
|
"epoch": 1.5, |
|
"grad_norm": 0.9375, |
|
"learning_rate": 0.00019848077530122083, |
|
"loss": 2.1424, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 1.5416666666666665, |
|
"grad_norm": 1.3046875, |
|
"learning_rate": 0.00019821780704706307, |
|
"loss": 2.0694, |
|
"step": 185 |
|
}, |
|
{ |
|
"epoch": 1.5833333333333335, |
|
"grad_norm": 1.5390625, |
|
"learning_rate": 0.00019793406217655517, |
|
"loss": 2.265, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 1.625, |
|
"grad_norm": 1.4921875, |
|
"learning_rate": 0.00019762960071199333, |
|
"loss": 2.0767, |
|
"step": 195 |
|
}, |
|
{ |
|
"epoch": 1.6666666666666665, |
|
"grad_norm": 3.671875, |
|
"learning_rate": 0.00019730448705798239, |
|
"loss": 2.1, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 1.7083333333333335, |
|
"grad_norm": 1.015625, |
|
"learning_rate": 0.0001969587899878116, |
|
"loss": 2.1602, |
|
"step": 205 |
|
}, |
|
{ |
|
"epoch": 1.75, |
|
"grad_norm": 1.0390625, |
|
"learning_rate": 0.00019659258262890683, |
|
"loss": 2.0545, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 1.7916666666666665, |
|
"grad_norm": 1.09375, |
|
"learning_rate": 0.00019620594244736133, |
|
"loss": 2.0273, |
|
"step": 215 |
|
}, |
|
{ |
|
"epoch": 1.8333333333333335, |
|
"grad_norm": 0.90234375, |
|
"learning_rate": 0.0001957989512315489, |
|
"loss": 2.0589, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 1.875, |
|
"grad_norm": 0.98828125, |
|
"learning_rate": 0.0001953716950748227, |
|
"loss": 2.2168, |
|
"step": 225 |
|
}, |
|
{ |
|
"epoch": 1.9166666666666665, |
|
"grad_norm": 1.875, |
|
"learning_rate": 0.0001949242643573034, |
|
"loss": 1.9791, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 1.9583333333333335, |
|
"grad_norm": 2.90625, |
|
"learning_rate": 0.0001944567537267605, |
|
"loss": 2.244, |
|
"step": 235 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 1.96875, |
|
"learning_rate": 0.00019396926207859084, |
|
"loss": 1.8805, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"eval_loss": 1.8900933265686035, |
|
"eval_runtime": 22.6149, |
|
"eval_samples_per_second": 4.599, |
|
"eval_steps_per_second": 1.15, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 2.0416666666666665, |
|
"grad_norm": 1.328125, |
|
"learning_rate": 0.00019346189253489885, |
|
"loss": 1.7162, |
|
"step": 245 |
|
}, |
|
{ |
|
"epoch": 2.0833333333333335, |
|
"grad_norm": 1.140625, |
|
"learning_rate": 0.00019293475242268223, |
|
"loss": 1.6133, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 2.125, |
|
"grad_norm": 1.4140625, |
|
"learning_rate": 0.0001923879532511287, |
|
"loss": 1.529, |
|
"step": 255 |
|
}, |
|
{ |
|
"epoch": 2.1666666666666665, |
|
"grad_norm": 1.2421875, |
|
"learning_rate": 0.00019182161068802741, |
|
"loss": 1.6521, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 2.2083333333333335, |
|
"grad_norm": 1.1484375, |
|
"learning_rate": 0.00019123584453530144, |
|
"loss": 1.7569, |
|
"step": 265 |
|
}, |
|
{ |
|
"epoch": 2.25, |
|
"grad_norm": 1.390625, |
|
"learning_rate": 0.000190630778703665, |
|
"loss": 1.4932, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 2.2916666666666665, |
|
"grad_norm": 1.265625, |
|
"learning_rate": 0.00019000654118641211, |
|
"loss": 1.7407, |
|
"step": 275 |
|
}, |
|
{ |
|
"epoch": 2.3333333333333335, |
|
"grad_norm": 1.7109375, |
|
"learning_rate": 0.00018936326403234125, |
|
"loss": 1.6984, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 2.375, |
|
"grad_norm": 1.1796875, |
|
"learning_rate": 0.00018870108331782217, |
|
"loss": 1.7803, |
|
"step": 285 |
|
}, |
|
{ |
|
"epoch": 2.4166666666666665, |
|
"grad_norm": 1.453125, |
|
"learning_rate": 0.00018802013911801112, |
|
"loss": 1.8513, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 2.4583333333333335, |
|
"grad_norm": 1.1875, |
|
"learning_rate": 0.0001873205754772196, |
|
"loss": 1.6966, |
|
"step": 295 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"grad_norm": 1.390625, |
|
"learning_rate": 0.00018660254037844388, |
|
"loss": 1.6205, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 2.5416666666666665, |
|
"grad_norm": 1.640625, |
|
"learning_rate": 0.00018586618571206134, |
|
"loss": 1.8264, |
|
"step": 305 |
|
}, |
|
{ |
|
"epoch": 2.5833333333333335, |
|
"grad_norm": 1.28125, |
|
"learning_rate": 0.00018511166724369997, |
|
"loss": 1.7517, |
|
"step": 310 |
|
}, |
|
{ |
|
"epoch": 2.625, |
|
"grad_norm": 1.328125, |
|
"learning_rate": 0.0001843391445812886, |
|
"loss": 1.6381, |
|
"step": 315 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"grad_norm": 1.5859375, |
|
"learning_rate": 0.00018354878114129367, |
|
"loss": 1.5737, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 2.7083333333333335, |
|
"grad_norm": 1.375, |
|
"learning_rate": 0.00018274074411415105, |
|
"loss": 1.4307, |
|
"step": 325 |
|
}, |
|
{ |
|
"epoch": 2.75, |
|
"grad_norm": 2.140625, |
|
"learning_rate": 0.0001819152044288992, |
|
"loss": 1.5472, |
|
"step": 330 |
|
}, |
|
{ |
|
"epoch": 2.7916666666666665, |
|
"grad_norm": 1.5703125, |
|
"learning_rate": 0.00018107233671702124, |
|
"loss": 1.6712, |
|
"step": 335 |
|
}, |
|
{ |
|
"epoch": 2.8333333333333335, |
|
"grad_norm": 1.296875, |
|
"learning_rate": 0.0001802123192755044, |
|
"loss": 1.6829, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 2.875, |
|
"grad_norm": 1.65625, |
|
"learning_rate": 0.00017933533402912354, |
|
"loss": 1.6765, |
|
"step": 345 |
|
}, |
|
{ |
|
"epoch": 2.9166666666666665, |
|
"grad_norm": 1.234375, |
|
"learning_rate": 0.00017844156649195759, |
|
"loss": 1.534, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 2.9583333333333335, |
|
"grad_norm": 1.40625, |
|
"learning_rate": 0.0001775312057281466, |
|
"loss": 1.4458, |
|
"step": 355 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"grad_norm": 1.484375, |
|
"learning_rate": 0.0001766044443118978, |
|
"loss": 1.5884, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"eval_loss": 1.6506251096725464, |
|
"eval_runtime": 22.6518, |
|
"eval_samples_per_second": 4.591, |
|
"eval_steps_per_second": 1.148, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 3.0416666666666665, |
|
"grad_norm": 1.671875, |
|
"learning_rate": 0.00017566147828674931, |
|
"loss": 1.1334, |
|
"step": 365 |
|
}, |
|
{ |
|
"epoch": 3.0833333333333335, |
|
"grad_norm": 2.359375, |
|
"learning_rate": 0.0001747025071240996, |
|
"loss": 1.3137, |
|
"step": 370 |
|
}, |
|
{ |
|
"epoch": 3.125, |
|
"grad_norm": 1.34375, |
|
"learning_rate": 0.0001737277336810124, |
|
"loss": 1.2017, |
|
"step": 375 |
|
}, |
|
{ |
|
"epoch": 3.1666666666666665, |
|
"grad_norm": 1.6484375, |
|
"learning_rate": 0.00017273736415730488, |
|
"loss": 1.2455, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 3.2083333333333335, |
|
"grad_norm": 1.828125, |
|
"learning_rate": 0.00017173160805192893, |
|
"loss": 1.041, |
|
"step": 385 |
|
}, |
|
{ |
|
"epoch": 3.25, |
|
"grad_norm": 1.609375, |
|
"learning_rate": 0.00017071067811865476, |
|
"loss": 1.1316, |
|
"step": 390 |
|
}, |
|
{ |
|
"epoch": 3.2916666666666665, |
|
"grad_norm": 1.53125, |
|
"learning_rate": 0.0001696747903210655, |
|
"loss": 0.8524, |
|
"step": 395 |
|
}, |
|
{ |
|
"epoch": 3.3333333333333335, |
|
"grad_norm": 1.4609375, |
|
"learning_rate": 0.0001686241637868734, |
|
"loss": 1.0369, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 3.375, |
|
"grad_norm": 2.0, |
|
"learning_rate": 0.00016755902076156604, |
|
"loss": 1.0085, |
|
"step": 405 |
|
}, |
|
{ |
|
"epoch": 3.4166666666666665, |
|
"grad_norm": 1.3359375, |
|
"learning_rate": 0.00016647958656139378, |
|
"loss": 1.275, |
|
"step": 410 |
|
}, |
|
{ |
|
"epoch": 3.4583333333333335, |
|
"grad_norm": 1.5625, |
|
"learning_rate": 0.00016538608952570698, |
|
"loss": 1.2037, |
|
"step": 415 |
|
}, |
|
{ |
|
"epoch": 3.5, |
|
"grad_norm": 1.4921875, |
|
"learning_rate": 0.00016427876096865394, |
|
"loss": 0.9427, |
|
"step": 420 |
|
}, |
|
{ |
|
"epoch": 3.5416666666666665, |
|
"grad_norm": 1.46875, |
|
"learning_rate": 0.00016315783513024977, |
|
"loss": 1.0746, |
|
"step": 425 |
|
}, |
|
{ |
|
"epoch": 3.5833333333333335, |
|
"grad_norm": 1.7109375, |
|
"learning_rate": 0.000162023549126826, |
|
"loss": 1.1905, |
|
"step": 430 |
|
}, |
|
{ |
|
"epoch": 3.625, |
|
"grad_norm": 1.546875, |
|
"learning_rate": 0.00016087614290087208, |
|
"loss": 1.047, |
|
"step": 435 |
|
}, |
|
{ |
|
"epoch": 3.6666666666666665, |
|
"grad_norm": 1.8515625, |
|
"learning_rate": 0.00015971585917027862, |
|
"loss": 0.9996, |
|
"step": 440 |
|
}, |
|
{ |
|
"epoch": 3.7083333333333335, |
|
"grad_norm": 1.609375, |
|
"learning_rate": 0.00015854294337699408, |
|
"loss": 1.0106, |
|
"step": 445 |
|
}, |
|
{ |
|
"epoch": 3.75, |
|
"grad_norm": 1.328125, |
|
"learning_rate": 0.0001573576436351046, |
|
"loss": 1.6606, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 3.7916666666666665, |
|
"grad_norm": 1.6484375, |
|
"learning_rate": 0.0001561602106783493, |
|
"loss": 0.9552, |
|
"step": 455 |
|
}, |
|
{ |
|
"epoch": 3.8333333333333335, |
|
"grad_norm": 1.7734375, |
|
"learning_rate": 0.0001549508978070806, |
|
"loss": 1.2775, |
|
"step": 460 |
|
}, |
|
{ |
|
"epoch": 3.875, |
|
"grad_norm": 1.59375, |
|
"learning_rate": 0.0001537299608346824, |
|
"loss": 0.8644, |
|
"step": 465 |
|
}, |
|
{ |
|
"epoch": 3.9166666666666665, |
|
"grad_norm": 1.65625, |
|
"learning_rate": 0.000152497658033456, |
|
"loss": 1.1973, |
|
"step": 470 |
|
}, |
|
{ |
|
"epoch": 3.9583333333333335, |
|
"grad_norm": 1.7578125, |
|
"learning_rate": 0.00015125425007998653, |
|
"loss": 1.0881, |
|
"step": 475 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"grad_norm": 1.421875, |
|
"learning_rate": 0.00015000000000000001, |
|
"loss": 0.976, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"eval_loss": 1.4923341274261475, |
|
"eval_runtime": 22.6533, |
|
"eval_samples_per_second": 4.591, |
|
"eval_steps_per_second": 1.148, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 4.041666666666667, |
|
"grad_norm": 1.9609375, |
|
"learning_rate": 0.00014873517311272423, |
|
"loss": 0.8099, |
|
"step": 485 |
|
}, |
|
{ |
|
"epoch": 4.083333333333333, |
|
"grad_norm": 1.578125, |
|
"learning_rate": 0.00014746003697476404, |
|
"loss": 0.7811, |
|
"step": 490 |
|
}, |
|
{ |
|
"epoch": 4.125, |
|
"grad_norm": 1.71875, |
|
"learning_rate": 0.00014617486132350343, |
|
"loss": 0.891, |
|
"step": 495 |
|
}, |
|
{ |
|
"epoch": 4.166666666666667, |
|
"grad_norm": 1.5390625, |
|
"learning_rate": 0.00014487991802004623, |
|
"loss": 1.0188, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 4.208333333333333, |
|
"grad_norm": 1.9140625, |
|
"learning_rate": 0.00014357548099170795, |
|
"loss": 0.7671, |
|
"step": 505 |
|
}, |
|
{ |
|
"epoch": 4.25, |
|
"grad_norm": 1.6953125, |
|
"learning_rate": 0.00014226182617406996, |
|
"loss": 0.656, |
|
"step": 510 |
|
}, |
|
{ |
|
"epoch": 4.291666666666667, |
|
"grad_norm": 1.4609375, |
|
"learning_rate": 0.00014093923145260925, |
|
"loss": 0.7351, |
|
"step": 515 |
|
}, |
|
{ |
|
"epoch": 4.333333333333333, |
|
"grad_norm": 1.6015625, |
|
"learning_rate": 0.0001396079766039157, |
|
"loss": 0.6366, |
|
"step": 520 |
|
}, |
|
{ |
|
"epoch": 4.375, |
|
"grad_norm": 1.921875, |
|
"learning_rate": 0.000138268343236509, |
|
"loss": 1.1278, |
|
"step": 525 |
|
}, |
|
{ |
|
"epoch": 4.416666666666667, |
|
"grad_norm": 1.421875, |
|
"learning_rate": 0.00013692061473126845, |
|
"loss": 0.5021, |
|
"step": 530 |
|
}, |
|
{ |
|
"epoch": 4.458333333333333, |
|
"grad_norm": 1.5859375, |
|
"learning_rate": 0.0001355650761814877, |
|
"loss": 0.7822, |
|
"step": 535 |
|
}, |
|
{ |
|
"epoch": 4.5, |
|
"grad_norm": 1.7890625, |
|
"learning_rate": 0.00013420201433256689, |
|
"loss": 0.653, |
|
"step": 540 |
|
}, |
|
{ |
|
"epoch": 4.541666666666667, |
|
"grad_norm": 1.59375, |
|
"learning_rate": 0.00013283171752135614, |
|
"loss": 0.7442, |
|
"step": 545 |
|
}, |
|
{ |
|
"epoch": 4.583333333333333, |
|
"grad_norm": 1.5625, |
|
"learning_rate": 0.00013145447561516138, |
|
"loss": 0.7451, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 4.625, |
|
"grad_norm": 1.890625, |
|
"learning_rate": 0.00013007057995042732, |
|
"loss": 0.8068, |
|
"step": 555 |
|
}, |
|
{ |
|
"epoch": 4.666666666666667, |
|
"grad_norm": 1.6328125, |
|
"learning_rate": 0.00012868032327110904, |
|
"loss": 0.5302, |
|
"step": 560 |
|
}, |
|
{ |
|
"epoch": 4.708333333333333, |
|
"grad_norm": 1.9765625, |
|
"learning_rate": 0.00012728399966674612, |
|
"loss": 0.8653, |
|
"step": 565 |
|
}, |
|
{ |
|
"epoch": 4.75, |
|
"grad_norm": 1.578125, |
|
"learning_rate": 0.00012588190451025207, |
|
"loss": 0.6963, |
|
"step": 570 |
|
}, |
|
{ |
|
"epoch": 4.791666666666667, |
|
"grad_norm": 1.875, |
|
"learning_rate": 0.0001244743343954324, |
|
"loss": 0.9519, |
|
"step": 575 |
|
}, |
|
{ |
|
"epoch": 4.833333333333333, |
|
"grad_norm": 1.7265625, |
|
"learning_rate": 0.00012306158707424403, |
|
"loss": 0.7992, |
|
"step": 580 |
|
}, |
|
{ |
|
"epoch": 4.875, |
|
"grad_norm": 1.625, |
|
"learning_rate": 0.00012164396139381029, |
|
"loss": 0.6708, |
|
"step": 585 |
|
}, |
|
{ |
|
"epoch": 4.916666666666667, |
|
"grad_norm": 1.921875, |
|
"learning_rate": 0.00012022175723320381, |
|
"loss": 0.5493, |
|
"step": 590 |
|
}, |
|
{ |
|
"epoch": 4.958333333333333, |
|
"grad_norm": 1.703125, |
|
"learning_rate": 0.00011879527544001119, |
|
"loss": 0.4953, |
|
"step": 595 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"grad_norm": 1.4375, |
|
"learning_rate": 0.00011736481776669306, |
|
"loss": 0.494, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"eval_loss": 1.4527199268341064, |
|
"eval_runtime": 22.5273, |
|
"eval_samples_per_second": 4.617, |
|
"eval_steps_per_second": 1.154, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 5.041666666666667, |
|
"grad_norm": 1.8125, |
|
"learning_rate": 0.00011593068680675228, |
|
"loss": 0.4172, |
|
"step": 605 |
|
}, |
|
{ |
|
"epoch": 5.083333333333333, |
|
"grad_norm": 1.6640625, |
|
"learning_rate": 0.00011449318593072466, |
|
"loss": 0.515, |
|
"step": 610 |
|
}, |
|
{ |
|
"epoch": 5.125, |
|
"grad_norm": 1.3984375, |
|
"learning_rate": 0.00011305261922200519, |
|
"loss": 0.3984, |
|
"step": 615 |
|
}, |
|
{ |
|
"epoch": 5.166666666666667, |
|
"grad_norm": 1.7734375, |
|
"learning_rate": 0.00011160929141252303, |
|
"loss": 0.3962, |
|
"step": 620 |
|
}, |
|
{ |
|
"epoch": 5.208333333333333, |
|
"grad_norm": 1.5625, |
|
"learning_rate": 0.00011016350781828019, |
|
"loss": 0.5541, |
|
"step": 625 |
|
}, |
|
{ |
|
"epoch": 5.25, |
|
"grad_norm": 1.5546875, |
|
"learning_rate": 0.00010871557427476583, |
|
"loss": 0.5564, |
|
"step": 630 |
|
}, |
|
{ |
|
"epoch": 5.291666666666667, |
|
"grad_norm": 1.3671875, |
|
"learning_rate": 0.00010726579707226108, |
|
"loss": 0.6518, |
|
"step": 635 |
|
}, |
|
{ |
|
"epoch": 5.333333333333333, |
|
"grad_norm": 1.53125, |
|
"learning_rate": 0.00010581448289104758, |
|
"loss": 0.4448, |
|
"step": 640 |
|
}, |
|
{ |
|
"epoch": 5.375, |
|
"grad_norm": 1.4609375, |
|
"learning_rate": 0.00010436193873653361, |
|
"loss": 0.4689, |
|
"step": 645 |
|
}, |
|
{ |
|
"epoch": 5.416666666666667, |
|
"grad_norm": 1.578125, |
|
"learning_rate": 0.00010290847187431113, |
|
"loss": 0.3511, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 5.458333333333333, |
|
"grad_norm": 1.515625, |
|
"learning_rate": 0.00010145438976515828, |
|
"loss": 0.5423, |
|
"step": 655 |
|
}, |
|
{ |
|
"epoch": 5.5, |
|
"grad_norm": 1.6015625, |
|
"learning_rate": 0.0001, |
|
"loss": 0.5626, |
|
"step": 660 |
|
}, |
|
{ |
|
"epoch": 5.541666666666667, |
|
"grad_norm": 1.3359375, |
|
"learning_rate": 9.854561023484173e-05, |
|
"loss": 0.5551, |
|
"step": 665 |
|
}, |
|
{ |
|
"epoch": 5.583333333333333, |
|
"grad_norm": 2.015625, |
|
"learning_rate": 9.709152812568886e-05, |
|
"loss": 0.3925, |
|
"step": 670 |
|
}, |
|
{ |
|
"epoch": 5.625, |
|
"grad_norm": 1.5546875, |
|
"learning_rate": 9.563806126346642e-05, |
|
"loss": 0.5825, |
|
"step": 675 |
|
}, |
|
{ |
|
"epoch": 5.666666666666667, |
|
"grad_norm": 1.6484375, |
|
"learning_rate": 9.418551710895243e-05, |
|
"loss": 0.4172, |
|
"step": 680 |
|
}, |
|
{ |
|
"epoch": 5.708333333333333, |
|
"grad_norm": 1.6484375, |
|
"learning_rate": 9.273420292773894e-05, |
|
"loss": 0.8449, |
|
"step": 685 |
|
}, |
|
{ |
|
"epoch": 5.75, |
|
"grad_norm": 1.75, |
|
"learning_rate": 9.128442572523417e-05, |
|
"loss": 0.6815, |
|
"step": 690 |
|
}, |
|
{ |
|
"epoch": 5.791666666666667, |
|
"grad_norm": 1.40625, |
|
"learning_rate": 8.983649218171982e-05, |
|
"loss": 0.5505, |
|
"step": 695 |
|
}, |
|
{ |
|
"epoch": 5.833333333333333, |
|
"grad_norm": 1.5703125, |
|
"learning_rate": 8.839070858747697e-05, |
|
"loss": 0.3779, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 5.875, |
|
"grad_norm": 1.46875, |
|
"learning_rate": 8.694738077799488e-05, |
|
"loss": 0.4549, |
|
"step": 705 |
|
}, |
|
{ |
|
"epoch": 5.916666666666667, |
|
"grad_norm": 1.4921875, |
|
"learning_rate": 8.550681406927535e-05, |
|
"loss": 0.6878, |
|
"step": 710 |
|
}, |
|
{ |
|
"epoch": 5.958333333333333, |
|
"grad_norm": 1.65625, |
|
"learning_rate": 8.406931319324776e-05, |
|
"loss": 0.4205, |
|
"step": 715 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"grad_norm": 1.2109375, |
|
"learning_rate": 8.263518223330697e-05, |
|
"loss": 0.6722, |
|
"step": 720 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"eval_loss": 1.525636911392212, |
|
"eval_runtime": 22.6057, |
|
"eval_samples_per_second": 4.601, |
|
"eval_steps_per_second": 1.15, |
|
"step": 720 |
|
}, |
|
{ |
|
"epoch": 6.041666666666667, |
|
"grad_norm": 1.1484375, |
|
"learning_rate": 8.120472455998882e-05, |
|
"loss": 0.4366, |
|
"step": 725 |
|
}, |
|
{ |
|
"epoch": 6.083333333333333, |
|
"grad_norm": 1.75, |
|
"learning_rate": 7.977824276679623e-05, |
|
"loss": 0.436, |
|
"step": 730 |
|
}, |
|
{ |
|
"epoch": 6.125, |
|
"grad_norm": 1.21875, |
|
"learning_rate": 7.835603860618972e-05, |
|
"loss": 0.2727, |
|
"step": 735 |
|
}, |
|
{ |
|
"epoch": 6.166666666666667, |
|
"grad_norm": 1.4296875, |
|
"learning_rate": 7.693841292575598e-05, |
|
"loss": 0.2859, |
|
"step": 740 |
|
}, |
|
{ |
|
"epoch": 6.208333333333333, |
|
"grad_norm": 1.4375, |
|
"learning_rate": 7.552566560456762e-05, |
|
"loss": 0.1582, |
|
"step": 745 |
|
}, |
|
{ |
|
"epoch": 6.25, |
|
"grad_norm": 1.2734375, |
|
"learning_rate": 7.411809548974792e-05, |
|
"loss": 0.9857, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 6.291666666666667, |
|
"grad_norm": 1.4296875, |
|
"learning_rate": 7.271600033325393e-05, |
|
"loss": 0.179, |
|
"step": 755 |
|
}, |
|
{ |
|
"epoch": 6.333333333333333, |
|
"grad_norm": 1.265625, |
|
"learning_rate": 7.131967672889101e-05, |
|
"loss": 0.3008, |
|
"step": 760 |
|
}, |
|
{ |
|
"epoch": 6.375, |
|
"grad_norm": 1.5234375, |
|
"learning_rate": 6.992942004957271e-05, |
|
"loss": 0.5605, |
|
"step": 765 |
|
}, |
|
{ |
|
"epoch": 6.416666666666667, |
|
"grad_norm": 1.4453125, |
|
"learning_rate": 6.854552438483865e-05, |
|
"loss": 0.7157, |
|
"step": 770 |
|
}, |
|
{ |
|
"epoch": 6.458333333333333, |
|
"grad_norm": 1.421875, |
|
"learning_rate": 6.71682824786439e-05, |
|
"loss": 0.553, |
|
"step": 775 |
|
}, |
|
{ |
|
"epoch": 6.5, |
|
"grad_norm": 1.4453125, |
|
"learning_rate": 6.579798566743314e-05, |
|
"loss": 0.3089, |
|
"step": 780 |
|
}, |
|
{ |
|
"epoch": 6.541666666666667, |
|
"grad_norm": 1.140625, |
|
"learning_rate": 6.443492381851237e-05, |
|
"loss": 0.3487, |
|
"step": 785 |
|
}, |
|
{ |
|
"epoch": 6.583333333333333, |
|
"grad_norm": 1.140625, |
|
"learning_rate": 6.307938526873157e-05, |
|
"loss": 0.1653, |
|
"step": 790 |
|
}, |
|
{ |
|
"epoch": 6.625, |
|
"grad_norm": 1.4140625, |
|
"learning_rate": 6.173165676349103e-05, |
|
"loss": 0.1644, |
|
"step": 795 |
|
}, |
|
{ |
|
"epoch": 6.666666666666667, |
|
"grad_norm": 1.21875, |
|
"learning_rate": 6.039202339608432e-05, |
|
"loss": 0.6784, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 6.708333333333333, |
|
"grad_norm": 1.21875, |
|
"learning_rate": 5.906076854739074e-05, |
|
"loss": 0.1487, |
|
"step": 805 |
|
}, |
|
{ |
|
"epoch": 6.75, |
|
"grad_norm": 1.1171875, |
|
"learning_rate": 5.773817382593008e-05, |
|
"loss": 0.4259, |
|
"step": 810 |
|
}, |
|
{ |
|
"epoch": 6.791666666666667, |
|
"grad_norm": 1.0703125, |
|
"learning_rate": 5.642451900829209e-05, |
|
"loss": 0.2837, |
|
"step": 815 |
|
}, |
|
{ |
|
"epoch": 6.833333333333333, |
|
"grad_norm": 1.3359375, |
|
"learning_rate": 5.5120081979953785e-05, |
|
"loss": 0.5631, |
|
"step": 820 |
|
}, |
|
{ |
|
"epoch": 6.875, |
|
"grad_norm": 1.1328125, |
|
"learning_rate": 5.382513867649663e-05, |
|
"loss": 0.2979, |
|
"step": 825 |
|
}, |
|
{ |
|
"epoch": 6.916666666666667, |
|
"grad_norm": 1.171875, |
|
"learning_rate": 5.253996302523596e-05, |
|
"loss": 0.5848, |
|
"step": 830 |
|
}, |
|
{ |
|
"epoch": 6.958333333333333, |
|
"grad_norm": 1.2421875, |
|
"learning_rate": 5.1264826887275776e-05, |
|
"loss": 0.4305, |
|
"step": 835 |
|
}, |
|
{ |
|
"epoch": 7.0, |
|
"grad_norm": 1.234375, |
|
"learning_rate": 5.000000000000002e-05, |
|
"loss": 0.4155, |
|
"step": 840 |
|
}, |
|
{ |
|
"epoch": 7.0, |
|
"eval_loss": 1.6936991214752197, |
|
"eval_runtime": 22.6399, |
|
"eval_samples_per_second": 4.594, |
|
"eval_steps_per_second": 1.148, |
|
"step": 840 |
|
}, |
|
{ |
|
"epoch": 7.041666666666667, |
|
"grad_norm": 0.73828125, |
|
"learning_rate": 4.8745749920013486e-05, |
|
"loss": 0.6698, |
|
"step": 845 |
|
}, |
|
{ |
|
"epoch": 7.083333333333333, |
|
"grad_norm": 0.875, |
|
"learning_rate": 4.7502341966544e-05, |
|
"loss": 0.2309, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 7.125, |
|
"grad_norm": 1.078125, |
|
"learning_rate": 4.6270039165317605e-05, |
|
"loss": 0.2385, |
|
"step": 855 |
|
}, |
|
{ |
|
"epoch": 7.166666666666667, |
|
"grad_norm": 1.03125, |
|
"learning_rate": 4.50491021929194e-05, |
|
"loss": 0.2467, |
|
"step": 860 |
|
}, |
|
{ |
|
"epoch": 7.208333333333333, |
|
"grad_norm": 0.86328125, |
|
"learning_rate": 4.383978932165073e-05, |
|
"loss": 0.221, |
|
"step": 865 |
|
}, |
|
{ |
|
"epoch": 7.25, |
|
"grad_norm": 0.8828125, |
|
"learning_rate": 4.264235636489542e-05, |
|
"loss": 0.2445, |
|
"step": 870 |
|
}, |
|
{ |
|
"epoch": 7.291666666666667, |
|
"grad_norm": 0.80859375, |
|
"learning_rate": 4.145705662300595e-05, |
|
"loss": 0.3784, |
|
"step": 875 |
|
}, |
|
{ |
|
"epoch": 7.333333333333333, |
|
"grad_norm": 0.85546875, |
|
"learning_rate": 4.028414082972141e-05, |
|
"loss": 0.3635, |
|
"step": 880 |
|
}, |
|
{ |
|
"epoch": 7.375, |
|
"grad_norm": 1.0078125, |
|
"learning_rate": 3.9123857099127936e-05, |
|
"loss": 0.2154, |
|
"step": 885 |
|
}, |
|
{ |
|
"epoch": 7.416666666666667, |
|
"grad_norm": 1.1015625, |
|
"learning_rate": 3.7976450873174005e-05, |
|
"loss": 0.3507, |
|
"step": 890 |
|
}, |
|
{ |
|
"epoch": 7.458333333333333, |
|
"grad_norm": 0.79296875, |
|
"learning_rate": 3.684216486975026e-05, |
|
"loss": 0.4884, |
|
"step": 895 |
|
}, |
|
{ |
|
"epoch": 7.5, |
|
"grad_norm": 0.90234375, |
|
"learning_rate": 3.5721239031346066e-05, |
|
"loss": 0.4011, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 7.541666666666667, |
|
"grad_norm": 1.1328125, |
|
"learning_rate": 3.461391047429304e-05, |
|
"loss": 0.6994, |
|
"step": 905 |
|
}, |
|
{ |
|
"epoch": 7.583333333333333, |
|
"grad_norm": 1.3671875, |
|
"learning_rate": 3.352041343860621e-05, |
|
"loss": 0.2219, |
|
"step": 910 |
|
}, |
|
{ |
|
"epoch": 7.625, |
|
"grad_norm": 0.87890625, |
|
"learning_rate": 3.244097923843398e-05, |
|
"loss": 0.2272, |
|
"step": 915 |
|
}, |
|
{ |
|
"epoch": 7.666666666666667, |
|
"grad_norm": 0.80859375, |
|
"learning_rate": 3.137583621312665e-05, |
|
"loss": 0.3568, |
|
"step": 920 |
|
}, |
|
{ |
|
"epoch": 7.708333333333333, |
|
"grad_norm": 1.1953125, |
|
"learning_rate": 3.032520967893453e-05, |
|
"loss": 0.3737, |
|
"step": 925 |
|
}, |
|
{ |
|
"epoch": 7.75, |
|
"grad_norm": 1.0234375, |
|
"learning_rate": 2.9289321881345254e-05, |
|
"loss": 0.2172, |
|
"step": 930 |
|
}, |
|
{ |
|
"epoch": 7.791666666666667, |
|
"grad_norm": 0.91015625, |
|
"learning_rate": 2.826839194807105e-05, |
|
"loss": 0.224, |
|
"step": 935 |
|
}, |
|
{ |
|
"epoch": 7.833333333333333, |
|
"grad_norm": 1.0859375, |
|
"learning_rate": 2.7262635842695127e-05, |
|
"loss": 0.5041, |
|
"step": 940 |
|
}, |
|
{ |
|
"epoch": 7.875, |
|
"grad_norm": 0.85546875, |
|
"learning_rate": 2.6272266318987603e-05, |
|
"loss": 0.2266, |
|
"step": 945 |
|
}, |
|
{ |
|
"epoch": 7.916666666666667, |
|
"grad_norm": 0.9921875, |
|
"learning_rate": 2.529749287590042e-05, |
|
"loss": 0.218, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 7.958333333333333, |
|
"grad_norm": 1.125, |
|
"learning_rate": 2.433852171325072e-05, |
|
"loss": 0.3768, |
|
"step": 955 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"grad_norm": 0.7578125, |
|
"learning_rate": 2.339555568810221e-05, |
|
"loss": 0.3646, |
|
"step": 960 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"eval_loss": 1.938859462738037, |
|
"eval_runtime": 22.6326, |
|
"eval_samples_per_second": 4.595, |
|
"eval_steps_per_second": 1.149, |
|
"step": 960 |
|
}, |
|
{ |
|
"epoch": 8.041666666666666, |
|
"grad_norm": 0.5546875, |
|
"learning_rate": 2.246879427185341e-05, |
|
"loss": 0.5024, |
|
"step": 965 |
|
}, |
|
{ |
|
"epoch": 8.083333333333334, |
|
"grad_norm": 0.64453125, |
|
"learning_rate": 2.155843350804243e-05, |
|
"loss": 0.3399, |
|
"step": 970 |
|
}, |
|
{ |
|
"epoch": 8.125, |
|
"grad_norm": 0.466796875, |
|
"learning_rate": 2.0664665970876496e-05, |
|
"loss": 0.3527, |
|
"step": 975 |
|
}, |
|
{ |
|
"epoch": 8.166666666666666, |
|
"grad_norm": 0.72265625, |
|
"learning_rate": 1.9787680724495617e-05, |
|
"loss": 0.217, |
|
"step": 980 |
|
}, |
|
{ |
|
"epoch": 8.208333333333334, |
|
"grad_norm": 0.79296875, |
|
"learning_rate": 1.892766328297878e-05, |
|
"loss": 0.0848, |
|
"step": 985 |
|
}, |
|
{ |
|
"epoch": 8.25, |
|
"grad_norm": 0.6015625, |
|
"learning_rate": 1.808479557110081e-05, |
|
"loss": 0.3246, |
|
"step": 990 |
|
}, |
|
{ |
|
"epoch": 8.291666666666666, |
|
"grad_norm": 0.5703125, |
|
"learning_rate": 1.7259255885848946e-05, |
|
"loss": 0.2188, |
|
"step": 995 |
|
}, |
|
{ |
|
"epoch": 8.333333333333334, |
|
"grad_norm": 0.83203125, |
|
"learning_rate": 1.6451218858706374e-05, |
|
"loss": 0.2043, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 8.375, |
|
"grad_norm": 0.5234375, |
|
"learning_rate": 1.566085541871145e-05, |
|
"loss": 0.4651, |
|
"step": 1005 |
|
}, |
|
{ |
|
"epoch": 8.416666666666666, |
|
"grad_norm": 0.6640625, |
|
"learning_rate": 1.4888332756300027e-05, |
|
"loss": 0.2083, |
|
"step": 1010 |
|
}, |
|
{ |
|
"epoch": 8.458333333333334, |
|
"grad_norm": 0.609375, |
|
"learning_rate": 1.4133814287938706e-05, |
|
"loss": 0.3251, |
|
"step": 1015 |
|
}, |
|
{ |
|
"epoch": 8.5, |
|
"grad_norm": 0.53515625, |
|
"learning_rate": 1.339745962155613e-05, |
|
"loss": 0.2172, |
|
"step": 1020 |
|
}, |
|
{ |
|
"epoch": 8.541666666666666, |
|
"grad_norm": 0.82421875, |
|
"learning_rate": 1.2679424522780426e-05, |
|
"loss": 0.4828, |
|
"step": 1025 |
|
}, |
|
{ |
|
"epoch": 8.583333333333334, |
|
"grad_norm": 0.6484375, |
|
"learning_rate": 1.1979860881988902e-05, |
|
"loss": 0.0766, |
|
"step": 1030 |
|
}, |
|
{ |
|
"epoch": 8.625, |
|
"grad_norm": 0.58203125, |
|
"learning_rate": 1.129891668217783e-05, |
|
"loss": 0.0783, |
|
"step": 1035 |
|
}, |
|
{ |
|
"epoch": 8.666666666666666, |
|
"grad_norm": 0.65234375, |
|
"learning_rate": 1.0636735967658784e-05, |
|
"loss": 0.4582, |
|
"step": 1040 |
|
}, |
|
{ |
|
"epoch": 8.708333333333334, |
|
"grad_norm": 0.52734375, |
|
"learning_rate": 9.993458813587885e-06, |
|
"loss": 0.3475, |
|
"step": 1045 |
|
}, |
|
{ |
|
"epoch": 8.75, |
|
"grad_norm": 0.61328125, |
|
"learning_rate": 9.369221296335006e-06, |
|
"loss": 0.2503, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 8.791666666666666, |
|
"grad_norm": 0.73046875, |
|
"learning_rate": 8.764155464698597e-06, |
|
"loss": 0.341, |
|
"step": 1055 |
|
}, |
|
{ |
|
"epoch": 8.833333333333334, |
|
"grad_norm": 0.83984375, |
|
"learning_rate": 8.178389311972612e-06, |
|
"loss": 0.8334, |
|
"step": 1060 |
|
}, |
|
{ |
|
"epoch": 8.875, |
|
"grad_norm": 0.51953125, |
|
"learning_rate": 7.612046748871327e-06, |
|
"loss": 0.0811, |
|
"step": 1065 |
|
}, |
|
{ |
|
"epoch": 8.916666666666666, |
|
"grad_norm": 1.015625, |
|
"learning_rate": 7.0652475773177464e-06, |
|
"loss": 0.774, |
|
"step": 1070 |
|
}, |
|
{ |
|
"epoch": 8.958333333333334, |
|
"grad_norm": 0.59375, |
|
"learning_rate": 6.538107465101162e-06, |
|
"loss": 0.0741, |
|
"step": 1075 |
|
}, |
|
{ |
|
"epoch": 9.0, |
|
"grad_norm": 0.7578125, |
|
"learning_rate": 6.030737921409169e-06, |
|
"loss": 0.1977, |
|
"step": 1080 |
|
}, |
|
{ |
|
"epoch": 9.0, |
|
"eval_loss": 2.0741000175476074, |
|
"eval_runtime": 22.6206, |
|
"eval_samples_per_second": 4.598, |
|
"eval_steps_per_second": 1.149, |
|
"step": 1080 |
|
}, |
|
{ |
|
"epoch": 9.041666666666666, |
|
"grad_norm": 0.58203125, |
|
"learning_rate": 5.543246273239533e-06, |
|
"loss": 0.2191, |
|
"step": 1085 |
|
}, |
|
{ |
|
"epoch": 9.083333333333334, |
|
"grad_norm": 0.53515625, |
|
"learning_rate": 5.075735642696611e-06, |
|
"loss": 0.4713, |
|
"step": 1090 |
|
}, |
|
{ |
|
"epoch": 9.125, |
|
"grad_norm": 0.78125, |
|
"learning_rate": 4.628304925177318e-06, |
|
"loss": 0.3392, |
|
"step": 1095 |
|
}, |
|
{ |
|
"epoch": 9.166666666666666, |
|
"grad_norm": 0.62890625, |
|
"learning_rate": 4.20104876845111e-06, |
|
"loss": 0.0738, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 9.208333333333334, |
|
"grad_norm": 0.5, |
|
"learning_rate": 3.7940575526386857e-06, |
|
"loss": 0.2017, |
|
"step": 1105 |
|
}, |
|
{ |
|
"epoch": 9.25, |
|
"grad_norm": 0.78125, |
|
"learning_rate": 3.40741737109318e-06, |
|
"loss": 0.3269, |
|
"step": 1110 |
|
}, |
|
{ |
|
"epoch": 9.291666666666666, |
|
"grad_norm": 0.6796875, |
|
"learning_rate": 3.0412100121884e-06, |
|
"loss": 0.3239, |
|
"step": 1115 |
|
}, |
|
{ |
|
"epoch": 9.333333333333334, |
|
"grad_norm": 0.43359375, |
|
"learning_rate": 2.6955129420176196e-06, |
|
"loss": 0.0673, |
|
"step": 1120 |
|
}, |
|
{ |
|
"epoch": 9.375, |
|
"grad_norm": 0.5, |
|
"learning_rate": 2.3703992880066638e-06, |
|
"loss": 0.3198, |
|
"step": 1125 |
|
}, |
|
{ |
|
"epoch": 9.416666666666666, |
|
"grad_norm": 0.8359375, |
|
"learning_rate": 2.0659378234448525e-06, |
|
"loss": 0.7339, |
|
"step": 1130 |
|
}, |
|
{ |
|
"epoch": 9.458333333333334, |
|
"grad_norm": 0.828125, |
|
"learning_rate": 1.7821929529369342e-06, |
|
"loss": 0.3398, |
|
"step": 1135 |
|
}, |
|
{ |
|
"epoch": 9.5, |
|
"grad_norm": 0.6015625, |
|
"learning_rate": 1.5192246987791981e-06, |
|
"loss": 0.1931, |
|
"step": 1140 |
|
}, |
|
{ |
|
"epoch": 9.541666666666666, |
|
"grad_norm": 0.6015625, |
|
"learning_rate": 1.2770886882625955e-06, |
|
"loss": 0.469, |
|
"step": 1145 |
|
}, |
|
{ |
|
"epoch": 9.583333333333334, |
|
"grad_norm": 0.62109375, |
|
"learning_rate": 1.055836141905553e-06, |
|
"loss": 0.2, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 9.625, |
|
"grad_norm": 0.53125, |
|
"learning_rate": 8.555138626189618e-07, |
|
"loss": 0.4784, |
|
"step": 1155 |
|
}, |
|
{ |
|
"epoch": 9.666666666666666, |
|
"grad_norm": 0.66015625, |
|
"learning_rate": 6.761642258056978e-07, |
|
"loss": 0.1963, |
|
"step": 1160 |
|
}, |
|
{ |
|
"epoch": 9.708333333333334, |
|
"grad_norm": 0.54296875, |
|
"learning_rate": 5.178251703967018e-07, |
|
"loss": 0.3549, |
|
"step": 1165 |
|
}, |
|
{ |
|
"epoch": 9.75, |
|
"grad_norm": 0.6875, |
|
"learning_rate": 3.805301908254455e-07, |
|
"loss": 0.4622, |
|
"step": 1170 |
|
}, |
|
{ |
|
"epoch": 9.791666666666666, |
|
"grad_norm": 0.5546875, |
|
"learning_rate": 2.643083299427751e-07, |
|
"loss": 0.1921, |
|
"step": 1175 |
|
}, |
|
{ |
|
"epoch": 9.833333333333334, |
|
"grad_norm": 0.515625, |
|
"learning_rate": 1.6918417287318245e-07, |
|
"loss": 0.1627, |
|
"step": 1180 |
|
}, |
|
{ |
|
"epoch": 9.875, |
|
"grad_norm": 0.78125, |
|
"learning_rate": 9.517784181422019e-08, |
|
"loss": 0.6005, |
|
"step": 1185 |
|
}, |
|
{ |
|
"epoch": 9.916666666666666, |
|
"grad_norm": 0.56640625, |
|
"learning_rate": 4.230499177994007e-08, |
|
"loss": 0.216, |
|
"step": 1190 |
|
}, |
|
{ |
|
"epoch": 9.958333333333334, |
|
"grad_norm": 0.625, |
|
"learning_rate": 1.0576807289253143e-08, |
|
"loss": 0.3567, |
|
"step": 1195 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"grad_norm": 0.546875, |
|
"learning_rate": 0.0, |
|
"loss": 0.072, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"eval_loss": 2.0755438804626465, |
|
"eval_runtime": 22.4954, |
|
"eval_samples_per_second": 4.623, |
|
"eval_steps_per_second": 1.156, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"step": 1200, |
|
"total_flos": 4.601366288709714e+17, |
|
"train_loss": 1.470840223133564, |
|
"train_runtime": 6806.2457, |
|
"train_samples_per_second": 1.408, |
|
"train_steps_per_second": 0.176 |
|
} |
|
], |
|
"logging_steps": 5, |
|
"max_steps": 1200, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 10, |
|
"save_steps": 100, |
|
"total_flos": 4.601366288709714e+17, |
|
"train_batch_size": 2, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|