|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 0.1, |
|
"eval_steps": 500, |
|
"global_step": 2000, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.0, |
|
"grad_norm": 83.5, |
|
"learning_rate": 2.2000000000000002e-08, |
|
"loss": 7.8377, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.0, |
|
"grad_norm": 82.0, |
|
"learning_rate": 4.4000000000000004e-08, |
|
"loss": 7.8316, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.0, |
|
"grad_norm": 84.5, |
|
"learning_rate": 6.6e-08, |
|
"loss": 7.8539, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.0, |
|
"grad_norm": 84.0, |
|
"learning_rate": 8.800000000000001e-08, |
|
"loss": 7.8355, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.0, |
|
"grad_norm": 81.5, |
|
"learning_rate": 1.1e-07, |
|
"loss": 7.8181, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.0, |
|
"grad_norm": 83.0, |
|
"learning_rate": 1.32e-07, |
|
"loss": 7.8506, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.0, |
|
"grad_norm": 81.0, |
|
"learning_rate": 1.5400000000000003e-07, |
|
"loss": 7.8358, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 0.0, |
|
"grad_norm": 82.5, |
|
"learning_rate": 1.7600000000000001e-07, |
|
"loss": 7.8175, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 0.0, |
|
"grad_norm": 82.0, |
|
"learning_rate": 1.98e-07, |
|
"loss": 7.8249, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 82.0, |
|
"learning_rate": 2.2e-07, |
|
"loss": 7.8159, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 82.5, |
|
"learning_rate": 2.42e-07, |
|
"loss": 7.8062, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 81.5, |
|
"learning_rate": 2.64e-07, |
|
"loss": 7.8364, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 82.0, |
|
"learning_rate": 2.8600000000000005e-07, |
|
"loss": 7.7865, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 82.0, |
|
"learning_rate": 3.0800000000000006e-07, |
|
"loss": 7.8126, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 82.0, |
|
"learning_rate": 3.3e-07, |
|
"loss": 7.7728, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 80.5, |
|
"learning_rate": 3.5200000000000003e-07, |
|
"loss": 7.7671, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 81.5, |
|
"learning_rate": 3.7400000000000004e-07, |
|
"loss": 7.7892, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 81.0, |
|
"learning_rate": 3.96e-07, |
|
"loss": 7.7527, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 81.0, |
|
"learning_rate": 4.18e-07, |
|
"loss": 7.7056, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 81.5, |
|
"learning_rate": 4.4e-07, |
|
"loss": 7.6997, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 80.5, |
|
"learning_rate": 4.62e-07, |
|
"loss": 7.7058, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 82.5, |
|
"learning_rate": 4.84e-07, |
|
"loss": 7.7096, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 80.5, |
|
"learning_rate": 5.06e-07, |
|
"loss": 7.6711, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 81.0, |
|
"learning_rate": 5.28e-07, |
|
"loss": 7.6393, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 80.0, |
|
"learning_rate": 5.5e-07, |
|
"loss": 7.6306, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 80.0, |
|
"learning_rate": 5.720000000000001e-07, |
|
"loss": 7.6173, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 79.5, |
|
"learning_rate": 5.94e-07, |
|
"loss": 7.5625, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 79.5, |
|
"learning_rate": 6.160000000000001e-07, |
|
"loss": 7.4816, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 78.5, |
|
"learning_rate": 6.38e-07, |
|
"loss": 7.4518, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"grad_norm": 78.5, |
|
"learning_rate": 6.6e-07, |
|
"loss": 7.4093, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.5, |
|
"learning_rate": 6.82e-07, |
|
"loss": 7.3733, |
|
"step": 310 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 78.0, |
|
"learning_rate": 7.040000000000001e-07, |
|
"loss": 7.322, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.0, |
|
"learning_rate": 7.260000000000001e-07, |
|
"loss": 7.276, |
|
"step": 330 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 78.5, |
|
"learning_rate": 7.480000000000001e-07, |
|
"loss": 7.2595, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.0, |
|
"learning_rate": 7.7e-07, |
|
"loss": 7.1728, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.5, |
|
"learning_rate": 7.92e-07, |
|
"loss": 7.1616, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 78.0, |
|
"learning_rate": 8.140000000000001e-07, |
|
"loss": 7.1472, |
|
"step": 370 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.0, |
|
"learning_rate": 8.36e-07, |
|
"loss": 7.0884, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.5, |
|
"learning_rate": 8.580000000000001e-07, |
|
"loss": 7.0459, |
|
"step": 390 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.5, |
|
"learning_rate": 8.8e-07, |
|
"loss": 7.0098, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 78.0, |
|
"learning_rate": 9.02e-07, |
|
"loss": 6.9943, |
|
"step": 410 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 78.0, |
|
"learning_rate": 9.24e-07, |
|
"loss": 6.9331, |
|
"step": 420 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.0, |
|
"learning_rate": 9.46e-07, |
|
"loss": 6.8576, |
|
"step": 430 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.0, |
|
"learning_rate": 9.68e-07, |
|
"loss": 6.7943, |
|
"step": 440 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.0, |
|
"learning_rate": 9.9e-07, |
|
"loss": 6.7133, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.5, |
|
"learning_rate": 1.012e-06, |
|
"loss": 6.6149, |
|
"step": 460 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.5, |
|
"learning_rate": 1.034e-06, |
|
"loss": 6.5204, |
|
"step": 470 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.0, |
|
"learning_rate": 1.056e-06, |
|
"loss": 6.3806, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 77.5, |
|
"learning_rate": 1.078e-06, |
|
"loss": 6.2492, |
|
"step": 490 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 78.0, |
|
"learning_rate": 1.1e-06, |
|
"loss": 6.0768, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"eval_loss": 6.031269550323486, |
|
"eval_runtime": 65.0659, |
|
"eval_samples_per_second": 15.369, |
|
"eval_steps_per_second": 15.369, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 79.5, |
|
"learning_rate": 1.0926666666666667e-06, |
|
"loss": 5.9387, |
|
"step": 510 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 79.5, |
|
"learning_rate": 1.0853333333333334e-06, |
|
"loss": 5.7853, |
|
"step": 520 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 80.5, |
|
"learning_rate": 1.078e-06, |
|
"loss": 5.6257, |
|
"step": 530 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 82.0, |
|
"learning_rate": 1.0706666666666668e-06, |
|
"loss": 5.4324, |
|
"step": 540 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 82.5, |
|
"learning_rate": 1.0633333333333335e-06, |
|
"loss": 5.298, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 83.5, |
|
"learning_rate": 1.056e-06, |
|
"loss": 5.091, |
|
"step": 560 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 84.5, |
|
"learning_rate": 1.0486666666666668e-06, |
|
"loss": 4.9098, |
|
"step": 570 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 85.0, |
|
"learning_rate": 1.0413333333333333e-06, |
|
"loss": 4.728, |
|
"step": 580 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 86.5, |
|
"learning_rate": 1.034e-06, |
|
"loss": 4.5719, |
|
"step": 590 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 85.5, |
|
"learning_rate": 1.0266666666666666e-06, |
|
"loss": 4.4393, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 87.5, |
|
"learning_rate": 1.0193333333333333e-06, |
|
"loss": 4.2395, |
|
"step": 610 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 86.5, |
|
"learning_rate": 1.012e-06, |
|
"loss": 4.08, |
|
"step": 620 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 87.0, |
|
"learning_rate": 1.0046666666666667e-06, |
|
"loss": 3.9541, |
|
"step": 630 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 87.5, |
|
"learning_rate": 9.973333333333334e-07, |
|
"loss": 3.7964, |
|
"step": 640 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 87.5, |
|
"learning_rate": 9.9e-07, |
|
"loss": 3.6848, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 87.0, |
|
"learning_rate": 9.826666666666667e-07, |
|
"loss": 3.522, |
|
"step": 660 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 86.5, |
|
"learning_rate": 9.753333333333334e-07, |
|
"loss": 3.4177, |
|
"step": 670 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 85.5, |
|
"learning_rate": 9.68e-07, |
|
"loss": 3.3256, |
|
"step": 680 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"grad_norm": 85.0, |
|
"learning_rate": 9.606666666666668e-07, |
|
"loss": 3.2074, |
|
"step": 690 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 84.5, |
|
"learning_rate": 9.533333333333335e-07, |
|
"loss": 3.077, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 84.0, |
|
"learning_rate": 9.46e-07, |
|
"loss": 3.0159, |
|
"step": 710 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 83.5, |
|
"learning_rate": 9.386666666666668e-07, |
|
"loss": 2.8732, |
|
"step": 720 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 83.5, |
|
"learning_rate": 9.313333333333334e-07, |
|
"loss": 2.8273, |
|
"step": 730 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 81.5, |
|
"learning_rate": 9.24e-07, |
|
"loss": 2.6836, |
|
"step": 740 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 81.0, |
|
"learning_rate": 9.166666666666667e-07, |
|
"loss": 2.623, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 80.0, |
|
"learning_rate": 9.093333333333333e-07, |
|
"loss": 2.5291, |
|
"step": 760 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 80.0, |
|
"learning_rate": 9.02e-07, |
|
"loss": 2.4323, |
|
"step": 770 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 78.5, |
|
"learning_rate": 8.946666666666667e-07, |
|
"loss": 2.347, |
|
"step": 780 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 78.0, |
|
"learning_rate": 8.873333333333334e-07, |
|
"loss": 2.3225, |
|
"step": 790 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 77.5, |
|
"learning_rate": 8.8e-07, |
|
"loss": 2.2284, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 77.0, |
|
"learning_rate": 8.726666666666667e-07, |
|
"loss": 2.1348, |
|
"step": 810 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 76.0, |
|
"learning_rate": 8.653333333333333e-07, |
|
"loss": 2.0742, |
|
"step": 820 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 75.5, |
|
"learning_rate": 8.580000000000001e-07, |
|
"loss": 2.014, |
|
"step": 830 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 76.0, |
|
"learning_rate": 8.506666666666667e-07, |
|
"loss": 1.9751, |
|
"step": 840 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 75.0, |
|
"learning_rate": 8.433333333333334e-07, |
|
"loss": 1.8888, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 74.0, |
|
"learning_rate": 8.36e-07, |
|
"loss": 1.8768, |
|
"step": 860 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 73.0, |
|
"learning_rate": 8.286666666666667e-07, |
|
"loss": 1.807, |
|
"step": 870 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 71.5, |
|
"learning_rate": 8.213333333333334e-07, |
|
"loss": 1.7518, |
|
"step": 880 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 71.0, |
|
"learning_rate": 8.140000000000001e-07, |
|
"loss": 1.7072, |
|
"step": 890 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 72.0, |
|
"learning_rate": 8.066666666666666e-07, |
|
"loss": 1.6759, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 70.0, |
|
"learning_rate": 7.993333333333334e-07, |
|
"loss": 1.6377, |
|
"step": 910 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 72.0, |
|
"learning_rate": 7.92e-07, |
|
"loss": 1.5894, |
|
"step": 920 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 68.5, |
|
"learning_rate": 7.846666666666668e-07, |
|
"loss": 1.5379, |
|
"step": 930 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 68.0, |
|
"learning_rate": 7.773333333333334e-07, |
|
"loss": 1.5146, |
|
"step": 940 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 66.5, |
|
"learning_rate": 7.7e-07, |
|
"loss": 1.4519, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 66.5, |
|
"learning_rate": 7.626666666666667e-07, |
|
"loss": 1.441, |
|
"step": 960 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 67.0, |
|
"learning_rate": 7.553333333333334e-07, |
|
"loss": 1.4175, |
|
"step": 970 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 63.5, |
|
"learning_rate": 7.480000000000001e-07, |
|
"loss": 1.3603, |
|
"step": 980 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 66.0, |
|
"learning_rate": 7.406666666666668e-07, |
|
"loss": 1.3479, |
|
"step": 990 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 65.5, |
|
"learning_rate": 7.333333333333333e-07, |
|
"loss": 1.2865, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"eval_loss": 1.3002561330795288, |
|
"eval_runtime": 64.955, |
|
"eval_samples_per_second": 15.395, |
|
"eval_steps_per_second": 15.395, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 65.0, |
|
"learning_rate": 7.260000000000001e-07, |
|
"loss": 1.2767, |
|
"step": 1010 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 63.25, |
|
"learning_rate": 7.186666666666667e-07, |
|
"loss": 1.2266, |
|
"step": 1020 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 63.75, |
|
"learning_rate": 7.113333333333333e-07, |
|
"loss": 1.2458, |
|
"step": 1030 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 63.0, |
|
"learning_rate": 7.040000000000001e-07, |
|
"loss": 1.1768, |
|
"step": 1040 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 62.75, |
|
"learning_rate": 6.966666666666666e-07, |
|
"loss": 1.1844, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 62.25, |
|
"learning_rate": 6.893333333333334e-07, |
|
"loss": 1.186, |
|
"step": 1060 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 62.75, |
|
"learning_rate": 6.82e-07, |
|
"loss": 1.1551, |
|
"step": 1070 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 60.25, |
|
"learning_rate": 6.746666666666667e-07, |
|
"loss": 1.1218, |
|
"step": 1080 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 61.25, |
|
"learning_rate": 6.673333333333334e-07, |
|
"loss": 1.0962, |
|
"step": 1090 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 60.5, |
|
"learning_rate": 6.6e-07, |
|
"loss": 1.1204, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 58.25, |
|
"learning_rate": 6.526666666666667e-07, |
|
"loss": 1.0833, |
|
"step": 1110 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 57.25, |
|
"learning_rate": 6.453333333333334e-07, |
|
"loss": 1.0743, |
|
"step": 1120 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 60.25, |
|
"learning_rate": 6.38e-07, |
|
"loss": 1.0764, |
|
"step": 1130 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 56.0, |
|
"learning_rate": 6.306666666666668e-07, |
|
"loss": 1.0315, |
|
"step": 1140 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 59.25, |
|
"learning_rate": 6.233333333333333e-07, |
|
"loss": 1.0791, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 60.0, |
|
"learning_rate": 6.160000000000001e-07, |
|
"loss": 1.0443, |
|
"step": 1160 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 60.75, |
|
"learning_rate": 6.086666666666667e-07, |
|
"loss": 1.0472, |
|
"step": 1170 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 59.75, |
|
"learning_rate": 6.013333333333334e-07, |
|
"loss": 1.0422, |
|
"step": 1180 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 58.5, |
|
"learning_rate": 5.94e-07, |
|
"loss": 1.051, |
|
"step": 1190 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 57.25, |
|
"learning_rate": 5.866666666666667e-07, |
|
"loss": 1.0104, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 58.5, |
|
"learning_rate": 5.793333333333333e-07, |
|
"loss": 1.0429, |
|
"step": 1210 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 60.25, |
|
"learning_rate": 5.720000000000001e-07, |
|
"loss": 1.0135, |
|
"step": 1220 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 58.0, |
|
"learning_rate": 5.646666666666667e-07, |
|
"loss": 1.0441, |
|
"step": 1230 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 57.25, |
|
"learning_rate": 5.573333333333335e-07, |
|
"loss": 1.0202, |
|
"step": 1240 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 54.5, |
|
"learning_rate": 5.5e-07, |
|
"loss": 0.9915, |
|
"step": 1250 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 56.75, |
|
"learning_rate": 5.426666666666667e-07, |
|
"loss": 1.0085, |
|
"step": 1260 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 58.75, |
|
"learning_rate": 5.353333333333334e-07, |
|
"loss": 1.0114, |
|
"step": 1270 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 56.0, |
|
"learning_rate": 5.28e-07, |
|
"loss": 1.0092, |
|
"step": 1280 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 54.25, |
|
"learning_rate": 5.206666666666666e-07, |
|
"loss": 0.9634, |
|
"step": 1290 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 54.0, |
|
"learning_rate": 5.133333333333333e-07, |
|
"loss": 0.9588, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 56.5, |
|
"learning_rate": 5.06e-07, |
|
"loss": 0.9885, |
|
"step": 1310 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 55.75, |
|
"learning_rate": 4.986666666666667e-07, |
|
"loss": 1.024, |
|
"step": 1320 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 54.5, |
|
"learning_rate": 4.913333333333334e-07, |
|
"loss": 0.9812, |
|
"step": 1330 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 55.5, |
|
"learning_rate": 4.84e-07, |
|
"loss": 0.9859, |
|
"step": 1340 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 57.5, |
|
"learning_rate": 4.766666666666667e-07, |
|
"loss": 0.9629, |
|
"step": 1350 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 54.25, |
|
"learning_rate": 4.693333333333334e-07, |
|
"loss": 0.9386, |
|
"step": 1360 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 54.75, |
|
"learning_rate": 4.62e-07, |
|
"loss": 1.0033, |
|
"step": 1370 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 56.5, |
|
"learning_rate": 4.5466666666666666e-07, |
|
"loss": 0.9642, |
|
"step": 1380 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 53.5, |
|
"learning_rate": 4.4733333333333334e-07, |
|
"loss": 0.9745, |
|
"step": 1390 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 54.75, |
|
"learning_rate": 4.4e-07, |
|
"loss": 0.9625, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 56.25, |
|
"learning_rate": 4.3266666666666665e-07, |
|
"loss": 0.9617, |
|
"step": 1410 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 56.5, |
|
"learning_rate": 4.2533333333333333e-07, |
|
"loss": 0.9724, |
|
"step": 1420 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 54.5, |
|
"learning_rate": 4.18e-07, |
|
"loss": 0.9962, |
|
"step": 1430 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 53.0, |
|
"learning_rate": 4.106666666666667e-07, |
|
"loss": 0.9469, |
|
"step": 1440 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 54.75, |
|
"learning_rate": 4.033333333333333e-07, |
|
"loss": 0.9777, |
|
"step": 1450 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 57.0, |
|
"learning_rate": 3.96e-07, |
|
"loss": 0.9498, |
|
"step": 1460 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 57.0, |
|
"learning_rate": 3.886666666666667e-07, |
|
"loss": 0.9229, |
|
"step": 1470 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 57.5, |
|
"learning_rate": 3.8133333333333336e-07, |
|
"loss": 0.9686, |
|
"step": 1480 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 59.0, |
|
"learning_rate": 3.7400000000000004e-07, |
|
"loss": 0.9718, |
|
"step": 1490 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"grad_norm": 55.0, |
|
"learning_rate": 3.6666666666666667e-07, |
|
"loss": 0.9614, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"eval_loss": 0.9728732705116272, |
|
"eval_runtime": 65.1341, |
|
"eval_samples_per_second": 15.353, |
|
"eval_steps_per_second": 15.353, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 56.25, |
|
"learning_rate": 3.5933333333333335e-07, |
|
"loss": 0.9445, |
|
"step": 1510 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 57.0, |
|
"learning_rate": 3.5200000000000003e-07, |
|
"loss": 0.9411, |
|
"step": 1520 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 55.25, |
|
"learning_rate": 3.446666666666667e-07, |
|
"loss": 0.9502, |
|
"step": 1530 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 55.5, |
|
"learning_rate": 3.3733333333333334e-07, |
|
"loss": 0.9696, |
|
"step": 1540 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 53.25, |
|
"learning_rate": 3.3e-07, |
|
"loss": 0.9587, |
|
"step": 1550 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 55.5, |
|
"learning_rate": 3.226666666666667e-07, |
|
"loss": 1.0107, |
|
"step": 1560 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 56.75, |
|
"learning_rate": 3.153333333333334e-07, |
|
"loss": 0.9738, |
|
"step": 1570 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 54.0, |
|
"learning_rate": 3.0800000000000006e-07, |
|
"loss": 0.9859, |
|
"step": 1580 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 57.25, |
|
"learning_rate": 3.006666666666667e-07, |
|
"loss": 0.9419, |
|
"step": 1590 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 54.75, |
|
"learning_rate": 2.9333333333333337e-07, |
|
"loss": 0.9493, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 54.75, |
|
"learning_rate": 2.8600000000000005e-07, |
|
"loss": 0.9896, |
|
"step": 1610 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 56.0, |
|
"learning_rate": 2.7866666666666673e-07, |
|
"loss": 0.9342, |
|
"step": 1620 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 56.5, |
|
"learning_rate": 2.7133333333333335e-07, |
|
"loss": 0.9641, |
|
"step": 1630 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 56.25, |
|
"learning_rate": 2.64e-07, |
|
"loss": 0.9459, |
|
"step": 1640 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 55.5, |
|
"learning_rate": 2.5666666666666666e-07, |
|
"loss": 0.9835, |
|
"step": 1650 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 54.0, |
|
"learning_rate": 2.4933333333333334e-07, |
|
"loss": 0.9505, |
|
"step": 1660 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 57.5, |
|
"learning_rate": 2.42e-07, |
|
"loss": 0.9574, |
|
"step": 1670 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 52.5, |
|
"learning_rate": 2.346666666666667e-07, |
|
"loss": 0.9476, |
|
"step": 1680 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 56.0, |
|
"learning_rate": 2.2733333333333333e-07, |
|
"loss": 0.9757, |
|
"step": 1690 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 57.75, |
|
"learning_rate": 2.2e-07, |
|
"loss": 1.0152, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 55.5, |
|
"learning_rate": 2.1266666666666667e-07, |
|
"loss": 0.9584, |
|
"step": 1710 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 56.25, |
|
"learning_rate": 2.0533333333333335e-07, |
|
"loss": 0.9793, |
|
"step": 1720 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 57.0, |
|
"learning_rate": 1.98e-07, |
|
"loss": 0.9512, |
|
"step": 1730 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 54.75, |
|
"learning_rate": 1.9066666666666668e-07, |
|
"loss": 0.9505, |
|
"step": 1740 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 56.5, |
|
"learning_rate": 1.8333333333333333e-07, |
|
"loss": 0.9632, |
|
"step": 1750 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 53.5, |
|
"learning_rate": 1.7600000000000001e-07, |
|
"loss": 0.9366, |
|
"step": 1760 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 57.5, |
|
"learning_rate": 1.6866666666666667e-07, |
|
"loss": 0.9409, |
|
"step": 1770 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 59.5, |
|
"learning_rate": 1.6133333333333335e-07, |
|
"loss": 1.0027, |
|
"step": 1780 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 56.25, |
|
"learning_rate": 1.5400000000000003e-07, |
|
"loss": 0.9519, |
|
"step": 1790 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 57.25, |
|
"learning_rate": 1.4666666666666668e-07, |
|
"loss": 0.9499, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 55.5, |
|
"learning_rate": 1.3933333333333336e-07, |
|
"loss": 0.9739, |
|
"step": 1810 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 56.0, |
|
"learning_rate": 1.32e-07, |
|
"loss": 0.9899, |
|
"step": 1820 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 61.25, |
|
"learning_rate": 1.2466666666666667e-07, |
|
"loss": 0.9731, |
|
"step": 1830 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 56.0, |
|
"learning_rate": 1.1733333333333335e-07, |
|
"loss": 0.9449, |
|
"step": 1840 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 57.25, |
|
"learning_rate": 1.1e-07, |
|
"loss": 1.0051, |
|
"step": 1850 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 54.75, |
|
"learning_rate": 1.0266666666666667e-07, |
|
"loss": 0.9907, |
|
"step": 1860 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 56.0, |
|
"learning_rate": 9.533333333333334e-08, |
|
"loss": 0.9608, |
|
"step": 1870 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 57.5, |
|
"learning_rate": 8.800000000000001e-08, |
|
"loss": 0.9558, |
|
"step": 1880 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"grad_norm": 59.0, |
|
"learning_rate": 8.066666666666667e-08, |
|
"loss": 0.9928, |
|
"step": 1890 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 57.25, |
|
"learning_rate": 7.333333333333334e-08, |
|
"loss": 0.9629, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 56.75, |
|
"learning_rate": 6.6e-08, |
|
"loss": 0.9358, |
|
"step": 1910 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 57.25, |
|
"learning_rate": 5.8666666666666676e-08, |
|
"loss": 0.9602, |
|
"step": 1920 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 59.25, |
|
"learning_rate": 5.1333333333333336e-08, |
|
"loss": 0.9639, |
|
"step": 1930 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 58.5, |
|
"learning_rate": 4.4000000000000004e-08, |
|
"loss": 0.9643, |
|
"step": 1940 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 59.25, |
|
"learning_rate": 3.666666666666667e-08, |
|
"loss": 0.9413, |
|
"step": 1950 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 55.25, |
|
"learning_rate": 2.9333333333333338e-08, |
|
"loss": 0.9927, |
|
"step": 1960 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 56.75, |
|
"learning_rate": 2.2000000000000002e-08, |
|
"loss": 0.987, |
|
"step": 1970 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 53.75, |
|
"learning_rate": 1.4666666666666669e-08, |
|
"loss": 0.9517, |
|
"step": 1980 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 56.25, |
|
"learning_rate": 7.3333333333333345e-09, |
|
"loss": 0.9575, |
|
"step": 1990 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 55.75, |
|
"learning_rate": 0.0, |
|
"loss": 0.9746, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"eval_loss": 0.9655321836471558, |
|
"eval_runtime": 64.9317, |
|
"eval_samples_per_second": 15.401, |
|
"eval_steps_per_second": 15.401, |
|
"step": 2000 |
|
} |
|
], |
|
"logging_steps": 10, |
|
"max_steps": 2000, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 1, |
|
"save_steps": 500, |
|
"total_flos": 3.227844083712e+16, |
|
"train_batch_size": 1, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|