|
{ |
|
"best_metric": 0.41767898201942444, |
|
"best_model_checkpoint": "mikhail_panzo/fil_b64_le4_s8000/checkpoint-2000", |
|
"epoch": 355.55555555555554, |
|
"eval_steps": 500, |
|
"global_step": 8000, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 2.2222222222222223, |
|
"grad_norm": 1.774868130683899, |
|
"learning_rate": 2.5e-06, |
|
"loss": 0.7871, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 4.444444444444445, |
|
"grad_norm": 4.1770920753479, |
|
"learning_rate": 5e-06, |
|
"loss": 0.7106, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 6.666666666666667, |
|
"grad_norm": 3.3354010581970215, |
|
"learning_rate": 7.5e-06, |
|
"loss": 0.6568, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 8.88888888888889, |
|
"grad_norm": 2.2018914222717285, |
|
"learning_rate": 9.950000000000001e-06, |
|
"loss": 0.577, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 11.11111111111111, |
|
"grad_norm": 1.4593122005462646, |
|
"learning_rate": 1.2450000000000001e-05, |
|
"loss": 0.5321, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 13.333333333333334, |
|
"grad_norm": 1.9025092124938965, |
|
"learning_rate": 1.4950000000000001e-05, |
|
"loss": 0.5224, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 15.555555555555555, |
|
"grad_norm": 1.1274640560150146, |
|
"learning_rate": 1.745e-05, |
|
"loss": 0.5033, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 17.77777777777778, |
|
"grad_norm": 1.615440011024475, |
|
"learning_rate": 1.995e-05, |
|
"loss": 0.4884, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"grad_norm": 1.224423885345459, |
|
"learning_rate": 2.245e-05, |
|
"loss": 0.4891, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 22.22222222222222, |
|
"grad_norm": 1.3765957355499268, |
|
"learning_rate": 2.495e-05, |
|
"loss": 0.4811, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 22.22222222222222, |
|
"eval_loss": 0.4381416440010071, |
|
"eval_runtime": 7.3061, |
|
"eval_samples_per_second": 21.763, |
|
"eval_steps_per_second": 2.737, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 24.444444444444443, |
|
"grad_norm": 2.7551941871643066, |
|
"learning_rate": 2.7450000000000003e-05, |
|
"loss": 0.482, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 26.666666666666668, |
|
"grad_norm": 1.274100422859192, |
|
"learning_rate": 2.995e-05, |
|
"loss": 0.4701, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 28.88888888888889, |
|
"grad_norm": 2.764288902282715, |
|
"learning_rate": 3.245e-05, |
|
"loss": 0.4625, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 31.11111111111111, |
|
"grad_norm": 1.797144889831543, |
|
"learning_rate": 3.495e-05, |
|
"loss": 0.4575, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 33.333333333333336, |
|
"grad_norm": 3.108941078186035, |
|
"learning_rate": 3.745e-05, |
|
"loss": 0.4513, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 35.55555555555556, |
|
"grad_norm": 1.2721840143203735, |
|
"learning_rate": 3.995e-05, |
|
"loss": 0.4596, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 37.77777777777778, |
|
"grad_norm": 2.112849712371826, |
|
"learning_rate": 4.245e-05, |
|
"loss": 0.4559, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 40.0, |
|
"grad_norm": 3.444549560546875, |
|
"learning_rate": 4.495e-05, |
|
"loss": 0.4532, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 42.22222222222222, |
|
"grad_norm": 4.190850257873535, |
|
"learning_rate": 4.745e-05, |
|
"loss": 0.4487, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 44.44444444444444, |
|
"grad_norm": 1.6111356019973755, |
|
"learning_rate": 4.995e-05, |
|
"loss": 0.4495, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 44.44444444444444, |
|
"eval_loss": 0.4215675890445709, |
|
"eval_runtime": 7.7592, |
|
"eval_samples_per_second": 20.492, |
|
"eval_steps_per_second": 2.578, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 46.666666666666664, |
|
"grad_norm": 6.128833293914795, |
|
"learning_rate": 5.245e-05, |
|
"loss": 0.4538, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 48.888888888888886, |
|
"grad_norm": 7.5283989906311035, |
|
"learning_rate": 5.495e-05, |
|
"loss": 0.4428, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 51.111111111111114, |
|
"grad_norm": 1.513906717300415, |
|
"learning_rate": 5.745e-05, |
|
"loss": 0.4404, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 53.333333333333336, |
|
"grad_norm": 8.136981964111328, |
|
"learning_rate": 5.995000000000001e-05, |
|
"loss": 0.4468, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 55.55555555555556, |
|
"grad_norm": 1.2372947931289673, |
|
"learning_rate": 6.245000000000001e-05, |
|
"loss": 0.4374, |
|
"step": 1250 |
|
}, |
|
{ |
|
"epoch": 57.77777777777778, |
|
"grad_norm": 2.5680737495422363, |
|
"learning_rate": 6.494999999999999e-05, |
|
"loss": 0.4269, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 60.0, |
|
"grad_norm": 2.475658655166626, |
|
"learning_rate": 6.745e-05, |
|
"loss": 0.4307, |
|
"step": 1350 |
|
}, |
|
{ |
|
"epoch": 62.22222222222222, |
|
"grad_norm": 6.364106178283691, |
|
"learning_rate": 6.995e-05, |
|
"loss": 0.4305, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 64.44444444444444, |
|
"grad_norm": 2.5349278450012207, |
|
"learning_rate": 7.245000000000001e-05, |
|
"loss": 0.4281, |
|
"step": 1450 |
|
}, |
|
{ |
|
"epoch": 66.66666666666667, |
|
"grad_norm": 9.19277572631836, |
|
"learning_rate": 7.495e-05, |
|
"loss": 0.4293, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 66.66666666666667, |
|
"eval_loss": 0.44457077980041504, |
|
"eval_runtime": 7.7301, |
|
"eval_samples_per_second": 20.569, |
|
"eval_steps_per_second": 2.587, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 68.88888888888889, |
|
"grad_norm": 2.774425745010376, |
|
"learning_rate": 7.745e-05, |
|
"loss": 0.4314, |
|
"step": 1550 |
|
}, |
|
{ |
|
"epoch": 71.11111111111111, |
|
"grad_norm": 3.6934456825256348, |
|
"learning_rate": 7.995e-05, |
|
"loss": 0.4358, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 73.33333333333333, |
|
"grad_norm": 6.496175289154053, |
|
"learning_rate": 8.245e-05, |
|
"loss": 0.4394, |
|
"step": 1650 |
|
}, |
|
{ |
|
"epoch": 75.55555555555556, |
|
"grad_norm": 1.6639316082000732, |
|
"learning_rate": 8.495e-05, |
|
"loss": 0.4378, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 77.77777777777777, |
|
"grad_norm": 5.7241129875183105, |
|
"learning_rate": 8.745000000000001e-05, |
|
"loss": 0.4256, |
|
"step": 1750 |
|
}, |
|
{ |
|
"epoch": 80.0, |
|
"grad_norm": 1.446755290031433, |
|
"learning_rate": 8.995e-05, |
|
"loss": 0.434, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 82.22222222222223, |
|
"grad_norm": 6.012532711029053, |
|
"learning_rate": 9.245e-05, |
|
"loss": 0.4373, |
|
"step": 1850 |
|
}, |
|
{ |
|
"epoch": 84.44444444444444, |
|
"grad_norm": 2.1151769161224365, |
|
"learning_rate": 9.495e-05, |
|
"loss": 0.4202, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 86.66666666666667, |
|
"grad_norm": 7.0647687911987305, |
|
"learning_rate": 9.745000000000001e-05, |
|
"loss": 0.4267, |
|
"step": 1950 |
|
}, |
|
{ |
|
"epoch": 88.88888888888889, |
|
"grad_norm": 2.237894058227539, |
|
"learning_rate": 9.995e-05, |
|
"loss": 0.4246, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 88.88888888888889, |
|
"eval_loss": 0.41767898201942444, |
|
"eval_runtime": 7.3949, |
|
"eval_samples_per_second": 21.501, |
|
"eval_steps_per_second": 2.705, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 91.11111111111111, |
|
"grad_norm": 7.875017166137695, |
|
"learning_rate": 9.918333333333334e-05, |
|
"loss": 0.4181, |
|
"step": 2050 |
|
}, |
|
{ |
|
"epoch": 93.33333333333333, |
|
"grad_norm": 2.678436756134033, |
|
"learning_rate": 9.835e-05, |
|
"loss": 0.4271, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 95.55555555555556, |
|
"grad_norm": 1.4106836318969727, |
|
"learning_rate": 9.751666666666666e-05, |
|
"loss": 0.416, |
|
"step": 2150 |
|
}, |
|
{ |
|
"epoch": 97.77777777777777, |
|
"grad_norm": 1.671570062637329, |
|
"learning_rate": 9.668333333333334e-05, |
|
"loss": 0.4051, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 100.0, |
|
"grad_norm": 1.2210863828659058, |
|
"learning_rate": 9.585000000000001e-05, |
|
"loss": 0.4075, |
|
"step": 2250 |
|
}, |
|
{ |
|
"epoch": 102.22222222222223, |
|
"grad_norm": 3.0348973274230957, |
|
"learning_rate": 9.503333333333334e-05, |
|
"loss": 0.4194, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 104.44444444444444, |
|
"grad_norm": 2.421905994415283, |
|
"learning_rate": 9.42e-05, |
|
"loss": 0.4142, |
|
"step": 2350 |
|
}, |
|
{ |
|
"epoch": 106.66666666666667, |
|
"grad_norm": 1.4486854076385498, |
|
"learning_rate": 9.336666666666667e-05, |
|
"loss": 0.4018, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 108.88888888888889, |
|
"grad_norm": 2.255283832550049, |
|
"learning_rate": 9.253333333333334e-05, |
|
"loss": 0.4059, |
|
"step": 2450 |
|
}, |
|
{ |
|
"epoch": 111.11111111111111, |
|
"grad_norm": 1.3501019477844238, |
|
"learning_rate": 9.17e-05, |
|
"loss": 0.4094, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 111.11111111111111, |
|
"eval_loss": 0.41792136430740356, |
|
"eval_runtime": 7.3456, |
|
"eval_samples_per_second": 21.646, |
|
"eval_steps_per_second": 2.723, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 113.33333333333333, |
|
"grad_norm": 1.329296588897705, |
|
"learning_rate": 9.086666666666666e-05, |
|
"loss": 0.4021, |
|
"step": 2550 |
|
}, |
|
{ |
|
"epoch": 115.55555555555556, |
|
"grad_norm": 10.210238456726074, |
|
"learning_rate": 9.003333333333333e-05, |
|
"loss": 0.4039, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 117.77777777777777, |
|
"grad_norm": 2.7918877601623535, |
|
"learning_rate": 8.92e-05, |
|
"loss": 0.4077, |
|
"step": 2650 |
|
}, |
|
{ |
|
"epoch": 120.0, |
|
"grad_norm": 3.156411647796631, |
|
"learning_rate": 8.836666666666667e-05, |
|
"loss": 0.399, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 122.22222222222223, |
|
"grad_norm": 1.7779278755187988, |
|
"learning_rate": 8.753333333333334e-05, |
|
"loss": 0.4066, |
|
"step": 2750 |
|
}, |
|
{ |
|
"epoch": 124.44444444444444, |
|
"grad_norm": 5.526801586151123, |
|
"learning_rate": 8.67e-05, |
|
"loss": 0.3982, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 126.66666666666667, |
|
"grad_norm": 2.8324358463287354, |
|
"learning_rate": 8.586666666666668e-05, |
|
"loss": 0.3958, |
|
"step": 2850 |
|
}, |
|
{ |
|
"epoch": 128.88888888888889, |
|
"grad_norm": 2.1570332050323486, |
|
"learning_rate": 8.503333333333334e-05, |
|
"loss": 0.3887, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 131.11111111111111, |
|
"grad_norm": 2.315568685531616, |
|
"learning_rate": 8.42e-05, |
|
"loss": 0.3958, |
|
"step": 2950 |
|
}, |
|
{ |
|
"epoch": 133.33333333333334, |
|
"grad_norm": 1.412898302078247, |
|
"learning_rate": 8.336666666666667e-05, |
|
"loss": 0.3944, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 133.33333333333334, |
|
"eval_loss": 0.4231913983821869, |
|
"eval_runtime": 7.4202, |
|
"eval_samples_per_second": 21.428, |
|
"eval_steps_per_second": 2.695, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 135.55555555555554, |
|
"grad_norm": 1.1119484901428223, |
|
"learning_rate": 8.253333333333334e-05, |
|
"loss": 0.399, |
|
"step": 3050 |
|
}, |
|
{ |
|
"epoch": 137.77777777777777, |
|
"grad_norm": 1.488968014717102, |
|
"learning_rate": 8.17e-05, |
|
"loss": 0.3848, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 140.0, |
|
"grad_norm": 1.807142734527588, |
|
"learning_rate": 8.086666666666666e-05, |
|
"loss": 0.3932, |
|
"step": 3150 |
|
}, |
|
{ |
|
"epoch": 142.22222222222223, |
|
"grad_norm": 1.4474122524261475, |
|
"learning_rate": 8.003333333333333e-05, |
|
"loss": 0.3818, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 144.44444444444446, |
|
"grad_norm": 4.547299385070801, |
|
"learning_rate": 7.920000000000001e-05, |
|
"loss": 0.3937, |
|
"step": 3250 |
|
}, |
|
{ |
|
"epoch": 146.66666666666666, |
|
"grad_norm": 1.4168448448181152, |
|
"learning_rate": 7.836666666666667e-05, |
|
"loss": 0.3831, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 148.88888888888889, |
|
"grad_norm": 1.463904619216919, |
|
"learning_rate": 7.753333333333334e-05, |
|
"loss": 0.3847, |
|
"step": 3350 |
|
}, |
|
{ |
|
"epoch": 151.11111111111111, |
|
"grad_norm": 7.309357166290283, |
|
"learning_rate": 7.670000000000001e-05, |
|
"loss": 0.3897, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 153.33333333333334, |
|
"grad_norm": 4.859650611877441, |
|
"learning_rate": 7.586666666666668e-05, |
|
"loss": 0.3875, |
|
"step": 3450 |
|
}, |
|
{ |
|
"epoch": 155.55555555555554, |
|
"grad_norm": 1.5000778436660767, |
|
"learning_rate": 7.503333333333333e-05, |
|
"loss": 0.3794, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 155.55555555555554, |
|
"eval_loss": 0.41903963685035706, |
|
"eval_runtime": 7.4113, |
|
"eval_samples_per_second": 21.454, |
|
"eval_steps_per_second": 2.699, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 157.77777777777777, |
|
"grad_norm": 1.7266457080841064, |
|
"learning_rate": 7.42e-05, |
|
"loss": 0.3838, |
|
"step": 3550 |
|
}, |
|
{ |
|
"epoch": 160.0, |
|
"grad_norm": 3.0981507301330566, |
|
"learning_rate": 7.336666666666667e-05, |
|
"loss": 0.3779, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 162.22222222222223, |
|
"grad_norm": 5.531805038452148, |
|
"learning_rate": 7.253333333333334e-05, |
|
"loss": 0.3811, |
|
"step": 3650 |
|
}, |
|
{ |
|
"epoch": 164.44444444444446, |
|
"grad_norm": 1.310296893119812, |
|
"learning_rate": 7.17e-05, |
|
"loss": 0.3807, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 166.66666666666666, |
|
"grad_norm": 1.288405418395996, |
|
"learning_rate": 7.086666666666666e-05, |
|
"loss": 0.3822, |
|
"step": 3750 |
|
}, |
|
{ |
|
"epoch": 168.88888888888889, |
|
"grad_norm": 2.4209511280059814, |
|
"learning_rate": 7.003333333333335e-05, |
|
"loss": 0.3917, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 171.11111111111111, |
|
"grad_norm": 3.00976824760437, |
|
"learning_rate": 6.92e-05, |
|
"loss": 0.3919, |
|
"step": 3850 |
|
}, |
|
{ |
|
"epoch": 173.33333333333334, |
|
"grad_norm": 0.9221916198730469, |
|
"learning_rate": 6.836666666666667e-05, |
|
"loss": 0.3748, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 175.55555555555554, |
|
"grad_norm": 2.619621515274048, |
|
"learning_rate": 6.753333333333334e-05, |
|
"loss": 0.3841, |
|
"step": 3950 |
|
}, |
|
{ |
|
"epoch": 177.77777777777777, |
|
"grad_norm": 1.6929577589035034, |
|
"learning_rate": 6.670000000000001e-05, |
|
"loss": 0.3768, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 177.77777777777777, |
|
"eval_loss": 0.4186674654483795, |
|
"eval_runtime": 7.3553, |
|
"eval_samples_per_second": 21.617, |
|
"eval_steps_per_second": 2.719, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 180.0, |
|
"grad_norm": 1.1010489463806152, |
|
"learning_rate": 6.586666666666666e-05, |
|
"loss": 0.3753, |
|
"step": 4050 |
|
}, |
|
{ |
|
"epoch": 182.22222222222223, |
|
"grad_norm": 1.3273959159851074, |
|
"learning_rate": 6.503333333333333e-05, |
|
"loss": 0.3702, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 184.44444444444446, |
|
"grad_norm": 1.467567801475525, |
|
"learning_rate": 6.42e-05, |
|
"loss": 0.3754, |
|
"step": 4150 |
|
}, |
|
{ |
|
"epoch": 186.66666666666666, |
|
"grad_norm": 1.60391104221344, |
|
"learning_rate": 6.336666666666667e-05, |
|
"loss": 0.3708, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 188.88888888888889, |
|
"grad_norm": 2.883413791656494, |
|
"learning_rate": 6.253333333333333e-05, |
|
"loss": 0.371, |
|
"step": 4250 |
|
}, |
|
{ |
|
"epoch": 191.11111111111111, |
|
"grad_norm": 4.998030662536621, |
|
"learning_rate": 6.170000000000001e-05, |
|
"loss": 0.3768, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 193.33333333333334, |
|
"grad_norm": 4.034465312957764, |
|
"learning_rate": 6.086666666666667e-05, |
|
"loss": 0.3726, |
|
"step": 4350 |
|
}, |
|
{ |
|
"epoch": 195.55555555555554, |
|
"grad_norm": 1.2937185764312744, |
|
"learning_rate": 6.003333333333334e-05, |
|
"loss": 0.3747, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 197.77777777777777, |
|
"grad_norm": 0.941939115524292, |
|
"learning_rate": 5.92e-05, |
|
"loss": 0.3637, |
|
"step": 4450 |
|
}, |
|
{ |
|
"epoch": 200.0, |
|
"grad_norm": 3.5586345195770264, |
|
"learning_rate": 5.836666666666667e-05, |
|
"loss": 0.3743, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 200.0, |
|
"eval_loss": 0.42761707305908203, |
|
"eval_runtime": 7.3781, |
|
"eval_samples_per_second": 21.55, |
|
"eval_steps_per_second": 2.711, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 202.22222222222223, |
|
"grad_norm": 1.8300739526748657, |
|
"learning_rate": 5.753333333333334e-05, |
|
"loss": 0.3669, |
|
"step": 4550 |
|
}, |
|
{ |
|
"epoch": 204.44444444444446, |
|
"grad_norm": 2.1714072227478027, |
|
"learning_rate": 5.6699999999999996e-05, |
|
"loss": 0.3703, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 206.66666666666666, |
|
"grad_norm": 1.2002311944961548, |
|
"learning_rate": 5.5866666666666665e-05, |
|
"loss": 0.3684, |
|
"step": 4650 |
|
}, |
|
{ |
|
"epoch": 208.88888888888889, |
|
"grad_norm": 0.9210087656974792, |
|
"learning_rate": 5.5033333333333334e-05, |
|
"loss": 0.3606, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 211.11111111111111, |
|
"grad_norm": 3.692612409591675, |
|
"learning_rate": 5.420000000000001e-05, |
|
"loss": 0.3669, |
|
"step": 4750 |
|
}, |
|
{ |
|
"epoch": 213.33333333333334, |
|
"grad_norm": 1.1605321168899536, |
|
"learning_rate": 5.3366666666666665e-05, |
|
"loss": 0.3637, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 215.55555555555554, |
|
"grad_norm": 2.763892889022827, |
|
"learning_rate": 5.2533333333333334e-05, |
|
"loss": 0.3692, |
|
"step": 4850 |
|
}, |
|
{ |
|
"epoch": 217.77777777777777, |
|
"grad_norm": 1.2557669878005981, |
|
"learning_rate": 5.17e-05, |
|
"loss": 0.3566, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 220.0, |
|
"grad_norm": 5.051616668701172, |
|
"learning_rate": 5.086666666666667e-05, |
|
"loss": 0.3615, |
|
"step": 4950 |
|
}, |
|
{ |
|
"epoch": 222.22222222222223, |
|
"grad_norm": 1.4354363679885864, |
|
"learning_rate": 5.0033333333333334e-05, |
|
"loss": 0.3598, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 222.22222222222223, |
|
"eval_loss": 0.42318400740623474, |
|
"eval_runtime": 7.3771, |
|
"eval_samples_per_second": 21.553, |
|
"eval_steps_per_second": 2.711, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 224.44444444444446, |
|
"grad_norm": 1.6018962860107422, |
|
"learning_rate": 4.92e-05, |
|
"loss": 0.3648, |
|
"step": 5050 |
|
}, |
|
{ |
|
"epoch": 226.66666666666666, |
|
"grad_norm": 2.6664206981658936, |
|
"learning_rate": 4.836666666666667e-05, |
|
"loss": 0.3585, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 228.88888888888889, |
|
"grad_norm": 1.7612107992172241, |
|
"learning_rate": 4.7533333333333334e-05, |
|
"loss": 0.3574, |
|
"step": 5150 |
|
}, |
|
{ |
|
"epoch": 231.11111111111111, |
|
"grad_norm": 0.9858797788619995, |
|
"learning_rate": 4.6700000000000003e-05, |
|
"loss": 0.3551, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 233.33333333333334, |
|
"grad_norm": 1.9626814126968384, |
|
"learning_rate": 4.5866666666666666e-05, |
|
"loss": 0.3644, |
|
"step": 5250 |
|
}, |
|
{ |
|
"epoch": 235.55555555555554, |
|
"grad_norm": 1.160800576210022, |
|
"learning_rate": 4.5033333333333335e-05, |
|
"loss": 0.3588, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 237.77777777777777, |
|
"grad_norm": 0.6341742873191833, |
|
"learning_rate": 4.4200000000000004e-05, |
|
"loss": 0.3536, |
|
"step": 5350 |
|
}, |
|
{ |
|
"epoch": 240.0, |
|
"grad_norm": 1.0541973114013672, |
|
"learning_rate": 4.3366666666666666e-05, |
|
"loss": 0.365, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 242.22222222222223, |
|
"grad_norm": 0.8220059871673584, |
|
"learning_rate": 4.2533333333333335e-05, |
|
"loss": 0.3643, |
|
"step": 5450 |
|
}, |
|
{ |
|
"epoch": 244.44444444444446, |
|
"grad_norm": 0.7551680207252502, |
|
"learning_rate": 4.17e-05, |
|
"loss": 0.3634, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 244.44444444444446, |
|
"eval_loss": 0.4202514588832855, |
|
"eval_runtime": 7.4085, |
|
"eval_samples_per_second": 21.462, |
|
"eval_steps_per_second": 2.7, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 246.66666666666666, |
|
"grad_norm": 1.9072097539901733, |
|
"learning_rate": 4.086666666666667e-05, |
|
"loss": 0.3575, |
|
"step": 5550 |
|
}, |
|
{ |
|
"epoch": 248.88888888888889, |
|
"grad_norm": 0.8007279634475708, |
|
"learning_rate": 4.0033333333333335e-05, |
|
"loss": 0.3561, |
|
"step": 5600 |
|
}, |
|
{ |
|
"epoch": 251.11111111111111, |
|
"grad_norm": 2.148535966873169, |
|
"learning_rate": 3.9200000000000004e-05, |
|
"loss": 0.3574, |
|
"step": 5650 |
|
}, |
|
{ |
|
"epoch": 253.33333333333334, |
|
"grad_norm": 2.149388074874878, |
|
"learning_rate": 3.8366666666666666e-05, |
|
"loss": 0.3546, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 255.55555555555554, |
|
"grad_norm": 1.265291690826416, |
|
"learning_rate": 3.7533333333333335e-05, |
|
"loss": 0.3557, |
|
"step": 5750 |
|
}, |
|
{ |
|
"epoch": 257.77777777777777, |
|
"grad_norm": 1.0763708353042603, |
|
"learning_rate": 3.6700000000000004e-05, |
|
"loss": 0.3569, |
|
"step": 5800 |
|
}, |
|
{ |
|
"epoch": 260.0, |
|
"grad_norm": 1.8460354804992676, |
|
"learning_rate": 3.586666666666667e-05, |
|
"loss": 0.3607, |
|
"step": 5850 |
|
}, |
|
{ |
|
"epoch": 262.22222222222223, |
|
"grad_norm": 1.2007824182510376, |
|
"learning_rate": 3.5033333333333336e-05, |
|
"loss": 0.3537, |
|
"step": 5900 |
|
}, |
|
{ |
|
"epoch": 264.44444444444446, |
|
"grad_norm": 1.1800633668899536, |
|
"learning_rate": 3.4200000000000005e-05, |
|
"loss": 0.3497, |
|
"step": 5950 |
|
}, |
|
{ |
|
"epoch": 266.6666666666667, |
|
"grad_norm": 0.8253706097602844, |
|
"learning_rate": 3.336666666666667e-05, |
|
"loss": 0.3558, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 266.6666666666667, |
|
"eval_loss": 0.42190298438072205, |
|
"eval_runtime": 7.5419, |
|
"eval_samples_per_second": 21.082, |
|
"eval_steps_per_second": 2.652, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 268.8888888888889, |
|
"grad_norm": 1.1475642919540405, |
|
"learning_rate": 3.253333333333333e-05, |
|
"loss": 0.3498, |
|
"step": 6050 |
|
}, |
|
{ |
|
"epoch": 271.1111111111111, |
|
"grad_norm": 1.8303574323654175, |
|
"learning_rate": 3.1700000000000005e-05, |
|
"loss": 0.3486, |
|
"step": 6100 |
|
}, |
|
{ |
|
"epoch": 273.3333333333333, |
|
"grad_norm": 0.7977315187454224, |
|
"learning_rate": 3.086666666666667e-05, |
|
"loss": 0.3536, |
|
"step": 6150 |
|
}, |
|
{ |
|
"epoch": 275.55555555555554, |
|
"grad_norm": 1.285483479499817, |
|
"learning_rate": 3.0033333333333336e-05, |
|
"loss": 0.3478, |
|
"step": 6200 |
|
}, |
|
{ |
|
"epoch": 277.77777777777777, |
|
"grad_norm": 0.7798845767974854, |
|
"learning_rate": 2.9199999999999998e-05, |
|
"loss": 0.3506, |
|
"step": 6250 |
|
}, |
|
{ |
|
"epoch": 280.0, |
|
"grad_norm": 0.9178400039672852, |
|
"learning_rate": 2.836666666666667e-05, |
|
"loss": 0.35, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 282.22222222222223, |
|
"grad_norm": 3.3511078357696533, |
|
"learning_rate": 2.7533333333333333e-05, |
|
"loss": 0.3544, |
|
"step": 6350 |
|
}, |
|
{ |
|
"epoch": 284.44444444444446, |
|
"grad_norm": 0.745337963104248, |
|
"learning_rate": 2.6700000000000002e-05, |
|
"loss": 0.352, |
|
"step": 6400 |
|
}, |
|
{ |
|
"epoch": 286.6666666666667, |
|
"grad_norm": 2.534921169281006, |
|
"learning_rate": 2.5883333333333337e-05, |
|
"loss": 0.3571, |
|
"step": 6450 |
|
}, |
|
{ |
|
"epoch": 288.8888888888889, |
|
"grad_norm": 0.8707410097122192, |
|
"learning_rate": 2.5050000000000002e-05, |
|
"loss": 0.3502, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 288.8888888888889, |
|
"eval_loss": 0.42301520705223083, |
|
"eval_runtime": 7.6957, |
|
"eval_samples_per_second": 20.661, |
|
"eval_steps_per_second": 2.599, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 291.1111111111111, |
|
"grad_norm": 1.756301999092102, |
|
"learning_rate": 2.4216666666666668e-05, |
|
"loss": 0.342, |
|
"step": 6550 |
|
}, |
|
{ |
|
"epoch": 293.3333333333333, |
|
"grad_norm": 0.821540117263794, |
|
"learning_rate": 2.3383333333333334e-05, |
|
"loss": 0.3498, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 295.55555555555554, |
|
"grad_norm": 0.9611186981201172, |
|
"learning_rate": 2.2550000000000003e-05, |
|
"loss": 0.3426, |
|
"step": 6650 |
|
}, |
|
{ |
|
"epoch": 297.77777777777777, |
|
"grad_norm": 0.6484339833259583, |
|
"learning_rate": 2.1716666666666668e-05, |
|
"loss": 0.3481, |
|
"step": 6700 |
|
}, |
|
{ |
|
"epoch": 300.0, |
|
"grad_norm": 0.849158763885498, |
|
"learning_rate": 2.0883333333333334e-05, |
|
"loss": 0.345, |
|
"step": 6750 |
|
}, |
|
{ |
|
"epoch": 302.22222222222223, |
|
"grad_norm": 0.6861798763275146, |
|
"learning_rate": 2.0050000000000003e-05, |
|
"loss": 0.3483, |
|
"step": 6800 |
|
}, |
|
{ |
|
"epoch": 304.44444444444446, |
|
"grad_norm": 1.185042142868042, |
|
"learning_rate": 1.921666666666667e-05, |
|
"loss": 0.3529, |
|
"step": 6850 |
|
}, |
|
{ |
|
"epoch": 306.6666666666667, |
|
"grad_norm": 0.7863967418670654, |
|
"learning_rate": 1.8383333333333334e-05, |
|
"loss": 0.3446, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 308.8888888888889, |
|
"grad_norm": 0.8696364760398865, |
|
"learning_rate": 1.755e-05, |
|
"loss": 0.3434, |
|
"step": 6950 |
|
}, |
|
{ |
|
"epoch": 311.1111111111111, |
|
"grad_norm": 0.824495792388916, |
|
"learning_rate": 1.6733333333333335e-05, |
|
"loss": 0.3529, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 311.1111111111111, |
|
"eval_loss": 0.42681068181991577, |
|
"eval_runtime": 7.4497, |
|
"eval_samples_per_second": 21.343, |
|
"eval_steps_per_second": 2.685, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 313.3333333333333, |
|
"grad_norm": 1.0152688026428223, |
|
"learning_rate": 1.59e-05, |
|
"loss": 0.349, |
|
"step": 7050 |
|
}, |
|
{ |
|
"epoch": 315.55555555555554, |
|
"grad_norm": 0.8982745409011841, |
|
"learning_rate": 1.5066666666666668e-05, |
|
"loss": 0.344, |
|
"step": 7100 |
|
}, |
|
{ |
|
"epoch": 317.77777777777777, |
|
"grad_norm": 0.6351937651634216, |
|
"learning_rate": 1.4233333333333335e-05, |
|
"loss": 0.3506, |
|
"step": 7150 |
|
}, |
|
{ |
|
"epoch": 320.0, |
|
"grad_norm": 1.3145679235458374, |
|
"learning_rate": 1.3400000000000002e-05, |
|
"loss": 0.348, |
|
"step": 7200 |
|
}, |
|
{ |
|
"epoch": 322.22222222222223, |
|
"grad_norm": 0.6973692178726196, |
|
"learning_rate": 1.2566666666666668e-05, |
|
"loss": 0.3434, |
|
"step": 7250 |
|
}, |
|
{ |
|
"epoch": 324.44444444444446, |
|
"grad_norm": 0.5259793996810913, |
|
"learning_rate": 1.1733333333333333e-05, |
|
"loss": 0.3386, |
|
"step": 7300 |
|
}, |
|
{ |
|
"epoch": 326.6666666666667, |
|
"grad_norm": 0.8734486103057861, |
|
"learning_rate": 1.09e-05, |
|
"loss": 0.3423, |
|
"step": 7350 |
|
}, |
|
{ |
|
"epoch": 328.8888888888889, |
|
"grad_norm": 0.7098037600517273, |
|
"learning_rate": 1.0066666666666668e-05, |
|
"loss": 0.3412, |
|
"step": 7400 |
|
}, |
|
{ |
|
"epoch": 331.1111111111111, |
|
"grad_norm": 1.8435242176055908, |
|
"learning_rate": 9.233333333333334e-06, |
|
"loss": 0.3395, |
|
"step": 7450 |
|
}, |
|
{ |
|
"epoch": 333.3333333333333, |
|
"grad_norm": 0.5290047526359558, |
|
"learning_rate": 8.400000000000001e-06, |
|
"loss": 0.3447, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 333.3333333333333, |
|
"eval_loss": 0.42537641525268555, |
|
"eval_runtime": 7.5684, |
|
"eval_samples_per_second": 21.009, |
|
"eval_steps_per_second": 2.643, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 335.55555555555554, |
|
"grad_norm": 0.7335402965545654, |
|
"learning_rate": 7.5666666666666665e-06, |
|
"loss": 0.3512, |
|
"step": 7550 |
|
}, |
|
{ |
|
"epoch": 337.77777777777777, |
|
"grad_norm": 0.5599180459976196, |
|
"learning_rate": 6.733333333333333e-06, |
|
"loss": 0.3449, |
|
"step": 7600 |
|
}, |
|
{ |
|
"epoch": 340.0, |
|
"grad_norm": 0.6823892593383789, |
|
"learning_rate": 5.9e-06, |
|
"loss": 0.3431, |
|
"step": 7650 |
|
}, |
|
{ |
|
"epoch": 342.22222222222223, |
|
"grad_norm": 0.6472559571266174, |
|
"learning_rate": 5.066666666666667e-06, |
|
"loss": 0.3407, |
|
"step": 7700 |
|
}, |
|
{ |
|
"epoch": 344.44444444444446, |
|
"grad_norm": 0.6288905143737793, |
|
"learning_rate": 4.233333333333333e-06, |
|
"loss": 0.3439, |
|
"step": 7750 |
|
}, |
|
{ |
|
"epoch": 346.6666666666667, |
|
"grad_norm": 0.8924105167388916, |
|
"learning_rate": 3.4000000000000005e-06, |
|
"loss": 0.3458, |
|
"step": 7800 |
|
}, |
|
{ |
|
"epoch": 348.8888888888889, |
|
"grad_norm": 0.6726309657096863, |
|
"learning_rate": 2.566666666666667e-06, |
|
"loss": 0.3421, |
|
"step": 7850 |
|
}, |
|
{ |
|
"epoch": 351.1111111111111, |
|
"grad_norm": 0.45373550057411194, |
|
"learning_rate": 1.7333333333333334e-06, |
|
"loss": 0.3392, |
|
"step": 7900 |
|
}, |
|
{ |
|
"epoch": 353.3333333333333, |
|
"grad_norm": 0.7311224341392517, |
|
"learning_rate": 9e-07, |
|
"loss": 0.3432, |
|
"step": 7950 |
|
}, |
|
{ |
|
"epoch": 355.55555555555554, |
|
"grad_norm": 0.7168406248092651, |
|
"learning_rate": 6.666666666666667e-08, |
|
"loss": 0.3371, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 355.55555555555554, |
|
"eval_loss": 0.4246142506599426, |
|
"eval_runtime": 7.4147, |
|
"eval_samples_per_second": 21.444, |
|
"eval_steps_per_second": 2.697, |
|
"step": 8000 |
|
} |
|
], |
|
"logging_steps": 50, |
|
"max_steps": 8000, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 364, |
|
"save_steps": 500, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 1.160835352354054e+17, |
|
"train_batch_size": 32, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|