|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 65.3061224489796, |
|
"global_step": 400, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 1.63, |
|
"learning_rate": 0.009833333333333333, |
|
"loss": 2.53, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 3.27, |
|
"learning_rate": 0.009666666666666667, |
|
"loss": 2.0016, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 4.9, |
|
"learning_rate": 0.0095, |
|
"loss": 1.7775, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 6.53, |
|
"learning_rate": 0.009333333333333334, |
|
"loss": 1.6576, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 8.16, |
|
"learning_rate": 0.009166666666666667, |
|
"loss": 1.5048, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 9.8, |
|
"learning_rate": 0.009000000000000001, |
|
"loss": 1.3572, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 11.43, |
|
"learning_rate": 0.008833333333333334, |
|
"loss": 1.2067, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 13.06, |
|
"learning_rate": 0.008666666666666668, |
|
"loss": 1.0777, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 14.69, |
|
"learning_rate": 0.0085, |
|
"loss": 0.9188, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 16.33, |
|
"learning_rate": 0.008333333333333333, |
|
"loss": 0.7241, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 17.96, |
|
"learning_rate": 0.008166666666666666, |
|
"loss": 0.5775, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 19.59, |
|
"learning_rate": 0.008, |
|
"loss": 0.4235, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 21.22, |
|
"learning_rate": 0.007833333333333333, |
|
"loss": 0.3182, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 22.86, |
|
"learning_rate": 0.007666666666666667, |
|
"loss": 0.2155, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 24.49, |
|
"learning_rate": 0.0075, |
|
"loss": 0.1633, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 26.12, |
|
"learning_rate": 0.007333333333333333, |
|
"loss": 0.1234, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 27.76, |
|
"learning_rate": 0.007166666666666667, |
|
"loss": 0.0911, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 29.39, |
|
"learning_rate": 0.006999999999999999, |
|
"loss": 0.0738, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 31.02, |
|
"learning_rate": 0.006833333333333334, |
|
"loss": 0.0673, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 32.65, |
|
"learning_rate": 0.006666666666666666, |
|
"loss": 0.0544, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 34.29, |
|
"learning_rate": 0.006500000000000001, |
|
"loss": 0.0492, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 35.92, |
|
"learning_rate": 0.006333333333333333, |
|
"loss": 0.0458, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 37.55, |
|
"learning_rate": 0.0061666666666666675, |
|
"loss": 0.0434, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 39.18, |
|
"learning_rate": 0.006, |
|
"loss": 0.0387, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 40.82, |
|
"learning_rate": 0.005833333333333334, |
|
"loss": 0.0375, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 42.45, |
|
"learning_rate": 0.005666666666666666, |
|
"loss": 0.0363, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 44.08, |
|
"learning_rate": 0.0055000000000000005, |
|
"loss": 0.0347, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 45.71, |
|
"learning_rate": 0.005333333333333333, |
|
"loss": 0.0341, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 47.35, |
|
"learning_rate": 0.0051666666666666675, |
|
"loss": 0.0327, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 48.98, |
|
"learning_rate": 0.005, |
|
"loss": 0.0307, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 50.61, |
|
"learning_rate": 0.004833333333333334, |
|
"loss": 0.031, |
|
"step": 310 |
|
}, |
|
{ |
|
"epoch": 52.24, |
|
"learning_rate": 0.004666666666666667, |
|
"loss": 0.0312, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 53.88, |
|
"learning_rate": 0.0045000000000000005, |
|
"loss": 0.033, |
|
"step": 330 |
|
}, |
|
{ |
|
"epoch": 55.51, |
|
"learning_rate": 0.004333333333333334, |
|
"loss": 0.0294, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 57.14, |
|
"learning_rate": 0.004166666666666667, |
|
"loss": 0.0308, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 58.78, |
|
"learning_rate": 0.004, |
|
"loss": 0.0301, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 60.41, |
|
"learning_rate": 0.0038333333333333336, |
|
"loss": 0.0292, |
|
"step": 370 |
|
}, |
|
{ |
|
"epoch": 62.04, |
|
"learning_rate": 0.0036666666666666666, |
|
"loss": 0.0316, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 63.67, |
|
"learning_rate": 0.0034999999999999996, |
|
"loss": 0.0302, |
|
"step": 390 |
|
}, |
|
{ |
|
"epoch": 65.31, |
|
"learning_rate": 0.003333333333333333, |
|
"loss": 0.0295, |
|
"step": 400 |
|
} |
|
], |
|
"max_steps": 600, |
|
"num_train_epochs": 100, |
|
"total_flos": 4.702992625093837e+17, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|