|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 97.95918367346938, |
|
"global_step": 600, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 1.63, |
|
"learning_rate": 0.009833333333333333, |
|
"loss": 2.53, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 3.27, |
|
"learning_rate": 0.009666666666666667, |
|
"loss": 2.0016, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 4.9, |
|
"learning_rate": 0.0095, |
|
"loss": 1.7775, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 6.53, |
|
"learning_rate": 0.009333333333333334, |
|
"loss": 1.6576, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 8.16, |
|
"learning_rate": 0.009166666666666667, |
|
"loss": 1.5048, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 9.8, |
|
"learning_rate": 0.009000000000000001, |
|
"loss": 1.3572, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 11.43, |
|
"learning_rate": 0.008833333333333334, |
|
"loss": 1.2067, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 13.06, |
|
"learning_rate": 0.008666666666666668, |
|
"loss": 1.0777, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 14.69, |
|
"learning_rate": 0.0085, |
|
"loss": 0.9188, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 16.33, |
|
"learning_rate": 0.008333333333333333, |
|
"loss": 0.7241, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 17.96, |
|
"learning_rate": 0.008166666666666666, |
|
"loss": 0.5775, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 19.59, |
|
"learning_rate": 0.008, |
|
"loss": 0.4235, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 21.22, |
|
"learning_rate": 0.007833333333333333, |
|
"loss": 0.3182, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 22.86, |
|
"learning_rate": 0.007666666666666667, |
|
"loss": 0.2155, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 24.49, |
|
"learning_rate": 0.0075, |
|
"loss": 0.1633, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 26.12, |
|
"learning_rate": 0.007333333333333333, |
|
"loss": 0.1234, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 27.76, |
|
"learning_rate": 0.007166666666666667, |
|
"loss": 0.0911, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 29.39, |
|
"learning_rate": 0.006999999999999999, |
|
"loss": 0.0738, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 31.02, |
|
"learning_rate": 0.006833333333333334, |
|
"loss": 0.0673, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 32.65, |
|
"learning_rate": 0.006666666666666666, |
|
"loss": 0.0544, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 34.29, |
|
"learning_rate": 0.006500000000000001, |
|
"loss": 0.0492, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 35.92, |
|
"learning_rate": 0.006333333333333333, |
|
"loss": 0.0458, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 37.55, |
|
"learning_rate": 0.0061666666666666675, |
|
"loss": 0.0434, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 39.18, |
|
"learning_rate": 0.006, |
|
"loss": 0.0387, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 40.82, |
|
"learning_rate": 0.005833333333333334, |
|
"loss": 0.0375, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 42.45, |
|
"learning_rate": 0.005666666666666666, |
|
"loss": 0.0363, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 44.08, |
|
"learning_rate": 0.0055000000000000005, |
|
"loss": 0.0347, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 45.71, |
|
"learning_rate": 0.005333333333333333, |
|
"loss": 0.0341, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 47.35, |
|
"learning_rate": 0.0051666666666666675, |
|
"loss": 0.0327, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 48.98, |
|
"learning_rate": 0.005, |
|
"loss": 0.0307, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 50.61, |
|
"learning_rate": 0.004833333333333334, |
|
"loss": 0.031, |
|
"step": 310 |
|
}, |
|
{ |
|
"epoch": 52.24, |
|
"learning_rate": 0.004666666666666667, |
|
"loss": 0.0312, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 53.88, |
|
"learning_rate": 0.0045000000000000005, |
|
"loss": 0.033, |
|
"step": 330 |
|
}, |
|
{ |
|
"epoch": 55.51, |
|
"learning_rate": 0.004333333333333334, |
|
"loss": 0.0294, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 57.14, |
|
"learning_rate": 0.004166666666666667, |
|
"loss": 0.0308, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 58.78, |
|
"learning_rate": 0.004, |
|
"loss": 0.0301, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 60.41, |
|
"learning_rate": 0.0038333333333333336, |
|
"loss": 0.0292, |
|
"step": 370 |
|
}, |
|
{ |
|
"epoch": 62.04, |
|
"learning_rate": 0.0036666666666666666, |
|
"loss": 0.0316, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 63.67, |
|
"learning_rate": 0.0034999999999999996, |
|
"loss": 0.0302, |
|
"step": 390 |
|
}, |
|
{ |
|
"epoch": 65.31, |
|
"learning_rate": 0.003333333333333333, |
|
"loss": 0.0295, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 66.94, |
|
"learning_rate": 0.0031666666666666666, |
|
"loss": 0.0306, |
|
"step": 410 |
|
}, |
|
{ |
|
"epoch": 68.57, |
|
"learning_rate": 0.003, |
|
"loss": 0.0296, |
|
"step": 420 |
|
}, |
|
{ |
|
"epoch": 70.2, |
|
"learning_rate": 0.002833333333333333, |
|
"loss": 0.0293, |
|
"step": 430 |
|
}, |
|
{ |
|
"epoch": 71.84, |
|
"learning_rate": 0.0026666666666666666, |
|
"loss": 0.0302, |
|
"step": 440 |
|
}, |
|
{ |
|
"epoch": 73.47, |
|
"learning_rate": 0.0025, |
|
"loss": 0.0288, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 75.1, |
|
"learning_rate": 0.0023333333333333335, |
|
"loss": 0.0292, |
|
"step": 460 |
|
}, |
|
{ |
|
"epoch": 76.73, |
|
"learning_rate": 0.002166666666666667, |
|
"loss": 0.0285, |
|
"step": 470 |
|
}, |
|
{ |
|
"epoch": 78.37, |
|
"learning_rate": 0.002, |
|
"loss": 0.0309, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 80.0, |
|
"learning_rate": 0.0018333333333333333, |
|
"loss": 0.0291, |
|
"step": 490 |
|
}, |
|
{ |
|
"epoch": 81.63, |
|
"learning_rate": 0.0016666666666666666, |
|
"loss": 0.0305, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 83.27, |
|
"learning_rate": 0.0015, |
|
"loss": 0.0302, |
|
"step": 510 |
|
}, |
|
{ |
|
"epoch": 84.9, |
|
"learning_rate": 0.0013333333333333333, |
|
"loss": 0.0294, |
|
"step": 520 |
|
}, |
|
{ |
|
"epoch": 86.53, |
|
"learning_rate": 0.0011666666666666668, |
|
"loss": 0.0295, |
|
"step": 530 |
|
}, |
|
{ |
|
"epoch": 88.16, |
|
"learning_rate": 0.001, |
|
"loss": 0.0283, |
|
"step": 540 |
|
}, |
|
{ |
|
"epoch": 89.8, |
|
"learning_rate": 0.0008333333333333333, |
|
"loss": 0.0305, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 91.43, |
|
"learning_rate": 0.0006666666666666666, |
|
"loss": 0.0288, |
|
"step": 560 |
|
}, |
|
{ |
|
"epoch": 93.06, |
|
"learning_rate": 0.0005, |
|
"loss": 0.0309, |
|
"step": 570 |
|
}, |
|
{ |
|
"epoch": 94.69, |
|
"learning_rate": 0.0003333333333333333, |
|
"loss": 0.0286, |
|
"step": 580 |
|
}, |
|
{ |
|
"epoch": 96.33, |
|
"learning_rate": 0.00016666666666666666, |
|
"loss": 0.0309, |
|
"step": 590 |
|
}, |
|
{ |
|
"epoch": 97.96, |
|
"learning_rate": 0.0, |
|
"loss": 0.0294, |
|
"step": 600 |
|
} |
|
], |
|
"max_steps": 600, |
|
"num_train_epochs": 100, |
|
"total_flos": 7.054488937640755e+17, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|