|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 25.0, |
|
"eval_steps": 1000, |
|
"global_step": 375, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 1.67, |
|
"learning_rate": 9.36e-07, |
|
"loss": 8.5683, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 3.33, |
|
"learning_rate": 8.693333333333333e-07, |
|
"loss": 7.5028, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"learning_rate": 8.026666666666667e-07, |
|
"loss": 7.293, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 6.67, |
|
"learning_rate": 7.359999999999999e-07, |
|
"loss": 7.2316, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 8.33, |
|
"learning_rate": 6.693333333333333e-07, |
|
"loss": 7.1945, |
|
"step": 125 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"learning_rate": 6.026666666666667e-07, |
|
"loss": 7.178, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 11.67, |
|
"learning_rate": 5.36e-07, |
|
"loss": 7.176, |
|
"step": 175 |
|
}, |
|
{ |
|
"epoch": 13.33, |
|
"learning_rate": 4.693333333333333e-07, |
|
"loss": 7.1478, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 15.0, |
|
"learning_rate": 4.0799999999999995e-07, |
|
"loss": 7.1358, |
|
"step": 225 |
|
}, |
|
{ |
|
"epoch": 16.67, |
|
"learning_rate": 3.413333333333333e-07, |
|
"loss": 7.154, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 18.33, |
|
"learning_rate": 2.7466666666666664e-07, |
|
"loss": 7.1035, |
|
"step": 275 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"learning_rate": 2.0799999999999998e-07, |
|
"loss": 7.1441, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 21.67, |
|
"learning_rate": 1.4133333333333333e-07, |
|
"loss": 7.1239, |
|
"step": 325 |
|
}, |
|
{ |
|
"epoch": 23.33, |
|
"learning_rate": 7.466666666666667e-08, |
|
"loss": 7.1274, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 25.0, |
|
"learning_rate": 8e-09, |
|
"loss": 7.1136, |
|
"step": 375 |
|
}, |
|
{ |
|
"epoch": 25.0, |
|
"step": 375, |
|
"total_flos": 0.0, |
|
"train_loss": 7.2796097819010415, |
|
"train_runtime": 437.882, |
|
"train_samples_per_second": 1.713, |
|
"train_steps_per_second": 0.856 |
|
} |
|
], |
|
"logging_steps": 25, |
|
"max_steps": 375, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 25, |
|
"save_steps": 500, |
|
"total_flos": 0.0, |
|
"train_batch_size": 2, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|