|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 19.946666666666665, |
|
"eval_steps": 500, |
|
"global_step": 3740, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 0.530346155166626, |
|
"learning_rate": 0.0003, |
|
"loss": 1.7168, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.9973333333333333, |
|
"eval_accuracy": 0.5753846153846154, |
|
"eval_loss": 1.60886549949646, |
|
"eval_runtime": 5.4444, |
|
"eval_samples_per_second": 91.837, |
|
"eval_steps_per_second": 11.572, |
|
"step": 187 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"grad_norm": 0.8836649060249329, |
|
"learning_rate": 0.0003, |
|
"loss": 1.6153, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 0.8621747493743896, |
|
"learning_rate": 0.0003, |
|
"loss": 1.3336, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"eval_accuracy": 0.5727692307692308, |
|
"eval_loss": 1.644170880317688, |
|
"eval_runtime": 5.3723, |
|
"eval_samples_per_second": 93.069, |
|
"eval_steps_per_second": 11.727, |
|
"step": 375 |
|
}, |
|
{ |
|
"epoch": 2.1333333333333333, |
|
"grad_norm": 0.8041630983352661, |
|
"learning_rate": 0.0003, |
|
"loss": 1.2575, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"grad_norm": 0.8738582730293274, |
|
"learning_rate": 0.0003, |
|
"loss": 0.9813, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 2.997333333333333, |
|
"eval_accuracy": 0.568974358974359, |
|
"eval_loss": 1.7656909227371216, |
|
"eval_runtime": 5.4207, |
|
"eval_samples_per_second": 92.238, |
|
"eval_steps_per_second": 11.622, |
|
"step": 562 |
|
}, |
|
{ |
|
"epoch": 3.2, |
|
"grad_norm": 0.8753482699394226, |
|
"learning_rate": 0.0003, |
|
"loss": 0.9077, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 3.7333333333333334, |
|
"grad_norm": 0.7831230759620667, |
|
"learning_rate": 0.0003, |
|
"loss": 0.7483, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"eval_accuracy": 0.566, |
|
"eval_loss": 1.9240361452102661, |
|
"eval_runtime": 5.3426, |
|
"eval_samples_per_second": 93.587, |
|
"eval_steps_per_second": 11.792, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 4.266666666666667, |
|
"grad_norm": 0.6289657950401306, |
|
"learning_rate": 0.0003, |
|
"loss": 0.6869, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 4.8, |
|
"grad_norm": 0.963268518447876, |
|
"learning_rate": 0.0003, |
|
"loss": 0.6395, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 4.997333333333334, |
|
"eval_accuracy": 0.5644102564102564, |
|
"eval_loss": 2.0308423042297363, |
|
"eval_runtime": 5.3468, |
|
"eval_samples_per_second": 93.514, |
|
"eval_steps_per_second": 11.783, |
|
"step": 937 |
|
}, |
|
{ |
|
"epoch": 5.333333333333333, |
|
"grad_norm": 0.5423685908317566, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5908, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 5.866666666666667, |
|
"grad_norm": 0.9933087825775146, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5836, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"eval_accuracy": 0.5626153846153846, |
|
"eval_loss": 2.091397762298584, |
|
"eval_runtime": 5.6133, |
|
"eval_samples_per_second": 89.074, |
|
"eval_steps_per_second": 11.223, |
|
"step": 1125 |
|
}, |
|
{ |
|
"epoch": 6.4, |
|
"grad_norm": 0.5602869987487793, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5463, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 6.933333333333334, |
|
"grad_norm": 0.7014422416687012, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5559, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 6.997333333333334, |
|
"eval_accuracy": 0.5616923076923077, |
|
"eval_loss": 2.1672749519348145, |
|
"eval_runtime": 5.3487, |
|
"eval_samples_per_second": 93.481, |
|
"eval_steps_per_second": 11.779, |
|
"step": 1312 |
|
}, |
|
{ |
|
"epoch": 7.466666666666667, |
|
"grad_norm": 0.6679653525352478, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5203, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"grad_norm": 0.4245469272136688, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5386, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"eval_accuracy": 0.5619487179487179, |
|
"eval_loss": 2.1640517711639404, |
|
"eval_runtime": 5.4533, |
|
"eval_samples_per_second": 91.687, |
|
"eval_steps_per_second": 11.553, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 8.533333333333333, |
|
"grad_norm": 0.3779478669166565, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5022, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 8.997333333333334, |
|
"eval_accuracy": 0.5622564102564103, |
|
"eval_loss": 2.199258804321289, |
|
"eval_runtime": 5.5165, |
|
"eval_samples_per_second": 90.637, |
|
"eval_steps_per_second": 11.42, |
|
"step": 1687 |
|
}, |
|
{ |
|
"epoch": 9.066666666666666, |
|
"grad_norm": 0.4485238790512085, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5222, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 9.6, |
|
"grad_norm": 0.4332904815673828, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5035, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"eval_accuracy": 0.5633333333333334, |
|
"eval_loss": 2.204721450805664, |
|
"eval_runtime": 5.5193, |
|
"eval_samples_per_second": 90.591, |
|
"eval_steps_per_second": 11.414, |
|
"step": 1875 |
|
}, |
|
{ |
|
"epoch": 10.133333333333333, |
|
"grad_norm": 0.4124760329723358, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5076, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 10.666666666666666, |
|
"grad_norm": 0.4373435378074646, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5013, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 10.997333333333334, |
|
"eval_accuracy": 0.5615897435897436, |
|
"eval_loss": 2.2971489429473877, |
|
"eval_runtime": 5.5247, |
|
"eval_samples_per_second": 90.502, |
|
"eval_steps_per_second": 11.403, |
|
"step": 2062 |
|
}, |
|
{ |
|
"epoch": 11.2, |
|
"grad_norm": 0.45598098635673523, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5068, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 11.733333333333333, |
|
"grad_norm": 0.6276603937149048, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5063, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 12.0, |
|
"eval_accuracy": 0.5618461538461539, |
|
"eval_loss": 2.2049615383148193, |
|
"eval_runtime": 5.2602, |
|
"eval_samples_per_second": 95.053, |
|
"eval_steps_per_second": 11.977, |
|
"step": 2250 |
|
}, |
|
{ |
|
"epoch": 12.266666666666667, |
|
"grad_norm": 0.5139246582984924, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5007, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 12.8, |
|
"grad_norm": 0.38055887818336487, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5048, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 12.997333333333334, |
|
"eval_accuracy": 0.5597435897435897, |
|
"eval_loss": 2.262411117553711, |
|
"eval_runtime": 5.2501, |
|
"eval_samples_per_second": 95.236, |
|
"eval_steps_per_second": 12.0, |
|
"step": 2437 |
|
}, |
|
{ |
|
"epoch": 13.333333333333334, |
|
"grad_norm": 0.4386054575443268, |
|
"learning_rate": 0.0003, |
|
"loss": 0.4973, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 13.866666666666667, |
|
"grad_norm": 0.5917075872421265, |
|
"learning_rate": 0.0003, |
|
"loss": 0.506, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 14.0, |
|
"eval_accuracy": 0.5597948717948718, |
|
"eval_loss": 2.3160910606384277, |
|
"eval_runtime": 5.8905, |
|
"eval_samples_per_second": 84.883, |
|
"eval_steps_per_second": 10.695, |
|
"step": 2625 |
|
}, |
|
{ |
|
"epoch": 14.4, |
|
"grad_norm": 0.6725122332572937, |
|
"learning_rate": 0.0003, |
|
"loss": 0.4932, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 14.933333333333334, |
|
"grad_norm": 0.9052000641822815, |
|
"learning_rate": 0.0003, |
|
"loss": 0.511, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 14.997333333333334, |
|
"eval_accuracy": 0.5554358974358974, |
|
"eval_loss": 2.255077362060547, |
|
"eval_runtime": 5.3196, |
|
"eval_samples_per_second": 93.991, |
|
"eval_steps_per_second": 11.843, |
|
"step": 2812 |
|
}, |
|
{ |
|
"epoch": 15.466666666666667, |
|
"grad_norm": 0.6864270567893982, |
|
"learning_rate": 0.0003, |
|
"loss": 0.4922, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 16.0, |
|
"grad_norm": 0.6024951338768005, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5163, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 16.0, |
|
"eval_accuracy": 0.5577948717948717, |
|
"eval_loss": 2.302440881729126, |
|
"eval_runtime": 5.2398, |
|
"eval_samples_per_second": 95.423, |
|
"eval_steps_per_second": 12.023, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 16.533333333333335, |
|
"grad_norm": 0.6178357005119324, |
|
"learning_rate": 0.0003, |
|
"loss": 0.4861, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 16.997333333333334, |
|
"eval_accuracy": 0.5584615384615385, |
|
"eval_loss": 2.2553999423980713, |
|
"eval_runtime": 5.3146, |
|
"eval_samples_per_second": 94.08, |
|
"eval_steps_per_second": 11.854, |
|
"step": 3187 |
|
}, |
|
{ |
|
"epoch": 17.066666666666666, |
|
"grad_norm": 0.38189423084259033, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5112, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 17.6, |
|
"grad_norm": 1.0341856479644775, |
|
"learning_rate": 0.0003, |
|
"loss": 0.4925, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 18.0, |
|
"eval_accuracy": 0.5578974358974359, |
|
"eval_loss": 2.24015474319458, |
|
"eval_runtime": 5.4691, |
|
"eval_samples_per_second": 91.423, |
|
"eval_steps_per_second": 11.519, |
|
"step": 3375 |
|
}, |
|
{ |
|
"epoch": 18.133333333333333, |
|
"grad_norm": 0.42371413111686707, |
|
"learning_rate": 0.0003, |
|
"loss": 0.5025, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 18.666666666666668, |
|
"grad_norm": 0.6477588415145874, |
|
"learning_rate": 0.0003, |
|
"loss": 0.4927, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 18.997333333333334, |
|
"eval_accuracy": 0.557025641025641, |
|
"eval_loss": 2.2989492416381836, |
|
"eval_runtime": 5.8753, |
|
"eval_samples_per_second": 85.102, |
|
"eval_steps_per_second": 10.723, |
|
"step": 3562 |
|
}, |
|
{ |
|
"epoch": 19.2, |
|
"grad_norm": 0.42820534110069275, |
|
"learning_rate": 0.0003, |
|
"loss": 0.493, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 19.733333333333334, |
|
"grad_norm": 0.3555707335472107, |
|
"learning_rate": 0.0003, |
|
"loss": 0.4868, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 19.946666666666665, |
|
"eval_accuracy": 0.5580512820512821, |
|
"eval_loss": 2.306687116622925, |
|
"eval_runtime": 5.67, |
|
"eval_samples_per_second": 88.184, |
|
"eval_steps_per_second": 11.111, |
|
"step": 3740 |
|
}, |
|
{ |
|
"epoch": 19.946666666666665, |
|
"step": 3740, |
|
"total_flos": 6.513574498480947e+16, |
|
"train_loss": 0.6539978063042788, |
|
"train_runtime": 8293.4129, |
|
"train_samples_per_second": 14.469, |
|
"train_steps_per_second": 0.451 |
|
} |
|
], |
|
"logging_steps": 100, |
|
"max_steps": 3740, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 20, |
|
"save_steps": 500, |
|
"total_flos": 6.513574498480947e+16, |
|
"train_batch_size": 1, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|