{ "best_metric": null, "best_model_checkpoint": null, "epoch": 19.946666666666665, "eval_steps": 500, "global_step": 3740, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.5333333333333333, "grad_norm": 0.530346155166626, "learning_rate": 0.0003, "loss": 1.7168, "step": 100 }, { "epoch": 0.9973333333333333, "eval_accuracy": 0.5753846153846154, "eval_loss": 1.60886549949646, "eval_runtime": 5.4444, "eval_samples_per_second": 91.837, "eval_steps_per_second": 11.572, "step": 187 }, { "epoch": 1.0666666666666667, "grad_norm": 0.8836649060249329, "learning_rate": 0.0003, "loss": 1.6153, "step": 200 }, { "epoch": 1.6, "grad_norm": 0.8621747493743896, "learning_rate": 0.0003, "loss": 1.3336, "step": 300 }, { "epoch": 2.0, "eval_accuracy": 0.5727692307692308, "eval_loss": 1.644170880317688, "eval_runtime": 5.3723, "eval_samples_per_second": 93.069, "eval_steps_per_second": 11.727, "step": 375 }, { "epoch": 2.1333333333333333, "grad_norm": 0.8041630983352661, "learning_rate": 0.0003, "loss": 1.2575, "step": 400 }, { "epoch": 2.6666666666666665, "grad_norm": 0.8738582730293274, "learning_rate": 0.0003, "loss": 0.9813, "step": 500 }, { "epoch": 2.997333333333333, "eval_accuracy": 0.568974358974359, "eval_loss": 1.7656909227371216, "eval_runtime": 5.4207, "eval_samples_per_second": 92.238, "eval_steps_per_second": 11.622, "step": 562 }, { "epoch": 3.2, "grad_norm": 0.8753482699394226, "learning_rate": 0.0003, "loss": 0.9077, "step": 600 }, { "epoch": 3.7333333333333334, "grad_norm": 0.7831230759620667, "learning_rate": 0.0003, "loss": 0.7483, "step": 700 }, { "epoch": 4.0, "eval_accuracy": 0.566, "eval_loss": 1.9240361452102661, "eval_runtime": 5.3426, "eval_samples_per_second": 93.587, "eval_steps_per_second": 11.792, "step": 750 }, { "epoch": 4.266666666666667, "grad_norm": 0.6289657950401306, "learning_rate": 0.0003, "loss": 0.6869, "step": 800 }, { "epoch": 4.8, "grad_norm": 0.963268518447876, "learning_rate": 0.0003, "loss": 0.6395, "step": 900 }, { "epoch": 4.997333333333334, "eval_accuracy": 0.5644102564102564, "eval_loss": 2.0308423042297363, "eval_runtime": 5.3468, "eval_samples_per_second": 93.514, "eval_steps_per_second": 11.783, "step": 937 }, { "epoch": 5.333333333333333, "grad_norm": 0.5423685908317566, "learning_rate": 0.0003, "loss": 0.5908, "step": 1000 }, { "epoch": 5.866666666666667, "grad_norm": 0.9933087825775146, "learning_rate": 0.0003, "loss": 0.5836, "step": 1100 }, { "epoch": 6.0, "eval_accuracy": 0.5626153846153846, "eval_loss": 2.091397762298584, "eval_runtime": 5.6133, "eval_samples_per_second": 89.074, "eval_steps_per_second": 11.223, "step": 1125 }, { "epoch": 6.4, "grad_norm": 0.5602869987487793, "learning_rate": 0.0003, "loss": 0.5463, "step": 1200 }, { "epoch": 6.933333333333334, "grad_norm": 0.7014422416687012, "learning_rate": 0.0003, "loss": 0.5559, "step": 1300 }, { "epoch": 6.997333333333334, "eval_accuracy": 0.5616923076923077, "eval_loss": 2.1672749519348145, "eval_runtime": 5.3487, "eval_samples_per_second": 93.481, "eval_steps_per_second": 11.779, "step": 1312 }, { "epoch": 7.466666666666667, "grad_norm": 0.6679653525352478, "learning_rate": 0.0003, "loss": 0.5203, "step": 1400 }, { "epoch": 8.0, "grad_norm": 0.4245469272136688, "learning_rate": 0.0003, "loss": 0.5386, "step": 1500 }, { "epoch": 8.0, "eval_accuracy": 0.5619487179487179, "eval_loss": 2.1640517711639404, "eval_runtime": 5.4533, "eval_samples_per_second": 91.687, "eval_steps_per_second": 11.553, "step": 1500 }, { "epoch": 8.533333333333333, "grad_norm": 0.3779478669166565, "learning_rate": 0.0003, "loss": 0.5022, "step": 1600 }, { "epoch": 8.997333333333334, "eval_accuracy": 0.5622564102564103, "eval_loss": 2.199258804321289, "eval_runtime": 5.5165, "eval_samples_per_second": 90.637, "eval_steps_per_second": 11.42, "step": 1687 }, { "epoch": 9.066666666666666, "grad_norm": 0.4485238790512085, "learning_rate": 0.0003, "loss": 0.5222, "step": 1700 }, { "epoch": 9.6, "grad_norm": 0.4332904815673828, "learning_rate": 0.0003, "loss": 0.5035, "step": 1800 }, { "epoch": 10.0, "eval_accuracy": 0.5633333333333334, "eval_loss": 2.204721450805664, "eval_runtime": 5.5193, "eval_samples_per_second": 90.591, "eval_steps_per_second": 11.414, "step": 1875 }, { "epoch": 10.133333333333333, "grad_norm": 0.4124760329723358, "learning_rate": 0.0003, "loss": 0.5076, "step": 1900 }, { "epoch": 10.666666666666666, "grad_norm": 0.4373435378074646, "learning_rate": 0.0003, "loss": 0.5013, "step": 2000 }, { "epoch": 10.997333333333334, "eval_accuracy": 0.5615897435897436, "eval_loss": 2.2971489429473877, "eval_runtime": 5.5247, "eval_samples_per_second": 90.502, "eval_steps_per_second": 11.403, "step": 2062 }, { "epoch": 11.2, "grad_norm": 0.45598098635673523, "learning_rate": 0.0003, "loss": 0.5068, "step": 2100 }, { "epoch": 11.733333333333333, "grad_norm": 0.6276603937149048, "learning_rate": 0.0003, "loss": 0.5063, "step": 2200 }, { "epoch": 12.0, "eval_accuracy": 0.5618461538461539, "eval_loss": 2.2049615383148193, "eval_runtime": 5.2602, "eval_samples_per_second": 95.053, "eval_steps_per_second": 11.977, "step": 2250 }, { "epoch": 12.266666666666667, "grad_norm": 0.5139246582984924, "learning_rate": 0.0003, "loss": 0.5007, "step": 2300 }, { "epoch": 12.8, "grad_norm": 0.38055887818336487, "learning_rate": 0.0003, "loss": 0.5048, "step": 2400 }, { "epoch": 12.997333333333334, "eval_accuracy": 0.5597435897435897, "eval_loss": 2.262411117553711, "eval_runtime": 5.2501, "eval_samples_per_second": 95.236, "eval_steps_per_second": 12.0, "step": 2437 }, { "epoch": 13.333333333333334, "grad_norm": 0.4386054575443268, "learning_rate": 0.0003, "loss": 0.4973, "step": 2500 }, { "epoch": 13.866666666666667, "grad_norm": 0.5917075872421265, "learning_rate": 0.0003, "loss": 0.506, "step": 2600 }, { "epoch": 14.0, "eval_accuracy": 0.5597948717948718, "eval_loss": 2.3160910606384277, "eval_runtime": 5.8905, "eval_samples_per_second": 84.883, "eval_steps_per_second": 10.695, "step": 2625 }, { "epoch": 14.4, "grad_norm": 0.6725122332572937, "learning_rate": 0.0003, "loss": 0.4932, "step": 2700 }, { "epoch": 14.933333333333334, "grad_norm": 0.9052000641822815, "learning_rate": 0.0003, "loss": 0.511, "step": 2800 }, { "epoch": 14.997333333333334, "eval_accuracy": 0.5554358974358974, "eval_loss": 2.255077362060547, "eval_runtime": 5.3196, "eval_samples_per_second": 93.991, "eval_steps_per_second": 11.843, "step": 2812 }, { "epoch": 15.466666666666667, "grad_norm": 0.6864270567893982, "learning_rate": 0.0003, "loss": 0.4922, "step": 2900 }, { "epoch": 16.0, "grad_norm": 0.6024951338768005, "learning_rate": 0.0003, "loss": 0.5163, "step": 3000 }, { "epoch": 16.0, "eval_accuracy": 0.5577948717948717, "eval_loss": 2.302440881729126, "eval_runtime": 5.2398, "eval_samples_per_second": 95.423, "eval_steps_per_second": 12.023, "step": 3000 }, { "epoch": 16.533333333333335, "grad_norm": 0.6178357005119324, "learning_rate": 0.0003, "loss": 0.4861, "step": 3100 }, { "epoch": 16.997333333333334, "eval_accuracy": 0.5584615384615385, "eval_loss": 2.2553999423980713, "eval_runtime": 5.3146, "eval_samples_per_second": 94.08, "eval_steps_per_second": 11.854, "step": 3187 }, { "epoch": 17.066666666666666, "grad_norm": 0.38189423084259033, "learning_rate": 0.0003, "loss": 0.5112, "step": 3200 }, { "epoch": 17.6, "grad_norm": 1.0341856479644775, "learning_rate": 0.0003, "loss": 0.4925, "step": 3300 }, { "epoch": 18.0, "eval_accuracy": 0.5578974358974359, "eval_loss": 2.24015474319458, "eval_runtime": 5.4691, "eval_samples_per_second": 91.423, "eval_steps_per_second": 11.519, "step": 3375 }, { "epoch": 18.133333333333333, "grad_norm": 0.42371413111686707, "learning_rate": 0.0003, "loss": 0.5025, "step": 3400 }, { "epoch": 18.666666666666668, "grad_norm": 0.6477588415145874, "learning_rate": 0.0003, "loss": 0.4927, "step": 3500 }, { "epoch": 18.997333333333334, "eval_accuracy": 0.557025641025641, "eval_loss": 2.2989492416381836, "eval_runtime": 5.8753, "eval_samples_per_second": 85.102, "eval_steps_per_second": 10.723, "step": 3562 }, { "epoch": 19.2, "grad_norm": 0.42820534110069275, "learning_rate": 0.0003, "loss": 0.493, "step": 3600 }, { "epoch": 19.733333333333334, "grad_norm": 0.3555707335472107, "learning_rate": 0.0003, "loss": 0.4868, "step": 3700 }, { "epoch": 19.946666666666665, "eval_accuracy": 0.5580512820512821, "eval_loss": 2.306687116622925, "eval_runtime": 5.67, "eval_samples_per_second": 88.184, "eval_steps_per_second": 11.111, "step": 3740 }, { "epoch": 19.946666666666665, "step": 3740, "total_flos": 6.513574498480947e+16, "train_loss": 0.6539978063042788, "train_runtime": 8293.4129, "train_samples_per_second": 14.469, "train_steps_per_second": 0.451 } ], "logging_steps": 100, "max_steps": 3740, "num_input_tokens_seen": 0, "num_train_epochs": 20, "save_steps": 500, "total_flos": 6.513574498480947e+16, "train_batch_size": 1, "trial_name": null, "trial_params": null }