{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.1, "eval_steps": 50, "global_step": 250, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.002, "grad_norm": 0.2585286796092987, "learning_rate": 0.0001, "loss": 0.9729, "step": 5 }, { "epoch": 0.004, "grad_norm": 0.3368561565876007, "learning_rate": 0.0002, "loss": 0.9899, "step": 10 }, { "epoch": 0.006, "grad_norm": 0.499980092048645, "learning_rate": 0.00019583333333333334, "loss": 0.7853, "step": 15 }, { "epoch": 0.008, "grad_norm": 0.3696683347225189, "learning_rate": 0.00019166666666666667, "loss": 0.6654, "step": 20 }, { "epoch": 0.01, "grad_norm": 0.40797653794288635, "learning_rate": 0.0001875, "loss": 0.6311, "step": 25 }, { "epoch": 0.012, "grad_norm": 0.33503052592277527, "learning_rate": 0.00018333333333333334, "loss": 0.6248, "step": 30 }, { "epoch": 0.014, "grad_norm": 0.3338172733783722, "learning_rate": 0.0001791666666666667, "loss": 0.6046, "step": 35 }, { "epoch": 0.016, "grad_norm": 0.3330083191394806, "learning_rate": 0.000175, "loss": 0.6173, "step": 40 }, { "epoch": 0.018, "grad_norm": 0.3610495328903198, "learning_rate": 0.00017083333333333333, "loss": 0.6598, "step": 45 }, { "epoch": 0.02, "grad_norm": 0.5117771625518799, "learning_rate": 0.0001666666666666667, "loss": 0.701, "step": 50 }, { "epoch": 0.02, "eval_loss": 0.5943231582641602, "eval_runtime": 1078.9543, "eval_samples_per_second": 5.423, "eval_steps_per_second": 0.678, "step": 50 }, { "epoch": 0.022, "grad_norm": 0.24727080762386322, "learning_rate": 0.00016250000000000002, "loss": 0.5523, "step": 55 }, { "epoch": 0.024, "grad_norm": 0.32829391956329346, "learning_rate": 0.00015833333333333332, "loss": 0.5601, "step": 60 }, { "epoch": 0.026, "grad_norm": 0.2365810126066208, "learning_rate": 0.00015416666666666668, "loss": 0.5529, "step": 65 }, { "epoch": 0.028, "grad_norm": 0.23763389885425568, "learning_rate": 0.00015000000000000001, "loss": 0.5683, "step": 70 }, { "epoch": 0.03, "grad_norm": 0.2370971143245697, "learning_rate": 0.00014583333333333335, "loss": 0.5734, "step": 75 }, { "epoch": 0.032, "grad_norm": 0.23187637329101562, "learning_rate": 0.00014166666666666668, "loss": 0.5589, "step": 80 }, { "epoch": 0.034, "grad_norm": 0.2783190906047821, "learning_rate": 0.0001375, "loss": 0.5833, "step": 85 }, { "epoch": 0.036, "grad_norm": 0.2846642732620239, "learning_rate": 0.00013333333333333334, "loss": 0.5855, "step": 90 }, { "epoch": 0.038, "grad_norm": 0.30239176750183105, "learning_rate": 0.00012916666666666667, "loss": 0.6083, "step": 95 }, { "epoch": 0.04, "grad_norm": 0.4522075057029724, "learning_rate": 0.000125, "loss": 0.6666, "step": 100 }, { "epoch": 0.04, "eval_loss": 0.5652860403060913, "eval_runtime": 1078.4557, "eval_samples_per_second": 5.425, "eval_steps_per_second": 0.679, "step": 100 }, { "epoch": 0.042, "grad_norm": 0.34593072533607483, "learning_rate": 0.00012083333333333333, "loss": 0.5283, "step": 105 }, { "epoch": 0.044, "grad_norm": 0.24053940176963806, "learning_rate": 0.00011666666666666668, "loss": 0.5376, "step": 110 }, { "epoch": 0.046, "grad_norm": 0.25374647974967957, "learning_rate": 0.00011250000000000001, "loss": 0.5268, "step": 115 }, { "epoch": 0.048, "grad_norm": 0.2413879930973053, "learning_rate": 0.00010833333333333333, "loss": 0.5466, "step": 120 }, { "epoch": 0.05, "grad_norm": 0.22842754423618317, "learning_rate": 0.00010416666666666667, "loss": 0.558, "step": 125 }, { "epoch": 0.052, "grad_norm": 0.23777280747890472, "learning_rate": 0.0001, "loss": 0.5304, "step": 130 }, { "epoch": 0.054, "grad_norm": 0.2853969633579254, "learning_rate": 9.583333333333334e-05, "loss": 0.5773, "step": 135 }, { "epoch": 0.056, "grad_norm": 0.28491005301475525, "learning_rate": 9.166666666666667e-05, "loss": 0.5898, "step": 140 }, { "epoch": 0.058, "grad_norm": 0.3216317892074585, "learning_rate": 8.75e-05, "loss": 0.6376, "step": 145 }, { "epoch": 0.06, "grad_norm": 0.47678303718566895, "learning_rate": 8.333333333333334e-05, "loss": 0.6448, "step": 150 }, { "epoch": 0.06, "eval_loss": 0.5443492531776428, "eval_runtime": 1078.9513, "eval_samples_per_second": 5.423, "eval_steps_per_second": 0.678, "step": 150 }, { "epoch": 0.062, "grad_norm": 0.3121783435344696, "learning_rate": 7.916666666666666e-05, "loss": 0.5081, "step": 155 }, { "epoch": 0.064, "grad_norm": 0.2449740618467331, "learning_rate": 7.500000000000001e-05, "loss": 0.511, "step": 160 }, { "epoch": 0.066, "grad_norm": 0.2097545564174652, "learning_rate": 7.083333333333334e-05, "loss": 0.509, "step": 165 }, { "epoch": 0.068, "grad_norm": 0.23882268369197845, "learning_rate": 6.666666666666667e-05, "loss": 0.5411, "step": 170 }, { "epoch": 0.07, "grad_norm": 0.26276838779449463, "learning_rate": 6.25e-05, "loss": 0.5539, "step": 175 }, { "epoch": 0.072, "grad_norm": 0.26204946637153625, "learning_rate": 5.833333333333334e-05, "loss": 0.5692, "step": 180 }, { "epoch": 0.074, "grad_norm": 0.27385151386260986, "learning_rate": 5.4166666666666664e-05, "loss": 0.5599, "step": 185 }, { "epoch": 0.076, "grad_norm": 0.3151029646396637, "learning_rate": 5e-05, "loss": 0.5622, "step": 190 }, { "epoch": 0.078, "grad_norm": 0.372055321931839, "learning_rate": 4.5833333333333334e-05, "loss": 0.6128, "step": 195 }, { "epoch": 0.08, "grad_norm": 0.4943559765815735, "learning_rate": 4.166666666666667e-05, "loss": 0.6352, "step": 200 }, { "epoch": 0.08, "eval_loss": 0.5273013114929199, "eval_runtime": 1079.0525, "eval_samples_per_second": 5.422, "eval_steps_per_second": 0.678, "step": 200 }, { "epoch": 0.082, "grad_norm": 0.28252649307250977, "learning_rate": 3.7500000000000003e-05, "loss": 0.4963, "step": 205 }, { "epoch": 0.084, "grad_norm": 0.2909074127674103, "learning_rate": 3.3333333333333335e-05, "loss": 0.5165, "step": 210 }, { "epoch": 0.086, "grad_norm": 0.2641913890838623, "learning_rate": 2.916666666666667e-05, "loss": 0.5264, "step": 215 }, { "epoch": 0.088, "grad_norm": 0.2438758909702301, "learning_rate": 2.5e-05, "loss": 0.525, "step": 220 }, { "epoch": 0.09, "grad_norm": 0.2509464621543884, "learning_rate": 2.0833333333333336e-05, "loss": 0.5451, "step": 225 }, { "epoch": 0.092, "grad_norm": 0.26488572359085083, "learning_rate": 1.6666666666666667e-05, "loss": 0.5512, "step": 230 }, { "epoch": 0.094, "grad_norm": 0.2820191979408264, "learning_rate": 1.25e-05, "loss": 0.548, "step": 235 }, { "epoch": 0.096, "grad_norm": 0.3010896146297455, "learning_rate": 8.333333333333334e-06, "loss": 0.578, "step": 240 }, { "epoch": 0.098, "grad_norm": 0.38558459281921387, "learning_rate": 4.166666666666667e-06, "loss": 0.5913, "step": 245 }, { "epoch": 0.1, "grad_norm": 0.6697375178337097, "learning_rate": 0.0, "loss": 0.6351, "step": 250 }, { "epoch": 0.1, "eval_loss": 0.5142252445220947, "eval_runtime": 1078.9757, "eval_samples_per_second": 5.423, "eval_steps_per_second": 0.678, "step": 250 } ], "logging_steps": 5, "max_steps": 250, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 50, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2.64628687263744e+16, "train_batch_size": 20, "trial_name": null, "trial_params": null }