{ "best_metric": 0.639344262295082, "best_model_checkpoint": "./save_phi2_ft_lora/checkpoint-500", "epoch": 1.7142857142857144, "eval_steps": 100, "global_step": 600, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.02857142857142857, "grad_norm": 4.4524922370910645, "learning_rate": 5e-06, "loss": 7.7212, "step": 10 }, { "epoch": 0.05714285714285714, "grad_norm": 7.601914882659912, "learning_rate": 1e-05, "loss": 7.1672, "step": 20 }, { "epoch": 0.08571428571428572, "grad_norm": 8.027816772460938, "learning_rate": 1.5e-05, "loss": 6.3537, "step": 30 }, { "epoch": 0.11428571428571428, "grad_norm": 11.633418083190918, "learning_rate": 2e-05, "loss": 4.3729, "step": 40 }, { "epoch": 0.14285714285714285, "grad_norm": 0.667292594909668, "learning_rate": 2.5e-05, "loss": 1.326, "step": 50 }, { "epoch": 0.17142857142857143, "grad_norm": 0.3907507359981537, "learning_rate": 3e-05, "loss": 0.6866, "step": 60 }, { "epoch": 0.2, "grad_norm": 0.38165029883384705, "learning_rate": 3.5e-05, "loss": 0.6193, "step": 70 }, { "epoch": 0.22857142857142856, "grad_norm": 0.42841440439224243, "learning_rate": 4e-05, "loss": 0.5303, "step": 80 }, { "epoch": 0.2571428571428571, "grad_norm": 0.47263672947883606, "learning_rate": 4.5e-05, "loss": 0.5499, "step": 90 }, { "epoch": 0.2857142857142857, "grad_norm": 0.4449155330657959, "learning_rate": 5e-05, "loss": 0.4965, "step": 100 }, { "epoch": 0.2857142857142857, "eval_accuracy": 0.5245901639344263, "step": 100 }, { "epoch": 0.2857142857142857, "eval_loss": 0.5124862790107727, "eval_runtime": 25.032, "eval_samples_per_second": 2.437, "eval_steps_per_second": 2.437, "step": 100 }, { "epoch": 0.3142857142857143, "grad_norm": 0.3682640492916107, "learning_rate": 4.9166666666666665e-05, "loss": 0.4743, "step": 110 }, { "epoch": 0.34285714285714286, "grad_norm": 0.3369247317314148, "learning_rate": 4.8333333333333334e-05, "loss": 0.426, "step": 120 }, { "epoch": 0.37142857142857144, "grad_norm": 0.4514841139316559, "learning_rate": 4.75e-05, "loss": 0.541, "step": 130 }, { "epoch": 0.4, "grad_norm": 0.38502833247184753, "learning_rate": 4.666666666666667e-05, "loss": 0.4963, "step": 140 }, { "epoch": 0.42857142857142855, "grad_norm": 0.4303703010082245, "learning_rate": 4.5833333333333334e-05, "loss": 0.4497, "step": 150 }, { "epoch": 0.45714285714285713, "grad_norm": 0.35013386607170105, "learning_rate": 4.5e-05, "loss": 0.4579, "step": 160 }, { "epoch": 0.4857142857142857, "grad_norm": 0.40734583139419556, "learning_rate": 4.4166666666666665e-05, "loss": 0.4153, "step": 170 }, { "epoch": 0.5142857142857142, "grad_norm": 0.4227501451969147, "learning_rate": 4.3333333333333334e-05, "loss": 0.449, "step": 180 }, { "epoch": 0.5428571428571428, "grad_norm": 0.4713309407234192, "learning_rate": 4.25e-05, "loss": 0.4315, "step": 190 }, { "epoch": 0.5714285714285714, "grad_norm": 0.3431229293346405, "learning_rate": 4.166666666666667e-05, "loss": 0.4096, "step": 200 }, { "epoch": 0.5714285714285714, "eval_accuracy": 0.5409836065573771, "step": 200 }, { "epoch": 0.5714285714285714, "eval_loss": 0.4621240496635437, "eval_runtime": 24.9789, "eval_samples_per_second": 2.442, "eval_steps_per_second": 2.442, "step": 200 }, { "epoch": 0.6, "grad_norm": 0.4659619927406311, "learning_rate": 4.0833333333333334e-05, "loss": 0.472, "step": 210 }, { "epoch": 0.6285714285714286, "grad_norm": 0.44028332829475403, "learning_rate": 4e-05, "loss": 0.4443, "step": 220 }, { "epoch": 0.6571428571428571, "grad_norm": 0.42133066058158875, "learning_rate": 3.9166666666666665e-05, "loss": 0.4361, "step": 230 }, { "epoch": 0.6857142857142857, "grad_norm": 0.39961257576942444, "learning_rate": 3.8333333333333334e-05, "loss": 0.4247, "step": 240 }, { "epoch": 0.7142857142857143, "grad_norm": 0.3081321716308594, "learning_rate": 3.7500000000000003e-05, "loss": 0.441, "step": 250 }, { "epoch": 0.7428571428571429, "grad_norm": 0.39379191398620605, "learning_rate": 3.6666666666666666e-05, "loss": 0.4713, "step": 260 }, { "epoch": 0.7714285714285715, "grad_norm": 0.3934948146343231, "learning_rate": 3.5833333333333335e-05, "loss": 0.4236, "step": 270 }, { "epoch": 0.8, "grad_norm": 0.48562589287757874, "learning_rate": 3.5e-05, "loss": 0.4221, "step": 280 }, { "epoch": 0.8285714285714286, "grad_norm": 0.4773520827293396, "learning_rate": 3.4166666666666666e-05, "loss": 0.4056, "step": 290 }, { "epoch": 0.8571428571428571, "grad_norm": 0.45502611994743347, "learning_rate": 3.3333333333333335e-05, "loss": 0.4713, "step": 300 }, { "epoch": 0.8571428571428571, "eval_accuracy": 0.5901639344262295, "step": 300 }, { "epoch": 0.8571428571428571, "eval_loss": 0.4464877247810364, "eval_runtime": 24.9076, "eval_samples_per_second": 2.449, "eval_steps_per_second": 2.449, "step": 300 }, { "epoch": 0.8857142857142857, "grad_norm": 0.4904050827026367, "learning_rate": 3.2500000000000004e-05, "loss": 0.416, "step": 310 }, { "epoch": 0.9142857142857143, "grad_norm": 0.45071181654930115, "learning_rate": 3.1666666666666666e-05, "loss": 0.4254, "step": 320 }, { "epoch": 0.9428571428571428, "grad_norm": 0.4734165072441101, "learning_rate": 3.0833333333333335e-05, "loss": 0.4403, "step": 330 }, { "epoch": 0.9714285714285714, "grad_norm": 0.32531169056892395, "learning_rate": 3e-05, "loss": 0.3805, "step": 340 }, { "epoch": 1.0, "grad_norm": 0.5295759439468384, "learning_rate": 2.916666666666667e-05, "loss": 0.4049, "step": 350 }, { "epoch": 1.0285714285714285, "grad_norm": 0.4535146653652191, "learning_rate": 2.8333333333333335e-05, "loss": 0.3915, "step": 360 }, { "epoch": 1.0571428571428572, "grad_norm": 0.42055150866508484, "learning_rate": 2.7500000000000004e-05, "loss": 0.401, "step": 370 }, { "epoch": 1.0857142857142856, "grad_norm": 0.4592249393463135, "learning_rate": 2.6666666666666667e-05, "loss": 0.4297, "step": 380 }, { "epoch": 1.1142857142857143, "grad_norm": 0.525604248046875, "learning_rate": 2.5833333333333336e-05, "loss": 0.401, "step": 390 }, { "epoch": 1.1428571428571428, "grad_norm": 0.48088252544403076, "learning_rate": 2.5e-05, "loss": 0.3862, "step": 400 }, { "epoch": 1.1428571428571428, "eval_accuracy": 0.5737704918032787, "step": 400 }, { "epoch": 1.1428571428571428, "eval_loss": 0.43748170137405396, "eval_runtime": 25.0172, "eval_samples_per_second": 2.438, "eval_steps_per_second": 2.438, "step": 400 }, { "epoch": 1.1714285714285715, "grad_norm": 0.5302506685256958, "learning_rate": 2.4166666666666667e-05, "loss": 0.3764, "step": 410 }, { "epoch": 1.2, "grad_norm": 0.5159845352172852, "learning_rate": 2.3333333333333336e-05, "loss": 0.4655, "step": 420 }, { "epoch": 1.2285714285714286, "grad_norm": 0.6144124269485474, "learning_rate": 2.25e-05, "loss": 0.4583, "step": 430 }, { "epoch": 1.2571428571428571, "grad_norm": 0.459087073802948, "learning_rate": 2.1666666666666667e-05, "loss": 0.3516, "step": 440 }, { "epoch": 1.2857142857142856, "grad_norm": 0.645317018032074, "learning_rate": 2.0833333333333336e-05, "loss": 0.4335, "step": 450 }, { "epoch": 1.3142857142857143, "grad_norm": 0.5170304179191589, "learning_rate": 2e-05, "loss": 0.3584, "step": 460 }, { "epoch": 1.342857142857143, "grad_norm": 0.5174509882926941, "learning_rate": 1.9166666666666667e-05, "loss": 0.3971, "step": 470 }, { "epoch": 1.3714285714285714, "grad_norm": 0.7321268320083618, "learning_rate": 1.8333333333333333e-05, "loss": 0.4155, "step": 480 }, { "epoch": 1.4, "grad_norm": 0.5902567505836487, "learning_rate": 1.75e-05, "loss": 0.4174, "step": 490 }, { "epoch": 1.4285714285714286, "grad_norm": 0.6302753686904907, "learning_rate": 1.6666666666666667e-05, "loss": 0.3845, "step": 500 }, { "epoch": 1.4285714285714286, "eval_accuracy": 0.639344262295082, "step": 500 }, { "epoch": 1.4285714285714286, "eval_loss": 0.4309236407279968, "eval_runtime": 24.9792, "eval_samples_per_second": 2.442, "eval_steps_per_second": 2.442, "step": 500 }, { "epoch": 1.457142857142857, "grad_norm": 0.5986595749855042, "learning_rate": 1.5833333333333333e-05, "loss": 0.379, "step": 510 }, { "epoch": 1.4857142857142858, "grad_norm": 0.6360900402069092, "learning_rate": 1.5e-05, "loss": 0.4032, "step": 520 }, { "epoch": 1.5142857142857142, "grad_norm": 0.6643335819244385, "learning_rate": 1.4166666666666668e-05, "loss": 0.4457, "step": 530 }, { "epoch": 1.5428571428571427, "grad_norm": 0.6122157573699951, "learning_rate": 1.3333333333333333e-05, "loss": 0.3733, "step": 540 }, { "epoch": 1.5714285714285714, "grad_norm": 0.6191014647483826, "learning_rate": 1.25e-05, "loss": 0.3774, "step": 550 }, { "epoch": 1.6, "grad_norm": 0.6474822163581848, "learning_rate": 1.1666666666666668e-05, "loss": 0.3909, "step": 560 }, { "epoch": 1.6285714285714286, "grad_norm": 0.5925464034080505, "learning_rate": 1.0833333333333334e-05, "loss": 0.3996, "step": 570 }, { "epoch": 1.657142857142857, "grad_norm": 0.5263736248016357, "learning_rate": 1e-05, "loss": 0.4127, "step": 580 }, { "epoch": 1.6857142857142857, "grad_norm": 0.631297767162323, "learning_rate": 9.166666666666666e-06, "loss": 0.3761, "step": 590 }, { "epoch": 1.7142857142857144, "grad_norm": 0.7315351963043213, "learning_rate": 8.333333333333334e-06, "loss": 0.4115, "step": 600 }, { "epoch": 1.7142857142857144, "eval_accuracy": 0.6229508196721312, "step": 600 }, { "epoch": 1.7142857142857144, "eval_loss": 0.4279886484146118, "eval_runtime": 24.854, "eval_samples_per_second": 2.454, "eval_steps_per_second": 2.454, "step": 600 } ], "logging_steps": 10, "max_steps": 700, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1.9720958902272e+16, "train_batch_size": 1, "trial_name": null, "trial_params": null }