|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 10.0, |
|
"global_step": 11250, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.09, |
|
"learning_rate": 2.9733333333333336e-05, |
|
"loss": 0.277, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.18, |
|
"learning_rate": 2.9466666666666667e-05, |
|
"loss": 0.266, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.27, |
|
"learning_rate": 2.92e-05, |
|
"loss": 0.2463, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.36, |
|
"learning_rate": 2.8933333333333333e-05, |
|
"loss": 0.2247, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 0.44, |
|
"learning_rate": 2.8666666666666668e-05, |
|
"loss": 0.2119, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.44, |
|
"eval_loss": 0.29452410340309143, |
|
"eval_macro-f1": 0.26366464399598083, |
|
"eval_micro-f1": 0.44528018051899215, |
|
"eval_runtime": 250.6426, |
|
"eval_samples_per_second": 3.99, |
|
"eval_steps_per_second": 0.499, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.53, |
|
"learning_rate": 2.84e-05, |
|
"loss": 0.1997, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 0.62, |
|
"learning_rate": 2.8133333333333334e-05, |
|
"loss": 0.1945, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 0.71, |
|
"learning_rate": 2.7866666666666665e-05, |
|
"loss": 0.1949, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"learning_rate": 2.7600000000000003e-05, |
|
"loss": 0.1871, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 0.89, |
|
"learning_rate": 2.7333333333333335e-05, |
|
"loss": 0.1702, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.89, |
|
"eval_loss": 0.273383229970932, |
|
"eval_macro-f1": 0.3246138178474857, |
|
"eval_micro-f1": 0.48433268858800776, |
|
"eval_runtime": 250.7662, |
|
"eval_samples_per_second": 3.988, |
|
"eval_steps_per_second": 0.498, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.98, |
|
"learning_rate": 2.706666666666667e-05, |
|
"loss": 0.1883, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 1.07, |
|
"learning_rate": 2.68e-05, |
|
"loss": 0.1651, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 1.16, |
|
"learning_rate": 2.6533333333333336e-05, |
|
"loss": 0.1768, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 1.24, |
|
"learning_rate": 2.6266666666666667e-05, |
|
"loss": 0.1625, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 1.33, |
|
"learning_rate": 2.6000000000000002e-05, |
|
"loss": 0.1736, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 1.33, |
|
"eval_loss": 0.2633000612258911, |
|
"eval_macro-f1": 0.37253226371065895, |
|
"eval_micro-f1": 0.5133408493047726, |
|
"eval_runtime": 250.7914, |
|
"eval_samples_per_second": 3.987, |
|
"eval_steps_per_second": 0.498, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 1.42, |
|
"learning_rate": 2.5733333333333333e-05, |
|
"loss": 0.1737, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 1.51, |
|
"learning_rate": 2.5466666666666668e-05, |
|
"loss": 0.1647, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"learning_rate": 2.52e-05, |
|
"loss": 0.163, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 1.69, |
|
"learning_rate": 2.4933333333333334e-05, |
|
"loss": 0.1627, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 1.78, |
|
"learning_rate": 2.4666666666666665e-05, |
|
"loss": 0.1571, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 1.78, |
|
"eval_loss": 0.2548530697822571, |
|
"eval_macro-f1": 0.3942383469130867, |
|
"eval_micro-f1": 0.5417134306023195, |
|
"eval_runtime": 250.9116, |
|
"eval_samples_per_second": 3.985, |
|
"eval_steps_per_second": 0.498, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 1.87, |
|
"learning_rate": 2.44e-05, |
|
"loss": 0.1687, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 1.96, |
|
"learning_rate": 2.413333333333333e-05, |
|
"loss": 0.165, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 2.04, |
|
"learning_rate": 2.3866666666666666e-05, |
|
"loss": 0.1679, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 2.13, |
|
"learning_rate": 2.3599999999999998e-05, |
|
"loss": 0.1567, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 2.22, |
|
"learning_rate": 2.3333333333333336e-05, |
|
"loss": 0.1476, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 2.22, |
|
"eval_loss": 0.23479677736759186, |
|
"eval_macro-f1": 0.4186626091796164, |
|
"eval_micro-f1": 0.5649375236652783, |
|
"eval_runtime": 250.7383, |
|
"eval_samples_per_second": 3.988, |
|
"eval_steps_per_second": 0.499, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 2.31, |
|
"learning_rate": 2.3066666666666667e-05, |
|
"loss": 0.1497, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"learning_rate": 2.2800000000000002e-05, |
|
"loss": 0.1568, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 2.49, |
|
"learning_rate": 2.2533333333333333e-05, |
|
"loss": 0.1544, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 2.58, |
|
"learning_rate": 2.2266666666666668e-05, |
|
"loss": 0.1511, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 2.67, |
|
"learning_rate": 2.2e-05, |
|
"loss": 0.1599, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 2.67, |
|
"eval_loss": 0.2426605522632599, |
|
"eval_macro-f1": 0.4286399332829603, |
|
"eval_micro-f1": 0.5606287425149701, |
|
"eval_runtime": 250.7077, |
|
"eval_samples_per_second": 3.989, |
|
"eval_steps_per_second": 0.499, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 2.76, |
|
"learning_rate": 2.1733333333333334e-05, |
|
"loss": 0.1588, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 2.84, |
|
"learning_rate": 2.1466666666666666e-05, |
|
"loss": 0.1494, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 2.93, |
|
"learning_rate": 2.12e-05, |
|
"loss": 0.1451, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 3.02, |
|
"learning_rate": 2.0933333333333335e-05, |
|
"loss": 0.1511, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 3.11, |
|
"learning_rate": 2.0666666666666666e-05, |
|
"loss": 0.1481, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 3.11, |
|
"eval_loss": 0.22102022171020508, |
|
"eval_macro-f1": 0.4664222522152986, |
|
"eval_micro-f1": 0.5780392156862745, |
|
"eval_runtime": 250.7508, |
|
"eval_samples_per_second": 3.988, |
|
"eval_steps_per_second": 0.499, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 3.2, |
|
"learning_rate": 2.04e-05, |
|
"loss": 0.141, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 3.29, |
|
"learning_rate": 2.0133333333333333e-05, |
|
"loss": 0.15, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 3.38, |
|
"learning_rate": 1.9866666666666667e-05, |
|
"loss": 0.1447, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 3.47, |
|
"learning_rate": 1.96e-05, |
|
"loss": 0.1526, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 3.56, |
|
"learning_rate": 1.9333333333333333e-05, |
|
"loss": 0.1412, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 3.56, |
|
"eval_loss": 0.2542124390602112, |
|
"eval_macro-f1": 0.43618801692291176, |
|
"eval_micro-f1": 0.5617082880926529, |
|
"eval_runtime": 251.1467, |
|
"eval_samples_per_second": 3.982, |
|
"eval_steps_per_second": 0.498, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 3.64, |
|
"learning_rate": 1.9066666666666668e-05, |
|
"loss": 0.1437, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 3.73, |
|
"learning_rate": 1.8800000000000003e-05, |
|
"loss": 0.1537, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 3.82, |
|
"learning_rate": 1.8533333333333334e-05, |
|
"loss": 0.1419, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 3.91, |
|
"learning_rate": 1.826666666666667e-05, |
|
"loss": 0.146, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"learning_rate": 1.8e-05, |
|
"loss": 0.1505, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"eval_loss": 0.22492457926273346, |
|
"eval_macro-f1": 0.47284726582229103, |
|
"eval_micro-f1": 0.5862584017923824, |
|
"eval_runtime": 250.7861, |
|
"eval_samples_per_second": 3.987, |
|
"eval_steps_per_second": 0.498, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 4.09, |
|
"learning_rate": 1.7733333333333335e-05, |
|
"loss": 0.1376, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 4.18, |
|
"learning_rate": 1.7466666666666667e-05, |
|
"loss": 0.1349, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 4.27, |
|
"learning_rate": 1.7202666666666667e-05, |
|
"loss": 0.1377, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 4.36, |
|
"learning_rate": 1.6936000000000002e-05, |
|
"loss": 0.1476, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 4.44, |
|
"learning_rate": 1.6669333333333337e-05, |
|
"loss": 0.1425, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 4.44, |
|
"eval_loss": 0.23111233115196228, |
|
"eval_macro-f1": 0.4576083528112134, |
|
"eval_micro-f1": 0.5845251191785845, |
|
"eval_runtime": 250.9374, |
|
"eval_samples_per_second": 3.985, |
|
"eval_steps_per_second": 0.498, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 4.53, |
|
"learning_rate": 1.6402666666666668e-05, |
|
"loss": 0.1407, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 4.62, |
|
"learning_rate": 1.6136000000000003e-05, |
|
"loss": 0.1379, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 4.71, |
|
"learning_rate": 1.5869333333333334e-05, |
|
"loss": 0.1372, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 4.8, |
|
"learning_rate": 1.560266666666667e-05, |
|
"loss": 0.1383, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 4.89, |
|
"learning_rate": 1.5336e-05, |
|
"loss": 0.1461, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 4.89, |
|
"eval_loss": 0.2261454164981842, |
|
"eval_macro-f1": 0.45899951293068036, |
|
"eval_micro-f1": 0.5832072617246595, |
|
"eval_runtime": 250.9993, |
|
"eval_samples_per_second": 3.984, |
|
"eval_steps_per_second": 0.498, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 4.98, |
|
"learning_rate": 1.5069333333333335e-05, |
|
"loss": 0.149, |
|
"step": 5600 |
|
}, |
|
{ |
|
"epoch": 5.07, |
|
"learning_rate": 1.4802666666666666e-05, |
|
"loss": 0.1462, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 5.16, |
|
"learning_rate": 1.4536e-05, |
|
"loss": 0.1368, |
|
"step": 5800 |
|
}, |
|
{ |
|
"epoch": 5.24, |
|
"learning_rate": 1.4269333333333332e-05, |
|
"loss": 0.136, |
|
"step": 5900 |
|
}, |
|
{ |
|
"epoch": 5.33, |
|
"learning_rate": 1.4002666666666667e-05, |
|
"loss": 0.1451, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 5.33, |
|
"eval_loss": 0.2247992604970932, |
|
"eval_macro-f1": 0.47382748403425246, |
|
"eval_micro-f1": 0.590139808682855, |
|
"eval_runtime": 250.7218, |
|
"eval_samples_per_second": 3.988, |
|
"eval_steps_per_second": 0.499, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 5.42, |
|
"learning_rate": 1.3736e-05, |
|
"loss": 0.1385, |
|
"step": 6100 |
|
}, |
|
{ |
|
"epoch": 5.51, |
|
"learning_rate": 1.3469333333333333e-05, |
|
"loss": 0.1435, |
|
"step": 6200 |
|
}, |
|
{ |
|
"epoch": 5.6, |
|
"learning_rate": 1.3202666666666666e-05, |
|
"loss": 0.1289, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 5.69, |
|
"learning_rate": 1.2936000000000001e-05, |
|
"loss": 0.1376, |
|
"step": 6400 |
|
}, |
|
{ |
|
"epoch": 5.78, |
|
"learning_rate": 1.2669333333333334e-05, |
|
"loss": 0.1281, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 5.78, |
|
"eval_loss": 0.23171132802963257, |
|
"eval_macro-f1": 0.4640593541438955, |
|
"eval_micro-f1": 0.5896037804434751, |
|
"eval_runtime": 250.818, |
|
"eval_samples_per_second": 3.987, |
|
"eval_steps_per_second": 0.498, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 5.87, |
|
"learning_rate": 1.2402666666666667e-05, |
|
"loss": 0.1297, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 5.96, |
|
"learning_rate": 1.2136e-05, |
|
"loss": 0.1475, |
|
"step": 6700 |
|
}, |
|
{ |
|
"epoch": 6.04, |
|
"learning_rate": 1.1869333333333333e-05, |
|
"loss": 0.1446, |
|
"step": 6800 |
|
}, |
|
{ |
|
"epoch": 6.13, |
|
"learning_rate": 1.1602666666666668e-05, |
|
"loss": 0.1316, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 6.22, |
|
"learning_rate": 1.1336000000000001e-05, |
|
"loss": 0.1354, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 6.22, |
|
"eval_loss": 0.236615851521492, |
|
"eval_macro-f1": 0.46391783502581774, |
|
"eval_micro-f1": 0.5945558739255014, |
|
"eval_runtime": 250.8543, |
|
"eval_samples_per_second": 3.986, |
|
"eval_steps_per_second": 0.498, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 6.31, |
|
"learning_rate": 1.1069333333333334e-05, |
|
"loss": 0.1371, |
|
"step": 7100 |
|
}, |
|
{ |
|
"epoch": 6.4, |
|
"learning_rate": 1.0802666666666667e-05, |
|
"loss": 0.1336, |
|
"step": 7200 |
|
}, |
|
{ |
|
"epoch": 6.49, |
|
"learning_rate": 1.0536e-05, |
|
"loss": 0.1377, |
|
"step": 7300 |
|
}, |
|
{ |
|
"epoch": 6.58, |
|
"learning_rate": 1.0269333333333333e-05, |
|
"loss": 0.1214, |
|
"step": 7400 |
|
}, |
|
{ |
|
"epoch": 6.67, |
|
"learning_rate": 1.0002666666666667e-05, |
|
"loss": 0.1204, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 6.67, |
|
"eval_loss": 0.23111066222190857, |
|
"eval_macro-f1": 0.4874939295642857, |
|
"eval_micro-f1": 0.5876635514018691, |
|
"eval_runtime": 251.0341, |
|
"eval_samples_per_second": 3.984, |
|
"eval_steps_per_second": 0.498, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 6.76, |
|
"learning_rate": 9.736e-06, |
|
"loss": 0.1447, |
|
"step": 7600 |
|
}, |
|
{ |
|
"epoch": 6.84, |
|
"learning_rate": 9.469333333333334e-06, |
|
"loss": 0.1378, |
|
"step": 7700 |
|
}, |
|
{ |
|
"epoch": 6.93, |
|
"learning_rate": 9.202666666666667e-06, |
|
"loss": 0.1284, |
|
"step": 7800 |
|
}, |
|
{ |
|
"epoch": 7.02, |
|
"learning_rate": 8.936e-06, |
|
"loss": 0.1348, |
|
"step": 7900 |
|
}, |
|
{ |
|
"epoch": 7.11, |
|
"learning_rate": 8.669333333333334e-06, |
|
"loss": 0.1229, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 7.11, |
|
"eval_loss": 0.2082732766866684, |
|
"eval_macro-f1": 0.48152917771348014, |
|
"eval_micro-f1": 0.6019637462235651, |
|
"eval_runtime": 250.7762, |
|
"eval_samples_per_second": 3.988, |
|
"eval_steps_per_second": 0.498, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 7.2, |
|
"learning_rate": 8.402666666666667e-06, |
|
"loss": 0.1278, |
|
"step": 8100 |
|
}, |
|
{ |
|
"epoch": 7.29, |
|
"learning_rate": 8.136e-06, |
|
"loss": 0.1296, |
|
"step": 8200 |
|
}, |
|
{ |
|
"epoch": 7.38, |
|
"learning_rate": 7.869333333333333e-06, |
|
"loss": 0.1414, |
|
"step": 8300 |
|
}, |
|
{ |
|
"epoch": 7.47, |
|
"learning_rate": 7.602666666666667e-06, |
|
"loss": 0.1345, |
|
"step": 8400 |
|
}, |
|
{ |
|
"epoch": 7.56, |
|
"learning_rate": 7.336e-06, |
|
"loss": 0.1368, |
|
"step": 8500 |
|
}, |
|
{ |
|
"epoch": 7.56, |
|
"eval_loss": 0.21700948476791382, |
|
"eval_macro-f1": 0.5212896599306505, |
|
"eval_micro-f1": 0.6020710059171598, |
|
"eval_runtime": 250.9977, |
|
"eval_samples_per_second": 3.984, |
|
"eval_steps_per_second": 0.498, |
|
"step": 8500 |
|
}, |
|
{ |
|
"epoch": 7.64, |
|
"learning_rate": 7.069333333333333e-06, |
|
"loss": 0.1252, |
|
"step": 8600 |
|
}, |
|
{ |
|
"epoch": 7.73, |
|
"learning_rate": 6.802666666666667e-06, |
|
"loss": 0.1281, |
|
"step": 8700 |
|
}, |
|
{ |
|
"epoch": 7.82, |
|
"learning_rate": 6.538666666666667e-06, |
|
"loss": 0.1248, |
|
"step": 8800 |
|
}, |
|
{ |
|
"epoch": 7.91, |
|
"learning_rate": 6.272e-06, |
|
"loss": 0.1345, |
|
"step": 8900 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"learning_rate": 6.005333333333334e-06, |
|
"loss": 0.1288, |
|
"step": 9000 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"eval_loss": 0.2136116474866867, |
|
"eval_macro-f1": 0.5335725321845664, |
|
"eval_micro-f1": 0.6175595238095237, |
|
"eval_runtime": 250.9763, |
|
"eval_samples_per_second": 3.984, |
|
"eval_steps_per_second": 0.498, |
|
"step": 9000 |
|
}, |
|
{ |
|
"epoch": 8.09, |
|
"learning_rate": 5.738666666666667e-06, |
|
"loss": 0.1424, |
|
"step": 9100 |
|
}, |
|
{ |
|
"epoch": 8.18, |
|
"learning_rate": 5.472e-06, |
|
"loss": 0.1317, |
|
"step": 9200 |
|
}, |
|
{ |
|
"epoch": 8.27, |
|
"learning_rate": 5.205333333333333e-06, |
|
"loss": 0.1276, |
|
"step": 9300 |
|
}, |
|
{ |
|
"epoch": 8.36, |
|
"learning_rate": 4.938666666666667e-06, |
|
"loss": 0.1309, |
|
"step": 9400 |
|
}, |
|
{ |
|
"epoch": 8.44, |
|
"learning_rate": 4.672e-06, |
|
"loss": 0.1275, |
|
"step": 9500 |
|
}, |
|
{ |
|
"epoch": 8.44, |
|
"eval_loss": 0.21796877682209015, |
|
"eval_macro-f1": 0.5203516217663584, |
|
"eval_micro-f1": 0.6081784386617101, |
|
"eval_runtime": 251.0313, |
|
"eval_samples_per_second": 3.984, |
|
"eval_steps_per_second": 0.498, |
|
"step": 9500 |
|
}, |
|
{ |
|
"epoch": 8.53, |
|
"learning_rate": 4.405333333333333e-06, |
|
"loss": 0.1258, |
|
"step": 9600 |
|
}, |
|
{ |
|
"epoch": 8.62, |
|
"learning_rate": 4.1386666666666665e-06, |
|
"loss": 0.1338, |
|
"step": 9700 |
|
}, |
|
{ |
|
"epoch": 8.71, |
|
"learning_rate": 3.872e-06, |
|
"loss": 0.1254, |
|
"step": 9800 |
|
}, |
|
{ |
|
"epoch": 8.8, |
|
"learning_rate": 3.6053333333333334e-06, |
|
"loss": 0.1206, |
|
"step": 9900 |
|
}, |
|
{ |
|
"epoch": 8.89, |
|
"learning_rate": 3.338666666666667e-06, |
|
"loss": 0.1232, |
|
"step": 10000 |
|
}, |
|
{ |
|
"epoch": 8.89, |
|
"eval_loss": 0.2147359549999237, |
|
"eval_macro-f1": 0.5334115012856294, |
|
"eval_micro-f1": 0.6083052749719416, |
|
"eval_runtime": 251.0602, |
|
"eval_samples_per_second": 3.983, |
|
"eval_steps_per_second": 0.498, |
|
"step": 10000 |
|
}, |
|
{ |
|
"epoch": 8.98, |
|
"learning_rate": 3.0720000000000004e-06, |
|
"loss": 0.1167, |
|
"step": 10100 |
|
}, |
|
{ |
|
"epoch": 9.07, |
|
"learning_rate": 2.8053333333333335e-06, |
|
"loss": 0.133, |
|
"step": 10200 |
|
}, |
|
{ |
|
"epoch": 9.16, |
|
"learning_rate": 2.538666666666667e-06, |
|
"loss": 0.1239, |
|
"step": 10300 |
|
}, |
|
{ |
|
"epoch": 9.24, |
|
"learning_rate": 2.272e-06, |
|
"loss": 0.1208, |
|
"step": 10400 |
|
}, |
|
{ |
|
"epoch": 9.33, |
|
"learning_rate": 2.0053333333333335e-06, |
|
"loss": 0.1319, |
|
"step": 10500 |
|
}, |
|
{ |
|
"epoch": 9.33, |
|
"eval_loss": 0.21207687258720398, |
|
"eval_macro-f1": 0.5311776120067299, |
|
"eval_micro-f1": 0.6186029137093761, |
|
"eval_runtime": 250.7675, |
|
"eval_samples_per_second": 3.988, |
|
"eval_steps_per_second": 0.498, |
|
"step": 10500 |
|
}, |
|
{ |
|
"epoch": 9.42, |
|
"learning_rate": 1.7386666666666668e-06, |
|
"loss": 0.1136, |
|
"step": 10600 |
|
}, |
|
{ |
|
"epoch": 9.51, |
|
"learning_rate": 1.472e-06, |
|
"loss": 0.131, |
|
"step": 10700 |
|
}, |
|
{ |
|
"epoch": 9.6, |
|
"learning_rate": 1.208e-06, |
|
"loss": 0.1302, |
|
"step": 10800 |
|
}, |
|
{ |
|
"epoch": 9.69, |
|
"learning_rate": 9.413333333333333e-07, |
|
"loss": 0.1204, |
|
"step": 10900 |
|
}, |
|
{ |
|
"epoch": 9.78, |
|
"learning_rate": 6.746666666666667e-07, |
|
"loss": 0.1267, |
|
"step": 11000 |
|
}, |
|
{ |
|
"epoch": 9.78, |
|
"eval_loss": 0.20918133854866028, |
|
"eval_macro-f1": 0.5250058915528198, |
|
"eval_micro-f1": 0.6189584113900337, |
|
"eval_runtime": 251.2843, |
|
"eval_samples_per_second": 3.98, |
|
"eval_steps_per_second": 0.497, |
|
"step": 11000 |
|
}, |
|
{ |
|
"epoch": 9.87, |
|
"learning_rate": 4.08e-07, |
|
"loss": 0.1225, |
|
"step": 11100 |
|
}, |
|
{ |
|
"epoch": 9.96, |
|
"learning_rate": 1.4133333333333333e-07, |
|
"loss": 0.1188, |
|
"step": 11200 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"step": 11250, |
|
"total_flos": 4.4162288418816e+17, |
|
"train_loss": 0.14765226224263509, |
|
"train_runtime": 28756.843, |
|
"train_samples_per_second": 3.13, |
|
"train_steps_per_second": 0.391 |
|
} |
|
], |
|
"max_steps": 11250, |
|
"num_train_epochs": 10, |
|
"total_flos": 4.4162288418816e+17, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|