{ "best_metric": null, "best_model_checkpoint": null, "epoch": 10.0, "global_step": 11250, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.09, "learning_rate": 2.9733333333333336e-05, "loss": 0.277, "step": 100 }, { "epoch": 0.18, "learning_rate": 2.9466666666666667e-05, "loss": 0.266, "step": 200 }, { "epoch": 0.27, "learning_rate": 2.92e-05, "loss": 0.2463, "step": 300 }, { "epoch": 0.36, "learning_rate": 2.8933333333333333e-05, "loss": 0.2247, "step": 400 }, { "epoch": 0.44, "learning_rate": 2.8666666666666668e-05, "loss": 0.2119, "step": 500 }, { "epoch": 0.44, "eval_loss": 0.29452410340309143, "eval_macro-f1": 0.26366464399598083, "eval_micro-f1": 0.44528018051899215, "eval_runtime": 250.6426, "eval_samples_per_second": 3.99, "eval_steps_per_second": 0.499, "step": 500 }, { "epoch": 0.53, "learning_rate": 2.84e-05, "loss": 0.1997, "step": 600 }, { "epoch": 0.62, "learning_rate": 2.8133333333333334e-05, "loss": 0.1945, "step": 700 }, { "epoch": 0.71, "learning_rate": 2.7866666666666665e-05, "loss": 0.1949, "step": 800 }, { "epoch": 0.8, "learning_rate": 2.7600000000000003e-05, "loss": 0.1871, "step": 900 }, { "epoch": 0.89, "learning_rate": 2.7333333333333335e-05, "loss": 0.1702, "step": 1000 }, { "epoch": 0.89, "eval_loss": 0.273383229970932, "eval_macro-f1": 0.3246138178474857, "eval_micro-f1": 0.48433268858800776, "eval_runtime": 250.7662, "eval_samples_per_second": 3.988, "eval_steps_per_second": 0.498, "step": 1000 }, { "epoch": 0.98, "learning_rate": 2.706666666666667e-05, "loss": 0.1883, "step": 1100 }, { "epoch": 1.07, "learning_rate": 2.68e-05, "loss": 0.1651, "step": 1200 }, { "epoch": 1.16, "learning_rate": 2.6533333333333336e-05, "loss": 0.1768, "step": 1300 }, { "epoch": 1.24, "learning_rate": 2.6266666666666667e-05, "loss": 0.1625, "step": 1400 }, { "epoch": 1.33, "learning_rate": 2.6000000000000002e-05, "loss": 0.1736, "step": 1500 }, { "epoch": 1.33, "eval_loss": 0.2633000612258911, "eval_macro-f1": 0.37253226371065895, "eval_micro-f1": 0.5133408493047726, "eval_runtime": 250.7914, "eval_samples_per_second": 3.987, "eval_steps_per_second": 0.498, "step": 1500 }, { "epoch": 1.42, "learning_rate": 2.5733333333333333e-05, "loss": 0.1737, "step": 1600 }, { "epoch": 1.51, "learning_rate": 2.5466666666666668e-05, "loss": 0.1647, "step": 1700 }, { "epoch": 1.6, "learning_rate": 2.52e-05, "loss": 0.163, "step": 1800 }, { "epoch": 1.69, "learning_rate": 2.4933333333333334e-05, "loss": 0.1627, "step": 1900 }, { "epoch": 1.78, "learning_rate": 2.4666666666666665e-05, "loss": 0.1571, "step": 2000 }, { "epoch": 1.78, "eval_loss": 0.2548530697822571, "eval_macro-f1": 0.3942383469130867, "eval_micro-f1": 0.5417134306023195, "eval_runtime": 250.9116, "eval_samples_per_second": 3.985, "eval_steps_per_second": 0.498, "step": 2000 }, { "epoch": 1.87, "learning_rate": 2.44e-05, "loss": 0.1687, "step": 2100 }, { "epoch": 1.96, "learning_rate": 2.413333333333333e-05, "loss": 0.165, "step": 2200 }, { "epoch": 2.04, "learning_rate": 2.3866666666666666e-05, "loss": 0.1679, "step": 2300 }, { "epoch": 2.13, "learning_rate": 2.3599999999999998e-05, "loss": 0.1567, "step": 2400 }, { "epoch": 2.22, "learning_rate": 2.3333333333333336e-05, "loss": 0.1476, "step": 2500 }, { "epoch": 2.22, "eval_loss": 0.23479677736759186, "eval_macro-f1": 0.4186626091796164, "eval_micro-f1": 0.5649375236652783, "eval_runtime": 250.7383, "eval_samples_per_second": 3.988, "eval_steps_per_second": 0.499, "step": 2500 }, { "epoch": 2.31, "learning_rate": 2.3066666666666667e-05, "loss": 0.1497, "step": 2600 }, { "epoch": 2.4, "learning_rate": 2.2800000000000002e-05, "loss": 0.1568, "step": 2700 }, { "epoch": 2.49, "learning_rate": 2.2533333333333333e-05, "loss": 0.1544, "step": 2800 }, { "epoch": 2.58, "learning_rate": 2.2266666666666668e-05, "loss": 0.1511, "step": 2900 }, { "epoch": 2.67, "learning_rate": 2.2e-05, "loss": 0.1599, "step": 3000 }, { "epoch": 2.67, "eval_loss": 0.2426605522632599, "eval_macro-f1": 0.4286399332829603, "eval_micro-f1": 0.5606287425149701, "eval_runtime": 250.7077, "eval_samples_per_second": 3.989, "eval_steps_per_second": 0.499, "step": 3000 }, { "epoch": 2.76, "learning_rate": 2.1733333333333334e-05, "loss": 0.1588, "step": 3100 }, { "epoch": 2.84, "learning_rate": 2.1466666666666666e-05, "loss": 0.1494, "step": 3200 }, { "epoch": 2.93, "learning_rate": 2.12e-05, "loss": 0.1451, "step": 3300 }, { "epoch": 3.02, "learning_rate": 2.0933333333333335e-05, "loss": 0.1511, "step": 3400 }, { "epoch": 3.11, "learning_rate": 2.0666666666666666e-05, "loss": 0.1481, "step": 3500 }, { "epoch": 3.11, "eval_loss": 0.22102022171020508, "eval_macro-f1": 0.4664222522152986, "eval_micro-f1": 0.5780392156862745, "eval_runtime": 250.7508, "eval_samples_per_second": 3.988, "eval_steps_per_second": 0.499, "step": 3500 }, { "epoch": 3.2, "learning_rate": 2.04e-05, "loss": 0.141, "step": 3600 }, { "epoch": 3.29, "learning_rate": 2.0133333333333333e-05, "loss": 0.15, "step": 3700 }, { "epoch": 3.38, "learning_rate": 1.9866666666666667e-05, "loss": 0.1447, "step": 3800 }, { "epoch": 3.47, "learning_rate": 1.96e-05, "loss": 0.1526, "step": 3900 }, { "epoch": 3.56, "learning_rate": 1.9333333333333333e-05, "loss": 0.1412, "step": 4000 }, { "epoch": 3.56, "eval_loss": 0.2542124390602112, "eval_macro-f1": 0.43618801692291176, "eval_micro-f1": 0.5617082880926529, "eval_runtime": 251.1467, "eval_samples_per_second": 3.982, "eval_steps_per_second": 0.498, "step": 4000 }, { "epoch": 3.64, "learning_rate": 1.9066666666666668e-05, "loss": 0.1437, "step": 4100 }, { "epoch": 3.73, "learning_rate": 1.8800000000000003e-05, "loss": 0.1537, "step": 4200 }, { "epoch": 3.82, "learning_rate": 1.8533333333333334e-05, "loss": 0.1419, "step": 4300 }, { "epoch": 3.91, "learning_rate": 1.826666666666667e-05, "loss": 0.146, "step": 4400 }, { "epoch": 4.0, "learning_rate": 1.8e-05, "loss": 0.1505, "step": 4500 }, { "epoch": 4.0, "eval_loss": 0.22492457926273346, "eval_macro-f1": 0.47284726582229103, "eval_micro-f1": 0.5862584017923824, "eval_runtime": 250.7861, "eval_samples_per_second": 3.987, "eval_steps_per_second": 0.498, "step": 4500 }, { "epoch": 4.09, "learning_rate": 1.7733333333333335e-05, "loss": 0.1376, "step": 4600 }, { "epoch": 4.18, "learning_rate": 1.7466666666666667e-05, "loss": 0.1349, "step": 4700 }, { "epoch": 4.27, "learning_rate": 1.7202666666666667e-05, "loss": 0.1377, "step": 4800 }, { "epoch": 4.36, "learning_rate": 1.6936000000000002e-05, "loss": 0.1476, "step": 4900 }, { "epoch": 4.44, "learning_rate": 1.6669333333333337e-05, "loss": 0.1425, "step": 5000 }, { "epoch": 4.44, "eval_loss": 0.23111233115196228, "eval_macro-f1": 0.4576083528112134, "eval_micro-f1": 0.5845251191785845, "eval_runtime": 250.9374, "eval_samples_per_second": 3.985, "eval_steps_per_second": 0.498, "step": 5000 }, { "epoch": 4.53, "learning_rate": 1.6402666666666668e-05, "loss": 0.1407, "step": 5100 }, { "epoch": 4.62, "learning_rate": 1.6136000000000003e-05, "loss": 0.1379, "step": 5200 }, { "epoch": 4.71, "learning_rate": 1.5869333333333334e-05, "loss": 0.1372, "step": 5300 }, { "epoch": 4.8, "learning_rate": 1.560266666666667e-05, "loss": 0.1383, "step": 5400 }, { "epoch": 4.89, "learning_rate": 1.5336e-05, "loss": 0.1461, "step": 5500 }, { "epoch": 4.89, "eval_loss": 0.2261454164981842, "eval_macro-f1": 0.45899951293068036, "eval_micro-f1": 0.5832072617246595, "eval_runtime": 250.9993, "eval_samples_per_second": 3.984, "eval_steps_per_second": 0.498, "step": 5500 }, { "epoch": 4.98, "learning_rate": 1.5069333333333335e-05, "loss": 0.149, "step": 5600 }, { "epoch": 5.07, "learning_rate": 1.4802666666666666e-05, "loss": 0.1462, "step": 5700 }, { "epoch": 5.16, "learning_rate": 1.4536e-05, "loss": 0.1368, "step": 5800 }, { "epoch": 5.24, "learning_rate": 1.4269333333333332e-05, "loss": 0.136, "step": 5900 }, { "epoch": 5.33, "learning_rate": 1.4002666666666667e-05, "loss": 0.1451, "step": 6000 }, { "epoch": 5.33, "eval_loss": 0.2247992604970932, "eval_macro-f1": 0.47382748403425246, "eval_micro-f1": 0.590139808682855, "eval_runtime": 250.7218, "eval_samples_per_second": 3.988, "eval_steps_per_second": 0.499, "step": 6000 }, { "epoch": 5.42, "learning_rate": 1.3736e-05, "loss": 0.1385, "step": 6100 }, { "epoch": 5.51, "learning_rate": 1.3469333333333333e-05, "loss": 0.1435, "step": 6200 }, { "epoch": 5.6, "learning_rate": 1.3202666666666666e-05, "loss": 0.1289, "step": 6300 }, { "epoch": 5.69, "learning_rate": 1.2936000000000001e-05, "loss": 0.1376, "step": 6400 }, { "epoch": 5.78, "learning_rate": 1.2669333333333334e-05, "loss": 0.1281, "step": 6500 }, { "epoch": 5.78, "eval_loss": 0.23171132802963257, "eval_macro-f1": 0.4640593541438955, "eval_micro-f1": 0.5896037804434751, "eval_runtime": 250.818, "eval_samples_per_second": 3.987, "eval_steps_per_second": 0.498, "step": 6500 }, { "epoch": 5.87, "learning_rate": 1.2402666666666667e-05, "loss": 0.1297, "step": 6600 }, { "epoch": 5.96, "learning_rate": 1.2136e-05, "loss": 0.1475, "step": 6700 }, { "epoch": 6.04, "learning_rate": 1.1869333333333333e-05, "loss": 0.1446, "step": 6800 }, { "epoch": 6.13, "learning_rate": 1.1602666666666668e-05, "loss": 0.1316, "step": 6900 }, { "epoch": 6.22, "learning_rate": 1.1336000000000001e-05, "loss": 0.1354, "step": 7000 }, { "epoch": 6.22, "eval_loss": 0.236615851521492, "eval_macro-f1": 0.46391783502581774, "eval_micro-f1": 0.5945558739255014, "eval_runtime": 250.8543, "eval_samples_per_second": 3.986, "eval_steps_per_second": 0.498, "step": 7000 }, { "epoch": 6.31, "learning_rate": 1.1069333333333334e-05, "loss": 0.1371, "step": 7100 }, { "epoch": 6.4, "learning_rate": 1.0802666666666667e-05, "loss": 0.1336, "step": 7200 }, { "epoch": 6.49, "learning_rate": 1.0536e-05, "loss": 0.1377, "step": 7300 }, { "epoch": 6.58, "learning_rate": 1.0269333333333333e-05, "loss": 0.1214, "step": 7400 }, { "epoch": 6.67, "learning_rate": 1.0002666666666667e-05, "loss": 0.1204, "step": 7500 }, { "epoch": 6.67, "eval_loss": 0.23111066222190857, "eval_macro-f1": 0.4874939295642857, "eval_micro-f1": 0.5876635514018691, "eval_runtime": 251.0341, "eval_samples_per_second": 3.984, "eval_steps_per_second": 0.498, "step": 7500 }, { "epoch": 6.76, "learning_rate": 9.736e-06, "loss": 0.1447, "step": 7600 }, { "epoch": 6.84, "learning_rate": 9.469333333333334e-06, "loss": 0.1378, "step": 7700 }, { "epoch": 6.93, "learning_rate": 9.202666666666667e-06, "loss": 0.1284, "step": 7800 }, { "epoch": 7.02, "learning_rate": 8.936e-06, "loss": 0.1348, "step": 7900 }, { "epoch": 7.11, "learning_rate": 8.669333333333334e-06, "loss": 0.1229, "step": 8000 }, { "epoch": 7.11, "eval_loss": 0.2082732766866684, "eval_macro-f1": 0.48152917771348014, "eval_micro-f1": 0.6019637462235651, "eval_runtime": 250.7762, "eval_samples_per_second": 3.988, "eval_steps_per_second": 0.498, "step": 8000 }, { "epoch": 7.2, "learning_rate": 8.402666666666667e-06, "loss": 0.1278, "step": 8100 }, { "epoch": 7.29, "learning_rate": 8.136e-06, "loss": 0.1296, "step": 8200 }, { "epoch": 7.38, "learning_rate": 7.869333333333333e-06, "loss": 0.1414, "step": 8300 }, { "epoch": 7.47, "learning_rate": 7.602666666666667e-06, "loss": 0.1345, "step": 8400 }, { "epoch": 7.56, "learning_rate": 7.336e-06, "loss": 0.1368, "step": 8500 }, { "epoch": 7.56, "eval_loss": 0.21700948476791382, "eval_macro-f1": 0.5212896599306505, "eval_micro-f1": 0.6020710059171598, "eval_runtime": 250.9977, "eval_samples_per_second": 3.984, "eval_steps_per_second": 0.498, "step": 8500 }, { "epoch": 7.64, "learning_rate": 7.069333333333333e-06, "loss": 0.1252, "step": 8600 }, { "epoch": 7.73, "learning_rate": 6.802666666666667e-06, "loss": 0.1281, "step": 8700 }, { "epoch": 7.82, "learning_rate": 6.538666666666667e-06, "loss": 0.1248, "step": 8800 }, { "epoch": 7.91, "learning_rate": 6.272e-06, "loss": 0.1345, "step": 8900 }, { "epoch": 8.0, "learning_rate": 6.005333333333334e-06, "loss": 0.1288, "step": 9000 }, { "epoch": 8.0, "eval_loss": 0.2136116474866867, "eval_macro-f1": 0.5335725321845664, "eval_micro-f1": 0.6175595238095237, "eval_runtime": 250.9763, "eval_samples_per_second": 3.984, "eval_steps_per_second": 0.498, "step": 9000 }, { "epoch": 8.09, "learning_rate": 5.738666666666667e-06, "loss": 0.1424, "step": 9100 }, { "epoch": 8.18, "learning_rate": 5.472e-06, "loss": 0.1317, "step": 9200 }, { "epoch": 8.27, "learning_rate": 5.205333333333333e-06, "loss": 0.1276, "step": 9300 }, { "epoch": 8.36, "learning_rate": 4.938666666666667e-06, "loss": 0.1309, "step": 9400 }, { "epoch": 8.44, "learning_rate": 4.672e-06, "loss": 0.1275, "step": 9500 }, { "epoch": 8.44, "eval_loss": 0.21796877682209015, "eval_macro-f1": 0.5203516217663584, "eval_micro-f1": 0.6081784386617101, "eval_runtime": 251.0313, "eval_samples_per_second": 3.984, "eval_steps_per_second": 0.498, "step": 9500 }, { "epoch": 8.53, "learning_rate": 4.405333333333333e-06, "loss": 0.1258, "step": 9600 }, { "epoch": 8.62, "learning_rate": 4.1386666666666665e-06, "loss": 0.1338, "step": 9700 }, { "epoch": 8.71, "learning_rate": 3.872e-06, "loss": 0.1254, "step": 9800 }, { "epoch": 8.8, "learning_rate": 3.6053333333333334e-06, "loss": 0.1206, "step": 9900 }, { "epoch": 8.89, "learning_rate": 3.338666666666667e-06, "loss": 0.1232, "step": 10000 }, { "epoch": 8.89, "eval_loss": 0.2147359549999237, "eval_macro-f1": 0.5334115012856294, "eval_micro-f1": 0.6083052749719416, "eval_runtime": 251.0602, "eval_samples_per_second": 3.983, "eval_steps_per_second": 0.498, "step": 10000 }, { "epoch": 8.98, "learning_rate": 3.0720000000000004e-06, "loss": 0.1167, "step": 10100 }, { "epoch": 9.07, "learning_rate": 2.8053333333333335e-06, "loss": 0.133, "step": 10200 }, { "epoch": 9.16, "learning_rate": 2.538666666666667e-06, "loss": 0.1239, "step": 10300 }, { "epoch": 9.24, "learning_rate": 2.272e-06, "loss": 0.1208, "step": 10400 }, { "epoch": 9.33, "learning_rate": 2.0053333333333335e-06, "loss": 0.1319, "step": 10500 }, { "epoch": 9.33, "eval_loss": 0.21207687258720398, "eval_macro-f1": 0.5311776120067299, "eval_micro-f1": 0.6186029137093761, "eval_runtime": 250.7675, "eval_samples_per_second": 3.988, "eval_steps_per_second": 0.498, "step": 10500 }, { "epoch": 9.42, "learning_rate": 1.7386666666666668e-06, "loss": 0.1136, "step": 10600 }, { "epoch": 9.51, "learning_rate": 1.472e-06, "loss": 0.131, "step": 10700 }, { "epoch": 9.6, "learning_rate": 1.208e-06, "loss": 0.1302, "step": 10800 }, { "epoch": 9.69, "learning_rate": 9.413333333333333e-07, "loss": 0.1204, "step": 10900 }, { "epoch": 9.78, "learning_rate": 6.746666666666667e-07, "loss": 0.1267, "step": 11000 }, { "epoch": 9.78, "eval_loss": 0.20918133854866028, "eval_macro-f1": 0.5250058915528198, "eval_micro-f1": 0.6189584113900337, "eval_runtime": 251.2843, "eval_samples_per_second": 3.98, "eval_steps_per_second": 0.497, "step": 11000 }, { "epoch": 9.87, "learning_rate": 4.08e-07, "loss": 0.1225, "step": 11100 }, { "epoch": 9.96, "learning_rate": 1.4133333333333333e-07, "loss": 0.1188, "step": 11200 }, { "epoch": 10.0, "step": 11250, "total_flos": 4.4162288418816e+17, "train_loss": 0.14765226224263509, "train_runtime": 28756.843, "train_samples_per_second": 3.13, "train_steps_per_second": 0.391 } ], "max_steps": 11250, "num_train_epochs": 10, "total_flos": 4.4162288418816e+17, "trial_name": null, "trial_params": null }