{ "best_metric": null, "best_model_checkpoint": null, "epoch": 10.0, "global_step": 11250, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.09, "learning_rate": 2.9733333333333336e-05, "loss": 0.3094, "step": 100 }, { "epoch": 0.18, "learning_rate": 2.9466666666666667e-05, "loss": 0.2897, "step": 200 }, { "epoch": 0.27, "learning_rate": 2.92e-05, "loss": 0.2706, "step": 300 }, { "epoch": 0.36, "learning_rate": 2.8933333333333333e-05, "loss": 0.2464, "step": 400 }, { "epoch": 0.44, "learning_rate": 2.8666666666666668e-05, "loss": 0.2278, "step": 500 }, { "epoch": 0.44, "eval_loss": 0.3196217715740204, "eval_macro-f1": 0.23936523435969442, "eval_micro-f1": 0.4568642160540135, "eval_runtime": 250.0459, "eval_samples_per_second": 3.999, "eval_steps_per_second": 0.5, "step": 500 }, { "epoch": 0.53, "learning_rate": 2.84e-05, "loss": 0.2168, "step": 600 }, { "epoch": 0.62, "learning_rate": 2.8133333333333334e-05, "loss": 0.2067, "step": 700 }, { "epoch": 0.71, "learning_rate": 2.7866666666666665e-05, "loss": 0.2136, "step": 800 }, { "epoch": 0.8, "learning_rate": 2.7600000000000003e-05, "loss": 0.207, "step": 900 }, { "epoch": 0.89, "learning_rate": 2.7333333333333335e-05, "loss": 0.1891, "step": 1000 }, { "epoch": 0.89, "eval_loss": 0.2826995849609375, "eval_macro-f1": 0.3255006773512365, "eval_micro-f1": 0.511172089376715, "eval_runtime": 250.1548, "eval_samples_per_second": 3.998, "eval_steps_per_second": 0.5, "step": 1000 }, { "epoch": 0.98, "learning_rate": 2.706666666666667e-05, "loss": 0.1987, "step": 1100 }, { "epoch": 1.07, "learning_rate": 2.68e-05, "loss": 0.1792, "step": 1200 }, { "epoch": 1.16, "learning_rate": 2.6533333333333336e-05, "loss": 0.1934, "step": 1300 }, { "epoch": 1.24, "learning_rate": 2.6266666666666667e-05, "loss": 0.177, "step": 1400 }, { "epoch": 1.33, "learning_rate": 2.6000000000000002e-05, "loss": 0.1803, "step": 1500 }, { "epoch": 1.33, "eval_loss": 0.26028162240982056, "eval_macro-f1": 0.3960907835303458, "eval_micro-f1": 0.5697764070932922, "eval_runtime": 249.9458, "eval_samples_per_second": 4.001, "eval_steps_per_second": 0.5, "step": 1500 }, { "epoch": 1.42, "learning_rate": 2.5733333333333333e-05, "loss": 0.1845, "step": 1600 }, { "epoch": 1.51, "learning_rate": 2.5466666666666668e-05, "loss": 0.1751, "step": 1700 }, { "epoch": 1.6, "learning_rate": 2.52e-05, "loss": 0.1807, "step": 1800 }, { "epoch": 1.69, "learning_rate": 2.4933333333333334e-05, "loss": 0.1767, "step": 1900 }, { "epoch": 1.78, "learning_rate": 2.4666666666666665e-05, "loss": 0.1676, "step": 2000 }, { "epoch": 1.78, "eval_loss": 0.25902459025382996, "eval_macro-f1": 0.42511696432782353, "eval_micro-f1": 0.600266109104733, "eval_runtime": 250.0358, "eval_samples_per_second": 3.999, "eval_steps_per_second": 0.5, "step": 2000 }, { "epoch": 1.87, "learning_rate": 2.44e-05, "loss": 0.18, "step": 2100 }, { "epoch": 1.96, "learning_rate": 2.413333333333333e-05, "loss": 0.1794, "step": 2200 }, { "epoch": 2.04, "learning_rate": 2.3866666666666666e-05, "loss": 0.1787, "step": 2300 }, { "epoch": 2.13, "learning_rate": 2.3599999999999998e-05, "loss": 0.1712, "step": 2400 }, { "epoch": 2.22, "learning_rate": 2.3333333333333336e-05, "loss": 0.1635, "step": 2500 }, { "epoch": 2.22, "eval_loss": 0.24892687797546387, "eval_macro-f1": 0.4185578412202114, "eval_micro-f1": 0.6029919447640966, "eval_runtime": 250.2641, "eval_samples_per_second": 3.996, "eval_steps_per_second": 0.499, "step": 2500 }, { "epoch": 2.31, "learning_rate": 2.3066666666666667e-05, "loss": 0.1565, "step": 2600 }, { "epoch": 2.4, "learning_rate": 2.2800000000000002e-05, "loss": 0.1665, "step": 2700 }, { "epoch": 2.49, "learning_rate": 2.2533333333333333e-05, "loss": 0.1632, "step": 2800 }, { "epoch": 2.58, "learning_rate": 2.2266666666666668e-05, "loss": 0.1596, "step": 2900 }, { "epoch": 2.67, "learning_rate": 2.2e-05, "loss": 0.1784, "step": 3000 }, { "epoch": 2.67, "eval_loss": 0.24447566270828247, "eval_macro-f1": 0.4627337037038219, "eval_micro-f1": 0.6159065209197135, "eval_runtime": 249.9435, "eval_samples_per_second": 4.001, "eval_steps_per_second": 0.5, "step": 3000 }, { "epoch": 2.76, "learning_rate": 2.1733333333333334e-05, "loss": 0.1708, "step": 3100 }, { "epoch": 2.84, "learning_rate": 2.1466666666666666e-05, "loss": 0.1648, "step": 3200 }, { "epoch": 2.93, "learning_rate": 2.12e-05, "loss": 0.1589, "step": 3300 }, { "epoch": 3.02, "learning_rate": 2.0933333333333335e-05, "loss": 0.1585, "step": 3400 }, { "epoch": 3.11, "learning_rate": 2.0666666666666666e-05, "loss": 0.1556, "step": 3500 }, { "epoch": 3.11, "eval_loss": 0.23978745937347412, "eval_macro-f1": 0.4756831371916051, "eval_micro-f1": 0.6170171715222844, "eval_runtime": 250.1955, "eval_samples_per_second": 3.997, "eval_steps_per_second": 0.5, "step": 3500 }, { "epoch": 3.2, "learning_rate": 2.04e-05, "loss": 0.1547, "step": 3600 }, { "epoch": 3.29, "learning_rate": 2.0133333333333333e-05, "loss": 0.1607, "step": 3700 }, { "epoch": 3.38, "learning_rate": 1.9866666666666667e-05, "loss": 0.1617, "step": 3800 }, { "epoch": 3.47, "learning_rate": 1.96e-05, "loss": 0.1644, "step": 3900 }, { "epoch": 3.56, "learning_rate": 1.9333333333333333e-05, "loss": 0.151, "step": 4000 }, { "epoch": 3.56, "eval_loss": 0.24887794256210327, "eval_macro-f1": 0.47250028430103197, "eval_micro-f1": 0.6162704309063892, "eval_runtime": 249.9519, "eval_samples_per_second": 4.001, "eval_steps_per_second": 0.5, "step": 4000 }, { "epoch": 3.64, "learning_rate": 1.9066666666666668e-05, "loss": 0.1537, "step": 4100 }, { "epoch": 3.73, "learning_rate": 1.8800000000000003e-05, "loss": 0.1643, "step": 4200 }, { "epoch": 3.82, "learning_rate": 1.8533333333333334e-05, "loss": 0.1613, "step": 4300 }, { "epoch": 3.91, "learning_rate": 1.826666666666667e-05, "loss": 0.152, "step": 4400 }, { "epoch": 4.0, "learning_rate": 1.8e-05, "loss": 0.1564, "step": 4500 }, { "epoch": 4.0, "eval_loss": 0.22886419296264648, "eval_macro-f1": 0.5019089347038279, "eval_micro-f1": 0.6416097190584662, "eval_runtime": 249.7711, "eval_samples_per_second": 4.004, "eval_steps_per_second": 0.5, "step": 4500 }, { "epoch": 4.09, "learning_rate": 1.7733333333333335e-05, "loss": 0.1483, "step": 4600 }, { "epoch": 4.18, "learning_rate": 1.7466666666666667e-05, "loss": 0.1436, "step": 4700 }, { "epoch": 4.27, "learning_rate": 1.72e-05, "loss": 0.1515, "step": 4800 }, { "epoch": 4.36, "learning_rate": 1.6933333333333333e-05, "loss": 0.1525, "step": 4900 }, { "epoch": 4.44, "learning_rate": 1.6666666666666667e-05, "loss": 0.1544, "step": 5000 }, { "epoch": 4.44, "eval_loss": 0.24056826531887054, "eval_macro-f1": 0.5012925674653259, "eval_micro-f1": 0.6408193123628383, "eval_runtime": 249.9111, "eval_samples_per_second": 4.001, "eval_steps_per_second": 0.5, "step": 5000 }, { "epoch": 4.53, "learning_rate": 1.64e-05, "loss": 0.1531, "step": 5100 }, { "epoch": 4.62, "learning_rate": 1.6133333333333334e-05, "loss": 0.1483, "step": 5200 }, { "epoch": 4.71, "learning_rate": 1.5866666666666665e-05, "loss": 0.1461, "step": 5300 }, { "epoch": 4.8, "learning_rate": 1.56e-05, "loss": 0.1524, "step": 5400 }, { "epoch": 4.89, "learning_rate": 1.533333333333333e-05, "loss": 0.1516, "step": 5500 }, { "epoch": 4.89, "eval_loss": 0.23508721590042114, "eval_macro-f1": 0.5144814794615382, "eval_micro-f1": 0.6510253094402365, "eval_runtime": 249.8304, "eval_samples_per_second": 4.003, "eval_steps_per_second": 0.5, "step": 5500 }, { "epoch": 4.98, "learning_rate": 1.5066666666666668e-05, "loss": 0.1633, "step": 5600 }, { "epoch": 5.07, "learning_rate": 1.48e-05, "loss": 0.1536, "step": 5700 }, { "epoch": 5.16, "learning_rate": 1.4533333333333334e-05, "loss": 0.1536, "step": 5800 }, { "epoch": 5.24, "learning_rate": 1.4266666666666667e-05, "loss": 0.1441, "step": 5900 }, { "epoch": 5.33, "learning_rate": 1.4e-05, "loss": 0.1487, "step": 6000 }, { "epoch": 5.33, "eval_loss": 0.2353767454624176, "eval_macro-f1": 0.5164283324429206, "eval_micro-f1": 0.6393532978137058, "eval_runtime": 249.9806, "eval_samples_per_second": 4.0, "eval_steps_per_second": 0.5, "step": 6000 }, { "epoch": 5.42, "learning_rate": 1.3733333333333335e-05, "loss": 0.1456, "step": 6100 }, { "epoch": 5.51, "learning_rate": 1.3466666666666668e-05, "loss": 0.1483, "step": 6200 }, { "epoch": 5.6, "learning_rate": 1.32e-05, "loss": 0.1435, "step": 6300 }, { "epoch": 5.69, "learning_rate": 1.2933333333333334e-05, "loss": 0.1443, "step": 6400 }, { "epoch": 5.78, "learning_rate": 1.2666666666666667e-05, "loss": 0.1385, "step": 6500 }, { "epoch": 5.78, "eval_loss": 0.23854874074459076, "eval_macro-f1": 0.5204942509654653, "eval_micro-f1": 0.6486096063560852, "eval_runtime": 250.043, "eval_samples_per_second": 3.999, "eval_steps_per_second": 0.5, "step": 6500 }, { "epoch": 5.87, "learning_rate": 1.24e-05, "loss": 0.1458, "step": 6600 }, { "epoch": 5.96, "learning_rate": 1.2133333333333333e-05, "loss": 0.1566, "step": 6700 }, { "epoch": 6.04, "learning_rate": 1.1866666666666666e-05, "loss": 0.1561, "step": 6800 }, { "epoch": 6.13, "learning_rate": 1.16e-05, "loss": 0.1436, "step": 6900 }, { "epoch": 6.22, "learning_rate": 1.1333333333333334e-05, "loss": 0.145, "step": 7000 }, { "epoch": 6.22, "eval_loss": 0.23370808362960815, "eval_macro-f1": 0.5197096492600853, "eval_micro-f1": 0.6528535078153399, "eval_runtime": 249.8509, "eval_samples_per_second": 4.002, "eval_steps_per_second": 0.5, "step": 7000 }, { "epoch": 6.31, "learning_rate": 1.1066666666666667e-05, "loss": 0.1418, "step": 7100 }, { "epoch": 6.4, "learning_rate": 1.08e-05, "loss": 0.1398, "step": 7200 }, { "epoch": 6.49, "learning_rate": 1.0533333333333333e-05, "loss": 0.1485, "step": 7300 }, { "epoch": 6.58, "learning_rate": 1.0266666666666666e-05, "loss": 0.1328, "step": 7400 }, { "epoch": 6.67, "learning_rate": 1.0002666666666667e-05, "loss": 0.1332, "step": 7500 }, { "epoch": 6.67, "eval_loss": 0.22940610349178314, "eval_macro-f1": 0.5421372361906013, "eval_micro-f1": 0.652635570724308, "eval_runtime": 249.9966, "eval_samples_per_second": 4.0, "eval_steps_per_second": 0.5, "step": 7500 }, { "epoch": 6.76, "learning_rate": 9.736e-06, "loss": 0.1522, "step": 7600 }, { "epoch": 6.84, "learning_rate": 9.469333333333334e-06, "loss": 0.1456, "step": 7700 }, { "epoch": 6.93, "learning_rate": 9.202666666666667e-06, "loss": 0.1418, "step": 7800 }, { "epoch": 7.02, "learning_rate": 8.936e-06, "loss": 0.1432, "step": 7900 }, { "epoch": 7.11, "learning_rate": 8.669333333333334e-06, "loss": 0.1293, "step": 8000 }, { "epoch": 7.11, "eval_loss": 0.21668323874473572, "eval_macro-f1": 0.5575796248578618, "eval_micro-f1": 0.6651540934013991, "eval_runtime": 249.8874, "eval_samples_per_second": 4.002, "eval_steps_per_second": 0.5, "step": 8000 }, { "epoch": 7.2, "learning_rate": 8.402666666666667e-06, "loss": 0.1396, "step": 8100 }, { "epoch": 7.29, "learning_rate": 8.136e-06, "loss": 0.1365, "step": 8200 }, { "epoch": 7.38, "learning_rate": 7.869333333333333e-06, "loss": 0.1513, "step": 8300 }, { "epoch": 7.47, "learning_rate": 7.602666666666667e-06, "loss": 0.1426, "step": 8400 }, { "epoch": 7.56, "learning_rate": 7.336e-06, "loss": 0.1475, "step": 8500 }, { "epoch": 7.56, "eval_loss": 0.22184967994689941, "eval_macro-f1": 0.5676362919151695, "eval_micro-f1": 0.6649312011900333, "eval_runtime": 249.8277, "eval_samples_per_second": 4.003, "eval_steps_per_second": 0.5, "step": 8500 }, { "epoch": 7.64, "learning_rate": 7.069333333333333e-06, "loss": 0.1374, "step": 8600 }, { "epoch": 7.73, "learning_rate": 6.802666666666667e-06, "loss": 0.1368, "step": 8700 }, { "epoch": 7.82, "learning_rate": 6.536e-06, "loss": 0.1342, "step": 8800 }, { "epoch": 7.91, "learning_rate": 6.269333333333334e-06, "loss": 0.1433, "step": 8900 }, { "epoch": 8.0, "learning_rate": 6.002666666666667e-06, "loss": 0.1376, "step": 9000 }, { "epoch": 8.0, "eval_loss": 0.22027204930782318, "eval_macro-f1": 0.5565067503036405, "eval_micro-f1": 0.6709417368999633, "eval_runtime": 249.7992, "eval_samples_per_second": 4.003, "eval_steps_per_second": 0.5, "step": 9000 }, { "epoch": 8.09, "learning_rate": 5.736000000000001e-06, "loss": 0.1431, "step": 9100 }, { "epoch": 8.18, "learning_rate": 5.469333333333334e-06, "loss": 0.1417, "step": 9200 }, { "epoch": 8.27, "learning_rate": 5.202666666666667e-06, "loss": 0.1351, "step": 9300 }, { "epoch": 8.36, "learning_rate": 4.936e-06, "loss": 0.1406, "step": 9400 }, { "epoch": 8.44, "learning_rate": 4.669333333333334e-06, "loss": 0.1408, "step": 9500 }, { "epoch": 8.44, "eval_loss": 0.21780145168304443, "eval_macro-f1": 0.55410559679406, "eval_micro-f1": 0.6716417910447762, "eval_runtime": 250.1492, "eval_samples_per_second": 3.998, "eval_steps_per_second": 0.5, "step": 9500 }, { "epoch": 8.53, "learning_rate": 4.402666666666667e-06, "loss": 0.1379, "step": 9600 }, { "epoch": 8.62, "learning_rate": 4.136e-06, "loss": 0.1394, "step": 9700 }, { "epoch": 8.71, "learning_rate": 3.869333333333333e-06, "loss": 0.1348, "step": 9800 }, { "epoch": 8.8, "learning_rate": 3.6026666666666664e-06, "loss": 0.1305, "step": 9900 }, { "epoch": 8.89, "learning_rate": 3.336e-06, "loss": 0.133, "step": 10000 }, { "epoch": 8.89, "eval_loss": 0.2211589813232422, "eval_macro-f1": 0.5691978748940578, "eval_micro-f1": 0.6640478862701085, "eval_runtime": 249.9486, "eval_samples_per_second": 4.001, "eval_steps_per_second": 0.5, "step": 10000 }, { "epoch": 8.98, "learning_rate": 3.0693333333333334e-06, "loss": 0.1364, "step": 10100 }, { "epoch": 9.07, "learning_rate": 2.802666666666667e-06, "loss": 0.1422, "step": 10200 }, { "epoch": 9.16, "learning_rate": 2.536e-06, "loss": 0.1357, "step": 10300 }, { "epoch": 9.24, "learning_rate": 2.2693333333333334e-06, "loss": 0.1368, "step": 10400 }, { "epoch": 9.33, "learning_rate": 2.0026666666666665e-06, "loss": 0.1363, "step": 10500 }, { "epoch": 9.33, "eval_loss": 0.21480964124202728, "eval_macro-f1": 0.5641951806875921, "eval_micro-f1": 0.6735828084475731, "eval_runtime": 250.051, "eval_samples_per_second": 3.999, "eval_steps_per_second": 0.5, "step": 10500 }, { "epoch": 9.42, "learning_rate": 1.736e-06, "loss": 0.1269, "step": 10600 }, { "epoch": 9.51, "learning_rate": 1.4693333333333335e-06, "loss": 0.1434, "step": 10700 }, { "epoch": 9.6, "learning_rate": 1.2026666666666667e-06, "loss": 0.1311, "step": 10800 }, { "epoch": 9.69, "learning_rate": 9.36e-07, "loss": 0.1312, "step": 10900 }, { "epoch": 9.78, "learning_rate": 6.693333333333334e-07, "loss": 0.1344, "step": 11000 }, { "epoch": 9.78, "eval_loss": 0.21623407304286957, "eval_macro-f1": 0.5607008197936653, "eval_micro-f1": 0.6726024856241885, "eval_runtime": 249.934, "eval_samples_per_second": 4.001, "eval_steps_per_second": 0.5, "step": 11000 }, { "epoch": 9.87, "learning_rate": 4.0266666666666667e-07, "loss": 0.1361, "step": 11100 }, { "epoch": 9.96, "learning_rate": 1.36e-07, "loss": 0.1324, "step": 11200 }, { "epoch": 10.0, "step": 11250, "total_flos": 4.4165690228736e+17, "train_loss": 0.15906413599650066, "train_runtime": 28645.7102, "train_samples_per_second": 3.142, "train_steps_per_second": 0.393 } ], "max_steps": 11250, "num_train_epochs": 10, "total_flos": 4.4165690228736e+17, "trial_name": null, "trial_params": null }