Spaces:
Runtime error
Runtime error
{ | |
"best_metric": null, | |
"best_model_checkpoint": null, | |
"epoch": 26.666666666666668, | |
"global_step": 3000, | |
"is_hyper_param_search": false, | |
"is_local_process_zero": true, | |
"is_world_process_zero": true, | |
"log_history": [ | |
{ | |
"epoch": 0.09, | |
"learning_rate": 0.019933333333333334, | |
"loss": 5.3456, | |
"step": 10 | |
}, | |
{ | |
"epoch": 0.18, | |
"learning_rate": 0.019866666666666668, | |
"loss": 4.291, | |
"step": 20 | |
}, | |
{ | |
"epoch": 0.27, | |
"learning_rate": 0.0198, | |
"loss": 4.0509, | |
"step": 30 | |
}, | |
{ | |
"epoch": 0.36, | |
"learning_rate": 0.019733333333333335, | |
"loss": 4.027, | |
"step": 40 | |
}, | |
{ | |
"epoch": 0.44, | |
"learning_rate": 0.019666666666666666, | |
"loss": 3.9933, | |
"step": 50 | |
}, | |
{ | |
"epoch": 0.53, | |
"learning_rate": 0.0196, | |
"loss": 3.9961, | |
"step": 60 | |
}, | |
{ | |
"epoch": 0.62, | |
"learning_rate": 0.019533333333333333, | |
"loss": 4.0272, | |
"step": 70 | |
}, | |
{ | |
"epoch": 0.71, | |
"learning_rate": 0.019466666666666667, | |
"loss": 3.9878, | |
"step": 80 | |
}, | |
{ | |
"epoch": 0.8, | |
"learning_rate": 0.0194, | |
"loss": 3.834, | |
"step": 90 | |
}, | |
{ | |
"epoch": 0.89, | |
"learning_rate": 0.019333333333333334, | |
"loss": 3.925, | |
"step": 100 | |
}, | |
{ | |
"epoch": 0.98, | |
"learning_rate": 0.019266666666666668, | |
"loss": 3.8185, | |
"step": 110 | |
}, | |
{ | |
"epoch": 1.07, | |
"learning_rate": 0.0192, | |
"loss": 3.6609, | |
"step": 120 | |
}, | |
{ | |
"epoch": 1.16, | |
"learning_rate": 0.019133333333333332, | |
"loss": 3.4043, | |
"step": 130 | |
}, | |
{ | |
"epoch": 1.24, | |
"learning_rate": 0.01906666666666667, | |
"loss": 3.4379, | |
"step": 140 | |
}, | |
{ | |
"epoch": 1.33, | |
"learning_rate": 0.019, | |
"loss": 3.3543, | |
"step": 150 | |
}, | |
{ | |
"epoch": 1.42, | |
"learning_rate": 0.018933333333333333, | |
"loss": 3.3777, | |
"step": 160 | |
}, | |
{ | |
"epoch": 1.51, | |
"learning_rate": 0.018866666666666667, | |
"loss": 3.3729, | |
"step": 170 | |
}, | |
{ | |
"epoch": 1.6, | |
"learning_rate": 0.0188, | |
"loss": 3.2977, | |
"step": 180 | |
}, | |
{ | |
"epoch": 1.69, | |
"learning_rate": 0.018733333333333334, | |
"loss": 3.3726, | |
"step": 190 | |
}, | |
{ | |
"epoch": 1.78, | |
"learning_rate": 0.018666666666666668, | |
"loss": 3.2906, | |
"step": 200 | |
}, | |
{ | |
"epoch": 1.87, | |
"learning_rate": 0.018600000000000002, | |
"loss": 3.3786, | |
"step": 210 | |
}, | |
{ | |
"epoch": 1.96, | |
"learning_rate": 0.018533333333333332, | |
"loss": 3.4823, | |
"step": 220 | |
}, | |
{ | |
"epoch": 2.04, | |
"learning_rate": 0.018466666666666666, | |
"loss": 3.1159, | |
"step": 230 | |
}, | |
{ | |
"epoch": 2.13, | |
"learning_rate": 0.0184, | |
"loss": 2.6933, | |
"step": 240 | |
}, | |
{ | |
"epoch": 2.22, | |
"learning_rate": 0.018333333333333333, | |
"loss": 2.8112, | |
"step": 250 | |
}, | |
{ | |
"epoch": 2.31, | |
"learning_rate": 0.018266666666666667, | |
"loss": 2.7356, | |
"step": 260 | |
}, | |
{ | |
"epoch": 2.4, | |
"learning_rate": 0.0182, | |
"loss": 2.6313, | |
"step": 270 | |
}, | |
{ | |
"epoch": 2.49, | |
"learning_rate": 0.01813333333333333, | |
"loss": 2.793, | |
"step": 280 | |
}, | |
{ | |
"epoch": 2.58, | |
"learning_rate": 0.01806666666666667, | |
"loss": 2.6872, | |
"step": 290 | |
}, | |
{ | |
"epoch": 2.67, | |
"learning_rate": 0.018000000000000002, | |
"loss": 2.7139, | |
"step": 300 | |
}, | |
{ | |
"epoch": 2.76, | |
"learning_rate": 0.017933333333333332, | |
"loss": 2.7769, | |
"step": 310 | |
}, | |
{ | |
"epoch": 2.84, | |
"learning_rate": 0.017866666666666666, | |
"loss": 2.8021, | |
"step": 320 | |
}, | |
{ | |
"epoch": 2.93, | |
"learning_rate": 0.0178, | |
"loss": 2.744, | |
"step": 330 | |
}, | |
{ | |
"epoch": 3.02, | |
"learning_rate": 0.017733333333333334, | |
"loss": 2.5654, | |
"step": 340 | |
}, | |
{ | |
"epoch": 3.11, | |
"learning_rate": 0.017666666666666667, | |
"loss": 2.103, | |
"step": 350 | |
}, | |
{ | |
"epoch": 3.2, | |
"learning_rate": 0.0176, | |
"loss": 1.9702, | |
"step": 360 | |
}, | |
{ | |
"epoch": 3.29, | |
"learning_rate": 0.017533333333333335, | |
"loss": 2.0923, | |
"step": 370 | |
}, | |
{ | |
"epoch": 3.38, | |
"learning_rate": 0.017466666666666665, | |
"loss": 2.0385, | |
"step": 380 | |
}, | |
{ | |
"epoch": 3.47, | |
"learning_rate": 0.0174, | |
"loss": 2.0464, | |
"step": 390 | |
}, | |
{ | |
"epoch": 3.56, | |
"learning_rate": 0.017333333333333336, | |
"loss": 2.1224, | |
"step": 400 | |
}, | |
{ | |
"epoch": 3.64, | |
"learning_rate": 0.017266666666666666, | |
"loss": 1.9771, | |
"step": 410 | |
}, | |
{ | |
"epoch": 3.73, | |
"learning_rate": 0.0172, | |
"loss": 2.0532, | |
"step": 420 | |
}, | |
{ | |
"epoch": 3.82, | |
"learning_rate": 0.017133333333333334, | |
"loss": 2.0539, | |
"step": 430 | |
}, | |
{ | |
"epoch": 3.91, | |
"learning_rate": 0.017066666666666667, | |
"loss": 2.1778, | |
"step": 440 | |
}, | |
{ | |
"epoch": 4.0, | |
"learning_rate": 0.017, | |
"loss": 2.1258, | |
"step": 450 | |
}, | |
{ | |
"epoch": 4.09, | |
"learning_rate": 0.016933333333333335, | |
"loss": 1.3978, | |
"step": 460 | |
}, | |
{ | |
"epoch": 4.18, | |
"learning_rate": 0.01686666666666667, | |
"loss": 1.4555, | |
"step": 470 | |
}, | |
{ | |
"epoch": 4.27, | |
"learning_rate": 0.0168, | |
"loss": 1.4586, | |
"step": 480 | |
}, | |
{ | |
"epoch": 4.36, | |
"learning_rate": 0.016733333333333333, | |
"loss": 1.3938, | |
"step": 490 | |
}, | |
{ | |
"epoch": 4.44, | |
"learning_rate": 0.016666666666666666, | |
"loss": 1.4537, | |
"step": 500 | |
}, | |
{ | |
"epoch": 4.53, | |
"learning_rate": 0.0166, | |
"loss": 1.4599, | |
"step": 510 | |
}, | |
{ | |
"epoch": 4.62, | |
"learning_rate": 0.016533333333333334, | |
"loss": 1.4753, | |
"step": 520 | |
}, | |
{ | |
"epoch": 4.71, | |
"learning_rate": 0.016466666666666668, | |
"loss": 1.4019, | |
"step": 530 | |
}, | |
{ | |
"epoch": 4.8, | |
"learning_rate": 0.016399999999999998, | |
"loss": 1.5184, | |
"step": 540 | |
}, | |
{ | |
"epoch": 4.89, | |
"learning_rate": 0.01633333333333333, | |
"loss": 1.5686, | |
"step": 550 | |
}, | |
{ | |
"epoch": 4.98, | |
"learning_rate": 0.01626666666666667, | |
"loss": 1.5537, | |
"step": 560 | |
}, | |
{ | |
"epoch": 5.07, | |
"learning_rate": 0.016200000000000003, | |
"loss": 1.0763, | |
"step": 570 | |
}, | |
{ | |
"epoch": 5.16, | |
"learning_rate": 0.016133333333333333, | |
"loss": 0.9228, | |
"step": 580 | |
}, | |
{ | |
"epoch": 5.24, | |
"learning_rate": 0.016066666666666667, | |
"loss": 0.9826, | |
"step": 590 | |
}, | |
{ | |
"epoch": 5.33, | |
"learning_rate": 0.016, | |
"loss": 0.8872, | |
"step": 600 | |
}, | |
{ | |
"epoch": 5.42, | |
"learning_rate": 0.015933333333333334, | |
"loss": 0.9621, | |
"step": 610 | |
}, | |
{ | |
"epoch": 5.51, | |
"learning_rate": 0.015866666666666668, | |
"loss": 0.899, | |
"step": 620 | |
}, | |
{ | |
"epoch": 5.6, | |
"learning_rate": 0.0158, | |
"loss": 0.9813, | |
"step": 630 | |
}, | |
{ | |
"epoch": 5.69, | |
"learning_rate": 0.015733333333333332, | |
"loss": 1.0132, | |
"step": 640 | |
}, | |
{ | |
"epoch": 5.78, | |
"learning_rate": 0.015666666666666666, | |
"loss": 0.9755, | |
"step": 650 | |
}, | |
{ | |
"epoch": 5.87, | |
"learning_rate": 0.015600000000000001, | |
"loss": 1.0833, | |
"step": 660 | |
}, | |
{ | |
"epoch": 5.96, | |
"learning_rate": 0.015533333333333333, | |
"loss": 1.0784, | |
"step": 670 | |
}, | |
{ | |
"epoch": 6.04, | |
"learning_rate": 0.015466666666666667, | |
"loss": 0.7878, | |
"step": 680 | |
}, | |
{ | |
"epoch": 6.13, | |
"learning_rate": 0.0154, | |
"loss": 0.614, | |
"step": 690 | |
}, | |
{ | |
"epoch": 6.22, | |
"learning_rate": 0.015333333333333334, | |
"loss": 0.5681, | |
"step": 700 | |
}, | |
{ | |
"epoch": 6.31, | |
"learning_rate": 0.015266666666666666, | |
"loss": 0.5968, | |
"step": 710 | |
}, | |
{ | |
"epoch": 6.4, | |
"learning_rate": 0.0152, | |
"loss": 0.5988, | |
"step": 720 | |
}, | |
{ | |
"epoch": 6.49, | |
"learning_rate": 0.015133333333333334, | |
"loss": 0.6354, | |
"step": 730 | |
}, | |
{ | |
"epoch": 6.58, | |
"learning_rate": 0.015066666666666666, | |
"loss": 0.6298, | |
"step": 740 | |
}, | |
{ | |
"epoch": 6.67, | |
"learning_rate": 0.015, | |
"loss": 0.5882, | |
"step": 750 | |
}, | |
{ | |
"epoch": 6.76, | |
"learning_rate": 0.014933333333333335, | |
"loss": 0.646, | |
"step": 760 | |
}, | |
{ | |
"epoch": 6.84, | |
"learning_rate": 0.014866666666666667, | |
"loss": 0.6301, | |
"step": 770 | |
}, | |
{ | |
"epoch": 6.93, | |
"learning_rate": 0.0148, | |
"loss": 0.6405, | |
"step": 780 | |
}, | |
{ | |
"epoch": 7.02, | |
"learning_rate": 0.014733333333333334, | |
"loss": 0.595, | |
"step": 790 | |
}, | |
{ | |
"epoch": 7.11, | |
"learning_rate": 0.014666666666666666, | |
"loss": 0.3715, | |
"step": 800 | |
}, | |
{ | |
"epoch": 7.2, | |
"learning_rate": 0.0146, | |
"loss": 0.3624, | |
"step": 810 | |
}, | |
{ | |
"epoch": 7.29, | |
"learning_rate": 0.014533333333333334, | |
"loss": 0.3811, | |
"step": 820 | |
}, | |
{ | |
"epoch": 7.38, | |
"learning_rate": 0.014466666666666668, | |
"loss": 0.3839, | |
"step": 830 | |
}, | |
{ | |
"epoch": 7.47, | |
"learning_rate": 0.0144, | |
"loss": 0.3361, | |
"step": 840 | |
}, | |
{ | |
"epoch": 7.56, | |
"learning_rate": 0.014333333333333333, | |
"loss": 0.3779, | |
"step": 850 | |
}, | |
{ | |
"epoch": 7.64, | |
"learning_rate": 0.014266666666666667, | |
"loss": 0.3904, | |
"step": 860 | |
}, | |
{ | |
"epoch": 7.73, | |
"learning_rate": 0.014199999999999999, | |
"loss": 0.4182, | |
"step": 870 | |
}, | |
{ | |
"epoch": 7.82, | |
"learning_rate": 0.014133333333333333, | |
"loss": 0.4236, | |
"step": 880 | |
}, | |
{ | |
"epoch": 7.91, | |
"learning_rate": 0.014066666666666668, | |
"loss": 0.4546, | |
"step": 890 | |
}, | |
{ | |
"epoch": 8.0, | |
"learning_rate": 0.013999999999999999, | |
"loss": 0.3946, | |
"step": 900 | |
}, | |
{ | |
"epoch": 8.09, | |
"learning_rate": 0.013933333333333334, | |
"loss": 0.2343, | |
"step": 910 | |
}, | |
{ | |
"epoch": 8.18, | |
"learning_rate": 0.013866666666666668, | |
"loss": 0.2428, | |
"step": 920 | |
}, | |
{ | |
"epoch": 8.27, | |
"learning_rate": 0.0138, | |
"loss": 0.2321, | |
"step": 930 | |
}, | |
{ | |
"epoch": 8.36, | |
"learning_rate": 0.013733333333333334, | |
"loss": 0.2408, | |
"step": 940 | |
}, | |
{ | |
"epoch": 8.44, | |
"learning_rate": 0.013666666666666667, | |
"loss": 0.241, | |
"step": 950 | |
}, | |
{ | |
"epoch": 8.53, | |
"learning_rate": 0.013600000000000001, | |
"loss": 0.2302, | |
"step": 960 | |
}, | |
{ | |
"epoch": 8.62, | |
"learning_rate": 0.013533333333333333, | |
"loss": 0.2488, | |
"step": 970 | |
}, | |
{ | |
"epoch": 8.71, | |
"learning_rate": 0.013466666666666667, | |
"loss": 0.2364, | |
"step": 980 | |
}, | |
{ | |
"epoch": 8.8, | |
"learning_rate": 0.0134, | |
"loss": 0.2432, | |
"step": 990 | |
}, | |
{ | |
"epoch": 8.89, | |
"learning_rate": 0.013333333333333332, | |
"loss": 0.2963, | |
"step": 1000 | |
}, | |
{ | |
"epoch": 8.98, | |
"learning_rate": 0.013266666666666666, | |
"loss": 0.2464, | |
"step": 1010 | |
}, | |
{ | |
"epoch": 9.07, | |
"learning_rate": 0.013200000000000002, | |
"loss": 0.1637, | |
"step": 1020 | |
}, | |
{ | |
"epoch": 9.16, | |
"learning_rate": 0.013133333333333332, | |
"loss": 0.1554, | |
"step": 1030 | |
}, | |
{ | |
"epoch": 9.24, | |
"learning_rate": 0.013066666666666667, | |
"loss": 0.1372, | |
"step": 1040 | |
}, | |
{ | |
"epoch": 9.33, | |
"learning_rate": 0.013000000000000001, | |
"loss": 0.1651, | |
"step": 1050 | |
}, | |
{ | |
"epoch": 9.42, | |
"learning_rate": 0.012933333333333333, | |
"loss": 0.1425, | |
"step": 1060 | |
}, | |
{ | |
"epoch": 9.51, | |
"learning_rate": 0.012866666666666667, | |
"loss": 0.1493, | |
"step": 1070 | |
}, | |
{ | |
"epoch": 9.6, | |
"learning_rate": 0.0128, | |
"loss": 0.1637, | |
"step": 1080 | |
}, | |
{ | |
"epoch": 9.69, | |
"learning_rate": 0.012733333333333334, | |
"loss": 0.1624, | |
"step": 1090 | |
}, | |
{ | |
"epoch": 9.78, | |
"learning_rate": 0.012666666666666666, | |
"loss": 0.1555, | |
"step": 1100 | |
}, | |
{ | |
"epoch": 9.87, | |
"learning_rate": 0.0126, | |
"loss": 0.1524, | |
"step": 1110 | |
}, | |
{ | |
"epoch": 9.96, | |
"learning_rate": 0.012533333333333334, | |
"loss": 0.1699, | |
"step": 1120 | |
}, | |
{ | |
"epoch": 10.04, | |
"learning_rate": 0.012466666666666666, | |
"loss": 0.1323, | |
"step": 1130 | |
}, | |
{ | |
"epoch": 10.13, | |
"learning_rate": 0.0124, | |
"loss": 0.0931, | |
"step": 1140 | |
}, | |
{ | |
"epoch": 10.22, | |
"learning_rate": 0.012333333333333335, | |
"loss": 0.1054, | |
"step": 1150 | |
}, | |
{ | |
"epoch": 10.31, | |
"learning_rate": 0.012266666666666665, | |
"loss": 0.0922, | |
"step": 1160 | |
}, | |
{ | |
"epoch": 10.4, | |
"learning_rate": 0.0122, | |
"loss": 0.0937, | |
"step": 1170 | |
}, | |
{ | |
"epoch": 10.49, | |
"learning_rate": 0.012133333333333335, | |
"loss": 0.105, | |
"step": 1180 | |
}, | |
{ | |
"epoch": 10.58, | |
"learning_rate": 0.012066666666666668, | |
"loss": 0.1058, | |
"step": 1190 | |
}, | |
{ | |
"epoch": 10.67, | |
"learning_rate": 0.012, | |
"loss": 0.107, | |
"step": 1200 | |
}, | |
{ | |
"epoch": 10.76, | |
"learning_rate": 0.011933333333333334, | |
"loss": 0.112, | |
"step": 1210 | |
}, | |
{ | |
"epoch": 10.84, | |
"learning_rate": 0.011866666666666668, | |
"loss": 0.1196, | |
"step": 1220 | |
}, | |
{ | |
"epoch": 10.93, | |
"learning_rate": 0.0118, | |
"loss": 0.1118, | |
"step": 1230 | |
}, | |
{ | |
"epoch": 11.02, | |
"learning_rate": 0.011733333333333333, | |
"loss": 0.1035, | |
"step": 1240 | |
}, | |
{ | |
"epoch": 11.11, | |
"learning_rate": 0.011666666666666667, | |
"loss": 0.075, | |
"step": 1250 | |
}, | |
{ | |
"epoch": 11.2, | |
"learning_rate": 0.0116, | |
"loss": 0.0698, | |
"step": 1260 | |
}, | |
{ | |
"epoch": 11.29, | |
"learning_rate": 0.011533333333333333, | |
"loss": 0.0727, | |
"step": 1270 | |
}, | |
{ | |
"epoch": 11.38, | |
"learning_rate": 0.011466666666666667, | |
"loss": 0.0729, | |
"step": 1280 | |
}, | |
{ | |
"epoch": 11.47, | |
"learning_rate": 0.011399999999999999, | |
"loss": 0.0701, | |
"step": 1290 | |
}, | |
{ | |
"epoch": 11.56, | |
"learning_rate": 0.011333333333333332, | |
"loss": 0.0871, | |
"step": 1300 | |
}, | |
{ | |
"epoch": 11.64, | |
"learning_rate": 0.011266666666666668, | |
"loss": 0.075, | |
"step": 1310 | |
}, | |
{ | |
"epoch": 11.73, | |
"learning_rate": 0.011200000000000002, | |
"loss": 0.0759, | |
"step": 1320 | |
}, | |
{ | |
"epoch": 11.82, | |
"learning_rate": 0.011133333333333334, | |
"loss": 0.0876, | |
"step": 1330 | |
}, | |
{ | |
"epoch": 11.91, | |
"learning_rate": 0.011066666666666667, | |
"loss": 0.0748, | |
"step": 1340 | |
}, | |
{ | |
"epoch": 12.0, | |
"learning_rate": 0.011000000000000001, | |
"loss": 0.0809, | |
"step": 1350 | |
}, | |
{ | |
"epoch": 12.09, | |
"learning_rate": 0.010933333333333333, | |
"loss": 0.0545, | |
"step": 1360 | |
}, | |
{ | |
"epoch": 12.18, | |
"learning_rate": 0.010866666666666667, | |
"loss": 0.0567, | |
"step": 1370 | |
}, | |
{ | |
"epoch": 12.27, | |
"learning_rate": 0.0108, | |
"loss": 0.0405, | |
"step": 1380 | |
}, | |
{ | |
"epoch": 12.36, | |
"learning_rate": 0.010733333333333333, | |
"loss": 0.0535, | |
"step": 1390 | |
}, | |
{ | |
"epoch": 12.44, | |
"learning_rate": 0.010666666666666666, | |
"loss": 0.0491, | |
"step": 1400 | |
}, | |
{ | |
"epoch": 12.53, | |
"learning_rate": 0.0106, | |
"loss": 0.0488, | |
"step": 1410 | |
}, | |
{ | |
"epoch": 12.62, | |
"learning_rate": 0.010533333333333332, | |
"loss": 0.0575, | |
"step": 1420 | |
}, | |
{ | |
"epoch": 12.71, | |
"learning_rate": 0.010466666666666666, | |
"loss": 0.0528, | |
"step": 1430 | |
}, | |
{ | |
"epoch": 12.8, | |
"learning_rate": 0.010400000000000001, | |
"loss": 0.0549, | |
"step": 1440 | |
}, | |
{ | |
"epoch": 12.89, | |
"learning_rate": 0.010333333333333335, | |
"loss": 0.0651, | |
"step": 1450 | |
}, | |
{ | |
"epoch": 12.98, | |
"learning_rate": 0.010266666666666667, | |
"loss": 0.051, | |
"step": 1460 | |
}, | |
{ | |
"epoch": 13.07, | |
"learning_rate": 0.0102, | |
"loss": 0.0468, | |
"step": 1470 | |
}, | |
{ | |
"epoch": 13.16, | |
"learning_rate": 0.010133333333333334, | |
"loss": 0.0412, | |
"step": 1480 | |
}, | |
{ | |
"epoch": 13.24, | |
"learning_rate": 0.010066666666666666, | |
"loss": 0.0413, | |
"step": 1490 | |
}, | |
{ | |
"epoch": 13.33, | |
"learning_rate": 0.01, | |
"loss": 0.0449, | |
"step": 1500 | |
}, | |
{ | |
"epoch": 13.42, | |
"learning_rate": 0.009933333333333334, | |
"loss": 0.0452, | |
"step": 1510 | |
}, | |
{ | |
"epoch": 13.51, | |
"learning_rate": 0.009866666666666668, | |
"loss": 0.0481, | |
"step": 1520 | |
}, | |
{ | |
"epoch": 13.6, | |
"learning_rate": 0.0098, | |
"loss": 0.0396, | |
"step": 1530 | |
}, | |
{ | |
"epoch": 13.69, | |
"learning_rate": 0.009733333333333333, | |
"loss": 0.0454, | |
"step": 1540 | |
}, | |
{ | |
"epoch": 13.78, | |
"learning_rate": 0.009666666666666667, | |
"loss": 0.0472, | |
"step": 1550 | |
}, | |
{ | |
"epoch": 13.87, | |
"learning_rate": 0.0096, | |
"loss": 0.0397, | |
"step": 1560 | |
}, | |
{ | |
"epoch": 13.96, | |
"learning_rate": 0.009533333333333335, | |
"loss": 0.0482, | |
"step": 1570 | |
}, | |
{ | |
"epoch": 14.04, | |
"learning_rate": 0.009466666666666667, | |
"loss": 0.0377, | |
"step": 1580 | |
}, | |
{ | |
"epoch": 14.13, | |
"learning_rate": 0.0094, | |
"loss": 0.0309, | |
"step": 1590 | |
}, | |
{ | |
"epoch": 14.22, | |
"learning_rate": 0.009333333333333334, | |
"loss": 0.0327, | |
"step": 1600 | |
}, | |
{ | |
"epoch": 14.31, | |
"learning_rate": 0.009266666666666666, | |
"loss": 0.0417, | |
"step": 1610 | |
}, | |
{ | |
"epoch": 14.4, | |
"learning_rate": 0.0092, | |
"loss": 0.0322, | |
"step": 1620 | |
}, | |
{ | |
"epoch": 14.49, | |
"learning_rate": 0.009133333333333334, | |
"loss": 0.039, | |
"step": 1630 | |
}, | |
{ | |
"epoch": 14.58, | |
"learning_rate": 0.009066666666666666, | |
"loss": 0.0334, | |
"step": 1640 | |
}, | |
{ | |
"epoch": 14.67, | |
"learning_rate": 0.009000000000000001, | |
"loss": 0.0411, | |
"step": 1650 | |
}, | |
{ | |
"epoch": 14.76, | |
"learning_rate": 0.008933333333333333, | |
"loss": 0.033, | |
"step": 1660 | |
}, | |
{ | |
"epoch": 14.84, | |
"learning_rate": 0.008866666666666667, | |
"loss": 0.0353, | |
"step": 1670 | |
}, | |
{ | |
"epoch": 14.93, | |
"learning_rate": 0.0088, | |
"loss": 0.0368, | |
"step": 1680 | |
}, | |
{ | |
"epoch": 15.02, | |
"learning_rate": 0.008733333333333333, | |
"loss": 0.035, | |
"step": 1690 | |
}, | |
{ | |
"epoch": 15.11, | |
"learning_rate": 0.008666666666666668, | |
"loss": 0.0283, | |
"step": 1700 | |
}, | |
{ | |
"epoch": 15.2, | |
"learning_rate": 0.0086, | |
"loss": 0.0269, | |
"step": 1710 | |
}, | |
{ | |
"epoch": 15.29, | |
"learning_rate": 0.008533333333333334, | |
"loss": 0.0284, | |
"step": 1720 | |
}, | |
{ | |
"epoch": 15.38, | |
"learning_rate": 0.008466666666666667, | |
"loss": 0.0294, | |
"step": 1730 | |
}, | |
{ | |
"epoch": 15.47, | |
"learning_rate": 0.0084, | |
"loss": 0.0312, | |
"step": 1740 | |
}, | |
{ | |
"epoch": 15.56, | |
"learning_rate": 0.008333333333333333, | |
"loss": 0.0305, | |
"step": 1750 | |
}, | |
{ | |
"epoch": 15.64, | |
"learning_rate": 0.008266666666666667, | |
"loss": 0.0321, | |
"step": 1760 | |
}, | |
{ | |
"epoch": 15.73, | |
"learning_rate": 0.008199999999999999, | |
"loss": 0.0271, | |
"step": 1770 | |
}, | |
{ | |
"epoch": 15.82, | |
"learning_rate": 0.008133333333333334, | |
"loss": 0.0323, | |
"step": 1780 | |
}, | |
{ | |
"epoch": 15.91, | |
"learning_rate": 0.008066666666666666, | |
"loss": 0.0322, | |
"step": 1790 | |
}, | |
{ | |
"epoch": 16.0, | |
"learning_rate": 0.008, | |
"loss": 0.039, | |
"step": 1800 | |
}, | |
{ | |
"epoch": 16.09, | |
"learning_rate": 0.007933333333333334, | |
"loss": 0.0235, | |
"step": 1810 | |
}, | |
{ | |
"epoch": 16.18, | |
"learning_rate": 0.007866666666666666, | |
"loss": 0.0242, | |
"step": 1820 | |
}, | |
{ | |
"epoch": 16.27, | |
"learning_rate": 0.0078000000000000005, | |
"loss": 0.0302, | |
"step": 1830 | |
}, | |
{ | |
"epoch": 16.36, | |
"learning_rate": 0.007733333333333333, | |
"loss": 0.0256, | |
"step": 1840 | |
}, | |
{ | |
"epoch": 16.44, | |
"learning_rate": 0.007666666666666667, | |
"loss": 0.0315, | |
"step": 1850 | |
}, | |
{ | |
"epoch": 16.53, | |
"learning_rate": 0.0076, | |
"loss": 0.0233, | |
"step": 1860 | |
}, | |
{ | |
"epoch": 16.62, | |
"learning_rate": 0.007533333333333333, | |
"loss": 0.0286, | |
"step": 1870 | |
}, | |
{ | |
"epoch": 16.71, | |
"learning_rate": 0.0074666666666666675, | |
"loss": 0.0263, | |
"step": 1880 | |
}, | |
{ | |
"epoch": 16.8, | |
"learning_rate": 0.0074, | |
"loss": 0.0348, | |
"step": 1890 | |
}, | |
{ | |
"epoch": 16.89, | |
"learning_rate": 0.007333333333333333, | |
"loss": 0.0206, | |
"step": 1900 | |
}, | |
{ | |
"epoch": 16.98, | |
"learning_rate": 0.007266666666666667, | |
"loss": 0.0274, | |
"step": 1910 | |
}, | |
{ | |
"epoch": 17.07, | |
"learning_rate": 0.0072, | |
"loss": 0.0216, | |
"step": 1920 | |
}, | |
{ | |
"epoch": 17.16, | |
"learning_rate": 0.0071333333333333335, | |
"loss": 0.021, | |
"step": 1930 | |
}, | |
{ | |
"epoch": 17.24, | |
"learning_rate": 0.007066666666666666, | |
"loss": 0.0214, | |
"step": 1940 | |
}, | |
{ | |
"epoch": 17.33, | |
"learning_rate": 0.006999999999999999, | |
"loss": 0.0247, | |
"step": 1950 | |
}, | |
{ | |
"epoch": 17.42, | |
"learning_rate": 0.006933333333333334, | |
"loss": 0.0259, | |
"step": 1960 | |
}, | |
{ | |
"epoch": 17.51, | |
"learning_rate": 0.006866666666666667, | |
"loss": 0.0235, | |
"step": 1970 | |
}, | |
{ | |
"epoch": 17.6, | |
"learning_rate": 0.0068000000000000005, | |
"loss": 0.0243, | |
"step": 1980 | |
}, | |
{ | |
"epoch": 17.69, | |
"learning_rate": 0.006733333333333333, | |
"loss": 0.0224, | |
"step": 1990 | |
}, | |
{ | |
"epoch": 17.78, | |
"learning_rate": 0.006666666666666666, | |
"loss": 0.0237, | |
"step": 2000 | |
}, | |
{ | |
"epoch": 17.87, | |
"learning_rate": 0.006600000000000001, | |
"loss": 0.0229, | |
"step": 2010 | |
}, | |
{ | |
"epoch": 17.96, | |
"learning_rate": 0.006533333333333334, | |
"loss": 0.0333, | |
"step": 2020 | |
}, | |
{ | |
"epoch": 18.04, | |
"learning_rate": 0.006466666666666667, | |
"loss": 0.0222, | |
"step": 2030 | |
}, | |
{ | |
"epoch": 18.13, | |
"learning_rate": 0.0064, | |
"loss": 0.0238, | |
"step": 2040 | |
}, | |
{ | |
"epoch": 18.22, | |
"learning_rate": 0.006333333333333333, | |
"loss": 0.0178, | |
"step": 2050 | |
}, | |
{ | |
"epoch": 18.31, | |
"learning_rate": 0.006266666666666667, | |
"loss": 0.0201, | |
"step": 2060 | |
}, | |
{ | |
"epoch": 18.4, | |
"learning_rate": 0.0062, | |
"loss": 0.0197, | |
"step": 2070 | |
}, | |
{ | |
"epoch": 18.49, | |
"learning_rate": 0.006133333333333333, | |
"loss": 0.0224, | |
"step": 2080 | |
}, | |
{ | |
"epoch": 18.58, | |
"learning_rate": 0.006066666666666667, | |
"loss": 0.0228, | |
"step": 2090 | |
}, | |
{ | |
"epoch": 18.67, | |
"learning_rate": 0.006, | |
"loss": 0.021, | |
"step": 2100 | |
}, | |
{ | |
"epoch": 18.76, | |
"learning_rate": 0.005933333333333334, | |
"loss": 0.0221, | |
"step": 2110 | |
}, | |
{ | |
"epoch": 18.84, | |
"learning_rate": 0.005866666666666667, | |
"loss": 0.0227, | |
"step": 2120 | |
}, | |
{ | |
"epoch": 18.93, | |
"learning_rate": 0.0058, | |
"loss": 0.0205, | |
"step": 2130 | |
}, | |
{ | |
"epoch": 19.02, | |
"learning_rate": 0.005733333333333333, | |
"loss": 0.0219, | |
"step": 2140 | |
}, | |
{ | |
"epoch": 19.11, | |
"learning_rate": 0.005666666666666666, | |
"loss": 0.0197, | |
"step": 2150 | |
}, | |
{ | |
"epoch": 19.2, | |
"learning_rate": 0.005600000000000001, | |
"loss": 0.0174, | |
"step": 2160 | |
}, | |
{ | |
"epoch": 19.29, | |
"learning_rate": 0.005533333333333334, | |
"loss": 0.0175, | |
"step": 2170 | |
}, | |
{ | |
"epoch": 19.38, | |
"learning_rate": 0.0054666666666666665, | |
"loss": 0.0172, | |
"step": 2180 | |
}, | |
{ | |
"epoch": 19.47, | |
"learning_rate": 0.0054, | |
"loss": 0.0189, | |
"step": 2190 | |
}, | |
{ | |
"epoch": 19.56, | |
"learning_rate": 0.005333333333333333, | |
"loss": 0.0168, | |
"step": 2200 | |
}, | |
{ | |
"epoch": 19.64, | |
"learning_rate": 0.005266666666666666, | |
"loss": 0.0168, | |
"step": 2210 | |
}, | |
{ | |
"epoch": 19.73, | |
"learning_rate": 0.005200000000000001, | |
"loss": 0.0215, | |
"step": 2220 | |
}, | |
{ | |
"epoch": 19.82, | |
"learning_rate": 0.0051333333333333335, | |
"loss": 0.0204, | |
"step": 2230 | |
}, | |
{ | |
"epoch": 19.91, | |
"learning_rate": 0.005066666666666667, | |
"loss": 0.0202, | |
"step": 2240 | |
}, | |
{ | |
"epoch": 20.0, | |
"learning_rate": 0.005, | |
"loss": 0.0158, | |
"step": 2250 | |
}, | |
{ | |
"epoch": 20.09, | |
"learning_rate": 0.004933333333333334, | |
"loss": 0.0139, | |
"step": 2260 | |
}, | |
{ | |
"epoch": 20.18, | |
"learning_rate": 0.004866666666666667, | |
"loss": 0.0169, | |
"step": 2270 | |
}, | |
{ | |
"epoch": 20.27, | |
"learning_rate": 0.0048, | |
"loss": 0.015, | |
"step": 2280 | |
}, | |
{ | |
"epoch": 20.36, | |
"learning_rate": 0.004733333333333333, | |
"loss": 0.0135, | |
"step": 2290 | |
}, | |
{ | |
"epoch": 20.44, | |
"learning_rate": 0.004666666666666667, | |
"loss": 0.0156, | |
"step": 2300 | |
}, | |
{ | |
"epoch": 20.53, | |
"learning_rate": 0.0046, | |
"loss": 0.014, | |
"step": 2310 | |
}, | |
{ | |
"epoch": 20.62, | |
"learning_rate": 0.004533333333333333, | |
"loss": 0.0171, | |
"step": 2320 | |
}, | |
{ | |
"epoch": 20.71, | |
"learning_rate": 0.0044666666666666665, | |
"loss": 0.0171, | |
"step": 2330 | |
}, | |
{ | |
"epoch": 20.8, | |
"learning_rate": 0.0044, | |
"loss": 0.0215, | |
"step": 2340 | |
}, | |
{ | |
"epoch": 20.89, | |
"learning_rate": 0.004333333333333334, | |
"loss": 0.016, | |
"step": 2350 | |
}, | |
{ | |
"epoch": 20.98, | |
"learning_rate": 0.004266666666666667, | |
"loss": 0.0186, | |
"step": 2360 | |
}, | |
{ | |
"epoch": 21.07, | |
"learning_rate": 0.0042, | |
"loss": 0.0155, | |
"step": 2370 | |
}, | |
{ | |
"epoch": 21.16, | |
"learning_rate": 0.0041333333333333335, | |
"loss": 0.0128, | |
"step": 2380 | |
}, | |
{ | |
"epoch": 21.24, | |
"learning_rate": 0.004066666666666667, | |
"loss": 0.0146, | |
"step": 2390 | |
}, | |
{ | |
"epoch": 21.33, | |
"learning_rate": 0.004, | |
"loss": 0.016, | |
"step": 2400 | |
}, | |
{ | |
"epoch": 21.42, | |
"learning_rate": 0.003933333333333333, | |
"loss": 0.0125, | |
"step": 2410 | |
}, | |
{ | |
"epoch": 21.51, | |
"learning_rate": 0.0038666666666666667, | |
"loss": 0.0129, | |
"step": 2420 | |
}, | |
{ | |
"epoch": 21.6, | |
"learning_rate": 0.0038, | |
"loss": 0.0135, | |
"step": 2430 | |
}, | |
{ | |
"epoch": 21.69, | |
"learning_rate": 0.0037333333333333337, | |
"loss": 0.0132, | |
"step": 2440 | |
}, | |
{ | |
"epoch": 21.78, | |
"learning_rate": 0.0036666666666666666, | |
"loss": 0.0174, | |
"step": 2450 | |
}, | |
{ | |
"epoch": 21.87, | |
"learning_rate": 0.0036, | |
"loss": 0.0158, | |
"step": 2460 | |
}, | |
{ | |
"epoch": 21.96, | |
"learning_rate": 0.003533333333333333, | |
"loss": 0.0172, | |
"step": 2470 | |
}, | |
{ | |
"epoch": 22.04, | |
"learning_rate": 0.003466666666666667, | |
"loss": 0.0153, | |
"step": 2480 | |
}, | |
{ | |
"epoch": 22.13, | |
"learning_rate": 0.0034000000000000002, | |
"loss": 0.0133, | |
"step": 2490 | |
}, | |
{ | |
"epoch": 22.22, | |
"learning_rate": 0.003333333333333333, | |
"loss": 0.0135, | |
"step": 2500 | |
}, | |
{ | |
"epoch": 22.31, | |
"learning_rate": 0.003266666666666667, | |
"loss": 0.0126, | |
"step": 2510 | |
}, | |
{ | |
"epoch": 22.4, | |
"learning_rate": 0.0032, | |
"loss": 0.0148, | |
"step": 2520 | |
}, | |
{ | |
"epoch": 22.49, | |
"learning_rate": 0.0031333333333333335, | |
"loss": 0.0152, | |
"step": 2530 | |
}, | |
{ | |
"epoch": 22.58, | |
"learning_rate": 0.0030666666666666663, | |
"loss": 0.0132, | |
"step": 2540 | |
}, | |
{ | |
"epoch": 22.67, | |
"learning_rate": 0.003, | |
"loss": 0.017, | |
"step": 2550 | |
}, | |
{ | |
"epoch": 22.76, | |
"learning_rate": 0.0029333333333333334, | |
"loss": 0.0147, | |
"step": 2560 | |
}, | |
{ | |
"epoch": 22.84, | |
"learning_rate": 0.0028666666666666667, | |
"loss": 0.0174, | |
"step": 2570 | |
}, | |
{ | |
"epoch": 22.93, | |
"learning_rate": 0.0028000000000000004, | |
"loss": 0.0114, | |
"step": 2580 | |
}, | |
{ | |
"epoch": 23.02, | |
"learning_rate": 0.0027333333333333333, | |
"loss": 0.0143, | |
"step": 2590 | |
}, | |
{ | |
"epoch": 23.11, | |
"learning_rate": 0.0026666666666666666, | |
"loss": 0.0127, | |
"step": 2600 | |
}, | |
{ | |
"epoch": 23.2, | |
"learning_rate": 0.0026000000000000003, | |
"loss": 0.0127, | |
"step": 2610 | |
}, | |
{ | |
"epoch": 23.29, | |
"learning_rate": 0.0025333333333333336, | |
"loss": 0.0121, | |
"step": 2620 | |
}, | |
{ | |
"epoch": 23.38, | |
"learning_rate": 0.002466666666666667, | |
"loss": 0.0132, | |
"step": 2630 | |
}, | |
{ | |
"epoch": 23.47, | |
"learning_rate": 0.0024, | |
"loss": 0.0114, | |
"step": 2640 | |
}, | |
{ | |
"epoch": 23.56, | |
"learning_rate": 0.0023333333333333335, | |
"loss": 0.0102, | |
"step": 2650 | |
}, | |
{ | |
"epoch": 23.64, | |
"learning_rate": 0.0022666666666666664, | |
"loss": 0.0158, | |
"step": 2660 | |
}, | |
{ | |
"epoch": 23.73, | |
"learning_rate": 0.0022, | |
"loss": 0.0144, | |
"step": 2670 | |
}, | |
{ | |
"epoch": 23.82, | |
"learning_rate": 0.0021333333333333334, | |
"loss": 0.014, | |
"step": 2680 | |
}, | |
{ | |
"epoch": 23.91, | |
"learning_rate": 0.0020666666666666667, | |
"loss": 0.0121, | |
"step": 2690 | |
}, | |
{ | |
"epoch": 24.0, | |
"learning_rate": 0.002, | |
"loss": 0.0159, | |
"step": 2700 | |
}, | |
{ | |
"epoch": 24.09, | |
"learning_rate": 0.0019333333333333333, | |
"loss": 0.0104, | |
"step": 2710 | |
}, | |
{ | |
"epoch": 24.18, | |
"learning_rate": 0.0018666666666666669, | |
"loss": 0.0122, | |
"step": 2720 | |
}, | |
{ | |
"epoch": 24.27, | |
"learning_rate": 0.0018, | |
"loss": 0.011, | |
"step": 2730 | |
}, | |
{ | |
"epoch": 24.36, | |
"learning_rate": 0.0017333333333333335, | |
"loss": 0.0129, | |
"step": 2740 | |
}, | |
{ | |
"epoch": 24.44, | |
"learning_rate": 0.0016666666666666666, | |
"loss": 0.0145, | |
"step": 2750 | |
}, | |
{ | |
"epoch": 24.53, | |
"learning_rate": 0.0016, | |
"loss": 0.0134, | |
"step": 2760 | |
}, | |
{ | |
"epoch": 24.62, | |
"learning_rate": 0.0015333333333333332, | |
"loss": 0.0121, | |
"step": 2770 | |
}, | |
{ | |
"epoch": 24.71, | |
"learning_rate": 0.0014666666666666667, | |
"loss": 0.0136, | |
"step": 2780 | |
}, | |
{ | |
"epoch": 24.8, | |
"learning_rate": 0.0014000000000000002, | |
"loss": 0.0128, | |
"step": 2790 | |
}, | |
{ | |
"epoch": 24.89, | |
"learning_rate": 0.0013333333333333333, | |
"loss": 0.0124, | |
"step": 2800 | |
}, | |
{ | |
"epoch": 24.98, | |
"learning_rate": 0.0012666666666666668, | |
"loss": 0.0132, | |
"step": 2810 | |
}, | |
{ | |
"epoch": 25.07, | |
"learning_rate": 0.0012, | |
"loss": 0.0116, | |
"step": 2820 | |
}, | |
{ | |
"epoch": 25.16, | |
"learning_rate": 0.0011333333333333332, | |
"loss": 0.0118, | |
"step": 2830 | |
}, | |
{ | |
"epoch": 25.24, | |
"learning_rate": 0.0010666666666666667, | |
"loss": 0.0123, | |
"step": 2840 | |
}, | |
{ | |
"epoch": 25.33, | |
"learning_rate": 0.001, | |
"loss": 0.0117, | |
"step": 2850 | |
}, | |
{ | |
"epoch": 25.42, | |
"learning_rate": 0.0009333333333333334, | |
"loss": 0.0144, | |
"step": 2860 | |
}, | |
{ | |
"epoch": 25.51, | |
"learning_rate": 0.0008666666666666667, | |
"loss": 0.0112, | |
"step": 2870 | |
}, | |
{ | |
"epoch": 25.6, | |
"learning_rate": 0.0008, | |
"loss": 0.0125, | |
"step": 2880 | |
}, | |
{ | |
"epoch": 25.69, | |
"learning_rate": 0.0007333333333333333, | |
"loss": 0.0121, | |
"step": 2890 | |
}, | |
{ | |
"epoch": 25.78, | |
"learning_rate": 0.0006666666666666666, | |
"loss": 0.0131, | |
"step": 2900 | |
}, | |
{ | |
"epoch": 25.87, | |
"learning_rate": 0.0006, | |
"loss": 0.0102, | |
"step": 2910 | |
}, | |
{ | |
"epoch": 25.96, | |
"learning_rate": 0.0005333333333333334, | |
"loss": 0.012, | |
"step": 2920 | |
}, | |
{ | |
"epoch": 26.04, | |
"learning_rate": 0.0004666666666666667, | |
"loss": 0.0106, | |
"step": 2930 | |
}, | |
{ | |
"epoch": 26.13, | |
"learning_rate": 0.0004, | |
"loss": 0.0103, | |
"step": 2940 | |
}, | |
{ | |
"epoch": 26.22, | |
"learning_rate": 0.0003333333333333333, | |
"loss": 0.011, | |
"step": 2950 | |
}, | |
{ | |
"epoch": 26.31, | |
"learning_rate": 0.0002666666666666667, | |
"loss": 0.0114, | |
"step": 2960 | |
}, | |
{ | |
"epoch": 26.4, | |
"learning_rate": 0.0002, | |
"loss": 0.0133, | |
"step": 2970 | |
}, | |
{ | |
"epoch": 26.49, | |
"learning_rate": 0.00013333333333333334, | |
"loss": 0.0105, | |
"step": 2980 | |
}, | |
{ | |
"epoch": 26.58, | |
"learning_rate": 6.666666666666667e-05, | |
"loss": 0.0137, | |
"step": 2990 | |
}, | |
{ | |
"epoch": 26.67, | |
"learning_rate": 0.0, | |
"loss": 0.0106, | |
"step": 3000 | |
} | |
], | |
"max_steps": 3000, | |
"num_train_epochs": 27, | |
"total_flos": 8.31451847196672e+17, | |
"trial_name": null, | |
"trial_params": null | |
} | |