./data/chembl_29_selfies.csv already exists. chembl_29_selfies is read. ./data/selfies_subset.txt is available. ./data/bpe/bpe.json is available. ./data/robertatokenizer/ is available. starting pre-training with run0-set30 parameter set. build trainer with on device: cuda:0 with n gpus: 1 ***** Running training ***** Num examples = 1667576 Num Epochs = 100 Instantaneous batch size per device = 16 Total train batch size (w. parallel, distributed & accumulation) = 16 Gradient Accumulation steps = 1 Total optimization steps = 10422400 {'loss': 1.9973, 'learning_rate': 4.999760132023334e-05, 'epoch': 0.0} {'loss': 1.8317, 'learning_rate': 4.999520264046669e-05, 'epoch': 0.01} {'loss': 1.4121, 'learning_rate': 4.9992803960700034e-05, 'epoch': 0.01} {'loss': 0.9413, 'learning_rate': 4.999040528093338e-05, 'epoch': 0.02} {'loss': 0.8091, 'learning_rate': 4.998800660116672e-05, 'epoch': 0.02} {'loss': 0.7178, 'learning_rate': 4.9985607921400065e-05, 'epoch': 0.03} {'loss': 0.6517, 'learning_rate': 4.9983209241633405e-05, 'epoch': 0.03} {'loss': 0.6003, 'learning_rate': 4.998081056186675e-05, 'epoch': 0.04} {'loss': 0.5624, 'learning_rate': 4.99784118821001e-05, 'epoch': 0.04} {'loss': 0.539, 'learning_rate': 4.9976013202333436e-05, 'epoch': 0.05} {'loss': 0.5174, 'learning_rate': 4.997361452256678e-05, 'epoch': 0.05} {'loss': 0.4959, 'learning_rate': 4.997121584280012e-05, 'epoch': 0.06} {'loss': 0.4714, 'learning_rate': 4.9968817163033474e-05, 'epoch': 0.06} {'loss': 0.4589, 'learning_rate': 4.9966418483266814e-05, 'epoch': 0.07} {'loss': 0.4488, 'learning_rate': 4.996401980350015e-05, 'epoch': 0.07} {'loss': 0.4315, 'learning_rate': 4.99616211237335e-05, 'epoch': 0.08} {'loss': 0.4209, 'learning_rate': 4.995922244396684e-05, 'epoch': 0.08} {'loss': 0.4082, 'learning_rate': 4.995682376420019e-05, 'epoch': 0.09} {'loss': 0.3971, 'learning_rate': 4.995442508443353e-05, 'epoch': 0.09} {'loss': 0.3929, 'learning_rate': 4.995202640466688e-05, 'epoch': 0.1} {'loss': 0.3733, 'learning_rate': 4.9949627724900216e-05, 'epoch': 0.1} {'loss': 0.3755, 'learning_rate': 4.994722904513356e-05, 'epoch': 0.11} {'loss': 0.3693, 'learning_rate': 4.994483036536691e-05, 'epoch': 0.11} {'loss': 0.3615, 'learning_rate': 4.994243168560025e-05, 'epoch': 0.12} {'loss': 0.3552, 'learning_rate': 4.9940033005833594e-05, 'epoch': 0.12} {'loss': 0.3463, 'learning_rate': 4.993763432606693e-05, 'epoch': 0.12} {'loss': 0.3413, 'learning_rate': 4.993523564630028e-05, 'epoch': 0.13} {'loss': 0.3386, 'learning_rate': 4.9932836966533625e-05, 'epoch': 0.13} {'loss': 0.3309, 'learning_rate': 4.9930438286766965e-05, 'epoch': 0.14} {'loss': 0.3266, 'learning_rate': 4.992803960700031e-05, 'epoch': 0.14} {'loss': 0.3225, 'learning_rate': 4.992564092723365e-05, 'epoch': 0.15} {'loss': 0.3236, 'learning_rate': 4.9923242247466996e-05, 'epoch': 0.15} {'loss': 0.3162, 'learning_rate': 4.992084356770034e-05, 'epoch': 0.16} {'loss': 0.3144, 'learning_rate': 4.991844488793369e-05, 'epoch': 0.16} {'loss': 0.3013, 'learning_rate': 4.991604620816703e-05, 'epoch': 0.17} {'loss': 0.301, 'learning_rate': 4.991364752840037e-05, 'epoch': 0.17} {'loss': 0.2983, 'learning_rate': 4.991124884863371e-05, 'epoch': 0.18} {'loss': 0.2951, 'learning_rate': 4.990885016886706e-05, 'epoch': 0.18} {'loss': 0.29, 'learning_rate': 4.9906451489100405e-05, 'epoch': 0.19} {'loss': 0.2914, 'learning_rate': 4.9904052809333744e-05, 'epoch': 0.19} {'loss': 0.289, 'learning_rate': 4.990165412956709e-05, 'epoch': 0.2} {'loss': 0.2829, 'learning_rate': 4.989925544980043e-05, 'epoch': 0.2} {'loss': 0.278, 'learning_rate': 4.9896856770033776e-05, 'epoch': 0.21} {'loss': 0.2832, 'learning_rate': 4.989445809026712e-05, 'epoch': 0.21} {'loss': 0.2834, 'learning_rate': 4.989205941050046e-05, 'epoch': 0.22} {'loss': 0.2762, 'learning_rate': 4.988966073073381e-05, 'epoch': 0.22} {'loss': 0.273, 'learning_rate': 4.988726205096715e-05, 'epoch': 0.23} {'loss': 0.2712, 'learning_rate': 4.988486337120049e-05, 'epoch': 0.23} {'loss': 0.266, 'learning_rate': 4.988246469143384e-05, 'epoch': 0.24} {'loss': 0.266, 'learning_rate': 4.988006601166718e-05, 'epoch': 0.24} {'loss': 0.2619, 'learning_rate': 4.9877667331900524e-05, 'epoch': 0.24} {'loss': 0.2607, 'learning_rate': 4.9875268652133864e-05, 'epoch': 0.25} {'loss': 0.2533, 'learning_rate': 4.987286997236721e-05, 'epoch': 0.25} {'loss': 0.262, 'learning_rate': 4.9870471292600556e-05, 'epoch': 0.26} {'loss': 0.2518, 'learning_rate': 4.98680726128339e-05, 'epoch': 0.26} {'loss': 0.2492, 'learning_rate': 4.986567393306724e-05, 'epoch': 0.27} {'loss': 0.2524, 'learning_rate': 4.986327525330059e-05, 'epoch': 0.27} {'loss': 0.2548, 'learning_rate': 4.986087657353393e-05, 'epoch': 0.28} {'loss': 0.2524, 'learning_rate': 4.985847789376727e-05, 'epoch': 0.28} {'loss': 0.2466, 'learning_rate': 4.985607921400062e-05, 'epoch': 0.29} {'loss': 0.2448, 'learning_rate': 4.985368053423396e-05, 'epoch': 0.29} {'loss': 0.2405, 'learning_rate': 4.9851281854467304e-05, 'epoch': 0.3} {'loss': 0.2429, 'learning_rate': 4.9848883174700644e-05, 'epoch': 0.3} {'loss': 0.2369, 'learning_rate': 4.984648449493399e-05, 'epoch': 0.31} {'loss': 0.2388, 'learning_rate': 4.9844085815167336e-05, 'epoch': 0.31} {'loss': 0.2385, 'learning_rate': 4.9841687135400675e-05, 'epoch': 0.32} {'loss': 0.2393, 'learning_rate': 4.983928845563402e-05, 'epoch': 0.32} {'loss': 0.2341, 'learning_rate': 4.983688977586736e-05, 'epoch': 0.33} {'loss': 0.2327, 'learning_rate': 4.983449109610071e-05, 'epoch': 0.33} {'loss': 0.229, 'learning_rate': 4.983209241633405e-05, 'epoch': 0.34} {'loss': 0.2314, 'learning_rate': 4.98296937365674e-05, 'epoch': 0.34} {'loss': 0.2331, 'learning_rate': 4.982729505680074e-05, 'epoch': 0.35} {'loss': 0.2321, 'learning_rate': 4.982489637703408e-05, 'epoch': 0.35} {'loss': 0.2252, 'learning_rate': 4.982249769726743e-05, 'epoch': 0.36} {'loss': 0.2292, 'learning_rate': 4.982009901750077e-05, 'epoch': 0.36} {'loss': 0.2247, 'learning_rate': 4.9817700337734116e-05, 'epoch': 0.36} {'loss': 0.2215, 'learning_rate': 4.9815301657967455e-05, 'epoch': 0.37} {'loss': 0.2232, 'learning_rate': 4.98129029782008e-05, 'epoch': 0.37} {'loss': 0.2239, 'learning_rate': 4.981050429843415e-05, 'epoch': 0.38} {'loss': 0.2226, 'learning_rate': 4.9808105618667486e-05, 'epoch': 0.38} {'loss': 0.2224, 'learning_rate': 4.980570693890083e-05, 'epoch': 0.39} {'loss': 0.22, 'learning_rate': 4.980330825913417e-05, 'epoch': 0.39} {'loss': 0.2152, 'learning_rate': 4.980090957936752e-05, 'epoch': 0.4} {'loss': 0.2147, 'learning_rate': 4.9798510899600864e-05, 'epoch': 0.4} {'loss': 0.2139, 'learning_rate': 4.979611221983421e-05, 'epoch': 0.41} {'loss': 0.2121, 'learning_rate': 4.979371354006755e-05, 'epoch': 0.41} {'loss': 0.2148, 'learning_rate': 4.979131486030089e-05, 'epoch': 0.42} {'loss': 0.2156, 'learning_rate': 4.9788916180534235e-05, 'epoch': 0.42} {'loss': 0.2051, 'learning_rate': 4.978651750076758e-05, 'epoch': 0.43} {'loss': 0.2123, 'learning_rate': 4.978411882100093e-05, 'epoch': 0.43} {'loss': 0.2068, 'learning_rate': 4.9781720141234266e-05, 'epoch': 0.44} {'loss': 0.2103, 'learning_rate': 4.977932146146761e-05, 'epoch': 0.44} {'loss': 0.21, 'learning_rate': 4.977692278170095e-05, 'epoch': 0.45} {'loss': 0.2097, 'learning_rate': 4.97745241019343e-05, 'epoch': 0.45} {'loss': 0.2111, 'learning_rate': 4.9772125422167644e-05, 'epoch': 0.46} {'loss': 0.2033, 'learning_rate': 4.976972674240098e-05, 'epoch': 0.46} {'loss': 0.2066, 'learning_rate': 4.976732806263433e-05, 'epoch': 0.47} {'loss': 0.206, 'learning_rate': 4.976492938286767e-05, 'epoch': 0.47} {'loss': 0.2047, 'learning_rate': 4.9762530703101015e-05, 'epoch': 0.47} {'loss': 0.2029, 'learning_rate': 4.976013202333436e-05, 'epoch': 0.48} {'loss': 0.2052, 'learning_rate': 4.97577333435677e-05, 'epoch': 0.48} {'loss': 0.2062, 'learning_rate': 4.9755334663801046e-05, 'epoch': 0.49} {'loss': 0.196, 'learning_rate': 4.9752935984034386e-05, 'epoch': 0.49} {'loss': 0.2015, 'learning_rate': 4.975053730426774e-05, 'epoch': 0.5} {'loss': 0.1992, 'learning_rate': 4.974813862450108e-05, 'epoch': 0.5} {'loss': 0.1975, 'learning_rate': 4.9745739944734424e-05, 'epoch': 0.51} {'loss': 0.1968, 'learning_rate': 4.974334126496776e-05, 'epoch': 0.51} {'loss': 0.1962, 'learning_rate': 4.97409425852011e-05, 'epoch': 0.52} {'loss': 0.1972, 'learning_rate': 4.9738543905434455e-05, 'epoch': 0.52} {'loss': 0.1951, 'learning_rate': 4.9736145225667795e-05, 'epoch': 0.53} {'loss': 0.2018, 'learning_rate': 4.973374654590114e-05, 'epoch': 0.53} {'loss': 0.1967, 'learning_rate': 4.973134786613448e-05, 'epoch': 0.54} {'loss': 0.1971, 'learning_rate': 4.9728949186367826e-05, 'epoch': 0.54} {'loss': 0.1931, 'learning_rate': 4.972655050660117e-05, 'epoch': 0.55} {'loss': 0.1941, 'learning_rate': 4.972415182683451e-05, 'epoch': 0.55} {'loss': 0.1932, 'learning_rate': 4.972175314706786e-05, 'epoch': 0.56} {'loss': 0.1923, 'learning_rate': 4.97193544673012e-05, 'epoch': 0.56} {'loss': 0.1946, 'learning_rate': 4.971695578753454e-05, 'epoch': 0.57} {'loss': 0.1946, 'learning_rate': 4.971455710776789e-05, 'epoch': 0.57} {'loss': 0.1904, 'learning_rate': 4.9712158428001235e-05, 'epoch': 0.58} {'loss': 0.187, 'learning_rate': 4.9709759748234575e-05, 'epoch': 0.58} {'loss': 0.1907, 'learning_rate': 4.9707361068467914e-05, 'epoch': 0.59} {'loss': 0.189, 'learning_rate': 4.970496238870126e-05, 'epoch': 0.59} {'loss': 0.1878, 'learning_rate': 4.9702563708934606e-05, 'epoch': 0.59} {'loss': 0.189, 'learning_rate': 4.970016502916795e-05, 'epoch': 0.6} {'loss': 0.1863, 'learning_rate': 4.969776634940129e-05, 'epoch': 0.6} {'loss': 0.191, 'learning_rate': 4.969536766963464e-05, 'epoch': 0.61} {'loss': 0.1912, 'learning_rate': 4.969296898986798e-05, 'epoch': 0.61} {'loss': 0.1896, 'learning_rate': 4.969057031010132e-05, 'epoch': 0.62} {'loss': 0.1869, 'learning_rate': 4.968817163033467e-05, 'epoch': 0.62} {'loss': 0.1861, 'learning_rate': 4.968577295056801e-05, 'epoch': 0.63} {'loss': 0.184, 'learning_rate': 4.9683374270801354e-05, 'epoch': 0.63} {'loss': 0.1843, 'learning_rate': 4.9680975591034694e-05, 'epoch': 0.64} {'loss': 0.1826, 'learning_rate': 4.967857691126804e-05, 'epoch': 0.64} {'loss': 0.1811, 'learning_rate': 4.9676178231501386e-05, 'epoch': 0.65} {'loss': 0.1783, 'learning_rate': 4.9673779551734725e-05, 'epoch': 0.65} {'loss': 0.1803, 'learning_rate': 4.967138087196807e-05, 'epoch': 0.66} {'loss': 0.1801, 'learning_rate': 4.966898219220141e-05, 'epoch': 0.66} {'loss': 0.1806, 'learning_rate': 4.966658351243476e-05, 'epoch': 0.67} {'loss': 0.1812, 'learning_rate': 4.96641848326681e-05, 'epoch': 0.67} {'loss': 0.1822, 'learning_rate': 4.966178615290145e-05, 'epoch': 0.68} {'loss': 0.1788, 'learning_rate': 4.965938747313479e-05, 'epoch': 0.68} {'loss': 0.1835, 'learning_rate': 4.9656988793368134e-05, 'epoch': 0.69} {'loss': 0.1796, 'learning_rate': 4.9654590113601474e-05, 'epoch': 0.69} {'loss': 0.1812, 'learning_rate': 4.965219143383482e-05, 'epoch': 0.7} {'loss': 0.1788, 'learning_rate': 4.9649792754068166e-05, 'epoch': 0.7} {'loss': 0.1742, 'learning_rate': 4.9647394074301505e-05, 'epoch': 0.71} {'loss': 0.1759, 'learning_rate': 4.964499539453485e-05, 'epoch': 0.71} {'loss': 0.1791, 'learning_rate': 4.964259671476819e-05, 'epoch': 0.71} {'loss': 0.1818, 'learning_rate': 4.964019803500154e-05, 'epoch': 0.72} {'loss': 0.1751, 'learning_rate': 4.963779935523488e-05, 'epoch': 0.72} {'loss': 0.1754, 'learning_rate': 4.963540067546822e-05, 'epoch': 0.73} {'loss': 0.1764, 'learning_rate': 4.963300199570157e-05, 'epoch': 0.73} {'loss': 0.1769, 'learning_rate': 4.963060331593491e-05, 'epoch': 0.74} {'loss': 0.1734, 'learning_rate': 4.962820463616826e-05, 'epoch': 0.74} {'loss': 0.175, 'learning_rate': 4.96258059564016e-05, 'epoch': 0.75} {'loss': 0.1738, 'learning_rate': 4.962340727663494e-05, 'epoch': 0.75} {'loss': 0.1735, 'learning_rate': 4.9621008596868285e-05, 'epoch': 0.76} {'loss': 0.1725, 'learning_rate': 4.9618609917101624e-05, 'epoch': 0.76} {'loss': 0.1735, 'learning_rate': 4.961621123733498e-05, 'epoch': 0.77} {'loss': 0.1719, 'learning_rate': 4.9613812557568317e-05, 'epoch': 0.77} {'loss': 0.1712, 'learning_rate': 4.961141387780166e-05, 'epoch': 0.78} {'loss': 0.1716, 'learning_rate': 4.9609015198035e-05, 'epoch': 0.78} {'loss': 0.1683, 'learning_rate': 4.960661651826835e-05, 'epoch': 0.79} {'loss': 0.1694, 'learning_rate': 4.9604217838501694e-05, 'epoch': 0.79} {'loss': 0.1682, 'learning_rate': 4.9601819158735033e-05, 'epoch': 0.8} {'loss': 0.1696, 'learning_rate': 4.959942047896838e-05, 'epoch': 0.8} {'loss': 0.1711, 'learning_rate': 4.959702179920172e-05, 'epoch': 0.81} {'loss': 0.1686, 'learning_rate': 4.9594623119435065e-05, 'epoch': 0.81} {'loss': 0.1656, 'learning_rate': 4.959222443966841e-05, 'epoch': 0.82} {'loss': 0.1707, 'learning_rate': 4.958982575990175e-05, 'epoch': 0.82} {'loss': 0.1697, 'learning_rate': 4.9587427080135096e-05, 'epoch': 0.83} {'loss': 0.1673, 'learning_rate': 4.9585028400368436e-05, 'epoch': 0.83} {'loss': 0.1681, 'learning_rate': 4.958262972060178e-05, 'epoch': 0.83} {'loss': 0.1693, 'learning_rate': 4.958023104083513e-05, 'epoch': 0.84} {'loss': 0.1667, 'learning_rate': 4.9577832361068474e-05, 'epoch': 0.84} {'loss': 0.1691, 'learning_rate': 4.957543368130181e-05, 'epoch': 0.85} {'loss': 0.168, 'learning_rate': 4.957303500153516e-05, 'epoch': 0.85} {'loss': 0.1651, 'learning_rate': 4.95706363217685e-05, 'epoch': 0.86} {'loss': 0.1703, 'learning_rate': 4.9568237642001845e-05, 'epoch': 0.86} {'loss': 0.1656, 'learning_rate': 4.956583896223519e-05, 'epoch': 0.87} {'loss': 0.1655, 'learning_rate': 4.956344028246853e-05, 'epoch': 0.87} {'loss': 0.1679, 'learning_rate': 4.9561041602701876e-05, 'epoch': 0.88} {'loss': 0.1656, 'learning_rate': 4.9558642922935216e-05, 'epoch': 0.88} {'loss': 0.1663, 'learning_rate': 4.955624424316856e-05, 'epoch': 0.89} {'loss': 0.1627, 'learning_rate': 4.955384556340191e-05, 'epoch': 0.89} {'loss': 0.1649, 'learning_rate': 4.955144688363525e-05, 'epoch': 0.9} {'loss': 0.1642, 'learning_rate': 4.954904820386859e-05, 'epoch': 0.9} {'loss': 0.1644, 'learning_rate': 4.954664952410193e-05, 'epoch': 0.91} {'loss': 0.1628, 'learning_rate': 4.9544250844335285e-05, 'epoch': 0.91} {'loss': 0.1623, 'learning_rate': 4.9541852164568625e-05, 'epoch': 0.92} {'loss': 0.1629, 'learning_rate': 4.953945348480197e-05, 'epoch': 0.92} {'loss': 0.1648, 'learning_rate': 4.953705480503531e-05, 'epoch': 0.93} {'loss': 0.163, 'learning_rate': 4.953465612526865e-05, 'epoch': 0.93} {'loss': 0.1618, 'learning_rate': 4.9532257445502e-05, 'epoch': 0.94} {'loss': 0.1598, 'learning_rate': 4.952985876573534e-05, 'epoch': 0.94} {'loss': 0.1643, 'learning_rate': 4.952746008596869e-05, 'epoch': 0.95} {'loss': 0.1598, 'learning_rate': 4.952506140620203e-05, 'epoch': 0.95} {'loss': 0.162, 'learning_rate': 4.952266272643537e-05, 'epoch': 0.95} {'loss': 0.1603, 'learning_rate': 4.952026404666872e-05, 'epoch': 0.96} {'loss': 0.157, 'learning_rate': 4.951786536690206e-05, 'epoch': 0.96} {'loss': 0.1601, 'learning_rate': 4.9515466687135405e-05, 'epoch': 0.97} {'loss': 0.1596, 'learning_rate': 4.9513068007368744e-05, 'epoch': 0.97} {'loss': 0.1583, 'learning_rate': 4.951066932760209e-05, 'epoch': 0.98} {'loss': 0.1573, 'learning_rate': 4.9508270647835436e-05, 'epoch': 0.98} {'loss': 0.1579, 'learning_rate': 4.9505871968068775e-05, 'epoch': 0.99} {'loss': 0.1566, 'learning_rate': 4.950347328830212e-05, 'epoch': 0.99} {'loss': 0.1601, 'learning_rate': 4.950107460853546e-05, 'epoch': 1.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.14209985733032227, 'eval_runtime': 2757.9468, 'eval_samples_per_second': 151.161, 'eval_steps_per_second': 18.895, 'epoch': 1.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-104224 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-104224/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-104224/pytorch_model.bin {'loss': 0.1593, 'learning_rate': 4.949867592876881e-05, 'epoch': 1.0} {'loss': 0.1575, 'learning_rate': 4.949627724900215e-05, 'epoch': 1.01} {'loss': 0.1584, 'learning_rate': 4.94938785692355e-05, 'epoch': 1.01} {'loss': 0.158, 'learning_rate': 4.949147988946884e-05, 'epoch': 1.02} {'loss': 0.1559, 'learning_rate': 4.9489081209702185e-05, 'epoch': 1.02} {'loss': 0.157, 'learning_rate': 4.9486682529935524e-05, 'epoch': 1.03} {'loss': 0.1561, 'learning_rate': 4.948428385016887e-05, 'epoch': 1.03} {'loss': 0.1563, 'learning_rate': 4.9481885170402216e-05, 'epoch': 1.04} {'loss': 0.1589, 'learning_rate': 4.9479486490635555e-05, 'epoch': 1.04} {'loss': 0.1562, 'learning_rate': 4.94770878108689e-05, 'epoch': 1.05} {'loss': 0.1587, 'learning_rate': 4.947468913110224e-05, 'epoch': 1.05} {'loss': 0.1571, 'learning_rate': 4.947229045133559e-05, 'epoch': 1.06} {'loss': 0.1606, 'learning_rate': 4.946989177156893e-05, 'epoch': 1.06} {'loss': 0.1571, 'learning_rate': 4.946749309180227e-05, 'epoch': 1.07} {'loss': 0.159, 'learning_rate': 4.946509441203562e-05, 'epoch': 1.07} {'loss': 0.1523, 'learning_rate': 4.946269573226896e-05, 'epoch': 1.07} {'loss': 0.1563, 'learning_rate': 4.9460297052502304e-05, 'epoch': 1.08} {'loss': 0.1535, 'learning_rate': 4.945789837273565e-05, 'epoch': 1.08} {'loss': 0.1533, 'learning_rate': 4.9455499692968996e-05, 'epoch': 1.09} {'loss': 0.1518, 'learning_rate': 4.9453101013202335e-05, 'epoch': 1.09} {'loss': 0.1526, 'learning_rate': 4.9450702333435675e-05, 'epoch': 1.1} {'loss': 0.1533, 'learning_rate': 4.944830365366902e-05, 'epoch': 1.1} {'loss': 0.1502, 'learning_rate': 4.944590497390237e-05, 'epoch': 1.11} {'loss': 0.1508, 'learning_rate': 4.944350629413571e-05, 'epoch': 1.11} {'loss': 0.1561, 'learning_rate': 4.944110761436905e-05, 'epoch': 1.12} {'loss': 0.1507, 'learning_rate': 4.94387089346024e-05, 'epoch': 1.12} {'loss': 0.1504, 'learning_rate': 4.943631025483574e-05, 'epoch': 1.13} {'loss': 0.1524, 'learning_rate': 4.9433911575069084e-05, 'epoch': 1.13} {'loss': 0.1508, 'learning_rate': 4.943151289530243e-05, 'epoch': 1.14} {'loss': 0.1543, 'learning_rate': 4.942911421553577e-05, 'epoch': 1.14} {'loss': 0.1495, 'learning_rate': 4.9426715535769115e-05, 'epoch': 1.15} {'loss': 0.1485, 'learning_rate': 4.9424316856002454e-05, 'epoch': 1.15} {'loss': 0.1515, 'learning_rate': 4.942191817623581e-05, 'epoch': 1.16} {'loss': 0.1513, 'learning_rate': 4.941951949646915e-05, 'epoch': 1.16} {'loss': 0.1537, 'learning_rate': 4.9417120816702486e-05, 'epoch': 1.17} {'loss': 0.1547, 'learning_rate': 4.941472213693583e-05, 'epoch': 1.17} {'loss': 0.1487, 'learning_rate': 4.941232345716917e-05, 'epoch': 1.18} {'loss': 0.1459, 'learning_rate': 4.9409924777402524e-05, 'epoch': 1.18} {'loss': 0.1485, 'learning_rate': 4.9407526097635864e-05, 'epoch': 1.18} {'loss': 0.1493, 'learning_rate': 4.940512741786921e-05, 'epoch': 1.19} {'loss': 0.1526, 'learning_rate': 4.940272873810255e-05, 'epoch': 1.19} {'loss': 0.1464, 'learning_rate': 4.9400330058335895e-05, 'epoch': 1.2} {'loss': 0.1498, 'learning_rate': 4.939793137856924e-05, 'epoch': 1.2} {'loss': 0.151, 'learning_rate': 4.939553269880258e-05, 'epoch': 1.21} {'loss': 0.1496, 'learning_rate': 4.9393134019035927e-05, 'epoch': 1.21} {'loss': 0.149, 'learning_rate': 4.9390735339269266e-05, 'epoch': 1.22} {'loss': 0.1509, 'learning_rate': 4.938833665950261e-05, 'epoch': 1.22} {'loss': 0.1472, 'learning_rate': 4.938593797973596e-05, 'epoch': 1.23} {'loss': 0.1479, 'learning_rate': 4.93835392999693e-05, 'epoch': 1.23} {'loss': 0.1503, 'learning_rate': 4.9381140620202643e-05, 'epoch': 1.24} {'loss': 0.151, 'learning_rate': 4.937874194043598e-05, 'epoch': 1.24} {'loss': 0.1471, 'learning_rate': 4.937634326066933e-05, 'epoch': 1.25} {'loss': 0.149, 'learning_rate': 4.9373944580902675e-05, 'epoch': 1.25} {'loss': 0.1447, 'learning_rate': 4.937154590113602e-05, 'epoch': 1.26} {'loss': 0.142, 'learning_rate': 4.936914722136936e-05, 'epoch': 1.26} {'loss': 0.1486, 'learning_rate': 4.9366748541602706e-05, 'epoch': 1.27} {'loss': 0.1465, 'learning_rate': 4.9364349861836046e-05, 'epoch': 1.27} {'loss': 0.1453, 'learning_rate': 4.936195118206939e-05, 'epoch': 1.28} {'loss': 0.1465, 'learning_rate': 4.935955250230274e-05, 'epoch': 1.28} {'loss': 0.1469, 'learning_rate': 4.935715382253608e-05, 'epoch': 1.29} {'loss': 0.1426, 'learning_rate': 4.935475514276942e-05, 'epoch': 1.29} {'loss': 0.1461, 'learning_rate': 4.935235646300276e-05, 'epoch': 1.3} {'loss': 0.1502, 'learning_rate': 4.934995778323611e-05, 'epoch': 1.3} {'loss': 0.1474, 'learning_rate': 4.9347559103469455e-05, 'epoch': 1.3} {'loss': 0.145, 'learning_rate': 4.9345160423702794e-05, 'epoch': 1.31} {'loss': 0.1445, 'learning_rate': 4.934276174393614e-05, 'epoch': 1.31} {'loss': 0.1451, 'learning_rate': 4.934036306416948e-05, 'epoch': 1.32} {'loss': 0.1448, 'learning_rate': 4.933796438440283e-05, 'epoch': 1.32} {'loss': 0.1486, 'learning_rate': 4.933556570463617e-05, 'epoch': 1.33} {'loss': 0.1465, 'learning_rate': 4.933316702486951e-05, 'epoch': 1.33} {'loss': 0.1417, 'learning_rate': 4.933076834510286e-05, 'epoch': 1.34} {'loss': 0.1445, 'learning_rate': 4.9328369665336196e-05, 'epoch': 1.34} {'loss': 0.1483, 'learning_rate': 4.932597098556955e-05, 'epoch': 1.35} {'loss': 0.1441, 'learning_rate': 4.932357230580289e-05, 'epoch': 1.35} {'loss': 0.1432, 'learning_rate': 4.9321173626036235e-05, 'epoch': 1.36} {'loss': 0.1445, 'learning_rate': 4.9318774946269574e-05, 'epoch': 1.36} {'loss': 0.1442, 'learning_rate': 4.931637626650292e-05, 'epoch': 1.37} {'loss': 0.1423, 'learning_rate': 4.9313977586736266e-05, 'epoch': 1.37} {'loss': 0.1454, 'learning_rate': 4.9311578906969606e-05, 'epoch': 1.38} {'loss': 0.1413, 'learning_rate': 4.930918022720295e-05, 'epoch': 1.38} {'loss': 0.1416, 'learning_rate': 4.930678154743629e-05, 'epoch': 1.39} {'loss': 0.1423, 'learning_rate': 4.930438286766964e-05, 'epoch': 1.39} {'loss': 0.142, 'learning_rate': 4.930198418790298e-05, 'epoch': 1.4} {'loss': 0.142, 'learning_rate': 4.929958550813632e-05, 'epoch': 1.4} {'loss': 0.1437, 'learning_rate': 4.929718682836967e-05, 'epoch': 1.41} {'loss': 0.1376, 'learning_rate': 4.929478814860301e-05, 'epoch': 1.41} {'loss': 0.142, 'learning_rate': 4.9292389468836354e-05, 'epoch': 1.42} {'loss': 0.1399, 'learning_rate': 4.92899907890697e-05, 'epoch': 1.42} {'loss': 0.1442, 'learning_rate': 4.9287592109303046e-05, 'epoch': 1.42} {'loss': 0.1395, 'learning_rate': 4.9285193429536385e-05, 'epoch': 1.43} {'loss': 0.1457, 'learning_rate': 4.928279474976973e-05, 'epoch': 1.43} {'loss': 0.1436, 'learning_rate': 4.928039607000307e-05, 'epoch': 1.44} {'loss': 0.1437, 'learning_rate': 4.927799739023642e-05, 'epoch': 1.44} {'loss': 0.1449, 'learning_rate': 4.927559871046976e-05, 'epoch': 1.45} {'loss': 0.1415, 'learning_rate': 4.92732000307031e-05, 'epoch': 1.45} {'loss': 0.1443, 'learning_rate': 4.927080135093645e-05, 'epoch': 1.46} {'loss': 0.145, 'learning_rate': 4.926840267116979e-05, 'epoch': 1.46} {'loss': 0.1418, 'learning_rate': 4.9266003991403134e-05, 'epoch': 1.47} {'loss': 0.1363, 'learning_rate': 4.926360531163648e-05, 'epoch': 1.47} {'loss': 0.1407, 'learning_rate': 4.926120663186982e-05, 'epoch': 1.48} {'loss': 0.1446, 'learning_rate': 4.9258807952103165e-05, 'epoch': 1.48} {'loss': 0.1403, 'learning_rate': 4.9256409272336505e-05, 'epoch': 1.49} {'loss': 0.1395, 'learning_rate': 4.925401059256985e-05, 'epoch': 1.49} {'loss': 0.1389, 'learning_rate': 4.92516119128032e-05, 'epoch': 1.5} {'loss': 0.1422, 'learning_rate': 4.924921323303654e-05, 'epoch': 1.5} {'loss': 0.1383, 'learning_rate': 4.924681455326988e-05, 'epoch': 1.51} {'loss': 0.1334, 'learning_rate': 4.924441587350322e-05, 'epoch': 1.51} {'loss': 0.1386, 'learning_rate': 4.924201719373657e-05, 'epoch': 1.52} {'loss': 0.14, 'learning_rate': 4.9239618513969914e-05, 'epoch': 1.52} {'loss': 0.137, 'learning_rate': 4.923721983420326e-05, 'epoch': 1.53} {'loss': 0.1372, 'learning_rate': 4.92348211544366e-05, 'epoch': 1.53} {'loss': 0.1405, 'learning_rate': 4.9232422474669945e-05, 'epoch': 1.54} {'loss': 0.1414, 'learning_rate': 4.9230023794903285e-05, 'epoch': 1.54} {'loss': 0.1386, 'learning_rate': 4.922762511513663e-05, 'epoch': 1.54} {'loss': 0.1403, 'learning_rate': 4.922522643536998e-05, 'epoch': 1.55} {'loss': 0.1361, 'learning_rate': 4.9222827755603316e-05, 'epoch': 1.55} {'loss': 0.141, 'learning_rate': 4.922042907583666e-05, 'epoch': 1.56} {'loss': 0.1394, 'learning_rate': 4.921803039607e-05, 'epoch': 1.56} {'loss': 0.139, 'learning_rate': 4.921563171630335e-05, 'epoch': 1.57} {'loss': 0.1388, 'learning_rate': 4.9213233036536694e-05, 'epoch': 1.57} {'loss': 0.1368, 'learning_rate': 4.921083435677003e-05, 'epoch': 1.58} {'loss': 0.1415, 'learning_rate': 4.920843567700338e-05, 'epoch': 1.58} {'loss': 0.1407, 'learning_rate': 4.920603699723672e-05, 'epoch': 1.59} {'loss': 0.1363, 'learning_rate': 4.920363831747007e-05, 'epoch': 1.59} {'loss': 0.1349, 'learning_rate': 4.920123963770341e-05, 'epoch': 1.6} {'loss': 0.1373, 'learning_rate': 4.919884095793676e-05, 'epoch': 1.6} {'loss': 0.137, 'learning_rate': 4.9196442278170096e-05, 'epoch': 1.61} {'loss': 0.1363, 'learning_rate': 4.919404359840344e-05, 'epoch': 1.61} {'loss': 0.1378, 'learning_rate': 4.919164491863679e-05, 'epoch': 1.62} {'loss': 0.1344, 'learning_rate': 4.918924623887013e-05, 'epoch': 1.62} {'loss': 0.1391, 'learning_rate': 4.9186847559103474e-05, 'epoch': 1.63} {'loss': 0.1387, 'learning_rate': 4.918444887933681e-05, 'epoch': 1.63} {'loss': 0.1367, 'learning_rate': 4.918205019957016e-05, 'epoch': 1.64} {'loss': 0.1356, 'learning_rate': 4.9179651519803505e-05, 'epoch': 1.64} {'loss': 0.139, 'learning_rate': 4.9177252840036844e-05, 'epoch': 1.65} {'loss': 0.1387, 'learning_rate': 4.917485416027019e-05, 'epoch': 1.65} {'loss': 0.138, 'learning_rate': 4.917245548050353e-05, 'epoch': 1.66} {'loss': 0.1381, 'learning_rate': 4.9170056800736876e-05, 'epoch': 1.66} {'loss': 0.1359, 'learning_rate': 4.916765812097022e-05, 'epoch': 1.66} {'loss': 0.1348, 'learning_rate': 4.916525944120357e-05, 'epoch': 1.67} {'loss': 0.14, 'learning_rate': 4.916286076143691e-05, 'epoch': 1.67} {'loss': 0.1334, 'learning_rate': 4.916046208167025e-05, 'epoch': 1.68} {'loss': 0.1376, 'learning_rate': 4.915806340190359e-05, 'epoch': 1.68} {'loss': 0.1351, 'learning_rate': 4.915566472213694e-05, 'epoch': 1.69} {'loss': 0.1338, 'learning_rate': 4.9153266042370285e-05, 'epoch': 1.69} {'loss': 0.1325, 'learning_rate': 4.9150867362603624e-05, 'epoch': 1.7} {'loss': 0.133, 'learning_rate': 4.914846868283697e-05, 'epoch': 1.7} {'loss': 0.1333, 'learning_rate': 4.914607000307031e-05, 'epoch': 1.71} {'loss': 0.1341, 'learning_rate': 4.9143671323303656e-05, 'epoch': 1.71} {'loss': 0.1341, 'learning_rate': 4.9141272643537e-05, 'epoch': 1.72} {'loss': 0.1341, 'learning_rate': 4.913887396377034e-05, 'epoch': 1.72} {'loss': 0.1333, 'learning_rate': 4.913647528400369e-05, 'epoch': 1.73} {'loss': 0.1304, 'learning_rate': 4.9134076604237027e-05, 'epoch': 1.73} {'loss': 0.1326, 'learning_rate': 4.913167792447038e-05, 'epoch': 1.74} {'loss': 0.1361, 'learning_rate': 4.912927924470372e-05, 'epoch': 1.74} {'loss': 0.1371, 'learning_rate': 4.912688056493706e-05, 'epoch': 1.75} {'loss': 0.1308, 'learning_rate': 4.9124481885170404e-05, 'epoch': 1.75} {'loss': 0.1348, 'learning_rate': 4.9122083205403743e-05, 'epoch': 1.76} {'loss': 0.1353, 'learning_rate': 4.9119684525637096e-05, 'epoch': 1.76} {'loss': 0.1333, 'learning_rate': 4.9117285845870436e-05, 'epoch': 1.77} {'loss': 0.1361, 'learning_rate': 4.911488716610378e-05, 'epoch': 1.77} {'loss': 0.1372, 'learning_rate': 4.911248848633712e-05, 'epoch': 1.78} {'loss': 0.1323, 'learning_rate': 4.911008980657047e-05, 'epoch': 1.78} {'loss': 0.1312, 'learning_rate': 4.910769112680381e-05, 'epoch': 1.78} {'loss': 0.1335, 'learning_rate': 4.910529244703715e-05, 'epoch': 1.79} {'loss': 0.1374, 'learning_rate': 4.91028937672705e-05, 'epoch': 1.79} {'loss': 0.1319, 'learning_rate': 4.910049508750384e-05, 'epoch': 1.8} {'loss': 0.1325, 'learning_rate': 4.9098096407737184e-05, 'epoch': 1.8} {'loss': 0.1319, 'learning_rate': 4.909569772797053e-05, 'epoch': 1.81} {'loss': 0.1301, 'learning_rate': 4.909329904820387e-05, 'epoch': 1.81} {'loss': 0.1396, 'learning_rate': 4.9090900368437216e-05, 'epoch': 1.82} {'loss': 0.1351, 'learning_rate': 4.9088501688670555e-05, 'epoch': 1.82} {'loss': 0.1317, 'learning_rate': 4.90861030089039e-05, 'epoch': 1.83} {'loss': 0.1287, 'learning_rate': 4.908370432913725e-05, 'epoch': 1.83} {'loss': 0.1287, 'learning_rate': 4.908130564937059e-05, 'epoch': 1.84} {'loss': 0.1341, 'learning_rate': 4.907890696960393e-05, 'epoch': 1.84} {'loss': 0.1324, 'learning_rate': 4.907650828983728e-05, 'epoch': 1.85} {'loss': 0.1311, 'learning_rate': 4.907410961007062e-05, 'epoch': 1.85} {'loss': 0.1327, 'learning_rate': 4.9071710930303964e-05, 'epoch': 1.86} {'loss': 0.1339, 'learning_rate': 4.906931225053731e-05, 'epoch': 1.86} {'loss': 0.1338, 'learning_rate': 4.906691357077065e-05, 'epoch': 1.87} {'loss': 0.1335, 'learning_rate': 4.9064514891003995e-05, 'epoch': 1.87} {'loss': 0.131, 'learning_rate': 4.9062116211237335e-05, 'epoch': 1.88} {'loss': 0.1303, 'learning_rate': 4.905971753147068e-05, 'epoch': 1.88} {'loss': 0.1299, 'learning_rate': 4.905731885170403e-05, 'epoch': 1.89} {'loss': 0.1302, 'learning_rate': 4.9054920171937366e-05, 'epoch': 1.89} {'loss': 0.1285, 'learning_rate': 4.905252149217071e-05, 'epoch': 1.89} {'loss': 0.127, 'learning_rate': 4.905012281240405e-05, 'epoch': 1.9} {'loss': 0.1308, 'learning_rate': 4.90477241326374e-05, 'epoch': 1.9} {'loss': 0.1311, 'learning_rate': 4.9045325452870744e-05, 'epoch': 1.91} {'loss': 0.1303, 'learning_rate': 4.904292677310408e-05, 'epoch': 1.91} {'loss': 0.1335, 'learning_rate': 4.904052809333743e-05, 'epoch': 1.92} {'loss': 0.1324, 'learning_rate': 4.903812941357077e-05, 'epoch': 1.92} {'loss': 0.132, 'learning_rate': 4.9035730733804115e-05, 'epoch': 1.93} {'loss': 0.1302, 'learning_rate': 4.903333205403746e-05, 'epoch': 1.93} {'loss': 0.1294, 'learning_rate': 4.903093337427081e-05, 'epoch': 1.94} {'loss': 0.1273, 'learning_rate': 4.9028534694504146e-05, 'epoch': 1.94} {'loss': 0.128, 'learning_rate': 4.902613601473749e-05, 'epoch': 1.95} {'loss': 0.1296, 'learning_rate': 4.902373733497083e-05, 'epoch': 1.95} {'loss': 0.1289, 'learning_rate': 4.902133865520418e-05, 'epoch': 1.96} {'loss': 0.1344, 'learning_rate': 4.9018939975437524e-05, 'epoch': 1.96} {'loss': 0.1329, 'learning_rate': 4.901654129567086e-05, 'epoch': 1.97} {'loss': 0.1274, 'learning_rate': 4.901414261590421e-05, 'epoch': 1.97} {'loss': 0.1301, 'learning_rate': 4.901174393613755e-05, 'epoch': 1.98} {'loss': 0.1336, 'learning_rate': 4.9009345256370895e-05, 'epoch': 1.98} {'loss': 0.1287, 'learning_rate': 4.900694657660424e-05, 'epoch': 1.99} {'loss': 0.1252, 'learning_rate': 4.900454789683758e-05, 'epoch': 1.99} {'loss': 0.1275, 'learning_rate': 4.9002149217070926e-05, 'epoch': 2.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.11713868379592896, 'eval_runtime': 2687.1215, 'eval_samples_per_second': 155.146, 'eval_steps_per_second': 19.393, 'epoch': 2.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-208448 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-208448/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-208448/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-104224] due to args.save_total_limit {'loss': 0.1299, 'learning_rate': 4.8999750537304265e-05, 'epoch': 2.0} {'loss': 0.1295, 'learning_rate': 4.899735185753762e-05, 'epoch': 2.01} {'loss': 0.1284, 'learning_rate': 4.899495317777096e-05, 'epoch': 2.01} {'loss': 0.1277, 'learning_rate': 4.8992554498004304e-05, 'epoch': 2.01} {'loss': 0.1279, 'learning_rate': 4.899015581823764e-05, 'epoch': 2.02} {'loss': 0.1304, 'learning_rate': 4.898775713847098e-05, 'epoch': 2.02} {'loss': 0.128, 'learning_rate': 4.8985358458704335e-05, 'epoch': 2.03} {'loss': 0.123, 'learning_rate': 4.8982959778937674e-05, 'epoch': 2.03} {'loss': 0.1302, 'learning_rate': 4.898056109917102e-05, 'epoch': 2.04} {'loss': 0.1262, 'learning_rate': 4.897816241940436e-05, 'epoch': 2.04} {'loss': 0.1288, 'learning_rate': 4.8975763739637706e-05, 'epoch': 2.05} {'loss': 0.1286, 'learning_rate': 4.897336505987105e-05, 'epoch': 2.05} {'loss': 0.1291, 'learning_rate': 4.897096638010439e-05, 'epoch': 2.06} {'loss': 0.1272, 'learning_rate': 4.896856770033774e-05, 'epoch': 2.06} {'loss': 0.1276, 'learning_rate': 4.896616902057108e-05, 'epoch': 2.07} {'loss': 0.1256, 'learning_rate': 4.896377034080442e-05, 'epoch': 2.07} {'loss': 0.1276, 'learning_rate': 4.896137166103777e-05, 'epoch': 2.08} {'loss': 0.1287, 'learning_rate': 4.8958972981271115e-05, 'epoch': 2.08} {'loss': 0.1292, 'learning_rate': 4.8956574301504454e-05, 'epoch': 2.09} {'loss': 0.127, 'learning_rate': 4.8954175621737794e-05, 'epoch': 2.09} {'loss': 0.1242, 'learning_rate': 4.895177694197114e-05, 'epoch': 2.1} {'loss': 0.1279, 'learning_rate': 4.8949378262204486e-05, 'epoch': 2.1} {'loss': 0.126, 'learning_rate': 4.894697958243783e-05, 'epoch': 2.11} {'loss': 0.1243, 'learning_rate': 4.894458090267117e-05, 'epoch': 2.11} {'loss': 0.1273, 'learning_rate': 4.894218222290452e-05, 'epoch': 2.12} {'loss': 0.1279, 'learning_rate': 4.893978354313786e-05, 'epoch': 2.12} {'loss': 0.1272, 'learning_rate': 4.89373848633712e-05, 'epoch': 2.13} {'loss': 0.1284, 'learning_rate': 4.893498618360455e-05, 'epoch': 2.13} {'loss': 0.1268, 'learning_rate': 4.893258750383789e-05, 'epoch': 2.13} {'loss': 0.1282, 'learning_rate': 4.8930188824071234e-05, 'epoch': 2.14} {'loss': 0.1246, 'learning_rate': 4.8927790144304574e-05, 'epoch': 2.14} {'loss': 0.1252, 'learning_rate': 4.892539146453792e-05, 'epoch': 2.15} {'loss': 0.1282, 'learning_rate': 4.8922992784771266e-05, 'epoch': 2.15} {'loss': 0.1285, 'learning_rate': 4.8920594105004605e-05, 'epoch': 2.16} {'loss': 0.1272, 'learning_rate': 4.891819542523795e-05, 'epoch': 2.16} {'loss': 0.1283, 'learning_rate': 4.891579674547129e-05, 'epoch': 2.17} {'loss': 0.1213, 'learning_rate': 4.891339806570464e-05, 'epoch': 2.17} {'loss': 0.122, 'learning_rate': 4.891099938593798e-05, 'epoch': 2.18} {'loss': 0.1265, 'learning_rate': 4.890860070617133e-05, 'epoch': 2.18} {'loss': 0.1241, 'learning_rate': 4.890620202640467e-05, 'epoch': 2.19} {'loss': 0.1307, 'learning_rate': 4.890380334663801e-05, 'epoch': 2.19} {'loss': 0.1252, 'learning_rate': 4.890140466687136e-05, 'epoch': 2.2} {'loss': 0.1199, 'learning_rate': 4.88990059871047e-05, 'epoch': 2.2} {'loss': 0.1214, 'learning_rate': 4.8896607307338046e-05, 'epoch': 2.21} {'loss': 0.1251, 'learning_rate': 4.8894208627571385e-05, 'epoch': 2.21} {'loss': 0.1239, 'learning_rate': 4.889180994780473e-05, 'epoch': 2.22} {'loss': 0.1269, 'learning_rate': 4.888941126803808e-05, 'epoch': 2.22} {'loss': 0.1226, 'learning_rate': 4.8887012588271416e-05, 'epoch': 2.23} {'loss': 0.128, 'learning_rate': 4.888461390850476e-05, 'epoch': 2.23} {'loss': 0.126, 'learning_rate': 4.88822152287381e-05, 'epoch': 2.24} {'loss': 0.1241, 'learning_rate': 4.887981654897145e-05, 'epoch': 2.24} {'loss': 0.1267, 'learning_rate': 4.8877417869204794e-05, 'epoch': 2.25} {'loss': 0.1261, 'learning_rate': 4.887501918943814e-05, 'epoch': 2.25} {'loss': 0.1255, 'learning_rate': 4.887262050967148e-05, 'epoch': 2.25} {'loss': 0.1255, 'learning_rate': 4.887022182990482e-05, 'epoch': 2.26} {'loss': 0.1255, 'learning_rate': 4.8867823150138165e-05, 'epoch': 2.26} {'loss': 0.1242, 'learning_rate': 4.886542447037151e-05, 'epoch': 2.27} {'loss': 0.1237, 'learning_rate': 4.886302579060486e-05, 'epoch': 2.27} {'loss': 0.1221, 'learning_rate': 4.8860627110838196e-05, 'epoch': 2.28} {'loss': 0.125, 'learning_rate': 4.885822843107154e-05, 'epoch': 2.28} {'loss': 0.1251, 'learning_rate': 4.885582975130488e-05, 'epoch': 2.29} {'loss': 0.1231, 'learning_rate': 4.885343107153823e-05, 'epoch': 2.29} {'loss': 0.1264, 'learning_rate': 4.8851032391771574e-05, 'epoch': 2.3} {'loss': 0.1241, 'learning_rate': 4.884863371200491e-05, 'epoch': 2.3} {'loss': 0.1224, 'learning_rate': 4.884623503223826e-05, 'epoch': 2.31} {'loss': 0.1213, 'learning_rate': 4.88438363524716e-05, 'epoch': 2.31} {'loss': 0.1209, 'learning_rate': 4.884143767270495e-05, 'epoch': 2.32} {'loss': 0.1271, 'learning_rate': 4.883903899293829e-05, 'epoch': 2.32} {'loss': 0.1232, 'learning_rate': 4.883664031317163e-05, 'epoch': 2.33} {'loss': 0.1256, 'learning_rate': 4.8834241633404976e-05, 'epoch': 2.33} {'loss': 0.1206, 'learning_rate': 4.8831842953638316e-05, 'epoch': 2.34} {'loss': 0.1276, 'learning_rate': 4.882944427387166e-05, 'epoch': 2.34} {'loss': 0.1231, 'learning_rate': 4.882704559410501e-05, 'epoch': 2.35} {'loss': 0.1213, 'learning_rate': 4.8824646914338354e-05, 'epoch': 2.35} {'loss': 0.1234, 'learning_rate': 4.882224823457169e-05, 'epoch': 2.36} {'loss': 0.1219, 'learning_rate': 4.881984955480504e-05, 'epoch': 2.36} {'loss': 0.1225, 'learning_rate': 4.881745087503838e-05, 'epoch': 2.37} {'loss': 0.1233, 'learning_rate': 4.8815052195271725e-05, 'epoch': 2.37} {'loss': 0.1225, 'learning_rate': 4.881265351550507e-05, 'epoch': 2.37} {'loss': 0.1255, 'learning_rate': 4.881025483573841e-05, 'epoch': 2.38} {'loss': 0.1203, 'learning_rate': 4.8807856155971756e-05, 'epoch': 2.38} {'loss': 0.122, 'learning_rate': 4.8805457476205095e-05, 'epoch': 2.39} {'loss': 0.1206, 'learning_rate': 4.880305879643844e-05, 'epoch': 2.39} {'loss': 0.1228, 'learning_rate': 4.880066011667179e-05, 'epoch': 2.4} {'loss': 0.121, 'learning_rate': 4.879826143690513e-05, 'epoch': 2.4} {'loss': 0.1244, 'learning_rate': 4.879586275713847e-05, 'epoch': 2.41} {'loss': 0.121, 'learning_rate': 4.879346407737181e-05, 'epoch': 2.41} {'loss': 0.1234, 'learning_rate': 4.8791065397605165e-05, 'epoch': 2.42} {'loss': 0.1227, 'learning_rate': 4.8788666717838505e-05, 'epoch': 2.42} {'loss': 0.1213, 'learning_rate': 4.878626803807185e-05, 'epoch': 2.43} {'loss': 0.1214, 'learning_rate': 4.878386935830519e-05, 'epoch': 2.43} {'loss': 0.1219, 'learning_rate': 4.878147067853853e-05, 'epoch': 2.44} {'loss': 0.1214, 'learning_rate': 4.877907199877188e-05, 'epoch': 2.44} {'loss': 0.1178, 'learning_rate': 4.877667331900522e-05, 'epoch': 2.45} {'loss': 0.1196, 'learning_rate': 4.877427463923857e-05, 'epoch': 2.45} {'loss': 0.1247, 'learning_rate': 4.877187595947191e-05, 'epoch': 2.46} {'loss': 0.124, 'learning_rate': 4.876947727970525e-05, 'epoch': 2.46} {'loss': 0.1237, 'learning_rate': 4.87670785999386e-05, 'epoch': 2.47} {'loss': 0.1218, 'learning_rate': 4.876467992017194e-05, 'epoch': 2.47} {'loss': 0.1196, 'learning_rate': 4.8762281240405284e-05, 'epoch': 2.48} {'loss': 0.121, 'learning_rate': 4.8759882560638624e-05, 'epoch': 2.48} {'loss': 0.1216, 'learning_rate': 4.875748388087197e-05, 'epoch': 2.49} {'loss': 0.1221, 'learning_rate': 4.8755085201105316e-05, 'epoch': 2.49} {'loss': 0.1216, 'learning_rate': 4.8752686521338655e-05, 'epoch': 2.49} {'loss': 0.1216, 'learning_rate': 4.8750287841572e-05, 'epoch': 2.5} {'loss': 0.1229, 'learning_rate': 4.874788916180534e-05, 'epoch': 2.5} {'loss': 0.1187, 'learning_rate': 4.874549048203869e-05, 'epoch': 2.51} {'loss': 0.1243, 'learning_rate': 4.874309180227203e-05, 'epoch': 2.51} {'loss': 0.1173, 'learning_rate': 4.874069312250538e-05, 'epoch': 2.52} {'loss': 0.1217, 'learning_rate': 4.873829444273872e-05, 'epoch': 2.52} {'loss': 0.1193, 'learning_rate': 4.8735895762972064e-05, 'epoch': 2.53} {'loss': 0.1222, 'learning_rate': 4.8733497083205404e-05, 'epoch': 2.53} {'loss': 0.1197, 'learning_rate': 4.873109840343875e-05, 'epoch': 2.54} {'loss': 0.1169, 'learning_rate': 4.8728699723672096e-05, 'epoch': 2.54} {'loss': 0.1223, 'learning_rate': 4.8726301043905435e-05, 'epoch': 2.55} {'loss': 0.1185, 'learning_rate': 4.872390236413878e-05, 'epoch': 2.55} {'loss': 0.1187, 'learning_rate': 4.872150368437212e-05, 'epoch': 2.56} {'loss': 0.1212, 'learning_rate': 4.871910500460547e-05, 'epoch': 2.56} {'loss': 0.1195, 'learning_rate': 4.871670632483881e-05, 'epoch': 2.57} {'loss': 0.1197, 'learning_rate': 4.871430764507215e-05, 'epoch': 2.57} {'loss': 0.121, 'learning_rate': 4.87119089653055e-05, 'epoch': 2.58} {'loss': 0.1186, 'learning_rate': 4.870951028553884e-05, 'epoch': 2.58} {'loss': 0.1189, 'learning_rate': 4.870711160577219e-05, 'epoch': 2.59} {'loss': 0.1211, 'learning_rate': 4.870471292600553e-05, 'epoch': 2.59} {'loss': 0.118, 'learning_rate': 4.8702314246238876e-05, 'epoch': 2.6} {'loss': 0.1201, 'learning_rate': 4.8699915566472215e-05, 'epoch': 2.6} {'loss': 0.119, 'learning_rate': 4.8697516886705554e-05, 'epoch': 2.6} {'loss': 0.1199, 'learning_rate': 4.869511820693891e-05, 'epoch': 2.61} {'loss': 0.1218, 'learning_rate': 4.8692719527172247e-05, 'epoch': 2.61} {'loss': 0.1224, 'learning_rate': 4.869032084740559e-05, 'epoch': 2.62} {'loss': 0.1179, 'learning_rate': 4.868792216763893e-05, 'epoch': 2.62} {'loss': 0.1184, 'learning_rate': 4.868552348787228e-05, 'epoch': 2.63} {'loss': 0.12, 'learning_rate': 4.8683124808105624e-05, 'epoch': 2.63} {'loss': 0.1193, 'learning_rate': 4.8680726128338963e-05, 'epoch': 2.64} {'loss': 0.1181, 'learning_rate': 4.867832744857231e-05, 'epoch': 2.64} {'loss': 0.1176, 'learning_rate': 4.867592876880565e-05, 'epoch': 2.65} {'loss': 0.1175, 'learning_rate': 4.8673530089038995e-05, 'epoch': 2.65} {'loss': 0.1224, 'learning_rate': 4.867113140927234e-05, 'epoch': 2.66} {'loss': 0.1233, 'learning_rate': 4.866873272950569e-05, 'epoch': 2.66} {'loss': 0.1196, 'learning_rate': 4.8666334049739026e-05, 'epoch': 2.67} {'loss': 0.1222, 'learning_rate': 4.8663935369972366e-05, 'epoch': 2.67} {'loss': 0.1187, 'learning_rate': 4.866153669020571e-05, 'epoch': 2.68} {'loss': 0.1246, 'learning_rate': 4.865913801043906e-05, 'epoch': 2.68} {'loss': 0.12, 'learning_rate': 4.8656739330672404e-05, 'epoch': 2.69} {'loss': 0.1199, 'learning_rate': 4.8654340650905743e-05, 'epoch': 2.69} {'loss': 0.1183, 'learning_rate': 4.865194197113909e-05, 'epoch': 2.7} {'loss': 0.1191, 'learning_rate': 4.864954329137243e-05, 'epoch': 2.7} {'loss': 0.1171, 'learning_rate': 4.8647144611605775e-05, 'epoch': 2.71} {'loss': 0.1176, 'learning_rate': 4.864474593183912e-05, 'epoch': 2.71} {'loss': 0.1163, 'learning_rate': 4.864234725207246e-05, 'epoch': 2.72} {'loss': 0.1184, 'learning_rate': 4.8639948572305806e-05, 'epoch': 2.72} {'loss': 0.1178, 'learning_rate': 4.8637549892539146e-05, 'epoch': 2.72} {'loss': 0.1187, 'learning_rate': 4.863515121277249e-05, 'epoch': 2.73} {'loss': 0.1222, 'learning_rate': 4.863275253300584e-05, 'epoch': 2.73} {'loss': 0.1193, 'learning_rate': 4.863035385323918e-05, 'epoch': 2.74} {'loss': 0.1166, 'learning_rate': 4.862795517347252e-05, 'epoch': 2.74} {'loss': 0.1161, 'learning_rate': 4.862555649370586e-05, 'epoch': 2.75} {'loss': 0.1187, 'learning_rate': 4.862315781393921e-05, 'epoch': 2.75} {'loss': 0.115, 'learning_rate': 4.8620759134172555e-05, 'epoch': 2.76} {'loss': 0.1194, 'learning_rate': 4.86183604544059e-05, 'epoch': 2.76} {'loss': 0.1181, 'learning_rate': 4.861596177463924e-05, 'epoch': 2.77} {'loss': 0.1192, 'learning_rate': 4.861356309487258e-05, 'epoch': 2.77} {'loss': 0.1181, 'learning_rate': 4.8611164415105926e-05, 'epoch': 2.78} {'loss': 0.1186, 'learning_rate': 4.860876573533927e-05, 'epoch': 2.78} {'loss': 0.1189, 'learning_rate': 4.860636705557262e-05, 'epoch': 2.79} {'loss': 0.1156, 'learning_rate': 4.860396837580596e-05, 'epoch': 2.79} {'loss': 0.1176, 'learning_rate': 4.86015696960393e-05, 'epoch': 2.8} {'loss': 0.115, 'learning_rate': 4.859917101627264e-05, 'epoch': 2.8} {'loss': 0.1206, 'learning_rate': 4.859677233650599e-05, 'epoch': 2.81} {'loss': 0.116, 'learning_rate': 4.8594373656739335e-05, 'epoch': 2.81} {'loss': 0.118, 'learning_rate': 4.8591974976972674e-05, 'epoch': 2.82} {'loss': 0.1179, 'learning_rate': 4.858957629720602e-05, 'epoch': 2.82} {'loss': 0.1174, 'learning_rate': 4.858717761743936e-05, 'epoch': 2.83} {'loss': 0.1144, 'learning_rate': 4.858477893767271e-05, 'epoch': 2.83} {'loss': 0.1155, 'learning_rate': 4.858238025790605e-05, 'epoch': 2.84} {'loss': 0.1173, 'learning_rate': 4.857998157813939e-05, 'epoch': 2.84} {'loss': 0.1148, 'learning_rate': 4.857758289837274e-05, 'epoch': 2.84} {'loss': 0.1121, 'learning_rate': 4.8575184218606076e-05, 'epoch': 2.85} {'loss': 0.1138, 'learning_rate': 4.857278553883943e-05, 'epoch': 2.85} {'loss': 0.1201, 'learning_rate': 4.857038685907277e-05, 'epoch': 2.86} {'loss': 0.1168, 'learning_rate': 4.8567988179306115e-05, 'epoch': 2.86} {'loss': 0.1196, 'learning_rate': 4.8565589499539454e-05, 'epoch': 2.87} {'loss': 0.1161, 'learning_rate': 4.85631908197728e-05, 'epoch': 2.87} {'loss': 0.1164, 'learning_rate': 4.8560792140006146e-05, 'epoch': 2.88} {'loss': 0.1144, 'learning_rate': 4.8558393460239485e-05, 'epoch': 2.88} {'loss': 0.1155, 'learning_rate': 4.855599478047283e-05, 'epoch': 2.89} {'loss': 0.1167, 'learning_rate': 4.855359610070617e-05, 'epoch': 2.89} {'loss': 0.1168, 'learning_rate': 4.855119742093952e-05, 'epoch': 2.9} {'loss': 0.1138, 'learning_rate': 4.854879874117286e-05, 'epoch': 2.9} {'loss': 0.1161, 'learning_rate': 4.85464000614062e-05, 'epoch': 2.91} {'loss': 0.1167, 'learning_rate': 4.854400138163955e-05, 'epoch': 2.91} {'loss': 0.1138, 'learning_rate': 4.854160270187289e-05, 'epoch': 2.92} {'loss': 0.1157, 'learning_rate': 4.8539204022106234e-05, 'epoch': 2.92} {'loss': 0.1142, 'learning_rate': 4.853680534233958e-05, 'epoch': 2.93} {'loss': 0.1131, 'learning_rate': 4.8534406662572926e-05, 'epoch': 2.93} {'loss': 0.1193, 'learning_rate': 4.8532007982806265e-05, 'epoch': 2.94} {'loss': 0.1137, 'learning_rate': 4.852960930303961e-05, 'epoch': 2.94} {'loss': 0.1184, 'learning_rate': 4.852721062327295e-05, 'epoch': 2.95} {'loss': 0.121, 'learning_rate': 4.85248119435063e-05, 'epoch': 2.95} {'loss': 0.1124, 'learning_rate': 4.852241326373964e-05, 'epoch': 2.96} {'loss': 0.1162, 'learning_rate': 4.852001458397298e-05, 'epoch': 2.96} {'loss': 0.1177, 'learning_rate': 4.851761590420633e-05, 'epoch': 2.96} {'loss': 0.1175, 'learning_rate': 4.851521722443967e-05, 'epoch': 2.97} {'loss': 0.1142, 'learning_rate': 4.8512818544673014e-05, 'epoch': 2.97} {'loss': 0.1178, 'learning_rate': 4.851041986490636e-05, 'epoch': 2.98} {'loss': 0.1151, 'learning_rate': 4.85080211851397e-05, 'epoch': 2.98} {'loss': 0.1122, 'learning_rate': 4.8505622505373045e-05, 'epoch': 2.99} {'loss': 0.116, 'learning_rate': 4.8503223825606385e-05, 'epoch': 2.99} {'loss': 0.1164, 'learning_rate': 4.850082514583974e-05, 'epoch': 3.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.10483703017234802, 'eval_runtime': 2782.9241, 'eval_samples_per_second': 149.805, 'eval_steps_per_second': 18.726, 'epoch': 3.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-312672 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-312672/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-312672/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-208448] due to args.save_total_limit {'loss': 0.1218, 'learning_rate': 4.849842646607308e-05, 'epoch': 3.0} {'loss': 0.1147, 'learning_rate': 4.849602778630642e-05, 'epoch': 3.01} {'loss': 0.1128, 'learning_rate': 4.849362910653976e-05, 'epoch': 3.01} {'loss': 0.1159, 'learning_rate': 4.84912304267731e-05, 'epoch': 3.02} {'loss': 0.1156, 'learning_rate': 4.8488831747006454e-05, 'epoch': 3.02} {'loss': 0.1164, 'learning_rate': 4.8486433067239794e-05, 'epoch': 3.03} {'loss': 0.1126, 'learning_rate': 4.848403438747314e-05, 'epoch': 3.03} {'loss': 0.1167, 'learning_rate': 4.848163570770648e-05, 'epoch': 3.04} {'loss': 0.1159, 'learning_rate': 4.8479237027939825e-05, 'epoch': 3.04} {'loss': 0.1162, 'learning_rate': 4.847683834817317e-05, 'epoch': 3.05} {'loss': 0.1141, 'learning_rate': 4.847443966840651e-05, 'epoch': 3.05} {'loss': 0.1127, 'learning_rate': 4.8472040988639857e-05, 'epoch': 3.06} {'loss': 0.1131, 'learning_rate': 4.8469642308873196e-05, 'epoch': 3.06} {'loss': 0.1165, 'learning_rate': 4.846724362910654e-05, 'epoch': 3.07} {'loss': 0.1144, 'learning_rate': 4.846484494933989e-05, 'epoch': 3.07} {'loss': 0.1136, 'learning_rate': 4.846244626957323e-05, 'epoch': 3.08} {'loss': 0.1148, 'learning_rate': 4.8460047589806573e-05, 'epoch': 3.08} {'loss': 0.1161, 'learning_rate': 4.845764891003991e-05, 'epoch': 3.08} {'loss': 0.1141, 'learning_rate': 4.845525023027326e-05, 'epoch': 3.09} {'loss': 0.1146, 'learning_rate': 4.8452851550506605e-05, 'epoch': 3.09} {'loss': 0.1154, 'learning_rate': 4.845045287073995e-05, 'epoch': 3.1} {'loss': 0.1121, 'learning_rate': 4.844805419097329e-05, 'epoch': 3.1} {'loss': 0.1122, 'learning_rate': 4.8445655511206636e-05, 'epoch': 3.11} {'loss': 0.1159, 'learning_rate': 4.8443256831439976e-05, 'epoch': 3.11} {'loss': 0.1116, 'learning_rate': 4.844085815167332e-05, 'epoch': 3.12} {'loss': 0.1131, 'learning_rate': 4.843845947190667e-05, 'epoch': 3.12} {'loss': 0.1142, 'learning_rate': 4.843606079214001e-05, 'epoch': 3.13} {'loss': 0.1149, 'learning_rate': 4.8433662112373353e-05, 'epoch': 3.13} {'loss': 0.1146, 'learning_rate': 4.843126343260669e-05, 'epoch': 3.14} {'loss': 0.113, 'learning_rate': 4.842886475284004e-05, 'epoch': 3.14} {'loss': 0.1154, 'learning_rate': 4.8426466073073385e-05, 'epoch': 3.15} {'loss': 0.1123, 'learning_rate': 4.8424067393306724e-05, 'epoch': 3.15} {'loss': 0.1109, 'learning_rate': 4.842166871354007e-05, 'epoch': 3.16} {'loss': 0.1175, 'learning_rate': 4.841927003377341e-05, 'epoch': 3.16} {'loss': 0.1116, 'learning_rate': 4.841687135400676e-05, 'epoch': 3.17} {'loss': 0.112, 'learning_rate': 4.84144726742401e-05, 'epoch': 3.17} {'loss': 0.1185, 'learning_rate': 4.841207399447345e-05, 'epoch': 3.18} {'loss': 0.1152, 'learning_rate': 4.840967531470679e-05, 'epoch': 3.18} {'loss': 0.1098, 'learning_rate': 4.8407276634940127e-05, 'epoch': 3.19} {'loss': 0.1109, 'learning_rate': 4.840487795517347e-05, 'epoch': 3.19} {'loss': 0.1118, 'learning_rate': 4.840247927540682e-05, 'epoch': 3.2} {'loss': 0.112, 'learning_rate': 4.8400080595640165e-05, 'epoch': 3.2} {'loss': 0.1108, 'learning_rate': 4.8397681915873504e-05, 'epoch': 3.2} {'loss': 0.1119, 'learning_rate': 4.839528323610685e-05, 'epoch': 3.21} {'loss': 0.1095, 'learning_rate': 4.839288455634019e-05, 'epoch': 3.21} {'loss': 0.1111, 'learning_rate': 4.8390485876573536e-05, 'epoch': 3.22} {'loss': 0.1155, 'learning_rate': 4.838808719680688e-05, 'epoch': 3.22} {'loss': 0.1118, 'learning_rate': 4.838568851704022e-05, 'epoch': 3.23} {'loss': 0.1151, 'learning_rate': 4.838328983727357e-05, 'epoch': 3.23} {'loss': 0.1133, 'learning_rate': 4.8380891157506906e-05, 'epoch': 3.24} {'loss': 0.112, 'learning_rate': 4.837849247774026e-05, 'epoch': 3.24} {'loss': 0.114, 'learning_rate': 4.83760937979736e-05, 'epoch': 3.25} {'loss': 0.1107, 'learning_rate': 4.837369511820694e-05, 'epoch': 3.25} {'loss': 0.1126, 'learning_rate': 4.8371296438440284e-05, 'epoch': 3.26} {'loss': 0.1109, 'learning_rate': 4.836889775867362e-05, 'epoch': 3.26} {'loss': 0.1101, 'learning_rate': 4.8366499078906976e-05, 'epoch': 3.27} {'loss': 0.1132, 'learning_rate': 4.8364100399140316e-05, 'epoch': 3.27} {'loss': 0.1127, 'learning_rate': 4.836170171937366e-05, 'epoch': 3.28} {'loss': 0.1087, 'learning_rate': 4.8359303039607e-05, 'epoch': 3.28} {'loss': 0.1122, 'learning_rate': 4.835690435984035e-05, 'epoch': 3.29} {'loss': 0.1103, 'learning_rate': 4.835450568007369e-05, 'epoch': 3.29} {'loss': 0.1117, 'learning_rate': 4.835210700030703e-05, 'epoch': 3.3} {'loss': 0.112, 'learning_rate': 4.834970832054038e-05, 'epoch': 3.3} {'loss': 0.1131, 'learning_rate': 4.834730964077372e-05, 'epoch': 3.31} {'loss': 0.1121, 'learning_rate': 4.8344910961007064e-05, 'epoch': 3.31} {'loss': 0.1133, 'learning_rate': 4.834251228124041e-05, 'epoch': 3.31} {'loss': 0.1103, 'learning_rate': 4.834011360147375e-05, 'epoch': 3.32} {'loss': 0.1121, 'learning_rate': 4.8337714921707095e-05, 'epoch': 3.32} {'loss': 0.1111, 'learning_rate': 4.8335316241940435e-05, 'epoch': 3.33} {'loss': 0.1109, 'learning_rate': 4.833291756217378e-05, 'epoch': 3.33} {'loss': 0.1082, 'learning_rate': 4.833051888240713e-05, 'epoch': 3.34} {'loss': 0.1109, 'learning_rate': 4.832812020264047e-05, 'epoch': 3.34} {'loss': 0.1131, 'learning_rate': 4.832572152287381e-05, 'epoch': 3.35} {'loss': 0.1126, 'learning_rate': 4.832332284310715e-05, 'epoch': 3.35} {'loss': 0.1124, 'learning_rate': 4.83209241633405e-05, 'epoch': 3.36} {'loss': 0.1098, 'learning_rate': 4.8318525483573844e-05, 'epoch': 3.36} {'loss': 0.1093, 'learning_rate': 4.831612680380719e-05, 'epoch': 3.37} {'loss': 0.1131, 'learning_rate': 4.831372812404053e-05, 'epoch': 3.37} {'loss': 0.1142, 'learning_rate': 4.8311329444273875e-05, 'epoch': 3.38} {'loss': 0.1105, 'learning_rate': 4.8308930764507215e-05, 'epoch': 3.38} {'loss': 0.1111, 'learning_rate': 4.830653208474056e-05, 'epoch': 3.39} {'loss': 0.1114, 'learning_rate': 4.830413340497391e-05, 'epoch': 3.39} {'loss': 0.1131, 'learning_rate': 4.8301734725207246e-05, 'epoch': 3.4} {'loss': 0.1104, 'learning_rate': 4.829933604544059e-05, 'epoch': 3.4} {'loss': 0.1101, 'learning_rate': 4.829693736567393e-05, 'epoch': 3.41} {'loss': 0.1132, 'learning_rate': 4.8294538685907284e-05, 'epoch': 3.41} {'loss': 0.1138, 'learning_rate': 4.8292140006140624e-05, 'epoch': 3.42} {'loss': 0.11, 'learning_rate': 4.828974132637396e-05, 'epoch': 3.42} {'loss': 0.1086, 'learning_rate': 4.828734264660731e-05, 'epoch': 3.43} {'loss': 0.1082, 'learning_rate': 4.828494396684065e-05, 'epoch': 3.43} {'loss': 0.1111, 'learning_rate': 4.8282545287074e-05, 'epoch': 3.43} {'loss': 0.1102, 'learning_rate': 4.828014660730734e-05, 'epoch': 3.44} {'loss': 0.1069, 'learning_rate': 4.827774792754069e-05, 'epoch': 3.44} {'loss': 0.1122, 'learning_rate': 4.8275349247774026e-05, 'epoch': 3.45} {'loss': 0.1095, 'learning_rate': 4.827295056800737e-05, 'epoch': 3.45} {'loss': 0.1108, 'learning_rate': 4.827055188824072e-05, 'epoch': 3.46} {'loss': 0.1118, 'learning_rate': 4.826815320847406e-05, 'epoch': 3.46} {'loss': 0.1137, 'learning_rate': 4.8265754528707404e-05, 'epoch': 3.47} {'loss': 0.1106, 'learning_rate': 4.826335584894074e-05, 'epoch': 3.47} {'loss': 0.1122, 'learning_rate': 4.826095716917409e-05, 'epoch': 3.48} {'loss': 0.1105, 'learning_rate': 4.8258558489407435e-05, 'epoch': 3.48} {'loss': 0.1084, 'learning_rate': 4.8256159809640774e-05, 'epoch': 3.49} {'loss': 0.1119, 'learning_rate': 4.825376112987412e-05, 'epoch': 3.49} {'loss': 0.1133, 'learning_rate': 4.825136245010746e-05, 'epoch': 3.5} {'loss': 0.1124, 'learning_rate': 4.8248963770340806e-05, 'epoch': 3.5} {'loss': 0.1079, 'learning_rate': 4.824656509057415e-05, 'epoch': 3.51} {'loss': 0.1114, 'learning_rate': 4.82441664108075e-05, 'epoch': 3.51} {'loss': 0.1095, 'learning_rate': 4.824176773104084e-05, 'epoch': 3.52} {'loss': 0.1106, 'learning_rate': 4.8239369051274184e-05, 'epoch': 3.52} {'loss': 0.1091, 'learning_rate': 4.823697037150752e-05, 'epoch': 3.53} {'loss': 0.1102, 'learning_rate': 4.823457169174087e-05, 'epoch': 3.53} {'loss': 0.1074, 'learning_rate': 4.8232173011974215e-05, 'epoch': 3.54} {'loss': 0.1107, 'learning_rate': 4.8229774332207554e-05, 'epoch': 3.54} {'loss': 0.1092, 'learning_rate': 4.82273756524409e-05, 'epoch': 3.55} {'loss': 0.1075, 'learning_rate': 4.822497697267424e-05, 'epoch': 3.55} {'loss': 0.1085, 'learning_rate': 4.8222578292907586e-05, 'epoch': 3.55} {'loss': 0.1096, 'learning_rate': 4.822017961314093e-05, 'epoch': 3.56} {'loss': 0.1113, 'learning_rate': 4.821778093337427e-05, 'epoch': 3.56} {'loss': 0.1115, 'learning_rate': 4.821538225360762e-05, 'epoch': 3.57} {'loss': 0.1114, 'learning_rate': 4.821298357384096e-05, 'epoch': 3.57} {'loss': 0.1083, 'learning_rate': 4.821058489407431e-05, 'epoch': 3.58} {'loss': 0.1086, 'learning_rate': 4.820818621430765e-05, 'epoch': 3.58} {'loss': 0.1058, 'learning_rate': 4.820578753454099e-05, 'epoch': 3.59} {'loss': 0.1068, 'learning_rate': 4.8203388854774334e-05, 'epoch': 3.59} {'loss': 0.108, 'learning_rate': 4.8200990175007674e-05, 'epoch': 3.6} {'loss': 0.1117, 'learning_rate': 4.819859149524102e-05, 'epoch': 3.6} {'loss': 0.1085, 'learning_rate': 4.8196192815474366e-05, 'epoch': 3.61} {'loss': 0.1089, 'learning_rate': 4.819379413570771e-05, 'epoch': 3.61} {'loss': 0.1069, 'learning_rate': 4.819139545594105e-05, 'epoch': 3.62} {'loss': 0.1055, 'learning_rate': 4.81889967761744e-05, 'epoch': 3.62} {'loss': 0.1085, 'learning_rate': 4.8186598096407737e-05, 'epoch': 3.63} {'loss': 0.1098, 'learning_rate': 4.818419941664108e-05, 'epoch': 3.63} {'loss': 0.1117, 'learning_rate': 4.818180073687443e-05, 'epoch': 3.64} {'loss': 0.1106, 'learning_rate': 4.817940205710777e-05, 'epoch': 3.64} {'loss': 0.1061, 'learning_rate': 4.8177003377341114e-05, 'epoch': 3.65} {'loss': 0.1079, 'learning_rate': 4.8174604697574453e-05, 'epoch': 3.65} {'loss': 0.1082, 'learning_rate': 4.81722060178078e-05, 'epoch': 3.66} {'loss': 0.1061, 'learning_rate': 4.8169807338041146e-05, 'epoch': 3.66} {'loss': 0.1066, 'learning_rate': 4.8167408658274485e-05, 'epoch': 3.67} {'loss': 0.1091, 'learning_rate': 4.816500997850783e-05, 'epoch': 3.67} {'loss': 0.1098, 'learning_rate': 4.816261129874117e-05, 'epoch': 3.67} {'loss': 0.1082, 'learning_rate': 4.816021261897452e-05, 'epoch': 3.68} {'loss': 0.1108, 'learning_rate': 4.815781393920786e-05, 'epoch': 3.68} {'loss': 0.1073, 'learning_rate': 4.815541525944121e-05, 'epoch': 3.69} {'loss': 0.1087, 'learning_rate': 4.815301657967455e-05, 'epoch': 3.69} {'loss': 0.1071, 'learning_rate': 4.815061789990789e-05, 'epoch': 3.7} {'loss': 0.1104, 'learning_rate': 4.814821922014124e-05, 'epoch': 3.7} {'loss': 0.1032, 'learning_rate': 4.814582054037458e-05, 'epoch': 3.71} {'loss': 0.1101, 'learning_rate': 4.8143421860607926e-05, 'epoch': 3.71} {'loss': 0.1078, 'learning_rate': 4.8141023180841265e-05, 'epoch': 3.72} {'loss': 0.1036, 'learning_rate': 4.813862450107461e-05, 'epoch': 3.72} {'loss': 0.1111, 'learning_rate': 4.813622582130796e-05, 'epoch': 3.73} {'loss': 0.11, 'learning_rate': 4.8133827141541296e-05, 'epoch': 3.73} {'loss': 0.1072, 'learning_rate': 4.813142846177464e-05, 'epoch': 3.74} {'loss': 0.1083, 'learning_rate': 4.812902978200798e-05, 'epoch': 3.74} {'loss': 0.1072, 'learning_rate': 4.812663110224133e-05, 'epoch': 3.75} {'loss': 0.1113, 'learning_rate': 4.8124232422474674e-05, 'epoch': 3.75} {'loss': 0.1066, 'learning_rate': 4.812183374270802e-05, 'epoch': 3.76} {'loss': 0.1072, 'learning_rate': 4.811943506294136e-05, 'epoch': 3.76} {'loss': 0.1089, 'learning_rate': 4.81170363831747e-05, 'epoch': 3.77} {'loss': 0.1075, 'learning_rate': 4.8114637703408045e-05, 'epoch': 3.77} {'loss': 0.1084, 'learning_rate': 4.811223902364139e-05, 'epoch': 3.78} {'loss': 0.1128, 'learning_rate': 4.810984034387474e-05, 'epoch': 3.78} {'loss': 0.1084, 'learning_rate': 4.8107441664108076e-05, 'epoch': 3.79} {'loss': 0.1089, 'learning_rate': 4.810504298434142e-05, 'epoch': 3.79} {'loss': 0.1039, 'learning_rate': 4.810264430457476e-05, 'epoch': 3.79} {'loss': 0.1079, 'learning_rate': 4.810024562480811e-05, 'epoch': 3.8} {'loss': 0.1057, 'learning_rate': 4.8097846945041454e-05, 'epoch': 3.8} {'loss': 0.1058, 'learning_rate': 4.809544826527479e-05, 'epoch': 3.81} {'loss': 0.1052, 'learning_rate': 4.809304958550814e-05, 'epoch': 3.81} {'loss': 0.1044, 'learning_rate': 4.809065090574148e-05, 'epoch': 3.82} {'loss': 0.1069, 'learning_rate': 4.808825222597483e-05, 'epoch': 3.82} {'loss': 0.1074, 'learning_rate': 4.808585354620817e-05, 'epoch': 3.83} {'loss': 0.1069, 'learning_rate': 4.808345486644151e-05, 'epoch': 3.83} {'loss': 0.1097, 'learning_rate': 4.8081056186674856e-05, 'epoch': 3.84} {'loss': 0.1084, 'learning_rate': 4.8078657506908195e-05, 'epoch': 3.84} {'loss': 0.1082, 'learning_rate': 4.807625882714155e-05, 'epoch': 3.85} {'loss': 0.1048, 'learning_rate': 4.807386014737489e-05, 'epoch': 3.85} {'loss': 0.1077, 'learning_rate': 4.8071461467608234e-05, 'epoch': 3.86} {'loss': 0.1053, 'learning_rate': 4.806906278784157e-05, 'epoch': 3.86} {'loss': 0.1053, 'learning_rate': 4.806666410807492e-05, 'epoch': 3.87} {'loss': 0.1067, 'learning_rate': 4.8064265428308265e-05, 'epoch': 3.87} {'loss': 0.1074, 'learning_rate': 4.8061866748541605e-05, 'epoch': 3.88} {'loss': 0.102, 'learning_rate': 4.805946806877495e-05, 'epoch': 3.88} {'loss': 0.106, 'learning_rate': 4.805706938900829e-05, 'epoch': 3.89} {'loss': 0.1072, 'learning_rate': 4.8054670709241636e-05, 'epoch': 3.89} {'loss': 0.1041, 'learning_rate': 4.805227202947498e-05, 'epoch': 3.9} {'loss': 0.1042, 'learning_rate': 4.804987334970832e-05, 'epoch': 3.9} {'loss': 0.1045, 'learning_rate': 4.804747466994167e-05, 'epoch': 3.91} {'loss': 0.1101, 'learning_rate': 4.804507599017501e-05, 'epoch': 3.91} {'loss': 0.109, 'learning_rate': 4.804267731040835e-05, 'epoch': 3.91} {'loss': 0.1042, 'learning_rate': 4.80402786306417e-05, 'epoch': 3.92} {'loss': 0.1086, 'learning_rate': 4.8037879950875045e-05, 'epoch': 3.92} {'loss': 0.1065, 'learning_rate': 4.8035481271108384e-05, 'epoch': 3.93} {'loss': 0.1023, 'learning_rate': 4.8033082591341724e-05, 'epoch': 3.93} {'loss': 0.1042, 'learning_rate': 4.803068391157507e-05, 'epoch': 3.94} {'loss': 0.1078, 'learning_rate': 4.8028285231808416e-05, 'epoch': 3.94} {'loss': 0.1066, 'learning_rate': 4.802588655204176e-05, 'epoch': 3.95} {'loss': 0.111, 'learning_rate': 4.80234878722751e-05, 'epoch': 3.95} {'loss': 0.1061, 'learning_rate': 4.802108919250845e-05, 'epoch': 3.96} {'loss': 0.1066, 'learning_rate': 4.801869051274179e-05, 'epoch': 3.96} {'loss': 0.1033, 'learning_rate': 4.801629183297513e-05, 'epoch': 3.97} {'loss': 0.1042, 'learning_rate': 4.801389315320848e-05, 'epoch': 3.97} {'loss': 0.109, 'learning_rate': 4.801149447344182e-05, 'epoch': 3.98} {'loss': 0.1065, 'learning_rate': 4.8009095793675164e-05, 'epoch': 3.98} {'loss': 0.106, 'learning_rate': 4.8006697113908504e-05, 'epoch': 3.99} {'loss': 0.1051, 'learning_rate': 4.8004298434141857e-05, 'epoch': 3.99} {'loss': 0.1086, 'learning_rate': 4.8001899754375196e-05, 'epoch': 4.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.09421049058437347, 'eval_runtime': 955.4037, 'eval_samples_per_second': 436.355, 'eval_steps_per_second': 54.544, 'epoch': 4.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-416896 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-416896/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-416896/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-312672] due to args.save_total_limit {'loss': 0.103, 'learning_rate': 4.7999501074608535e-05, 'epoch': 4.0} {'loss': 0.104, 'learning_rate': 4.799710239484188e-05, 'epoch': 4.01} {'loss': 0.1032, 'learning_rate': 4.799470371507522e-05, 'epoch': 4.01} {'loss': 0.1063, 'learning_rate': 4.799230503530857e-05, 'epoch': 4.02} {'loss': 0.1026, 'learning_rate': 4.798990635554191e-05, 'epoch': 4.02} {'loss': 0.109, 'learning_rate': 4.798750767577526e-05, 'epoch': 4.02} {'loss': 0.1042, 'learning_rate': 4.79851089960086e-05, 'epoch': 4.03} {'loss': 0.1007, 'learning_rate': 4.7982710316241944e-05, 'epoch': 4.03} {'loss': 0.1037, 'learning_rate': 4.7980311636475284e-05, 'epoch': 4.04} {'loss': 0.1047, 'learning_rate': 4.797791295670863e-05, 'epoch': 4.04} {'loss': 0.1097, 'learning_rate': 4.7975514276941976e-05, 'epoch': 4.05} {'loss': 0.1027, 'learning_rate': 4.7973115597175315e-05, 'epoch': 4.05} {'loss': 0.1042, 'learning_rate': 4.797071691740866e-05, 'epoch': 4.06} {'loss': 0.1083, 'learning_rate': 4.7968318237642e-05, 'epoch': 4.06} {'loss': 0.1015, 'learning_rate': 4.7965919557875347e-05, 'epoch': 4.07} {'loss': 0.1073, 'learning_rate': 4.796352087810869e-05, 'epoch': 4.07} {'loss': 0.1051, 'learning_rate': 4.796112219834203e-05, 'epoch': 4.08} {'loss': 0.1032, 'learning_rate': 4.795872351857538e-05, 'epoch': 4.08} {'loss': 0.1044, 'learning_rate': 4.795632483880872e-05, 'epoch': 4.09} {'loss': 0.1038, 'learning_rate': 4.795392615904207e-05, 'epoch': 4.09} {'loss': 0.1061, 'learning_rate': 4.795152747927541e-05, 'epoch': 4.1} {'loss': 0.1052, 'learning_rate': 4.7949128799508756e-05, 'epoch': 4.1} {'loss': 0.1027, 'learning_rate': 4.7946730119742095e-05, 'epoch': 4.11} {'loss': 0.1032, 'learning_rate': 4.7944331439975434e-05, 'epoch': 4.11} {'loss': 0.1037, 'learning_rate': 4.794193276020879e-05, 'epoch': 4.12} {'loss': 0.1058, 'learning_rate': 4.7939534080442126e-05, 'epoch': 4.12} {'loss': 0.1041, 'learning_rate': 4.793713540067547e-05, 'epoch': 4.13} {'loss': 0.1034, 'learning_rate': 4.793473672090881e-05, 'epoch': 4.13} {'loss': 0.1027, 'learning_rate': 4.793233804114216e-05, 'epoch': 4.14} {'loss': 0.1043, 'learning_rate': 4.7929939361375504e-05, 'epoch': 4.14} {'loss': 0.104, 'learning_rate': 4.792754068160884e-05, 'epoch': 4.14} {'loss': 0.1043, 'learning_rate': 4.792514200184219e-05, 'epoch': 4.15} {'loss': 0.1023, 'learning_rate': 4.792274332207553e-05, 'epoch': 4.15} {'loss': 0.104, 'learning_rate': 4.7920344642308875e-05, 'epoch': 4.16} {'loss': 0.1022, 'learning_rate': 4.791794596254222e-05, 'epoch': 4.16} {'loss': 0.1015, 'learning_rate': 4.791554728277556e-05, 'epoch': 4.17} {'loss': 0.1027, 'learning_rate': 4.7913148603008906e-05, 'epoch': 4.17} {'loss': 0.1019, 'learning_rate': 4.7910749923242246e-05, 'epoch': 4.18} {'loss': 0.1062, 'learning_rate': 4.790835124347559e-05, 'epoch': 4.18} {'loss': 0.106, 'learning_rate': 4.790595256370894e-05, 'epoch': 4.19} {'loss': 0.1092, 'learning_rate': 4.7903553883942284e-05, 'epoch': 4.19} {'loss': 0.1023, 'learning_rate': 4.790115520417562e-05, 'epoch': 4.2} {'loss': 0.103, 'learning_rate': 4.789875652440897e-05, 'epoch': 4.2} {'loss': 0.1019, 'learning_rate': 4.789635784464231e-05, 'epoch': 4.21} {'loss': 0.1053, 'learning_rate': 4.7893959164875655e-05, 'epoch': 4.21} {'loss': 0.1049, 'learning_rate': 4.7891560485109e-05, 'epoch': 4.22} {'loss': 0.1086, 'learning_rate': 4.788916180534234e-05, 'epoch': 4.22} {'loss': 0.105, 'learning_rate': 4.7886763125575686e-05, 'epoch': 4.23} {'loss': 0.1026, 'learning_rate': 4.7884364445809026e-05, 'epoch': 4.23} {'loss': 0.1041, 'learning_rate': 4.788196576604237e-05, 'epoch': 4.24} {'loss': 0.1022, 'learning_rate': 4.787956708627572e-05, 'epoch': 4.24} {'loss': 0.1051, 'learning_rate': 4.787716840650906e-05, 'epoch': 4.25} {'loss': 0.1028, 'learning_rate': 4.78747697267424e-05, 'epoch': 4.25} {'loss': 0.1042, 'learning_rate': 4.787237104697574e-05, 'epoch': 4.26} {'loss': 0.1026, 'learning_rate': 4.7869972367209095e-05, 'epoch': 4.26} {'loss': 0.0995, 'learning_rate': 4.7867573687442435e-05, 'epoch': 4.26} {'loss': 0.1023, 'learning_rate': 4.786517500767578e-05, 'epoch': 4.27} {'loss': 0.1036, 'learning_rate': 4.786277632790912e-05, 'epoch': 4.27} {'loss': 0.1024, 'learning_rate': 4.786037764814246e-05, 'epoch': 4.28} {'loss': 0.1033, 'learning_rate': 4.785797896837581e-05, 'epoch': 4.28} {'loss': 0.1011, 'learning_rate': 4.785558028860915e-05, 'epoch': 4.29} {'loss': 0.1038, 'learning_rate': 4.78531816088425e-05, 'epoch': 4.29} {'loss': 0.1028, 'learning_rate': 4.785078292907584e-05, 'epoch': 4.3} {'loss': 0.102, 'learning_rate': 4.784838424930918e-05, 'epoch': 4.3} {'loss': 0.1023, 'learning_rate': 4.784598556954253e-05, 'epoch': 4.31} {'loss': 0.1047, 'learning_rate': 4.784358688977587e-05, 'epoch': 4.31} {'loss': 0.1015, 'learning_rate': 4.7841188210009215e-05, 'epoch': 4.32} {'loss': 0.1041, 'learning_rate': 4.7838789530242554e-05, 'epoch': 4.32} {'loss': 0.1035, 'learning_rate': 4.78363908504759e-05, 'epoch': 4.33} {'loss': 0.1042, 'learning_rate': 4.7833992170709246e-05, 'epoch': 4.33} {'loss': 0.1082, 'learning_rate': 4.783159349094259e-05, 'epoch': 4.34} {'loss': 0.1044, 'learning_rate': 4.782919481117593e-05, 'epoch': 4.34} {'loss': 0.1021, 'learning_rate': 4.782679613140927e-05, 'epoch': 4.35} {'loss': 0.1043, 'learning_rate': 4.782439745164262e-05, 'epoch': 4.35} {'loss': 0.1002, 'learning_rate': 4.782199877187596e-05, 'epoch': 4.36} {'loss': 0.1013, 'learning_rate': 4.781960009210931e-05, 'epoch': 4.36} {'loss': 0.103, 'learning_rate': 4.781720141234265e-05, 'epoch': 4.37} {'loss': 0.1042, 'learning_rate': 4.7814802732575994e-05, 'epoch': 4.37} {'loss': 0.1015, 'learning_rate': 4.7812404052809334e-05, 'epoch': 4.38} {'loss': 0.1018, 'learning_rate': 4.781000537304268e-05, 'epoch': 4.38} {'loss': 0.1042, 'learning_rate': 4.7807606693276026e-05, 'epoch': 4.38} {'loss': 0.1026, 'learning_rate': 4.7805208013509365e-05, 'epoch': 4.39} {'loss': 0.1034, 'learning_rate': 4.780280933374271e-05, 'epoch': 4.39} {'loss': 0.1056, 'learning_rate': 4.780041065397605e-05, 'epoch': 4.4} {'loss': 0.1008, 'learning_rate': 4.77980119742094e-05, 'epoch': 4.4} {'loss': 0.1089, 'learning_rate': 4.779561329444274e-05, 'epoch': 4.41} {'loss': 0.1047, 'learning_rate': 4.779321461467608e-05, 'epoch': 4.41} {'loss': 0.1045, 'learning_rate': 4.779081593490943e-05, 'epoch': 4.42} {'loss': 0.1034, 'learning_rate': 4.778841725514277e-05, 'epoch': 4.42} {'loss': 0.1032, 'learning_rate': 4.778601857537612e-05, 'epoch': 4.43} {'loss': 0.1018, 'learning_rate': 4.778361989560946e-05, 'epoch': 4.43} {'loss': 0.105, 'learning_rate': 4.7781221215842806e-05, 'epoch': 4.44} {'loss': 0.1031, 'learning_rate': 4.7778822536076145e-05, 'epoch': 4.44} {'loss': 0.1006, 'learning_rate': 4.777642385630949e-05, 'epoch': 4.45} {'loss': 0.1016, 'learning_rate': 4.777402517654283e-05, 'epoch': 4.45} {'loss': 0.1033, 'learning_rate': 4.777162649677618e-05, 'epoch': 4.46} {'loss': 0.1033, 'learning_rate': 4.776922781700952e-05, 'epoch': 4.46} {'loss': 0.1052, 'learning_rate': 4.776682913724286e-05, 'epoch': 4.47} {'loss': 0.1041, 'learning_rate': 4.776443045747621e-05, 'epoch': 4.47} {'loss': 0.1051, 'learning_rate': 4.776203177770955e-05, 'epoch': 4.48} {'loss': 0.1034, 'learning_rate': 4.7759633097942894e-05, 'epoch': 4.48} {'loss': 0.099, 'learning_rate': 4.775723441817624e-05, 'epoch': 4.49} {'loss': 0.1052, 'learning_rate': 4.775483573840958e-05, 'epoch': 4.49} {'loss': 0.1022, 'learning_rate': 4.7752437058642925e-05, 'epoch': 4.5} {'loss': 0.1012, 'learning_rate': 4.7750038378876264e-05, 'epoch': 4.5} {'loss': 0.1036, 'learning_rate': 4.774763969910962e-05, 'epoch': 4.5} {'loss': 0.1034, 'learning_rate': 4.7745241019342957e-05, 'epoch': 4.51} {'loss': 0.1037, 'learning_rate': 4.7742842339576296e-05, 'epoch': 4.51} {'loss': 0.1015, 'learning_rate': 4.774044365980964e-05, 'epoch': 4.52} {'loss': 0.1015, 'learning_rate': 4.773804498004298e-05, 'epoch': 4.52} {'loss': 0.1022, 'learning_rate': 4.7735646300276334e-05, 'epoch': 4.53} {'loss': 0.1008, 'learning_rate': 4.7733247620509673e-05, 'epoch': 4.53} {'loss': 0.1021, 'learning_rate': 4.773084894074302e-05, 'epoch': 4.54} {'loss': 0.1052, 'learning_rate': 4.772845026097636e-05, 'epoch': 4.54} {'loss': 0.1001, 'learning_rate': 4.7726051581209705e-05, 'epoch': 4.55} {'loss': 0.111, 'learning_rate': 4.772365290144305e-05, 'epoch': 4.55} {'loss': 0.1046, 'learning_rate': 4.772125422167639e-05, 'epoch': 4.56} {'loss': 0.1018, 'learning_rate': 4.7718855541909736e-05, 'epoch': 4.56} {'loss': 0.1043, 'learning_rate': 4.7716456862143076e-05, 'epoch': 4.57} {'loss': 0.099, 'learning_rate': 4.771405818237642e-05, 'epoch': 4.57} {'loss': 0.1044, 'learning_rate': 4.771165950260977e-05, 'epoch': 4.58} {'loss': 0.1038, 'learning_rate': 4.770926082284311e-05, 'epoch': 4.58} {'loss': 0.1018, 'learning_rate': 4.770686214307645e-05, 'epoch': 4.59} {'loss': 0.104, 'learning_rate': 4.770446346330979e-05, 'epoch': 4.59} {'loss': 0.1003, 'learning_rate': 4.770206478354314e-05, 'epoch': 4.6} {'loss': 0.1036, 'learning_rate': 4.7699666103776485e-05, 'epoch': 4.6} {'loss': 0.1011, 'learning_rate': 4.769726742400983e-05, 'epoch': 4.61} {'loss': 0.1021, 'learning_rate': 4.769486874424317e-05, 'epoch': 4.61} {'loss': 0.101, 'learning_rate': 4.7692470064476516e-05, 'epoch': 4.62} {'loss': 0.1041, 'learning_rate': 4.7690071384709856e-05, 'epoch': 4.62} {'loss': 0.1007, 'learning_rate': 4.76876727049432e-05, 'epoch': 4.62} {'loss': 0.1005, 'learning_rate': 4.768527402517655e-05, 'epoch': 4.63} {'loss': 0.0993, 'learning_rate': 4.768287534540989e-05, 'epoch': 4.63} {'loss': 0.1038, 'learning_rate': 4.768047666564323e-05, 'epoch': 4.64} {'loss': 0.1035, 'learning_rate': 4.767807798587657e-05, 'epoch': 4.64} {'loss': 0.0996, 'learning_rate': 4.767567930610992e-05, 'epoch': 4.65} {'loss': 0.0989, 'learning_rate': 4.7673280626343265e-05, 'epoch': 4.65} {'loss': 0.1028, 'learning_rate': 4.7670881946576604e-05, 'epoch': 4.66} {'loss': 0.1007, 'learning_rate': 4.766848326680995e-05, 'epoch': 4.66} {'loss': 0.1004, 'learning_rate': 4.766608458704329e-05, 'epoch': 4.67} {'loss': 0.0996, 'learning_rate': 4.766368590727664e-05, 'epoch': 4.67} {'loss': 0.1027, 'learning_rate': 4.766128722750998e-05, 'epoch': 4.68} {'loss': 0.1018, 'learning_rate': 4.765888854774333e-05, 'epoch': 4.68} {'loss': 0.1005, 'learning_rate': 4.765648986797667e-05, 'epoch': 4.69} {'loss': 0.1005, 'learning_rate': 4.7654091188210006e-05, 'epoch': 4.69} {'loss': 0.0988, 'learning_rate': 4.765169250844336e-05, 'epoch': 4.7} {'loss': 0.099, 'learning_rate': 4.76492938286767e-05, 'epoch': 4.7} {'loss': 0.1025, 'learning_rate': 4.7646895148910045e-05, 'epoch': 4.71} {'loss': 0.101, 'learning_rate': 4.7644496469143384e-05, 'epoch': 4.71} {'loss': 0.0996, 'learning_rate': 4.764209778937673e-05, 'epoch': 4.72} {'loss': 0.0975, 'learning_rate': 4.7639699109610076e-05, 'epoch': 4.72} {'loss': 0.1018, 'learning_rate': 4.7637300429843415e-05, 'epoch': 4.73} {'loss': 0.1001, 'learning_rate': 4.763490175007676e-05, 'epoch': 4.73} {'loss': 0.1006, 'learning_rate': 4.76325030703101e-05, 'epoch': 4.73} {'loss': 0.0998, 'learning_rate': 4.763010439054345e-05, 'epoch': 4.74} {'loss': 0.1017, 'learning_rate': 4.762770571077679e-05, 'epoch': 4.74} {'loss': 0.0987, 'learning_rate': 4.762530703101013e-05, 'epoch': 4.75} {'loss': 0.1016, 'learning_rate': 4.762290835124348e-05, 'epoch': 4.75} {'loss': 0.1024, 'learning_rate': 4.762050967147682e-05, 'epoch': 4.76} {'loss': 0.0996, 'learning_rate': 4.7618110991710164e-05, 'epoch': 4.76} {'loss': 0.1022, 'learning_rate': 4.761571231194351e-05, 'epoch': 4.77} {'loss': 0.1037, 'learning_rate': 4.7613313632176856e-05, 'epoch': 4.77} {'loss': 0.1017, 'learning_rate': 4.7610914952410195e-05, 'epoch': 4.78} {'loss': 0.0984, 'learning_rate': 4.760851627264354e-05, 'epoch': 4.78} {'loss': 0.1002, 'learning_rate': 4.760611759287688e-05, 'epoch': 4.79} {'loss': 0.1001, 'learning_rate': 4.760371891311023e-05, 'epoch': 4.79} {'loss': 0.1003, 'learning_rate': 4.760132023334357e-05, 'epoch': 4.8} {'loss': 0.0997, 'learning_rate': 4.759892155357691e-05, 'epoch': 4.8} {'loss': 0.0997, 'learning_rate': 4.759652287381026e-05, 'epoch': 4.81} {'loss': 0.0988, 'learning_rate': 4.75941241940436e-05, 'epoch': 4.81} {'loss': 0.1005, 'learning_rate': 4.7591725514276944e-05, 'epoch': 4.82} {'loss': 0.0953, 'learning_rate': 4.758932683451029e-05, 'epoch': 4.82} {'loss': 0.1008, 'learning_rate': 4.758692815474363e-05, 'epoch': 4.83} {'loss': 0.1021, 'learning_rate': 4.7584529474976975e-05, 'epoch': 4.83} {'loss': 0.1022, 'learning_rate': 4.7582130795210315e-05, 'epoch': 4.84} {'loss': 0.0988, 'learning_rate': 4.757973211544367e-05, 'epoch': 4.84} {'loss': 0.0976, 'learning_rate': 4.757733343567701e-05, 'epoch': 4.85} {'loss': 0.099, 'learning_rate': 4.757493475591035e-05, 'epoch': 4.85} {'loss': 0.1024, 'learning_rate': 4.757253607614369e-05, 'epoch': 4.85} {'loss': 0.1022, 'learning_rate': 4.757013739637703e-05, 'epoch': 4.86} {'loss': 0.1027, 'learning_rate': 4.756773871661038e-05, 'epoch': 4.86} {'loss': 0.1031, 'learning_rate': 4.7565340036843724e-05, 'epoch': 4.87} {'loss': 0.098, 'learning_rate': 4.756294135707707e-05, 'epoch': 4.87} {'loss': 0.0982, 'learning_rate': 4.756054267731041e-05, 'epoch': 4.88} {'loss': 0.1007, 'learning_rate': 4.7558143997543755e-05, 'epoch': 4.88} {'loss': 0.1004, 'learning_rate': 4.7555745317777094e-05, 'epoch': 4.89} {'loss': 0.1005, 'learning_rate': 4.755334663801044e-05, 'epoch': 4.89} {'loss': 0.0981, 'learning_rate': 4.755094795824379e-05, 'epoch': 4.9} {'loss': 0.1019, 'learning_rate': 4.7548549278477126e-05, 'epoch': 4.9} {'loss': 0.1019, 'learning_rate': 4.754615059871047e-05, 'epoch': 4.91} {'loss': 0.1008, 'learning_rate': 4.754375191894381e-05, 'epoch': 4.91} {'loss': 0.0994, 'learning_rate': 4.7541353239177164e-05, 'epoch': 4.92} {'loss': 0.1011, 'learning_rate': 4.7538954559410504e-05, 'epoch': 4.92} {'loss': 0.1014, 'learning_rate': 4.753655587964384e-05, 'epoch': 4.93} {'loss': 0.1019, 'learning_rate': 4.753415719987719e-05, 'epoch': 4.93} {'loss': 0.1015, 'learning_rate': 4.753175852011053e-05, 'epoch': 4.94} {'loss': 0.0981, 'learning_rate': 4.752935984034388e-05, 'epoch': 4.94} {'loss': 0.0998, 'learning_rate': 4.752696116057722e-05, 'epoch': 4.95} {'loss': 0.0961, 'learning_rate': 4.7524562480810567e-05, 'epoch': 4.95} {'loss': 0.0949, 'learning_rate': 4.7522163801043906e-05, 'epoch': 4.96} {'loss': 0.1027, 'learning_rate': 4.751976512127725e-05, 'epoch': 4.96} {'loss': 0.1023, 'learning_rate': 4.75173664415106e-05, 'epoch': 4.97} {'loss': 0.1045, 'learning_rate': 4.751496776174394e-05, 'epoch': 4.97} {'loss': 0.1017, 'learning_rate': 4.7512569081977283e-05, 'epoch': 4.97} {'loss': 0.0998, 'learning_rate': 4.751017040221062e-05, 'epoch': 4.98} {'loss': 0.0999, 'learning_rate': 4.750777172244397e-05, 'epoch': 4.98} {'loss': 0.0972, 'learning_rate': 4.7505373042677315e-05, 'epoch': 4.99} {'loss': 0.0996, 'learning_rate': 4.7502974362910654e-05, 'epoch': 4.99} {'loss': 0.0964, 'learning_rate': 4.7500575683144e-05, 'epoch': 5.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.08822828531265259, 'eval_runtime': 557.7061, 'eval_samples_per_second': 747.517, 'eval_steps_per_second': 93.44, 'epoch': 5.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-521120 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-521120/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-521120/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-416896] due to args.save_total_limit {'loss': 0.1, 'learning_rate': 4.749817700337734e-05, 'epoch': 5.0} {'loss': 0.0981, 'learning_rate': 4.7495778323610686e-05, 'epoch': 5.01} {'loss': 0.0943, 'learning_rate': 4.749337964384403e-05, 'epoch': 5.01} {'loss': 0.0986, 'learning_rate': 4.749098096407738e-05, 'epoch': 5.02} {'loss': 0.0983, 'learning_rate': 4.748858228431072e-05, 'epoch': 5.02} {'loss': 0.0995, 'learning_rate': 4.748618360454406e-05, 'epoch': 5.03} {'loss': 0.0992, 'learning_rate': 4.74837849247774e-05, 'epoch': 5.03} {'loss': 0.1023, 'learning_rate': 4.748138624501075e-05, 'epoch': 5.04} {'loss': 0.1008, 'learning_rate': 4.7478987565244095e-05, 'epoch': 5.04} {'loss': 0.1007, 'learning_rate': 4.7476588885477434e-05, 'epoch': 5.05} {'loss': 0.0991, 'learning_rate': 4.747419020571078e-05, 'epoch': 5.05} {'loss': 0.1016, 'learning_rate': 4.747179152594412e-05, 'epoch': 5.06} {'loss': 0.1029, 'learning_rate': 4.7469392846177466e-05, 'epoch': 5.06} {'loss': 0.0973, 'learning_rate': 4.746699416641081e-05, 'epoch': 5.07} {'loss': 0.0996, 'learning_rate': 4.746459548664415e-05, 'epoch': 5.07} {'loss': 0.0969, 'learning_rate': 4.74621968068775e-05, 'epoch': 5.08} {'loss': 0.093, 'learning_rate': 4.7459798127110836e-05, 'epoch': 5.08} {'loss': 0.1006, 'learning_rate': 4.745739944734419e-05, 'epoch': 5.09} {'loss': 0.0961, 'learning_rate': 4.745500076757753e-05, 'epoch': 5.09} {'loss': 0.0977, 'learning_rate': 4.745260208781087e-05, 'epoch': 5.09} {'loss': 0.0989, 'learning_rate': 4.7450203408044214e-05, 'epoch': 5.1} {'loss': 0.0995, 'learning_rate': 4.7447804728277553e-05, 'epoch': 5.1} {'loss': 0.1039, 'learning_rate': 4.7445406048510906e-05, 'epoch': 5.11} {'loss': 0.0974, 'learning_rate': 4.7443007368744246e-05, 'epoch': 5.11} {'loss': 0.0997, 'learning_rate': 4.744060868897759e-05, 'epoch': 5.12} {'loss': 0.0967, 'learning_rate': 4.743821000921093e-05, 'epoch': 5.12} {'loss': 0.0984, 'learning_rate': 4.743581132944428e-05, 'epoch': 5.13} {'loss': 0.0978, 'learning_rate': 4.743341264967762e-05, 'epoch': 5.13} {'loss': 0.0975, 'learning_rate': 4.743101396991096e-05, 'epoch': 5.14} {'loss': 0.0989, 'learning_rate': 4.742861529014431e-05, 'epoch': 5.14} {'loss': 0.0983, 'learning_rate': 4.742621661037765e-05, 'epoch': 5.15} {'loss': 0.0962, 'learning_rate': 4.7423817930610994e-05, 'epoch': 5.15} {'loss': 0.0996, 'learning_rate': 4.742141925084434e-05, 'epoch': 5.16} {'loss': 0.0975, 'learning_rate': 4.741902057107768e-05, 'epoch': 5.16} {'loss': 0.0984, 'learning_rate': 4.7416621891311025e-05, 'epoch': 5.17} {'loss': 0.097, 'learning_rate': 4.7414223211544365e-05, 'epoch': 5.17} {'loss': 0.1026, 'learning_rate': 4.741182453177771e-05, 'epoch': 5.18} {'loss': 0.0993, 'learning_rate': 4.740942585201106e-05, 'epoch': 5.18} {'loss': 0.1003, 'learning_rate': 4.74070271722444e-05, 'epoch': 5.19} {'loss': 0.097, 'learning_rate': 4.740462849247774e-05, 'epoch': 5.19} {'loss': 0.0969, 'learning_rate': 4.740222981271109e-05, 'epoch': 5.2} {'loss': 0.0979, 'learning_rate': 4.739983113294443e-05, 'epoch': 5.2} {'loss': 0.0991, 'learning_rate': 4.7397432453177774e-05, 'epoch': 5.21} {'loss': 0.0993, 'learning_rate': 4.739503377341112e-05, 'epoch': 5.21} {'loss': 0.0996, 'learning_rate': 4.739263509364446e-05, 'epoch': 5.21} {'loss': 0.0953, 'learning_rate': 4.7390236413877805e-05, 'epoch': 5.22} {'loss': 0.0998, 'learning_rate': 4.7387837734111145e-05, 'epoch': 5.22} {'loss': 0.1007, 'learning_rate': 4.738543905434449e-05, 'epoch': 5.23} {'loss': 0.0994, 'learning_rate': 4.738304037457784e-05, 'epoch': 5.23} {'loss': 0.0954, 'learning_rate': 4.7380641694811176e-05, 'epoch': 5.24} {'loss': 0.0962, 'learning_rate': 4.737824301504452e-05, 'epoch': 5.24} {'loss': 0.0951, 'learning_rate': 4.737584433527786e-05, 'epoch': 5.25} {'loss': 0.0978, 'learning_rate': 4.7373445655511214e-05, 'epoch': 5.25} {'loss': 0.0968, 'learning_rate': 4.7371046975744554e-05, 'epoch': 5.26} {'loss': 0.0974, 'learning_rate': 4.73686482959779e-05, 'epoch': 5.26} {'loss': 0.0993, 'learning_rate': 4.736624961621124e-05, 'epoch': 5.27} {'loss': 0.0929, 'learning_rate': 4.736385093644458e-05, 'epoch': 5.27} {'loss': 0.0973, 'learning_rate': 4.736145225667793e-05, 'epoch': 5.28} {'loss': 0.0978, 'learning_rate': 4.735905357691127e-05, 'epoch': 5.28} {'loss': 0.0977, 'learning_rate': 4.735665489714462e-05, 'epoch': 5.29} {'loss': 0.0939, 'learning_rate': 4.7354256217377956e-05, 'epoch': 5.29} {'loss': 0.0966, 'learning_rate': 4.73518575376113e-05, 'epoch': 5.3} {'loss': 0.1025, 'learning_rate': 4.734945885784464e-05, 'epoch': 5.3} {'loss': 0.0975, 'learning_rate': 4.734706017807799e-05, 'epoch': 5.31} {'loss': 0.0988, 'learning_rate': 4.7344661498311334e-05, 'epoch': 5.31} {'loss': 0.0966, 'learning_rate': 4.734226281854467e-05, 'epoch': 5.32} {'loss': 0.0985, 'learning_rate': 4.733986413877802e-05, 'epoch': 5.32} {'loss': 0.0981, 'learning_rate': 4.733746545901136e-05, 'epoch': 5.33} {'loss': 0.0967, 'learning_rate': 4.7335066779244704e-05, 'epoch': 5.33} {'loss': 0.0964, 'learning_rate': 4.733266809947805e-05, 'epoch': 5.33} {'loss': 0.0965, 'learning_rate': 4.733026941971139e-05, 'epoch': 5.34} {'loss': 0.0983, 'learning_rate': 4.7327870739944736e-05, 'epoch': 5.34} {'loss': 0.0984, 'learning_rate': 4.7325472060178075e-05, 'epoch': 5.35} {'loss': 0.0996, 'learning_rate': 4.732307338041143e-05, 'epoch': 5.35} {'loss': 0.0969, 'learning_rate': 4.732067470064477e-05, 'epoch': 5.36} {'loss': 0.0966, 'learning_rate': 4.7318276020878114e-05, 'epoch': 5.36} {'loss': 0.0999, 'learning_rate': 4.731587734111145e-05, 'epoch': 5.37} {'loss': 0.095, 'learning_rate': 4.731347866134479e-05, 'epoch': 5.37} {'loss': 0.0967, 'learning_rate': 4.7311079981578145e-05, 'epoch': 5.38} {'loss': 0.099, 'learning_rate': 4.7308681301811484e-05, 'epoch': 5.38} {'loss': 0.0987, 'learning_rate': 4.730628262204483e-05, 'epoch': 5.39} {'loss': 0.096, 'learning_rate': 4.730388394227817e-05, 'epoch': 5.39} {'loss': 0.0944, 'learning_rate': 4.7301485262511516e-05, 'epoch': 5.4} {'loss': 0.0945, 'learning_rate': 4.729908658274486e-05, 'epoch': 5.4} {'loss': 0.0984, 'learning_rate': 4.72966879029782e-05, 'epoch': 5.41} {'loss': 0.0945, 'learning_rate': 4.729428922321155e-05, 'epoch': 5.41} {'loss': 0.0963, 'learning_rate': 4.729189054344489e-05, 'epoch': 5.42} {'loss': 0.0974, 'learning_rate': 4.728949186367823e-05, 'epoch': 5.42} {'loss': 0.0966, 'learning_rate': 4.728709318391158e-05, 'epoch': 5.43} {'loss': 0.1012, 'learning_rate': 4.7284694504144925e-05, 'epoch': 5.43} {'loss': 0.1006, 'learning_rate': 4.7282295824378264e-05, 'epoch': 5.44} {'loss': 0.0992, 'learning_rate': 4.7279897144611604e-05, 'epoch': 5.44} {'loss': 0.1021, 'learning_rate': 4.727749846484495e-05, 'epoch': 5.45} {'loss': 0.0994, 'learning_rate': 4.7275099785078296e-05, 'epoch': 5.45} {'loss': 0.0975, 'learning_rate': 4.727270110531164e-05, 'epoch': 5.45} {'loss': 0.0998, 'learning_rate': 4.727030242554498e-05, 'epoch': 5.46} {'loss': 0.098, 'learning_rate': 4.726790374577833e-05, 'epoch': 5.46} {'loss': 0.0988, 'learning_rate': 4.7265505066011667e-05, 'epoch': 5.47} {'loss': 0.1019, 'learning_rate': 4.726310638624501e-05, 'epoch': 5.47} {'loss': 0.1004, 'learning_rate': 4.726070770647836e-05, 'epoch': 5.48} {'loss': 0.0963, 'learning_rate': 4.72583090267117e-05, 'epoch': 5.48} {'loss': 0.0953, 'learning_rate': 4.7255910346945044e-05, 'epoch': 5.49} {'loss': 0.097, 'learning_rate': 4.7253511667178383e-05, 'epoch': 5.49} {'loss': 0.0997, 'learning_rate': 4.7251112987411736e-05, 'epoch': 5.5} {'loss': 0.0991, 'learning_rate': 4.7248714307645076e-05, 'epoch': 5.5} {'loss': 0.1004, 'learning_rate': 4.7246315627878415e-05, 'epoch': 5.51} {'loss': 0.0978, 'learning_rate': 4.724391694811176e-05, 'epoch': 5.51} {'loss': 0.0967, 'learning_rate': 4.72415182683451e-05, 'epoch': 5.52} {'loss': 0.0952, 'learning_rate': 4.723911958857845e-05, 'epoch': 5.52} {'loss': 0.0974, 'learning_rate': 4.723672090881179e-05, 'epoch': 5.53} {'loss': 0.0958, 'learning_rate': 4.723432222904514e-05, 'epoch': 5.53} {'loss': 0.0947, 'learning_rate': 4.723192354927848e-05, 'epoch': 5.54} {'loss': 0.0973, 'learning_rate': 4.7229524869511824e-05, 'epoch': 5.54} {'loss': 0.099, 'learning_rate': 4.722712618974517e-05, 'epoch': 5.55} {'loss': 0.0961, 'learning_rate': 4.722472750997851e-05, 'epoch': 5.55} {'loss': 0.0993, 'learning_rate': 4.7222328830211856e-05, 'epoch': 5.56} {'loss': 0.0983, 'learning_rate': 4.7219930150445195e-05, 'epoch': 5.56} {'loss': 0.0975, 'learning_rate': 4.721753147067854e-05, 'epoch': 5.56} {'loss': 0.1023, 'learning_rate': 4.721513279091189e-05, 'epoch': 5.57} {'loss': 0.0969, 'learning_rate': 4.7212734111145226e-05, 'epoch': 5.57} {'loss': 0.0986, 'learning_rate': 4.721033543137857e-05, 'epoch': 5.58} {'loss': 0.0963, 'learning_rate': 4.720793675161191e-05, 'epoch': 5.58} {'loss': 0.0964, 'learning_rate': 4.720553807184526e-05, 'epoch': 5.59} {'loss': 0.096, 'learning_rate': 4.7203139392078604e-05, 'epoch': 5.59} {'loss': 0.0973, 'learning_rate': 4.720074071231195e-05, 'epoch': 5.6} {'loss': 0.098, 'learning_rate': 4.719834203254529e-05, 'epoch': 5.6} {'loss': 0.0966, 'learning_rate': 4.7195943352778635e-05, 'epoch': 5.61} {'loss': 0.0967, 'learning_rate': 4.7193544673011975e-05, 'epoch': 5.61} {'loss': 0.0992, 'learning_rate': 4.719114599324532e-05, 'epoch': 5.62} {'loss': 0.099, 'learning_rate': 4.718874731347867e-05, 'epoch': 5.62} {'loss': 0.0972, 'learning_rate': 4.7186348633712006e-05, 'epoch': 5.63} {'loss': 0.1012, 'learning_rate': 4.718394995394535e-05, 'epoch': 5.63} {'loss': 0.0977, 'learning_rate': 4.718155127417869e-05, 'epoch': 5.64} {'loss': 0.0985, 'learning_rate': 4.717915259441204e-05, 'epoch': 5.64} {'loss': 0.0934, 'learning_rate': 4.7176753914645384e-05, 'epoch': 5.65} {'loss': 0.0981, 'learning_rate': 4.717435523487872e-05, 'epoch': 5.65} {'loss': 0.0963, 'learning_rate': 4.717195655511207e-05, 'epoch': 5.66} {'loss': 0.0916, 'learning_rate': 4.716955787534541e-05, 'epoch': 5.66} {'loss': 0.0993, 'learning_rate': 4.716715919557876e-05, 'epoch': 5.67} {'loss': 0.1018, 'learning_rate': 4.71647605158121e-05, 'epoch': 5.67} {'loss': 0.0945, 'learning_rate': 4.716236183604544e-05, 'epoch': 5.68} {'loss': 0.0963, 'learning_rate': 4.7159963156278786e-05, 'epoch': 5.68} {'loss': 0.0952, 'learning_rate': 4.7157564476512126e-05, 'epoch': 5.68} {'loss': 0.096, 'learning_rate': 4.715516579674548e-05, 'epoch': 5.69} {'loss': 0.0964, 'learning_rate': 4.715276711697882e-05, 'epoch': 5.69} {'loss': 0.0945, 'learning_rate': 4.7150368437212164e-05, 'epoch': 5.7} {'loss': 0.0959, 'learning_rate': 4.71479697574455e-05, 'epoch': 5.7} {'loss': 0.096, 'learning_rate': 4.714557107767885e-05, 'epoch': 5.71} {'loss': 0.097, 'learning_rate': 4.714317239791219e-05, 'epoch': 5.71} {'loss': 0.0986, 'learning_rate': 4.7140773718145535e-05, 'epoch': 5.72} {'loss': 0.0968, 'learning_rate': 4.713837503837888e-05, 'epoch': 5.72} {'loss': 0.0967, 'learning_rate': 4.713597635861222e-05, 'epoch': 5.73} {'loss': 0.0959, 'learning_rate': 4.7133577678845566e-05, 'epoch': 5.73} {'loss': 0.0919, 'learning_rate': 4.7131178999078905e-05, 'epoch': 5.74} {'loss': 0.098, 'learning_rate': 4.712878031931225e-05, 'epoch': 5.74} {'loss': 0.0957, 'learning_rate': 4.71263816395456e-05, 'epoch': 5.75} {'loss': 0.0939, 'learning_rate': 4.712398295977894e-05, 'epoch': 5.75} {'loss': 0.0953, 'learning_rate': 4.712158428001228e-05, 'epoch': 5.76} {'loss': 0.0953, 'learning_rate': 4.711918560024562e-05, 'epoch': 5.76} {'loss': 0.0959, 'learning_rate': 4.7116786920478975e-05, 'epoch': 5.77} {'loss': 0.0952, 'learning_rate': 4.7114388240712314e-05, 'epoch': 5.77} {'loss': 0.0952, 'learning_rate': 4.711198956094566e-05, 'epoch': 5.78} {'loss': 0.098, 'learning_rate': 4.7109590881179e-05, 'epoch': 5.78} {'loss': 0.189, 'learning_rate': 4.710719220141234e-05, 'epoch': 5.79} {'loss': 0.2922, 'learning_rate': 4.710479352164569e-05, 'epoch': 5.79} {'loss': 0.0966, 'learning_rate': 4.710239484187903e-05, 'epoch': 5.8} {'loss': 0.0966, 'learning_rate': 4.709999616211238e-05, 'epoch': 5.8} {'loss': 0.0963, 'learning_rate': 4.709759748234572e-05, 'epoch': 5.8} {'loss': 0.0998, 'learning_rate': 4.709519880257906e-05, 'epoch': 5.81} {'loss': 0.0947, 'learning_rate': 4.709280012281241e-05, 'epoch': 5.81} {'loss': 0.0967, 'learning_rate': 4.709040144304575e-05, 'epoch': 5.82} {'loss': 0.0916, 'learning_rate': 4.7088002763279094e-05, 'epoch': 5.82} {'loss': 0.0943, 'learning_rate': 4.7085604083512434e-05, 'epoch': 5.83} {'loss': 0.0944, 'learning_rate': 4.708320540374578e-05, 'epoch': 5.83} {'loss': 0.0948, 'learning_rate': 4.7080806723979126e-05, 'epoch': 5.84} {'loss': 0.0969, 'learning_rate': 4.707840804421247e-05, 'epoch': 5.84} {'loss': 0.095, 'learning_rate': 4.707600936444581e-05, 'epoch': 5.85} {'loss': 0.0938, 'learning_rate': 4.707361068467915e-05, 'epoch': 5.85} {'loss': 0.0973, 'learning_rate': 4.70712120049125e-05, 'epoch': 5.86} {'loss': 0.0941, 'learning_rate': 4.706881332514584e-05, 'epoch': 5.86} {'loss': 0.0952, 'learning_rate': 4.706641464537919e-05, 'epoch': 5.87} {'loss': 0.0941, 'learning_rate': 4.706401596561253e-05, 'epoch': 5.87} {'loss': 0.0929, 'learning_rate': 4.7061617285845874e-05, 'epoch': 5.88} {'loss': 0.0896, 'learning_rate': 4.7059218606079214e-05, 'epoch': 5.88} {'loss': 0.0926, 'learning_rate': 4.705681992631256e-05, 'epoch': 5.89} {'loss': 0.0941, 'learning_rate': 4.7054421246545906e-05, 'epoch': 5.89} {'loss': 0.0956, 'learning_rate': 4.7052022566779245e-05, 'epoch': 5.9} {'loss': 0.0951, 'learning_rate': 4.704962388701259e-05, 'epoch': 5.9} {'loss': 0.0954, 'learning_rate': 4.704722520724593e-05, 'epoch': 5.91} {'loss': 0.0926, 'learning_rate': 4.7044826527479277e-05, 'epoch': 5.91} {'loss': 0.0961, 'learning_rate': 4.704242784771262e-05, 'epoch': 5.92} {'loss': 0.0974, 'learning_rate': 4.704002916794596e-05, 'epoch': 5.92} {'loss': 0.0937, 'learning_rate': 4.703763048817931e-05, 'epoch': 5.92} {'loss': 0.0964, 'learning_rate': 4.703523180841265e-05, 'epoch': 5.93} {'loss': 0.0952, 'learning_rate': 4.7032833128646e-05, 'epoch': 5.93} {'loss': 0.0935, 'learning_rate': 4.703043444887934e-05, 'epoch': 5.94} {'loss': 0.0944, 'learning_rate': 4.7028035769112686e-05, 'epoch': 5.94} {'loss': 0.0954, 'learning_rate': 4.7025637089346025e-05, 'epoch': 5.95} {'loss': 0.0916, 'learning_rate': 4.7023238409579364e-05, 'epoch': 5.95} {'loss': 0.0977, 'learning_rate': 4.702083972981272e-05, 'epoch': 5.96} {'loss': 0.0949, 'learning_rate': 4.7018441050046057e-05, 'epoch': 5.96} {'loss': 0.1025, 'learning_rate': 4.70160423702794e-05, 'epoch': 5.97} {'loss': 0.0924, 'learning_rate': 4.701364369051274e-05, 'epoch': 5.97} {'loss': 0.0945, 'learning_rate': 4.701124501074609e-05, 'epoch': 5.98} {'loss': 0.093, 'learning_rate': 4.7008846330979434e-05, 'epoch': 5.98} {'loss': 0.0913, 'learning_rate': 4.7006447651212773e-05, 'epoch': 5.99} {'loss': 0.0936, 'learning_rate': 4.700404897144612e-05, 'epoch': 5.99} {'loss': 0.0944, 'learning_rate': 4.700165029167946e-05, 'epoch': 6.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.08330526202917099, 'eval_runtime': 3443.4048, 'eval_samples_per_second': 121.071, 'eval_steps_per_second': 15.134, 'epoch': 6.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-625344 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-625344/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-625344/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-521120] due to args.save_total_limit {'loss': 0.0974, 'learning_rate': 4.6999251611912805e-05, 'epoch': 6.0} {'loss': 0.0967, 'learning_rate': 4.699685293214615e-05, 'epoch': 6.01} {'loss': 0.0988, 'learning_rate': 4.69944542523795e-05, 'epoch': 6.01} {'loss': 0.0935, 'learning_rate': 4.6992055572612836e-05, 'epoch': 6.02} {'loss': 0.0959, 'learning_rate': 4.6989656892846176e-05, 'epoch': 6.02} {'loss': 0.0941, 'learning_rate': 4.698725821307952e-05, 'epoch': 6.03} {'loss': 0.0976, 'learning_rate': 4.698485953331287e-05, 'epoch': 6.03} {'loss': 0.0974, 'learning_rate': 4.6982460853546214e-05, 'epoch': 6.04} {'loss': 0.0943, 'learning_rate': 4.698006217377955e-05, 'epoch': 6.04} {'loss': 0.0925, 'learning_rate': 4.69776634940129e-05, 'epoch': 6.04} {'loss': 0.0918, 'learning_rate': 4.697526481424624e-05, 'epoch': 6.05} {'loss': 0.0958, 'learning_rate': 4.6972866134479585e-05, 'epoch': 6.05} {'loss': 0.0932, 'learning_rate': 4.697046745471293e-05, 'epoch': 6.06} {'loss': 0.0949, 'learning_rate': 4.696806877494627e-05, 'epoch': 6.06} {'loss': 0.0923, 'learning_rate': 4.6965670095179616e-05, 'epoch': 6.07} {'loss': 0.0939, 'learning_rate': 4.6963271415412956e-05, 'epoch': 6.07} {'loss': 0.0914, 'learning_rate': 4.696087273564631e-05, 'epoch': 6.08} {'loss': 0.0928, 'learning_rate': 4.695847405587965e-05, 'epoch': 6.08} {'loss': 0.0944, 'learning_rate': 4.695607537611299e-05, 'epoch': 6.09} {'loss': 0.092, 'learning_rate': 4.695367669634633e-05, 'epoch': 6.09} {'loss': 0.0909, 'learning_rate': 4.695127801657967e-05, 'epoch': 6.1} {'loss': 0.0926, 'learning_rate': 4.6948879336813025e-05, 'epoch': 6.1} {'loss': 0.0922, 'learning_rate': 4.6946480657046365e-05, 'epoch': 6.11} {'loss': 0.094, 'learning_rate': 4.694408197727971e-05, 'epoch': 6.11} {'loss': 0.0917, 'learning_rate': 4.694168329751305e-05, 'epoch': 6.12} {'loss': 0.091, 'learning_rate': 4.6939284617746396e-05, 'epoch': 6.12} {'loss': 0.0935, 'learning_rate': 4.6936885937979736e-05, 'epoch': 6.13} {'loss': 0.0945, 'learning_rate': 4.693448725821308e-05, 'epoch': 6.13} {'loss': 0.0956, 'learning_rate': 4.693208857844643e-05, 'epoch': 6.14} {'loss': 0.0937, 'learning_rate': 4.692968989867977e-05, 'epoch': 6.14} {'loss': 0.0979, 'learning_rate': 4.692729121891311e-05, 'epoch': 6.15} {'loss': 0.0933, 'learning_rate': 4.692489253914645e-05, 'epoch': 6.15} {'loss': 0.0934, 'learning_rate': 4.69224938593798e-05, 'epoch': 6.16} {'loss': 0.094, 'learning_rate': 4.6920095179613145e-05, 'epoch': 6.16} {'loss': 0.0953, 'learning_rate': 4.6917696499846484e-05, 'epoch': 6.16} {'loss': 0.0955, 'learning_rate': 4.691529782007983e-05, 'epoch': 6.17} {'loss': 0.0919, 'learning_rate': 4.691289914031317e-05, 'epoch': 6.17} {'loss': 0.0921, 'learning_rate': 4.691050046054652e-05, 'epoch': 6.18} {'loss': 0.0919, 'learning_rate': 4.690810178077986e-05, 'epoch': 6.18} {'loss': 0.093, 'learning_rate': 4.69057031010132e-05, 'epoch': 6.19} {'loss': 0.0937, 'learning_rate': 4.690330442124655e-05, 'epoch': 6.19} {'loss': 0.0944, 'learning_rate': 4.6900905741479886e-05, 'epoch': 6.2} {'loss': 0.091, 'learning_rate': 4.689850706171324e-05, 'epoch': 6.2} {'loss': 0.0962, 'learning_rate': 4.689610838194658e-05, 'epoch': 6.21} {'loss': 0.095, 'learning_rate': 4.6893709702179925e-05, 'epoch': 6.21} {'loss': 0.094, 'learning_rate': 4.6891311022413264e-05, 'epoch': 6.22} {'loss': 0.0949, 'learning_rate': 4.688891234264661e-05, 'epoch': 6.22} {'loss': 0.0941, 'learning_rate': 4.6886513662879956e-05, 'epoch': 6.23} {'loss': 0.0943, 'learning_rate': 4.6884114983113295e-05, 'epoch': 6.23} {'loss': 0.0909, 'learning_rate': 4.688171630334664e-05, 'epoch': 6.24} {'loss': 0.0907, 'learning_rate': 4.687931762357998e-05, 'epoch': 6.24} {'loss': 0.093, 'learning_rate': 4.687691894381333e-05, 'epoch': 6.25} {'loss': 0.0923, 'learning_rate': 4.687452026404667e-05, 'epoch': 6.25} {'loss': 0.0922, 'learning_rate': 4.687212158428001e-05, 'epoch': 6.26} {'loss': 0.0942, 'learning_rate': 4.686972290451336e-05, 'epoch': 6.26} {'loss': 0.0931, 'learning_rate': 4.68673242247467e-05, 'epoch': 6.27} {'loss': 0.0948, 'learning_rate': 4.6864925544980044e-05, 'epoch': 6.27} {'loss': 0.0924, 'learning_rate': 4.686252686521339e-05, 'epoch': 6.27} {'loss': 0.1013, 'learning_rate': 4.6860128185446736e-05, 'epoch': 6.28} {'loss': 0.0932, 'learning_rate': 4.6857729505680075e-05, 'epoch': 6.28} {'loss': 0.0928, 'learning_rate': 4.685533082591342e-05, 'epoch': 6.29} {'loss': 0.0944, 'learning_rate': 4.685293214614676e-05, 'epoch': 6.29} {'loss': 0.091, 'learning_rate': 4.685053346638011e-05, 'epoch': 6.3} {'loss': 0.0947, 'learning_rate': 4.684813478661345e-05, 'epoch': 6.3} {'loss': 0.0947, 'learning_rate': 4.684573610684679e-05, 'epoch': 6.31} {'loss': 0.0962, 'learning_rate': 4.684333742708014e-05, 'epoch': 6.31} {'loss': 0.0952, 'learning_rate': 4.684093874731348e-05, 'epoch': 6.32} {'loss': 0.0967, 'learning_rate': 4.6838540067546824e-05, 'epoch': 6.32} {'loss': 0.0927, 'learning_rate': 4.683614138778017e-05, 'epoch': 6.33} {'loss': 0.0904, 'learning_rate': 4.683374270801351e-05, 'epoch': 6.33} {'loss': 0.0883, 'learning_rate': 4.6831344028246855e-05, 'epoch': 6.34} {'loss': 0.0959, 'learning_rate': 4.6828945348480194e-05, 'epoch': 6.34} {'loss': 0.0987, 'learning_rate': 4.682654666871355e-05, 'epoch': 6.35} {'loss': 0.0947, 'learning_rate': 4.682414798894689e-05, 'epoch': 6.35} {'loss': 0.094, 'learning_rate': 4.682174930918023e-05, 'epoch': 6.36} {'loss': 0.0925, 'learning_rate': 4.681935062941357e-05, 'epoch': 6.36} {'loss': 0.094, 'learning_rate': 4.681695194964691e-05, 'epoch': 6.37} {'loss': 0.0913, 'learning_rate': 4.6814553269880264e-05, 'epoch': 6.37} {'loss': 0.0928, 'learning_rate': 4.6812154590113604e-05, 'epoch': 6.38} {'loss': 0.0931, 'learning_rate': 4.680975591034695e-05, 'epoch': 6.38} {'loss': 0.0943, 'learning_rate': 4.680735723058029e-05, 'epoch': 6.39} {'loss': 0.0937, 'learning_rate': 4.6804958550813635e-05, 'epoch': 6.39} {'loss': 0.0889, 'learning_rate': 4.680255987104698e-05, 'epoch': 6.39} {'loss': 0.0918, 'learning_rate': 4.680016119128032e-05, 'epoch': 6.4} {'loss': 0.0965, 'learning_rate': 4.6797762511513667e-05, 'epoch': 6.4} {'loss': 0.0924, 'learning_rate': 4.6795363831747006e-05, 'epoch': 6.41} {'loss': 0.0916, 'learning_rate': 4.679296515198035e-05, 'epoch': 6.41} {'loss': 0.0947, 'learning_rate': 4.67905664722137e-05, 'epoch': 6.42} {'loss': 0.0925, 'learning_rate': 4.6788167792447044e-05, 'epoch': 6.42} {'loss': 0.0983, 'learning_rate': 4.6785769112680383e-05, 'epoch': 6.43} {'loss': 0.0906, 'learning_rate': 4.678337043291372e-05, 'epoch': 6.43} {'loss': 0.0923, 'learning_rate': 4.678097175314707e-05, 'epoch': 6.44} {'loss': 0.0935, 'learning_rate': 4.6778573073380415e-05, 'epoch': 6.44} {'loss': 0.0956, 'learning_rate': 4.677617439361376e-05, 'epoch': 6.45} {'loss': 0.0921, 'learning_rate': 4.67737757138471e-05, 'epoch': 6.45} {'loss': 0.0902, 'learning_rate': 4.6771377034080446e-05, 'epoch': 6.46} {'loss': 0.0917, 'learning_rate': 4.6768978354313786e-05, 'epoch': 6.46} {'loss': 0.0925, 'learning_rate': 4.676657967454713e-05, 'epoch': 6.47} {'loss': 0.0923, 'learning_rate': 4.676418099478048e-05, 'epoch': 6.47} {'loss': 0.0959, 'learning_rate': 4.676178231501382e-05, 'epoch': 6.48} {'loss': 0.0922, 'learning_rate': 4.675938363524716e-05, 'epoch': 6.48} {'loss': 0.0911, 'learning_rate': 4.67569849554805e-05, 'epoch': 6.49} {'loss': 0.091, 'learning_rate': 4.675458627571385e-05, 'epoch': 6.49} {'loss': 0.0927, 'learning_rate': 4.6752187595947195e-05, 'epoch': 6.5} {'loss': 0.0912, 'learning_rate': 4.6749788916180534e-05, 'epoch': 6.5} {'loss': 0.0905, 'learning_rate': 4.674739023641388e-05, 'epoch': 6.51} {'loss': 0.0945, 'learning_rate': 4.674499155664722e-05, 'epoch': 6.51} {'loss': 0.0912, 'learning_rate': 4.674259287688057e-05, 'epoch': 6.51} {'loss': 0.0921, 'learning_rate': 4.674019419711391e-05, 'epoch': 6.52} {'loss': 0.09, 'learning_rate': 4.673779551734726e-05, 'epoch': 6.52} {'loss': 0.0914, 'learning_rate': 4.67353968375806e-05, 'epoch': 6.53} {'loss': 0.0908, 'learning_rate': 4.6732998157813936e-05, 'epoch': 6.53} {'loss': 0.0928, 'learning_rate': 4.673059947804729e-05, 'epoch': 6.54} {'loss': 0.0913, 'learning_rate': 4.672820079828063e-05, 'epoch': 6.54} {'loss': 0.0899, 'learning_rate': 4.6725802118513975e-05, 'epoch': 6.55} {'loss': 0.0957, 'learning_rate': 4.6723403438747314e-05, 'epoch': 6.55} {'loss': 0.0968, 'learning_rate': 4.672100475898066e-05, 'epoch': 6.56} {'loss': 0.0909, 'learning_rate': 4.6718606079214e-05, 'epoch': 6.56} {'loss': 0.0899, 'learning_rate': 4.6716207399447346e-05, 'epoch': 6.57} {'loss': 0.0922, 'learning_rate': 4.671380871968069e-05, 'epoch': 6.57} {'loss': 0.0909, 'learning_rate': 4.671141003991403e-05, 'epoch': 6.58} {'loss': 0.0934, 'learning_rate': 4.670901136014738e-05, 'epoch': 6.58} {'loss': 0.0891, 'learning_rate': 4.6706612680380716e-05, 'epoch': 6.59} {'loss': 0.093, 'learning_rate': 4.670421400061407e-05, 'epoch': 6.59} {'loss': 0.0891, 'learning_rate': 4.670181532084741e-05, 'epoch': 6.6} {'loss': 0.0907, 'learning_rate': 4.669941664108075e-05, 'epoch': 6.6} {'loss': 0.0971, 'learning_rate': 4.6697017961314094e-05, 'epoch': 6.61} {'loss': 0.0944, 'learning_rate': 4.669461928154743e-05, 'epoch': 6.61} {'loss': 0.0955, 'learning_rate': 4.6692220601780786e-05, 'epoch': 6.62} {'loss': 0.0935, 'learning_rate': 4.6689821922014125e-05, 'epoch': 6.62} {'loss': 0.0904, 'learning_rate': 4.668742324224747e-05, 'epoch': 6.63} {'loss': 0.0915, 'learning_rate': 4.668502456248081e-05, 'epoch': 6.63} {'loss': 0.0904, 'learning_rate': 4.668262588271416e-05, 'epoch': 6.63} {'loss': 0.0925, 'learning_rate': 4.66802272029475e-05, 'epoch': 6.64} {'loss': 0.0928, 'learning_rate': 4.667782852318084e-05, 'epoch': 6.64} {'loss': 0.0918, 'learning_rate': 4.667542984341419e-05, 'epoch': 6.65} {'loss': 0.0944, 'learning_rate': 4.667303116364753e-05, 'epoch': 6.65} {'loss': 0.0931, 'learning_rate': 4.6670632483880874e-05, 'epoch': 6.66} {'loss': 0.0909, 'learning_rate': 4.666823380411422e-05, 'epoch': 6.66} {'loss': 0.1147, 'learning_rate': 4.666583512434756e-05, 'epoch': 6.67} {'loss': 0.0941, 'learning_rate': 4.6663436444580905e-05, 'epoch': 6.67} {'loss': 0.0916, 'learning_rate': 4.6661037764814245e-05, 'epoch': 6.68} {'loss': 0.0932, 'learning_rate': 4.665863908504759e-05, 'epoch': 6.68} {'loss': 0.0901, 'learning_rate': 4.665624040528094e-05, 'epoch': 6.69} {'loss': 0.0935, 'learning_rate': 4.665384172551428e-05, 'epoch': 6.69} {'loss': 0.0874, 'learning_rate': 4.665144304574762e-05, 'epoch': 6.7} {'loss': 0.0902, 'learning_rate': 4.664904436598097e-05, 'epoch': 6.7} {'loss': 0.0898, 'learning_rate': 4.664664568621431e-05, 'epoch': 6.71} {'loss': 0.092, 'learning_rate': 4.6644247006447654e-05, 'epoch': 6.71} {'loss': 0.0892, 'learning_rate': 4.6641848326681e-05, 'epoch': 6.72} {'loss': 0.0924, 'learning_rate': 4.663944964691434e-05, 'epoch': 6.72} {'loss': 0.095, 'learning_rate': 4.6637050967147685e-05, 'epoch': 6.73} {'loss': 0.0906, 'learning_rate': 4.6634652287381025e-05, 'epoch': 6.73} {'loss': 0.0891, 'learning_rate': 4.663225360761437e-05, 'epoch': 6.74} {'loss': 0.091, 'learning_rate': 4.662985492784772e-05, 'epoch': 6.74} {'loss': 0.0885, 'learning_rate': 4.6627456248081056e-05, 'epoch': 6.75} {'loss': 0.0923, 'learning_rate': 4.66250575683144e-05, 'epoch': 6.75} {'loss': 0.0897, 'learning_rate': 4.662265888854774e-05, 'epoch': 6.75} {'loss': 0.0896, 'learning_rate': 4.6620260208781094e-05, 'epoch': 6.76} {'loss': 0.0923, 'learning_rate': 4.6617861529014434e-05, 'epoch': 6.76} {'loss': 0.093, 'learning_rate': 4.661546284924777e-05, 'epoch': 6.77} {'loss': 0.0905, 'learning_rate': 4.661306416948112e-05, 'epoch': 6.77} {'loss': 0.0906, 'learning_rate': 4.661066548971446e-05, 'epoch': 6.78} {'loss': 0.0919, 'learning_rate': 4.660826680994781e-05, 'epoch': 6.78} {'loss': 0.091, 'learning_rate': 4.660586813018115e-05, 'epoch': 6.79} {'loss': 0.088, 'learning_rate': 4.66034694504145e-05, 'epoch': 6.79} {'loss': 0.0916, 'learning_rate': 4.6601070770647836e-05, 'epoch': 6.8} {'loss': 0.095, 'learning_rate': 4.659867209088118e-05, 'epoch': 6.8} {'loss': 0.0927, 'learning_rate': 4.659627341111453e-05, 'epoch': 6.81} {'loss': 0.0949, 'learning_rate': 4.659387473134787e-05, 'epoch': 6.81} {'loss': 0.0925, 'learning_rate': 4.6591476051581214e-05, 'epoch': 6.82} {'loss': 0.0943, 'learning_rate': 4.658907737181455e-05, 'epoch': 6.82} {'loss': 0.0911, 'learning_rate': 4.65866786920479e-05, 'epoch': 6.83} {'loss': 0.0894, 'learning_rate': 4.6584280012281245e-05, 'epoch': 6.83} {'loss': 0.0905, 'learning_rate': 4.6581881332514584e-05, 'epoch': 6.84} {'loss': 0.0911, 'learning_rate': 4.657948265274793e-05, 'epoch': 6.84} {'loss': 0.086, 'learning_rate': 4.657708397298127e-05, 'epoch': 6.85} {'loss': 0.0884, 'learning_rate': 4.6574685293214616e-05, 'epoch': 6.85} {'loss': 0.0913, 'learning_rate': 4.657228661344796e-05, 'epoch': 6.86} {'loss': 0.0911, 'learning_rate': 4.656988793368131e-05, 'epoch': 6.86} {'loss': 0.0893, 'learning_rate': 4.656748925391465e-05, 'epoch': 6.87} {'loss': 0.0959, 'learning_rate': 4.6565090574147993e-05, 'epoch': 6.87} {'loss': 0.0873, 'learning_rate': 4.656269189438133e-05, 'epoch': 6.87} {'loss': 0.0945, 'learning_rate': 4.656029321461468e-05, 'epoch': 6.88} {'loss': 0.0904, 'learning_rate': 4.6557894534848025e-05, 'epoch': 6.88} {'loss': 0.0918, 'learning_rate': 4.6555495855081364e-05, 'epoch': 6.89} {'loss': 0.091, 'learning_rate': 4.655309717531471e-05, 'epoch': 6.89} {'loss': 0.0888, 'learning_rate': 4.655069849554805e-05, 'epoch': 6.9} {'loss': 0.0919, 'learning_rate': 4.6548299815781396e-05, 'epoch': 6.9} {'loss': 0.0887, 'learning_rate': 4.654590113601474e-05, 'epoch': 6.91} {'loss': 0.0887, 'learning_rate': 4.654350245624808e-05, 'epoch': 6.91} {'loss': 0.0904, 'learning_rate': 4.654110377648143e-05, 'epoch': 6.92} {'loss': 0.0917, 'learning_rate': 4.6538705096714767e-05, 'epoch': 6.92} {'loss': 0.0908, 'learning_rate': 4.653630641694812e-05, 'epoch': 6.93} {'loss': 0.0918, 'learning_rate': 4.653390773718146e-05, 'epoch': 6.93} {'loss': 0.0902, 'learning_rate': 4.6531509057414805e-05, 'epoch': 6.94} {'loss': 0.0902, 'learning_rate': 4.6529110377648144e-05, 'epoch': 6.94} {'loss': 0.09, 'learning_rate': 4.6526711697881483e-05, 'epoch': 6.95} {'loss': 0.0896, 'learning_rate': 4.6524313018114836e-05, 'epoch': 6.95} {'loss': 0.0877, 'learning_rate': 4.6521914338348176e-05, 'epoch': 6.96} {'loss': 0.0928, 'learning_rate': 4.651951565858152e-05, 'epoch': 6.96} {'loss': 0.089, 'learning_rate': 4.651711697881486e-05, 'epoch': 6.97} {'loss': 0.0903, 'learning_rate': 4.651471829904821e-05, 'epoch': 6.97} {'loss': 0.0926, 'learning_rate': 4.6512319619281546e-05, 'epoch': 6.98} {'loss': 0.0922, 'learning_rate': 4.650992093951489e-05, 'epoch': 6.98} {'loss': 0.0896, 'learning_rate': 4.650752225974824e-05, 'epoch': 6.98} {'loss': 0.0881, 'learning_rate': 4.650512357998158e-05, 'epoch': 6.99} {'loss': 0.0905, 'learning_rate': 4.6502724900214924e-05, 'epoch': 6.99} {'loss': 0.0918, 'learning_rate': 4.650032622044826e-05, 'epoch': 7.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.081578828394413, 'eval_runtime': 3204.9311, 'eval_samples_per_second': 130.079, 'eval_steps_per_second': 16.26, 'epoch': 7.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-729568 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-729568/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-729568/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-625344] due to args.save_total_limit {'loss': 0.088, 'learning_rate': 4.6497927540681616e-05, 'epoch': 7.0} {'loss': 0.0893, 'learning_rate': 4.6495528860914956e-05, 'epoch': 7.01} {'loss': 0.0878, 'learning_rate': 4.6493130181148295e-05, 'epoch': 7.01} {'loss': 0.0909, 'learning_rate': 4.649073150138164e-05, 'epoch': 7.02} {'loss': 0.0907, 'learning_rate': 4.648833282161498e-05, 'epoch': 7.02} {'loss': 0.0902, 'learning_rate': 4.648593414184833e-05, 'epoch': 7.03} {'loss': 0.0908, 'learning_rate': 4.648353546208167e-05, 'epoch': 7.03} {'loss': 0.0911, 'learning_rate': 4.648113678231502e-05, 'epoch': 7.04} {'loss': 0.0912, 'learning_rate': 4.647873810254836e-05, 'epoch': 7.04} {'loss': 0.0867, 'learning_rate': 4.6476339422781704e-05, 'epoch': 7.05} {'loss': 0.0882, 'learning_rate': 4.647394074301505e-05, 'epoch': 7.05} {'loss': 0.089, 'learning_rate': 4.647154206324839e-05, 'epoch': 7.06} {'loss': 0.0899, 'learning_rate': 4.6469143383481735e-05, 'epoch': 7.06} {'loss': 0.0896, 'learning_rate': 4.6466744703715075e-05, 'epoch': 7.07} {'loss': 0.0922, 'learning_rate': 4.646434602394842e-05, 'epoch': 7.07} {'loss': 0.0913, 'learning_rate': 4.646194734418177e-05, 'epoch': 7.08} {'loss': 0.0891, 'learning_rate': 4.6459548664415106e-05, 'epoch': 7.08} {'loss': 0.0886, 'learning_rate': 4.645714998464845e-05, 'epoch': 7.09} {'loss': 0.0893, 'learning_rate': 4.645475130488179e-05, 'epoch': 7.09} {'loss': 0.0906, 'learning_rate': 4.645235262511514e-05, 'epoch': 7.1} {'loss': 0.0907, 'learning_rate': 4.6449953945348484e-05, 'epoch': 7.1} {'loss': 0.0893, 'learning_rate': 4.644755526558183e-05, 'epoch': 7.1} {'loss': 0.0905, 'learning_rate': 4.644515658581517e-05, 'epoch': 7.11} {'loss': 0.0921, 'learning_rate': 4.644275790604851e-05, 'epoch': 7.11} {'loss': 0.0891, 'learning_rate': 4.6440359226281855e-05, 'epoch': 7.12} {'loss': 0.09, 'learning_rate': 4.64379605465152e-05, 'epoch': 7.12} {'loss': 0.088, 'learning_rate': 4.643556186674855e-05, 'epoch': 7.13} {'loss': 0.0882, 'learning_rate': 4.6433163186981886e-05, 'epoch': 7.13} {'loss': 0.0882, 'learning_rate': 4.643076450721523e-05, 'epoch': 7.14} {'loss': 0.0898, 'learning_rate': 4.642836582744857e-05, 'epoch': 7.14} {'loss': 0.0874, 'learning_rate': 4.642596714768192e-05, 'epoch': 7.15} {'loss': 0.0907, 'learning_rate': 4.6423568467915264e-05, 'epoch': 7.15} {'loss': 0.0936, 'learning_rate': 4.64211697881486e-05, 'epoch': 7.16} {'loss': 0.0907, 'learning_rate': 4.641877110838195e-05, 'epoch': 7.16} {'loss': 0.0866, 'learning_rate': 4.641637242861529e-05, 'epoch': 7.17} {'loss': 0.0899, 'learning_rate': 4.641397374884864e-05, 'epoch': 7.17} {'loss': 0.0901, 'learning_rate': 4.641157506908198e-05, 'epoch': 7.18} {'loss': 0.0879, 'learning_rate': 4.640917638931532e-05, 'epoch': 7.18} {'loss': 0.0888, 'learning_rate': 4.6406777709548666e-05, 'epoch': 7.19} {'loss': 0.0875, 'learning_rate': 4.6404379029782005e-05, 'epoch': 7.19} {'loss': 0.0891, 'learning_rate': 4.640198035001536e-05, 'epoch': 7.2} {'loss': 0.0891, 'learning_rate': 4.63995816702487e-05, 'epoch': 7.2} {'loss': 0.0866, 'learning_rate': 4.6397182990482044e-05, 'epoch': 7.21} {'loss': 0.0894, 'learning_rate': 4.639478431071538e-05, 'epoch': 7.21} {'loss': 0.088, 'learning_rate': 4.639238563094873e-05, 'epoch': 7.22} {'loss': 0.106, 'learning_rate': 4.6389986951182075e-05, 'epoch': 7.22} {'loss': 0.0926, 'learning_rate': 4.6387588271415414e-05, 'epoch': 7.22} {'loss': 0.0881, 'learning_rate': 4.638518959164876e-05, 'epoch': 7.23} {'loss': 0.0874, 'learning_rate': 4.63827909118821e-05, 'epoch': 7.23} {'loss': 0.0887, 'learning_rate': 4.6380392232115446e-05, 'epoch': 7.24} {'loss': 0.0897, 'learning_rate': 4.637799355234879e-05, 'epoch': 7.24} {'loss': 0.0865, 'learning_rate': 4.637559487258213e-05, 'epoch': 7.25} {'loss': 0.0894, 'learning_rate': 4.637319619281548e-05, 'epoch': 7.25} {'loss': 0.091, 'learning_rate': 4.637079751304882e-05, 'epoch': 7.26} {'loss': 0.0906, 'learning_rate': 4.636839883328216e-05, 'epoch': 7.26} {'loss': 0.0889, 'learning_rate': 4.636600015351551e-05, 'epoch': 7.27} {'loss': 0.0854, 'learning_rate': 4.6363601473748855e-05, 'epoch': 7.27} {'loss': 0.0905, 'learning_rate': 4.6361202793982194e-05, 'epoch': 7.28} {'loss': 0.0932, 'learning_rate': 4.635880411421554e-05, 'epoch': 7.28} {'loss': 0.0904, 'learning_rate': 4.635640543444888e-05, 'epoch': 7.29} {'loss': 0.0899, 'learning_rate': 4.6354006754682226e-05, 'epoch': 7.29} {'loss': 0.0862, 'learning_rate': 4.635160807491557e-05, 'epoch': 7.3} {'loss': 0.0902, 'learning_rate': 4.634920939514891e-05, 'epoch': 7.3} {'loss': 0.0873, 'learning_rate': 4.634681071538226e-05, 'epoch': 7.31} {'loss': 0.0901, 'learning_rate': 4.63444120356156e-05, 'epoch': 7.31} {'loss': 0.0899, 'learning_rate': 4.634201335584894e-05, 'epoch': 7.32} {'loss': 0.0871, 'learning_rate': 4.633961467608229e-05, 'epoch': 7.32} {'loss': 0.0852, 'learning_rate': 4.633721599631563e-05, 'epoch': 7.33} {'loss': 0.092, 'learning_rate': 4.6334817316548974e-05, 'epoch': 7.33} {'loss': 0.0879, 'learning_rate': 4.6332418636782314e-05, 'epoch': 7.34} {'loss': 0.0881, 'learning_rate': 4.6330019957015666e-05, 'epoch': 7.34} {'loss': 0.0918, 'learning_rate': 4.6327621277249006e-05, 'epoch': 7.34} {'loss': 0.0899, 'learning_rate': 4.6325222597482345e-05, 'epoch': 7.35} {'loss': 0.0832, 'learning_rate': 4.632282391771569e-05, 'epoch': 7.35} {'loss': 0.0885, 'learning_rate': 4.632042523794903e-05, 'epoch': 7.36} {'loss': 0.0877, 'learning_rate': 4.631802655818238e-05, 'epoch': 7.36} {'loss': 0.0874, 'learning_rate': 4.631562787841572e-05, 'epoch': 7.37} {'loss': 0.0895, 'learning_rate': 4.631322919864907e-05, 'epoch': 7.37} {'loss': 0.091, 'learning_rate': 4.631083051888241e-05, 'epoch': 7.38} {'loss': 0.0897, 'learning_rate': 4.6308431839115754e-05, 'epoch': 7.38} {'loss': 0.0915, 'learning_rate': 4.63060331593491e-05, 'epoch': 7.39} {'loss': 0.0872, 'learning_rate': 4.630363447958244e-05, 'epoch': 7.39} {'loss': 0.088, 'learning_rate': 4.6301235799815786e-05, 'epoch': 7.4} {'loss': 0.0883, 'learning_rate': 4.6298837120049125e-05, 'epoch': 7.4} {'loss': 0.0907, 'learning_rate': 4.629643844028247e-05, 'epoch': 7.41} {'loss': 0.0899, 'learning_rate': 4.629403976051581e-05, 'epoch': 7.41} {'loss': 0.0897, 'learning_rate': 4.6291641080749156e-05, 'epoch': 7.42} {'loss': 0.0904, 'learning_rate': 4.62892424009825e-05, 'epoch': 7.42} {'loss': 0.089, 'learning_rate': 4.628684372121584e-05, 'epoch': 7.43} {'loss': 0.088, 'learning_rate': 4.628444504144919e-05, 'epoch': 7.43} {'loss': 0.0878, 'learning_rate': 4.628204636168253e-05, 'epoch': 7.44} {'loss': 0.0896, 'learning_rate': 4.627964768191588e-05, 'epoch': 7.44} {'loss': 0.0891, 'learning_rate': 4.627724900214922e-05, 'epoch': 7.45} {'loss': 0.0875, 'learning_rate': 4.6274850322382566e-05, 'epoch': 7.45} {'loss': 0.0889, 'learning_rate': 4.6272451642615905e-05, 'epoch': 7.46} {'loss': 0.0913, 'learning_rate': 4.6270052962849244e-05, 'epoch': 7.46} {'loss': 0.0884, 'learning_rate': 4.62676542830826e-05, 'epoch': 7.46} {'loss': 0.0894, 'learning_rate': 4.6265255603315936e-05, 'epoch': 7.47} {'loss': 0.0913, 'learning_rate': 4.626285692354928e-05, 'epoch': 7.47} {'loss': 0.0892, 'learning_rate': 4.626045824378262e-05, 'epoch': 7.48} {'loss': 0.0891, 'learning_rate': 4.625805956401597e-05, 'epoch': 7.48} {'loss': 0.0934, 'learning_rate': 4.6255660884249314e-05, 'epoch': 7.49} {'loss': 0.0884, 'learning_rate': 4.625326220448265e-05, 'epoch': 7.49} {'loss': 0.0899, 'learning_rate': 4.6250863524716e-05, 'epoch': 7.5} {'loss': 0.087, 'learning_rate': 4.624846484494934e-05, 'epoch': 7.5} {'loss': 0.0872, 'learning_rate': 4.6246066165182685e-05, 'epoch': 7.51} {'loss': 0.0856, 'learning_rate': 4.624366748541603e-05, 'epoch': 7.51} {'loss': 0.0872, 'learning_rate': 4.624126880564938e-05, 'epoch': 7.52} {'loss': 0.0883, 'learning_rate': 4.6238870125882716e-05, 'epoch': 7.52} {'loss': 0.0859, 'learning_rate': 4.6236471446116056e-05, 'epoch': 7.53} {'loss': 0.0891, 'learning_rate': 4.62340727663494e-05, 'epoch': 7.53} {'loss': 0.0884, 'learning_rate': 4.623167408658275e-05, 'epoch': 7.54} {'loss': 0.0861, 'learning_rate': 4.6229275406816094e-05, 'epoch': 7.54} {'loss': 0.087, 'learning_rate': 4.622687672704943e-05, 'epoch': 7.55} {'loss': 0.0908, 'learning_rate': 4.622447804728278e-05, 'epoch': 7.55} {'loss': 0.0902, 'learning_rate': 4.622207936751612e-05, 'epoch': 7.56} {'loss': 0.0885, 'learning_rate': 4.6219680687749465e-05, 'epoch': 7.56} {'loss': 0.0868, 'learning_rate': 4.621728200798281e-05, 'epoch': 7.57} {'loss': 0.0889, 'learning_rate': 4.621488332821615e-05, 'epoch': 7.57} {'loss': 0.0855, 'learning_rate': 4.6212484648449496e-05, 'epoch': 7.58} {'loss': 0.0896, 'learning_rate': 4.6210085968682835e-05, 'epoch': 7.58} {'loss': 0.0978, 'learning_rate': 4.620768728891618e-05, 'epoch': 7.58} {'loss': 0.0916, 'learning_rate': 4.620528860914953e-05, 'epoch': 7.59} {'loss': 0.0867, 'learning_rate': 4.620288992938287e-05, 'epoch': 7.59} {'loss': 0.0861, 'learning_rate': 4.620049124961621e-05, 'epoch': 7.6} {'loss': 0.0877, 'learning_rate': 4.619809256984955e-05, 'epoch': 7.6} {'loss': 0.0898, 'learning_rate': 4.6195693890082905e-05, 'epoch': 7.61} {'loss': 0.0882, 'learning_rate': 4.6193295210316245e-05, 'epoch': 7.61} {'loss': 0.0856, 'learning_rate': 4.619089653054959e-05, 'epoch': 7.62} {'loss': 0.0882, 'learning_rate': 4.618849785078293e-05, 'epoch': 7.62} {'loss': 0.0904, 'learning_rate': 4.6186099171016276e-05, 'epoch': 7.63} {'loss': 0.0897, 'learning_rate': 4.618370049124962e-05, 'epoch': 7.63} {'loss': 0.0864, 'learning_rate': 4.618130181148296e-05, 'epoch': 7.64} {'loss': 0.0887, 'learning_rate': 4.617890313171631e-05, 'epoch': 7.64} {'loss': 0.0895, 'learning_rate': 4.617650445194965e-05, 'epoch': 7.65} {'loss': 0.0891, 'learning_rate': 4.617410577218299e-05, 'epoch': 7.65} {'loss': 0.0873, 'learning_rate': 4.617170709241634e-05, 'epoch': 7.66} {'loss': 0.084, 'learning_rate': 4.616930841264968e-05, 'epoch': 7.66} {'loss': 0.089, 'learning_rate': 4.6166909732883024e-05, 'epoch': 7.67} {'loss': 0.0878, 'learning_rate': 4.6164511053116364e-05, 'epoch': 7.67} {'loss': 0.0861, 'learning_rate': 4.616211237334971e-05, 'epoch': 7.68} {'loss': 0.0881, 'learning_rate': 4.6159713693583056e-05, 'epoch': 7.68} {'loss': 0.0867, 'learning_rate': 4.61573150138164e-05, 'epoch': 7.69} {'loss': 0.0867, 'learning_rate': 4.615491633404974e-05, 'epoch': 7.69} {'loss': 0.0876, 'learning_rate': 4.615251765428308e-05, 'epoch': 7.69} {'loss': 0.0906, 'learning_rate': 4.615011897451643e-05, 'epoch': 7.7} {'loss': 0.0891, 'learning_rate': 4.614772029474977e-05, 'epoch': 7.7} {'loss': 0.0867, 'learning_rate': 4.614532161498312e-05, 'epoch': 7.71} {'loss': 0.0878, 'learning_rate': 4.614292293521646e-05, 'epoch': 7.71} {'loss': 0.087, 'learning_rate': 4.6140524255449804e-05, 'epoch': 7.72} {'loss': 0.0904, 'learning_rate': 4.6138125575683144e-05, 'epoch': 7.72} {'loss': 0.0865, 'learning_rate': 4.613572689591649e-05, 'epoch': 7.73} {'loss': 0.0879, 'learning_rate': 4.6133328216149836e-05, 'epoch': 7.73} {'loss': 0.0861, 'learning_rate': 4.6130929536383175e-05, 'epoch': 7.74} {'loss': 0.0863, 'learning_rate': 4.612853085661652e-05, 'epoch': 7.74} {'loss': 0.0921, 'learning_rate': 4.612613217684986e-05, 'epoch': 7.75} {'loss': 0.09, 'learning_rate': 4.6123733497083213e-05, 'epoch': 7.75} {'loss': 0.087, 'learning_rate': 4.612133481731655e-05, 'epoch': 7.76} {'loss': 0.0877, 'learning_rate': 4.611893613754989e-05, 'epoch': 7.76} {'loss': 0.0875, 'learning_rate': 4.611653745778324e-05, 'epoch': 7.77} {'loss': 0.0877, 'learning_rate': 4.611413877801658e-05, 'epoch': 7.77} {'loss': 0.0859, 'learning_rate': 4.611174009824993e-05, 'epoch': 7.78} {'loss': 0.085, 'learning_rate': 4.610934141848327e-05, 'epoch': 7.78} {'loss': 0.0867, 'learning_rate': 4.6106942738716616e-05, 'epoch': 7.79} {'loss': 0.0879, 'learning_rate': 4.6104544058949955e-05, 'epoch': 7.79} {'loss': 0.0892, 'learning_rate': 4.61021453791833e-05, 'epoch': 7.8} {'loss': 0.086, 'learning_rate': 4.609974669941665e-05, 'epoch': 7.8} {'loss': 0.0862, 'learning_rate': 4.6097348019649987e-05, 'epoch': 7.81} {'loss': 0.0908, 'learning_rate': 4.609494933988333e-05, 'epoch': 7.81} {'loss': 0.0916, 'learning_rate': 4.609255066011667e-05, 'epoch': 7.81} {'loss': 0.0864, 'learning_rate': 4.609015198035002e-05, 'epoch': 7.82} {'loss': 0.0877, 'learning_rate': 4.608775330058336e-05, 'epoch': 7.82} {'loss': 0.0889, 'learning_rate': 4.6085354620816703e-05, 'epoch': 7.83} {'loss': 0.0866, 'learning_rate': 4.608295594105005e-05, 'epoch': 7.83} {'loss': 0.0848, 'learning_rate': 4.608055726128339e-05, 'epoch': 7.84} {'loss': 0.0887, 'learning_rate': 4.6078158581516735e-05, 'epoch': 7.84} {'loss': 0.0862, 'learning_rate': 4.6075759901750074e-05, 'epoch': 7.85} {'loss': 0.0861, 'learning_rate': 4.607336122198343e-05, 'epoch': 7.85} {'loss': 0.0881, 'learning_rate': 4.6070962542216766e-05, 'epoch': 7.86} {'loss': 0.0834, 'learning_rate': 4.606856386245011e-05, 'epoch': 7.86} {'loss': 0.0864, 'learning_rate': 4.606616518268345e-05, 'epoch': 7.87} {'loss': 0.0843, 'learning_rate': 4.606376650291679e-05, 'epoch': 7.87} {'loss': 0.0867, 'learning_rate': 4.6061367823150144e-05, 'epoch': 7.88} {'loss': 0.0865, 'learning_rate': 4.605896914338348e-05, 'epoch': 7.88} {'loss': 0.09, 'learning_rate': 4.605657046361683e-05, 'epoch': 7.89} {'loss': 0.0857, 'learning_rate': 4.605417178385017e-05, 'epoch': 7.89} {'loss': 0.0867, 'learning_rate': 4.6051773104083515e-05, 'epoch': 7.9} {'loss': 0.0856, 'learning_rate': 4.604937442431686e-05, 'epoch': 7.9} {'loss': 0.0859, 'learning_rate': 4.60469757445502e-05, 'epoch': 7.91} {'loss': 0.0849, 'learning_rate': 4.6044577064783546e-05, 'epoch': 7.91} {'loss': 0.0875, 'learning_rate': 4.6042178385016886e-05, 'epoch': 7.92} {'loss': 0.0835, 'learning_rate': 4.603977970525023e-05, 'epoch': 7.92} {'loss': 0.0875, 'learning_rate': 4.603738102548358e-05, 'epoch': 7.93} {'loss': 0.0866, 'learning_rate': 4.603498234571692e-05, 'epoch': 7.93} {'loss': 0.0879, 'learning_rate': 4.603258366595026e-05, 'epoch': 7.93} {'loss': 0.0892, 'learning_rate': 4.60301849861836e-05, 'epoch': 7.94} {'loss': 0.0916, 'learning_rate': 4.602778630641695e-05, 'epoch': 7.94} {'loss': 0.0874, 'learning_rate': 4.6025387626650295e-05, 'epoch': 7.95} {'loss': 0.0886, 'learning_rate': 4.602298894688364e-05, 'epoch': 7.95} {'loss': 0.0872, 'learning_rate': 4.602059026711698e-05, 'epoch': 7.96} {'loss': 0.0876, 'learning_rate': 4.6018191587350326e-05, 'epoch': 7.96} {'loss': 0.0862, 'learning_rate': 4.6015792907583666e-05, 'epoch': 7.97} {'loss': 0.0883, 'learning_rate': 4.601339422781701e-05, 'epoch': 7.97} {'loss': 0.0875, 'learning_rate': 4.601099554805036e-05, 'epoch': 7.98} {'loss': 0.0843, 'learning_rate': 4.60085968682837e-05, 'epoch': 7.98} {'loss': 0.0869, 'learning_rate': 4.600619818851704e-05, 'epoch': 7.99} {'loss': 0.0848, 'learning_rate': 4.600379950875038e-05, 'epoch': 7.99} {'loss': 0.0855, 'learning_rate': 4.600140082898373e-05, 'epoch': 8.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.07815335690975189, 'eval_runtime': 3127.9562, 'eval_samples_per_second': 133.28, 'eval_steps_per_second': 16.66, 'epoch': 8.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-833792 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-833792/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-833792/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-729568] due to args.save_total_limit {'loss': 0.0918, 'learning_rate': 4.5999002149217075e-05, 'epoch': 8.0} {'loss': 0.1114, 'learning_rate': 4.5996603469450414e-05, 'epoch': 8.01} {'loss': 0.0904, 'learning_rate': 4.599420478968376e-05, 'epoch': 8.01} {'loss': 0.0864, 'learning_rate': 4.59918061099171e-05, 'epoch': 8.02} {'loss': 0.0839, 'learning_rate': 4.598940743015045e-05, 'epoch': 8.02} {'loss': 0.086, 'learning_rate': 4.598700875038379e-05, 'epoch': 8.03} {'loss': 0.0861, 'learning_rate': 4.598461007061714e-05, 'epoch': 8.03} {'loss': 0.0897, 'learning_rate': 4.598221139085048e-05, 'epoch': 8.04} {'loss': 0.0871, 'learning_rate': 4.5979812711083816e-05, 'epoch': 8.04} {'loss': 0.0853, 'learning_rate': 4.597741403131717e-05, 'epoch': 8.05} {'loss': 0.0856, 'learning_rate': 4.597501535155051e-05, 'epoch': 8.05} {'loss': 0.0844, 'learning_rate': 4.5972616671783855e-05, 'epoch': 8.05} {'loss': 0.0866, 'learning_rate': 4.5970217992017194e-05, 'epoch': 8.06} {'loss': 0.0899, 'learning_rate': 4.596781931225054e-05, 'epoch': 8.06} {'loss': 0.0818, 'learning_rate': 4.5965420632483886e-05, 'epoch': 8.07} {'loss': 0.0859, 'learning_rate': 4.5963021952717225e-05, 'epoch': 8.07} {'loss': 0.085, 'learning_rate': 4.596062327295057e-05, 'epoch': 8.08} {'loss': 0.0848, 'learning_rate': 4.595822459318391e-05, 'epoch': 8.08} {'loss': 0.0847, 'learning_rate': 4.595582591341726e-05, 'epoch': 8.09} {'loss': 0.086, 'learning_rate': 4.59534272336506e-05, 'epoch': 8.09} {'loss': 0.086, 'learning_rate': 4.595102855388395e-05, 'epoch': 8.1} {'loss': 0.0837, 'learning_rate': 4.594862987411729e-05, 'epoch': 8.1} {'loss': 0.0879, 'learning_rate': 4.594623119435063e-05, 'epoch': 8.11} {'loss': 0.0849, 'learning_rate': 4.5943832514583974e-05, 'epoch': 8.11} {'loss': 0.0859, 'learning_rate': 4.594143383481732e-05, 'epoch': 8.12} {'loss': 0.0863, 'learning_rate': 4.5939035155050666e-05, 'epoch': 8.12} {'loss': 0.0876, 'learning_rate': 4.5936636475284005e-05, 'epoch': 8.13} {'loss': 0.0876, 'learning_rate': 4.593423779551735e-05, 'epoch': 8.13} {'loss': 0.0875, 'learning_rate': 4.593183911575069e-05, 'epoch': 8.14} {'loss': 0.0849, 'learning_rate': 4.592944043598404e-05, 'epoch': 8.14} {'loss': 0.0838, 'learning_rate': 4.592704175621738e-05, 'epoch': 8.15} {'loss': 0.0864, 'learning_rate': 4.592464307645072e-05, 'epoch': 8.15} {'loss': 0.0838, 'learning_rate': 4.592224439668407e-05, 'epoch': 8.16} {'loss': 0.0882, 'learning_rate': 4.591984571691741e-05, 'epoch': 8.16} {'loss': 0.0852, 'learning_rate': 4.5917447037150754e-05, 'epoch': 8.17} {'loss': 0.0861, 'learning_rate': 4.59150483573841e-05, 'epoch': 8.17} {'loss': 0.0867, 'learning_rate': 4.591264967761744e-05, 'epoch': 8.17} {'loss': 0.0827, 'learning_rate': 4.5910250997850785e-05, 'epoch': 8.18} {'loss': 0.0853, 'learning_rate': 4.5907852318084124e-05, 'epoch': 8.18} {'loss': 0.0828, 'learning_rate': 4.590545363831748e-05, 'epoch': 8.19} {'loss': 0.0876, 'learning_rate': 4.590305495855082e-05, 'epoch': 8.19} {'loss': 0.085, 'learning_rate': 4.590065627878416e-05, 'epoch': 8.2} {'loss': 0.0867, 'learning_rate': 4.58982575990175e-05, 'epoch': 8.2} {'loss': 0.0883, 'learning_rate': 4.589585891925085e-05, 'epoch': 8.21} {'loss': 0.0862, 'learning_rate': 4.5893460239484194e-05, 'epoch': 8.21} {'loss': 0.0861, 'learning_rate': 4.5891061559717534e-05, 'epoch': 8.22} {'loss': 0.088, 'learning_rate': 4.588866287995088e-05, 'epoch': 8.22} {'loss': 0.0877, 'learning_rate': 4.588626420018422e-05, 'epoch': 8.23} {'loss': 0.0845, 'learning_rate': 4.5883865520417565e-05, 'epoch': 8.23} {'loss': 0.083, 'learning_rate': 4.5881466840650904e-05, 'epoch': 8.24} {'loss': 0.0897, 'learning_rate': 4.587906816088425e-05, 'epoch': 8.24} {'loss': 0.0852, 'learning_rate': 4.5876669481117597e-05, 'epoch': 8.25} {'loss': 0.0867, 'learning_rate': 4.5874270801350936e-05, 'epoch': 8.25} {'loss': 0.0866, 'learning_rate': 4.587187212158428e-05, 'epoch': 8.26} {'loss': 0.0821, 'learning_rate': 4.586947344181762e-05, 'epoch': 8.26} {'loss': 0.086, 'learning_rate': 4.5867074762050974e-05, 'epoch': 8.27} {'loss': 0.0878, 'learning_rate': 4.5864676082284313e-05, 'epoch': 8.27} {'loss': 0.0825, 'learning_rate': 4.586227740251765e-05, 'epoch': 8.28} {'loss': 0.0846, 'learning_rate': 4.5859878722751e-05, 'epoch': 8.28} {'loss': 0.0861, 'learning_rate': 4.585748004298434e-05, 'epoch': 8.29} {'loss': 0.0858, 'learning_rate': 4.585508136321769e-05, 'epoch': 8.29} {'loss': 0.0834, 'learning_rate': 4.585268268345103e-05, 'epoch': 8.29} {'loss': 0.0886, 'learning_rate': 4.5850284003684376e-05, 'epoch': 8.3} {'loss': 0.0874, 'learning_rate': 4.5847885323917716e-05, 'epoch': 8.3} {'loss': 0.0885, 'learning_rate': 4.584548664415106e-05, 'epoch': 8.31} {'loss': 0.086, 'learning_rate': 4.584308796438441e-05, 'epoch': 8.31} {'loss': 0.0876, 'learning_rate': 4.584068928461775e-05, 'epoch': 8.32} {'loss': 0.0866, 'learning_rate': 4.583829060485109e-05, 'epoch': 8.32} {'loss': 0.0847, 'learning_rate': 4.583589192508443e-05, 'epoch': 8.33} {'loss': 0.0869, 'learning_rate': 4.583349324531778e-05, 'epoch': 8.33} {'loss': 0.0842, 'learning_rate': 4.5831094565551125e-05, 'epoch': 8.34} {'loss': 0.0876, 'learning_rate': 4.5828695885784464e-05, 'epoch': 8.34} {'loss': 0.0861, 'learning_rate': 4.582629720601781e-05, 'epoch': 8.35} {'loss': 0.0849, 'learning_rate': 4.582389852625115e-05, 'epoch': 8.35} {'loss': 0.0849, 'learning_rate': 4.5821499846484496e-05, 'epoch': 8.36} {'loss': 0.0879, 'learning_rate': 4.581910116671784e-05, 'epoch': 8.36} {'loss': 0.0866, 'learning_rate': 4.581670248695119e-05, 'epoch': 8.37} {'loss': 0.0887, 'learning_rate': 4.581430380718453e-05, 'epoch': 8.37} {'loss': 0.0839, 'learning_rate': 4.581190512741787e-05, 'epoch': 8.38} {'loss': 0.0848, 'learning_rate': 4.580950644765121e-05, 'epoch': 8.38} {'loss': 0.0856, 'learning_rate': 4.580710776788456e-05, 'epoch': 8.39} {'loss': 0.0877, 'learning_rate': 4.5804709088117905e-05, 'epoch': 8.39} {'loss': 0.0844, 'learning_rate': 4.5802310408351244e-05, 'epoch': 8.4} {'loss': 0.0847, 'learning_rate': 4.579991172858459e-05, 'epoch': 8.4} {'loss': 0.0845, 'learning_rate': 4.579751304881793e-05, 'epoch': 8.4} {'loss': 0.0866, 'learning_rate': 4.5795114369051276e-05, 'epoch': 8.41} {'loss': 0.0832, 'learning_rate': 4.579271568928462e-05, 'epoch': 8.41} {'loss': 0.0847, 'learning_rate': 4.579031700951796e-05, 'epoch': 8.42} {'loss': 0.0868, 'learning_rate': 4.578791832975131e-05, 'epoch': 8.42} {'loss': 0.0845, 'learning_rate': 4.5785519649984646e-05, 'epoch': 8.43} {'loss': 0.0847, 'learning_rate': 4.5783120970218e-05, 'epoch': 8.43} {'loss': 0.0846, 'learning_rate': 4.578072229045134e-05, 'epoch': 8.44} {'loss': 0.0833, 'learning_rate': 4.5778323610684685e-05, 'epoch': 8.44} {'loss': 0.0839, 'learning_rate': 4.5775924930918024e-05, 'epoch': 8.45} {'loss': 0.0843, 'learning_rate': 4.577352625115136e-05, 'epoch': 8.45} {'loss': 0.085, 'learning_rate': 4.5771127571384716e-05, 'epoch': 8.46} {'loss': 0.0842, 'learning_rate': 4.5768728891618055e-05, 'epoch': 8.46} {'loss': 0.0877, 'learning_rate': 4.57663302118514e-05, 'epoch': 8.47} {'loss': 0.0858, 'learning_rate': 4.576393153208474e-05, 'epoch': 8.47} {'loss': 0.0845, 'learning_rate': 4.576153285231809e-05, 'epoch': 8.48} {'loss': 0.0832, 'learning_rate': 4.575913417255143e-05, 'epoch': 8.48} {'loss': 0.0848, 'learning_rate': 4.575673549278477e-05, 'epoch': 8.49} {'loss': 0.0822, 'learning_rate': 4.575433681301812e-05, 'epoch': 8.49} {'loss': 0.0885, 'learning_rate': 4.575193813325146e-05, 'epoch': 8.5} {'loss': 0.0848, 'learning_rate': 4.5749539453484804e-05, 'epoch': 8.5} {'loss': 0.0842, 'learning_rate': 4.574714077371815e-05, 'epoch': 8.51} {'loss': 0.0834, 'learning_rate': 4.574474209395149e-05, 'epoch': 8.51} {'loss': 0.0835, 'learning_rate': 4.5742343414184835e-05, 'epoch': 8.52} {'loss': 0.0866, 'learning_rate': 4.5739944734418175e-05, 'epoch': 8.52} {'loss': 0.0845, 'learning_rate': 4.573754605465152e-05, 'epoch': 8.52} {'loss': 0.0877, 'learning_rate': 4.573514737488487e-05, 'epoch': 8.53} {'loss': 0.083, 'learning_rate': 4.573274869511821e-05, 'epoch': 8.53} {'loss': 0.0848, 'learning_rate': 4.573035001535155e-05, 'epoch': 8.54} {'loss': 0.0859, 'learning_rate': 4.57279513355849e-05, 'epoch': 8.54} {'loss': 0.0842, 'learning_rate': 4.572555265581824e-05, 'epoch': 8.55} {'loss': 0.0873, 'learning_rate': 4.5723153976051584e-05, 'epoch': 8.55} {'loss': 0.0832, 'learning_rate': 4.572075529628493e-05, 'epoch': 8.56} {'loss': 0.0867, 'learning_rate': 4.571835661651827e-05, 'epoch': 8.56} {'loss': 0.0839, 'learning_rate': 4.5715957936751615e-05, 'epoch': 8.57} {'loss': 0.0834, 'learning_rate': 4.5713559256984955e-05, 'epoch': 8.57} {'loss': 0.0808, 'learning_rate': 4.57111605772183e-05, 'epoch': 8.58} {'loss': 0.087, 'learning_rate': 4.570876189745165e-05, 'epoch': 8.58} {'loss': 0.0858, 'learning_rate': 4.5706363217684986e-05, 'epoch': 8.59} {'loss': 0.0851, 'learning_rate': 4.570396453791833e-05, 'epoch': 8.59} {'loss': 0.0861, 'learning_rate': 4.570156585815167e-05, 'epoch': 8.6} {'loss': 0.0829, 'learning_rate': 4.5699167178385024e-05, 'epoch': 8.6} {'loss': 0.0854, 'learning_rate': 4.5696768498618364e-05, 'epoch': 8.61} {'loss': 0.0887, 'learning_rate': 4.569436981885171e-05, 'epoch': 8.61} {'loss': 0.0837, 'learning_rate': 4.569197113908505e-05, 'epoch': 8.62} {'loss': 0.0822, 'learning_rate': 4.568957245931839e-05, 'epoch': 8.62} {'loss': 0.0858, 'learning_rate': 4.568717377955174e-05, 'epoch': 8.63} {'loss': 0.0857, 'learning_rate': 4.568477509978508e-05, 'epoch': 8.63} {'loss': 0.0814, 'learning_rate': 4.568237642001843e-05, 'epoch': 8.64} {'loss': 0.0867, 'learning_rate': 4.5679977740251766e-05, 'epoch': 8.64} {'loss': 0.0838, 'learning_rate': 4.567757906048511e-05, 'epoch': 8.64} {'loss': 0.0824, 'learning_rate': 4.567518038071846e-05, 'epoch': 8.65} {'loss': 0.087, 'learning_rate': 4.56727817009518e-05, 'epoch': 8.65} {'loss': 0.0834, 'learning_rate': 4.5670383021185144e-05, 'epoch': 8.66} {'loss': 0.0859, 'learning_rate': 4.566798434141848e-05, 'epoch': 8.66} {'loss': 0.0855, 'learning_rate': 4.566558566165183e-05, 'epoch': 8.67} {'loss': 0.0842, 'learning_rate': 4.566318698188517e-05, 'epoch': 8.67} {'loss': 0.0857, 'learning_rate': 4.566078830211852e-05, 'epoch': 8.68} {'loss': 0.0855, 'learning_rate': 4.565838962235186e-05, 'epoch': 8.68} {'loss': 0.0833, 'learning_rate': 4.56559909425852e-05, 'epoch': 8.69} {'loss': 0.0827, 'learning_rate': 4.5653592262818546e-05, 'epoch': 8.69} {'loss': 0.0832, 'learning_rate': 4.5651193583051885e-05, 'epoch': 8.7} {'loss': 0.0834, 'learning_rate': 4.564879490328524e-05, 'epoch': 8.7} {'loss': 0.0883, 'learning_rate': 4.564639622351858e-05, 'epoch': 8.71} {'loss': 0.0858, 'learning_rate': 4.5643997543751923e-05, 'epoch': 8.71} {'loss': 0.0839, 'learning_rate': 4.564159886398526e-05, 'epoch': 8.72} {'loss': 0.0832, 'learning_rate': 4.563920018421861e-05, 'epoch': 8.72} {'loss': 0.085, 'learning_rate': 4.5636801504451955e-05, 'epoch': 8.73} {'loss': 0.0828, 'learning_rate': 4.5634402824685294e-05, 'epoch': 8.73} {'loss': 0.0827, 'learning_rate': 4.563200414491864e-05, 'epoch': 8.74} {'loss': 0.0831, 'learning_rate': 4.562960546515198e-05, 'epoch': 8.74} {'loss': 0.0832, 'learning_rate': 4.5627206785385326e-05, 'epoch': 8.75} {'loss': 0.082, 'learning_rate': 4.562480810561867e-05, 'epoch': 8.75} {'loss': 0.0851, 'learning_rate': 4.562240942585201e-05, 'epoch': 8.76} {'loss': 0.0847, 'learning_rate': 4.562001074608536e-05, 'epoch': 8.76} {'loss': 0.0846, 'learning_rate': 4.5617612066318697e-05, 'epoch': 8.76} {'loss': 0.0829, 'learning_rate': 4.561521338655204e-05, 'epoch': 8.77} {'loss': 0.0854, 'learning_rate': 4.561281470678539e-05, 'epoch': 8.77} {'loss': 0.0867, 'learning_rate': 4.5610416027018735e-05, 'epoch': 8.78} {'loss': 0.0852, 'learning_rate': 4.5608017347252074e-05, 'epoch': 8.78} {'loss': 0.0843, 'learning_rate': 4.5605618667485414e-05, 'epoch': 8.79} {'loss': 0.0885, 'learning_rate': 4.560321998771876e-05, 'epoch': 8.79} {'loss': 0.0864, 'learning_rate': 4.5600821307952106e-05, 'epoch': 8.8} {'loss': 0.0856, 'learning_rate': 4.559842262818545e-05, 'epoch': 8.8} {'loss': 0.0842, 'learning_rate': 4.559602394841879e-05, 'epoch': 8.81} {'loss': 0.0841, 'learning_rate': 4.559362526865214e-05, 'epoch': 8.81} {'loss': 0.0838, 'learning_rate': 4.5591226588885477e-05, 'epoch': 8.82} {'loss': 0.0822, 'learning_rate': 4.558882790911882e-05, 'epoch': 8.82} {'loss': 0.0839, 'learning_rate': 4.558642922935217e-05, 'epoch': 8.83} {'loss': 0.0834, 'learning_rate': 4.558403054958551e-05, 'epoch': 8.83} {'loss': 0.0857, 'learning_rate': 4.5581631869818854e-05, 'epoch': 8.84} {'loss': 0.0824, 'learning_rate': 4.5579233190052193e-05, 'epoch': 8.84} {'loss': 0.0815, 'learning_rate': 4.5576834510285546e-05, 'epoch': 8.85} {'loss': 0.0825, 'learning_rate': 4.5574435830518886e-05, 'epoch': 8.85} {'loss': 0.0848, 'learning_rate': 4.5572037150752225e-05, 'epoch': 8.86} {'loss': 0.0847, 'learning_rate': 4.556963847098557e-05, 'epoch': 8.86} {'loss': 0.0827, 'learning_rate': 4.556723979121891e-05, 'epoch': 8.87} {'loss': 0.08, 'learning_rate': 4.556484111145226e-05, 'epoch': 8.87} {'loss': 0.084, 'learning_rate': 4.55624424316856e-05, 'epoch': 8.88} {'loss': 0.0856, 'learning_rate': 4.556004375191895e-05, 'epoch': 8.88} {'loss': 0.0821, 'learning_rate': 4.555764507215229e-05, 'epoch': 8.88} {'loss': 0.0845, 'learning_rate': 4.5555246392385634e-05, 'epoch': 8.89} {'loss': 0.0851, 'learning_rate': 4.555284771261898e-05, 'epoch': 8.89} {'loss': 0.0811, 'learning_rate': 4.555044903285232e-05, 'epoch': 8.9} {'loss': 0.0819, 'learning_rate': 4.5548050353085665e-05, 'epoch': 8.9} {'loss': 0.0887, 'learning_rate': 4.5545651673319005e-05, 'epoch': 8.91} {'loss': 0.0818, 'learning_rate': 4.554325299355235e-05, 'epoch': 8.91} {'loss': 0.0822, 'learning_rate': 4.55408543137857e-05, 'epoch': 8.92} {'loss': 0.0843, 'learning_rate': 4.5538455634019036e-05, 'epoch': 8.92} {'loss': 0.0827, 'learning_rate': 4.553605695425238e-05, 'epoch': 8.93} {'loss': 0.0834, 'learning_rate': 4.553365827448572e-05, 'epoch': 8.93} {'loss': 0.0833, 'learning_rate': 4.553125959471907e-05, 'epoch': 8.94} {'loss': 0.0864, 'learning_rate': 4.5528860914952414e-05, 'epoch': 8.94} {'loss': 0.0834, 'learning_rate': 4.552646223518576e-05, 'epoch': 8.95} {'loss': 0.0894, 'learning_rate': 4.55240635554191e-05, 'epoch': 8.95} {'loss': 0.0873, 'learning_rate': 4.5521664875652445e-05, 'epoch': 8.96} {'loss': 0.0853, 'learning_rate': 4.5519266195885785e-05, 'epoch': 8.96} {'loss': 0.0804, 'learning_rate': 4.551686751611913e-05, 'epoch': 8.97} {'loss': 0.0806, 'learning_rate': 4.551446883635248e-05, 'epoch': 8.97} {'loss': 0.0849, 'learning_rate': 4.5512070156585816e-05, 'epoch': 8.98} {'loss': 0.0834, 'learning_rate': 4.550967147681916e-05, 'epoch': 8.98} {'loss': 0.0842, 'learning_rate': 4.55072727970525e-05, 'epoch': 8.99} {'loss': 0.0862, 'learning_rate': 4.550487411728585e-05, 'epoch': 8.99} {'loss': 0.083, 'learning_rate': 4.5502475437519194e-05, 'epoch': 9.0} {'loss': 0.0818, 'learning_rate': 4.550007675775253e-05, 'epoch': 9.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.0758386179804802, 'eval_runtime': 3358.63, 'eval_samples_per_second': 124.127, 'eval_steps_per_second': 15.516, 'epoch': 9.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-938016 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-938016/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-938016/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-833792] due to args.save_total_limit {'loss': 0.0857, 'learning_rate': 4.549767807798588e-05, 'epoch': 9.0} {'loss': 0.085, 'learning_rate': 4.549527939821922e-05, 'epoch': 9.01} {'loss': 0.0813, 'learning_rate': 4.549288071845257e-05, 'epoch': 9.01} {'loss': 0.0815, 'learning_rate': 4.549048203868591e-05, 'epoch': 9.02} {'loss': 0.0853, 'learning_rate': 4.548808335891926e-05, 'epoch': 9.02} {'loss': 0.0855, 'learning_rate': 4.5485684679152596e-05, 'epoch': 9.03} {'loss': 0.0818, 'learning_rate': 4.5483285999385935e-05, 'epoch': 9.03} {'loss': 0.0853, 'learning_rate': 4.548088731961929e-05, 'epoch': 9.04} {'loss': 0.0847, 'learning_rate': 4.547848863985263e-05, 'epoch': 9.04} {'loss': 0.0856, 'learning_rate': 4.5476089960085974e-05, 'epoch': 9.05} {'loss': 0.0849, 'learning_rate': 4.547369128031931e-05, 'epoch': 9.05} {'loss': 0.0835, 'learning_rate': 4.547129260055266e-05, 'epoch': 9.06} {'loss': 0.0827, 'learning_rate': 4.5468893920786005e-05, 'epoch': 9.06} {'loss': 0.0845, 'learning_rate': 4.5466495241019345e-05, 'epoch': 9.07} {'loss': 0.0828, 'learning_rate': 4.546409656125269e-05, 'epoch': 9.07} {'loss': 0.0809, 'learning_rate': 4.546169788148603e-05, 'epoch': 9.08} {'loss': 0.0825, 'learning_rate': 4.5459299201719376e-05, 'epoch': 9.08} {'loss': 0.0825, 'learning_rate': 4.5456900521952715e-05, 'epoch': 9.09} {'loss': 0.0811, 'learning_rate': 4.545450184218606e-05, 'epoch': 9.09} {'loss': 0.0832, 'learning_rate': 4.545210316241941e-05, 'epoch': 9.1} {'loss': 0.0843, 'learning_rate': 4.544970448265275e-05, 'epoch': 9.1} {'loss': 0.0837, 'learning_rate': 4.544730580288609e-05, 'epoch': 9.11} {'loss': 0.0822, 'learning_rate': 4.544490712311943e-05, 'epoch': 9.11} {'loss': 0.0836, 'learning_rate': 4.5442508443352785e-05, 'epoch': 9.11} {'loss': 0.0837, 'learning_rate': 4.5440109763586124e-05, 'epoch': 9.12} {'loss': 0.0822, 'learning_rate': 4.543771108381947e-05, 'epoch': 9.12} {'loss': 0.0829, 'learning_rate': 4.543531240405281e-05, 'epoch': 9.13} {'loss': 0.0837, 'learning_rate': 4.543291372428615e-05, 'epoch': 9.13} {'loss': 0.0825, 'learning_rate': 4.54305150445195e-05, 'epoch': 9.14} {'loss': 0.0824, 'learning_rate': 4.542811636475284e-05, 'epoch': 9.14} {'loss': 0.081, 'learning_rate': 4.542571768498619e-05, 'epoch': 9.15} {'loss': 0.0872, 'learning_rate': 4.542331900521953e-05, 'epoch': 9.15} {'loss': 0.0844, 'learning_rate': 4.542092032545287e-05, 'epoch': 9.16} {'loss': 0.0839, 'learning_rate': 4.541852164568622e-05, 'epoch': 9.16} {'loss': 0.0836, 'learning_rate': 4.541612296591956e-05, 'epoch': 9.17} {'loss': 0.0833, 'learning_rate': 4.5413724286152904e-05, 'epoch': 9.17} {'loss': 0.0841, 'learning_rate': 4.5411325606386244e-05, 'epoch': 9.18} {'loss': 0.0949, 'learning_rate': 4.540892692661959e-05, 'epoch': 9.18} {'loss': 0.0798, 'learning_rate': 4.5406528246852936e-05, 'epoch': 9.19} {'loss': 0.0837, 'learning_rate': 4.540412956708628e-05, 'epoch': 9.19} {'loss': 0.0819, 'learning_rate': 4.540173088731962e-05, 'epoch': 9.2} {'loss': 0.0863, 'learning_rate': 4.539933220755296e-05, 'epoch': 9.2} {'loss': 0.0821, 'learning_rate': 4.539693352778631e-05, 'epoch': 9.21} {'loss': 0.0825, 'learning_rate': 4.539453484801965e-05, 'epoch': 9.21} {'loss': 0.0817, 'learning_rate': 4.5392136168253e-05, 'epoch': 9.22} {'loss': 0.0835, 'learning_rate': 4.538973748848634e-05, 'epoch': 9.22} {'loss': 0.0854, 'learning_rate': 4.5387338808719684e-05, 'epoch': 9.23} {'loss': 0.0853, 'learning_rate': 4.5384940128953024e-05, 'epoch': 9.23} {'loss': 0.0853, 'learning_rate': 4.538254144918637e-05, 'epoch': 9.23} {'loss': 0.0848, 'learning_rate': 4.5380142769419716e-05, 'epoch': 9.24} {'loss': 0.0842, 'learning_rate': 4.5377744089653055e-05, 'epoch': 9.24} {'loss': 0.082, 'learning_rate': 4.53753454098864e-05, 'epoch': 9.25} {'loss': 0.0827, 'learning_rate': 4.537294673011974e-05, 'epoch': 9.25} {'loss': 0.0835, 'learning_rate': 4.537054805035309e-05, 'epoch': 9.26} {'loss': 0.0814, 'learning_rate': 4.536814937058643e-05, 'epoch': 9.26} {'loss': 0.0821, 'learning_rate': 4.536575069081977e-05, 'epoch': 9.27} {'loss': 0.0831, 'learning_rate': 4.536335201105312e-05, 'epoch': 9.27} {'loss': 0.0828, 'learning_rate': 4.536095333128646e-05, 'epoch': 9.28} {'loss': 0.0864, 'learning_rate': 4.535855465151981e-05, 'epoch': 9.28} {'loss': 0.0837, 'learning_rate': 4.535615597175315e-05, 'epoch': 9.29} {'loss': 0.0801, 'learning_rate': 4.5353757291986496e-05, 'epoch': 9.29} {'loss': 0.0802, 'learning_rate': 4.5351358612219835e-05, 'epoch': 9.3} {'loss': 0.0828, 'learning_rate': 4.534895993245318e-05, 'epoch': 9.3} {'loss': 0.186, 'learning_rate': 4.534656125268653e-05, 'epoch': 9.31} {'loss': 0.3738, 'learning_rate': 4.5344162572919866e-05, 'epoch': 9.31} {'loss': 0.0828, 'learning_rate': 4.534176389315321e-05, 'epoch': 9.32} {'loss': 0.0837, 'learning_rate': 4.533936521338655e-05, 'epoch': 9.32} {'loss': 0.0829, 'learning_rate': 4.53369665336199e-05, 'epoch': 9.33} {'loss': 0.0836, 'learning_rate': 4.5334567853853244e-05, 'epoch': 9.33} {'loss': 0.0866, 'learning_rate': 4.533216917408658e-05, 'epoch': 9.34} {'loss': 0.0826, 'learning_rate': 4.532977049431993e-05, 'epoch': 9.34} {'loss': 0.0855, 'learning_rate': 4.532737181455327e-05, 'epoch': 9.35} {'loss': 0.0853, 'learning_rate': 4.5324973134786615e-05, 'epoch': 9.35} {'loss': 0.0835, 'learning_rate': 4.532257445501996e-05, 'epoch': 9.35} {'loss': 0.0844, 'learning_rate': 4.532017577525331e-05, 'epoch': 9.36} {'loss': 0.081, 'learning_rate': 4.5317777095486646e-05, 'epoch': 9.36} {'loss': 0.0814, 'learning_rate': 4.5315378415719986e-05, 'epoch': 9.37} {'loss': 0.0874, 'learning_rate': 4.531297973595333e-05, 'epoch': 9.37} {'loss': 0.0827, 'learning_rate': 4.531058105618668e-05, 'epoch': 9.38} {'loss': 0.0846, 'learning_rate': 4.5308182376420024e-05, 'epoch': 9.38} {'loss': 0.0829, 'learning_rate': 4.530578369665336e-05, 'epoch': 9.39} {'loss': 0.0811, 'learning_rate': 4.530338501688671e-05, 'epoch': 9.39} {'loss': 0.0814, 'learning_rate': 4.530098633712005e-05, 'epoch': 9.4} {'loss': 0.0838, 'learning_rate': 4.5298587657353395e-05, 'epoch': 9.4} {'loss': 0.0812, 'learning_rate': 4.529618897758674e-05, 'epoch': 9.41} {'loss': 0.0872, 'learning_rate': 4.529379029782008e-05, 'epoch': 9.41} {'loss': 0.0826, 'learning_rate': 4.5291391618053426e-05, 'epoch': 9.42} {'loss': 0.0843, 'learning_rate': 4.5288992938286766e-05, 'epoch': 9.42} {'loss': 0.0818, 'learning_rate': 4.528659425852012e-05, 'epoch': 9.43} {'loss': 0.0911, 'learning_rate': 4.528419557875346e-05, 'epoch': 9.43} {'loss': 0.0845, 'learning_rate': 4.52817968989868e-05, 'epoch': 9.44} {'loss': 0.0835, 'learning_rate': 4.527939821922014e-05, 'epoch': 9.44} {'loss': 0.0848, 'learning_rate': 4.527699953945348e-05, 'epoch': 9.45} {'loss': 0.0798, 'learning_rate': 4.5274600859686835e-05, 'epoch': 9.45} {'loss': 0.0819, 'learning_rate': 4.5272202179920175e-05, 'epoch': 9.46} {'loss': 0.0817, 'learning_rate': 4.526980350015352e-05, 'epoch': 9.46} {'loss': 0.0818, 'learning_rate': 4.526740482038686e-05, 'epoch': 9.47} {'loss': 0.0809, 'learning_rate': 4.5265006140620206e-05, 'epoch': 9.47} {'loss': 0.0859, 'learning_rate': 4.526260746085355e-05, 'epoch': 9.47} {'loss': 0.0825, 'learning_rate': 4.526020878108689e-05, 'epoch': 9.48} {'loss': 0.0827, 'learning_rate': 4.525781010132024e-05, 'epoch': 9.48} {'loss': 0.0841, 'learning_rate': 4.525541142155358e-05, 'epoch': 9.49} {'loss': 0.0863, 'learning_rate': 4.525301274178692e-05, 'epoch': 9.49} {'loss': 0.0837, 'learning_rate': 4.525061406202027e-05, 'epoch': 9.5} {'loss': 0.0824, 'learning_rate': 4.524821538225361e-05, 'epoch': 9.5} {'loss': 0.0837, 'learning_rate': 4.5245816702486955e-05, 'epoch': 9.51} {'loss': 0.0812, 'learning_rate': 4.5243418022720294e-05, 'epoch': 9.51} {'loss': 0.0817, 'learning_rate': 4.524101934295364e-05, 'epoch': 9.52} {'loss': 0.0806, 'learning_rate': 4.523862066318698e-05, 'epoch': 9.52} {'loss': 0.0819, 'learning_rate': 4.523622198342033e-05, 'epoch': 9.53} {'loss': 0.0827, 'learning_rate': 4.523382330365367e-05, 'epoch': 9.53} {'loss': 0.0829, 'learning_rate': 4.523142462388702e-05, 'epoch': 9.54} {'loss': 0.0802, 'learning_rate': 4.522902594412036e-05, 'epoch': 9.54} {'loss': 0.0842, 'learning_rate': 4.5226627264353696e-05, 'epoch': 9.55} {'loss': 0.0828, 'learning_rate': 4.522422858458705e-05, 'epoch': 9.55} {'loss': 0.0815, 'learning_rate': 4.522182990482039e-05, 'epoch': 9.56} {'loss': 0.0816, 'learning_rate': 4.5219431225053734e-05, 'epoch': 9.56} {'loss': 0.0793, 'learning_rate': 4.5217032545287074e-05, 'epoch': 9.57} {'loss': 0.0844, 'learning_rate': 4.521463386552042e-05, 'epoch': 9.57} {'loss': 0.0827, 'learning_rate': 4.5212235185753766e-05, 'epoch': 9.58} {'loss': 0.0835, 'learning_rate': 4.5209836505987105e-05, 'epoch': 9.58} {'loss': 0.0824, 'learning_rate': 4.520743782622045e-05, 'epoch': 9.59} {'loss': 0.1062, 'learning_rate': 4.520503914645379e-05, 'epoch': 9.59} {'loss': 0.083, 'learning_rate': 4.520264046668714e-05, 'epoch': 9.59} {'loss': 0.085, 'learning_rate': 4.520024178692048e-05, 'epoch': 9.6} {'loss': 0.0802, 'learning_rate': 4.519784310715383e-05, 'epoch': 9.6} {'loss': 0.0829, 'learning_rate': 4.519544442738717e-05, 'epoch': 9.61} {'loss': 0.0802, 'learning_rate': 4.519304574762051e-05, 'epoch': 9.61} {'loss': 0.0806, 'learning_rate': 4.5190647067853854e-05, 'epoch': 9.62} {'loss': 0.0838, 'learning_rate': 4.51882483880872e-05, 'epoch': 9.62} {'loss': 0.0841, 'learning_rate': 4.5185849708320546e-05, 'epoch': 9.63} {'loss': 0.0825, 'learning_rate': 4.5183451028553885e-05, 'epoch': 9.63} {'loss': 0.0803, 'learning_rate': 4.518105234878723e-05, 'epoch': 9.64} {'loss': 0.0841, 'learning_rate': 4.517865366902057e-05, 'epoch': 9.64} {'loss': 0.0835, 'learning_rate': 4.517625498925392e-05, 'epoch': 9.65} {'loss': 0.0808, 'learning_rate': 4.517385630948726e-05, 'epoch': 9.65} {'loss': 0.0836, 'learning_rate': 4.51714576297206e-05, 'epoch': 9.66} {'loss': 0.081, 'learning_rate': 4.516905894995395e-05, 'epoch': 9.66} {'loss': 0.082, 'learning_rate': 4.516666027018729e-05, 'epoch': 9.67} {'loss': 0.0811, 'learning_rate': 4.5164261590420634e-05, 'epoch': 9.67} {'loss': 0.083, 'learning_rate': 4.516186291065398e-05, 'epoch': 9.68} {'loss': 0.0814, 'learning_rate': 4.515946423088732e-05, 'epoch': 9.68} {'loss': 0.0832, 'learning_rate': 4.5157065551120665e-05, 'epoch': 9.69} {'loss': 0.083, 'learning_rate': 4.5154666871354004e-05, 'epoch': 9.69} {'loss': 0.0813, 'learning_rate': 4.515226819158736e-05, 'epoch': 9.7} {'loss': 0.0873, 'learning_rate': 4.5149869511820697e-05, 'epoch': 9.7} {'loss': 0.0792, 'learning_rate': 4.514747083205404e-05, 'epoch': 9.71} {'loss': 0.0813, 'learning_rate': 4.514507215228738e-05, 'epoch': 9.71} {'loss': 0.0825, 'learning_rate': 4.514267347252072e-05, 'epoch': 9.71} {'loss': 0.081, 'learning_rate': 4.5140274792754074e-05, 'epoch': 9.72} {'loss': 0.0814, 'learning_rate': 4.5137876112987413e-05, 'epoch': 9.72} {'loss': 0.0984, 'learning_rate': 4.513547743322076e-05, 'epoch': 9.73} {'loss': 0.0828, 'learning_rate': 4.51330787534541e-05, 'epoch': 9.73} {'loss': 0.0804, 'learning_rate': 4.5130680073687445e-05, 'epoch': 9.74} {'loss': 0.0828, 'learning_rate': 4.512828139392079e-05, 'epoch': 9.74} {'loss': 0.0798, 'learning_rate': 4.512588271415413e-05, 'epoch': 9.75} {'loss': 0.0816, 'learning_rate': 4.5123484034387476e-05, 'epoch': 9.75} {'loss': 0.0791, 'learning_rate': 4.5121085354620816e-05, 'epoch': 9.76} {'loss': 0.0807, 'learning_rate': 4.511868667485416e-05, 'epoch': 9.76} {'loss': 0.0836, 'learning_rate': 4.511628799508751e-05, 'epoch': 9.77} {'loss': 0.0796, 'learning_rate': 4.5113889315320854e-05, 'epoch': 9.77} {'loss': 0.0805, 'learning_rate': 4.511149063555419e-05, 'epoch': 9.78} {'loss': 0.0832, 'learning_rate': 4.510909195578753e-05, 'epoch': 9.78} {'loss': 0.0781, 'learning_rate': 4.510669327602088e-05, 'epoch': 9.79} {'loss': 0.0828, 'learning_rate': 4.5104294596254225e-05, 'epoch': 9.79} {'loss': 0.0797, 'learning_rate': 4.510189591648757e-05, 'epoch': 9.8} {'loss': 0.0804, 'learning_rate': 4.509949723672091e-05, 'epoch': 9.8} {'loss': 0.0798, 'learning_rate': 4.5097098556954256e-05, 'epoch': 9.81} {'loss': 0.0811, 'learning_rate': 4.5094699877187596e-05, 'epoch': 9.81} {'loss': 0.0809, 'learning_rate': 4.509230119742094e-05, 'epoch': 9.82} {'loss': 0.0823, 'learning_rate': 4.508990251765429e-05, 'epoch': 9.82} {'loss': 0.0799, 'learning_rate': 4.508750383788763e-05, 'epoch': 9.82} {'loss': 0.0823, 'learning_rate': 4.508510515812097e-05, 'epoch': 9.83} {'loss': 0.0864, 'learning_rate': 4.508270647835431e-05, 'epoch': 9.83} {'loss': 0.0831, 'learning_rate': 4.5080307798587665e-05, 'epoch': 9.84} {'loss': 0.0812, 'learning_rate': 4.5077909118821005e-05, 'epoch': 9.84} {'loss': 0.0824, 'learning_rate': 4.5075510439054344e-05, 'epoch': 9.85} {'loss': 0.0801, 'learning_rate': 4.507311175928769e-05, 'epoch': 9.85} {'loss': 0.0806, 'learning_rate': 4.507071307952103e-05, 'epoch': 9.86} {'loss': 0.0871, 'learning_rate': 4.506831439975438e-05, 'epoch': 9.86} {'loss': 0.0825, 'learning_rate': 4.506591571998772e-05, 'epoch': 9.87} {'loss': 0.0856, 'learning_rate': 4.506351704022107e-05, 'epoch': 9.87} {'loss': 0.0817, 'learning_rate': 4.506111836045441e-05, 'epoch': 9.88} {'loss': 0.0784, 'learning_rate': 4.505871968068775e-05, 'epoch': 9.88} {'loss': 0.0811, 'learning_rate': 4.50563210009211e-05, 'epoch': 9.89} {'loss': 0.0822, 'learning_rate': 4.505392232115444e-05, 'epoch': 9.89} {'loss': 0.0829, 'learning_rate': 4.5051523641387785e-05, 'epoch': 9.9} {'loss': 0.0814, 'learning_rate': 4.5049124961621124e-05, 'epoch': 9.9} {'loss': 0.0817, 'learning_rate': 4.504672628185447e-05, 'epoch': 9.91} {'loss': 0.081, 'learning_rate': 4.5044327602087816e-05, 'epoch': 9.91} {'loss': 0.0792, 'learning_rate': 4.5041928922321155e-05, 'epoch': 9.92} {'loss': 0.0818, 'learning_rate': 4.50395302425545e-05, 'epoch': 9.92} {'loss': 0.0793, 'learning_rate': 4.503713156278784e-05, 'epoch': 9.93} {'loss': 0.0826, 'learning_rate': 4.503473288302119e-05, 'epoch': 9.93} {'loss': 0.0839, 'learning_rate': 4.5032334203254526e-05, 'epoch': 9.94} {'loss': 0.0827, 'learning_rate': 4.502993552348788e-05, 'epoch': 9.94} {'loss': 0.0816, 'learning_rate': 4.502753684372122e-05, 'epoch': 9.94} {'loss': 0.0791, 'learning_rate': 4.502513816395456e-05, 'epoch': 9.95} {'loss': 0.0817, 'learning_rate': 4.5022739484187904e-05, 'epoch': 9.95} {'loss': 0.0835, 'learning_rate': 4.502034080442124e-05, 'epoch': 9.96} {'loss': 0.0813, 'learning_rate': 4.5017942124654596e-05, 'epoch': 9.96} {'loss': 0.0792, 'learning_rate': 4.5015543444887935e-05, 'epoch': 9.97} {'loss': 0.0794, 'learning_rate': 4.501314476512128e-05, 'epoch': 9.97} {'loss': 0.0801, 'learning_rate': 4.501074608535462e-05, 'epoch': 9.98} {'loss': 0.0833, 'learning_rate': 4.500834740558797e-05, 'epoch': 9.98} {'loss': 0.0805, 'learning_rate': 4.500594872582131e-05, 'epoch': 9.99} {'loss': 0.0807, 'learning_rate': 4.500355004605465e-05, 'epoch': 9.99} {'loss': 0.0803, 'learning_rate': 4.5001151366288e-05, 'epoch': 10.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.07322116941213608, 'eval_runtime': 3339.141, 'eval_samples_per_second': 124.851, 'eval_steps_per_second': 15.606, 'epoch': 10.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-1042240 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-1042240/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-1042240/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-938016] due to args.save_total_limit {'loss': 0.0815, 'learning_rate': 4.499875268652134e-05, 'epoch': 10.0} {'loss': 0.0824, 'learning_rate': 4.4996354006754684e-05, 'epoch': 10.01} {'loss': 0.0828, 'learning_rate': 4.499395532698803e-05, 'epoch': 10.01} {'loss': 0.0762, 'learning_rate': 4.499155664722137e-05, 'epoch': 10.02} {'loss': 0.0845, 'learning_rate': 4.4989157967454715e-05, 'epoch': 10.02} {'loss': 0.0804, 'learning_rate': 4.4986759287688055e-05, 'epoch': 10.03} {'loss': 0.0792, 'learning_rate': 4.49843606079214e-05, 'epoch': 10.03} {'loss': 0.0792, 'learning_rate': 4.498196192815475e-05, 'epoch': 10.04} {'loss': 0.0781, 'learning_rate': 4.497956324838809e-05, 'epoch': 10.04} {'loss': 0.0796, 'learning_rate': 4.497716456862143e-05, 'epoch': 10.05} {'loss': 0.0815, 'learning_rate': 4.497476588885478e-05, 'epoch': 10.05} {'loss': 0.0788, 'learning_rate': 4.497236720908812e-05, 'epoch': 10.06} {'loss': 0.0782, 'learning_rate': 4.4969968529321464e-05, 'epoch': 10.06} {'loss': 0.087, 'learning_rate': 4.496756984955481e-05, 'epoch': 10.06} {'loss': 0.0806, 'learning_rate': 4.496517116978815e-05, 'epoch': 10.07} {'loss': 0.0825, 'learning_rate': 4.4962772490021495e-05, 'epoch': 10.07} {'loss': 0.0812, 'learning_rate': 4.4960373810254834e-05, 'epoch': 10.08} {'loss': 0.0841, 'learning_rate': 4.495797513048818e-05, 'epoch': 10.08} {'loss': 0.0821, 'learning_rate': 4.495557645072153e-05, 'epoch': 10.09} {'loss': 0.0816, 'learning_rate': 4.4953177770954866e-05, 'epoch': 10.09} {'loss': 0.0808, 'learning_rate': 4.495077909118821e-05, 'epoch': 10.1} {'loss': 0.078, 'learning_rate': 4.494838041142155e-05, 'epoch': 10.1} {'loss': 0.0809, 'learning_rate': 4.4945981731654904e-05, 'epoch': 10.11} {'loss': 0.0795, 'learning_rate': 4.4943583051888244e-05, 'epoch': 10.11} {'loss': 0.0824, 'learning_rate': 4.494118437212159e-05, 'epoch': 10.12} {'loss': 0.0827, 'learning_rate': 4.493878569235493e-05, 'epoch': 10.12} {'loss': 0.0812, 'learning_rate': 4.493638701258827e-05, 'epoch': 10.13} {'loss': 0.0809, 'learning_rate': 4.493398833282162e-05, 'epoch': 10.13} {'loss': 0.0797, 'learning_rate': 4.493158965305496e-05, 'epoch': 10.14} {'loss': 0.0803, 'learning_rate': 4.4929190973288307e-05, 'epoch': 10.14} {'loss': 0.0827, 'learning_rate': 4.4926792293521646e-05, 'epoch': 10.15} {'loss': 0.0783, 'learning_rate': 4.492439361375499e-05, 'epoch': 10.15} {'loss': 0.0823, 'learning_rate': 4.492199493398834e-05, 'epoch': 10.16} {'loss': 0.0799, 'learning_rate': 4.491959625422168e-05, 'epoch': 10.16} {'loss': 0.0787, 'learning_rate': 4.4917197574455023e-05, 'epoch': 10.17} {'loss': 0.0825, 'learning_rate': 4.491479889468836e-05, 'epoch': 10.17} {'loss': 0.0827, 'learning_rate': 4.491240021492171e-05, 'epoch': 10.18} {'loss': 0.0808, 'learning_rate': 4.4910001535155055e-05, 'epoch': 10.18} {'loss': 0.0822, 'learning_rate': 4.4907602855388394e-05, 'epoch': 10.18} {'loss': 0.0804, 'learning_rate': 4.490520417562174e-05, 'epoch': 10.19} {'loss': 0.0831, 'learning_rate': 4.490280549585508e-05, 'epoch': 10.19} {'loss': 0.0817, 'learning_rate': 4.4900406816088426e-05, 'epoch': 10.2} {'loss': 0.079, 'learning_rate': 4.489800813632177e-05, 'epoch': 10.2} {'loss': 0.082, 'learning_rate': 4.489560945655512e-05, 'epoch': 10.21} {'loss': 0.0802, 'learning_rate': 4.489321077678846e-05, 'epoch': 10.21} {'loss': 0.0799, 'learning_rate': 4.48908120970218e-05, 'epoch': 10.22} {'loss': 0.0793, 'learning_rate': 4.488841341725514e-05, 'epoch': 10.22} {'loss': 0.0809, 'learning_rate': 4.488601473748849e-05, 'epoch': 10.23} {'loss': 0.0816, 'learning_rate': 4.4883616057721835e-05, 'epoch': 10.23} {'loss': 0.0829, 'learning_rate': 4.4881217377955174e-05, 'epoch': 10.24} {'loss': 0.081, 'learning_rate': 4.487881869818852e-05, 'epoch': 10.24} {'loss': 0.0814, 'learning_rate': 4.487642001842186e-05, 'epoch': 10.25} {'loss': 0.0809, 'learning_rate': 4.4874021338655206e-05, 'epoch': 10.25} {'loss': 0.0793, 'learning_rate': 4.487162265888855e-05, 'epoch': 10.26} {'loss': 0.0782, 'learning_rate': 4.486922397912189e-05, 'epoch': 10.26} {'loss': 0.0813, 'learning_rate': 4.486682529935524e-05, 'epoch': 10.27} {'loss': 0.077, 'learning_rate': 4.4864426619588576e-05, 'epoch': 10.27} {'loss': 0.0809, 'learning_rate': 4.486202793982193e-05, 'epoch': 10.28} {'loss': 0.0783, 'learning_rate': 4.485962926005527e-05, 'epoch': 10.28} {'loss': 0.0777, 'learning_rate': 4.4857230580288615e-05, 'epoch': 10.29} {'loss': 0.0798, 'learning_rate': 4.4854831900521954e-05, 'epoch': 10.29} {'loss': 0.0798, 'learning_rate': 4.485243322075529e-05, 'epoch': 10.3} {'loss': 0.0801, 'learning_rate': 4.4850034540988646e-05, 'epoch': 10.3} {'loss': 0.0818, 'learning_rate': 4.4847635861221986e-05, 'epoch': 10.3} {'loss': 0.0777, 'learning_rate': 4.484523718145533e-05, 'epoch': 10.31} {'loss': 0.0809, 'learning_rate': 4.484283850168867e-05, 'epoch': 10.31} {'loss': 0.0784, 'learning_rate': 4.484043982192202e-05, 'epoch': 10.32} {'loss': 0.0788, 'learning_rate': 4.483804114215536e-05, 'epoch': 10.32} {'loss': 0.0809, 'learning_rate': 4.48356424623887e-05, 'epoch': 10.33} {'loss': 0.0825, 'learning_rate': 4.483324378262205e-05, 'epoch': 10.33} {'loss': 0.0797, 'learning_rate': 4.483084510285539e-05, 'epoch': 10.34} {'loss': 0.081, 'learning_rate': 4.4828446423088734e-05, 'epoch': 10.34} {'loss': 0.081, 'learning_rate': 4.482604774332207e-05, 'epoch': 10.35} {'loss': 0.0831, 'learning_rate': 4.4823649063555426e-05, 'epoch': 10.35} {'loss': 0.0787, 'learning_rate': 4.4821250383788765e-05, 'epoch': 10.36} {'loss': 0.0812, 'learning_rate': 4.4818851704022105e-05, 'epoch': 10.36} {'loss': 0.0798, 'learning_rate': 4.481645302425545e-05, 'epoch': 10.37} {'loss': 0.0824, 'learning_rate': 4.481405434448879e-05, 'epoch': 10.37} {'loss': 0.0816, 'learning_rate': 4.481165566472214e-05, 'epoch': 10.38} {'loss': 0.0776, 'learning_rate': 4.480925698495548e-05, 'epoch': 10.38} {'loss': 0.081, 'learning_rate': 4.480685830518883e-05, 'epoch': 10.39} {'loss': 0.0794, 'learning_rate': 4.480445962542217e-05, 'epoch': 10.39} {'loss': 0.0789, 'learning_rate': 4.4802060945655514e-05, 'epoch': 10.4} {'loss': 0.0796, 'learning_rate': 4.479966226588886e-05, 'epoch': 10.4} {'loss': 0.0824, 'learning_rate': 4.47972635861222e-05, 'epoch': 10.41} {'loss': 0.0823, 'learning_rate': 4.4794864906355545e-05, 'epoch': 10.41} {'loss': 0.0813, 'learning_rate': 4.4792466226588885e-05, 'epoch': 10.42} {'loss': 0.0766, 'learning_rate': 4.479006754682223e-05, 'epoch': 10.42} {'loss': 0.0764, 'learning_rate': 4.478766886705558e-05, 'epoch': 10.42} {'loss': 0.0783, 'learning_rate': 4.4785270187288916e-05, 'epoch': 10.43} {'loss': 0.0795, 'learning_rate': 4.478287150752226e-05, 'epoch': 10.43} {'loss': 0.0802, 'learning_rate': 4.47804728277556e-05, 'epoch': 10.44} {'loss': 0.0803, 'learning_rate': 4.477807414798895e-05, 'epoch': 10.44} {'loss': 0.0806, 'learning_rate': 4.4775675468222294e-05, 'epoch': 10.45} {'loss': 0.0793, 'learning_rate': 4.477327678845564e-05, 'epoch': 10.45} {'loss': 0.08, 'learning_rate': 4.477087810868898e-05, 'epoch': 10.46} {'loss': 0.0811, 'learning_rate': 4.4768479428922325e-05, 'epoch': 10.46} {'loss': 0.0751, 'learning_rate': 4.4766080749155665e-05, 'epoch': 10.47} {'loss': 0.0784, 'learning_rate': 4.476368206938901e-05, 'epoch': 10.47} {'loss': 0.082, 'learning_rate': 4.476128338962236e-05, 'epoch': 10.48} {'loss': 0.0769, 'learning_rate': 4.4758884709855696e-05, 'epoch': 10.48} {'loss': 0.0812, 'learning_rate': 4.475648603008904e-05, 'epoch': 10.49} {'loss': 0.077, 'learning_rate': 4.475408735032238e-05, 'epoch': 10.49} {'loss': 0.0777, 'learning_rate': 4.475168867055573e-05, 'epoch': 10.5} {'loss': 0.0811, 'learning_rate': 4.4749289990789074e-05, 'epoch': 10.5} {'loss': 0.0768, 'learning_rate': 4.474689131102241e-05, 'epoch': 10.51} {'loss': 0.0809, 'learning_rate': 4.474449263125576e-05, 'epoch': 10.51} {'loss': 0.0791, 'learning_rate': 4.47420939514891e-05, 'epoch': 10.52} {'loss': 0.0789, 'learning_rate': 4.473969527172245e-05, 'epoch': 10.52} {'loss': 0.0891, 'learning_rate': 4.473729659195579e-05, 'epoch': 10.53} {'loss': 0.0818, 'learning_rate': 4.473489791218913e-05, 'epoch': 10.53} {'loss': 0.0807, 'learning_rate': 4.4732499232422476e-05, 'epoch': 10.54} {'loss': 0.0801, 'learning_rate': 4.4730100552655815e-05, 'epoch': 10.54} {'loss': 0.0833, 'learning_rate': 4.472770187288917e-05, 'epoch': 10.54} {'loss': 0.0809, 'learning_rate': 4.472530319312251e-05, 'epoch': 10.55} {'loss': 0.0815, 'learning_rate': 4.4722904513355854e-05, 'epoch': 10.55} {'loss': 0.0814, 'learning_rate': 4.472050583358919e-05, 'epoch': 10.56} {'loss': 0.0803, 'learning_rate': 4.471810715382254e-05, 'epoch': 10.56} {'loss': 0.0795, 'learning_rate': 4.4715708474055885e-05, 'epoch': 10.57} {'loss': 0.0795, 'learning_rate': 4.4713309794289224e-05, 'epoch': 10.57} {'loss': 0.0798, 'learning_rate': 4.471091111452257e-05, 'epoch': 10.58} {'loss': 0.0761, 'learning_rate': 4.470851243475591e-05, 'epoch': 10.58} {'loss': 0.0821, 'learning_rate': 4.4706113754989256e-05, 'epoch': 10.59} {'loss': 0.0806, 'learning_rate': 4.47037150752226e-05, 'epoch': 10.59} {'loss': 0.0807, 'learning_rate': 4.470131639545594e-05, 'epoch': 10.6} {'loss': 0.0809, 'learning_rate': 4.469891771568929e-05, 'epoch': 10.6} {'loss': 0.0793, 'learning_rate': 4.469651903592263e-05, 'epoch': 10.61} {'loss': 0.0793, 'learning_rate': 4.469412035615597e-05, 'epoch': 10.61} {'loss': 0.0829, 'learning_rate': 4.469172167638932e-05, 'epoch': 10.62} {'loss': 0.0873, 'learning_rate': 4.4689322996622665e-05, 'epoch': 10.62} {'loss': 0.0812, 'learning_rate': 4.4686924316856004e-05, 'epoch': 10.63} {'loss': 0.0782, 'learning_rate': 4.468452563708935e-05, 'epoch': 10.63} {'loss': 0.0811, 'learning_rate': 4.468212695732269e-05, 'epoch': 10.64} {'loss': 0.0797, 'learning_rate': 4.4679728277556036e-05, 'epoch': 10.64} {'loss': 0.078, 'learning_rate': 4.467732959778938e-05, 'epoch': 10.65} {'loss': 0.0761, 'learning_rate': 4.467493091802272e-05, 'epoch': 10.65} {'loss': 0.0787, 'learning_rate': 4.467253223825607e-05, 'epoch': 10.65} {'loss': 0.0802, 'learning_rate': 4.4670133558489407e-05, 'epoch': 10.66} {'loss': 0.0777, 'learning_rate': 4.466773487872275e-05, 'epoch': 10.66} {'loss': 0.0812, 'learning_rate': 4.46653361989561e-05, 'epoch': 10.67} {'loss': 0.0787, 'learning_rate': 4.466293751918944e-05, 'epoch': 10.67} {'loss': 0.0793, 'learning_rate': 4.4660538839422784e-05, 'epoch': 10.68} {'loss': 0.081, 'learning_rate': 4.4658140159656123e-05, 'epoch': 10.68} {'loss': 0.0762, 'learning_rate': 4.4655741479889476e-05, 'epoch': 10.69} {'loss': 0.0804, 'learning_rate': 4.4653342800122816e-05, 'epoch': 10.69} {'loss': 0.0806, 'learning_rate': 4.465094412035616e-05, 'epoch': 10.7} {'loss': 0.0788, 'learning_rate': 4.46485454405895e-05, 'epoch': 10.7} {'loss': 0.0806, 'learning_rate': 4.464614676082284e-05, 'epoch': 10.71} {'loss': 0.0804, 'learning_rate': 4.464374808105619e-05, 'epoch': 10.71} {'loss': 0.0787, 'learning_rate': 4.464134940128953e-05, 'epoch': 10.72} {'loss': 0.0773, 'learning_rate': 4.463895072152288e-05, 'epoch': 10.72} {'loss': 0.0782, 'learning_rate': 4.463655204175622e-05, 'epoch': 10.73} {'loss': 0.0801, 'learning_rate': 4.4634153361989564e-05, 'epoch': 10.73} {'loss': 0.0802, 'learning_rate': 4.463175468222291e-05, 'epoch': 10.74} {'loss': 0.0764, 'learning_rate': 4.462935600245625e-05, 'epoch': 10.74} {'loss': 0.0792, 'learning_rate': 4.4626957322689596e-05, 'epoch': 10.75} {'loss': 0.0769, 'learning_rate': 4.4624558642922935e-05, 'epoch': 10.75} {'loss': 0.0804, 'learning_rate': 4.462215996315628e-05, 'epoch': 10.76} {'loss': 0.0786, 'learning_rate': 4.461976128338963e-05, 'epoch': 10.76} {'loss': 0.0772, 'learning_rate': 4.4617362603622966e-05, 'epoch': 10.77} {'loss': 0.0765, 'learning_rate': 4.461496392385631e-05, 'epoch': 10.77} {'loss': 0.0802, 'learning_rate': 4.461256524408965e-05, 'epoch': 10.77} {'loss': 0.0799, 'learning_rate': 4.4610166564323e-05, 'epoch': 10.78} {'loss': 0.0769, 'learning_rate': 4.460776788455634e-05, 'epoch': 10.78} {'loss': 0.0792, 'learning_rate': 4.460536920478969e-05, 'epoch': 10.79} {'loss': 0.0814, 'learning_rate': 4.460297052502303e-05, 'epoch': 10.79} {'loss': 0.0782, 'learning_rate': 4.4600571845256375e-05, 'epoch': 10.8} {'loss': 0.078, 'learning_rate': 4.4598173165489715e-05, 'epoch': 10.8} {'loss': 0.078, 'learning_rate': 4.459577448572306e-05, 'epoch': 10.81} {'loss': 0.0747, 'learning_rate': 4.459337580595641e-05, 'epoch': 10.81} {'loss': 0.0789, 'learning_rate': 4.4590977126189746e-05, 'epoch': 10.82} {'loss': 0.0778, 'learning_rate': 4.458857844642309e-05, 'epoch': 10.82} {'loss': 0.0792, 'learning_rate': 4.458617976665643e-05, 'epoch': 10.83} {'loss': 0.0775, 'learning_rate': 4.458378108688978e-05, 'epoch': 10.83} {'loss': 0.0831, 'learning_rate': 4.4581382407123124e-05, 'epoch': 10.84} {'loss': 0.0787, 'learning_rate': 4.457898372735646e-05, 'epoch': 10.84} {'loss': 0.0781, 'learning_rate': 4.457658504758981e-05, 'epoch': 10.85} {'loss': 0.0811, 'learning_rate': 4.457418636782315e-05, 'epoch': 10.85} {'loss': 0.0807, 'learning_rate': 4.4571787688056495e-05, 'epoch': 10.86} {'loss': 0.0783, 'learning_rate': 4.456938900828984e-05, 'epoch': 10.86} {'loss': 0.0777, 'learning_rate': 4.456699032852319e-05, 'epoch': 10.87} {'loss': 0.0804, 'learning_rate': 4.4564591648756526e-05, 'epoch': 10.87} {'loss': 0.0798, 'learning_rate': 4.4562192968989865e-05, 'epoch': 10.88} {'loss': 0.0771, 'learning_rate': 4.455979428922321e-05, 'epoch': 10.88} {'loss': 0.078, 'learning_rate': 4.455739560945656e-05, 'epoch': 10.89} {'loss': 0.08, 'learning_rate': 4.4554996929689904e-05, 'epoch': 10.89} {'loss': 0.0766, 'learning_rate': 4.455259824992324e-05, 'epoch': 10.89} {'loss': 0.0785, 'learning_rate': 4.455019957015659e-05, 'epoch': 10.9} {'loss': 0.0797, 'learning_rate': 4.454780089038993e-05, 'epoch': 10.9} {'loss': 0.0786, 'learning_rate': 4.4545402210623275e-05, 'epoch': 10.91} {'loss': 0.0809, 'learning_rate': 4.454300353085662e-05, 'epoch': 10.91} {'loss': 0.0804, 'learning_rate': 4.454060485108996e-05, 'epoch': 10.92} {'loss': 0.0807, 'learning_rate': 4.4538206171323306e-05, 'epoch': 10.92} {'loss': 0.0767, 'learning_rate': 4.4535807491556645e-05, 'epoch': 10.93} {'loss': 0.0799, 'learning_rate': 4.453340881179e-05, 'epoch': 10.93} {'loss': 0.0783, 'learning_rate': 4.453101013202334e-05, 'epoch': 10.94} {'loss': 0.0762, 'learning_rate': 4.452861145225668e-05, 'epoch': 10.94} {'loss': 0.0825, 'learning_rate': 4.452621277249002e-05, 'epoch': 10.95} {'loss': 0.0765, 'learning_rate': 4.452381409272336e-05, 'epoch': 10.95} {'loss': 0.077, 'learning_rate': 4.4521415412956715e-05, 'epoch': 10.96} {'loss': 0.0776, 'learning_rate': 4.4519016733190054e-05, 'epoch': 10.96} {'loss': 0.0777, 'learning_rate': 4.45166180534234e-05, 'epoch': 10.97} {'loss': 0.0811, 'learning_rate': 4.451421937365674e-05, 'epoch': 10.97} {'loss': 0.0797, 'learning_rate': 4.4511820693890086e-05, 'epoch': 10.98} {'loss': 0.0771, 'learning_rate': 4.450942201412343e-05, 'epoch': 10.98} {'loss': 0.0783, 'learning_rate': 4.450702333435677e-05, 'epoch': 10.99} {'loss': 0.0774, 'learning_rate': 4.450462465459012e-05, 'epoch': 10.99} {'loss': 0.0803, 'learning_rate': 4.450222597482346e-05, 'epoch': 11.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.07044737040996552, 'eval_runtime': 530.5202, 'eval_samples_per_second': 785.823, 'eval_steps_per_second': 98.228, 'epoch': 11.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-1146464 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-1146464/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-1146464/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-1042240] due to args.save_total_limit {'loss': 0.0784, 'learning_rate': 4.44998272950568e-05, 'epoch': 11.0} {'loss': 0.0766, 'learning_rate': 4.449742861529015e-05, 'epoch': 11.01} {'loss': 0.0772, 'learning_rate': 4.449502993552349e-05, 'epoch': 11.01} {'loss': 0.0772, 'learning_rate': 4.4492631255756834e-05, 'epoch': 11.01} {'loss': 0.0786, 'learning_rate': 4.4490232575990174e-05, 'epoch': 11.02} {'loss': 0.0777, 'learning_rate': 4.448783389622352e-05, 'epoch': 11.02} {'loss': 0.0773, 'learning_rate': 4.4485435216456866e-05, 'epoch': 11.03} {'loss': 0.0769, 'learning_rate': 4.448303653669021e-05, 'epoch': 11.03} {'loss': 0.0785, 'learning_rate': 4.448063785692355e-05, 'epoch': 11.04} {'loss': 0.0792, 'learning_rate': 4.44782391771569e-05, 'epoch': 11.04} {'loss': 0.0784, 'learning_rate': 4.447584049739024e-05, 'epoch': 11.05} {'loss': 0.0801, 'learning_rate': 4.447344181762358e-05, 'epoch': 11.05} {'loss': 0.0804, 'learning_rate': 4.447104313785693e-05, 'epoch': 11.06} {'loss': 0.0789, 'learning_rate': 4.446864445809027e-05, 'epoch': 11.06} {'loss': 0.0782, 'learning_rate': 4.4466245778323614e-05, 'epoch': 11.07} {'loss': 0.0791, 'learning_rate': 4.4463847098556954e-05, 'epoch': 11.07} {'loss': 0.0769, 'learning_rate': 4.44614484187903e-05, 'epoch': 11.08} {'loss': 0.0785, 'learning_rate': 4.4459049739023646e-05, 'epoch': 11.08} {'loss': 0.079, 'learning_rate': 4.4456651059256985e-05, 'epoch': 11.09} {'loss': 0.076, 'learning_rate': 4.445425237949033e-05, 'epoch': 11.09} {'loss': 0.082, 'learning_rate': 4.445185369972367e-05, 'epoch': 11.1} {'loss': 0.0789, 'learning_rate': 4.444945501995702e-05, 'epoch': 11.1} {'loss': 0.0751, 'learning_rate': 4.444705634019036e-05, 'epoch': 11.11} {'loss': 0.0768, 'learning_rate': 4.44446576604237e-05, 'epoch': 11.11} {'loss': 0.0812, 'learning_rate': 4.444225898065705e-05, 'epoch': 11.12} {'loss': 0.0775, 'learning_rate': 4.443986030089039e-05, 'epoch': 11.12} {'loss': 0.0804, 'learning_rate': 4.443746162112374e-05, 'epoch': 11.13} {'loss': 0.078, 'learning_rate': 4.443506294135708e-05, 'epoch': 11.13} {'loss': 0.0801, 'learning_rate': 4.4432664261590426e-05, 'epoch': 11.13} {'loss': 0.079, 'learning_rate': 4.4430265581823765e-05, 'epoch': 11.14} {'loss': 0.0758, 'learning_rate': 4.442786690205711e-05, 'epoch': 11.14} {'loss': 0.0798, 'learning_rate': 4.442546822229046e-05, 'epoch': 11.15} {'loss': 0.0792, 'learning_rate': 4.4423069542523796e-05, 'epoch': 11.15} {'loss': 0.0814, 'learning_rate': 4.442067086275714e-05, 'epoch': 11.16} {'loss': 0.0782, 'learning_rate': 4.441827218299048e-05, 'epoch': 11.16} {'loss': 0.0797, 'learning_rate': 4.441587350322383e-05, 'epoch': 11.17} {'loss': 0.0767, 'learning_rate': 4.4413474823457174e-05, 'epoch': 11.17} {'loss': 0.0804, 'learning_rate': 4.441107614369051e-05, 'epoch': 11.18} {'loss': 0.0794, 'learning_rate': 4.440867746392386e-05, 'epoch': 11.18} {'loss': 0.0777, 'learning_rate': 4.44062787841572e-05, 'epoch': 11.19} {'loss': 0.0789, 'learning_rate': 4.4403880104390545e-05, 'epoch': 11.19} {'loss': 0.0799, 'learning_rate': 4.4401481424623884e-05, 'epoch': 11.2} {'loss': 0.079, 'learning_rate': 4.439908274485724e-05, 'epoch': 11.2} {'loss': 0.0769, 'learning_rate': 4.4396684065090576e-05, 'epoch': 11.21} {'loss': 0.0785, 'learning_rate': 4.439428538532392e-05, 'epoch': 11.21} {'loss': 0.0784, 'learning_rate': 4.439188670555726e-05, 'epoch': 11.22} {'loss': 0.0757, 'learning_rate': 4.43894880257906e-05, 'epoch': 11.22} {'loss': 0.0803, 'learning_rate': 4.4387089346023954e-05, 'epoch': 11.23} {'loss': 0.081, 'learning_rate': 4.438469066625729e-05, 'epoch': 11.23} {'loss': 0.0766, 'learning_rate': 4.438229198649064e-05, 'epoch': 11.24} {'loss': 0.0784, 'learning_rate': 4.437989330672398e-05, 'epoch': 11.24} {'loss': 0.0766, 'learning_rate': 4.4377494626957325e-05, 'epoch': 11.25} {'loss': 0.0782, 'learning_rate': 4.437509594719067e-05, 'epoch': 11.25} {'loss': 0.0774, 'learning_rate': 4.437269726742401e-05, 'epoch': 11.25} {'loss': 0.0773, 'learning_rate': 4.4370298587657356e-05, 'epoch': 11.26} {'loss': 0.0772, 'learning_rate': 4.4367899907890696e-05, 'epoch': 11.26} {'loss': 0.0784, 'learning_rate': 4.436550122812404e-05, 'epoch': 11.27} {'loss': 0.078, 'learning_rate': 4.436310254835739e-05, 'epoch': 11.27} {'loss': 0.0823, 'learning_rate': 4.4360703868590734e-05, 'epoch': 11.28} {'loss': 0.0805, 'learning_rate': 4.435830518882407e-05, 'epoch': 11.28} {'loss': 0.0792, 'learning_rate': 4.435590650905741e-05, 'epoch': 11.29} {'loss': 0.075, 'learning_rate': 4.435350782929076e-05, 'epoch': 11.29} {'loss': 0.0769, 'learning_rate': 4.4351109149524105e-05, 'epoch': 11.3} {'loss': 0.0783, 'learning_rate': 4.434871046975745e-05, 'epoch': 11.3} {'loss': 0.0794, 'learning_rate': 4.434631178999079e-05, 'epoch': 11.31} {'loss': 0.0751, 'learning_rate': 4.4343913110224136e-05, 'epoch': 11.31} {'loss': 0.0754, 'learning_rate': 4.4341514430457475e-05, 'epoch': 11.32} {'loss': 0.0765, 'learning_rate': 4.433911575069082e-05, 'epoch': 11.32} {'loss': 0.0798, 'learning_rate': 4.433671707092417e-05, 'epoch': 11.33} {'loss': 0.0799, 'learning_rate': 4.433431839115751e-05, 'epoch': 11.33} {'loss': 0.077, 'learning_rate': 4.433191971139085e-05, 'epoch': 11.34} {'loss': 0.0772, 'learning_rate': 4.432952103162419e-05, 'epoch': 11.34} {'loss': 0.0753, 'learning_rate': 4.432712235185754e-05, 'epoch': 11.35} {'loss': 0.0775, 'learning_rate': 4.4324723672090885e-05, 'epoch': 11.35} {'loss': 0.0776, 'learning_rate': 4.4322324992324224e-05, 'epoch': 11.36} {'loss': 0.0759, 'learning_rate': 4.431992631255757e-05, 'epoch': 11.36} {'loss': 0.0775, 'learning_rate': 4.431752763279091e-05, 'epoch': 11.36} {'loss': 0.0771, 'learning_rate': 4.431512895302426e-05, 'epoch': 11.37} {'loss': 0.0784, 'learning_rate': 4.43127302732576e-05, 'epoch': 11.37} {'loss': 0.0744, 'learning_rate': 4.431033159349095e-05, 'epoch': 11.38} {'loss': 0.0796, 'learning_rate': 4.430793291372429e-05, 'epoch': 11.38} {'loss': 0.0786, 'learning_rate': 4.4305534233957626e-05, 'epoch': 11.39} {'loss': 0.0763, 'learning_rate': 4.430313555419098e-05, 'epoch': 11.39} {'loss': 0.078, 'learning_rate': 4.430073687442432e-05, 'epoch': 11.4} {'loss': 0.0798, 'learning_rate': 4.4298338194657664e-05, 'epoch': 11.4} {'loss': 0.0765, 'learning_rate': 4.4295939514891004e-05, 'epoch': 11.41} {'loss': 0.0792, 'learning_rate': 4.429354083512435e-05, 'epoch': 11.41} {'loss': 0.0772, 'learning_rate': 4.4291142155357696e-05, 'epoch': 11.42} {'loss': 0.0795, 'learning_rate': 4.4288743475591035e-05, 'epoch': 11.42} {'loss': 0.0779, 'learning_rate': 4.428634479582438e-05, 'epoch': 11.43} {'loss': 0.0763, 'learning_rate': 4.428394611605772e-05, 'epoch': 11.43} {'loss': 0.0795, 'learning_rate': 4.428154743629107e-05, 'epoch': 11.44} {'loss': 0.0759, 'learning_rate': 4.427914875652441e-05, 'epoch': 11.44} {'loss': 0.0781, 'learning_rate': 4.427675007675776e-05, 'epoch': 11.45} {'loss': 0.0764, 'learning_rate': 4.42743513969911e-05, 'epoch': 11.45} {'loss': 0.0782, 'learning_rate': 4.427195271722444e-05, 'epoch': 11.46} {'loss': 0.0774, 'learning_rate': 4.4269554037457784e-05, 'epoch': 11.46} {'loss': 0.0769, 'learning_rate': 4.426715535769113e-05, 'epoch': 11.47} {'loss': 0.0784, 'learning_rate': 4.4264756677924476e-05, 'epoch': 11.47} {'loss': 0.0776, 'learning_rate': 4.4262357998157815e-05, 'epoch': 11.48} {'loss': 0.0784, 'learning_rate': 4.425995931839116e-05, 'epoch': 11.48} {'loss': 0.079, 'learning_rate': 4.42575606386245e-05, 'epoch': 11.48} {'loss': 0.0773, 'learning_rate': 4.425516195885785e-05, 'epoch': 11.49} {'loss': 0.0768, 'learning_rate': 4.425276327909119e-05, 'epoch': 11.49} {'loss': 0.0761, 'learning_rate': 4.425036459932453e-05, 'epoch': 11.5} {'loss': 0.075, 'learning_rate': 4.424796591955788e-05, 'epoch': 11.5} {'loss': 0.0752, 'learning_rate': 4.424556723979122e-05, 'epoch': 11.51} {'loss': 0.0778, 'learning_rate': 4.424316856002457e-05, 'epoch': 11.51} {'loss': 0.0767, 'learning_rate': 4.424076988025791e-05, 'epoch': 11.52} {'loss': 0.076, 'learning_rate': 4.423837120049125e-05, 'epoch': 11.52} {'loss': 0.0767, 'learning_rate': 4.4235972520724595e-05, 'epoch': 11.53} {'loss': 0.0753, 'learning_rate': 4.4233573840957934e-05, 'epoch': 11.53} {'loss': 0.0764, 'learning_rate': 4.423117516119129e-05, 'epoch': 11.54} {'loss': 0.0788, 'learning_rate': 4.4228776481424627e-05, 'epoch': 11.54} {'loss': 0.078, 'learning_rate': 4.422637780165797e-05, 'epoch': 11.55} {'loss': 0.081, 'learning_rate': 4.422397912189131e-05, 'epoch': 11.55} {'loss': 0.0779, 'learning_rate': 4.422158044212466e-05, 'epoch': 11.56} {'loss': 0.0753, 'learning_rate': 4.4219181762358004e-05, 'epoch': 11.56} {'loss': 0.0764, 'learning_rate': 4.4216783082591343e-05, 'epoch': 11.57} {'loss': 0.0778, 'learning_rate': 4.421438440282469e-05, 'epoch': 11.57} {'loss': 0.0754, 'learning_rate': 4.421198572305803e-05, 'epoch': 11.58} {'loss': 0.0786, 'learning_rate': 4.4209587043291375e-05, 'epoch': 11.58} {'loss': 0.0782, 'learning_rate': 4.420718836352472e-05, 'epoch': 11.59} {'loss': 0.0743, 'learning_rate': 4.420478968375806e-05, 'epoch': 11.59} {'loss': 0.0792, 'learning_rate': 4.4202391003991406e-05, 'epoch': 11.6} {'loss': 0.0754, 'learning_rate': 4.4199992324224746e-05, 'epoch': 11.6} {'loss': 0.0769, 'learning_rate': 4.419759364445809e-05, 'epoch': 11.6} {'loss': 0.0764, 'learning_rate': 4.419519496469144e-05, 'epoch': 11.61} {'loss': 0.0764, 'learning_rate': 4.4192796284924784e-05, 'epoch': 11.61} {'loss': 0.0755, 'learning_rate': 4.4190397605158123e-05, 'epoch': 11.62} {'loss': 0.08, 'learning_rate': 4.418799892539147e-05, 'epoch': 11.62} {'loss': 0.0763, 'learning_rate': 4.418560024562481e-05, 'epoch': 11.63} {'loss': 0.0751, 'learning_rate': 4.418320156585815e-05, 'epoch': 11.63} {'loss': 0.0779, 'learning_rate': 4.41808028860915e-05, 'epoch': 11.64} {'loss': 0.0789, 'learning_rate': 4.417840420632484e-05, 'epoch': 11.64} {'loss': 0.0796, 'learning_rate': 4.4176005526558186e-05, 'epoch': 11.65} {'loss': 0.0729, 'learning_rate': 4.4173606846791526e-05, 'epoch': 11.65} {'loss': 0.077, 'learning_rate': 4.417120816702487e-05, 'epoch': 11.66} {'loss': 0.076, 'learning_rate': 4.416880948725822e-05, 'epoch': 11.66} {'loss': 0.0805, 'learning_rate': 4.416641080749156e-05, 'epoch': 11.67} {'loss': 0.0774, 'learning_rate': 4.41640121277249e-05, 'epoch': 11.67} {'loss': 0.0744, 'learning_rate': 4.416161344795824e-05, 'epoch': 11.68} {'loss': 0.0805, 'learning_rate': 4.415921476819159e-05, 'epoch': 11.68} {'loss': 0.0764, 'learning_rate': 4.4156816088424935e-05, 'epoch': 11.69} {'loss': 0.077, 'learning_rate': 4.4154417408658274e-05, 'epoch': 11.69} {'loss': 0.0779, 'learning_rate': 4.415201872889162e-05, 'epoch': 11.7} {'loss': 0.0764, 'learning_rate': 4.414962004912496e-05, 'epoch': 11.7} {'loss': 0.0769, 'learning_rate': 4.4147221369358306e-05, 'epoch': 11.71} {'loss': 0.0759, 'learning_rate': 4.414482268959165e-05, 'epoch': 11.71} {'loss': 0.0775, 'learning_rate': 4.4142424009825e-05, 'epoch': 11.72} {'loss': 0.078, 'learning_rate': 4.414002533005834e-05, 'epoch': 11.72} {'loss': 0.0744, 'learning_rate': 4.413762665029168e-05, 'epoch': 11.72} {'loss': 0.0805, 'learning_rate': 4.413522797052502e-05, 'epoch': 11.73} {'loss': 0.0776, 'learning_rate': 4.413282929075837e-05, 'epoch': 11.73} {'loss': 0.0757, 'learning_rate': 4.4130430610991715e-05, 'epoch': 11.74} {'loss': 0.0785, 'learning_rate': 4.4128031931225054e-05, 'epoch': 11.74} {'loss': 0.0741, 'learning_rate': 4.41256332514584e-05, 'epoch': 11.75} {'loss': 0.0757, 'learning_rate': 4.412323457169174e-05, 'epoch': 11.75} {'loss': 0.0767, 'learning_rate': 4.4120835891925086e-05, 'epoch': 11.76} {'loss': 0.0769, 'learning_rate': 4.411843721215843e-05, 'epoch': 11.76} {'loss': 0.0752, 'learning_rate': 4.411603853239177e-05, 'epoch': 11.77} {'loss': 0.0755, 'learning_rate': 4.411363985262512e-05, 'epoch': 11.77} {'loss': 0.0748, 'learning_rate': 4.4111241172858456e-05, 'epoch': 11.78} {'loss': 0.0755, 'learning_rate': 4.410884249309181e-05, 'epoch': 11.78} {'loss': 0.0768, 'learning_rate': 4.410644381332515e-05, 'epoch': 11.79} {'loss': 0.0768, 'learning_rate': 4.4104045133558495e-05, 'epoch': 11.79} {'loss': 0.0789, 'learning_rate': 4.4101646453791834e-05, 'epoch': 11.8} {'loss': 0.0776, 'learning_rate': 4.409924777402517e-05, 'epoch': 11.8} {'loss': 0.0783, 'learning_rate': 4.4096849094258526e-05, 'epoch': 11.81} {'loss': 0.079, 'learning_rate': 4.4094450414491865e-05, 'epoch': 11.81} {'loss': 0.0778, 'learning_rate': 4.409205173472521e-05, 'epoch': 11.82} {'loss': 0.0778, 'learning_rate': 4.408965305495855e-05, 'epoch': 11.82} {'loss': 0.0781, 'learning_rate': 4.40872543751919e-05, 'epoch': 11.83} {'loss': 0.0818, 'learning_rate': 4.408485569542524e-05, 'epoch': 11.83} {'loss': 0.0765, 'learning_rate': 4.408245701565858e-05, 'epoch': 11.84} {'loss': 0.0785, 'learning_rate': 4.408005833589193e-05, 'epoch': 11.84} {'loss': 0.0785, 'learning_rate': 4.407765965612527e-05, 'epoch': 11.84} {'loss': 0.076, 'learning_rate': 4.4075260976358614e-05, 'epoch': 11.85} {'loss': 0.0775, 'learning_rate': 4.407286229659196e-05, 'epoch': 11.85} {'loss': 0.0751, 'learning_rate': 4.4070463616825306e-05, 'epoch': 11.86} {'loss': 0.076, 'learning_rate': 4.4068064937058645e-05, 'epoch': 11.86} {'loss': 0.0761, 'learning_rate': 4.4065666257291985e-05, 'epoch': 11.87} {'loss': 0.0774, 'learning_rate': 4.406326757752533e-05, 'epoch': 11.87} {'loss': 0.0764, 'learning_rate': 4.406086889775868e-05, 'epoch': 11.88} {'loss': 0.0804, 'learning_rate': 4.405847021799202e-05, 'epoch': 11.88} {'loss': 0.0752, 'learning_rate': 4.405607153822536e-05, 'epoch': 11.89} {'loss': 0.0778, 'learning_rate': 4.405367285845871e-05, 'epoch': 11.89} {'loss': 0.0781, 'learning_rate': 4.405127417869205e-05, 'epoch': 11.9} {'loss': 0.0739, 'learning_rate': 4.4048875498925394e-05, 'epoch': 11.9} {'loss': 0.0771, 'learning_rate': 4.404647681915874e-05, 'epoch': 11.91} {'loss': 0.0767, 'learning_rate': 4.404407813939208e-05, 'epoch': 11.91} {'loss': 0.0779, 'learning_rate': 4.4041679459625425e-05, 'epoch': 11.92} {'loss': 0.077, 'learning_rate': 4.4039280779858765e-05, 'epoch': 11.92} {'loss': 0.0771, 'learning_rate': 4.403688210009211e-05, 'epoch': 11.93} {'loss': 0.0807, 'learning_rate': 4.403448342032546e-05, 'epoch': 11.93} {'loss': 0.0772, 'learning_rate': 4.4032084740558796e-05, 'epoch': 11.94} {'loss': 0.0742, 'learning_rate': 4.402968606079214e-05, 'epoch': 11.94} {'loss': 0.0781, 'learning_rate': 4.402728738102548e-05, 'epoch': 11.95} {'loss': 0.0795, 'learning_rate': 4.4024888701258834e-05, 'epoch': 11.95} {'loss': 0.0805, 'learning_rate': 4.4022490021492174e-05, 'epoch': 11.96} {'loss': 0.0794, 'learning_rate': 4.402009134172552e-05, 'epoch': 11.96} {'loss': 0.0772, 'learning_rate': 4.401769266195886e-05, 'epoch': 11.96} {'loss': 0.0758, 'learning_rate': 4.40152939821922e-05, 'epoch': 11.97} {'loss': 0.079, 'learning_rate': 4.401289530242555e-05, 'epoch': 11.97} {'loss': 0.0749, 'learning_rate': 4.401049662265889e-05, 'epoch': 11.98} {'loss': 0.0808, 'learning_rate': 4.4008097942892237e-05, 'epoch': 11.98} {'loss': 0.0771, 'learning_rate': 4.4005699263125576e-05, 'epoch': 11.99} {'loss': 0.0773, 'learning_rate': 4.400330058335892e-05, 'epoch': 11.99} {'loss': 0.0758, 'learning_rate': 4.400090190359227e-05, 'epoch': 12.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.06856115162372589, 'eval_runtime': 525.8366, 'eval_samples_per_second': 792.822, 'eval_steps_per_second': 99.103, 'epoch': 12.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-1250688 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-1250688/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-1250688/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-1146464] due to args.save_total_limit {'loss': 0.0745, 'learning_rate': 4.399850322382561e-05, 'epoch': 12.0} {'loss': 0.0781, 'learning_rate': 4.3996104544058954e-05, 'epoch': 12.01} {'loss': 0.0742, 'learning_rate': 4.399370586429229e-05, 'epoch': 12.01} {'loss': 0.0755, 'learning_rate': 4.399130718452564e-05, 'epoch': 12.02} {'loss': 0.0764, 'learning_rate': 4.3988908504758985e-05, 'epoch': 12.02} {'loss': 0.0753, 'learning_rate': 4.398650982499233e-05, 'epoch': 12.03} {'loss': 0.0756, 'learning_rate': 4.398411114522567e-05, 'epoch': 12.03} {'loss': 0.0752, 'learning_rate': 4.398171246545901e-05, 'epoch': 12.04} {'loss': 0.0753, 'learning_rate': 4.3979313785692356e-05, 'epoch': 12.04} {'loss': 0.0766, 'learning_rate': 4.3976915105925695e-05, 'epoch': 12.05} {'loss': 0.0748, 'learning_rate': 4.397451642615905e-05, 'epoch': 12.05} {'loss': 0.0755, 'learning_rate': 4.397211774639239e-05, 'epoch': 12.06} {'loss': 0.0768, 'learning_rate': 4.3969719066625733e-05, 'epoch': 12.06} {'loss': 0.078, 'learning_rate': 4.396732038685907e-05, 'epoch': 12.07} {'loss': 0.0788, 'learning_rate': 4.396492170709242e-05, 'epoch': 12.07} {'loss': 0.076, 'learning_rate': 4.3962523027325765e-05, 'epoch': 12.07} {'loss': 0.0783, 'learning_rate': 4.3960124347559104e-05, 'epoch': 12.08} {'loss': 0.0757, 'learning_rate': 4.395772566779245e-05, 'epoch': 12.08} {'loss': 0.0757, 'learning_rate': 4.395532698802579e-05, 'epoch': 12.09} {'loss': 0.0785, 'learning_rate': 4.3952928308259136e-05, 'epoch': 12.09} {'loss': 0.076, 'learning_rate': 4.395052962849248e-05, 'epoch': 12.1} {'loss': 0.0746, 'learning_rate': 4.394813094872582e-05, 'epoch': 12.1} {'loss': 0.0739, 'learning_rate': 4.394573226895917e-05, 'epoch': 12.11} {'loss': 0.0748, 'learning_rate': 4.3943333589192507e-05, 'epoch': 12.11} {'loss': 0.077, 'learning_rate': 4.394093490942585e-05, 'epoch': 12.12} {'loss': 0.0744, 'learning_rate': 4.39385362296592e-05, 'epoch': 12.12} {'loss': 0.0786, 'learning_rate': 4.3936137549892545e-05, 'epoch': 12.13} {'loss': 0.0774, 'learning_rate': 4.3933738870125884e-05, 'epoch': 12.13} {'loss': 0.0786, 'learning_rate': 4.393134019035923e-05, 'epoch': 12.14} {'loss': 0.0709, 'learning_rate': 4.392894151059257e-05, 'epoch': 12.14} {'loss': 0.0808, 'learning_rate': 4.3926542830825916e-05, 'epoch': 12.15} {'loss': 0.0745, 'learning_rate': 4.392414415105926e-05, 'epoch': 12.15} {'loss': 0.0747, 'learning_rate': 4.39217454712926e-05, 'epoch': 12.16} {'loss': 0.0738, 'learning_rate': 4.391934679152595e-05, 'epoch': 12.16} {'loss': 0.0761, 'learning_rate': 4.3916948111759286e-05, 'epoch': 12.17} {'loss': 0.0776, 'learning_rate': 4.391454943199263e-05, 'epoch': 12.17} {'loss': 0.0737, 'learning_rate': 4.391215075222598e-05, 'epoch': 12.18} {'loss': 0.0756, 'learning_rate': 4.390975207245932e-05, 'epoch': 12.18} {'loss': 0.0758, 'learning_rate': 4.3907353392692664e-05, 'epoch': 12.19} {'loss': 0.0744, 'learning_rate': 4.3904954712926e-05, 'epoch': 12.19} {'loss': 0.0775, 'learning_rate': 4.3902556033159356e-05, 'epoch': 12.19} {'loss': 0.0763, 'learning_rate': 4.3900157353392696e-05, 'epoch': 12.2} {'loss': 0.0765, 'learning_rate': 4.389775867362604e-05, 'epoch': 12.2} {'loss': 0.0781, 'learning_rate': 4.389535999385938e-05, 'epoch': 12.21} {'loss': 0.0753, 'learning_rate': 4.389296131409272e-05, 'epoch': 12.21} {'loss': 0.0766, 'learning_rate': 4.389056263432607e-05, 'epoch': 12.22} {'loss': 0.074, 'learning_rate': 4.388816395455941e-05, 'epoch': 12.22} {'loss': 0.0778, 'learning_rate': 4.388576527479276e-05, 'epoch': 12.23} {'loss': 0.0779, 'learning_rate': 4.38833665950261e-05, 'epoch': 12.23} {'loss': 0.0742, 'learning_rate': 4.3880967915259444e-05, 'epoch': 12.24} {'loss': 0.0757, 'learning_rate': 4.387856923549279e-05, 'epoch': 12.24} {'loss': 0.0769, 'learning_rate': 4.387617055572613e-05, 'epoch': 12.25} {'loss': 0.0783, 'learning_rate': 4.3873771875959475e-05, 'epoch': 12.25} {'loss': 0.0762, 'learning_rate': 4.3871373196192815e-05, 'epoch': 12.26} {'loss': 0.0754, 'learning_rate': 4.386897451642616e-05, 'epoch': 12.26} {'loss': 0.0764, 'learning_rate': 4.386657583665951e-05, 'epoch': 12.27} {'loss': 0.0763, 'learning_rate': 4.3864177156892846e-05, 'epoch': 12.27} {'loss': 0.0759, 'learning_rate': 4.386177847712619e-05, 'epoch': 12.28} {'loss': 0.0722, 'learning_rate': 4.385937979735953e-05, 'epoch': 12.28} {'loss': 0.0745, 'learning_rate': 4.385698111759288e-05, 'epoch': 12.29} {'loss': 0.076, 'learning_rate': 4.3854582437826224e-05, 'epoch': 12.29} {'loss': 0.0755, 'learning_rate': 4.385218375805957e-05, 'epoch': 12.3} {'loss': 0.076, 'learning_rate': 4.384978507829291e-05, 'epoch': 12.3} {'loss': 0.072, 'learning_rate': 4.3847386398526255e-05, 'epoch': 12.31} {'loss': 0.0788, 'learning_rate': 4.3844987718759595e-05, 'epoch': 12.31} {'loss': 0.0789, 'learning_rate': 4.384258903899294e-05, 'epoch': 12.31} {'loss': 0.0754, 'learning_rate': 4.384019035922629e-05, 'epoch': 12.32} {'loss': 0.0787, 'learning_rate': 4.3837791679459626e-05, 'epoch': 12.32} {'loss': 0.0772, 'learning_rate': 4.383539299969297e-05, 'epoch': 12.33} {'loss': 0.078, 'learning_rate': 4.383299431992631e-05, 'epoch': 12.33} {'loss': 0.0751, 'learning_rate': 4.383059564015966e-05, 'epoch': 12.34} {'loss': 0.0755, 'learning_rate': 4.3828196960393004e-05, 'epoch': 12.34} {'loss': 0.0746, 'learning_rate': 4.382579828062634e-05, 'epoch': 12.35} {'loss': 0.0771, 'learning_rate': 4.382339960085969e-05, 'epoch': 12.35} {'loss': 0.0748, 'learning_rate': 4.382100092109303e-05, 'epoch': 12.36} {'loss': 0.0765, 'learning_rate': 4.381860224132638e-05, 'epoch': 12.36} {'loss': 0.0759, 'learning_rate': 4.381620356155972e-05, 'epoch': 12.37} {'loss': 0.0788, 'learning_rate': 4.381380488179307e-05, 'epoch': 12.37} {'loss': 0.0756, 'learning_rate': 4.3811406202026406e-05, 'epoch': 12.38} {'loss': 0.0754, 'learning_rate': 4.3809007522259745e-05, 'epoch': 12.38} {'loss': 0.0773, 'learning_rate': 4.38066088424931e-05, 'epoch': 12.39} {'loss': 0.0775, 'learning_rate': 4.380421016272644e-05, 'epoch': 12.39} {'loss': 0.0756, 'learning_rate': 4.3801811482959784e-05, 'epoch': 12.4} {'loss': 0.077, 'learning_rate': 4.379941280319312e-05, 'epoch': 12.4} {'loss': 0.0779, 'learning_rate': 4.379701412342647e-05, 'epoch': 12.41} {'loss': 0.0745, 'learning_rate': 4.3794615443659815e-05, 'epoch': 12.41} {'loss': 0.0737, 'learning_rate': 4.3792216763893154e-05, 'epoch': 12.42} {'loss': 0.0773, 'learning_rate': 4.37898180841265e-05, 'epoch': 12.42} {'loss': 0.0757, 'learning_rate': 4.378741940435984e-05, 'epoch': 12.43} {'loss': 0.0793, 'learning_rate': 4.3785020724593186e-05, 'epoch': 12.43} {'loss': 0.0756, 'learning_rate': 4.378262204482653e-05, 'epoch': 12.43} {'loss': 0.0785, 'learning_rate': 4.378022336505988e-05, 'epoch': 12.44} {'loss': 0.0767, 'learning_rate': 4.377782468529322e-05, 'epoch': 12.44} {'loss': 0.0773, 'learning_rate': 4.377542600552656e-05, 'epoch': 12.45} {'loss': 0.0779, 'learning_rate': 4.37730273257599e-05, 'epoch': 12.45} {'loss': 0.0752, 'learning_rate': 4.377062864599324e-05, 'epoch': 12.46} {'loss': 0.0734, 'learning_rate': 4.3768229966226595e-05, 'epoch': 12.46} {'loss': 0.0723, 'learning_rate': 4.3765831286459934e-05, 'epoch': 12.47} {'loss': 0.0716, 'learning_rate': 4.376343260669328e-05, 'epoch': 12.47} {'loss': 0.0734, 'learning_rate': 4.376103392692662e-05, 'epoch': 12.48} {'loss': 0.0748, 'learning_rate': 4.3758635247159966e-05, 'epoch': 12.48} {'loss': 0.0752, 'learning_rate': 4.375623656739331e-05, 'epoch': 12.49} {'loss': 0.0752, 'learning_rate': 4.375383788762665e-05, 'epoch': 12.49} {'loss': 0.0743, 'learning_rate': 4.375143920786e-05, 'epoch': 12.5} {'loss': 0.078, 'learning_rate': 4.374904052809334e-05, 'epoch': 12.5} {'loss': 0.0779, 'learning_rate': 4.374664184832668e-05, 'epoch': 12.51} {'loss': 0.0781, 'learning_rate': 4.374424316856003e-05, 'epoch': 12.51} {'loss': 0.0753, 'learning_rate': 4.374184448879337e-05, 'epoch': 12.52} {'loss': 0.0737, 'learning_rate': 4.3739445809026714e-05, 'epoch': 12.52} {'loss': 0.0767, 'learning_rate': 4.3737047129260054e-05, 'epoch': 12.53} {'loss': 0.078, 'learning_rate': 4.37346484494934e-05, 'epoch': 12.53} {'loss': 0.0761, 'learning_rate': 4.3732249769726746e-05, 'epoch': 12.54} {'loss': 0.075, 'learning_rate': 4.372985108996009e-05, 'epoch': 12.54} {'loss': 0.0762, 'learning_rate': 4.372745241019343e-05, 'epoch': 12.55} {'loss': 0.0756, 'learning_rate': 4.372505373042677e-05, 'epoch': 12.55} {'loss': 0.0734, 'learning_rate': 4.3722655050660117e-05, 'epoch': 12.55} {'loss': 0.0738, 'learning_rate': 4.372025637089346e-05, 'epoch': 12.56} {'loss': 0.0725, 'learning_rate': 4.371785769112681e-05, 'epoch': 12.56} {'loss': 0.0743, 'learning_rate': 4.371545901136015e-05, 'epoch': 12.57} {'loss': 0.0734, 'learning_rate': 4.3713060331593494e-05, 'epoch': 12.57} {'loss': 0.0779, 'learning_rate': 4.3710661651826833e-05, 'epoch': 12.58} {'loss': 0.0751, 'learning_rate': 4.370826297206018e-05, 'epoch': 12.58} {'loss': 0.0784, 'learning_rate': 4.3705864292293526e-05, 'epoch': 12.59} {'loss': 0.0789, 'learning_rate': 4.3703465612526865e-05, 'epoch': 12.59} {'loss': 0.0761, 'learning_rate': 4.370106693276021e-05, 'epoch': 12.6} {'loss': 0.078, 'learning_rate': 4.369866825299355e-05, 'epoch': 12.6} {'loss': 0.0756, 'learning_rate': 4.36962695732269e-05, 'epoch': 12.61} {'loss': 0.0736, 'learning_rate': 4.369387089346024e-05, 'epoch': 12.61} {'loss': 0.0761, 'learning_rate': 4.369147221369358e-05, 'epoch': 12.62} {'loss': 0.0794, 'learning_rate': 4.368907353392693e-05, 'epoch': 12.62} {'loss': 0.0741, 'learning_rate': 4.368667485416027e-05, 'epoch': 12.63} {'loss': 0.0767, 'learning_rate': 4.368427617439362e-05, 'epoch': 12.63} {'loss': 0.0781, 'learning_rate': 4.368187749462696e-05, 'epoch': 12.64} {'loss': 0.0758, 'learning_rate': 4.3679478814860306e-05, 'epoch': 12.64} {'loss': 0.0747, 'learning_rate': 4.3677080135093645e-05, 'epoch': 12.65} {'loss': 0.0791, 'learning_rate': 4.367468145532699e-05, 'epoch': 12.65} {'loss': 0.0768, 'learning_rate': 4.367228277556034e-05, 'epoch': 12.66} {'loss': 0.0732, 'learning_rate': 4.3669884095793676e-05, 'epoch': 12.66} {'loss': 0.0763, 'learning_rate': 4.366748541602702e-05, 'epoch': 12.67} {'loss': 0.0768, 'learning_rate': 4.366508673626036e-05, 'epoch': 12.67} {'loss': 0.0749, 'learning_rate': 4.366268805649371e-05, 'epoch': 12.67} {'loss': 0.0763, 'learning_rate': 4.3660289376727054e-05, 'epoch': 12.68} {'loss': 0.0733, 'learning_rate': 4.365789069696039e-05, 'epoch': 12.68} {'loss': 0.0762, 'learning_rate': 4.365549201719374e-05, 'epoch': 12.69} {'loss': 0.0747, 'learning_rate': 4.365309333742708e-05, 'epoch': 12.69} {'loss': 0.0763, 'learning_rate': 4.3650694657660425e-05, 'epoch': 12.7} {'loss': 0.0794, 'learning_rate': 4.364829597789377e-05, 'epoch': 12.7} {'loss': 0.0761, 'learning_rate': 4.364589729812712e-05, 'epoch': 12.71} {'loss': 0.0736, 'learning_rate': 4.3643498618360456e-05, 'epoch': 12.71} {'loss': 0.0769, 'learning_rate': 4.36410999385938e-05, 'epoch': 12.72} {'loss': 0.0791, 'learning_rate': 4.363870125882714e-05, 'epoch': 12.72} {'loss': 0.0783, 'learning_rate': 4.363630257906049e-05, 'epoch': 12.73} {'loss': 0.0728, 'learning_rate': 4.3633903899293834e-05, 'epoch': 12.73} {'loss': 0.0775, 'learning_rate': 4.363150521952717e-05, 'epoch': 12.74} {'loss': 0.0748, 'learning_rate': 4.362910653976052e-05, 'epoch': 12.74} {'loss': 0.074, 'learning_rate': 4.362670785999386e-05, 'epoch': 12.75} {'loss': 0.0737, 'learning_rate': 4.3624309180227205e-05, 'epoch': 12.75} {'loss': 0.0755, 'learning_rate': 4.362191050046055e-05, 'epoch': 12.76} {'loss': 0.0721, 'learning_rate': 4.361951182069389e-05, 'epoch': 12.76} {'loss': 0.0736, 'learning_rate': 4.3617113140927236e-05, 'epoch': 12.77} {'loss': 0.0753, 'learning_rate': 4.3614714461160575e-05, 'epoch': 12.77} {'loss': 0.075, 'learning_rate': 4.361231578139393e-05, 'epoch': 12.78} {'loss': 0.0753, 'learning_rate': 4.360991710162727e-05, 'epoch': 12.78} {'loss': 0.0739, 'learning_rate': 4.360751842186061e-05, 'epoch': 12.78} {'loss': 0.072, 'learning_rate': 4.360511974209395e-05, 'epoch': 12.79} {'loss': 0.0718, 'learning_rate': 4.360272106232729e-05, 'epoch': 12.79} {'loss': 0.0744, 'learning_rate': 4.3600322382560645e-05, 'epoch': 12.8} {'loss': 0.0741, 'learning_rate': 4.3597923702793985e-05, 'epoch': 12.8} {'loss': 0.0755, 'learning_rate': 4.359552502302733e-05, 'epoch': 12.81} {'loss': 0.0767, 'learning_rate': 4.359312634326067e-05, 'epoch': 12.81} {'loss': 0.0747, 'learning_rate': 4.3590727663494016e-05, 'epoch': 12.82} {'loss': 0.0742, 'learning_rate': 4.358832898372736e-05, 'epoch': 12.82} {'loss': 0.0771, 'learning_rate': 4.35859303039607e-05, 'epoch': 12.83} {'loss': 0.0751, 'learning_rate': 4.358353162419405e-05, 'epoch': 12.83} {'loss': 0.0722, 'learning_rate': 4.358113294442739e-05, 'epoch': 12.84} {'loss': 0.0771, 'learning_rate': 4.357873426466073e-05, 'epoch': 12.84} {'loss': 0.0772, 'learning_rate': 4.357633558489408e-05, 'epoch': 12.85} {'loss': 0.0799, 'learning_rate': 4.357393690512742e-05, 'epoch': 12.85} {'loss': 0.0751, 'learning_rate': 4.3571538225360764e-05, 'epoch': 12.86} {'loss': 0.0753, 'learning_rate': 4.3569139545594104e-05, 'epoch': 12.86} {'loss': 0.0744, 'learning_rate': 4.356674086582745e-05, 'epoch': 12.87} {'loss': 0.0781, 'learning_rate': 4.3564342186060796e-05, 'epoch': 12.87} {'loss': 0.0763, 'learning_rate': 4.356194350629414e-05, 'epoch': 12.88} {'loss': 0.0796, 'learning_rate': 4.355954482652748e-05, 'epoch': 12.88} {'loss': 0.0741, 'learning_rate': 4.355714614676083e-05, 'epoch': 12.89} {'loss': 0.0723, 'learning_rate': 4.355474746699417e-05, 'epoch': 12.89} {'loss': 0.0753, 'learning_rate': 4.3552348787227506e-05, 'epoch': 12.9} {'loss': 0.0771, 'learning_rate': 4.354995010746086e-05, 'epoch': 12.9} {'loss': 0.0733, 'learning_rate': 4.35475514276942e-05, 'epoch': 12.9} {'loss': 0.0759, 'learning_rate': 4.3545152747927544e-05, 'epoch': 12.91} {'loss': 0.0745, 'learning_rate': 4.3542754068160884e-05, 'epoch': 12.91} {'loss': 0.0745, 'learning_rate': 4.354035538839423e-05, 'epoch': 12.92} {'loss': 0.0751, 'learning_rate': 4.3537956708627576e-05, 'epoch': 12.92} {'loss': 0.076, 'learning_rate': 4.3535558028860915e-05, 'epoch': 12.93} {'loss': 0.0725, 'learning_rate': 4.353315934909426e-05, 'epoch': 12.93} {'loss': 0.0782, 'learning_rate': 4.35307606693276e-05, 'epoch': 12.94} {'loss': 0.0736, 'learning_rate': 4.352836198956095e-05, 'epoch': 12.94} {'loss': 0.0764, 'learning_rate': 4.352596330979429e-05, 'epoch': 12.95} {'loss': 0.0723, 'learning_rate': 4.352356463002764e-05, 'epoch': 12.95} {'loss': 0.0743, 'learning_rate': 4.352116595026098e-05, 'epoch': 12.96} {'loss': 0.0744, 'learning_rate': 4.351876727049432e-05, 'epoch': 12.96} {'loss': 0.0743, 'learning_rate': 4.3516368590727664e-05, 'epoch': 12.97} {'loss': 0.0744, 'learning_rate': 4.351396991096101e-05, 'epoch': 12.97} {'loss': 0.0761, 'learning_rate': 4.3511571231194356e-05, 'epoch': 12.98} {'loss': 0.0751, 'learning_rate': 4.3509172551427695e-05, 'epoch': 12.98} {'loss': 0.074, 'learning_rate': 4.350677387166104e-05, 'epoch': 12.99} {'loss': 0.0741, 'learning_rate': 4.350437519189438e-05, 'epoch': 12.99} {'loss': 0.0756, 'learning_rate': 4.3501976512127727e-05, 'epoch': 13.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.06645934283733368, 'eval_runtime': 517.2221, 'eval_samples_per_second': 806.027, 'eval_steps_per_second': 100.754, 'epoch': 13.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-1354912 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-1354912/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-1354912/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-1250688] due to args.save_total_limit {'loss': 0.0791, 'learning_rate': 4.349957783236107e-05, 'epoch': 13.0} {'loss': 0.0759, 'learning_rate': 4.349717915259441e-05, 'epoch': 13.01} {'loss': 0.0733, 'learning_rate': 4.349478047282776e-05, 'epoch': 13.01} {'loss': 0.0776, 'learning_rate': 4.34923817930611e-05, 'epoch': 13.02} {'loss': 0.0729, 'learning_rate': 4.348998311329445e-05, 'epoch': 13.02} {'loss': 0.0761, 'learning_rate': 4.348758443352779e-05, 'epoch': 13.02} {'loss': 0.0764, 'learning_rate': 4.348518575376113e-05, 'epoch': 13.03} {'loss': 0.0745, 'learning_rate': 4.3482787073994475e-05, 'epoch': 13.03} {'loss': 0.0735, 'learning_rate': 4.3480388394227814e-05, 'epoch': 13.04} {'loss': 0.0742, 'learning_rate': 4.347798971446117e-05, 'epoch': 13.04} {'loss': 0.0704, 'learning_rate': 4.3475591034694506e-05, 'epoch': 13.05} {'loss': 0.0768, 'learning_rate': 4.347319235492785e-05, 'epoch': 13.05} {'loss': 0.0776, 'learning_rate': 4.347079367516119e-05, 'epoch': 13.06} {'loss': 0.0733, 'learning_rate': 4.346839499539454e-05, 'epoch': 13.06} {'loss': 0.072, 'learning_rate': 4.3465996315627884e-05, 'epoch': 13.07} {'loss': 0.0759, 'learning_rate': 4.346359763586122e-05, 'epoch': 13.07} {'loss': 0.0761, 'learning_rate': 4.346119895609457e-05, 'epoch': 13.08} {'loss': 0.0724, 'learning_rate': 4.345880027632791e-05, 'epoch': 13.08} {'loss': 0.073, 'learning_rate': 4.3456401596561255e-05, 'epoch': 13.09} {'loss': 0.0726, 'learning_rate': 4.34540029167946e-05, 'epoch': 13.09} {'loss': 0.073, 'learning_rate': 4.345160423702794e-05, 'epoch': 13.1} {'loss': 0.0748, 'learning_rate': 4.3449205557261286e-05, 'epoch': 13.1} {'loss': 0.0745, 'learning_rate': 4.3446806877494626e-05, 'epoch': 13.11} {'loss': 0.0729, 'learning_rate': 4.344440819772797e-05, 'epoch': 13.11} {'loss': 0.0758, 'learning_rate': 4.344200951796132e-05, 'epoch': 13.12} {'loss': 0.0718, 'learning_rate': 4.3439610838194664e-05, 'epoch': 13.12} {'loss': 0.0759, 'learning_rate': 4.3437212158428e-05, 'epoch': 13.13} {'loss': 0.0756, 'learning_rate': 4.343481347866134e-05, 'epoch': 13.13} {'loss': 0.0735, 'learning_rate': 4.343241479889469e-05, 'epoch': 13.14} {'loss': 0.0769, 'learning_rate': 4.3430016119128035e-05, 'epoch': 13.14} {'loss': 0.0759, 'learning_rate': 4.342761743936138e-05, 'epoch': 13.14} {'loss': 0.0726, 'learning_rate': 4.342521875959472e-05, 'epoch': 13.15} {'loss': 0.0763, 'learning_rate': 4.3422820079828066e-05, 'epoch': 13.15} {'loss': 0.0763, 'learning_rate': 4.3420421400061406e-05, 'epoch': 13.16} {'loss': 0.0728, 'learning_rate': 4.341802272029475e-05, 'epoch': 13.16} {'loss': 0.0783, 'learning_rate': 4.34156240405281e-05, 'epoch': 13.17} {'loss': 0.0756, 'learning_rate': 4.341322536076144e-05, 'epoch': 13.17} {'loss': 0.0729, 'learning_rate': 4.341082668099478e-05, 'epoch': 13.18} {'loss': 0.0765, 'learning_rate': 4.340842800122812e-05, 'epoch': 13.18} {'loss': 0.0768, 'learning_rate': 4.3406029321461475e-05, 'epoch': 13.19} {'loss': 0.0751, 'learning_rate': 4.3403630641694815e-05, 'epoch': 13.19} {'loss': 0.0733, 'learning_rate': 4.3401231961928154e-05, 'epoch': 13.2} {'loss': 0.0735, 'learning_rate': 4.33988332821615e-05, 'epoch': 13.2} {'loss': 0.0755, 'learning_rate': 4.339643460239484e-05, 'epoch': 13.21} {'loss': 0.0755, 'learning_rate': 4.339403592262819e-05, 'epoch': 13.21} {'loss': 0.0724, 'learning_rate': 4.339163724286153e-05, 'epoch': 13.22} {'loss': 0.0769, 'learning_rate': 4.338923856309488e-05, 'epoch': 13.22} {'loss': 0.0741, 'learning_rate': 4.338683988332822e-05, 'epoch': 13.23} {'loss': 0.0763, 'learning_rate': 4.338444120356156e-05, 'epoch': 13.23} {'loss': 0.0722, 'learning_rate': 4.338204252379491e-05, 'epoch': 13.24} {'loss': 0.0744, 'learning_rate': 4.337964384402825e-05, 'epoch': 13.24} {'loss': 0.0752, 'learning_rate': 4.3377245164261595e-05, 'epoch': 13.25} {'loss': 0.0711, 'learning_rate': 4.3374846484494934e-05, 'epoch': 13.25} {'loss': 0.0742, 'learning_rate': 4.337244780472828e-05, 'epoch': 13.26} {'loss': 0.0745, 'learning_rate': 4.3370049124961626e-05, 'epoch': 13.26} {'loss': 0.0764, 'learning_rate': 4.3367650445194965e-05, 'epoch': 13.26} {'loss': 0.074, 'learning_rate': 4.336525176542831e-05, 'epoch': 13.27} {'loss': 0.074, 'learning_rate': 4.336285308566165e-05, 'epoch': 13.27} {'loss': 0.0744, 'learning_rate': 4.3360454405895e-05, 'epoch': 13.28} {'loss': 0.0724, 'learning_rate': 4.335805572612834e-05, 'epoch': 13.28} {'loss': 0.0756, 'learning_rate': 4.335565704636169e-05, 'epoch': 13.29} {'loss': 0.0727, 'learning_rate': 4.335325836659503e-05, 'epoch': 13.29} {'loss': 0.075, 'learning_rate': 4.3350859686828374e-05, 'epoch': 13.3} {'loss': 0.0758, 'learning_rate': 4.3348461007061714e-05, 'epoch': 13.3} {'loss': 0.0731, 'learning_rate': 4.334606232729505e-05, 'epoch': 13.31} {'loss': 0.0776, 'learning_rate': 4.3343663647528406e-05, 'epoch': 13.31} {'loss': 0.0764, 'learning_rate': 4.3341264967761745e-05, 'epoch': 13.32} {'loss': 0.0739, 'learning_rate': 4.333886628799509e-05, 'epoch': 13.32} {'loss': 0.073, 'learning_rate': 4.333646760822843e-05, 'epoch': 13.33} {'loss': 0.0736, 'learning_rate': 4.333406892846178e-05, 'epoch': 13.33} {'loss': 0.0734, 'learning_rate': 4.333167024869512e-05, 'epoch': 13.34} {'loss': 0.0733, 'learning_rate': 4.332927156892846e-05, 'epoch': 13.34} {'loss': 0.075, 'learning_rate': 4.332687288916181e-05, 'epoch': 13.35} {'loss': 0.0721, 'learning_rate': 4.332447420939515e-05, 'epoch': 13.35} {'loss': 0.0737, 'learning_rate': 4.3322075529628494e-05, 'epoch': 13.36} {'loss': 0.0716, 'learning_rate': 4.331967684986184e-05, 'epoch': 13.36} {'loss': 0.0728, 'learning_rate': 4.331727817009518e-05, 'epoch': 13.37} {'loss': 0.0734, 'learning_rate': 4.3314879490328525e-05, 'epoch': 13.37} {'loss': 0.0735, 'learning_rate': 4.3312480810561864e-05, 'epoch': 13.38} {'loss': 0.0744, 'learning_rate': 4.331008213079521e-05, 'epoch': 13.38} {'loss': 0.0731, 'learning_rate': 4.330768345102856e-05, 'epoch': 13.38} {'loss': 0.0716, 'learning_rate': 4.33052847712619e-05, 'epoch': 13.39} {'loss': 0.0741, 'learning_rate': 4.330288609149524e-05, 'epoch': 13.39} {'loss': 0.0761, 'learning_rate': 4.330048741172859e-05, 'epoch': 13.4} {'loss': 0.075, 'learning_rate': 4.329808873196193e-05, 'epoch': 13.4} {'loss': 0.073, 'learning_rate': 4.3295690052195274e-05, 'epoch': 13.41} {'loss': 0.0751, 'learning_rate': 4.329329137242862e-05, 'epoch': 13.41} {'loss': 0.073, 'learning_rate': 4.329089269266196e-05, 'epoch': 13.42} {'loss': 0.0768, 'learning_rate': 4.3288494012895305e-05, 'epoch': 13.42} {'loss': 0.0739, 'learning_rate': 4.3286095333128644e-05, 'epoch': 13.43} {'loss': 0.0749, 'learning_rate': 4.328369665336199e-05, 'epoch': 13.43} {'loss': 0.0746, 'learning_rate': 4.3281297973595337e-05, 'epoch': 13.44} {'loss': 0.0754, 'learning_rate': 4.3278899293828676e-05, 'epoch': 13.44} {'loss': 0.0726, 'learning_rate': 4.327650061406202e-05, 'epoch': 13.45} {'loss': 0.0738, 'learning_rate': 4.327410193429536e-05, 'epoch': 13.45} {'loss': 0.0753, 'learning_rate': 4.3271703254528714e-05, 'epoch': 13.46} {'loss': 0.0728, 'learning_rate': 4.3269304574762053e-05, 'epoch': 13.46} {'loss': 0.0762, 'learning_rate': 4.32669058949954e-05, 'epoch': 13.47} {'loss': 0.0738, 'learning_rate': 4.326450721522874e-05, 'epoch': 13.47} {'loss': 0.0746, 'learning_rate': 4.326210853546208e-05, 'epoch': 13.48} {'loss': 0.0744, 'learning_rate': 4.325970985569543e-05, 'epoch': 13.48} {'loss': 0.0729, 'learning_rate': 4.325731117592877e-05, 'epoch': 13.49} {'loss': 0.0751, 'learning_rate': 4.3254912496162116e-05, 'epoch': 13.49} {'loss': 0.0726, 'learning_rate': 4.3252513816395456e-05, 'epoch': 13.49} {'loss': 0.073, 'learning_rate': 4.32501151366288e-05, 'epoch': 13.5} {'loss': 0.0716, 'learning_rate': 4.324771645686215e-05, 'epoch': 13.5} {'loss': 0.0707, 'learning_rate': 4.324531777709549e-05, 'epoch': 13.51} {'loss': 0.0708, 'learning_rate': 4.324291909732883e-05, 'epoch': 13.51} {'loss': 0.0772, 'learning_rate': 4.324052041756217e-05, 'epoch': 13.52} {'loss': 0.0751, 'learning_rate': 4.323812173779552e-05, 'epoch': 13.52} {'loss': 0.0755, 'learning_rate': 4.3235723058028865e-05, 'epoch': 13.53} {'loss': 0.0726, 'learning_rate': 4.323332437826221e-05, 'epoch': 13.53} {'loss': 0.0745, 'learning_rate': 4.323092569849555e-05, 'epoch': 13.54} {'loss': 0.0715, 'learning_rate': 4.322852701872889e-05, 'epoch': 13.54} {'loss': 0.0745, 'learning_rate': 4.3226128338962236e-05, 'epoch': 13.55} {'loss': 0.0747, 'learning_rate': 4.322372965919558e-05, 'epoch': 13.55} {'loss': 0.0726, 'learning_rate': 4.322133097942893e-05, 'epoch': 13.56} {'loss': 0.0738, 'learning_rate': 4.321893229966227e-05, 'epoch': 13.56} {'loss': 0.0732, 'learning_rate': 4.321653361989561e-05, 'epoch': 13.57} {'loss': 0.0719, 'learning_rate': 4.321413494012895e-05, 'epoch': 13.57} {'loss': 0.0726, 'learning_rate': 4.32117362603623e-05, 'epoch': 13.58} {'loss': 0.0715, 'learning_rate': 4.3209337580595645e-05, 'epoch': 13.58} {'loss': 0.0752, 'learning_rate': 4.3206938900828984e-05, 'epoch': 13.59} {'loss': 0.074, 'learning_rate': 4.320454022106233e-05, 'epoch': 13.59} {'loss': 0.0745, 'learning_rate': 4.320214154129567e-05, 'epoch': 13.6} {'loss': 0.073, 'learning_rate': 4.3199742861529016e-05, 'epoch': 13.6} {'loss': 0.0728, 'learning_rate': 4.319734418176236e-05, 'epoch': 13.61} {'loss': 0.0739, 'learning_rate': 4.31949455019957e-05, 'epoch': 13.61} {'loss': 0.0746, 'learning_rate': 4.319254682222905e-05, 'epoch': 13.61} {'loss': 0.0739, 'learning_rate': 4.3190148142462386e-05, 'epoch': 13.62} {'loss': 0.0755, 'learning_rate': 4.318774946269574e-05, 'epoch': 13.62} {'loss': 0.0724, 'learning_rate': 4.318535078292908e-05, 'epoch': 13.63} {'loss': 0.0748, 'learning_rate': 4.3182952103162425e-05, 'epoch': 13.63} {'loss': 0.0744, 'learning_rate': 4.3180553423395764e-05, 'epoch': 13.64} {'loss': 0.0727, 'learning_rate': 4.317815474362911e-05, 'epoch': 13.64} {'loss': 0.0723, 'learning_rate': 4.3175756063862456e-05, 'epoch': 13.65} {'loss': 0.0737, 'learning_rate': 4.3173357384095795e-05, 'epoch': 13.65} {'loss': 0.0729, 'learning_rate': 4.317095870432914e-05, 'epoch': 13.66} {'loss': 0.0683, 'learning_rate': 4.316856002456248e-05, 'epoch': 13.66} {'loss': 0.0733, 'learning_rate': 4.316616134479583e-05, 'epoch': 13.67} {'loss': 0.0746, 'learning_rate': 4.316376266502917e-05, 'epoch': 13.67} {'loss': 0.0738, 'learning_rate': 4.316136398526251e-05, 'epoch': 13.68} {'loss': 0.0756, 'learning_rate': 4.315896530549586e-05, 'epoch': 13.68} {'loss': 0.0716, 'learning_rate': 4.31565666257292e-05, 'epoch': 13.69} {'loss': 0.0728, 'learning_rate': 4.3154167945962544e-05, 'epoch': 13.69} {'loss': 0.0743, 'learning_rate': 4.315176926619589e-05, 'epoch': 13.7} {'loss': 0.0752, 'learning_rate': 4.3149370586429236e-05, 'epoch': 13.7} {'loss': 0.0732, 'learning_rate': 4.3146971906662575e-05, 'epoch': 13.71} {'loss': 0.0752, 'learning_rate': 4.3144573226895915e-05, 'epoch': 13.71} {'loss': 0.0741, 'learning_rate': 4.314217454712926e-05, 'epoch': 13.72} {'loss': 0.0745, 'learning_rate': 4.313977586736261e-05, 'epoch': 13.72} {'loss': 0.0735, 'learning_rate': 4.313737718759595e-05, 'epoch': 13.73} {'loss': 0.0706, 'learning_rate': 4.313497850782929e-05, 'epoch': 13.73} {'loss': 0.0745, 'learning_rate': 4.313257982806264e-05, 'epoch': 13.73} {'loss': 0.0734, 'learning_rate': 4.313018114829598e-05, 'epoch': 13.74} {'loss': 0.0725, 'learning_rate': 4.3127782468529324e-05, 'epoch': 13.74} {'loss': 0.0734, 'learning_rate': 4.312538378876267e-05, 'epoch': 13.75} {'loss': 0.073, 'learning_rate': 4.312298510899601e-05, 'epoch': 13.75} {'loss': 0.075, 'learning_rate': 4.3120586429229355e-05, 'epoch': 13.76} {'loss': 0.0745, 'learning_rate': 4.3118187749462695e-05, 'epoch': 13.76} {'loss': 0.073, 'learning_rate': 4.311578906969604e-05, 'epoch': 13.77} {'loss': 0.0751, 'learning_rate': 4.311339038992939e-05, 'epoch': 13.77} {'loss': 0.0743, 'learning_rate': 4.3110991710162726e-05, 'epoch': 13.78} {'loss': 0.074, 'learning_rate': 4.310859303039607e-05, 'epoch': 13.78} {'loss': 0.0736, 'learning_rate': 4.310619435062941e-05, 'epoch': 13.79} {'loss': 0.0737, 'learning_rate': 4.310379567086276e-05, 'epoch': 13.79} {'loss': 0.0756, 'learning_rate': 4.3101396991096104e-05, 'epoch': 13.8} {'loss': 0.085, 'learning_rate': 4.309899831132945e-05, 'epoch': 13.8} {'loss': 0.0732, 'learning_rate': 4.309659963156279e-05, 'epoch': 13.81} {'loss': 0.0728, 'learning_rate': 4.3094200951796135e-05, 'epoch': 13.81} {'loss': 0.0715, 'learning_rate': 4.3091802272029474e-05, 'epoch': 13.82} {'loss': 0.0736, 'learning_rate': 4.308940359226282e-05, 'epoch': 13.82} {'loss': 0.0741, 'learning_rate': 4.308700491249617e-05, 'epoch': 13.83} {'loss': 0.0719, 'learning_rate': 4.3084606232729506e-05, 'epoch': 13.83} {'loss': 0.073, 'learning_rate': 4.308220755296285e-05, 'epoch': 13.84} {'loss': 0.0749, 'learning_rate': 4.307980887319619e-05, 'epoch': 13.84} {'loss': 0.0745, 'learning_rate': 4.307741019342954e-05, 'epoch': 13.85} {'loss': 0.0736, 'learning_rate': 4.3075011513662884e-05, 'epoch': 13.85} {'loss': 0.0753, 'learning_rate': 4.307261283389622e-05, 'epoch': 13.85} {'loss': 0.0741, 'learning_rate': 4.307021415412957e-05, 'epoch': 13.86} {'loss': 0.0712, 'learning_rate': 4.306781547436291e-05, 'epoch': 13.86} {'loss': 0.0692, 'learning_rate': 4.306541679459626e-05, 'epoch': 13.87} {'loss': 0.0739, 'learning_rate': 4.30630181148296e-05, 'epoch': 13.87} {'loss': 0.0736, 'learning_rate': 4.3060619435062947e-05, 'epoch': 13.88} {'loss': 0.071, 'learning_rate': 4.3058220755296286e-05, 'epoch': 13.88} {'loss': 0.0728, 'learning_rate': 4.3055822075529625e-05, 'epoch': 13.89} {'loss': 0.073, 'learning_rate': 4.305342339576298e-05, 'epoch': 13.89} {'loss': 0.0711, 'learning_rate': 4.305102471599632e-05, 'epoch': 13.9} {'loss': 0.0719, 'learning_rate': 4.3048626036229663e-05, 'epoch': 13.9} {'loss': 0.0741, 'learning_rate': 4.3046227356463e-05, 'epoch': 13.91} {'loss': 0.0694, 'learning_rate': 4.304382867669635e-05, 'epoch': 13.91} {'loss': 0.0729, 'learning_rate': 4.3041429996929695e-05, 'epoch': 13.92} {'loss': 0.0715, 'learning_rate': 4.3039031317163034e-05, 'epoch': 13.92} {'loss': 0.0723, 'learning_rate': 4.303663263739638e-05, 'epoch': 13.93} {'loss': 0.0751, 'learning_rate': 4.303423395762972e-05, 'epoch': 13.93} {'loss': 0.0726, 'learning_rate': 4.3031835277863066e-05, 'epoch': 13.94} {'loss': 0.0735, 'learning_rate': 4.302943659809641e-05, 'epoch': 13.94} {'loss': 0.0726, 'learning_rate': 4.302703791832975e-05, 'epoch': 13.95} {'loss': 0.0734, 'learning_rate': 4.30246392385631e-05, 'epoch': 13.95} {'loss': 0.0723, 'learning_rate': 4.3022240558796437e-05, 'epoch': 13.96} {'loss': 0.0735, 'learning_rate': 4.301984187902978e-05, 'epoch': 13.96} {'loss': 0.0718, 'learning_rate': 4.301744319926313e-05, 'epoch': 13.97} {'loss': 0.0741, 'learning_rate': 4.3015044519496475e-05, 'epoch': 13.97} {'loss': 0.0721, 'learning_rate': 4.3012645839729814e-05, 'epoch': 13.97} {'loss': 0.0752, 'learning_rate': 4.301024715996316e-05, 'epoch': 13.98} {'loss': 0.073, 'learning_rate': 4.30078484801965e-05, 'epoch': 13.98} {'loss': 0.0708, 'learning_rate': 4.3005449800429846e-05, 'epoch': 13.99} {'loss': 0.0706, 'learning_rate': 4.300305112066319e-05, 'epoch': 13.99} {'loss': 0.0752, 'learning_rate': 4.300065244089653e-05, 'epoch': 14.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.06630897521972656, 'eval_runtime': 539.3376, 'eval_samples_per_second': 772.976, 'eval_steps_per_second': 96.622, 'epoch': 14.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-1459136 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-1459136/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-1459136/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-1354912] due to args.save_total_limit {'loss': 0.0748, 'learning_rate': 4.299825376112988e-05, 'epoch': 14.0} {'loss': 0.078, 'learning_rate': 4.2995855081363216e-05, 'epoch': 14.01} {'loss': 0.0735, 'learning_rate': 4.299345640159656e-05, 'epoch': 14.01} {'loss': 0.0737, 'learning_rate': 4.299105772182991e-05, 'epoch': 14.02} {'loss': 0.0718, 'learning_rate': 4.298865904206325e-05, 'epoch': 14.02} {'loss': 0.0701, 'learning_rate': 4.2986260362296594e-05, 'epoch': 14.03} {'loss': 0.071, 'learning_rate': 4.2983861682529933e-05, 'epoch': 14.03} {'loss': 0.0687, 'learning_rate': 4.2981463002763286e-05, 'epoch': 14.04} {'loss': 0.0735, 'learning_rate': 4.2979064322996626e-05, 'epoch': 14.04} {'loss': 0.0728, 'learning_rate': 4.297666564322997e-05, 'epoch': 14.05} {'loss': 0.0711, 'learning_rate': 4.297426696346331e-05, 'epoch': 14.05} {'loss': 0.0726, 'learning_rate': 4.297186828369665e-05, 'epoch': 14.06} {'loss': 0.0726, 'learning_rate': 4.296946960393e-05, 'epoch': 14.06} {'loss': 0.0693, 'learning_rate': 4.296707092416334e-05, 'epoch': 14.07} {'loss': 0.0722, 'learning_rate': 4.296467224439669e-05, 'epoch': 14.07} {'loss': 0.0742, 'learning_rate': 4.296227356463003e-05, 'epoch': 14.08} {'loss': 0.0724, 'learning_rate': 4.2959874884863374e-05, 'epoch': 14.08} {'loss': 0.0739, 'learning_rate': 4.295747620509672e-05, 'epoch': 14.09} {'loss': 0.0706, 'learning_rate': 4.295507752533006e-05, 'epoch': 14.09} {'loss': 0.0745, 'learning_rate': 4.2952678845563405e-05, 'epoch': 14.09} {'loss': 0.0722, 'learning_rate': 4.2950280165796745e-05, 'epoch': 14.1} {'loss': 0.0714, 'learning_rate': 4.294788148603009e-05, 'epoch': 14.1} {'loss': 0.0715, 'learning_rate': 4.294548280626344e-05, 'epoch': 14.11} {'loss': 0.0701, 'learning_rate': 4.294308412649678e-05, 'epoch': 14.11} {'loss': 0.0729, 'learning_rate': 4.294068544673012e-05, 'epoch': 14.12} {'loss': 0.0699, 'learning_rate': 4.293828676696346e-05, 'epoch': 14.12} {'loss': 0.073, 'learning_rate': 4.293588808719681e-05, 'epoch': 14.13} {'loss': 0.0722, 'learning_rate': 4.2933489407430154e-05, 'epoch': 14.13} {'loss': 0.0723, 'learning_rate': 4.29310907276635e-05, 'epoch': 14.14} {'loss': 0.0744, 'learning_rate': 4.292869204789684e-05, 'epoch': 14.14} {'loss': 0.0718, 'learning_rate': 4.2926293368130185e-05, 'epoch': 14.15} {'loss': 0.0722, 'learning_rate': 4.2923894688363525e-05, 'epoch': 14.15} {'loss': 0.0724, 'learning_rate': 4.292149600859687e-05, 'epoch': 14.16} {'loss': 0.0737, 'learning_rate': 4.291909732883022e-05, 'epoch': 14.16} {'loss': 0.0736, 'learning_rate': 4.2916698649063556e-05, 'epoch': 14.17} {'loss': 0.0732, 'learning_rate': 4.29142999692969e-05, 'epoch': 14.17} {'loss': 0.0723, 'learning_rate': 4.291190128953024e-05, 'epoch': 14.18} {'loss': 0.0714, 'learning_rate': 4.290950260976359e-05, 'epoch': 14.18} {'loss': 0.0723, 'learning_rate': 4.2907103929996934e-05, 'epoch': 14.19} {'loss': 0.0762, 'learning_rate': 4.290470525023027e-05, 'epoch': 14.19} {'loss': 0.0758, 'learning_rate': 4.290230657046362e-05, 'epoch': 14.2} {'loss': 0.0744, 'learning_rate': 4.289990789069696e-05, 'epoch': 14.2} {'loss': 0.0711, 'learning_rate': 4.2897509210930305e-05, 'epoch': 14.2} {'loss': 0.0727, 'learning_rate': 4.289511053116365e-05, 'epoch': 14.21} {'loss': 0.0714, 'learning_rate': 4.2892711851397e-05, 'epoch': 14.21} {'loss': 0.0738, 'learning_rate': 4.2890313171630336e-05, 'epoch': 14.22} {'loss': 0.075, 'learning_rate': 4.288791449186368e-05, 'epoch': 14.22} {'loss': 0.0728, 'learning_rate': 4.288551581209702e-05, 'epoch': 14.23} {'loss': 0.0713, 'learning_rate': 4.288311713233037e-05, 'epoch': 14.23} {'loss': 0.0754, 'learning_rate': 4.2880718452563714e-05, 'epoch': 14.24} {'loss': 0.0725, 'learning_rate': 4.287831977279705e-05, 'epoch': 14.24} {'loss': 0.0751, 'learning_rate': 4.28759210930304e-05, 'epoch': 14.25} {'loss': 0.0718, 'learning_rate': 4.287352241326374e-05, 'epoch': 14.25} {'loss': 0.0732, 'learning_rate': 4.2871123733497084e-05, 'epoch': 14.26} {'loss': 0.0746, 'learning_rate': 4.286872505373043e-05, 'epoch': 14.26} {'loss': 0.0727, 'learning_rate': 4.286632637396377e-05, 'epoch': 14.27} {'loss': 0.0719, 'learning_rate': 4.2863927694197116e-05, 'epoch': 14.27} {'loss': 0.0728, 'learning_rate': 4.2861529014430455e-05, 'epoch': 14.28} {'loss': 0.0754, 'learning_rate': 4.285913033466381e-05, 'epoch': 14.28} {'loss': 0.0726, 'learning_rate': 4.285673165489715e-05, 'epoch': 14.29} {'loss': 0.072, 'learning_rate': 4.285433297513049e-05, 'epoch': 14.29} {'loss': 0.0717, 'learning_rate': 4.285193429536383e-05, 'epoch': 14.3} {'loss': 0.0715, 'learning_rate': 4.284953561559717e-05, 'epoch': 14.3} {'loss': 0.0737, 'learning_rate': 4.2847136935830525e-05, 'epoch': 14.31} {'loss': 0.0718, 'learning_rate': 4.2844738256063864e-05, 'epoch': 14.31} {'loss': 0.0752, 'learning_rate': 4.284233957629721e-05, 'epoch': 14.32} {'loss': 0.0719, 'learning_rate': 4.283994089653055e-05, 'epoch': 14.32} {'loss': 0.0752, 'learning_rate': 4.2837542216763896e-05, 'epoch': 14.32} {'loss': 0.0721, 'learning_rate': 4.283514353699724e-05, 'epoch': 14.33} {'loss': 0.0722, 'learning_rate': 4.283274485723058e-05, 'epoch': 14.33} {'loss': 0.0693, 'learning_rate': 4.283034617746393e-05, 'epoch': 14.34} {'loss': 0.0719, 'learning_rate': 4.282794749769727e-05, 'epoch': 14.34} {'loss': 0.0743, 'learning_rate': 4.282554881793061e-05, 'epoch': 14.35} {'loss': 0.0728, 'learning_rate': 4.282315013816396e-05, 'epoch': 14.35} {'loss': 0.0706, 'learning_rate': 4.28207514583973e-05, 'epoch': 14.36} {'loss': 0.071, 'learning_rate': 4.2818352778630644e-05, 'epoch': 14.36} {'loss': 0.0712, 'learning_rate': 4.2815954098863984e-05, 'epoch': 14.37} {'loss': 0.0741, 'learning_rate': 4.281355541909733e-05, 'epoch': 14.37} {'loss': 0.0714, 'learning_rate': 4.2811156739330676e-05, 'epoch': 14.38} {'loss': 0.0758, 'learning_rate': 4.280875805956402e-05, 'epoch': 14.38} {'loss': 0.0722, 'learning_rate': 4.280635937979736e-05, 'epoch': 14.39} {'loss': 0.0741, 'learning_rate': 4.280396070003071e-05, 'epoch': 14.39} {'loss': 0.0724, 'learning_rate': 4.2801562020264047e-05, 'epoch': 14.4} {'loss': 0.0759, 'learning_rate': 4.279916334049739e-05, 'epoch': 14.4} {'loss': 0.0721, 'learning_rate': 4.279676466073074e-05, 'epoch': 14.41} {'loss': 0.0722, 'learning_rate': 4.279436598096408e-05, 'epoch': 14.41} {'loss': 0.0702, 'learning_rate': 4.2791967301197424e-05, 'epoch': 14.42} {'loss': 0.0747, 'learning_rate': 4.2789568621430764e-05, 'epoch': 14.42} {'loss': 0.0698, 'learning_rate': 4.278716994166411e-05, 'epoch': 14.43} {'loss': 0.0728, 'learning_rate': 4.2784771261897456e-05, 'epoch': 14.43} {'loss': 0.0716, 'learning_rate': 4.2782372582130795e-05, 'epoch': 14.44} {'loss': 0.0707, 'learning_rate': 4.277997390236414e-05, 'epoch': 14.44} {'loss': 0.0739, 'learning_rate': 4.277757522259748e-05, 'epoch': 14.44} {'loss': 0.0703, 'learning_rate': 4.277517654283083e-05, 'epoch': 14.45} {'loss': 0.0695, 'learning_rate': 4.277277786306417e-05, 'epoch': 14.45} {'loss': 0.0734, 'learning_rate': 4.277037918329752e-05, 'epoch': 14.46} {'loss': 0.0719, 'learning_rate': 4.276798050353086e-05, 'epoch': 14.46} {'loss': 0.0743, 'learning_rate': 4.27655818237642e-05, 'epoch': 14.47} {'loss': 0.0719, 'learning_rate': 4.276318314399755e-05, 'epoch': 14.47} {'loss': 0.0713, 'learning_rate': 4.276078446423089e-05, 'epoch': 14.48} {'loss': 0.0727, 'learning_rate': 4.2758385784464236e-05, 'epoch': 14.48} {'loss': 0.0704, 'learning_rate': 4.2755987104697575e-05, 'epoch': 14.49} {'loss': 0.0738, 'learning_rate': 4.275358842493092e-05, 'epoch': 14.49} {'loss': 0.0705, 'learning_rate': 4.275118974516427e-05, 'epoch': 14.5} {'loss': 0.0711, 'learning_rate': 4.2748791065397606e-05, 'epoch': 14.5} {'loss': 0.0693, 'learning_rate': 4.274639238563095e-05, 'epoch': 14.51} {'loss': 0.0704, 'learning_rate': 4.274399370586429e-05, 'epoch': 14.51} {'loss': 0.0741, 'learning_rate': 4.274159502609764e-05, 'epoch': 14.52} {'loss': 0.0711, 'learning_rate': 4.2739196346330984e-05, 'epoch': 14.52} {'loss': 0.0709, 'learning_rate': 4.273679766656432e-05, 'epoch': 14.53} {'loss': 0.0732, 'learning_rate': 4.273439898679767e-05, 'epoch': 14.53} {'loss': 0.071, 'learning_rate': 4.273200030703101e-05, 'epoch': 14.54} {'loss': 0.0728, 'learning_rate': 4.2729601627264355e-05, 'epoch': 14.54} {'loss': 0.0715, 'learning_rate': 4.27272029474977e-05, 'epoch': 14.55} {'loss': 0.0699, 'learning_rate': 4.272480426773105e-05, 'epoch': 14.55} {'loss': 0.0731, 'learning_rate': 4.2722405587964386e-05, 'epoch': 14.56} {'loss': 0.071, 'learning_rate': 4.272000690819773e-05, 'epoch': 14.56} {'loss': 0.0745, 'learning_rate': 4.271760822843107e-05, 'epoch': 14.56} {'loss': 0.0749, 'learning_rate': 4.271520954866441e-05, 'epoch': 14.57} {'loss': 0.0734, 'learning_rate': 4.2712810868897764e-05, 'epoch': 14.57} {'loss': 0.0716, 'learning_rate': 4.27104121891311e-05, 'epoch': 14.58} {'loss': 0.0693, 'learning_rate': 4.270801350936445e-05, 'epoch': 14.58} {'loss': 0.0696, 'learning_rate': 4.270561482959779e-05, 'epoch': 14.59} {'loss': 0.0729, 'learning_rate': 4.2703216149831135e-05, 'epoch': 14.59} {'loss': 0.0698, 'learning_rate': 4.270081747006448e-05, 'epoch': 14.6} {'loss': 0.0675, 'learning_rate': 4.269841879029782e-05, 'epoch': 14.6} {'loss': 0.0753, 'learning_rate': 4.2696020110531166e-05, 'epoch': 14.61} {'loss': 0.0709, 'learning_rate': 4.2693621430764506e-05, 'epoch': 14.61} {'loss': 0.0717, 'learning_rate': 4.269122275099785e-05, 'epoch': 14.62} {'loss': 0.0714, 'learning_rate': 4.26888240712312e-05, 'epoch': 14.62} {'loss': 0.0727, 'learning_rate': 4.2686425391464544e-05, 'epoch': 14.63} {'loss': 0.0743, 'learning_rate': 4.268402671169788e-05, 'epoch': 14.63} {'loss': 0.0718, 'learning_rate': 4.268162803193122e-05, 'epoch': 14.64} {'loss': 0.0725, 'learning_rate': 4.267922935216457e-05, 'epoch': 14.64} {'loss': 0.0702, 'learning_rate': 4.2676830672397915e-05, 'epoch': 14.65} {'loss': 0.0724, 'learning_rate': 4.267443199263126e-05, 'epoch': 14.65} {'loss': 0.0734, 'learning_rate': 4.26720333128646e-05, 'epoch': 14.66} {'loss': 0.073, 'learning_rate': 4.2669634633097946e-05, 'epoch': 14.66} {'loss': 0.0728, 'learning_rate': 4.2667235953331285e-05, 'epoch': 14.67} {'loss': 0.0702, 'learning_rate': 4.266483727356463e-05, 'epoch': 14.67} {'loss': 0.0732, 'learning_rate': 4.266243859379798e-05, 'epoch': 14.68} {'loss': 0.073, 'learning_rate': 4.266003991403132e-05, 'epoch': 14.68} {'loss': 0.0708, 'learning_rate': 4.265764123426466e-05, 'epoch': 14.68} {'loss': 0.073, 'learning_rate': 4.2655242554498e-05, 'epoch': 14.69} {'loss': 0.0717, 'learning_rate': 4.2652843874731355e-05, 'epoch': 14.69} {'loss': 0.0704, 'learning_rate': 4.2650445194964694e-05, 'epoch': 14.7} {'loss': 0.0741, 'learning_rate': 4.2648046515198034e-05, 'epoch': 14.7} {'loss': 0.0736, 'learning_rate': 4.264564783543138e-05, 'epoch': 14.71} {'loss': 0.0727, 'learning_rate': 4.264324915566472e-05, 'epoch': 14.71} {'loss': 0.0726, 'learning_rate': 4.264085047589807e-05, 'epoch': 14.72} {'loss': 0.0706, 'learning_rate': 4.263845179613141e-05, 'epoch': 14.72} {'loss': 0.0702, 'learning_rate': 4.263605311636476e-05, 'epoch': 14.73} {'loss': 0.074, 'learning_rate': 4.26336544365981e-05, 'epoch': 14.73} {'loss': 0.0728, 'learning_rate': 4.263125575683144e-05, 'epoch': 14.74} {'loss': 0.0744, 'learning_rate': 4.262885707706479e-05, 'epoch': 14.74} {'loss': 0.0725, 'learning_rate': 4.262645839729813e-05, 'epoch': 14.75} {'loss': 0.0723, 'learning_rate': 4.2624059717531474e-05, 'epoch': 14.75} {'loss': 0.0708, 'learning_rate': 4.2621661037764814e-05, 'epoch': 14.76} {'loss': 0.0724, 'learning_rate': 4.261926235799816e-05, 'epoch': 14.76} {'loss': 0.0692, 'learning_rate': 4.2616863678231506e-05, 'epoch': 14.77} {'loss': 0.0732, 'learning_rate': 4.2614464998464845e-05, 'epoch': 14.77} {'loss': 0.0719, 'learning_rate': 4.261206631869819e-05, 'epoch': 14.78} {'loss': 0.0725, 'learning_rate': 4.260966763893153e-05, 'epoch': 14.78} {'loss': 0.0712, 'learning_rate': 4.260726895916488e-05, 'epoch': 14.79} {'loss': 0.0694, 'learning_rate': 4.260487027939822e-05, 'epoch': 14.79} {'loss': 0.0718, 'learning_rate': 4.260247159963157e-05, 'epoch': 14.8} {'loss': 0.0705, 'learning_rate': 4.260007291986491e-05, 'epoch': 14.8} {'loss': 0.0735, 'learning_rate': 4.2597674240098254e-05, 'epoch': 14.8} {'loss': 0.0718, 'learning_rate': 4.2595275560331594e-05, 'epoch': 14.81} {'loss': 0.0766, 'learning_rate': 4.259287688056494e-05, 'epoch': 14.81} {'loss': 0.0744, 'learning_rate': 4.2590478200798286e-05, 'epoch': 14.82} {'loss': 0.0731, 'learning_rate': 4.2588079521031625e-05, 'epoch': 14.82} {'loss': 0.0712, 'learning_rate': 4.258568084126497e-05, 'epoch': 14.83} {'loss': 0.0709, 'learning_rate': 4.258328216149831e-05, 'epoch': 14.83} {'loss': 0.0703, 'learning_rate': 4.2580883481731657e-05, 'epoch': 14.84} {'loss': 0.0725, 'learning_rate': 4.2578484801965e-05, 'epoch': 14.84} {'loss': 0.0771, 'learning_rate': 4.257608612219834e-05, 'epoch': 14.85} {'loss': 0.0726, 'learning_rate': 4.257368744243169e-05, 'epoch': 14.85} {'loss': 0.0724, 'learning_rate': 4.257128876266503e-05, 'epoch': 14.86} {'loss': 0.0704, 'learning_rate': 4.256889008289838e-05, 'epoch': 14.86} {'loss': 0.0742, 'learning_rate': 4.256649140313172e-05, 'epoch': 14.87} {'loss': 0.072, 'learning_rate': 4.256409272336506e-05, 'epoch': 14.87} {'loss': 0.073, 'learning_rate': 4.2561694043598405e-05, 'epoch': 14.88} {'loss': 0.0711, 'learning_rate': 4.2559295363831744e-05, 'epoch': 14.88} {'loss': 0.0712, 'learning_rate': 4.25568966840651e-05, 'epoch': 14.89} {'loss': 0.0718, 'learning_rate': 4.2554498004298437e-05, 'epoch': 14.89} {'loss': 0.0715, 'learning_rate': 4.255209932453178e-05, 'epoch': 14.9} {'loss': 0.0691, 'learning_rate': 4.254970064476512e-05, 'epoch': 14.9} {'loss': 0.0717, 'learning_rate': 4.254730196499847e-05, 'epoch': 14.91} {'loss': 0.0708, 'learning_rate': 4.2544903285231814e-05, 'epoch': 14.91} {'loss': 0.0704, 'learning_rate': 4.2542504605465153e-05, 'epoch': 14.91} {'loss': 0.0737, 'learning_rate': 4.25401059256985e-05, 'epoch': 14.92} {'loss': 0.0726, 'learning_rate': 4.253770724593184e-05, 'epoch': 14.92} {'loss': 0.0718, 'learning_rate': 4.2535308566165185e-05, 'epoch': 14.93} {'loss': 0.074, 'learning_rate': 4.253290988639853e-05, 'epoch': 14.93} {'loss': 0.0738, 'learning_rate': 4.253051120663187e-05, 'epoch': 14.94} {'loss': 0.0686, 'learning_rate': 4.2528112526865216e-05, 'epoch': 14.94} {'loss': 0.0694, 'learning_rate': 4.2525713847098556e-05, 'epoch': 14.95} {'loss': 0.0699, 'learning_rate': 4.25233151673319e-05, 'epoch': 14.95} {'loss': 0.0718, 'learning_rate': 4.252091648756525e-05, 'epoch': 14.96} {'loss': 0.0774, 'learning_rate': 4.2518517807798594e-05, 'epoch': 14.96} {'loss': 0.0721, 'learning_rate': 4.251611912803193e-05, 'epoch': 14.97} {'loss': 0.0712, 'learning_rate': 4.251372044826528e-05, 'epoch': 14.97} {'loss': 0.0698, 'learning_rate': 4.251132176849862e-05, 'epoch': 14.98} {'loss': 0.0711, 'learning_rate': 4.2508923088731965e-05, 'epoch': 14.98} {'loss': 0.0696, 'learning_rate': 4.250652440896531e-05, 'epoch': 14.99} {'loss': 0.074, 'learning_rate': 4.250412572919865e-05, 'epoch': 14.99} {'loss': 0.0716, 'learning_rate': 4.2501727049431996e-05, 'epoch': 15.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.06456079334020615, 'eval_runtime': 628.8164, 'eval_samples_per_second': 662.984, 'eval_steps_per_second': 82.873, 'epoch': 15.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-1563360 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-1563360/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-1563360/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-1459136] due to args.save_total_limit {'loss': 0.0726, 'learning_rate': 4.2499328369665336e-05, 'epoch': 15.0} {'loss': 0.071, 'learning_rate': 4.249692968989868e-05, 'epoch': 15.01} {'loss': 0.0723, 'learning_rate': 4.249453101013203e-05, 'epoch': 15.01} {'loss': 0.0694, 'learning_rate': 4.249213233036537e-05, 'epoch': 15.02} {'loss': 0.07, 'learning_rate': 4.248973365059871e-05, 'epoch': 15.02} {'loss': 0.0692, 'learning_rate': 4.248733497083205e-05, 'epoch': 15.03} {'loss': 0.0684, 'learning_rate': 4.24849362910654e-05, 'epoch': 15.03} {'loss': 0.0703, 'learning_rate': 4.2482537611298745e-05, 'epoch': 15.03} {'loss': 0.0711, 'learning_rate': 4.248013893153209e-05, 'epoch': 15.04} {'loss': 0.0691, 'learning_rate': 4.247774025176543e-05, 'epoch': 15.04} {'loss': 0.0719, 'learning_rate': 4.247534157199877e-05, 'epoch': 15.05} {'loss': 0.0716, 'learning_rate': 4.2472942892232116e-05, 'epoch': 15.05} {'loss': 0.0717, 'learning_rate': 4.247054421246546e-05, 'epoch': 15.06} {'loss': 0.0695, 'learning_rate': 4.246814553269881e-05, 'epoch': 15.06} {'loss': 0.0705, 'learning_rate': 4.246574685293215e-05, 'epoch': 15.07} {'loss': 0.0725, 'learning_rate': 4.246334817316549e-05, 'epoch': 15.07} {'loss': 0.0725, 'learning_rate': 4.246094949339883e-05, 'epoch': 15.08} {'loss': 0.0713, 'learning_rate': 4.245855081363218e-05, 'epoch': 15.08} {'loss': 0.0699, 'learning_rate': 4.2456152133865525e-05, 'epoch': 15.09} {'loss': 0.0714, 'learning_rate': 4.2453753454098864e-05, 'epoch': 15.09} {'loss': 0.0672, 'learning_rate': 4.245135477433221e-05, 'epoch': 15.1} {'loss': 0.0712, 'learning_rate': 4.244895609456555e-05, 'epoch': 15.1} {'loss': 0.0708, 'learning_rate': 4.2446557414798895e-05, 'epoch': 15.11} {'loss': 0.0718, 'learning_rate': 4.244415873503224e-05, 'epoch': 15.11} {'loss': 0.0705, 'learning_rate': 4.244176005526558e-05, 'epoch': 15.12} {'loss': 0.0705, 'learning_rate': 4.243936137549893e-05, 'epoch': 15.12} {'loss': 0.07, 'learning_rate': 4.2436962695732266e-05, 'epoch': 15.13} {'loss': 0.07, 'learning_rate': 4.243456401596562e-05, 'epoch': 15.13} {'loss': 0.0687, 'learning_rate': 4.243216533619896e-05, 'epoch': 15.14} {'loss': 0.0706, 'learning_rate': 4.2429766656432305e-05, 'epoch': 15.14} {'loss': 0.0705, 'learning_rate': 4.2427367976665644e-05, 'epoch': 15.15} {'loss': 0.0725, 'learning_rate': 4.242496929689898e-05, 'epoch': 15.15} {'loss': 0.0748, 'learning_rate': 4.2422570617132336e-05, 'epoch': 15.15} {'loss': 0.0713, 'learning_rate': 4.2420171937365675e-05, 'epoch': 15.16} {'loss': 0.0717, 'learning_rate': 4.241777325759902e-05, 'epoch': 15.16} {'loss': 0.0693, 'learning_rate': 4.241537457783236e-05, 'epoch': 15.17} {'loss': 0.0724, 'learning_rate': 4.241297589806571e-05, 'epoch': 15.17} {'loss': 0.07, 'learning_rate': 4.241057721829905e-05, 'epoch': 15.18} {'loss': 0.0712, 'learning_rate': 4.240817853853239e-05, 'epoch': 15.18} {'loss': 0.0691, 'learning_rate': 4.240577985876574e-05, 'epoch': 15.19} {'loss': 0.0694, 'learning_rate': 4.240338117899908e-05, 'epoch': 15.19} {'loss': 0.0687, 'learning_rate': 4.2400982499232424e-05, 'epoch': 15.2} {'loss': 0.0681, 'learning_rate': 4.239858381946577e-05, 'epoch': 15.2} {'loss': 0.0737, 'learning_rate': 4.2396185139699116e-05, 'epoch': 15.21} {'loss': 0.0711, 'learning_rate': 4.2393786459932455e-05, 'epoch': 15.21} {'loss': 0.0688, 'learning_rate': 4.2391387780165795e-05, 'epoch': 15.22} {'loss': 0.0723, 'learning_rate': 4.238898910039914e-05, 'epoch': 15.22} {'loss': 0.0741, 'learning_rate': 4.238659042063249e-05, 'epoch': 15.23} {'loss': 0.0698, 'learning_rate': 4.238419174086583e-05, 'epoch': 15.23} {'loss': 0.0717, 'learning_rate': 4.238179306109917e-05, 'epoch': 15.24} {'loss': 0.0727, 'learning_rate': 4.237939438133252e-05, 'epoch': 15.24} {'loss': 0.0726, 'learning_rate': 4.237699570156586e-05, 'epoch': 15.25} {'loss': 0.0737, 'learning_rate': 4.2374597021799204e-05, 'epoch': 15.25} {'loss': 0.0702, 'learning_rate': 4.237219834203255e-05, 'epoch': 15.26} {'loss': 0.0695, 'learning_rate': 4.236979966226589e-05, 'epoch': 15.26} {'loss': 0.0718, 'learning_rate': 4.2367400982499235e-05, 'epoch': 15.27} {'loss': 0.0688, 'learning_rate': 4.2365002302732574e-05, 'epoch': 15.27} {'loss': 0.0718, 'learning_rate': 4.236260362296593e-05, 'epoch': 15.27} {'loss': 0.0721, 'learning_rate': 4.236020494319927e-05, 'epoch': 15.28} {'loss': 0.0705, 'learning_rate': 4.2357806263432606e-05, 'epoch': 15.28} {'loss': 0.0725, 'learning_rate': 4.235540758366595e-05, 'epoch': 15.29} {'loss': 0.0682, 'learning_rate': 4.235300890389929e-05, 'epoch': 15.29} {'loss': 0.0709, 'learning_rate': 4.2350610224132644e-05, 'epoch': 15.3} {'loss': 0.0739, 'learning_rate': 4.2348211544365984e-05, 'epoch': 15.3} {'loss': 0.0711, 'learning_rate': 4.234581286459933e-05, 'epoch': 15.31} {'loss': 0.0726, 'learning_rate': 4.234341418483267e-05, 'epoch': 15.31} {'loss': 0.0712, 'learning_rate': 4.2341015505066015e-05, 'epoch': 15.32} {'loss': 0.0708, 'learning_rate': 4.233861682529936e-05, 'epoch': 15.32} {'loss': 0.0721, 'learning_rate': 4.23362181455327e-05, 'epoch': 15.33} {'loss': 0.0731, 'learning_rate': 4.2333819465766047e-05, 'epoch': 15.33} {'loss': 0.0724, 'learning_rate': 4.2331420785999386e-05, 'epoch': 15.34} {'loss': 0.0702, 'learning_rate': 4.232902210623273e-05, 'epoch': 15.34} {'loss': 0.0704, 'learning_rate': 4.232662342646608e-05, 'epoch': 15.35} {'loss': 0.0714, 'learning_rate': 4.232422474669942e-05, 'epoch': 15.35} {'loss': 0.0684, 'learning_rate': 4.2321826066932763e-05, 'epoch': 15.36} {'loss': 0.072, 'learning_rate': 4.23194273871661e-05, 'epoch': 15.36} {'loss': 0.0715, 'learning_rate': 4.231702870739945e-05, 'epoch': 15.37} {'loss': 0.0726, 'learning_rate': 4.2314630027632795e-05, 'epoch': 15.37} {'loss': 0.0731, 'learning_rate': 4.231223134786614e-05, 'epoch': 15.38} {'loss': 0.0695, 'learning_rate': 4.230983266809948e-05, 'epoch': 15.38} {'loss': 0.0698, 'learning_rate': 4.230743398833282e-05, 'epoch': 15.39} {'loss': 0.0689, 'learning_rate': 4.2305035308566166e-05, 'epoch': 15.39} {'loss': 0.0715, 'learning_rate': 4.230263662879951e-05, 'epoch': 15.39} {'loss': 0.0734, 'learning_rate': 4.230023794903286e-05, 'epoch': 15.4} {'loss': 0.0718, 'learning_rate': 4.22978392692662e-05, 'epoch': 15.4} {'loss': 0.0701, 'learning_rate': 4.229544058949954e-05, 'epoch': 15.41} {'loss': 0.0679, 'learning_rate': 4.229304190973288e-05, 'epoch': 15.41} {'loss': 0.0709, 'learning_rate': 4.229064322996623e-05, 'epoch': 15.42} {'loss': 0.07, 'learning_rate': 4.2288244550199575e-05, 'epoch': 15.42} {'loss': 0.0692, 'learning_rate': 4.2285845870432914e-05, 'epoch': 15.43} {'loss': 0.0705, 'learning_rate': 4.228344719066626e-05, 'epoch': 15.43} {'loss': 0.0706, 'learning_rate': 4.22810485108996e-05, 'epoch': 15.44} {'loss': 0.0691, 'learning_rate': 4.2278649831132946e-05, 'epoch': 15.44} {'loss': 0.0732, 'learning_rate': 4.227625115136629e-05, 'epoch': 15.45} {'loss': 0.0728, 'learning_rate': 4.227385247159963e-05, 'epoch': 15.45} {'loss': 0.0698, 'learning_rate': 4.227145379183298e-05, 'epoch': 15.46} {'loss': 0.0704, 'learning_rate': 4.2269055112066316e-05, 'epoch': 15.46} {'loss': 0.0718, 'learning_rate': 4.226665643229966e-05, 'epoch': 15.47} {'loss': 0.0725, 'learning_rate': 4.226425775253301e-05, 'epoch': 15.47} {'loss': 0.0695, 'learning_rate': 4.2261859072766355e-05, 'epoch': 15.48} {'loss': 0.071, 'learning_rate': 4.2259460392999694e-05, 'epoch': 15.48} {'loss': 0.0726, 'learning_rate': 4.225706171323304e-05, 'epoch': 15.49} {'loss': 0.0693, 'learning_rate': 4.225466303346638e-05, 'epoch': 15.49} {'loss': 0.0702, 'learning_rate': 4.2252264353699726e-05, 'epoch': 15.5} {'loss': 0.0722, 'learning_rate': 4.224986567393307e-05, 'epoch': 15.5} {'loss': 0.0689, 'learning_rate': 4.224746699416641e-05, 'epoch': 15.51} {'loss': 0.0709, 'learning_rate': 4.224506831439976e-05, 'epoch': 15.51} {'loss': 0.0715, 'learning_rate': 4.2242669634633096e-05, 'epoch': 15.51} {'loss': 0.0695, 'learning_rate': 4.224027095486644e-05, 'epoch': 15.52} {'loss': 0.0726, 'learning_rate': 4.223787227509979e-05, 'epoch': 15.52} {'loss': 0.0694, 'learning_rate': 4.223547359533313e-05, 'epoch': 15.53} {'loss': 0.0744, 'learning_rate': 4.2233074915566474e-05, 'epoch': 15.53} {'loss': 0.0728, 'learning_rate': 4.223067623579981e-05, 'epoch': 15.54} {'loss': 0.0711, 'learning_rate': 4.2228277556033166e-05, 'epoch': 15.54} {'loss': 0.0718, 'learning_rate': 4.2225878876266505e-05, 'epoch': 15.55} {'loss': 0.0698, 'learning_rate': 4.222348019649985e-05, 'epoch': 15.55} {'loss': 0.0698, 'learning_rate': 4.222108151673319e-05, 'epoch': 15.56} {'loss': 0.0728, 'learning_rate': 4.221868283696653e-05, 'epoch': 15.56} {'loss': 0.0673, 'learning_rate': 4.221628415719988e-05, 'epoch': 15.57} {'loss': 0.0707, 'learning_rate': 4.221388547743322e-05, 'epoch': 15.57} {'loss': 0.0719, 'learning_rate': 4.221148679766657e-05, 'epoch': 15.58} {'loss': 0.069, 'learning_rate': 4.220908811789991e-05, 'epoch': 15.58} {'loss': 0.073, 'learning_rate': 4.2206689438133254e-05, 'epoch': 15.59} {'loss': 0.0719, 'learning_rate': 4.22042907583666e-05, 'epoch': 15.59} {'loss': 0.0715, 'learning_rate': 4.220189207859994e-05, 'epoch': 15.6} {'loss': 0.0719, 'learning_rate': 4.2199493398833285e-05, 'epoch': 15.6} {'loss': 0.0698, 'learning_rate': 4.2197094719066625e-05, 'epoch': 15.61} {'loss': 0.0717, 'learning_rate': 4.219469603929997e-05, 'epoch': 15.61} {'loss': 0.0708, 'learning_rate': 4.219229735953332e-05, 'epoch': 15.62} {'loss': 0.0711, 'learning_rate': 4.218989867976666e-05, 'epoch': 15.62} {'loss': 0.0727, 'learning_rate': 4.21875e-05, 'epoch': 15.62} {'loss': 0.0686, 'learning_rate': 4.218510132023334e-05, 'epoch': 15.63} {'loss': 0.072, 'learning_rate': 4.218270264046669e-05, 'epoch': 15.63} {'loss': 0.0691, 'learning_rate': 4.2180303960700034e-05, 'epoch': 15.64} {'loss': 0.0705, 'learning_rate': 4.217790528093338e-05, 'epoch': 15.64} {'loss': 0.0676, 'learning_rate': 4.217550660116672e-05, 'epoch': 15.65} {'loss': 0.0706, 'learning_rate': 4.2173107921400065e-05, 'epoch': 15.65} {'loss': 0.0693, 'learning_rate': 4.2170709241633405e-05, 'epoch': 15.66} {'loss': 0.0682, 'learning_rate': 4.216831056186675e-05, 'epoch': 15.66} {'loss': 0.0726, 'learning_rate': 4.21659118821001e-05, 'epoch': 15.67} {'loss': 0.0704, 'learning_rate': 4.2163513202333436e-05, 'epoch': 15.67} {'loss': 0.0708, 'learning_rate': 4.216111452256678e-05, 'epoch': 15.68} {'loss': 0.0717, 'learning_rate': 4.215871584280012e-05, 'epoch': 15.68} {'loss': 0.0685, 'learning_rate': 4.215631716303347e-05, 'epoch': 15.69} {'loss': 0.0711, 'learning_rate': 4.2153918483266814e-05, 'epoch': 15.69} {'loss': 0.0716, 'learning_rate': 4.215151980350015e-05, 'epoch': 15.7} {'loss': 0.0708, 'learning_rate': 4.21491211237335e-05, 'epoch': 15.7} {'loss': 0.0712, 'learning_rate': 4.214672244396684e-05, 'epoch': 15.71} {'loss': 0.0688, 'learning_rate': 4.214432376420019e-05, 'epoch': 15.71} {'loss': 0.0683, 'learning_rate': 4.214192508443353e-05, 'epoch': 15.72} {'loss': 0.0723, 'learning_rate': 4.213952640466688e-05, 'epoch': 15.72} {'loss': 0.0706, 'learning_rate': 4.2137127724900216e-05, 'epoch': 15.73} {'loss': 0.0711, 'learning_rate': 4.2134729045133555e-05, 'epoch': 15.73} {'loss': 0.0727, 'learning_rate': 4.213233036536691e-05, 'epoch': 15.74} {'loss': 0.0709, 'learning_rate': 4.212993168560025e-05, 'epoch': 15.74} {'loss': 0.0725, 'learning_rate': 4.2127533005833594e-05, 'epoch': 15.74} {'loss': 0.0707, 'learning_rate': 4.212513432606693e-05, 'epoch': 15.75} {'loss': 0.0714, 'learning_rate': 4.212273564630028e-05, 'epoch': 15.75} {'loss': 0.0722, 'learning_rate': 4.2120336966533625e-05, 'epoch': 15.76} {'loss': 0.0696, 'learning_rate': 4.2117938286766964e-05, 'epoch': 15.76} {'loss': 0.0692, 'learning_rate': 4.211553960700031e-05, 'epoch': 15.77} {'loss': 0.0687, 'learning_rate': 4.211314092723365e-05, 'epoch': 15.77} {'loss': 0.0709, 'learning_rate': 4.2110742247466996e-05, 'epoch': 15.78} {'loss': 0.0697, 'learning_rate': 4.210834356770034e-05, 'epoch': 15.78} {'loss': 0.0703, 'learning_rate': 4.210594488793369e-05, 'epoch': 15.79} {'loss': 0.072, 'learning_rate': 4.210354620816703e-05, 'epoch': 15.79} {'loss': 0.0692, 'learning_rate': 4.210114752840037e-05, 'epoch': 15.8} {'loss': 0.0698, 'learning_rate': 4.209874884863371e-05, 'epoch': 15.8} {'loss': 0.0711, 'learning_rate': 4.209635016886706e-05, 'epoch': 15.81} {'loss': 0.0705, 'learning_rate': 4.2093951489100405e-05, 'epoch': 15.81} {'loss': 0.0728, 'learning_rate': 4.2091552809333744e-05, 'epoch': 15.82} {'loss': 0.0699, 'learning_rate': 4.208915412956709e-05, 'epoch': 15.82} {'loss': 0.0652, 'learning_rate': 4.208675544980043e-05, 'epoch': 15.83} {'loss': 0.0725, 'learning_rate': 4.2084356770033776e-05, 'epoch': 15.83} {'loss': 0.0684, 'learning_rate': 4.208195809026712e-05, 'epoch': 15.84} {'loss': 0.0686, 'learning_rate': 4.207955941050046e-05, 'epoch': 15.84} {'loss': 0.0703, 'learning_rate': 4.207716073073381e-05, 'epoch': 15.85} {'loss': 0.0703, 'learning_rate': 4.2074762050967147e-05, 'epoch': 15.85} {'loss': 0.0719, 'learning_rate': 4.207236337120049e-05, 'epoch': 15.86} {'loss': 0.0704, 'learning_rate': 4.206996469143384e-05, 'epoch': 15.86} {'loss': 0.0719, 'learning_rate': 4.206756601166718e-05, 'epoch': 15.86} {'loss': 0.0701, 'learning_rate': 4.2065167331900524e-05, 'epoch': 15.87} {'loss': 0.0704, 'learning_rate': 4.2062768652133863e-05, 'epoch': 15.87} {'loss': 0.069, 'learning_rate': 4.206036997236721e-05, 'epoch': 15.88} {'loss': 0.0697, 'learning_rate': 4.2057971292600556e-05, 'epoch': 15.88} {'loss': 0.0694, 'learning_rate': 4.20555726128339e-05, 'epoch': 15.89} {'loss': 0.0729, 'learning_rate': 4.205317393306724e-05, 'epoch': 15.89} {'loss': 0.0692, 'learning_rate': 4.205077525330059e-05, 'epoch': 15.9} {'loss': 0.0685, 'learning_rate': 4.2048376573533926e-05, 'epoch': 15.9} {'loss': 0.0712, 'learning_rate': 4.204597789376727e-05, 'epoch': 15.91} {'loss': 0.0694, 'learning_rate': 4.204357921400062e-05, 'epoch': 15.91} {'loss': 0.0727, 'learning_rate': 4.204118053423396e-05, 'epoch': 15.92} {'loss': 0.0711, 'learning_rate': 4.2038781854467304e-05, 'epoch': 15.92} {'loss': 0.0721, 'learning_rate': 4.203638317470064e-05, 'epoch': 15.93} {'loss': 0.0687, 'learning_rate': 4.203398449493399e-05, 'epoch': 15.93} {'loss': 0.0713, 'learning_rate': 4.2031585815167336e-05, 'epoch': 15.94} {'loss': 0.0689, 'learning_rate': 4.2029187135400675e-05, 'epoch': 15.94} {'loss': 0.0697, 'learning_rate': 4.202678845563402e-05, 'epoch': 15.95} {'loss': 0.0705, 'learning_rate': 4.202438977586736e-05, 'epoch': 15.95} {'loss': 0.0701, 'learning_rate': 4.202199109610071e-05, 'epoch': 15.96} {'loss': 0.0702, 'learning_rate': 4.201959241633405e-05, 'epoch': 15.96} {'loss': 0.0699, 'learning_rate': 4.201719373656739e-05, 'epoch': 15.97} {'loss': 0.0706, 'learning_rate': 4.201479505680074e-05, 'epoch': 15.97} {'loss': 0.0712, 'learning_rate': 4.201239637703408e-05, 'epoch': 15.98} {'loss': 0.0697, 'learning_rate': 4.200999769726743e-05, 'epoch': 15.98} {'loss': 0.0734, 'learning_rate': 4.200759901750077e-05, 'epoch': 15.98} {'loss': 0.0698, 'learning_rate': 4.2005200337734115e-05, 'epoch': 15.99} {'loss': 0.0686, 'learning_rate': 4.2002801657967455e-05, 'epoch': 15.99} {'loss': 0.0719, 'learning_rate': 4.20004029782008e-05, 'epoch': 16.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.0626826286315918, 'eval_runtime': 519.3765, 'eval_samples_per_second': 802.684, 'eval_steps_per_second': 100.336, 'epoch': 16.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-1667584 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-1667584/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-1667584/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-1563360] due to args.save_total_limit {'loss': 0.0696, 'learning_rate': 4.199800429843415e-05, 'epoch': 16.0} {'loss': 0.069, 'learning_rate': 4.1995605618667486e-05, 'epoch': 16.01} {'loss': 0.0676, 'learning_rate': 4.199320693890083e-05, 'epoch': 16.01} {'loss': 0.0708, 'learning_rate': 4.199080825913417e-05, 'epoch': 16.02} {'loss': 0.0676, 'learning_rate': 4.198840957936752e-05, 'epoch': 16.02} {'loss': 0.0708, 'learning_rate': 4.1986010899600864e-05, 'epoch': 16.03} {'loss': 0.0716, 'learning_rate': 4.19836122198342e-05, 'epoch': 16.03} {'loss': 0.0697, 'learning_rate': 4.198121354006755e-05, 'epoch': 16.04} {'loss': 0.0695, 'learning_rate': 4.197881486030089e-05, 'epoch': 16.04} {'loss': 0.07, 'learning_rate': 4.1976416180534235e-05, 'epoch': 16.05} {'loss': 0.0691, 'learning_rate': 4.197401750076758e-05, 'epoch': 16.05} {'loss': 0.0699, 'learning_rate': 4.197161882100093e-05, 'epoch': 16.06} {'loss': 0.0684, 'learning_rate': 4.1969220141234266e-05, 'epoch': 16.06} {'loss': 0.0711, 'learning_rate': 4.196682146146761e-05, 'epoch': 16.07} {'loss': 0.0689, 'learning_rate': 4.196442278170095e-05, 'epoch': 16.07} {'loss': 0.0681, 'learning_rate': 4.19620241019343e-05, 'epoch': 16.08} {'loss': 0.0672, 'learning_rate': 4.1959625422167644e-05, 'epoch': 16.08} {'loss': 0.0713, 'learning_rate': 4.195722674240098e-05, 'epoch': 16.09} {'loss': 0.0695, 'learning_rate': 4.195482806263433e-05, 'epoch': 16.09} {'loss': 0.0697, 'learning_rate': 4.195242938286767e-05, 'epoch': 16.1} {'loss': 0.0686, 'learning_rate': 4.1950030703101015e-05, 'epoch': 16.1} {'loss': 0.0727, 'learning_rate': 4.194763202333436e-05, 'epoch': 16.1} {'loss': 0.0699, 'learning_rate': 4.19452333435677e-05, 'epoch': 16.11} {'loss': 0.0701, 'learning_rate': 4.1942834663801046e-05, 'epoch': 16.11} {'loss': 0.0693, 'learning_rate': 4.1940435984034385e-05, 'epoch': 16.12} {'loss': 0.0704, 'learning_rate': 4.193803730426774e-05, 'epoch': 16.12} {'loss': 0.0737, 'learning_rate': 4.193563862450108e-05, 'epoch': 16.13} {'loss': 0.0697, 'learning_rate': 4.1933239944734424e-05, 'epoch': 16.13} {'loss': 0.0677, 'learning_rate': 4.193084126496776e-05, 'epoch': 16.14} {'loss': 0.0695, 'learning_rate': 4.19284425852011e-05, 'epoch': 16.14} {'loss': 0.0714, 'learning_rate': 4.1926043905434455e-05, 'epoch': 16.15} {'loss': 0.0703, 'learning_rate': 4.1923645225667794e-05, 'epoch': 16.15} {'loss': 0.0692, 'learning_rate': 4.192124654590114e-05, 'epoch': 16.16} {'loss': 0.0657, 'learning_rate': 4.191884786613448e-05, 'epoch': 16.16} {'loss': 0.0692, 'learning_rate': 4.1916449186367826e-05, 'epoch': 16.17} {'loss': 0.0696, 'learning_rate': 4.191405050660117e-05, 'epoch': 16.17} {'loss': 0.0696, 'learning_rate': 4.191165182683451e-05, 'epoch': 16.18} {'loss': 0.0719, 'learning_rate': 4.190925314706786e-05, 'epoch': 16.18} {'loss': 0.0679, 'learning_rate': 4.19068544673012e-05, 'epoch': 16.19} {'loss': 0.0704, 'learning_rate': 4.190445578753454e-05, 'epoch': 16.19} {'loss': 0.0708, 'learning_rate': 4.190205710776789e-05, 'epoch': 16.2} {'loss': 0.0712, 'learning_rate': 4.189965842800123e-05, 'epoch': 16.2} {'loss': 0.0709, 'learning_rate': 4.1897259748234574e-05, 'epoch': 16.21} {'loss': 0.0682, 'learning_rate': 4.1894861068467914e-05, 'epoch': 16.21} {'loss': 0.069, 'learning_rate': 4.189246238870126e-05, 'epoch': 16.22} {'loss': 0.0695, 'learning_rate': 4.1890063708934606e-05, 'epoch': 16.22} {'loss': 0.0689, 'learning_rate': 4.188766502916795e-05, 'epoch': 16.22} {'loss': 0.0712, 'learning_rate': 4.188526634940129e-05, 'epoch': 16.23} {'loss': 0.0679, 'learning_rate': 4.188286766963464e-05, 'epoch': 16.23} {'loss': 0.0696, 'learning_rate': 4.188046898986798e-05, 'epoch': 16.24} {'loss': 0.0693, 'learning_rate': 4.187807031010132e-05, 'epoch': 16.24} {'loss': 0.0683, 'learning_rate': 4.187567163033467e-05, 'epoch': 16.25} {'loss': 0.0689, 'learning_rate': 4.187327295056801e-05, 'epoch': 16.25} {'loss': 0.0701, 'learning_rate': 4.1870874270801354e-05, 'epoch': 16.26} {'loss': 0.0702, 'learning_rate': 4.1868475591034694e-05, 'epoch': 16.26} {'loss': 0.0688, 'learning_rate': 4.186607691126804e-05, 'epoch': 16.27} {'loss': 0.0683, 'learning_rate': 4.1863678231501386e-05, 'epoch': 16.27} {'loss': 0.0694, 'learning_rate': 4.1861279551734725e-05, 'epoch': 16.28} {'loss': 0.0704, 'learning_rate': 4.185888087196807e-05, 'epoch': 16.28} {'loss': 0.0714, 'learning_rate': 4.185648219220141e-05, 'epoch': 16.29} {'loss': 0.0681, 'learning_rate': 4.1854083512434757e-05, 'epoch': 16.29} {'loss': 0.068, 'learning_rate': 4.18516848326681e-05, 'epoch': 16.3} {'loss': 0.0667, 'learning_rate': 4.184928615290145e-05, 'epoch': 16.3} {'loss': 0.0718, 'learning_rate': 4.184688747313479e-05, 'epoch': 16.31} {'loss': 0.0686, 'learning_rate': 4.184448879336813e-05, 'epoch': 16.31} {'loss': 0.072, 'learning_rate': 4.1842090113601473e-05, 'epoch': 16.32} {'loss': 0.0694, 'learning_rate': 4.183969143383482e-05, 'epoch': 16.32} {'loss': 0.0677, 'learning_rate': 4.1837292754068166e-05, 'epoch': 16.33} {'loss': 0.0685, 'learning_rate': 4.1834894074301505e-05, 'epoch': 16.33} {'loss': 0.0683, 'learning_rate': 4.183249539453485e-05, 'epoch': 16.34} {'loss': 0.0696, 'learning_rate': 4.183009671476819e-05, 'epoch': 16.34} {'loss': 0.0688, 'learning_rate': 4.1827698035001536e-05, 'epoch': 16.34} {'loss': 0.0702, 'learning_rate': 4.182529935523488e-05, 'epoch': 16.35} {'loss': 0.0703, 'learning_rate': 4.182290067546822e-05, 'epoch': 16.35} {'loss': 0.0699, 'learning_rate': 4.182050199570157e-05, 'epoch': 16.36} {'loss': 0.0692, 'learning_rate': 4.181810331593491e-05, 'epoch': 16.36} {'loss': 0.0694, 'learning_rate': 4.181570463616826e-05, 'epoch': 16.37} {'loss': 0.0685, 'learning_rate': 4.18133059564016e-05, 'epoch': 16.37} {'loss': 0.0654, 'learning_rate': 4.181090727663494e-05, 'epoch': 16.38} {'loss': 0.0695, 'learning_rate': 4.1808508596868285e-05, 'epoch': 16.38} {'loss': 0.069, 'learning_rate': 4.1806109917101624e-05, 'epoch': 16.39} {'loss': 0.0714, 'learning_rate': 4.180371123733498e-05, 'epoch': 16.39} {'loss': 0.0692, 'learning_rate': 4.1801312557568316e-05, 'epoch': 16.4} {'loss': 0.068, 'learning_rate': 4.179891387780166e-05, 'epoch': 16.4} {'loss': 0.0706, 'learning_rate': 4.1796515198035e-05, 'epoch': 16.41} {'loss': 0.0705, 'learning_rate': 4.179411651826835e-05, 'epoch': 16.41} {'loss': 0.0681, 'learning_rate': 4.1791717838501694e-05, 'epoch': 16.42} {'loss': 0.0685, 'learning_rate': 4.178931915873503e-05, 'epoch': 16.42} {'loss': 0.0679, 'learning_rate': 4.178692047896838e-05, 'epoch': 16.43} {'loss': 0.0723, 'learning_rate': 4.178452179920172e-05, 'epoch': 16.43} {'loss': 0.0675, 'learning_rate': 4.1782123119435065e-05, 'epoch': 16.44} {'loss': 0.0684, 'learning_rate': 4.177972443966841e-05, 'epoch': 16.44} {'loss': 0.069, 'learning_rate': 4.177732575990175e-05, 'epoch': 16.45} {'loss': 0.0723, 'learning_rate': 4.1774927080135096e-05, 'epoch': 16.45} {'loss': 0.0665, 'learning_rate': 4.1772528400368436e-05, 'epoch': 16.45} {'loss': 0.0678, 'learning_rate': 4.177012972060178e-05, 'epoch': 16.46} {'loss': 0.0689, 'learning_rate': 4.176773104083513e-05, 'epoch': 16.46} {'loss': 0.0712, 'learning_rate': 4.1765332361068474e-05, 'epoch': 16.47} {'loss': 0.068, 'learning_rate': 4.176293368130181e-05, 'epoch': 16.47} {'loss': 0.0698, 'learning_rate': 4.176053500153516e-05, 'epoch': 16.48} {'loss': 0.0685, 'learning_rate': 4.17581363217685e-05, 'epoch': 16.48} {'loss': 0.0705, 'learning_rate': 4.1755737642001845e-05, 'epoch': 16.49} {'loss': 0.0674, 'learning_rate': 4.175333896223519e-05, 'epoch': 16.49} {'loss': 0.0706, 'learning_rate': 4.175094028246853e-05, 'epoch': 16.5} {'loss': 0.0672, 'learning_rate': 4.1748541602701876e-05, 'epoch': 16.5} {'loss': 0.0696, 'learning_rate': 4.1746142922935215e-05, 'epoch': 16.51} {'loss': 0.0692, 'learning_rate': 4.174374424316856e-05, 'epoch': 16.51} {'loss': 0.0708, 'learning_rate': 4.174134556340191e-05, 'epoch': 16.52} {'loss': 0.0676, 'learning_rate': 4.173894688363525e-05, 'epoch': 16.52} {'loss': 0.0689, 'learning_rate': 4.173654820386859e-05, 'epoch': 16.53} {'loss': 0.0681, 'learning_rate': 4.173414952410193e-05, 'epoch': 16.53} {'loss': 0.0685, 'learning_rate': 4.1731750844335285e-05, 'epoch': 16.54} {'loss': 0.0693, 'learning_rate': 4.1729352164568625e-05, 'epoch': 16.54} {'loss': 0.0663, 'learning_rate': 4.1726953484801964e-05, 'epoch': 16.55} {'loss': 0.0652, 'learning_rate': 4.172455480503531e-05, 'epoch': 16.55} {'loss': 0.0708, 'learning_rate': 4.172215612526865e-05, 'epoch': 16.56} {'loss': 0.0671, 'learning_rate': 4.1719757445502e-05, 'epoch': 16.56} {'loss': 0.0675, 'learning_rate': 4.171735876573534e-05, 'epoch': 16.57} {'loss': 0.0687, 'learning_rate': 4.171496008596869e-05, 'epoch': 16.57} {'loss': 0.0683, 'learning_rate': 4.171256140620203e-05, 'epoch': 16.57} {'loss': 0.0703, 'learning_rate': 4.171016272643537e-05, 'epoch': 16.58} {'loss': 0.0676, 'learning_rate': 4.170776404666872e-05, 'epoch': 16.58} {'loss': 0.0702, 'learning_rate': 4.170536536690206e-05, 'epoch': 16.59} {'loss': 0.0717, 'learning_rate': 4.1702966687135404e-05, 'epoch': 16.59} {'loss': 0.0714, 'learning_rate': 4.1700568007368744e-05, 'epoch': 16.6} {'loss': 0.0685, 'learning_rate': 4.169816932760209e-05, 'epoch': 16.6} {'loss': 0.0691, 'learning_rate': 4.1695770647835436e-05, 'epoch': 16.61} {'loss': 0.069, 'learning_rate': 4.1693371968068775e-05, 'epoch': 16.61} {'loss': 0.07, 'learning_rate': 4.169097328830212e-05, 'epoch': 16.62} {'loss': 0.0659, 'learning_rate': 4.168857460853546e-05, 'epoch': 16.62} {'loss': 0.0666, 'learning_rate': 4.168617592876881e-05, 'epoch': 16.63} {'loss': 0.069, 'learning_rate': 4.168377724900215e-05, 'epoch': 16.63} {'loss': 0.0707, 'learning_rate': 4.16813785692355e-05, 'epoch': 16.64} {'loss': 0.0687, 'learning_rate': 4.167897988946884e-05, 'epoch': 16.64} {'loss': 0.0709, 'learning_rate': 4.1676581209702184e-05, 'epoch': 16.65} {'loss': 0.0706, 'learning_rate': 4.1674182529935524e-05, 'epoch': 16.65} {'loss': 0.0686, 'learning_rate': 4.167178385016887e-05, 'epoch': 16.66} {'loss': 0.0713, 'learning_rate': 4.1669385170402216e-05, 'epoch': 16.66} {'loss': 0.0671, 'learning_rate': 4.1666986490635555e-05, 'epoch': 16.67} {'loss': 0.0711, 'learning_rate': 4.16645878108689e-05, 'epoch': 16.67} {'loss': 0.0665, 'learning_rate': 4.166218913110224e-05, 'epoch': 16.68} {'loss': 0.0688, 'learning_rate': 4.165979045133559e-05, 'epoch': 16.68} {'loss': 0.0716, 'learning_rate': 4.165739177156893e-05, 'epoch': 16.69} {'loss': 0.0673, 'learning_rate': 4.165499309180227e-05, 'epoch': 16.69} {'loss': 0.068, 'learning_rate': 4.165259441203562e-05, 'epoch': 16.69} {'loss': 0.0667, 'learning_rate': 4.165019573226896e-05, 'epoch': 16.7} {'loss': 0.0702, 'learning_rate': 4.1647797052502304e-05, 'epoch': 16.7} {'loss': 0.0693, 'learning_rate': 4.164539837273565e-05, 'epoch': 16.71} {'loss': 0.0692, 'learning_rate': 4.1642999692968996e-05, 'epoch': 16.71} {'loss': 0.0717, 'learning_rate': 4.1640601013202335e-05, 'epoch': 16.72} {'loss': 0.068, 'learning_rate': 4.1638202333435674e-05, 'epoch': 16.72} {'loss': 0.0692, 'learning_rate': 4.163580365366902e-05, 'epoch': 16.73} {'loss': 0.0697, 'learning_rate': 4.1633404973902367e-05, 'epoch': 16.73} {'loss': 0.0694, 'learning_rate': 4.163100629413571e-05, 'epoch': 16.74} {'loss': 0.0704, 'learning_rate': 4.162860761436905e-05, 'epoch': 16.74} {'loss': 0.0686, 'learning_rate': 4.16262089346024e-05, 'epoch': 16.75} {'loss': 0.0673, 'learning_rate': 4.162381025483574e-05, 'epoch': 16.75} {'loss': 0.067, 'learning_rate': 4.1621411575069083e-05, 'epoch': 16.76} {'loss': 0.073, 'learning_rate': 4.161901289530243e-05, 'epoch': 16.76} {'loss': 0.0705, 'learning_rate': 4.161661421553577e-05, 'epoch': 16.77} {'loss': 0.0671, 'learning_rate': 4.1614215535769115e-05, 'epoch': 16.77} {'loss': 0.0703, 'learning_rate': 4.1611816856002454e-05, 'epoch': 16.78} {'loss': 0.0692, 'learning_rate': 4.16094181762358e-05, 'epoch': 16.78} {'loss': 0.0685, 'learning_rate': 4.1607019496469146e-05, 'epoch': 16.79} {'loss': 0.0678, 'learning_rate': 4.1604620816702486e-05, 'epoch': 16.79} {'loss': 0.0693, 'learning_rate': 4.160222213693583e-05, 'epoch': 16.8} {'loss': 0.0718, 'learning_rate': 4.159982345716917e-05, 'epoch': 16.8} {'loss': 0.0699, 'learning_rate': 4.1597424777402524e-05, 'epoch': 16.81} {'loss': 0.0686, 'learning_rate': 4.159502609763586e-05, 'epoch': 16.81} {'loss': 0.0727, 'learning_rate': 4.159262741786921e-05, 'epoch': 16.81} {'loss': 0.067, 'learning_rate': 4.159022873810255e-05, 'epoch': 16.82} {'loss': 0.0698, 'learning_rate': 4.1587830058335895e-05, 'epoch': 16.82} {'loss': 0.0661, 'learning_rate': 4.158543137856924e-05, 'epoch': 16.83} {'loss': 0.0705, 'learning_rate': 4.158303269880258e-05, 'epoch': 16.83} {'loss': 0.0671, 'learning_rate': 4.1580634019035926e-05, 'epoch': 16.84} {'loss': 0.0679, 'learning_rate': 4.1578235339269266e-05, 'epoch': 16.84} {'loss': 0.069, 'learning_rate': 4.157583665950261e-05, 'epoch': 16.85} {'loss': 0.0684, 'learning_rate': 4.157343797973596e-05, 'epoch': 16.85} {'loss': 0.068, 'learning_rate': 4.15710392999693e-05, 'epoch': 16.86} {'loss': 0.0687, 'learning_rate': 4.156864062020264e-05, 'epoch': 16.86} {'loss': 0.0689, 'learning_rate': 4.156624194043598e-05, 'epoch': 16.87} {'loss': 0.0708, 'learning_rate': 4.156384326066933e-05, 'epoch': 16.87} {'loss': 0.074, 'learning_rate': 4.1561444580902675e-05, 'epoch': 16.88} {'loss': 0.0667, 'learning_rate': 4.155904590113602e-05, 'epoch': 16.88} {'loss': 0.0691, 'learning_rate': 4.155664722136936e-05, 'epoch': 16.89} {'loss': 0.067, 'learning_rate': 4.15542485416027e-05, 'epoch': 16.89} {'loss': 0.0689, 'learning_rate': 4.1551849861836046e-05, 'epoch': 16.9} {'loss': 0.0693, 'learning_rate': 4.154945118206939e-05, 'epoch': 16.9} {'loss': 0.071, 'learning_rate': 4.154705250230274e-05, 'epoch': 16.91} {'loss': 0.0688, 'learning_rate': 4.154465382253608e-05, 'epoch': 16.91} {'loss': 0.0698, 'learning_rate': 4.154225514276942e-05, 'epoch': 16.92} {'loss': 0.0668, 'learning_rate': 4.153985646300276e-05, 'epoch': 16.92} {'loss': 0.0693, 'learning_rate': 4.153745778323611e-05, 'epoch': 16.93} {'loss': 0.0699, 'learning_rate': 4.1535059103469455e-05, 'epoch': 16.93} {'loss': 0.0707, 'learning_rate': 4.1532660423702794e-05, 'epoch': 16.93} {'loss': 0.0672, 'learning_rate': 4.153026174393614e-05, 'epoch': 16.94} {'loss': 0.0661, 'learning_rate': 4.152786306416948e-05, 'epoch': 16.94} {'loss': 0.0708, 'learning_rate': 4.152546438440283e-05, 'epoch': 16.95} {'loss': 0.0685, 'learning_rate': 4.152306570463617e-05, 'epoch': 16.95} {'loss': 0.0675, 'learning_rate': 4.152066702486951e-05, 'epoch': 16.96} {'loss': 0.0662, 'learning_rate': 4.151826834510286e-05, 'epoch': 16.96} {'loss': 0.0681, 'learning_rate': 4.1515869665336196e-05, 'epoch': 16.97} {'loss': 0.0667, 'learning_rate': 4.151347098556955e-05, 'epoch': 16.97} {'loss': 0.0679, 'learning_rate': 4.151107230580289e-05, 'epoch': 16.98} {'loss': 0.0671, 'learning_rate': 4.1508673626036235e-05, 'epoch': 16.98} {'loss': 0.0654, 'learning_rate': 4.1506274946269574e-05, 'epoch': 16.99} {'loss': 0.0705, 'learning_rate': 4.150387626650292e-05, 'epoch': 16.99} {'loss': 0.0728, 'learning_rate': 4.1501477586736266e-05, 'epoch': 17.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.062367476522922516, 'eval_runtime': 517.6304, 'eval_samples_per_second': 805.391, 'eval_steps_per_second': 100.674, 'epoch': 17.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-1771808 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-1771808/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-1771808/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-1667584] due to args.save_total_limit {'loss': 0.0699, 'learning_rate': 4.1499078906969605e-05, 'epoch': 17.0} {'loss': 0.0671, 'learning_rate': 4.149668022720295e-05, 'epoch': 17.01} {'loss': 0.0707, 'learning_rate': 4.149428154743629e-05, 'epoch': 17.01} {'loss': 0.0687, 'learning_rate': 4.149188286766964e-05, 'epoch': 17.02} {'loss': 0.069, 'learning_rate': 4.148948418790298e-05, 'epoch': 17.02} {'loss': 0.0671, 'learning_rate': 4.148708550813632e-05, 'epoch': 17.03} {'loss': 0.0692, 'learning_rate': 4.148468682836967e-05, 'epoch': 17.03} {'loss': 0.0694, 'learning_rate': 4.148228814860301e-05, 'epoch': 17.04} {'loss': 0.0665, 'learning_rate': 4.1479889468836354e-05, 'epoch': 17.04} {'loss': 0.0672, 'learning_rate': 4.14774907890697e-05, 'epoch': 17.05} {'loss': 0.0698, 'learning_rate': 4.1475092109303046e-05, 'epoch': 17.05} {'loss': 0.0674, 'learning_rate': 4.1472693429536385e-05, 'epoch': 17.05} {'loss': 0.0671, 'learning_rate': 4.147029474976973e-05, 'epoch': 17.06} {'loss': 0.066, 'learning_rate': 4.146789607000307e-05, 'epoch': 17.06} {'loss': 0.0659, 'learning_rate': 4.146549739023642e-05, 'epoch': 17.07} {'loss': 0.0695, 'learning_rate': 4.146309871046976e-05, 'epoch': 17.07} {'loss': 0.0666, 'learning_rate': 4.14607000307031e-05, 'epoch': 17.08} {'loss': 0.0687, 'learning_rate': 4.145830135093645e-05, 'epoch': 17.08} {'loss': 0.0684, 'learning_rate': 4.145590267116979e-05, 'epoch': 17.09} {'loss': 0.067, 'learning_rate': 4.1453503991403134e-05, 'epoch': 17.09} {'loss': 0.0701, 'learning_rate': 4.145110531163648e-05, 'epoch': 17.1} {'loss': 0.0692, 'learning_rate': 4.144870663186982e-05, 'epoch': 17.1} {'loss': 0.0683, 'learning_rate': 4.1446307952103165e-05, 'epoch': 17.11} {'loss': 0.0679, 'learning_rate': 4.1443909272336504e-05, 'epoch': 17.11} {'loss': 0.0681, 'learning_rate': 4.144151059256985e-05, 'epoch': 17.12} {'loss': 0.0689, 'learning_rate': 4.14391119128032e-05, 'epoch': 17.12} {'loss': 0.0685, 'learning_rate': 4.1436713233036536e-05, 'epoch': 17.13} {'loss': 0.066, 'learning_rate': 4.143431455326988e-05, 'epoch': 17.13} {'loss': 0.0659, 'learning_rate': 4.143191587350322e-05, 'epoch': 17.14} {'loss': 0.0662, 'learning_rate': 4.142951719373657e-05, 'epoch': 17.14} {'loss': 0.067, 'learning_rate': 4.1427118513969914e-05, 'epoch': 17.15} {'loss': 0.0685, 'learning_rate': 4.142471983420326e-05, 'epoch': 17.15} {'loss': 0.0693, 'learning_rate': 4.14223211544366e-05, 'epoch': 17.16} {'loss': 0.0707, 'learning_rate': 4.1419922474669945e-05, 'epoch': 17.16} {'loss': 0.0698, 'learning_rate': 4.1417523794903284e-05, 'epoch': 17.16} {'loss': 0.0701, 'learning_rate': 4.141512511513663e-05, 'epoch': 17.17} {'loss': 0.0684, 'learning_rate': 4.1412726435369977e-05, 'epoch': 17.17} {'loss': 0.0713, 'learning_rate': 4.1410327755603316e-05, 'epoch': 17.18} {'loss': 0.0702, 'learning_rate': 4.140792907583666e-05, 'epoch': 17.18} {'loss': 0.0693, 'learning_rate': 4.140553039607e-05, 'epoch': 17.19} {'loss': 0.066, 'learning_rate': 4.140313171630335e-05, 'epoch': 17.19} {'loss': 0.0667, 'learning_rate': 4.1400733036536693e-05, 'epoch': 17.2} {'loss': 0.0703, 'learning_rate': 4.139833435677003e-05, 'epoch': 17.2} {'loss': 0.0661, 'learning_rate': 4.139593567700338e-05, 'epoch': 17.21} {'loss': 0.0697, 'learning_rate': 4.139353699723672e-05, 'epoch': 17.21} {'loss': 0.0674, 'learning_rate': 4.139113831747007e-05, 'epoch': 17.22} {'loss': 0.0667, 'learning_rate': 4.138873963770341e-05, 'epoch': 17.22} {'loss': 0.069, 'learning_rate': 4.1386340957936756e-05, 'epoch': 17.23} {'loss': 0.0696, 'learning_rate': 4.1383942278170096e-05, 'epoch': 17.23} {'loss': 0.0674, 'learning_rate': 4.1381543598403435e-05, 'epoch': 17.24} {'loss': 0.0672, 'learning_rate': 4.137914491863679e-05, 'epoch': 17.24} {'loss': 0.0658, 'learning_rate': 4.137674623887013e-05, 'epoch': 17.25} {'loss': 0.0691, 'learning_rate': 4.137434755910347e-05, 'epoch': 17.25} {'loss': 0.0657, 'learning_rate': 4.137194887933681e-05, 'epoch': 17.26} {'loss': 0.0707, 'learning_rate': 4.136955019957016e-05, 'epoch': 17.26} {'loss': 0.0682, 'learning_rate': 4.1367151519803505e-05, 'epoch': 17.27} {'loss': 0.0685, 'learning_rate': 4.1364752840036844e-05, 'epoch': 17.27} {'loss': 0.0687, 'learning_rate': 4.136235416027019e-05, 'epoch': 17.28} {'loss': 0.0676, 'learning_rate': 4.135995548050353e-05, 'epoch': 17.28} {'loss': 0.0683, 'learning_rate': 4.1357556800736876e-05, 'epoch': 17.28} {'loss': 0.067, 'learning_rate': 4.135515812097022e-05, 'epoch': 17.29} {'loss': 0.069, 'learning_rate': 4.135275944120357e-05, 'epoch': 17.29} {'loss': 0.0687, 'learning_rate': 4.135036076143691e-05, 'epoch': 17.3} {'loss': 0.0711, 'learning_rate': 4.1347962081670247e-05, 'epoch': 17.3} {'loss': 0.068, 'learning_rate': 4.134556340190359e-05, 'epoch': 17.31} {'loss': 0.0679, 'learning_rate': 4.134316472213694e-05, 'epoch': 17.31} {'loss': 0.0682, 'learning_rate': 4.1340766042370285e-05, 'epoch': 17.32} {'loss': 0.0716, 'learning_rate': 4.1338367362603624e-05, 'epoch': 17.32} {'loss': 0.0649, 'learning_rate': 4.133596868283697e-05, 'epoch': 17.33} {'loss': 0.0692, 'learning_rate': 4.133357000307031e-05, 'epoch': 17.33} {'loss': 0.0702, 'learning_rate': 4.1331171323303656e-05, 'epoch': 17.34} {'loss': 0.0661, 'learning_rate': 4.1328772643537e-05, 'epoch': 17.34} {'loss': 0.0668, 'learning_rate': 4.132637396377034e-05, 'epoch': 17.35} {'loss': 0.0688, 'learning_rate': 4.132397528400369e-05, 'epoch': 17.35} {'loss': 0.0665, 'learning_rate': 4.1321576604237026e-05, 'epoch': 17.36} {'loss': 0.0677, 'learning_rate': 4.131917792447037e-05, 'epoch': 17.36} {'loss': 0.0723, 'learning_rate': 4.131677924470372e-05, 'epoch': 17.37} {'loss': 0.0634, 'learning_rate': 4.131438056493706e-05, 'epoch': 17.37} {'loss': 0.0681, 'learning_rate': 4.1311981885170404e-05, 'epoch': 17.38} {'loss': 0.0683, 'learning_rate': 4.130958320540374e-05, 'epoch': 17.38} {'loss': 0.0694, 'learning_rate': 4.1307184525637096e-05, 'epoch': 17.39} {'loss': 0.0709, 'learning_rate': 4.1304785845870435e-05, 'epoch': 17.39} {'loss': 0.0703, 'learning_rate': 4.130238716610378e-05, 'epoch': 17.4} {'loss': 0.0666, 'learning_rate': 4.129998848633712e-05, 'epoch': 17.4} {'loss': 0.0702, 'learning_rate': 4.129758980657047e-05, 'epoch': 17.4} {'loss': 0.0667, 'learning_rate': 4.129519112680381e-05, 'epoch': 17.41} {'loss': 0.0688, 'learning_rate': 4.129279244703715e-05, 'epoch': 17.41} {'loss': 0.0689, 'learning_rate': 4.12903937672705e-05, 'epoch': 17.42} {'loss': 0.068, 'learning_rate': 4.128799508750384e-05, 'epoch': 17.42} {'loss': 0.0705, 'learning_rate': 4.1285596407737184e-05, 'epoch': 17.43} {'loss': 0.0675, 'learning_rate': 4.128319772797053e-05, 'epoch': 17.43} {'loss': 0.0698, 'learning_rate': 4.128079904820387e-05, 'epoch': 17.44} {'loss': 0.0665, 'learning_rate': 4.1278400368437215e-05, 'epoch': 17.44} {'loss': 0.0687, 'learning_rate': 4.1276001688670555e-05, 'epoch': 17.45} {'loss': 0.0691, 'learning_rate': 4.12736030089039e-05, 'epoch': 17.45} {'loss': 0.0656, 'learning_rate': 4.127120432913725e-05, 'epoch': 17.46} {'loss': 0.0669, 'learning_rate': 4.126880564937059e-05, 'epoch': 17.46} {'loss': 0.0662, 'learning_rate': 4.126640696960393e-05, 'epoch': 17.47} {'loss': 0.066, 'learning_rate': 4.126400828983727e-05, 'epoch': 17.47} {'loss': 0.0658, 'learning_rate': 4.126160961007062e-05, 'epoch': 17.48} {'loss': 0.0665, 'learning_rate': 4.1259210930303964e-05, 'epoch': 17.48} {'loss': 0.0696, 'learning_rate': 4.125681225053731e-05, 'epoch': 17.49} {'loss': 0.0663, 'learning_rate': 4.125441357077065e-05, 'epoch': 17.49} {'loss': 0.068, 'learning_rate': 4.1252014891003995e-05, 'epoch': 17.5} {'loss': 0.0652, 'learning_rate': 4.1249616211237335e-05, 'epoch': 17.5} {'loss': 0.0671, 'learning_rate': 4.124721753147068e-05, 'epoch': 17.51} {'loss': 0.0671, 'learning_rate': 4.124481885170403e-05, 'epoch': 17.51} {'loss': 0.067, 'learning_rate': 4.1242420171937366e-05, 'epoch': 17.52} {'loss': 0.0679, 'learning_rate': 4.124002149217071e-05, 'epoch': 17.52} {'loss': 0.0682, 'learning_rate': 4.123762281240405e-05, 'epoch': 17.52} {'loss': 0.0676, 'learning_rate': 4.12352241326374e-05, 'epoch': 17.53} {'loss': 0.0681, 'learning_rate': 4.1232825452870744e-05, 'epoch': 17.53} {'loss': 0.0645, 'learning_rate': 4.123042677310408e-05, 'epoch': 17.54} {'loss': 0.0685, 'learning_rate': 4.122802809333743e-05, 'epoch': 17.54} {'loss': 0.0695, 'learning_rate': 4.122562941357077e-05, 'epoch': 17.55} {'loss': 0.0693, 'learning_rate': 4.1223230733804115e-05, 'epoch': 17.55} {'loss': 0.0655, 'learning_rate': 4.122083205403746e-05, 'epoch': 17.56} {'loss': 0.0688, 'learning_rate': 4.121843337427081e-05, 'epoch': 17.56} {'loss': 0.066, 'learning_rate': 4.1216034694504146e-05, 'epoch': 17.57} {'loss': 0.0694, 'learning_rate': 4.121363601473749e-05, 'epoch': 17.57} {'loss': 0.0656, 'learning_rate': 4.121123733497083e-05, 'epoch': 17.58} {'loss': 0.0691, 'learning_rate': 4.120883865520418e-05, 'epoch': 17.58} {'loss': 0.0675, 'learning_rate': 4.1206439975437524e-05, 'epoch': 17.59} {'loss': 0.0701, 'learning_rate': 4.120404129567086e-05, 'epoch': 17.59} {'loss': 0.0686, 'learning_rate': 4.120164261590421e-05, 'epoch': 17.6} {'loss': 0.068, 'learning_rate': 4.119924393613755e-05, 'epoch': 17.6} {'loss': 0.068, 'learning_rate': 4.1196845256370894e-05, 'epoch': 17.61} {'loss': 0.068, 'learning_rate': 4.119444657660424e-05, 'epoch': 17.61} {'loss': 0.0719, 'learning_rate': 4.119204789683758e-05, 'epoch': 17.62} {'loss': 0.0701, 'learning_rate': 4.1189649217070926e-05, 'epoch': 17.62} {'loss': 0.072, 'learning_rate': 4.1187250537304265e-05, 'epoch': 17.63} {'loss': 0.0697, 'learning_rate': 4.118485185753762e-05, 'epoch': 17.63} {'loss': 0.0648, 'learning_rate': 4.118245317777096e-05, 'epoch': 17.64} {'loss': 0.0682, 'learning_rate': 4.1180054498004303e-05, 'epoch': 17.64} {'loss': 0.0684, 'learning_rate': 4.117765581823764e-05, 'epoch': 17.64} {'loss': 0.0656, 'learning_rate': 4.117525713847098e-05, 'epoch': 17.65} {'loss': 0.0652, 'learning_rate': 4.1172858458704335e-05, 'epoch': 17.65} {'loss': 0.0685, 'learning_rate': 4.1170459778937674e-05, 'epoch': 17.66} {'loss': 0.069, 'learning_rate': 4.116806109917102e-05, 'epoch': 17.66} {'loss': 0.0643, 'learning_rate': 4.116566241940436e-05, 'epoch': 17.67} {'loss': 0.0664, 'learning_rate': 4.1163263739637706e-05, 'epoch': 17.67} {'loss': 0.0683, 'learning_rate': 4.116086505987105e-05, 'epoch': 17.68} {'loss': 0.066, 'learning_rate': 4.115846638010439e-05, 'epoch': 17.68} {'loss': 0.0649, 'learning_rate': 4.115606770033774e-05, 'epoch': 17.69} {'loss': 0.072, 'learning_rate': 4.115366902057108e-05, 'epoch': 17.69} {'loss': 0.067, 'learning_rate': 4.115127034080442e-05, 'epoch': 17.7} {'loss': 0.0662, 'learning_rate': 4.114887166103777e-05, 'epoch': 17.7} {'loss': 0.0695, 'learning_rate': 4.114647298127111e-05, 'epoch': 17.71} {'loss': 0.0684, 'learning_rate': 4.1144074301504454e-05, 'epoch': 17.71} {'loss': 0.0688, 'learning_rate': 4.1141675621737794e-05, 'epoch': 17.72} {'loss': 0.0697, 'learning_rate': 4.113927694197114e-05, 'epoch': 17.72} {'loss': 0.0674, 'learning_rate': 4.1136878262204486e-05, 'epoch': 17.73} {'loss': 0.0681, 'learning_rate': 4.113447958243783e-05, 'epoch': 17.73} {'loss': 0.0679, 'learning_rate': 4.113208090267117e-05, 'epoch': 17.74} {'loss': 0.067, 'learning_rate': 4.112968222290452e-05, 'epoch': 17.74} {'loss': 0.0697, 'learning_rate': 4.1127283543137857e-05, 'epoch': 17.75} {'loss': 0.0661, 'learning_rate': 4.11248848633712e-05, 'epoch': 17.75} {'loss': 0.0666, 'learning_rate': 4.112248618360455e-05, 'epoch': 17.76} {'loss': 0.0667, 'learning_rate': 4.112008750383789e-05, 'epoch': 17.76} {'loss': 0.0674, 'learning_rate': 4.1117688824071234e-05, 'epoch': 17.76} {'loss': 0.0663, 'learning_rate': 4.1115290144304573e-05, 'epoch': 17.77} {'loss': 0.0663, 'learning_rate': 4.111289146453792e-05, 'epoch': 17.77} {'loss': 0.0683, 'learning_rate': 4.1110492784771266e-05, 'epoch': 17.78} {'loss': 0.0657, 'learning_rate': 4.1108094105004605e-05, 'epoch': 17.78} {'loss': 0.0705, 'learning_rate': 4.110569542523795e-05, 'epoch': 17.79} {'loss': 0.0734, 'learning_rate': 4.110329674547129e-05, 'epoch': 17.79} {'loss': 0.0687, 'learning_rate': 4.110089806570464e-05, 'epoch': 17.8} {'loss': 0.0656, 'learning_rate': 4.109849938593798e-05, 'epoch': 17.8} {'loss': 0.0675, 'learning_rate': 4.109610070617133e-05, 'epoch': 17.81} {'loss': 0.067, 'learning_rate': 4.109370202640467e-05, 'epoch': 17.81} {'loss': 0.0675, 'learning_rate': 4.109130334663801e-05, 'epoch': 17.82} {'loss': 0.0673, 'learning_rate': 4.108890466687136e-05, 'epoch': 17.82} {'loss': 0.0677, 'learning_rate': 4.10865059871047e-05, 'epoch': 17.83} {'loss': 0.0696, 'learning_rate': 4.1084107307338046e-05, 'epoch': 17.83} {'loss': 0.0652, 'learning_rate': 4.1081708627571385e-05, 'epoch': 17.84} {'loss': 0.0678, 'learning_rate': 4.107930994780473e-05, 'epoch': 17.84} {'loss': 0.0674, 'learning_rate': 4.107691126803808e-05, 'epoch': 17.85} {'loss': 0.0676, 'learning_rate': 4.1074512588271416e-05, 'epoch': 17.85} {'loss': 0.0696, 'learning_rate': 4.107211390850476e-05, 'epoch': 17.86} {'loss': 0.0665, 'learning_rate': 4.10697152287381e-05, 'epoch': 17.86} {'loss': 0.0681, 'learning_rate': 4.106731654897145e-05, 'epoch': 17.87} {'loss': 0.0654, 'learning_rate': 4.1064917869204794e-05, 'epoch': 17.87} {'loss': 0.067, 'learning_rate': 4.106251918943814e-05, 'epoch': 17.87} {'loss': 0.0652, 'learning_rate': 4.106012050967148e-05, 'epoch': 17.88} {'loss': 0.0677, 'learning_rate': 4.105772182990482e-05, 'epoch': 17.88} {'loss': 0.0701, 'learning_rate': 4.1055323150138165e-05, 'epoch': 17.89} {'loss': 0.0681, 'learning_rate': 4.105292447037151e-05, 'epoch': 17.89} {'loss': 0.0676, 'learning_rate': 4.105052579060486e-05, 'epoch': 17.9} {'loss': 0.0673, 'learning_rate': 4.1048127110838196e-05, 'epoch': 17.9} {'loss': 0.0705, 'learning_rate': 4.104572843107154e-05, 'epoch': 17.91} {'loss': 0.0669, 'learning_rate': 4.104332975130488e-05, 'epoch': 17.91} {'loss': 0.0683, 'learning_rate': 4.104093107153823e-05, 'epoch': 17.92} {'loss': 0.0669, 'learning_rate': 4.1038532391771574e-05, 'epoch': 17.92} {'loss': 0.0696, 'learning_rate': 4.103613371200491e-05, 'epoch': 17.93} {'loss': 0.0677, 'learning_rate': 4.103373503223826e-05, 'epoch': 17.93} {'loss': 0.0673, 'learning_rate': 4.10313363524716e-05, 'epoch': 17.94} {'loss': 0.0649, 'learning_rate': 4.1028937672704945e-05, 'epoch': 17.94} {'loss': 0.0667, 'learning_rate': 4.102653899293829e-05, 'epoch': 17.95} {'loss': 0.0664, 'learning_rate': 4.102414031317163e-05, 'epoch': 17.95} {'loss': 0.0663, 'learning_rate': 4.1021741633404976e-05, 'epoch': 17.96} {'loss': 0.066, 'learning_rate': 4.1019342953638315e-05, 'epoch': 17.96} {'loss': 0.0668, 'learning_rate': 4.101694427387166e-05, 'epoch': 17.97} {'loss': 0.0653, 'learning_rate': 4.101454559410501e-05, 'epoch': 17.97} {'loss': 0.068, 'learning_rate': 4.1012146914338354e-05, 'epoch': 17.98} {'loss': 0.0679, 'learning_rate': 4.100974823457169e-05, 'epoch': 17.98} {'loss': 0.066, 'learning_rate': 4.100734955480503e-05, 'epoch': 17.99} {'loss': 0.0654, 'learning_rate': 4.100495087503838e-05, 'epoch': 17.99} {'loss': 0.0672, 'learning_rate': 4.1002552195271725e-05, 'epoch': 17.99} {'loss': 0.0674, 'learning_rate': 4.100015351550507e-05, 'epoch': 18.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.06145168095827103, 'eval_runtime': 515.7023, 'eval_samples_per_second': 808.402, 'eval_steps_per_second': 101.051, 'epoch': 18.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-1876032 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-1876032/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-1876032/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-1771808] due to args.save_total_limit {'loss': 0.0681, 'learning_rate': 4.099775483573841e-05, 'epoch': 18.0} {'loss': 0.067, 'learning_rate': 4.0995356155971756e-05, 'epoch': 18.01} {'loss': 0.0652, 'learning_rate': 4.0992957476205095e-05, 'epoch': 18.01} {'loss': 0.0649, 'learning_rate': 4.099055879643844e-05, 'epoch': 18.02} {'loss': 0.0678, 'learning_rate': 4.098816011667179e-05, 'epoch': 18.02} {'loss': 0.066, 'learning_rate': 4.098576143690513e-05, 'epoch': 18.03} {'loss': 0.0665, 'learning_rate': 4.098336275713847e-05, 'epoch': 18.03} {'loss': 0.0678, 'learning_rate': 4.098096407737181e-05, 'epoch': 18.04} {'loss': 0.0654, 'learning_rate': 4.0978565397605165e-05, 'epoch': 18.04} {'loss': 0.0634, 'learning_rate': 4.0976166717838504e-05, 'epoch': 18.05} {'loss': 0.0671, 'learning_rate': 4.0973768038071844e-05, 'epoch': 18.05} {'loss': 0.0638, 'learning_rate': 4.097136935830519e-05, 'epoch': 18.06} {'loss': 0.0684, 'learning_rate': 4.096897067853853e-05, 'epoch': 18.06} {'loss': 0.0691, 'learning_rate': 4.096657199877188e-05, 'epoch': 18.07} {'loss': 0.0688, 'learning_rate': 4.096417331900522e-05, 'epoch': 18.07} {'loss': 0.0673, 'learning_rate': 4.096177463923857e-05, 'epoch': 18.08} {'loss': 0.0646, 'learning_rate': 4.095937595947191e-05, 'epoch': 18.08} {'loss': 0.0671, 'learning_rate': 4.095697727970525e-05, 'epoch': 18.09} {'loss': 0.0652, 'learning_rate': 4.09545785999386e-05, 'epoch': 18.09} {'loss': 0.0662, 'learning_rate': 4.095217992017194e-05, 'epoch': 18.1} {'loss': 0.0665, 'learning_rate': 4.0949781240405284e-05, 'epoch': 18.1} {'loss': 0.0672, 'learning_rate': 4.0947382560638624e-05, 'epoch': 18.11} {'loss': 0.0659, 'learning_rate': 4.094498388087197e-05, 'epoch': 18.11} {'loss': 0.0702, 'learning_rate': 4.0942585201105316e-05, 'epoch': 18.11} {'loss': 0.0656, 'learning_rate': 4.0940186521338655e-05, 'epoch': 18.12} {'loss': 0.069, 'learning_rate': 4.0937787841572e-05, 'epoch': 18.12} {'loss': 0.0663, 'learning_rate': 4.093538916180534e-05, 'epoch': 18.13} {'loss': 0.0706, 'learning_rate': 4.093299048203869e-05, 'epoch': 18.13} {'loss': 0.0666, 'learning_rate': 4.093059180227203e-05, 'epoch': 18.14} {'loss': 0.0684, 'learning_rate': 4.092819312250538e-05, 'epoch': 18.14} {'loss': 0.0667, 'learning_rate': 4.092579444273872e-05, 'epoch': 18.15} {'loss': 0.0669, 'learning_rate': 4.0923395762972064e-05, 'epoch': 18.15} {'loss': 0.0684, 'learning_rate': 4.0920997083205404e-05, 'epoch': 18.16} {'loss': 0.0698, 'learning_rate': 4.091859840343875e-05, 'epoch': 18.16} {'loss': 0.0675, 'learning_rate': 4.0916199723672096e-05, 'epoch': 18.17} {'loss': 0.0654, 'learning_rate': 4.0913801043905435e-05, 'epoch': 18.17} {'loss': 0.0678, 'learning_rate': 4.091140236413878e-05, 'epoch': 18.18} {'loss': 0.0653, 'learning_rate': 4.090900368437212e-05, 'epoch': 18.18} {'loss': 0.063, 'learning_rate': 4.0906605004605467e-05, 'epoch': 18.19} {'loss': 0.0663, 'learning_rate': 4.090420632483881e-05, 'epoch': 18.19} {'loss': 0.0653, 'learning_rate': 4.090180764507215e-05, 'epoch': 18.2} {'loss': 0.0648, 'learning_rate': 4.08994089653055e-05, 'epoch': 18.2} {'loss': 0.0637, 'learning_rate': 4.089701028553884e-05, 'epoch': 18.21} {'loss': 0.0668, 'learning_rate': 4.089461160577219e-05, 'epoch': 18.21} {'loss': 0.068, 'learning_rate': 4.089221292600553e-05, 'epoch': 18.22} {'loss': 0.0676, 'learning_rate': 4.0889814246238876e-05, 'epoch': 18.22} {'loss': 0.0678, 'learning_rate': 4.0887415566472215e-05, 'epoch': 18.23} {'loss': 0.0678, 'learning_rate': 4.0885016886705554e-05, 'epoch': 18.23} {'loss': 0.0662, 'learning_rate': 4.088261820693891e-05, 'epoch': 18.23} {'loss': 0.068, 'learning_rate': 4.0880219527172246e-05, 'epoch': 18.24} {'loss': 0.0681, 'learning_rate': 4.087782084740559e-05, 'epoch': 18.24} {'loss': 0.0696, 'learning_rate': 4.087542216763893e-05, 'epoch': 18.25} {'loss': 0.0655, 'learning_rate': 4.087302348787228e-05, 'epoch': 18.25} {'loss': 0.0684, 'learning_rate': 4.0870624808105624e-05, 'epoch': 18.26} {'loss': 0.0669, 'learning_rate': 4.086822612833896e-05, 'epoch': 18.26} {'loss': 0.067, 'learning_rate': 4.086582744857231e-05, 'epoch': 18.27} {'loss': 0.0661, 'learning_rate': 4.086342876880565e-05, 'epoch': 18.27} {'loss': 0.0676, 'learning_rate': 4.0861030089038995e-05, 'epoch': 18.28} {'loss': 0.0653, 'learning_rate': 4.085863140927234e-05, 'epoch': 18.28} {'loss': 0.0649, 'learning_rate': 4.085623272950568e-05, 'epoch': 18.29} {'loss': 0.0681, 'learning_rate': 4.0853834049739026e-05, 'epoch': 18.29} {'loss': 0.066, 'learning_rate': 4.0851435369972366e-05, 'epoch': 18.3} {'loss': 0.0657, 'learning_rate': 4.084903669020571e-05, 'epoch': 18.3} {'loss': 0.0666, 'learning_rate': 4.084663801043906e-05, 'epoch': 18.31} {'loss': 0.0666, 'learning_rate': 4.0844239330672404e-05, 'epoch': 18.31} {'loss': 0.0654, 'learning_rate': 4.084184065090574e-05, 'epoch': 18.32} {'loss': 0.0676, 'learning_rate': 4.083944197113909e-05, 'epoch': 18.32} {'loss': 0.0648, 'learning_rate': 4.083704329137243e-05, 'epoch': 18.33} {'loss': 0.067, 'learning_rate': 4.0834644611605775e-05, 'epoch': 18.33} {'loss': 0.0675, 'learning_rate': 4.083224593183912e-05, 'epoch': 18.34} {'loss': 0.0654, 'learning_rate': 4.082984725207246e-05, 'epoch': 18.34} {'loss': 0.0653, 'learning_rate': 4.0827448572305806e-05, 'epoch': 18.35} {'loss': 0.0653, 'learning_rate': 4.0825049892539146e-05, 'epoch': 18.35} {'loss': 0.0646, 'learning_rate': 4.082265121277249e-05, 'epoch': 18.35} {'loss': 0.066, 'learning_rate': 4.082025253300584e-05, 'epoch': 18.36} {'loss': 0.0658, 'learning_rate': 4.081785385323918e-05, 'epoch': 18.36} {'loss': 0.0656, 'learning_rate': 4.081545517347252e-05, 'epoch': 18.37} {'loss': 0.0694, 'learning_rate': 4.081305649370586e-05, 'epoch': 18.37} {'loss': 0.0634, 'learning_rate': 4.081065781393921e-05, 'epoch': 18.38} {'loss': 0.0674, 'learning_rate': 4.0808259134172555e-05, 'epoch': 18.38} {'loss': 0.0657, 'learning_rate': 4.08058604544059e-05, 'epoch': 18.39} {'loss': 0.0661, 'learning_rate': 4.080346177463924e-05, 'epoch': 18.39} {'loss': 0.0652, 'learning_rate': 4.080106309487258e-05, 'epoch': 18.4} {'loss': 0.0692, 'learning_rate': 4.0798664415105925e-05, 'epoch': 18.4} {'loss': 0.0656, 'learning_rate': 4.079626573533927e-05, 'epoch': 18.41} {'loss': 0.0652, 'learning_rate': 4.079386705557262e-05, 'epoch': 18.41} {'loss': 0.0689, 'learning_rate': 4.079146837580596e-05, 'epoch': 18.42} {'loss': 0.0658, 'learning_rate': 4.07890696960393e-05, 'epoch': 18.42} {'loss': 0.0668, 'learning_rate': 4.078667101627264e-05, 'epoch': 18.43} {'loss': 0.0661, 'learning_rate': 4.078427233650599e-05, 'epoch': 18.43} {'loss': 0.0667, 'learning_rate': 4.0781873656739335e-05, 'epoch': 18.44} {'loss': 0.0687, 'learning_rate': 4.0779474976972674e-05, 'epoch': 18.44} {'loss': 0.0655, 'learning_rate': 4.077707629720602e-05, 'epoch': 18.45} {'loss': 0.0681, 'learning_rate': 4.077467761743936e-05, 'epoch': 18.45} {'loss': 0.0664, 'learning_rate': 4.077227893767271e-05, 'epoch': 18.46} {'loss': 0.067, 'learning_rate': 4.076988025790605e-05, 'epoch': 18.46} {'loss': 0.0702, 'learning_rate': 4.076748157813939e-05, 'epoch': 18.47} {'loss': 0.0666, 'learning_rate': 4.076508289837274e-05, 'epoch': 18.47} {'loss': 0.0653, 'learning_rate': 4.0762684218606076e-05, 'epoch': 18.47} {'loss': 0.0645, 'learning_rate': 4.076028553883943e-05, 'epoch': 18.48} {'loss': 0.0666, 'learning_rate': 4.075788685907277e-05, 'epoch': 18.48} {'loss': 0.0676, 'learning_rate': 4.0755488179306114e-05, 'epoch': 18.49} {'loss': 0.0674, 'learning_rate': 4.0753089499539454e-05, 'epoch': 18.49} {'loss': 0.0687, 'learning_rate': 4.07506908197728e-05, 'epoch': 18.5} {'loss': 0.0652, 'learning_rate': 4.0748292140006146e-05, 'epoch': 18.5} {'loss': 0.069, 'learning_rate': 4.0745893460239485e-05, 'epoch': 18.51} {'loss': 0.0655, 'learning_rate': 4.074349478047283e-05, 'epoch': 18.51} {'loss': 0.0663, 'learning_rate': 4.074109610070617e-05, 'epoch': 18.52} {'loss': 0.067, 'learning_rate': 4.073869742093952e-05, 'epoch': 18.52} {'loss': 0.0644, 'learning_rate': 4.073629874117286e-05, 'epoch': 18.53} {'loss': 0.0696, 'learning_rate': 4.07339000614062e-05, 'epoch': 18.53} {'loss': 0.0687, 'learning_rate': 4.073150138163955e-05, 'epoch': 18.54} {'loss': 0.0647, 'learning_rate': 4.072910270187289e-05, 'epoch': 18.54} {'loss': 0.0676, 'learning_rate': 4.0726704022106234e-05, 'epoch': 18.55} {'loss': 0.0694, 'learning_rate': 4.072430534233958e-05, 'epoch': 18.55} {'loss': 0.0636, 'learning_rate': 4.0721906662572926e-05, 'epoch': 18.56} {'loss': 0.0658, 'learning_rate': 4.0719507982806265e-05, 'epoch': 18.56} {'loss': 0.0662, 'learning_rate': 4.0717109303039604e-05, 'epoch': 18.57} {'loss': 0.0664, 'learning_rate': 4.071471062327295e-05, 'epoch': 18.57} {'loss': 0.0633, 'learning_rate': 4.07123119435063e-05, 'epoch': 18.58} {'loss': 0.0684, 'learning_rate': 4.070991326373964e-05, 'epoch': 18.58} {'loss': 0.0693, 'learning_rate': 4.070751458397298e-05, 'epoch': 18.58} {'loss': 0.0663, 'learning_rate': 4.070511590420633e-05, 'epoch': 18.59} {'loss': 0.0645, 'learning_rate': 4.070271722443967e-05, 'epoch': 18.59} {'loss': 0.0655, 'learning_rate': 4.0700318544673014e-05, 'epoch': 18.6} {'loss': 0.0664, 'learning_rate': 4.069791986490636e-05, 'epoch': 18.6} {'loss': 0.0658, 'learning_rate': 4.06955211851397e-05, 'epoch': 18.61} {'loss': 0.0662, 'learning_rate': 4.0693122505373045e-05, 'epoch': 18.61} {'loss': 0.0658, 'learning_rate': 4.0690723825606384e-05, 'epoch': 18.62} {'loss': 0.0654, 'learning_rate': 4.068832514583974e-05, 'epoch': 18.62} {'loss': 0.0669, 'learning_rate': 4.0685926466073077e-05, 'epoch': 18.63} {'loss': 0.0657, 'learning_rate': 4.0683527786306416e-05, 'epoch': 18.63} {'loss': 0.0646, 'learning_rate': 4.068112910653976e-05, 'epoch': 18.64} {'loss': 0.0659, 'learning_rate': 4.06787304267731e-05, 'epoch': 18.64} {'loss': 0.0684, 'learning_rate': 4.0676331747006454e-05, 'epoch': 18.65} {'loss': 0.0645, 'learning_rate': 4.0673933067239793e-05, 'epoch': 18.65} {'loss': 0.0672, 'learning_rate': 4.067153438747314e-05, 'epoch': 18.66} {'loss': 0.0666, 'learning_rate': 4.066913570770648e-05, 'epoch': 18.66} {'loss': 0.0703, 'learning_rate': 4.0666737027939825e-05, 'epoch': 18.67} {'loss': 0.0661, 'learning_rate': 4.066433834817317e-05, 'epoch': 18.67} {'loss': 0.0654, 'learning_rate': 4.066193966840651e-05, 'epoch': 18.68} {'loss': 0.0635, 'learning_rate': 4.0659540988639856e-05, 'epoch': 18.68} {'loss': 0.0692, 'learning_rate': 4.0657142308873196e-05, 'epoch': 18.69} {'loss': 0.0644, 'learning_rate': 4.065474362910654e-05, 'epoch': 18.69} {'loss': 0.0673, 'learning_rate': 4.065234494933989e-05, 'epoch': 18.7} {'loss': 0.0773, 'learning_rate': 4.064994626957323e-05, 'epoch': 18.7} {'loss': 0.0676, 'learning_rate': 4.064754758980657e-05, 'epoch': 18.7} {'loss': 0.0705, 'learning_rate': 4.064514891003991e-05, 'epoch': 18.71} {'loss': 0.0667, 'learning_rate': 4.064275023027326e-05, 'epoch': 18.71} {'loss': 0.0657, 'learning_rate': 4.0640351550506605e-05, 'epoch': 18.72} {'loss': 0.0677, 'learning_rate': 4.063795287073995e-05, 'epoch': 18.72} {'loss': 0.0672, 'learning_rate': 4.063555419097329e-05, 'epoch': 18.73} {'loss': 0.069, 'learning_rate': 4.0633155511206636e-05, 'epoch': 18.73} {'loss': 0.0664, 'learning_rate': 4.0630756831439976e-05, 'epoch': 18.74} {'loss': 0.0667, 'learning_rate': 4.062835815167332e-05, 'epoch': 18.74} {'loss': 0.0658, 'learning_rate': 4.062595947190667e-05, 'epoch': 18.75} {'loss': 0.0664, 'learning_rate': 4.062356079214001e-05, 'epoch': 18.75} {'loss': 0.0654, 'learning_rate': 4.062116211237335e-05, 'epoch': 18.76} {'loss': 0.0681, 'learning_rate': 4.061876343260669e-05, 'epoch': 18.76} {'loss': 0.0666, 'learning_rate': 4.061636475284004e-05, 'epoch': 18.77} {'loss': 0.0667, 'learning_rate': 4.0613966073073385e-05, 'epoch': 18.77} {'loss': 0.0641, 'learning_rate': 4.0611567393306724e-05, 'epoch': 18.78} {'loss': 0.0682, 'learning_rate': 4.060916871354007e-05, 'epoch': 18.78} {'loss': 0.0687, 'learning_rate': 4.060677003377341e-05, 'epoch': 18.79} {'loss': 0.0641, 'learning_rate': 4.060437135400676e-05, 'epoch': 18.79} {'loss': 0.0659, 'learning_rate': 4.06019726742401e-05, 'epoch': 18.8} {'loss': 0.0652, 'learning_rate': 4.059957399447344e-05, 'epoch': 18.8} {'loss': 0.0667, 'learning_rate': 4.059717531470679e-05, 'epoch': 18.81} {'loss': 0.0672, 'learning_rate': 4.0594776634940126e-05, 'epoch': 18.81} {'loss': 0.0653, 'learning_rate': 4.059237795517347e-05, 'epoch': 18.82} {'loss': 0.0667, 'learning_rate': 4.058997927540682e-05, 'epoch': 18.82} {'loss': 0.0664, 'learning_rate': 4.0587580595640165e-05, 'epoch': 18.82} {'loss': 0.067, 'learning_rate': 4.0585181915873504e-05, 'epoch': 18.83} {'loss': 0.0669, 'learning_rate': 4.058278323610685e-05, 'epoch': 18.83} {'loss': 0.0662, 'learning_rate': 4.058038455634019e-05, 'epoch': 18.84} {'loss': 0.066, 'learning_rate': 4.0577985876573535e-05, 'epoch': 18.84} {'loss': 0.0674, 'learning_rate': 4.057558719680688e-05, 'epoch': 18.85} {'loss': 0.0655, 'learning_rate': 4.057318851704022e-05, 'epoch': 18.85} {'loss': 0.0693, 'learning_rate': 4.057078983727357e-05, 'epoch': 18.86} {'loss': 0.066, 'learning_rate': 4.0568391157506906e-05, 'epoch': 18.86} {'loss': 0.0651, 'learning_rate': 4.056599247774025e-05, 'epoch': 18.87} {'loss': 0.0651, 'learning_rate': 4.05635937979736e-05, 'epoch': 18.87} {'loss': 0.0646, 'learning_rate': 4.056119511820694e-05, 'epoch': 18.88} {'loss': 0.0656, 'learning_rate': 4.0558796438440284e-05, 'epoch': 18.88} {'loss': 0.068, 'learning_rate': 4.055639775867362e-05, 'epoch': 18.89} {'loss': 0.0657, 'learning_rate': 4.0553999078906976e-05, 'epoch': 18.89} {'loss': 0.067, 'learning_rate': 4.0551600399140315e-05, 'epoch': 18.9} {'loss': 0.0656, 'learning_rate': 4.054920171937366e-05, 'epoch': 18.9} {'loss': 0.0648, 'learning_rate': 4.0546803039607e-05, 'epoch': 18.91} {'loss': 0.0646, 'learning_rate': 4.054440435984034e-05, 'epoch': 18.91} {'loss': 0.0671, 'learning_rate': 4.054200568007369e-05, 'epoch': 18.92} {'loss': 0.0668, 'learning_rate': 4.053960700030703e-05, 'epoch': 18.92} {'loss': 0.0682, 'learning_rate': 4.053720832054038e-05, 'epoch': 18.93} {'loss': 0.0689, 'learning_rate': 4.053480964077372e-05, 'epoch': 18.93} {'loss': 0.0669, 'learning_rate': 4.0532410961007064e-05, 'epoch': 18.94} {'loss': 0.071, 'learning_rate': 4.053001228124041e-05, 'epoch': 18.94} {'loss': 0.0683, 'learning_rate': 4.052761360147375e-05, 'epoch': 18.94} {'loss': 0.0673, 'learning_rate': 4.0525214921707095e-05, 'epoch': 18.95} {'loss': 0.0655, 'learning_rate': 4.0522816241940435e-05, 'epoch': 18.95} {'loss': 0.0678, 'learning_rate': 4.052041756217378e-05, 'epoch': 18.96} {'loss': 0.0653, 'learning_rate': 4.051801888240713e-05, 'epoch': 18.96} {'loss': 0.0651, 'learning_rate': 4.051562020264047e-05, 'epoch': 18.97} {'loss': 0.0631, 'learning_rate': 4.051322152287381e-05, 'epoch': 18.97} {'loss': 0.0667, 'learning_rate': 4.051082284310715e-05, 'epoch': 18.98} {'loss': 0.0679, 'learning_rate': 4.05084241633405e-05, 'epoch': 18.98} {'loss': 0.0663, 'learning_rate': 4.0506025483573844e-05, 'epoch': 18.99} {'loss': 0.0661, 'learning_rate': 4.050362680380719e-05, 'epoch': 18.99} {'loss': 0.0679, 'learning_rate': 4.050122812404053e-05, 'epoch': 19.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.059952061623334885, 'eval_runtime': 514.806, 'eval_samples_per_second': 809.81, 'eval_steps_per_second': 101.226, 'epoch': 19.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-1980256 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-1980256/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-1980256/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-1876032] due to args.save_total_limit {'loss': 0.0639, 'learning_rate': 4.0498829444273875e-05, 'epoch': 19.0} {'loss': 0.0685, 'learning_rate': 4.0496430764507214e-05, 'epoch': 19.01} {'loss': 0.068, 'learning_rate': 4.049403208474056e-05, 'epoch': 19.01} {'loss': 0.0666, 'learning_rate': 4.049163340497391e-05, 'epoch': 19.02} {'loss': 0.0643, 'learning_rate': 4.0489234725207246e-05, 'epoch': 19.02} {'loss': 0.0646, 'learning_rate': 4.048683604544059e-05, 'epoch': 19.03} {'loss': 0.0671, 'learning_rate': 4.048443736567393e-05, 'epoch': 19.03} {'loss': 0.0651, 'learning_rate': 4.0482038685907284e-05, 'epoch': 19.04} {'loss': 0.0659, 'learning_rate': 4.0479640006140624e-05, 'epoch': 19.04} {'loss': 0.0654, 'learning_rate': 4.047724132637396e-05, 'epoch': 19.05} {'loss': 0.0676, 'learning_rate': 4.047484264660731e-05, 'epoch': 19.05} {'loss': 0.066, 'learning_rate': 4.047244396684065e-05, 'epoch': 19.06} {'loss': 0.0643, 'learning_rate': 4.0470045287074e-05, 'epoch': 19.06} {'loss': 0.0639, 'learning_rate': 4.046764660730734e-05, 'epoch': 19.06} {'loss': 0.0647, 'learning_rate': 4.0465247927540687e-05, 'epoch': 19.07} {'loss': 0.068, 'learning_rate': 4.0462849247774026e-05, 'epoch': 19.07} {'loss': 0.0662, 'learning_rate': 4.046045056800737e-05, 'epoch': 19.08} {'loss': 0.0665, 'learning_rate': 4.045805188824072e-05, 'epoch': 19.08} {'loss': 0.066, 'learning_rate': 4.045565320847406e-05, 'epoch': 19.09} {'loss': 0.067, 'learning_rate': 4.0453254528707403e-05, 'epoch': 19.09} {'loss': 0.0668, 'learning_rate': 4.045085584894074e-05, 'epoch': 19.1} {'loss': 0.0653, 'learning_rate': 4.044845716917409e-05, 'epoch': 19.1} {'loss': 0.0674, 'learning_rate': 4.0446058489407435e-05, 'epoch': 19.11} {'loss': 0.0674, 'learning_rate': 4.0443659809640774e-05, 'epoch': 19.11} {'loss': 0.0641, 'learning_rate': 4.044126112987412e-05, 'epoch': 19.12} {'loss': 0.067, 'learning_rate': 4.043886245010746e-05, 'epoch': 19.12} {'loss': 0.067, 'learning_rate': 4.0436463770340806e-05, 'epoch': 19.13} {'loss': 0.0654, 'learning_rate': 4.043406509057415e-05, 'epoch': 19.13} {'loss': 0.0652, 'learning_rate': 4.04316664108075e-05, 'epoch': 19.14} {'loss': 0.0658, 'learning_rate': 4.042926773104084e-05, 'epoch': 19.14} {'loss': 0.0659, 'learning_rate': 4.0426869051274177e-05, 'epoch': 19.15} {'loss': 0.0655, 'learning_rate': 4.042447037150752e-05, 'epoch': 19.15} {'loss': 0.0689, 'learning_rate': 4.042207169174087e-05, 'epoch': 19.16} {'loss': 0.0648, 'learning_rate': 4.0419673011974215e-05, 'epoch': 19.16} {'loss': 0.0647, 'learning_rate': 4.0417274332207554e-05, 'epoch': 19.17} {'loss': 0.0634, 'learning_rate': 4.04148756524409e-05, 'epoch': 19.17} {'loss': 0.0647, 'learning_rate': 4.041247697267424e-05, 'epoch': 19.18} {'loss': 0.0655, 'learning_rate': 4.0410078292907586e-05, 'epoch': 19.18} {'loss': 0.0675, 'learning_rate': 4.040767961314093e-05, 'epoch': 19.18} {'loss': 0.0644, 'learning_rate': 4.040528093337427e-05, 'epoch': 19.19} {'loss': 0.0648, 'learning_rate': 4.040288225360762e-05, 'epoch': 19.19} {'loss': 0.0642, 'learning_rate': 4.0400483573840956e-05, 'epoch': 19.2} {'loss': 0.0648, 'learning_rate': 4.039808489407431e-05, 'epoch': 19.2} {'loss': 0.068, 'learning_rate': 4.039568621430765e-05, 'epoch': 19.21} {'loss': 0.0681, 'learning_rate': 4.039328753454099e-05, 'epoch': 19.21} {'loss': 0.0656, 'learning_rate': 4.0390888854774334e-05, 'epoch': 19.22} {'loss': 0.0655, 'learning_rate': 4.038849017500767e-05, 'epoch': 19.22} {'loss': 0.0663, 'learning_rate': 4.038609149524102e-05, 'epoch': 19.23} {'loss': 0.0661, 'learning_rate': 4.0383692815474366e-05, 'epoch': 19.23} {'loss': 0.0655, 'learning_rate': 4.038129413570771e-05, 'epoch': 19.24} {'loss': 0.0645, 'learning_rate': 4.037889545594105e-05, 'epoch': 19.24} {'loss': 0.0652, 'learning_rate': 4.03764967761744e-05, 'epoch': 19.25} {'loss': 0.0676, 'learning_rate': 4.0374098096407736e-05, 'epoch': 19.25} {'loss': 0.0639, 'learning_rate': 4.037169941664108e-05, 'epoch': 19.26} {'loss': 0.0647, 'learning_rate': 4.036930073687443e-05, 'epoch': 19.26} {'loss': 0.0644, 'learning_rate': 4.036690205710777e-05, 'epoch': 19.27} {'loss': 0.0658, 'learning_rate': 4.0364503377341114e-05, 'epoch': 19.27} {'loss': 0.0655, 'learning_rate': 4.036210469757445e-05, 'epoch': 19.28} {'loss': 0.0692, 'learning_rate': 4.03597060178078e-05, 'epoch': 19.28} {'loss': 0.0671, 'learning_rate': 4.0357307338041145e-05, 'epoch': 19.29} {'loss': 0.0663, 'learning_rate': 4.0354908658274485e-05, 'epoch': 19.29} {'loss': 0.0632, 'learning_rate': 4.035250997850783e-05, 'epoch': 19.29} {'loss': 0.0638, 'learning_rate': 4.035011129874117e-05, 'epoch': 19.3} {'loss': 0.0655, 'learning_rate': 4.034771261897452e-05, 'epoch': 19.3} {'loss': 0.0661, 'learning_rate': 4.034531393920786e-05, 'epoch': 19.31} {'loss': 0.0666, 'learning_rate': 4.034291525944121e-05, 'epoch': 19.31} {'loss': 0.0653, 'learning_rate': 4.034051657967455e-05, 'epoch': 19.32} {'loss': 0.064, 'learning_rate': 4.033811789990789e-05, 'epoch': 19.32} {'loss': 0.0633, 'learning_rate': 4.033571922014124e-05, 'epoch': 19.33} {'loss': 0.0685, 'learning_rate': 4.033332054037458e-05, 'epoch': 19.33} {'loss': 0.0659, 'learning_rate': 4.0330921860607925e-05, 'epoch': 19.34} {'loss': 0.0676, 'learning_rate': 4.0328523180841265e-05, 'epoch': 19.34} {'loss': 0.0662, 'learning_rate': 4.032612450107461e-05, 'epoch': 19.35} {'loss': 0.0684, 'learning_rate': 4.032372582130796e-05, 'epoch': 19.35} {'loss': 0.0648, 'learning_rate': 4.0321327141541296e-05, 'epoch': 19.36} {'loss': 0.0641, 'learning_rate': 4.031892846177464e-05, 'epoch': 19.36} {'loss': 0.0663, 'learning_rate': 4.031652978200798e-05, 'epoch': 19.37} {'loss': 0.0665, 'learning_rate': 4.031413110224133e-05, 'epoch': 19.37} {'loss': 0.0627, 'learning_rate': 4.0311732422474674e-05, 'epoch': 19.38} {'loss': 0.0659, 'learning_rate': 4.030933374270801e-05, 'epoch': 19.38} {'loss': 0.0658, 'learning_rate': 4.030693506294136e-05, 'epoch': 19.39} {'loss': 0.0657, 'learning_rate': 4.03045363831747e-05, 'epoch': 19.39} {'loss': 0.0654, 'learning_rate': 4.0302137703408045e-05, 'epoch': 19.4} {'loss': 0.0644, 'learning_rate': 4.029973902364139e-05, 'epoch': 19.4} {'loss': 0.0678, 'learning_rate': 4.029734034387474e-05, 'epoch': 19.41} {'loss': 0.0654, 'learning_rate': 4.0294941664108076e-05, 'epoch': 19.41} {'loss': 0.0639, 'learning_rate': 4.029254298434142e-05, 'epoch': 19.41} {'loss': 0.0653, 'learning_rate': 4.029014430457476e-05, 'epoch': 19.42} {'loss': 0.0649, 'learning_rate': 4.028774562480811e-05, 'epoch': 19.42} {'loss': 0.0644, 'learning_rate': 4.0285346945041454e-05, 'epoch': 19.43} {'loss': 0.0665, 'learning_rate': 4.028294826527479e-05, 'epoch': 19.43} {'loss': 0.0629, 'learning_rate': 4.028054958550814e-05, 'epoch': 19.44} {'loss': 0.0666, 'learning_rate': 4.027815090574148e-05, 'epoch': 19.44} {'loss': 0.066, 'learning_rate': 4.0275752225974824e-05, 'epoch': 19.45} {'loss': 0.0662, 'learning_rate': 4.027335354620817e-05, 'epoch': 19.45} {'loss': 0.066, 'learning_rate': 4.027095486644151e-05, 'epoch': 19.46} {'loss': 0.0654, 'learning_rate': 4.0268556186674856e-05, 'epoch': 19.46} {'loss': 0.0666, 'learning_rate': 4.0266157506908195e-05, 'epoch': 19.47} {'loss': 0.0627, 'learning_rate': 4.026375882714155e-05, 'epoch': 19.47} {'loss': 0.0653, 'learning_rate': 4.026136014737489e-05, 'epoch': 19.48} {'loss': 0.0683, 'learning_rate': 4.0258961467608234e-05, 'epoch': 19.48} {'loss': 0.0633, 'learning_rate': 4.025656278784157e-05, 'epoch': 19.49} {'loss': 0.0647, 'learning_rate': 4.025416410807491e-05, 'epoch': 19.49} {'loss': 0.0656, 'learning_rate': 4.0251765428308265e-05, 'epoch': 19.5} {'loss': 0.0641, 'learning_rate': 4.0249366748541604e-05, 'epoch': 19.5} {'loss': 0.0649, 'learning_rate': 4.024696806877495e-05, 'epoch': 19.51} {'loss': 0.0625, 'learning_rate': 4.024456938900829e-05, 'epoch': 19.51} {'loss': 0.0654, 'learning_rate': 4.0242170709241636e-05, 'epoch': 19.52} {'loss': 0.0656, 'learning_rate': 4.023977202947498e-05, 'epoch': 19.52} {'loss': 0.0648, 'learning_rate': 4.023737334970832e-05, 'epoch': 19.53} {'loss': 0.063, 'learning_rate': 4.023497466994167e-05, 'epoch': 19.53} {'loss': 0.0657, 'learning_rate': 4.023257599017501e-05, 'epoch': 19.53} {'loss': 0.0638, 'learning_rate': 4.023017731040835e-05, 'epoch': 19.54} {'loss': 0.0639, 'learning_rate': 4.02277786306417e-05, 'epoch': 19.54} {'loss': 0.0652, 'learning_rate': 4.0225379950875045e-05, 'epoch': 19.55} {'loss': 0.0677, 'learning_rate': 4.0222981271108384e-05, 'epoch': 19.55} {'loss': 0.0664, 'learning_rate': 4.0220582591341724e-05, 'epoch': 19.56} {'loss': 0.0666, 'learning_rate': 4.021818391157507e-05, 'epoch': 19.56} {'loss': 0.0664, 'learning_rate': 4.0215785231808416e-05, 'epoch': 19.57} {'loss': 0.0654, 'learning_rate': 4.021338655204176e-05, 'epoch': 19.57} {'loss': 0.0649, 'learning_rate': 4.02109878722751e-05, 'epoch': 19.58} {'loss': 0.0641, 'learning_rate': 4.020858919250845e-05, 'epoch': 19.58} {'loss': 0.0671, 'learning_rate': 4.0206190512741787e-05, 'epoch': 19.59} {'loss': 0.0665, 'learning_rate': 4.020379183297513e-05, 'epoch': 19.59} {'loss': 0.0652, 'learning_rate': 4.020139315320848e-05, 'epoch': 19.6} {'loss': 0.0636, 'learning_rate': 4.019899447344182e-05, 'epoch': 19.6} {'loss': 0.0662, 'learning_rate': 4.0196595793675164e-05, 'epoch': 19.61} {'loss': 0.0661, 'learning_rate': 4.0194197113908503e-05, 'epoch': 19.61} {'loss': 0.0653, 'learning_rate': 4.0191798434141856e-05, 'epoch': 19.62} {'loss': 0.0657, 'learning_rate': 4.0189399754375196e-05, 'epoch': 19.62} {'loss': 0.0641, 'learning_rate': 4.0187001074608535e-05, 'epoch': 19.63} {'loss': 0.0666, 'learning_rate': 4.018460239484188e-05, 'epoch': 19.63} {'loss': 0.0617, 'learning_rate': 4.018220371507522e-05, 'epoch': 19.64} {'loss': 0.068, 'learning_rate': 4.0179805035308566e-05, 'epoch': 19.64} {'loss': 0.0654, 'learning_rate': 4.017740635554191e-05, 'epoch': 19.65} {'loss': 0.0674, 'learning_rate': 4.017500767577526e-05, 'epoch': 19.65} {'loss': 0.0635, 'learning_rate': 4.01726089960086e-05, 'epoch': 19.65} {'loss': 0.0662, 'learning_rate': 4.0170210316241944e-05, 'epoch': 19.66} {'loss': 0.065, 'learning_rate': 4.016781163647528e-05, 'epoch': 19.66} {'loss': 0.0657, 'learning_rate': 4.016541295670863e-05, 'epoch': 19.67} {'loss': 0.0669, 'learning_rate': 4.0163014276941976e-05, 'epoch': 19.67} {'loss': 0.0649, 'learning_rate': 4.0160615597175315e-05, 'epoch': 19.68} {'loss': 0.0654, 'learning_rate': 4.015821691740866e-05, 'epoch': 19.68} {'loss': 0.0659, 'learning_rate': 4.0155818237642e-05, 'epoch': 19.69} {'loss': 0.0639, 'learning_rate': 4.0153419557875346e-05, 'epoch': 19.69} {'loss': 0.0653, 'learning_rate': 4.015102087810869e-05, 'epoch': 19.7} {'loss': 0.0638, 'learning_rate': 4.014862219834203e-05, 'epoch': 19.7} {'loss': 0.0639, 'learning_rate': 4.014622351857538e-05, 'epoch': 19.71} {'loss': 0.0657, 'learning_rate': 4.014382483880872e-05, 'epoch': 19.71} {'loss': 0.0657, 'learning_rate': 4.014142615904207e-05, 'epoch': 19.72} {'loss': 0.0638, 'learning_rate': 4.013902747927541e-05, 'epoch': 19.72} {'loss': 0.067, 'learning_rate': 4.013662879950875e-05, 'epoch': 19.73} {'loss': 0.0669, 'learning_rate': 4.0134230119742095e-05, 'epoch': 19.73} {'loss': 0.0639, 'learning_rate': 4.0131831439975434e-05, 'epoch': 19.74} {'loss': 0.0657, 'learning_rate': 4.012943276020879e-05, 'epoch': 19.74} {'loss': 0.0646, 'learning_rate': 4.0127034080442126e-05, 'epoch': 19.75} {'loss': 0.0643, 'learning_rate': 4.012463540067547e-05, 'epoch': 19.75} {'loss': 0.0666, 'learning_rate': 4.012223672090881e-05, 'epoch': 19.76} {'loss': 0.0633, 'learning_rate': 4.011983804114216e-05, 'epoch': 19.76} {'loss': 0.0648, 'learning_rate': 4.0117439361375504e-05, 'epoch': 19.77} {'loss': 0.0641, 'learning_rate': 4.011504068160884e-05, 'epoch': 19.77} {'loss': 0.0658, 'learning_rate': 4.011264200184219e-05, 'epoch': 19.77} {'loss': 0.0641, 'learning_rate': 4.011024332207553e-05, 'epoch': 19.78} {'loss': 0.067, 'learning_rate': 4.0107844642308875e-05, 'epoch': 19.78} {'loss': 0.0661, 'learning_rate': 4.010544596254222e-05, 'epoch': 19.79} {'loss': 0.0638, 'learning_rate': 4.010304728277556e-05, 'epoch': 19.79} {'loss': 0.0635, 'learning_rate': 4.0100648603008906e-05, 'epoch': 19.8} {'loss': 0.0667, 'learning_rate': 4.0098249923242245e-05, 'epoch': 19.8} {'loss': 0.0674, 'learning_rate': 4.009585124347559e-05, 'epoch': 19.81} {'loss': 0.0645, 'learning_rate': 4.009345256370894e-05, 'epoch': 19.81} {'loss': 0.0655, 'learning_rate': 4.0091053883942284e-05, 'epoch': 19.82} {'loss': 0.0638, 'learning_rate': 4.008865520417562e-05, 'epoch': 19.82} {'loss': 0.0655, 'learning_rate': 4.008625652440897e-05, 'epoch': 19.83} {'loss': 0.0635, 'learning_rate': 4.008385784464231e-05, 'epoch': 19.83} {'loss': 0.0659, 'learning_rate': 4.0081459164875655e-05, 'epoch': 19.84} {'loss': 0.0641, 'learning_rate': 4.0079060485109e-05, 'epoch': 19.84} {'loss': 0.0637, 'learning_rate': 4.007666180534234e-05, 'epoch': 19.85} {'loss': 0.0639, 'learning_rate': 4.0074263125575686e-05, 'epoch': 19.85} {'loss': 0.0666, 'learning_rate': 4.0071864445809025e-05, 'epoch': 19.86} {'loss': 0.0634, 'learning_rate': 4.006946576604237e-05, 'epoch': 19.86} {'loss': 0.0654, 'learning_rate': 4.006706708627572e-05, 'epoch': 19.87} {'loss': 0.0645, 'learning_rate': 4.006466840650906e-05, 'epoch': 19.87} {'loss': 0.0652, 'learning_rate': 4.00622697267424e-05, 'epoch': 19.88} {'loss': 0.066, 'learning_rate': 4.005987104697574e-05, 'epoch': 19.88} {'loss': 0.0655, 'learning_rate': 4.0057472367209095e-05, 'epoch': 19.89} {'loss': 0.0659, 'learning_rate': 4.0055073687442434e-05, 'epoch': 19.89} {'loss': 0.0642, 'learning_rate': 4.005267500767578e-05, 'epoch': 19.89} {'loss': 0.0669, 'learning_rate': 4.005027632790912e-05, 'epoch': 19.9} {'loss': 0.0656, 'learning_rate': 4.004787764814246e-05, 'epoch': 19.9} {'loss': 0.0648, 'learning_rate': 4.004547896837581e-05, 'epoch': 19.91} {'loss': 0.0653, 'learning_rate': 4.004308028860915e-05, 'epoch': 19.91} {'loss': 0.0639, 'learning_rate': 4.00406816088425e-05, 'epoch': 19.92} {'loss': 0.0647, 'learning_rate': 4.003828292907584e-05, 'epoch': 19.92} {'loss': 0.0661, 'learning_rate': 4.003588424930918e-05, 'epoch': 19.93} {'loss': 0.064, 'learning_rate': 4.003348556954253e-05, 'epoch': 19.93} {'loss': 0.0636, 'learning_rate': 4.003108688977587e-05, 'epoch': 19.94} {'loss': 0.0649, 'learning_rate': 4.0028688210009214e-05, 'epoch': 19.94} {'loss': 0.064, 'learning_rate': 4.0026289530242554e-05, 'epoch': 19.95} {'loss': 0.0657, 'learning_rate': 4.00238908504759e-05, 'epoch': 19.95} {'loss': 0.0631, 'learning_rate': 4.0021492170709246e-05, 'epoch': 19.96} {'loss': 0.0625, 'learning_rate': 4.0019093490942585e-05, 'epoch': 19.96} {'loss': 0.065, 'learning_rate': 4.001669481117593e-05, 'epoch': 19.97} {'loss': 0.0667, 'learning_rate': 4.001429613140927e-05, 'epoch': 19.97} {'loss': 0.0658, 'learning_rate': 4.001189745164262e-05, 'epoch': 19.98} {'loss': 0.0672, 'learning_rate': 4.000949877187596e-05, 'epoch': 19.98} {'loss': 0.0672, 'learning_rate': 4.000710009210931e-05, 'epoch': 19.99} {'loss': 0.0618, 'learning_rate': 4.000470141234265e-05, 'epoch': 19.99} {'loss': 0.0656, 'learning_rate': 4.0002302732575994e-05, 'epoch': 20.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.0589754655957222, 'eval_runtime': 612.2251, 'eval_samples_per_second': 680.951, 'eval_steps_per_second': 85.119, 'epoch': 20.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-2084480 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-2084480/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-2084480/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-1980256] due to args.save_total_limit {'loss': 0.0623, 'learning_rate': 3.9999904052809334e-05, 'epoch': 20.0} {'loss': 0.0649, 'learning_rate': 3.999750537304268e-05, 'epoch': 20.0} {'loss': 0.0648, 'learning_rate': 3.9995106693276026e-05, 'epoch': 20.01} {'loss': 0.066, 'learning_rate': 3.9992708013509365e-05, 'epoch': 20.01} {'loss': 0.0619, 'learning_rate': 3.999030933374271e-05, 'epoch': 20.02} {'loss': 0.0664, 'learning_rate': 3.998791065397605e-05, 'epoch': 20.02} {'loss': 0.0661, 'learning_rate': 3.9985511974209397e-05, 'epoch': 20.03} {'loss': 0.065, 'learning_rate': 3.998311329444274e-05, 'epoch': 20.03} {'loss': 0.0672, 'learning_rate': 3.998071461467608e-05, 'epoch': 20.04} {'loss': 0.0661, 'learning_rate': 3.997831593490943e-05, 'epoch': 20.04} {'loss': 0.064, 'learning_rate': 3.997591725514277e-05, 'epoch': 20.05} {'loss': 0.0662, 'learning_rate': 3.997351857537612e-05, 'epoch': 20.05} {'loss': 0.0658, 'learning_rate': 3.997111989560946e-05, 'epoch': 20.06} {'loss': 0.065, 'learning_rate': 3.9968721215842806e-05, 'epoch': 20.06} {'loss': 0.064, 'learning_rate': 3.9966322536076145e-05, 'epoch': 20.07} {'loss': 0.0639, 'learning_rate': 3.9963923856309484e-05, 'epoch': 20.07} {'loss': 0.064, 'learning_rate': 3.996152517654283e-05, 'epoch': 20.08} {'loss': 0.0655, 'learning_rate': 3.9959126496776176e-05, 'epoch': 20.08} {'loss': 0.0643, 'learning_rate': 3.995672781700952e-05, 'epoch': 20.09} {'loss': 0.0639, 'learning_rate': 3.995432913724286e-05, 'epoch': 20.09} {'loss': 0.0657, 'learning_rate': 3.995193045747621e-05, 'epoch': 20.1} {'loss': 0.0638, 'learning_rate': 3.994953177770955e-05, 'epoch': 20.1} {'loss': 0.0649, 'learning_rate': 3.9947133097942893e-05, 'epoch': 20.11} {'loss': 0.0637, 'learning_rate': 3.994473441817624e-05, 'epoch': 20.11} {'loss': 0.0655, 'learning_rate': 3.994233573840958e-05, 'epoch': 20.12} {'loss': 0.0689, 'learning_rate': 3.9939937058642925e-05, 'epoch': 20.12} {'loss': 0.0659, 'learning_rate': 3.9937538378876264e-05, 'epoch': 20.12} {'loss': 0.0642, 'learning_rate': 3.993513969910962e-05, 'epoch': 20.13} {'loss': 0.0635, 'learning_rate': 3.9932741019342956e-05, 'epoch': 20.13} {'loss': 0.066, 'learning_rate': 3.9930342339576296e-05, 'epoch': 20.14} {'loss': 0.0625, 'learning_rate': 3.992794365980964e-05, 'epoch': 20.14} {'loss': 0.0638, 'learning_rate': 3.992554498004298e-05, 'epoch': 20.15} {'loss': 0.0618, 'learning_rate': 3.9923146300276334e-05, 'epoch': 20.15} {'loss': 0.0662, 'learning_rate': 3.992074762050967e-05, 'epoch': 20.16} {'loss': 0.066, 'learning_rate': 3.991834894074302e-05, 'epoch': 20.16} {'loss': 0.0626, 'learning_rate': 3.991595026097636e-05, 'epoch': 20.17} {'loss': 0.0645, 'learning_rate': 3.9913551581209705e-05, 'epoch': 20.17} {'loss': 0.0638, 'learning_rate': 3.991115290144305e-05, 'epoch': 20.18} {'loss': 0.065, 'learning_rate': 3.990875422167639e-05, 'epoch': 20.18} {'loss': 0.063, 'learning_rate': 3.9906355541909736e-05, 'epoch': 20.19} {'loss': 0.0625, 'learning_rate': 3.9903956862143076e-05, 'epoch': 20.19} {'loss': 0.0645, 'learning_rate': 3.990155818237642e-05, 'epoch': 20.2} {'loss': 0.0681, 'learning_rate': 3.989915950260977e-05, 'epoch': 20.2} {'loss': 0.0629, 'learning_rate': 3.989676082284311e-05, 'epoch': 20.21} {'loss': 0.0647, 'learning_rate': 3.989436214307645e-05, 'epoch': 20.21} {'loss': 0.0642, 'learning_rate': 3.989196346330979e-05, 'epoch': 20.22} {'loss': 0.0631, 'learning_rate': 3.988956478354314e-05, 'epoch': 20.22} {'loss': 0.0641, 'learning_rate': 3.9887166103776485e-05, 'epoch': 20.23} {'loss': 0.065, 'learning_rate': 3.988476742400983e-05, 'epoch': 20.23} {'loss': 0.0656, 'learning_rate': 3.988236874424317e-05, 'epoch': 20.24} {'loss': 0.063, 'learning_rate': 3.9879970064476516e-05, 'epoch': 20.24} {'loss': 0.0664, 'learning_rate': 3.9877571384709856e-05, 'epoch': 20.24} {'loss': 0.0654, 'learning_rate': 3.98751727049432e-05, 'epoch': 20.25} {'loss': 0.0633, 'learning_rate': 3.987277402517655e-05, 'epoch': 20.25} {'loss': 0.0662, 'learning_rate': 3.987037534540989e-05, 'epoch': 20.26} {'loss': 0.0629, 'learning_rate': 3.986797666564323e-05, 'epoch': 20.26} {'loss': 0.0652, 'learning_rate': 3.986557798587657e-05, 'epoch': 20.27} {'loss': 0.0647, 'learning_rate': 3.986317930610992e-05, 'epoch': 20.27} {'loss': 0.0648, 'learning_rate': 3.9860780626343265e-05, 'epoch': 20.28} {'loss': 0.0654, 'learning_rate': 3.9858381946576604e-05, 'epoch': 20.28} {'loss': 0.0693, 'learning_rate': 3.985598326680995e-05, 'epoch': 20.29} {'loss': 0.067, 'learning_rate': 3.985358458704329e-05, 'epoch': 20.29} {'loss': 0.0651, 'learning_rate': 3.985118590727664e-05, 'epoch': 20.3} {'loss': 0.0646, 'learning_rate': 3.984878722750998e-05, 'epoch': 20.3} {'loss': 0.0644, 'learning_rate': 3.984638854774332e-05, 'epoch': 20.31} {'loss': 0.0668, 'learning_rate': 3.984398986797667e-05, 'epoch': 20.31} {'loss': 0.0635, 'learning_rate': 3.9841591188210006e-05, 'epoch': 20.32} {'loss': 0.0646, 'learning_rate': 3.983919250844336e-05, 'epoch': 20.32} {'loss': 0.0641, 'learning_rate': 3.98367938286767e-05, 'epoch': 20.33} {'loss': 0.0641, 'learning_rate': 3.9834395148910044e-05, 'epoch': 20.33} {'loss': 0.062, 'learning_rate': 3.9831996469143384e-05, 'epoch': 20.34} {'loss': 0.0665, 'learning_rate': 3.982959778937673e-05, 'epoch': 20.34} {'loss': 0.0641, 'learning_rate': 3.9827199109610076e-05, 'epoch': 20.35} {'loss': 0.064, 'learning_rate': 3.9824800429843415e-05, 'epoch': 20.35} {'loss': 0.0655, 'learning_rate': 3.982240175007676e-05, 'epoch': 20.36} {'loss': 0.0655, 'learning_rate': 3.98200030703101e-05, 'epoch': 20.36} {'loss': 0.0653, 'learning_rate': 3.981760439054345e-05, 'epoch': 20.36} {'loss': 0.0662, 'learning_rate': 3.981520571077679e-05, 'epoch': 20.37} {'loss': 0.0634, 'learning_rate': 3.981280703101013e-05, 'epoch': 20.37} {'loss': 0.0615, 'learning_rate': 3.981040835124348e-05, 'epoch': 20.38} {'loss': 0.064, 'learning_rate': 3.980800967147682e-05, 'epoch': 20.38} {'loss': 0.0651, 'learning_rate': 3.9805610991710164e-05, 'epoch': 20.39} {'loss': 0.0638, 'learning_rate': 3.980321231194351e-05, 'epoch': 20.39} {'loss': 0.0623, 'learning_rate': 3.9800813632176856e-05, 'epoch': 20.4} {'loss': 0.0644, 'learning_rate': 3.9798414952410195e-05, 'epoch': 20.4} {'loss': 0.0662, 'learning_rate': 3.979601627264354e-05, 'epoch': 20.41} {'loss': 0.0642, 'learning_rate': 3.979361759287688e-05, 'epoch': 20.41} {'loss': 0.0624, 'learning_rate': 3.979121891311023e-05, 'epoch': 20.42} {'loss': 0.0647, 'learning_rate': 3.978882023334357e-05, 'epoch': 20.42} {'loss': 0.0622, 'learning_rate': 3.978642155357691e-05, 'epoch': 20.43} {'loss': 0.0638, 'learning_rate': 3.978402287381026e-05, 'epoch': 20.43} {'loss': 0.0663, 'learning_rate': 3.97816241940436e-05, 'epoch': 20.44} {'loss': 0.0641, 'learning_rate': 3.9779225514276944e-05, 'epoch': 20.44} {'loss': 0.0653, 'learning_rate': 3.977682683451029e-05, 'epoch': 20.45} {'loss': 0.0623, 'learning_rate': 3.977442815474363e-05, 'epoch': 20.45} {'loss': 0.0617, 'learning_rate': 3.9772029474976975e-05, 'epoch': 20.46} {'loss': 0.0649, 'learning_rate': 3.9769630795210314e-05, 'epoch': 20.46} {'loss': 0.0651, 'learning_rate': 3.976723211544367e-05, 'epoch': 20.47} {'loss': 0.0657, 'learning_rate': 3.9764833435677007e-05, 'epoch': 20.47} {'loss': 0.0641, 'learning_rate': 3.976243475591035e-05, 'epoch': 20.48} {'loss': 0.0628, 'learning_rate': 3.976003607614369e-05, 'epoch': 20.48} {'loss': 0.0629, 'learning_rate': 3.975763739637703e-05, 'epoch': 20.48} {'loss': 0.0683, 'learning_rate': 3.975523871661038e-05, 'epoch': 20.49} {'loss': 0.0626, 'learning_rate': 3.9752840036843724e-05, 'epoch': 20.49} {'loss': 0.064, 'learning_rate': 3.975044135707707e-05, 'epoch': 20.5} {'loss': 0.0647, 'learning_rate': 3.974804267731041e-05, 'epoch': 20.5} {'loss': 0.0628, 'learning_rate': 3.9745643997543755e-05, 'epoch': 20.51} {'loss': 0.0631, 'learning_rate': 3.9743245317777094e-05, 'epoch': 20.51} {'loss': 0.0631, 'learning_rate': 3.974084663801044e-05, 'epoch': 20.52} {'loss': 0.0647, 'learning_rate': 3.9738447958243786e-05, 'epoch': 20.52} {'loss': 0.0628, 'learning_rate': 3.9736049278477126e-05, 'epoch': 20.53} {'loss': 0.0632, 'learning_rate': 3.973365059871047e-05, 'epoch': 20.53} {'loss': 0.0651, 'learning_rate': 3.973125191894381e-05, 'epoch': 20.54} {'loss': 0.0668, 'learning_rate': 3.972885323917716e-05, 'epoch': 20.54} {'loss': 0.0663, 'learning_rate': 3.9726454559410503e-05, 'epoch': 20.55} {'loss': 0.0637, 'learning_rate': 3.972405587964384e-05, 'epoch': 20.55} {'loss': 0.0665, 'learning_rate': 3.972165719987719e-05, 'epoch': 20.56} {'loss': 0.0655, 'learning_rate': 3.971925852011053e-05, 'epoch': 20.56} {'loss': 0.064, 'learning_rate': 3.971685984034388e-05, 'epoch': 20.57} {'loss': 0.0652, 'learning_rate': 3.971446116057722e-05, 'epoch': 20.57} {'loss': 0.0634, 'learning_rate': 3.9712062480810566e-05, 'epoch': 20.58} {'loss': 0.0673, 'learning_rate': 3.9709663801043906e-05, 'epoch': 20.58} {'loss': 0.065, 'learning_rate': 3.9707265121277245e-05, 'epoch': 20.59} {'loss': 0.0637, 'learning_rate': 3.97048664415106e-05, 'epoch': 20.59} {'loss': 0.0666, 'learning_rate': 3.970246776174394e-05, 'epoch': 20.6} {'loss': 0.0652, 'learning_rate': 3.970006908197728e-05, 'epoch': 20.6} {'loss': 0.0626, 'learning_rate': 3.969767040221062e-05, 'epoch': 20.6} {'loss': 0.0633, 'learning_rate': 3.969527172244397e-05, 'epoch': 20.61} {'loss': 0.0629, 'learning_rate': 3.9692873042677315e-05, 'epoch': 20.61} {'loss': 0.0644, 'learning_rate': 3.9690474362910654e-05, 'epoch': 20.62} {'loss': 0.0644, 'learning_rate': 3.9688075683144e-05, 'epoch': 20.62} {'loss': 0.0646, 'learning_rate': 3.968567700337734e-05, 'epoch': 20.63} {'loss': 0.0624, 'learning_rate': 3.9683278323610686e-05, 'epoch': 20.63} {'loss': 0.0618, 'learning_rate': 3.968087964384403e-05, 'epoch': 20.64} {'loss': 0.0643, 'learning_rate': 3.967848096407738e-05, 'epoch': 20.64} {'loss': 0.0633, 'learning_rate': 3.967608228431072e-05, 'epoch': 20.65} {'loss': 0.0641, 'learning_rate': 3.9673683604544056e-05, 'epoch': 20.65} {'loss': 0.0628, 'learning_rate': 3.96712849247774e-05, 'epoch': 20.66} {'loss': 0.0643, 'learning_rate': 3.966888624501075e-05, 'epoch': 20.66} {'loss': 0.0626, 'learning_rate': 3.9666487565244095e-05, 'epoch': 20.67} {'loss': 0.0666, 'learning_rate': 3.9664088885477434e-05, 'epoch': 20.67} {'loss': 0.0648, 'learning_rate': 3.966169020571078e-05, 'epoch': 20.68} {'loss': 0.0648, 'learning_rate': 3.965929152594412e-05, 'epoch': 20.68} {'loss': 0.0655, 'learning_rate': 3.9656892846177466e-05, 'epoch': 20.69} {'loss': 0.0633, 'learning_rate': 3.965449416641081e-05, 'epoch': 20.69} {'loss': 0.0643, 'learning_rate': 3.965209548664415e-05, 'epoch': 20.7} {'loss': 0.0654, 'learning_rate': 3.96496968068775e-05, 'epoch': 20.7} {'loss': 0.0645, 'learning_rate': 3.9647298127110836e-05, 'epoch': 20.71} {'loss': 0.0653, 'learning_rate': 3.964489944734419e-05, 'epoch': 20.71} {'loss': 0.0626, 'learning_rate': 3.964250076757753e-05, 'epoch': 20.71} {'loss': 0.063, 'learning_rate': 3.964010208781087e-05, 'epoch': 20.72} {'loss': 0.0666, 'learning_rate': 3.9637703408044214e-05, 'epoch': 20.72} {'loss': 0.0642, 'learning_rate': 3.963530472827755e-05, 'epoch': 20.73} {'loss': 0.0648, 'learning_rate': 3.9632906048510906e-05, 'epoch': 20.73} {'loss': 0.0648, 'learning_rate': 3.9630507368744245e-05, 'epoch': 20.74} {'loss': 0.0656, 'learning_rate': 3.962810868897759e-05, 'epoch': 20.74} {'loss': 0.0653, 'learning_rate': 3.962571000921093e-05, 'epoch': 20.75} {'loss': 0.0641, 'learning_rate': 3.962331132944428e-05, 'epoch': 20.75} {'loss': 0.0655, 'learning_rate': 3.962091264967762e-05, 'epoch': 20.76} {'loss': 0.0644, 'learning_rate': 3.961851396991096e-05, 'epoch': 20.76} {'loss': 0.0637, 'learning_rate': 3.961611529014431e-05, 'epoch': 20.77} {'loss': 0.0618, 'learning_rate': 3.961371661037765e-05, 'epoch': 20.77} {'loss': 0.065, 'learning_rate': 3.9611317930610994e-05, 'epoch': 20.78} {'loss': 0.0633, 'learning_rate': 3.960891925084434e-05, 'epoch': 20.78} {'loss': 0.0624, 'learning_rate': 3.960652057107768e-05, 'epoch': 20.79} {'loss': 0.0625, 'learning_rate': 3.9604121891311025e-05, 'epoch': 20.79} {'loss': 0.0629, 'learning_rate': 3.9601723211544365e-05, 'epoch': 20.8} {'loss': 0.0658, 'learning_rate': 3.959932453177771e-05, 'epoch': 20.8} {'loss': 0.0653, 'learning_rate': 3.959692585201106e-05, 'epoch': 20.81} {'loss': 0.0622, 'learning_rate': 3.95945271722444e-05, 'epoch': 20.81} {'loss': 0.0656, 'learning_rate': 3.959212849247774e-05, 'epoch': 20.82} {'loss': 0.0626, 'learning_rate': 3.958972981271109e-05, 'epoch': 20.82} {'loss': 0.0666, 'learning_rate': 3.958733113294443e-05, 'epoch': 20.83} {'loss': 0.0632, 'learning_rate': 3.9584932453177774e-05, 'epoch': 20.83} {'loss': 0.0647, 'learning_rate': 3.958253377341112e-05, 'epoch': 20.83} {'loss': 0.0628, 'learning_rate': 3.958013509364446e-05, 'epoch': 20.84} {'loss': 0.0612, 'learning_rate': 3.9577736413877805e-05, 'epoch': 20.84} {'loss': 0.0625, 'learning_rate': 3.9575337734111145e-05, 'epoch': 20.85} {'loss': 0.0629, 'learning_rate': 3.957293905434449e-05, 'epoch': 20.85} {'loss': 0.0637, 'learning_rate': 3.957054037457784e-05, 'epoch': 20.86} {'loss': 0.0642, 'learning_rate': 3.9568141694811176e-05, 'epoch': 20.86} {'loss': 0.0599, 'learning_rate': 3.956574301504452e-05, 'epoch': 20.87} {'loss': 0.0644, 'learning_rate': 3.956334433527786e-05, 'epoch': 20.87} {'loss': 0.0644, 'learning_rate': 3.9560945655511214e-05, 'epoch': 20.88} {'loss': 0.0623, 'learning_rate': 3.9558546975744554e-05, 'epoch': 20.88} {'loss': 0.0633, 'learning_rate': 3.955614829597789e-05, 'epoch': 20.89} {'loss': 0.0629, 'learning_rate': 3.955374961621124e-05, 'epoch': 20.89} {'loss': 0.0631, 'learning_rate': 3.955135093644458e-05, 'epoch': 20.9} {'loss': 0.0645, 'learning_rate': 3.954895225667793e-05, 'epoch': 20.9} {'loss': 0.0622, 'learning_rate': 3.954655357691127e-05, 'epoch': 20.91} {'loss': 0.0661, 'learning_rate': 3.9544154897144617e-05, 'epoch': 20.91} {'loss': 0.0644, 'learning_rate': 3.9541756217377956e-05, 'epoch': 20.92} {'loss': 0.0641, 'learning_rate': 3.95393575376113e-05, 'epoch': 20.92} {'loss': 0.0664, 'learning_rate': 3.953695885784464e-05, 'epoch': 20.93} {'loss': 0.0631, 'learning_rate': 3.953456017807799e-05, 'epoch': 20.93} {'loss': 0.0636, 'learning_rate': 3.9532161498311334e-05, 'epoch': 20.94} {'loss': 0.0635, 'learning_rate': 3.952976281854467e-05, 'epoch': 20.94} {'loss': 0.0676, 'learning_rate': 3.952736413877802e-05, 'epoch': 20.95} {'loss': 0.0627, 'learning_rate': 3.952496545901136e-05, 'epoch': 20.95} {'loss': 0.0637, 'learning_rate': 3.9522566779244704e-05, 'epoch': 20.95} {'loss': 0.0633, 'learning_rate': 3.952016809947805e-05, 'epoch': 20.96} {'loss': 0.0639, 'learning_rate': 3.951776941971139e-05, 'epoch': 20.96} {'loss': 0.0611, 'learning_rate': 3.9515370739944736e-05, 'epoch': 20.97} {'loss': 0.0653, 'learning_rate': 3.9512972060178075e-05, 'epoch': 20.97} {'loss': 0.0627, 'learning_rate': 3.951057338041143e-05, 'epoch': 20.98} {'loss': 0.0655, 'learning_rate': 3.950817470064477e-05, 'epoch': 20.98} {'loss': 0.0621, 'learning_rate': 3.9505776020878113e-05, 'epoch': 20.99} {'loss': 0.0657, 'learning_rate': 3.950337734111145e-05, 'epoch': 20.99} {'loss': 0.0628, 'learning_rate': 3.950097866134479e-05, 'epoch': 21.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.058271512389183044, 'eval_runtime': 519.9944, 'eval_samples_per_second': 801.73, 'eval_steps_per_second': 100.216, 'epoch': 21.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-2188704 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-2188704/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-2188704/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-2084480] due to args.save_total_limit {'loss': 0.0643, 'learning_rate': 3.9498579981578145e-05, 'epoch': 21.0} {'loss': 0.0618, 'learning_rate': 3.9496181301811484e-05, 'epoch': 21.01} {'loss': 0.0624, 'learning_rate': 3.949378262204483e-05, 'epoch': 21.01} {'loss': 0.0641, 'learning_rate': 3.949138394227817e-05, 'epoch': 21.02} {'loss': 0.066, 'learning_rate': 3.9488985262511516e-05, 'epoch': 21.02} {'loss': 0.0622, 'learning_rate': 3.948658658274486e-05, 'epoch': 21.03} {'loss': 0.0619, 'learning_rate': 3.94841879029782e-05, 'epoch': 21.03} {'loss': 0.0641, 'learning_rate': 3.948178922321155e-05, 'epoch': 21.04} {'loss': 0.0669, 'learning_rate': 3.9479390543444887e-05, 'epoch': 21.04} {'loss': 0.0642, 'learning_rate': 3.947699186367823e-05, 'epoch': 21.05} {'loss': 0.0619, 'learning_rate': 3.947459318391158e-05, 'epoch': 21.05} {'loss': 0.0628, 'learning_rate': 3.9472194504144925e-05, 'epoch': 21.06} {'loss': 0.0638, 'learning_rate': 3.9469795824378264e-05, 'epoch': 21.06} {'loss': 0.0628, 'learning_rate': 3.9467397144611603e-05, 'epoch': 21.07} {'loss': 0.0643, 'learning_rate': 3.946499846484495e-05, 'epoch': 21.07} {'loss': 0.0623, 'learning_rate': 3.9462599785078296e-05, 'epoch': 21.07} {'loss': 0.0659, 'learning_rate': 3.946020110531164e-05, 'epoch': 21.08} {'loss': 0.0623, 'learning_rate': 3.945780242554498e-05, 'epoch': 21.08} {'loss': 0.0594, 'learning_rate': 3.945540374577833e-05, 'epoch': 21.09} {'loss': 0.0621, 'learning_rate': 3.9453005066011666e-05, 'epoch': 21.09} {'loss': 0.0638, 'learning_rate': 3.945060638624501e-05, 'epoch': 21.1} {'loss': 0.0612, 'learning_rate': 3.944820770647836e-05, 'epoch': 21.1} {'loss': 0.0632, 'learning_rate': 3.94458090267117e-05, 'epoch': 21.11} {'loss': 0.065, 'learning_rate': 3.9443410346945044e-05, 'epoch': 21.11} {'loss': 0.0627, 'learning_rate': 3.944101166717838e-05, 'epoch': 21.12} {'loss': 0.0613, 'learning_rate': 3.943861298741173e-05, 'epoch': 21.12} {'loss': 0.0637, 'learning_rate': 3.9436214307645076e-05, 'epoch': 21.13} {'loss': 0.0616, 'learning_rate': 3.9433815627878415e-05, 'epoch': 21.13} {'loss': 0.0638, 'learning_rate': 3.943141694811176e-05, 'epoch': 21.14} {'loss': 0.0633, 'learning_rate': 3.94290182683451e-05, 'epoch': 21.14} {'loss': 0.0638, 'learning_rate': 3.942661958857845e-05, 'epoch': 21.15} {'loss': 0.0622, 'learning_rate': 3.942422090881179e-05, 'epoch': 21.15} {'loss': 0.0637, 'learning_rate': 3.942182222904514e-05, 'epoch': 21.16} {'loss': 0.0639, 'learning_rate': 3.941942354927848e-05, 'epoch': 21.16} {'loss': 0.0613, 'learning_rate': 3.941702486951182e-05, 'epoch': 21.17} {'loss': 0.0659, 'learning_rate': 3.941462618974517e-05, 'epoch': 21.17} {'loss': 0.0635, 'learning_rate': 3.941222750997851e-05, 'epoch': 21.18} {'loss': 0.0665, 'learning_rate': 3.9409828830211855e-05, 'epoch': 21.18} {'loss': 0.0645, 'learning_rate': 3.9407430150445195e-05, 'epoch': 21.19} {'loss': 0.0659, 'learning_rate': 3.940503147067854e-05, 'epoch': 21.19} {'loss': 0.0644, 'learning_rate': 3.940263279091189e-05, 'epoch': 21.19} {'loss': 0.0638, 'learning_rate': 3.9400234111145226e-05, 'epoch': 21.2} {'loss': 0.0643, 'learning_rate': 3.939783543137857e-05, 'epoch': 21.2} {'loss': 0.0618, 'learning_rate': 3.939543675161191e-05, 'epoch': 21.21} {'loss': 0.0615, 'learning_rate': 3.939303807184526e-05, 'epoch': 21.21} {'loss': 0.0657, 'learning_rate': 3.9390639392078604e-05, 'epoch': 21.22} {'loss': 0.0637, 'learning_rate': 3.938824071231195e-05, 'epoch': 21.22} {'loss': 0.0635, 'learning_rate': 3.938584203254529e-05, 'epoch': 21.23} {'loss': 0.0624, 'learning_rate': 3.938344335277863e-05, 'epoch': 21.23} {'loss': 0.062, 'learning_rate': 3.9381044673011975e-05, 'epoch': 21.24} {'loss': 0.0635, 'learning_rate': 3.937864599324532e-05, 'epoch': 21.24} {'loss': 0.0639, 'learning_rate': 3.937624731347867e-05, 'epoch': 21.25} {'loss': 0.063, 'learning_rate': 3.9373848633712006e-05, 'epoch': 21.25} {'loss': 0.0648, 'learning_rate': 3.937144995394535e-05, 'epoch': 21.26} {'loss': 0.0655, 'learning_rate': 3.936905127417869e-05, 'epoch': 21.26} {'loss': 0.0617, 'learning_rate': 3.936665259441204e-05, 'epoch': 21.27} {'loss': 0.0645, 'learning_rate': 3.9364253914645384e-05, 'epoch': 21.27} {'loss': 0.0644, 'learning_rate': 3.936185523487872e-05, 'epoch': 21.28} {'loss': 0.0643, 'learning_rate': 3.935945655511207e-05, 'epoch': 21.28} {'loss': 0.0631, 'learning_rate': 3.935705787534541e-05, 'epoch': 21.29} {'loss': 0.0619, 'learning_rate': 3.935465919557876e-05, 'epoch': 21.29} {'loss': 0.0631, 'learning_rate': 3.93522605158121e-05, 'epoch': 21.3} {'loss': 0.0629, 'learning_rate': 3.934986183604544e-05, 'epoch': 21.3} {'loss': 0.0632, 'learning_rate': 3.9347463156278786e-05, 'epoch': 21.31} {'loss': 0.0644, 'learning_rate': 3.9345064476512125e-05, 'epoch': 21.31} {'loss': 0.0627, 'learning_rate': 3.934266579674548e-05, 'epoch': 21.31} {'loss': 0.0618, 'learning_rate': 3.934026711697882e-05, 'epoch': 21.32} {'loss': 0.0618, 'learning_rate': 3.9337868437212164e-05, 'epoch': 21.32} {'loss': 0.0639, 'learning_rate': 3.93354697574455e-05, 'epoch': 21.33} {'loss': 0.062, 'learning_rate': 3.933307107767885e-05, 'epoch': 21.33} {'loss': 0.0622, 'learning_rate': 3.933067239791219e-05, 'epoch': 21.34} {'loss': 0.0649, 'learning_rate': 3.9328273718145534e-05, 'epoch': 21.34} {'loss': 0.0642, 'learning_rate': 3.932587503837888e-05, 'epoch': 21.35} {'loss': 0.0629, 'learning_rate': 3.932347635861222e-05, 'epoch': 21.35} {'loss': 0.0617, 'learning_rate': 3.9321077678845566e-05, 'epoch': 21.36} {'loss': 0.0617, 'learning_rate': 3.9318678999078905e-05, 'epoch': 21.36} {'loss': 0.0638, 'learning_rate': 3.931628031931225e-05, 'epoch': 21.37} {'loss': 0.0611, 'learning_rate': 3.93138816395456e-05, 'epoch': 21.37} {'loss': 0.0616, 'learning_rate': 3.931148295977894e-05, 'epoch': 21.38} {'loss': 0.0632, 'learning_rate': 3.930908428001228e-05, 'epoch': 21.38} {'loss': 0.0618, 'learning_rate': 3.930668560024562e-05, 'epoch': 21.39} {'loss': 0.0625, 'learning_rate': 3.9304286920478975e-05, 'epoch': 21.39} {'loss': 0.0639, 'learning_rate': 3.9301888240712314e-05, 'epoch': 21.4} {'loss': 0.0629, 'learning_rate': 3.929948956094566e-05, 'epoch': 21.4} {'loss': 0.067, 'learning_rate': 3.9297090881179e-05, 'epoch': 21.41} {'loss': 0.064, 'learning_rate': 3.929469220141234e-05, 'epoch': 21.41} {'loss': 0.0611, 'learning_rate': 3.929229352164569e-05, 'epoch': 21.42} {'loss': 0.0653, 'learning_rate': 3.928989484187903e-05, 'epoch': 21.42} {'loss': 0.0633, 'learning_rate': 3.928749616211238e-05, 'epoch': 21.43} {'loss': 0.0631, 'learning_rate': 3.928509748234572e-05, 'epoch': 21.43} {'loss': 0.0642, 'learning_rate': 3.928269880257906e-05, 'epoch': 21.43} {'loss': 0.0631, 'learning_rate': 3.928030012281241e-05, 'epoch': 21.44} {'loss': 0.0624, 'learning_rate': 3.927790144304575e-05, 'epoch': 21.44} {'loss': 0.0636, 'learning_rate': 3.9275502763279094e-05, 'epoch': 21.45} {'loss': 0.0633, 'learning_rate': 3.9273104083512434e-05, 'epoch': 21.45} {'loss': 0.0631, 'learning_rate': 3.927070540374578e-05, 'epoch': 21.46} {'loss': 0.0659, 'learning_rate': 3.9268306723979126e-05, 'epoch': 21.46} {'loss': 0.063, 'learning_rate': 3.9265908044212465e-05, 'epoch': 21.47} {'loss': 0.063, 'learning_rate': 3.926350936444581e-05, 'epoch': 21.47} {'loss': 0.0626, 'learning_rate': 3.926111068467915e-05, 'epoch': 21.48} {'loss': 0.0635, 'learning_rate': 3.9258712004912497e-05, 'epoch': 21.48} {'loss': 0.0656, 'learning_rate': 3.925631332514584e-05, 'epoch': 21.49} {'loss': 0.0635, 'learning_rate': 3.925391464537919e-05, 'epoch': 21.49} {'loss': 0.0636, 'learning_rate': 3.925151596561253e-05, 'epoch': 21.5} {'loss': 0.0626, 'learning_rate': 3.9249117285845874e-05, 'epoch': 21.5} {'loss': 0.0633, 'learning_rate': 3.9246718606079213e-05, 'epoch': 21.51} {'loss': 0.061, 'learning_rate': 3.924431992631256e-05, 'epoch': 21.51} {'loss': 0.0615, 'learning_rate': 3.9241921246545906e-05, 'epoch': 21.52} {'loss': 0.0629, 'learning_rate': 3.9239522566779245e-05, 'epoch': 21.52} {'loss': 0.0628, 'learning_rate': 3.923712388701259e-05, 'epoch': 21.53} {'loss': 0.0623, 'learning_rate': 3.923472520724593e-05, 'epoch': 21.53} {'loss': 0.0625, 'learning_rate': 3.9232326527479276e-05, 'epoch': 21.54} {'loss': 0.063, 'learning_rate': 3.922992784771262e-05, 'epoch': 21.54} {'loss': 0.0657, 'learning_rate': 3.922752916794596e-05, 'epoch': 21.54} {'loss': 0.0616, 'learning_rate': 3.922513048817931e-05, 'epoch': 21.55} {'loss': 0.0635, 'learning_rate': 3.922273180841265e-05, 'epoch': 21.55} {'loss': 0.0624, 'learning_rate': 3.9220333128646e-05, 'epoch': 21.56} {'loss': 0.0632, 'learning_rate': 3.921793444887934e-05, 'epoch': 21.56} {'loss': 0.0638, 'learning_rate': 3.9215535769112686e-05, 'epoch': 21.57} {'loss': 0.0622, 'learning_rate': 3.9213137089346025e-05, 'epoch': 21.57} {'loss': 0.0638, 'learning_rate': 3.9210738409579364e-05, 'epoch': 21.58} {'loss': 0.0618, 'learning_rate': 3.920833972981272e-05, 'epoch': 21.58} {'loss': 0.0611, 'learning_rate': 3.9205941050046056e-05, 'epoch': 21.59} {'loss': 0.063, 'learning_rate': 3.92035423702794e-05, 'epoch': 21.59} {'loss': 0.0616, 'learning_rate': 3.920114369051274e-05, 'epoch': 21.6} {'loss': 0.062, 'learning_rate': 3.919874501074609e-05, 'epoch': 21.6} {'loss': 0.0623, 'learning_rate': 3.9196346330979434e-05, 'epoch': 21.61} {'loss': 0.0672, 'learning_rate': 3.919394765121277e-05, 'epoch': 21.61} {'loss': 0.0623, 'learning_rate': 3.919154897144612e-05, 'epoch': 21.62} {'loss': 0.0637, 'learning_rate': 3.918915029167946e-05, 'epoch': 21.62} {'loss': 0.0643, 'learning_rate': 3.9186751611912805e-05, 'epoch': 21.63} {'loss': 0.0621, 'learning_rate': 3.918435293214615e-05, 'epoch': 21.63} {'loss': 0.0636, 'learning_rate': 3.91819542523795e-05, 'epoch': 21.64} {'loss': 0.0627, 'learning_rate': 3.9179555572612836e-05, 'epoch': 21.64} {'loss': 0.0634, 'learning_rate': 3.9177156892846176e-05, 'epoch': 21.65} {'loss': 0.0633, 'learning_rate': 3.917475821307952e-05, 'epoch': 21.65} {'loss': 0.0635, 'learning_rate': 3.917235953331287e-05, 'epoch': 21.66} {'loss': 0.0611, 'learning_rate': 3.9169960853546214e-05, 'epoch': 21.66} {'loss': 0.0645, 'learning_rate': 3.916756217377955e-05, 'epoch': 21.66} {'loss': 0.0637, 'learning_rate': 3.91651634940129e-05, 'epoch': 21.67} {'loss': 0.062, 'learning_rate': 3.916276481424624e-05, 'epoch': 21.67} {'loss': 0.0627, 'learning_rate': 3.9160366134479585e-05, 'epoch': 21.68} {'loss': 0.0636, 'learning_rate': 3.915796745471293e-05, 'epoch': 21.68} {'loss': 0.0621, 'learning_rate': 3.915556877494627e-05, 'epoch': 21.69} {'loss': 0.0638, 'learning_rate': 3.9153170095179616e-05, 'epoch': 21.69} {'loss': 0.0641, 'learning_rate': 3.9150771415412955e-05, 'epoch': 21.7} {'loss': 0.0637, 'learning_rate': 3.91483727356463e-05, 'epoch': 21.7} {'loss': 0.0627, 'learning_rate': 3.914597405587965e-05, 'epoch': 21.71} {'loss': 0.0626, 'learning_rate': 3.914357537611299e-05, 'epoch': 21.71} {'loss': 0.061, 'learning_rate': 3.914117669634633e-05, 'epoch': 21.72} {'loss': 0.0644, 'learning_rate': 3.913877801657967e-05, 'epoch': 21.72} {'loss': 0.0629, 'learning_rate': 3.9136379336813025e-05, 'epoch': 21.73} {'loss': 0.0607, 'learning_rate': 3.9133980657046365e-05, 'epoch': 21.73} {'loss': 0.0616, 'learning_rate': 3.913158197727971e-05, 'epoch': 21.74} {'loss': 0.063, 'learning_rate': 3.912918329751305e-05, 'epoch': 21.74} {'loss': 0.0648, 'learning_rate': 3.912678461774639e-05, 'epoch': 21.75} {'loss': 0.0624, 'learning_rate': 3.9124385937979735e-05, 'epoch': 21.75} {'loss': 0.0647, 'learning_rate': 3.912198725821308e-05, 'epoch': 21.76} {'loss': 0.0642, 'learning_rate': 3.911958857844643e-05, 'epoch': 21.76} {'loss': 0.064, 'learning_rate': 3.911718989867977e-05, 'epoch': 21.77} {'loss': 0.0637, 'learning_rate': 3.911479121891311e-05, 'epoch': 21.77} {'loss': 0.0637, 'learning_rate': 3.911239253914645e-05, 'epoch': 21.78} {'loss': 0.0646, 'learning_rate': 3.91099938593798e-05, 'epoch': 21.78} {'loss': 0.0637, 'learning_rate': 3.9107595179613144e-05, 'epoch': 21.78} {'loss': 0.0608, 'learning_rate': 3.9105196499846484e-05, 'epoch': 21.79} {'loss': 0.0623, 'learning_rate': 3.910279782007983e-05, 'epoch': 21.79} {'loss': 0.0626, 'learning_rate': 3.910039914031317e-05, 'epoch': 21.8} {'loss': 0.0642, 'learning_rate': 3.909800046054652e-05, 'epoch': 21.8} {'loss': 0.0651, 'learning_rate': 3.909560178077986e-05, 'epoch': 21.81} {'loss': 0.0629, 'learning_rate': 3.90932031010132e-05, 'epoch': 21.81} {'loss': 0.0632, 'learning_rate': 3.909080442124655e-05, 'epoch': 21.82} {'loss': 0.0657, 'learning_rate': 3.9088405741479886e-05, 'epoch': 21.82} {'loss': 0.0638, 'learning_rate': 3.908600706171324e-05, 'epoch': 21.83} {'loss': 0.0623, 'learning_rate': 3.908360838194658e-05, 'epoch': 21.83} {'loss': 0.0622, 'learning_rate': 3.9081209702179924e-05, 'epoch': 21.84} {'loss': 0.0638, 'learning_rate': 3.9078811022413264e-05, 'epoch': 21.84} {'loss': 0.0617, 'learning_rate': 3.907641234264661e-05, 'epoch': 21.85} {'loss': 0.0636, 'learning_rate': 3.9074013662879956e-05, 'epoch': 21.85} {'loss': 0.0615, 'learning_rate': 3.9071614983113295e-05, 'epoch': 21.86} {'loss': 0.063, 'learning_rate': 3.906921630334664e-05, 'epoch': 21.86} {'loss': 0.0605, 'learning_rate': 3.906681762357998e-05, 'epoch': 21.87} {'loss': 0.0672, 'learning_rate': 3.906441894381333e-05, 'epoch': 21.87} {'loss': 0.0629, 'learning_rate': 3.906202026404667e-05, 'epoch': 21.88} {'loss': 0.064, 'learning_rate': 3.905962158428001e-05, 'epoch': 21.88} {'loss': 0.0643, 'learning_rate': 3.905722290451336e-05, 'epoch': 21.89} {'loss': 0.0657, 'learning_rate': 3.90548242247467e-05, 'epoch': 21.89} {'loss': 0.0608, 'learning_rate': 3.9052425544980044e-05, 'epoch': 21.9} {'loss': 0.0605, 'learning_rate': 3.905002686521339e-05, 'epoch': 21.9} {'loss': 0.0606, 'learning_rate': 3.9047628185446736e-05, 'epoch': 21.9} {'loss': 0.064, 'learning_rate': 3.9045229505680075e-05, 'epoch': 21.91} {'loss': 0.0623, 'learning_rate': 3.904283082591342e-05, 'epoch': 21.91} {'loss': 0.0636, 'learning_rate': 3.904043214614676e-05, 'epoch': 21.92} {'loss': 0.0627, 'learning_rate': 3.9038033466380107e-05, 'epoch': 21.92} {'loss': 0.0622, 'learning_rate': 3.903563478661345e-05, 'epoch': 21.93} {'loss': 0.0619, 'learning_rate': 3.903323610684679e-05, 'epoch': 21.93} {'loss': 0.0628, 'learning_rate': 3.903083742708014e-05, 'epoch': 21.94} {'loss': 0.0658, 'learning_rate': 3.902843874731348e-05, 'epoch': 21.94} {'loss': 0.0624, 'learning_rate': 3.9026040067546823e-05, 'epoch': 21.95} {'loss': 0.0629, 'learning_rate': 3.902364138778017e-05, 'epoch': 21.95} {'loss': 0.0606, 'learning_rate': 3.902124270801351e-05, 'epoch': 21.96} {'loss': 0.0626, 'learning_rate': 3.9018844028246855e-05, 'epoch': 21.96} {'loss': 0.0641, 'learning_rate': 3.9016445348480194e-05, 'epoch': 21.97} {'loss': 0.0614, 'learning_rate': 3.901404666871355e-05, 'epoch': 21.97} {'loss': 0.0637, 'learning_rate': 3.9011647988946886e-05, 'epoch': 21.98} {'loss': 0.0626, 'learning_rate': 3.9009249309180226e-05, 'epoch': 21.98} {'loss': 0.0638, 'learning_rate': 3.900685062941357e-05, 'epoch': 21.99} {'loss': 0.0654, 'learning_rate': 3.900445194964691e-05, 'epoch': 21.99} {'loss': 0.0602, 'learning_rate': 3.9002053269880264e-05, 'epoch': 22.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.05728093907237053, 'eval_runtime': 517.637, 'eval_samples_per_second': 805.381, 'eval_steps_per_second': 100.673, 'epoch': 22.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-2292928 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-2292928/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-2292928/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-2188704] due to args.save_total_limit {'loss': 0.0639, 'learning_rate': 3.89996545901136e-05, 'epoch': 22.0} {'loss': 0.0621, 'learning_rate': 3.899725591034695e-05, 'epoch': 22.01} {'loss': 0.0615, 'learning_rate': 3.899485723058029e-05, 'epoch': 22.01} {'loss': 0.0661, 'learning_rate': 3.8992458550813635e-05, 'epoch': 22.02} {'loss': 0.0659, 'learning_rate': 3.899005987104698e-05, 'epoch': 22.02} {'loss': 0.0615, 'learning_rate': 3.898766119128032e-05, 'epoch': 22.02} {'loss': 0.0631, 'learning_rate': 3.8985262511513666e-05, 'epoch': 22.03} {'loss': 0.0607, 'learning_rate': 3.8982863831747006e-05, 'epoch': 22.03} {'loss': 0.0616, 'learning_rate': 3.898046515198035e-05, 'epoch': 22.04} {'loss': 0.0636, 'learning_rate': 3.89780664722137e-05, 'epoch': 22.04} {'loss': 0.0595, 'learning_rate': 3.897566779244704e-05, 'epoch': 22.05} {'loss': 0.0641, 'learning_rate': 3.897326911268038e-05, 'epoch': 22.05} {'loss': 0.0602, 'learning_rate': 3.897087043291372e-05, 'epoch': 22.06} {'loss': 0.0621, 'learning_rate': 3.896847175314707e-05, 'epoch': 22.06} {'loss': 0.0622, 'learning_rate': 3.8966073073380415e-05, 'epoch': 22.07} {'loss': 0.0617, 'learning_rate': 3.896367439361376e-05, 'epoch': 22.07} {'loss': 0.0631, 'learning_rate': 3.89612757138471e-05, 'epoch': 22.08} {'loss': 0.0607, 'learning_rate': 3.8958877034080446e-05, 'epoch': 22.08} {'loss': 0.0611, 'learning_rate': 3.8956478354313786e-05, 'epoch': 22.09} {'loss': 0.0654, 'learning_rate': 3.895407967454713e-05, 'epoch': 22.09} {'loss': 0.0644, 'learning_rate': 3.895168099478048e-05, 'epoch': 22.1} {'loss': 0.0649, 'learning_rate': 3.894928231501382e-05, 'epoch': 22.1} {'loss': 0.0612, 'learning_rate': 3.894688363524716e-05, 'epoch': 22.11} {'loss': 0.0632, 'learning_rate': 3.89444849554805e-05, 'epoch': 22.11} {'loss': 0.0603, 'learning_rate': 3.894208627571385e-05, 'epoch': 22.12} {'loss': 0.0623, 'learning_rate': 3.8939687595947195e-05, 'epoch': 22.12} {'loss': 0.0615, 'learning_rate': 3.8937288916180534e-05, 'epoch': 22.13} {'loss': 0.0599, 'learning_rate': 3.893489023641388e-05, 'epoch': 22.13} {'loss': 0.063, 'learning_rate': 3.893249155664722e-05, 'epoch': 22.14} {'loss': 0.0609, 'learning_rate': 3.893009287688057e-05, 'epoch': 22.14} {'loss': 0.0617, 'learning_rate': 3.892769419711391e-05, 'epoch': 22.14} {'loss': 0.0633, 'learning_rate': 3.892529551734726e-05, 'epoch': 22.15} {'loss': 0.065, 'learning_rate': 3.89228968375806e-05, 'epoch': 22.15} {'loss': 0.0625, 'learning_rate': 3.8920498157813936e-05, 'epoch': 22.16} {'loss': 0.0632, 'learning_rate': 3.891809947804729e-05, 'epoch': 22.16} {'loss': 0.062, 'learning_rate': 3.891570079828063e-05, 'epoch': 22.17} {'loss': 0.0664, 'learning_rate': 3.8913302118513975e-05, 'epoch': 22.17} {'loss': 0.0636, 'learning_rate': 3.8910903438747314e-05, 'epoch': 22.18} {'loss': 0.0627, 'learning_rate': 3.890850475898066e-05, 'epoch': 22.18} {'loss': 0.0626, 'learning_rate': 3.8906106079214e-05, 'epoch': 22.19} {'loss': 0.0619, 'learning_rate': 3.8903707399447345e-05, 'epoch': 22.19} {'loss': 0.0635, 'learning_rate': 3.890130871968069e-05, 'epoch': 22.2} {'loss': 0.0589, 'learning_rate': 3.889891003991403e-05, 'epoch': 22.2} {'loss': 0.0626, 'learning_rate': 3.889651136014738e-05, 'epoch': 22.21} {'loss': 0.063, 'learning_rate': 3.8894112680380716e-05, 'epoch': 22.21} {'loss': 0.0632, 'learning_rate': 3.889171400061407e-05, 'epoch': 22.22} {'loss': 0.064, 'learning_rate': 3.888931532084741e-05, 'epoch': 22.22} {'loss': 0.0619, 'learning_rate': 3.888691664108075e-05, 'epoch': 22.23} {'loss': 0.0616, 'learning_rate': 3.8884517961314094e-05, 'epoch': 22.23} {'loss': 0.0634, 'learning_rate': 3.888211928154743e-05, 'epoch': 22.24} {'loss': 0.0624, 'learning_rate': 3.8879720601780786e-05, 'epoch': 22.24} {'loss': 0.0634, 'learning_rate': 3.8877321922014125e-05, 'epoch': 22.25} {'loss': 0.0619, 'learning_rate': 3.887492324224747e-05, 'epoch': 22.25} {'loss': 0.0637, 'learning_rate': 3.887252456248081e-05, 'epoch': 22.25} {'loss': 0.0627, 'learning_rate': 3.887012588271416e-05, 'epoch': 22.26} {'loss': 0.0614, 'learning_rate': 3.88677272029475e-05, 'epoch': 22.26} {'loss': 0.0622, 'learning_rate': 3.886532852318084e-05, 'epoch': 22.27} {'loss': 0.0631, 'learning_rate': 3.886292984341419e-05, 'epoch': 22.27} {'loss': 0.062, 'learning_rate': 3.886053116364753e-05, 'epoch': 22.28} {'loss': 0.0648, 'learning_rate': 3.8858132483880874e-05, 'epoch': 22.28} {'loss': 0.0618, 'learning_rate': 3.885573380411422e-05, 'epoch': 22.29} {'loss': 0.0637, 'learning_rate': 3.885333512434756e-05, 'epoch': 22.29} {'loss': 0.0628, 'learning_rate': 3.8850936444580905e-05, 'epoch': 22.3} {'loss': 0.0633, 'learning_rate': 3.8848537764814244e-05, 'epoch': 22.3} {'loss': 0.0623, 'learning_rate': 3.884613908504759e-05, 'epoch': 22.31} {'loss': 0.0621, 'learning_rate': 3.884374040528094e-05, 'epoch': 22.31} {'loss': 0.0615, 'learning_rate': 3.884134172551428e-05, 'epoch': 22.32} {'loss': 0.0633, 'learning_rate': 3.883894304574762e-05, 'epoch': 22.32} {'loss': 0.0646, 'learning_rate': 3.883654436598096e-05, 'epoch': 22.33} {'loss': 0.0615, 'learning_rate': 3.883414568621431e-05, 'epoch': 22.33} {'loss': 0.0625, 'learning_rate': 3.8831747006447654e-05, 'epoch': 22.34} {'loss': 0.0623, 'learning_rate': 3.8829348326681e-05, 'epoch': 22.34} {'loss': 0.0594, 'learning_rate': 3.882694964691434e-05, 'epoch': 22.35} {'loss': 0.0653, 'learning_rate': 3.8824550967147685e-05, 'epoch': 22.35} {'loss': 0.0608, 'learning_rate': 3.8822152287381024e-05, 'epoch': 22.36} {'loss': 0.0646, 'learning_rate': 3.881975360761437e-05, 'epoch': 22.36} {'loss': 0.0623, 'learning_rate': 3.8817354927847717e-05, 'epoch': 22.37} {'loss': 0.0656, 'learning_rate': 3.8814956248081056e-05, 'epoch': 22.37} {'loss': 0.0649, 'learning_rate': 3.88125575683144e-05, 'epoch': 22.37} {'loss': 0.0634, 'learning_rate': 3.881015888854774e-05, 'epoch': 22.38} {'loss': 0.0633, 'learning_rate': 3.8807760208781094e-05, 'epoch': 22.38} {'loss': 0.0636, 'learning_rate': 3.8805361529014433e-05, 'epoch': 22.39} {'loss': 0.0651, 'learning_rate': 3.880296284924777e-05, 'epoch': 22.39} {'loss': 0.062, 'learning_rate': 3.880056416948112e-05, 'epoch': 22.4} {'loss': 0.0617, 'learning_rate': 3.879816548971446e-05, 'epoch': 22.4} {'loss': 0.0603, 'learning_rate': 3.879576680994781e-05, 'epoch': 22.41} {'loss': 0.0609, 'learning_rate': 3.879336813018115e-05, 'epoch': 22.41} {'loss': 0.0635, 'learning_rate': 3.8790969450414496e-05, 'epoch': 22.42} {'loss': 0.0631, 'learning_rate': 3.8788570770647836e-05, 'epoch': 22.42} {'loss': 0.0641, 'learning_rate': 3.878617209088118e-05, 'epoch': 22.43} {'loss': 0.0637, 'learning_rate': 3.878377341111453e-05, 'epoch': 22.43} {'loss': 0.0619, 'learning_rate': 3.878137473134787e-05, 'epoch': 22.44} {'loss': 0.0608, 'learning_rate': 3.877897605158121e-05, 'epoch': 22.44} {'loss': 0.063, 'learning_rate': 3.877657737181455e-05, 'epoch': 22.45} {'loss': 0.0632, 'learning_rate': 3.87741786920479e-05, 'epoch': 22.45} {'loss': 0.0617, 'learning_rate': 3.8771780012281245e-05, 'epoch': 22.46} {'loss': 0.0633, 'learning_rate': 3.8769381332514584e-05, 'epoch': 22.46} {'loss': 0.0641, 'learning_rate': 3.876698265274793e-05, 'epoch': 22.47} {'loss': 0.0628, 'learning_rate': 3.876458397298127e-05, 'epoch': 22.47} {'loss': 0.0616, 'learning_rate': 3.8762185293214616e-05, 'epoch': 22.48} {'loss': 0.0628, 'learning_rate': 3.875978661344796e-05, 'epoch': 22.48} {'loss': 0.063, 'learning_rate': 3.875738793368131e-05, 'epoch': 22.49} {'loss': 0.0608, 'learning_rate': 3.875498925391465e-05, 'epoch': 22.49} {'loss': 0.0616, 'learning_rate': 3.875259057414799e-05, 'epoch': 22.49} {'loss': 0.0662, 'learning_rate': 3.875019189438133e-05, 'epoch': 22.5} {'loss': 0.0612, 'learning_rate': 3.874779321461468e-05, 'epoch': 22.5} {'loss': 0.0606, 'learning_rate': 3.8745394534848025e-05, 'epoch': 22.51} {'loss': 0.0617, 'learning_rate': 3.8742995855081364e-05, 'epoch': 22.51} {'loss': 0.0633, 'learning_rate': 3.874059717531471e-05, 'epoch': 22.52} {'loss': 0.0631, 'learning_rate': 3.873819849554805e-05, 'epoch': 22.52} {'loss': 0.0613, 'learning_rate': 3.8735799815781396e-05, 'epoch': 22.53} {'loss': 0.0609, 'learning_rate': 3.873340113601474e-05, 'epoch': 22.53} {'loss': 0.061, 'learning_rate': 3.873100245624808e-05, 'epoch': 22.54} {'loss': 0.0632, 'learning_rate': 3.872860377648143e-05, 'epoch': 22.54} {'loss': 0.0626, 'learning_rate': 3.8726205096714766e-05, 'epoch': 22.55} {'loss': 0.0613, 'learning_rate': 3.872380641694812e-05, 'epoch': 22.55} {'loss': 0.063, 'learning_rate': 3.872140773718146e-05, 'epoch': 22.56} {'loss': 0.0639, 'learning_rate': 3.87190090574148e-05, 'epoch': 22.56} {'loss': 0.0584, 'learning_rate': 3.8716610377648144e-05, 'epoch': 22.57} {'loss': 0.0636, 'learning_rate': 3.871421169788148e-05, 'epoch': 22.57} {'loss': 0.0634, 'learning_rate': 3.8711813018114836e-05, 'epoch': 22.58} {'loss': 0.0629, 'learning_rate': 3.8709414338348175e-05, 'epoch': 22.58} {'loss': 0.0651, 'learning_rate': 3.870701565858152e-05, 'epoch': 22.59} {'loss': 0.0629, 'learning_rate': 3.870461697881486e-05, 'epoch': 22.59} {'loss': 0.0615, 'learning_rate': 3.870221829904821e-05, 'epoch': 22.6} {'loss': 0.0604, 'learning_rate': 3.8699819619281546e-05, 'epoch': 22.6} {'loss': 0.0638, 'learning_rate': 3.869742093951489e-05, 'epoch': 22.61} {'loss': 0.0618, 'learning_rate': 3.869502225974824e-05, 'epoch': 22.61} {'loss': 0.0597, 'learning_rate': 3.869262357998158e-05, 'epoch': 22.61} {'loss': 0.0605, 'learning_rate': 3.8690224900214924e-05, 'epoch': 22.62} {'loss': 0.0621, 'learning_rate': 3.868782622044826e-05, 'epoch': 22.62} {'loss': 0.0624, 'learning_rate': 3.868542754068161e-05, 'epoch': 22.63} {'loss': 0.0633, 'learning_rate': 3.8683028860914955e-05, 'epoch': 22.63} {'loss': 0.0599, 'learning_rate': 3.8680630181148295e-05, 'epoch': 22.64} {'loss': 0.0618, 'learning_rate': 3.867823150138164e-05, 'epoch': 22.64} {'loss': 0.0618, 'learning_rate': 3.867583282161498e-05, 'epoch': 22.65} {'loss': 0.0627, 'learning_rate': 3.867343414184833e-05, 'epoch': 22.65} {'loss': 0.0631, 'learning_rate': 3.867103546208167e-05, 'epoch': 22.66} {'loss': 0.0616, 'learning_rate': 3.866863678231502e-05, 'epoch': 22.66} {'loss': 0.0635, 'learning_rate': 3.866623810254836e-05, 'epoch': 22.67} {'loss': 0.0625, 'learning_rate': 3.86638394227817e-05, 'epoch': 22.67} {'loss': 0.0625, 'learning_rate': 3.866144074301505e-05, 'epoch': 22.68} {'loss': 0.0628, 'learning_rate': 3.865904206324839e-05, 'epoch': 22.68} {'loss': 0.0617, 'learning_rate': 3.8656643383481735e-05, 'epoch': 22.69} {'loss': 0.0615, 'learning_rate': 3.8654244703715075e-05, 'epoch': 22.69} {'loss': 0.0631, 'learning_rate': 3.865184602394842e-05, 'epoch': 22.7} {'loss': 0.0596, 'learning_rate': 3.864944734418177e-05, 'epoch': 22.7} {'loss': 0.0659, 'learning_rate': 3.8647048664415106e-05, 'epoch': 22.71} {'loss': 0.0613, 'learning_rate': 3.864464998464845e-05, 'epoch': 22.71} {'loss': 0.0614, 'learning_rate': 3.864225130488179e-05, 'epoch': 22.72} {'loss': 0.0631, 'learning_rate': 3.863985262511514e-05, 'epoch': 22.72} {'loss': 0.0614, 'learning_rate': 3.8637453945348484e-05, 'epoch': 22.73} {'loss': 0.0609, 'learning_rate': 3.863505526558183e-05, 'epoch': 22.73} {'loss': 0.0626, 'learning_rate': 3.863265658581517e-05, 'epoch': 22.73} {'loss': 0.0617, 'learning_rate': 3.863025790604851e-05, 'epoch': 22.74} {'loss': 0.063, 'learning_rate': 3.8627859226281854e-05, 'epoch': 22.74} {'loss': 0.0641, 'learning_rate': 3.86254605465152e-05, 'epoch': 22.75} {'loss': 0.0641, 'learning_rate': 3.862306186674855e-05, 'epoch': 22.75} {'loss': 0.0598, 'learning_rate': 3.8620663186981886e-05, 'epoch': 22.76} {'loss': 0.0614, 'learning_rate': 3.861826450721523e-05, 'epoch': 22.76} {'loss': 0.0592, 'learning_rate': 3.861586582744857e-05, 'epoch': 22.77} {'loss': 0.0619, 'learning_rate': 3.861346714768192e-05, 'epoch': 22.77} {'loss': 0.0614, 'learning_rate': 3.8611068467915264e-05, 'epoch': 22.78} {'loss': 0.0609, 'learning_rate': 3.86086697881486e-05, 'epoch': 22.78} {'loss': 0.0621, 'learning_rate': 3.860627110838195e-05, 'epoch': 22.79} {'loss': 0.063, 'learning_rate': 3.860387242861529e-05, 'epoch': 22.79} {'loss': 0.0623, 'learning_rate': 3.8601473748848634e-05, 'epoch': 22.8} {'loss': 0.0645, 'learning_rate': 3.859907506908198e-05, 'epoch': 22.8} {'loss': 0.0625, 'learning_rate': 3.859667638931532e-05, 'epoch': 22.81} {'loss': 0.0632, 'learning_rate': 3.8594277709548666e-05, 'epoch': 22.81} {'loss': 0.0611, 'learning_rate': 3.8591879029782005e-05, 'epoch': 22.82} {'loss': 0.0634, 'learning_rate': 3.858948035001536e-05, 'epoch': 22.82} {'loss': 0.0641, 'learning_rate': 3.85870816702487e-05, 'epoch': 22.83} {'loss': 0.0626, 'learning_rate': 3.8584682990482043e-05, 'epoch': 22.83} {'loss': 0.0649, 'learning_rate': 3.858228431071538e-05, 'epoch': 22.84} {'loss': 0.0604, 'learning_rate': 3.857988563094873e-05, 'epoch': 22.84} {'loss': 0.0633, 'learning_rate': 3.8577486951182075e-05, 'epoch': 22.85} {'loss': 0.0635, 'learning_rate': 3.8575088271415414e-05, 'epoch': 22.85} {'loss': 0.0597, 'learning_rate': 3.857268959164876e-05, 'epoch': 22.85} {'loss': 0.0622, 'learning_rate': 3.85702909118821e-05, 'epoch': 22.86} {'loss': 0.0606, 'learning_rate': 3.8567892232115446e-05, 'epoch': 22.86} {'loss': 0.0603, 'learning_rate': 3.856549355234879e-05, 'epoch': 22.87} {'loss': 0.0641, 'learning_rate': 3.856309487258213e-05, 'epoch': 22.87} {'loss': 0.0613, 'learning_rate': 3.856069619281548e-05, 'epoch': 22.88} {'loss': 0.0616, 'learning_rate': 3.8558297513048817e-05, 'epoch': 22.88} {'loss': 0.0631, 'learning_rate': 3.855589883328216e-05, 'epoch': 22.89} {'loss': 0.0627, 'learning_rate': 3.855350015351551e-05, 'epoch': 22.89} {'loss': 0.0644, 'learning_rate': 3.8551101473748855e-05, 'epoch': 22.9} {'loss': 0.065, 'learning_rate': 3.8548702793982194e-05, 'epoch': 22.9} {'loss': 0.0658, 'learning_rate': 3.8546304114215533e-05, 'epoch': 22.91} {'loss': 0.0634, 'learning_rate': 3.854390543444888e-05, 'epoch': 22.91} {'loss': 0.0641, 'learning_rate': 3.8541506754682226e-05, 'epoch': 22.92} {'loss': 0.0606, 'learning_rate': 3.853910807491557e-05, 'epoch': 22.92} {'loss': 0.0628, 'learning_rate': 3.853670939514891e-05, 'epoch': 22.93} {'loss': 0.0609, 'learning_rate': 3.853431071538226e-05, 'epoch': 22.93} {'loss': 0.0588, 'learning_rate': 3.8531912035615596e-05, 'epoch': 22.94} {'loss': 0.0609, 'learning_rate': 3.852951335584894e-05, 'epoch': 22.94} {'loss': 0.0611, 'learning_rate': 3.852711467608229e-05, 'epoch': 22.95} {'loss': 0.0628, 'learning_rate': 3.852471599631563e-05, 'epoch': 22.95} {'loss': 0.061, 'learning_rate': 3.8522317316548974e-05, 'epoch': 22.96} {'loss': 0.061, 'learning_rate': 3.8519918636782313e-05, 'epoch': 22.96} {'loss': 0.0621, 'learning_rate': 3.8517519957015666e-05, 'epoch': 22.96} {'loss': 0.0636, 'learning_rate': 3.8515121277249006e-05, 'epoch': 22.97} {'loss': 0.0603, 'learning_rate': 3.8512722597482345e-05, 'epoch': 22.97} {'loss': 0.0604, 'learning_rate': 3.851032391771569e-05, 'epoch': 22.98} {'loss': 0.0606, 'learning_rate': 3.850792523794903e-05, 'epoch': 22.98} {'loss': 0.06, 'learning_rate': 3.850552655818238e-05, 'epoch': 22.99} {'loss': 0.0626, 'learning_rate': 3.850312787841572e-05, 'epoch': 22.99} {'loss': 0.0624, 'learning_rate': 3.850072919864907e-05, 'epoch': 23.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.05738390237092972, 'eval_runtime': 523.5186, 'eval_samples_per_second': 796.333, 'eval_steps_per_second': 99.542, 'epoch': 23.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-2397152 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-2397152/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-2397152/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-2292928] due to args.save_total_limit {'loss': 0.065, 'learning_rate': 3.849833051888241e-05, 'epoch': 23.0} {'loss': 0.0613, 'learning_rate': 3.8495931839115754e-05, 'epoch': 23.01} {'loss': 0.0612, 'learning_rate': 3.84935331593491e-05, 'epoch': 23.01} {'loss': 0.0609, 'learning_rate': 3.849113447958244e-05, 'epoch': 23.02} {'loss': 0.0607, 'learning_rate': 3.8488735799815785e-05, 'epoch': 23.02} {'loss': 0.0641, 'learning_rate': 3.8486337120049125e-05, 'epoch': 23.03} {'loss': 0.0605, 'learning_rate': 3.848393844028247e-05, 'epoch': 23.03} {'loss': 0.0635, 'learning_rate': 3.848153976051581e-05, 'epoch': 23.04} {'loss': 0.0623, 'learning_rate': 3.8479141080749156e-05, 'epoch': 23.04} {'loss': 0.064, 'learning_rate': 3.84767424009825e-05, 'epoch': 23.05} {'loss': 0.0615, 'learning_rate': 3.847434372121584e-05, 'epoch': 23.05} {'loss': 0.0625, 'learning_rate': 3.847194504144919e-05, 'epoch': 23.06} {'loss': 0.0616, 'learning_rate': 3.846954636168253e-05, 'epoch': 23.06} {'loss': 0.0607, 'learning_rate': 3.846714768191588e-05, 'epoch': 23.07} {'loss': 0.0628, 'learning_rate': 3.846474900214922e-05, 'epoch': 23.07} {'loss': 0.0598, 'learning_rate': 3.8462350322382565e-05, 'epoch': 23.08} {'loss': 0.0626, 'learning_rate': 3.8459951642615905e-05, 'epoch': 23.08} {'loss': 0.0612, 'learning_rate': 3.8457552962849244e-05, 'epoch': 23.08} {'loss': 0.0626, 'learning_rate': 3.84551542830826e-05, 'epoch': 23.09} {'loss': 0.0611, 'learning_rate': 3.8452755603315936e-05, 'epoch': 23.09} {'loss': 0.0625, 'learning_rate': 3.845035692354928e-05, 'epoch': 23.1} {'loss': 0.061, 'learning_rate': 3.844795824378262e-05, 'epoch': 23.1} {'loss': 0.059, 'learning_rate': 3.844555956401597e-05, 'epoch': 23.11} {'loss': 0.0607, 'learning_rate': 3.8443160884249314e-05, 'epoch': 23.11} {'loss': 0.0601, 'learning_rate': 3.844076220448265e-05, 'epoch': 23.12} {'loss': 0.0645, 'learning_rate': 3.8438363524716e-05, 'epoch': 23.12} {'loss': 0.0631, 'learning_rate': 3.843596484494934e-05, 'epoch': 23.13} {'loss': 0.063, 'learning_rate': 3.8433566165182685e-05, 'epoch': 23.13} {'loss': 0.0628, 'learning_rate': 3.843116748541603e-05, 'epoch': 23.14} {'loss': 0.061, 'learning_rate': 3.842876880564937e-05, 'epoch': 23.14} {'loss': 0.0636, 'learning_rate': 3.8426370125882716e-05, 'epoch': 23.15} {'loss': 0.0632, 'learning_rate': 3.8423971446116055e-05, 'epoch': 23.15} {'loss': 0.0607, 'learning_rate': 3.84215727663494e-05, 'epoch': 23.16} {'loss': 0.0619, 'learning_rate': 3.841917408658275e-05, 'epoch': 23.16} {'loss': 0.0596, 'learning_rate': 3.8416775406816094e-05, 'epoch': 23.17} {'loss': 0.06, 'learning_rate': 3.841437672704943e-05, 'epoch': 23.17} {'loss': 0.0621, 'learning_rate': 3.841197804728278e-05, 'epoch': 23.18} {'loss': 0.062, 'learning_rate': 3.840957936751612e-05, 'epoch': 23.18} {'loss': 0.063, 'learning_rate': 3.8407180687749464e-05, 'epoch': 23.19} {'loss': 0.0614, 'learning_rate': 3.840478200798281e-05, 'epoch': 23.19} {'loss': 0.0601, 'learning_rate': 3.840238332821615e-05, 'epoch': 23.2} {'loss': 0.0606, 'learning_rate': 3.8399984648449496e-05, 'epoch': 23.2} {'loss': 0.0621, 'learning_rate': 3.8397585968682835e-05, 'epoch': 23.2} {'loss': 0.0616, 'learning_rate': 3.839518728891618e-05, 'epoch': 23.21} {'loss': 0.0611, 'learning_rate': 3.839278860914953e-05, 'epoch': 23.21} {'loss': 0.0609, 'learning_rate': 3.839038992938287e-05, 'epoch': 23.22} {'loss': 0.0605, 'learning_rate': 3.838799124961621e-05, 'epoch': 23.22} {'loss': 0.0641, 'learning_rate': 3.838559256984955e-05, 'epoch': 23.23} {'loss': 0.062, 'learning_rate': 3.8383193890082905e-05, 'epoch': 23.23} {'loss': 0.0613, 'learning_rate': 3.8380795210316244e-05, 'epoch': 23.24} {'loss': 0.0616, 'learning_rate': 3.837839653054959e-05, 'epoch': 23.24} {'loss': 0.0608, 'learning_rate': 3.837599785078293e-05, 'epoch': 23.25} {'loss': 0.0618, 'learning_rate': 3.837359917101627e-05, 'epoch': 23.25} {'loss': 0.0659, 'learning_rate': 3.837120049124962e-05, 'epoch': 23.26} {'loss': 0.06, 'learning_rate': 3.836880181148296e-05, 'epoch': 23.26} {'loss': 0.0572, 'learning_rate': 3.836640313171631e-05, 'epoch': 23.27} {'loss': 0.0622, 'learning_rate': 3.836400445194965e-05, 'epoch': 23.27} {'loss': 0.0626, 'learning_rate': 3.836160577218299e-05, 'epoch': 23.28} {'loss': 0.0595, 'learning_rate': 3.835920709241634e-05, 'epoch': 23.28} {'loss': 0.0595, 'learning_rate': 3.835680841264968e-05, 'epoch': 23.29} {'loss': 0.0611, 'learning_rate': 3.8354409732883024e-05, 'epoch': 23.29} {'loss': 0.0605, 'learning_rate': 3.8352011053116364e-05, 'epoch': 23.3} {'loss': 0.0633, 'learning_rate': 3.834961237334971e-05, 'epoch': 23.3} {'loss': 0.0623, 'learning_rate': 3.8347213693583056e-05, 'epoch': 23.31} {'loss': 0.0592, 'learning_rate': 3.83448150138164e-05, 'epoch': 23.31} {'loss': 0.0605, 'learning_rate': 3.834241633404974e-05, 'epoch': 23.32} {'loss': 0.064, 'learning_rate': 3.834001765428308e-05, 'epoch': 23.32} {'loss': 0.0632, 'learning_rate': 3.8337618974516427e-05, 'epoch': 23.32} {'loss': 0.0624, 'learning_rate': 3.833522029474977e-05, 'epoch': 23.33} {'loss': 0.0617, 'learning_rate': 3.833282161498312e-05, 'epoch': 23.33} {'loss': 0.0606, 'learning_rate': 3.833042293521646e-05, 'epoch': 23.34} {'loss': 0.06, 'learning_rate': 3.8328024255449804e-05, 'epoch': 23.34} {'loss': 0.0642, 'learning_rate': 3.8325625575683144e-05, 'epoch': 23.35} {'loss': 0.0596, 'learning_rate': 3.832322689591649e-05, 'epoch': 23.35} {'loss': 0.0603, 'learning_rate': 3.8320828216149836e-05, 'epoch': 23.36} {'loss': 0.0641, 'learning_rate': 3.8318429536383175e-05, 'epoch': 23.36} {'loss': 0.0635, 'learning_rate': 3.831603085661652e-05, 'epoch': 23.37} {'loss': 0.0578, 'learning_rate': 3.831363217684986e-05, 'epoch': 23.37} {'loss': 0.0606, 'learning_rate': 3.8311233497083207e-05, 'epoch': 23.38} {'loss': 0.0597, 'learning_rate': 3.830883481731655e-05, 'epoch': 23.38} {'loss': 0.0625, 'learning_rate': 3.830643613754989e-05, 'epoch': 23.39} {'loss': 0.059, 'learning_rate': 3.830403745778324e-05, 'epoch': 23.39} {'loss': 0.0612, 'learning_rate': 3.830163877801658e-05, 'epoch': 23.4} {'loss': 0.0608, 'learning_rate': 3.829924009824993e-05, 'epoch': 23.4} {'loss': 0.0595, 'learning_rate': 3.829684141848327e-05, 'epoch': 23.41} {'loss': 0.0633, 'learning_rate': 3.8294442738716616e-05, 'epoch': 23.41} {'loss': 0.0621, 'learning_rate': 3.8292044058949955e-05, 'epoch': 23.42} {'loss': 0.0613, 'learning_rate': 3.82896453791833e-05, 'epoch': 23.42} {'loss': 0.0619, 'learning_rate': 3.828724669941665e-05, 'epoch': 23.43} {'loss': 0.0617, 'learning_rate': 3.8284848019649986e-05, 'epoch': 23.43} {'loss': 0.062, 'learning_rate': 3.828244933988333e-05, 'epoch': 23.44} {'loss': 0.0601, 'learning_rate': 3.828005066011667e-05, 'epoch': 23.44} {'loss': 0.0617, 'learning_rate': 3.827765198035002e-05, 'epoch': 23.44} {'loss': 0.0616, 'learning_rate': 3.827525330058336e-05, 'epoch': 23.45} {'loss': 0.0612, 'learning_rate': 3.82728546208167e-05, 'epoch': 23.45} {'loss': 0.0636, 'learning_rate': 3.827045594105005e-05, 'epoch': 23.46} {'loss': 0.0614, 'learning_rate': 3.826805726128339e-05, 'epoch': 23.46} {'loss': 0.056, 'learning_rate': 3.8265658581516735e-05, 'epoch': 23.47} {'loss': 0.0582, 'learning_rate': 3.8263259901750074e-05, 'epoch': 23.47} {'loss': 0.0598, 'learning_rate': 3.826086122198343e-05, 'epoch': 23.48} {'loss': 0.0612, 'learning_rate': 3.8258462542216766e-05, 'epoch': 23.48} {'loss': 0.0632, 'learning_rate': 3.8256063862450106e-05, 'epoch': 23.49} {'loss': 0.0629, 'learning_rate': 3.825366518268345e-05, 'epoch': 23.49} {'loss': 0.0616, 'learning_rate': 3.825126650291679e-05, 'epoch': 23.5} {'loss': 0.0638, 'learning_rate': 3.8248867823150144e-05, 'epoch': 23.5} {'loss': 0.0587, 'learning_rate': 3.824646914338348e-05, 'epoch': 23.51} {'loss': 0.0637, 'learning_rate': 3.824407046361683e-05, 'epoch': 23.51} {'loss': 0.0601, 'learning_rate': 3.824167178385017e-05, 'epoch': 23.52} {'loss': 0.062, 'learning_rate': 3.8239273104083515e-05, 'epoch': 23.52} {'loss': 0.0643, 'learning_rate': 3.823687442431686e-05, 'epoch': 23.53} {'loss': 0.0609, 'learning_rate': 3.82344757445502e-05, 'epoch': 23.53} {'loss': 0.0592, 'learning_rate': 3.8232077064783546e-05, 'epoch': 23.54} {'loss': 0.0615, 'learning_rate': 3.8229678385016886e-05, 'epoch': 23.54} {'loss': 0.0612, 'learning_rate': 3.822727970525023e-05, 'epoch': 23.55} {'loss': 0.0611, 'learning_rate': 3.822488102548358e-05, 'epoch': 23.55} {'loss': 0.0626, 'learning_rate': 3.822248234571692e-05, 'epoch': 23.56} {'loss': 0.0608, 'learning_rate': 3.822008366595026e-05, 'epoch': 23.56} {'loss': 0.059, 'learning_rate': 3.82176849861836e-05, 'epoch': 23.56} {'loss': 0.0633, 'learning_rate': 3.821528630641695e-05, 'epoch': 23.57} {'loss': 0.0605, 'learning_rate': 3.8212887626650295e-05, 'epoch': 23.57} {'loss': 0.0609, 'learning_rate': 3.821048894688364e-05, 'epoch': 23.58} {'loss': 0.0618, 'learning_rate': 3.820809026711698e-05, 'epoch': 23.58} {'loss': 0.0618, 'learning_rate': 3.8205691587350326e-05, 'epoch': 23.59} {'loss': 0.0619, 'learning_rate': 3.8203292907583665e-05, 'epoch': 23.59} {'loss': 0.064, 'learning_rate': 3.820089422781701e-05, 'epoch': 23.6} {'loss': 0.0618, 'learning_rate': 3.819849554805036e-05, 'epoch': 23.6} {'loss': 0.0614, 'learning_rate': 3.81960968682837e-05, 'epoch': 23.61} {'loss': 0.0597, 'learning_rate': 3.819369818851704e-05, 'epoch': 23.61} {'loss': 0.0605, 'learning_rate': 3.819129950875038e-05, 'epoch': 23.62} {'loss': 0.0608, 'learning_rate': 3.818890082898373e-05, 'epoch': 23.62} {'loss': 0.0599, 'learning_rate': 3.8186502149217075e-05, 'epoch': 23.63} {'loss': 0.0629, 'learning_rate': 3.8184103469450414e-05, 'epoch': 23.63} {'loss': 0.0617, 'learning_rate': 3.818170478968376e-05, 'epoch': 23.64} {'loss': 0.0596, 'learning_rate': 3.81793061099171e-05, 'epoch': 23.64} {'loss': 0.0595, 'learning_rate': 3.817690743015045e-05, 'epoch': 23.65} {'loss': 0.0605, 'learning_rate': 3.817450875038379e-05, 'epoch': 23.65} {'loss': 0.0624, 'learning_rate': 3.817211007061714e-05, 'epoch': 23.66} {'loss': 0.0607, 'learning_rate': 3.816971139085048e-05, 'epoch': 23.66} {'loss': 0.0589, 'learning_rate': 3.8167312711083816e-05, 'epoch': 23.67} {'loss': 0.062, 'learning_rate': 3.816491403131717e-05, 'epoch': 23.67} {'loss': 0.0593, 'learning_rate': 3.816251535155051e-05, 'epoch': 23.67} {'loss': 0.0603, 'learning_rate': 3.8160116671783854e-05, 'epoch': 23.68} {'loss': 0.0605, 'learning_rate': 3.8157717992017194e-05, 'epoch': 23.68} {'loss': 0.0581, 'learning_rate': 3.815531931225054e-05, 'epoch': 23.69} {'loss': 0.0624, 'learning_rate': 3.8152920632483886e-05, 'epoch': 23.69} {'loss': 0.0622, 'learning_rate': 3.8150521952717225e-05, 'epoch': 23.7} {'loss': 0.0635, 'learning_rate': 3.814812327295057e-05, 'epoch': 23.7} {'loss': 0.0621, 'learning_rate': 3.814572459318391e-05, 'epoch': 23.71} {'loss': 0.062, 'learning_rate': 3.814332591341726e-05, 'epoch': 23.71} {'loss': 0.0623, 'learning_rate': 3.81409272336506e-05, 'epoch': 23.72} {'loss': 0.0613, 'learning_rate': 3.813852855388394e-05, 'epoch': 23.72} {'loss': 0.0637, 'learning_rate': 3.813612987411729e-05, 'epoch': 23.73} {'loss': 0.0608, 'learning_rate': 3.813373119435063e-05, 'epoch': 23.73} {'loss': 0.0608, 'learning_rate': 3.8131332514583974e-05, 'epoch': 23.74} {'loss': 0.0617, 'learning_rate': 3.812893383481732e-05, 'epoch': 23.74} {'loss': 0.0608, 'learning_rate': 3.8126535155050666e-05, 'epoch': 23.75} {'loss': 0.0571, 'learning_rate': 3.8124136475284005e-05, 'epoch': 23.75} {'loss': 0.0615, 'learning_rate': 3.812173779551735e-05, 'epoch': 23.76} {'loss': 0.0625, 'learning_rate': 3.811933911575069e-05, 'epoch': 23.76} {'loss': 0.0626, 'learning_rate': 3.811694043598404e-05, 'epoch': 23.77} {'loss': 0.0617, 'learning_rate': 3.811454175621738e-05, 'epoch': 23.77} {'loss': 0.0611, 'learning_rate': 3.811214307645072e-05, 'epoch': 23.78} {'loss': 0.0626, 'learning_rate': 3.810974439668407e-05, 'epoch': 23.78} {'loss': 0.0612, 'learning_rate': 3.810734571691741e-05, 'epoch': 23.79} {'loss': 0.0599, 'learning_rate': 3.8104947037150754e-05, 'epoch': 23.79} {'loss': 0.0606, 'learning_rate': 3.81025483573841e-05, 'epoch': 23.79} {'loss': 0.0622, 'learning_rate': 3.810014967761744e-05, 'epoch': 23.8} {'loss': 0.062, 'learning_rate': 3.8097750997850785e-05, 'epoch': 23.8} {'loss': 0.062, 'learning_rate': 3.8095352318084124e-05, 'epoch': 23.81} {'loss': 0.0617, 'learning_rate': 3.809295363831748e-05, 'epoch': 23.81} {'loss': 0.0586, 'learning_rate': 3.8090554958550817e-05, 'epoch': 23.82} {'loss': 0.0605, 'learning_rate': 3.808815627878416e-05, 'epoch': 23.82} {'loss': 0.0616, 'learning_rate': 3.80857575990175e-05, 'epoch': 23.83} {'loss': 0.0605, 'learning_rate': 3.808335891925084e-05, 'epoch': 23.83} {'loss': 0.0637, 'learning_rate': 3.8080960239484194e-05, 'epoch': 23.84} {'loss': 0.0611, 'learning_rate': 3.8078561559717533e-05, 'epoch': 23.84} {'loss': 0.0585, 'learning_rate': 3.807616287995088e-05, 'epoch': 23.85} {'loss': 0.0586, 'learning_rate': 3.807376420018422e-05, 'epoch': 23.85} {'loss': 0.0591, 'learning_rate': 3.8071365520417565e-05, 'epoch': 23.86} {'loss': 0.0609, 'learning_rate': 3.8068966840650904e-05, 'epoch': 23.86} {'loss': 0.0603, 'learning_rate': 3.806656816088425e-05, 'epoch': 23.87} {'loss': 0.0584, 'learning_rate': 3.8064169481117596e-05, 'epoch': 23.87} {'loss': 0.061, 'learning_rate': 3.8061770801350936e-05, 'epoch': 23.88} {'loss': 0.0631, 'learning_rate': 3.805937212158428e-05, 'epoch': 23.88} {'loss': 0.0611, 'learning_rate': 3.805697344181762e-05, 'epoch': 23.89} {'loss': 0.0596, 'learning_rate': 3.8054574762050974e-05, 'epoch': 23.89} {'loss': 0.0614, 'learning_rate': 3.805217608228431e-05, 'epoch': 23.9} {'loss': 0.0606, 'learning_rate': 3.804977740251765e-05, 'epoch': 23.9} {'loss': 0.061, 'learning_rate': 3.8047378722751e-05, 'epoch': 23.91} {'loss': 0.0604, 'learning_rate': 3.804498004298434e-05, 'epoch': 23.91} {'loss': 0.0616, 'learning_rate': 3.804258136321769e-05, 'epoch': 23.91} {'loss': 0.0615, 'learning_rate': 3.804018268345103e-05, 'epoch': 23.92} {'loss': 0.0601, 'learning_rate': 3.8037784003684376e-05, 'epoch': 23.92} {'loss': 0.0607, 'learning_rate': 3.8035385323917716e-05, 'epoch': 23.93} {'loss': 0.0612, 'learning_rate': 3.803298664415106e-05, 'epoch': 23.93} {'loss': 0.0623, 'learning_rate': 3.803058796438441e-05, 'epoch': 23.94} {'loss': 0.0602, 'learning_rate': 3.802818928461775e-05, 'epoch': 23.94} {'loss': 0.0624, 'learning_rate': 3.802579060485109e-05, 'epoch': 23.95} {'loss': 0.062, 'learning_rate': 3.802339192508443e-05, 'epoch': 23.95} {'loss': 0.0624, 'learning_rate': 3.802099324531778e-05, 'epoch': 23.96} {'loss': 0.0637, 'learning_rate': 3.8018594565551125e-05, 'epoch': 23.96} {'loss': 0.0595, 'learning_rate': 3.8016195885784464e-05, 'epoch': 23.97} {'loss': 0.0634, 'learning_rate': 3.801379720601781e-05, 'epoch': 23.97} {'loss': 0.0617, 'learning_rate': 3.801139852625115e-05, 'epoch': 23.98} {'loss': 0.0627, 'learning_rate': 3.8008999846484496e-05, 'epoch': 23.98} {'loss': 0.0606, 'learning_rate': 3.800660116671784e-05, 'epoch': 23.99} {'loss': 0.0634, 'learning_rate': 3.800420248695119e-05, 'epoch': 23.99} {'loss': 0.0606, 'learning_rate': 3.800180380718453e-05, 'epoch': 24.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.05532022938132286, 'eval_runtime': 531.0291, 'eval_samples_per_second': 785.07, 'eval_steps_per_second': 98.134, 'epoch': 24.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-2501376 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-2501376/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-2501376/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-2397152] due to args.save_total_limit {'loss': 0.0603, 'learning_rate': 3.799940512741787e-05, 'epoch': 24.0} {'loss': 0.0585, 'learning_rate': 3.799700644765121e-05, 'epoch': 24.01} {'loss': 0.0606, 'learning_rate': 3.799460776788456e-05, 'epoch': 24.01} {'loss': 0.0601, 'learning_rate': 3.7992209088117905e-05, 'epoch': 24.02} {'loss': 0.0586, 'learning_rate': 3.7989810408351244e-05, 'epoch': 24.02} {'loss': 0.0585, 'learning_rate': 3.798741172858459e-05, 'epoch': 24.03} {'loss': 0.0625, 'learning_rate': 3.798501304881793e-05, 'epoch': 24.03} {'loss': 0.0627, 'learning_rate': 3.7982614369051275e-05, 'epoch': 24.03} {'loss': 0.0585, 'learning_rate': 3.798021568928462e-05, 'epoch': 24.04} {'loss': 0.0622, 'learning_rate': 3.797781700951796e-05, 'epoch': 24.04} {'loss': 0.0611, 'learning_rate': 3.797541832975131e-05, 'epoch': 24.05} {'loss': 0.0591, 'learning_rate': 3.7973019649984646e-05, 'epoch': 24.05} {'loss': 0.0593, 'learning_rate': 3.7970620970218e-05, 'epoch': 24.06} {'loss': 0.0597, 'learning_rate': 3.796822229045134e-05, 'epoch': 24.06} {'loss': 0.0601, 'learning_rate': 3.796582361068468e-05, 'epoch': 24.07} {'loss': 0.0599, 'learning_rate': 3.7963424930918024e-05, 'epoch': 24.07} {'loss': 0.0609, 'learning_rate': 3.796102625115136e-05, 'epoch': 24.08} {'loss': 0.0628, 'learning_rate': 3.7958627571384716e-05, 'epoch': 24.08} {'loss': 0.0606, 'learning_rate': 3.7956228891618055e-05, 'epoch': 24.09} {'loss': 0.0612, 'learning_rate': 3.79538302118514e-05, 'epoch': 24.09} {'loss': 0.0645, 'learning_rate': 3.795143153208474e-05, 'epoch': 24.1} {'loss': 0.0634, 'learning_rate': 3.794903285231809e-05, 'epoch': 24.1} {'loss': 0.0614, 'learning_rate': 3.794663417255143e-05, 'epoch': 24.11} {'loss': 0.0608, 'learning_rate': 3.794423549278477e-05, 'epoch': 24.11} {'loss': 0.0602, 'learning_rate': 3.794183681301812e-05, 'epoch': 24.12} {'loss': 0.0623, 'learning_rate': 3.793943813325146e-05, 'epoch': 24.12} {'loss': 0.0608, 'learning_rate': 3.7937039453484804e-05, 'epoch': 24.13} {'loss': 0.0631, 'learning_rate': 3.793464077371815e-05, 'epoch': 24.13} {'loss': 0.064, 'learning_rate': 3.793224209395149e-05, 'epoch': 24.14} {'loss': 0.0612, 'learning_rate': 3.7929843414184835e-05, 'epoch': 24.14} {'loss': 0.0653, 'learning_rate': 3.7927444734418175e-05, 'epoch': 24.15} {'loss': 0.0631, 'learning_rate': 3.792504605465152e-05, 'epoch': 24.15} {'loss': 0.0646, 'learning_rate': 3.792264737488487e-05, 'epoch': 24.15} {'loss': 0.0635, 'learning_rate': 3.792024869511821e-05, 'epoch': 24.16} {'loss': 0.0644, 'learning_rate': 3.791785001535155e-05, 'epoch': 24.16} {'loss': 0.0591, 'learning_rate': 3.79154513355849e-05, 'epoch': 24.17} {'loss': 0.0593, 'learning_rate': 3.791305265581824e-05, 'epoch': 24.17} {'loss': 0.0638, 'learning_rate': 3.7910653976051584e-05, 'epoch': 24.18} {'loss': 0.0613, 'learning_rate': 3.790825529628493e-05, 'epoch': 24.18} {'loss': 0.058, 'learning_rate': 3.790585661651827e-05, 'epoch': 24.19} {'loss': 0.0614, 'learning_rate': 3.7903457936751615e-05, 'epoch': 24.19} {'loss': 0.059, 'learning_rate': 3.7901059256984954e-05, 'epoch': 24.2} {'loss': 0.0605, 'learning_rate': 3.78986605772183e-05, 'epoch': 24.2} {'loss': 0.0614, 'learning_rate': 3.789626189745165e-05, 'epoch': 24.21} {'loss': 0.0613, 'learning_rate': 3.7893863217684986e-05, 'epoch': 24.21} {'loss': 0.0609, 'learning_rate': 3.789146453791833e-05, 'epoch': 24.22} {'loss': 0.0609, 'learning_rate': 3.788906585815167e-05, 'epoch': 24.22} {'loss': 0.0635, 'learning_rate': 3.7886667178385024e-05, 'epoch': 24.23} {'loss': 0.061, 'learning_rate': 3.7884268498618364e-05, 'epoch': 24.23} {'loss': 0.0616, 'learning_rate': 3.788186981885171e-05, 'epoch': 24.24} {'loss': 0.0617, 'learning_rate': 3.787947113908505e-05, 'epoch': 24.24} {'loss': 0.0593, 'learning_rate': 3.787707245931839e-05, 'epoch': 24.25} {'loss': 0.0596, 'learning_rate': 3.787467377955174e-05, 'epoch': 24.25} {'loss': 0.0618, 'learning_rate': 3.787227509978508e-05, 'epoch': 24.26} {'loss': 0.0604, 'learning_rate': 3.7869876420018427e-05, 'epoch': 24.26} {'loss': 0.0608, 'learning_rate': 3.7867477740251766e-05, 'epoch': 24.27} {'loss': 0.0599, 'learning_rate': 3.786507906048511e-05, 'epoch': 24.27} {'loss': 0.06, 'learning_rate': 3.786268038071846e-05, 'epoch': 24.27} {'loss': 0.0595, 'learning_rate': 3.78602817009518e-05, 'epoch': 24.28} {'loss': 0.0612, 'learning_rate': 3.7857883021185143e-05, 'epoch': 24.28} {'loss': 0.0603, 'learning_rate': 3.785548434141848e-05, 'epoch': 24.29} {'loss': 0.0614, 'learning_rate': 3.785308566165183e-05, 'epoch': 24.29} {'loss': 0.0609, 'learning_rate': 3.785068698188517e-05, 'epoch': 24.3} {'loss': 0.0598, 'learning_rate': 3.7848288302118514e-05, 'epoch': 24.3} {'loss': 0.0602, 'learning_rate': 3.784588962235186e-05, 'epoch': 24.31} {'loss': 0.0614, 'learning_rate': 3.78434909425852e-05, 'epoch': 24.31} {'loss': 0.0581, 'learning_rate': 3.7841092262818546e-05, 'epoch': 24.32} {'loss': 0.0596, 'learning_rate': 3.7838693583051885e-05, 'epoch': 24.32} {'loss': 0.0578, 'learning_rate': 3.783629490328524e-05, 'epoch': 24.33} {'loss': 0.0576, 'learning_rate': 3.783389622351858e-05, 'epoch': 24.33} {'loss': 0.0602, 'learning_rate': 3.783149754375192e-05, 'epoch': 24.34} {'loss': 0.0615, 'learning_rate': 3.782909886398526e-05, 'epoch': 24.34} {'loss': 0.0612, 'learning_rate': 3.78267001842186e-05, 'epoch': 24.35} {'loss': 0.0603, 'learning_rate': 3.7824301504451955e-05, 'epoch': 24.35} {'loss': 0.0597, 'learning_rate': 3.7821902824685294e-05, 'epoch': 24.36} {'loss': 0.0596, 'learning_rate': 3.781950414491864e-05, 'epoch': 24.36} {'loss': 0.058, 'learning_rate': 3.781710546515198e-05, 'epoch': 24.37} {'loss': 0.0607, 'learning_rate': 3.7814706785385326e-05, 'epoch': 24.37} {'loss': 0.0623, 'learning_rate': 3.781230810561867e-05, 'epoch': 24.38} {'loss': 0.0611, 'learning_rate': 3.780990942585201e-05, 'epoch': 24.38} {'loss': 0.0604, 'learning_rate': 3.780751074608536e-05, 'epoch': 24.38} {'loss': 0.0605, 'learning_rate': 3.7805112066318696e-05, 'epoch': 24.39} {'loss': 0.058, 'learning_rate': 3.780271338655204e-05, 'epoch': 24.39} {'loss': 0.062, 'learning_rate': 3.780031470678539e-05, 'epoch': 24.4} {'loss': 0.0614, 'learning_rate': 3.7797916027018735e-05, 'epoch': 24.4} {'loss': 0.0624, 'learning_rate': 3.7795517347252074e-05, 'epoch': 24.41} {'loss': 0.0604, 'learning_rate': 3.779311866748541e-05, 'epoch': 24.41} {'loss': 0.0614, 'learning_rate': 3.779071998771876e-05, 'epoch': 24.42} {'loss': 0.0601, 'learning_rate': 3.7788321307952106e-05, 'epoch': 24.42} {'loss': 0.0589, 'learning_rate': 3.778592262818545e-05, 'epoch': 24.43} {'loss': 0.0593, 'learning_rate': 3.778352394841879e-05, 'epoch': 24.43} {'loss': 0.0597, 'learning_rate': 3.778112526865214e-05, 'epoch': 24.44} {'loss': 0.0623, 'learning_rate': 3.7778726588885476e-05, 'epoch': 24.44} {'loss': 0.0613, 'learning_rate': 3.777632790911882e-05, 'epoch': 24.45} {'loss': 0.0605, 'learning_rate': 3.777392922935217e-05, 'epoch': 24.45} {'loss': 0.0607, 'learning_rate': 3.777153054958551e-05, 'epoch': 24.46} {'loss': 0.06, 'learning_rate': 3.7769131869818854e-05, 'epoch': 24.46} {'loss': 0.0646, 'learning_rate': 3.776673319005219e-05, 'epoch': 24.47} {'loss': 0.0621, 'learning_rate': 3.7764334510285546e-05, 'epoch': 24.47} {'loss': 0.0598, 'learning_rate': 3.7761935830518885e-05, 'epoch': 24.48} {'loss': 0.0593, 'learning_rate': 3.7759537150752225e-05, 'epoch': 24.48} {'loss': 0.0616, 'learning_rate': 3.775713847098557e-05, 'epoch': 24.49} {'loss': 0.0612, 'learning_rate': 3.775473979121891e-05, 'epoch': 24.49} {'loss': 0.0626, 'learning_rate': 3.775234111145226e-05, 'epoch': 24.5} {'loss': 0.0618, 'learning_rate': 3.77499424316856e-05, 'epoch': 24.5} {'loss': 0.0615, 'learning_rate': 3.774754375191895e-05, 'epoch': 24.5} {'loss': 0.0603, 'learning_rate': 3.774514507215229e-05, 'epoch': 24.51} {'loss': 0.0617, 'learning_rate': 3.7742746392385634e-05, 'epoch': 24.51} {'loss': 0.0606, 'learning_rate': 3.774034771261898e-05, 'epoch': 24.52} {'loss': 0.0634, 'learning_rate': 3.773794903285232e-05, 'epoch': 24.52} {'loss': 0.0567, 'learning_rate': 3.7735550353085665e-05, 'epoch': 24.53} {'loss': 0.0604, 'learning_rate': 3.7733151673319005e-05, 'epoch': 24.53} {'loss': 0.0582, 'learning_rate': 3.773075299355235e-05, 'epoch': 24.54} {'loss': 0.0602, 'learning_rate': 3.77283543137857e-05, 'epoch': 24.54} {'loss': 0.062, 'learning_rate': 3.7725955634019036e-05, 'epoch': 24.55} {'loss': 0.0598, 'learning_rate': 3.772355695425238e-05, 'epoch': 24.55} {'loss': 0.0615, 'learning_rate': 3.772115827448572e-05, 'epoch': 24.56} {'loss': 0.0603, 'learning_rate': 3.771875959471907e-05, 'epoch': 24.56} {'loss': 0.0604, 'learning_rate': 3.7716360914952414e-05, 'epoch': 24.57} {'loss': 0.0604, 'learning_rate': 3.771396223518576e-05, 'epoch': 24.57} {'loss': 0.0619, 'learning_rate': 3.77115635554191e-05, 'epoch': 24.58} {'loss': 0.0609, 'learning_rate': 3.770916487565244e-05, 'epoch': 24.58} {'loss': 0.0624, 'learning_rate': 3.7706766195885785e-05, 'epoch': 24.59} {'loss': 0.0627, 'learning_rate': 3.770436751611913e-05, 'epoch': 24.59} {'loss': 0.0638, 'learning_rate': 3.770196883635248e-05, 'epoch': 24.6} {'loss': 0.0612, 'learning_rate': 3.7699570156585816e-05, 'epoch': 24.6} {'loss': 0.0574, 'learning_rate': 3.769717147681916e-05, 'epoch': 24.61} {'loss': 0.0605, 'learning_rate': 3.76947727970525e-05, 'epoch': 24.61} {'loss': 0.061, 'learning_rate': 3.769237411728585e-05, 'epoch': 24.62} {'loss': 0.0621, 'learning_rate': 3.7689975437519194e-05, 'epoch': 24.62} {'loss': 0.0597, 'learning_rate': 3.768757675775253e-05, 'epoch': 24.62} {'loss': 0.0597, 'learning_rate': 3.768517807798588e-05, 'epoch': 24.63} {'loss': 0.0631, 'learning_rate': 3.768277939821922e-05, 'epoch': 24.63} {'loss': 0.0624, 'learning_rate': 3.768038071845257e-05, 'epoch': 24.64} {'loss': 0.0628, 'learning_rate': 3.767798203868591e-05, 'epoch': 24.64} {'loss': 0.0597, 'learning_rate': 3.767558335891925e-05, 'epoch': 24.65} {'loss': 0.0617, 'learning_rate': 3.7673184679152596e-05, 'epoch': 24.65} {'loss': 0.0599, 'learning_rate': 3.7670785999385935e-05, 'epoch': 24.66} {'loss': 0.0595, 'learning_rate': 3.766838731961929e-05, 'epoch': 24.66} {'loss': 0.0603, 'learning_rate': 3.766598863985263e-05, 'epoch': 24.67} {'loss': 0.0615, 'learning_rate': 3.7663589960085974e-05, 'epoch': 24.67} {'loss': 0.0609, 'learning_rate': 3.766119128031931e-05, 'epoch': 24.68} {'loss': 0.0588, 'learning_rate': 3.765879260055266e-05, 'epoch': 24.68} {'loss': 0.0596, 'learning_rate': 3.7656393920786005e-05, 'epoch': 24.69} {'loss': 0.0611, 'learning_rate': 3.7653995241019344e-05, 'epoch': 24.69} {'loss': 0.0602, 'learning_rate': 3.765159656125269e-05, 'epoch': 24.7} {'loss': 0.0595, 'learning_rate': 3.764919788148603e-05, 'epoch': 24.7} {'loss': 0.0616, 'learning_rate': 3.7646799201719376e-05, 'epoch': 24.71} {'loss': 0.0599, 'learning_rate': 3.7644400521952715e-05, 'epoch': 24.71} {'loss': 0.058, 'learning_rate': 3.764200184218606e-05, 'epoch': 24.72} {'loss': 0.0622, 'learning_rate': 3.763960316241941e-05, 'epoch': 24.72} {'loss': 0.0617, 'learning_rate': 3.763720448265275e-05, 'epoch': 24.73} {'loss': 0.0611, 'learning_rate': 3.763480580288609e-05, 'epoch': 24.73} {'loss': 0.0604, 'learning_rate': 3.763240712311943e-05, 'epoch': 24.74} {'loss': 0.0617, 'learning_rate': 3.7630008443352785e-05, 'epoch': 24.74} {'loss': 0.059, 'learning_rate': 3.7627609763586124e-05, 'epoch': 24.74} {'loss': 0.0598, 'learning_rate': 3.762521108381947e-05, 'epoch': 24.75} {'loss': 0.0605, 'learning_rate': 3.762281240405281e-05, 'epoch': 24.75} {'loss': 0.0606, 'learning_rate': 3.762041372428615e-05, 'epoch': 24.76} {'loss': 0.0577, 'learning_rate': 3.76180150445195e-05, 'epoch': 24.76} {'loss': 0.0576, 'learning_rate': 3.761561636475284e-05, 'epoch': 24.77} {'loss': 0.0607, 'learning_rate': 3.761321768498619e-05, 'epoch': 24.77} {'loss': 0.0621, 'learning_rate': 3.7610819005219527e-05, 'epoch': 24.78} {'loss': 0.0595, 'learning_rate': 3.760842032545287e-05, 'epoch': 24.78} {'loss': 0.0596, 'learning_rate': 3.760602164568622e-05, 'epoch': 24.79} {'loss': 0.0614, 'learning_rate': 3.760362296591956e-05, 'epoch': 24.79} {'loss': 0.0599, 'learning_rate': 3.7601224286152904e-05, 'epoch': 24.8} {'loss': 0.0598, 'learning_rate': 3.7598825606386243e-05, 'epoch': 24.8} {'loss': 0.0605, 'learning_rate': 3.759642692661959e-05, 'epoch': 24.81} {'loss': 0.0581, 'learning_rate': 3.7594028246852936e-05, 'epoch': 24.81} {'loss': 0.0625, 'learning_rate': 3.759162956708628e-05, 'epoch': 24.82} {'loss': 0.0605, 'learning_rate': 3.758923088731962e-05, 'epoch': 24.82} {'loss': 0.0593, 'learning_rate': 3.758683220755296e-05, 'epoch': 24.83} {'loss': 0.0604, 'learning_rate': 3.7584433527786306e-05, 'epoch': 24.83} {'loss': 0.0617, 'learning_rate': 3.758203484801965e-05, 'epoch': 24.84} {'loss': 0.0608, 'learning_rate': 3.7579636168253e-05, 'epoch': 24.84} {'loss': 0.0575, 'learning_rate': 3.757723748848634e-05, 'epoch': 24.85} {'loss': 0.0612, 'learning_rate': 3.7574838808719684e-05, 'epoch': 24.85} {'loss': 0.0597, 'learning_rate': 3.757244012895302e-05, 'epoch': 24.86} {'loss': 0.0602, 'learning_rate': 3.757004144918637e-05, 'epoch': 24.86} {'loss': 0.0594, 'learning_rate': 3.7567642769419716e-05, 'epoch': 24.86} {'loss': 0.0622, 'learning_rate': 3.7565244089653055e-05, 'epoch': 24.87} {'loss': 0.0612, 'learning_rate': 3.75628454098864e-05, 'epoch': 24.87} {'loss': 0.0598, 'learning_rate': 3.756044673011974e-05, 'epoch': 24.88} {'loss': 0.0596, 'learning_rate': 3.7558048050353086e-05, 'epoch': 24.88} {'loss': 0.0625, 'learning_rate': 3.755564937058643e-05, 'epoch': 24.89} {'loss': 0.0604, 'learning_rate': 3.755325069081977e-05, 'epoch': 24.89} {'loss': 0.0624, 'learning_rate': 3.755085201105312e-05, 'epoch': 24.9} {'loss': 0.0607, 'learning_rate': 3.754845333128646e-05, 'epoch': 24.9} {'loss': 0.0597, 'learning_rate': 3.754605465151981e-05, 'epoch': 24.91} {'loss': 0.0606, 'learning_rate': 3.754365597175315e-05, 'epoch': 24.91} {'loss': 0.0906, 'learning_rate': 3.7541257291986495e-05, 'epoch': 24.92} {'loss': 0.0708, 'learning_rate': 3.7538858612219835e-05, 'epoch': 24.92} {'loss': 0.0604, 'learning_rate': 3.7536459932453174e-05, 'epoch': 24.93} {'loss': 0.0603, 'learning_rate': 3.753406125268653e-05, 'epoch': 24.93} {'loss': 0.0599, 'learning_rate': 3.7531662572919866e-05, 'epoch': 24.94} {'loss': 0.0607, 'learning_rate': 3.752926389315321e-05, 'epoch': 24.94} {'loss': 0.0595, 'learning_rate': 3.752686521338655e-05, 'epoch': 24.95} {'loss': 0.0577, 'learning_rate': 3.75244665336199e-05, 'epoch': 24.95} {'loss': 0.0611, 'learning_rate': 3.7522067853853244e-05, 'epoch': 24.96} {'loss': 0.059, 'learning_rate': 3.751966917408658e-05, 'epoch': 24.96} {'loss': 0.0606, 'learning_rate': 3.751727049431993e-05, 'epoch': 24.97} {'loss': 0.0571, 'learning_rate': 3.751487181455327e-05, 'epoch': 24.97} {'loss': 0.0599, 'learning_rate': 3.7512473134786615e-05, 'epoch': 24.98} {'loss': 0.0605, 'learning_rate': 3.751007445501996e-05, 'epoch': 24.98} {'loss': 0.0595, 'learning_rate': 3.750767577525331e-05, 'epoch': 24.98} {'loss': 0.061, 'learning_rate': 3.7505277095486646e-05, 'epoch': 24.99} {'loss': 0.0619, 'learning_rate': 3.7502878415719985e-05, 'epoch': 24.99} {'loss': 0.0595, 'learning_rate': 3.750047973595333e-05, 'epoch': 25.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.055647462606430054, 'eval_runtime': 515.8476, 'eval_samples_per_second': 808.175, 'eval_steps_per_second': 101.022, 'epoch': 25.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-2605600 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-2605600/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-2605600/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-2501376] due to args.save_total_limit {'loss': 0.0621, 'learning_rate': 3.749808105618668e-05, 'epoch': 25.0} {'loss': 0.059, 'learning_rate': 3.7495682376420024e-05, 'epoch': 25.01} {'loss': 0.0628, 'learning_rate': 3.749328369665336e-05, 'epoch': 25.01} {'loss': 0.0603, 'learning_rate': 3.749088501688671e-05, 'epoch': 25.02} {'loss': 0.0611, 'learning_rate': 3.748848633712005e-05, 'epoch': 25.02} {'loss': 0.0578, 'learning_rate': 3.7486087657353395e-05, 'epoch': 25.03} {'loss': 0.0605, 'learning_rate': 3.748368897758674e-05, 'epoch': 25.03} {'loss': 0.0609, 'learning_rate': 3.748129029782008e-05, 'epoch': 25.04} {'loss': 0.0567, 'learning_rate': 3.7478891618053426e-05, 'epoch': 25.04} {'loss': 0.0585, 'learning_rate': 3.7476492938286765e-05, 'epoch': 25.05} {'loss': 0.0585, 'learning_rate': 3.747409425852012e-05, 'epoch': 25.05} {'loss': 0.0634, 'learning_rate': 3.747169557875346e-05, 'epoch': 25.06} {'loss': 0.0588, 'learning_rate': 3.74692968989868e-05, 'epoch': 25.06} {'loss': 0.059, 'learning_rate': 3.746689821922014e-05, 'epoch': 25.07} {'loss': 0.0618, 'learning_rate': 3.746449953945348e-05, 'epoch': 25.07} {'loss': 0.0607, 'learning_rate': 3.7462100859686835e-05, 'epoch': 25.08} {'loss': 0.0595, 'learning_rate': 3.7459702179920174e-05, 'epoch': 25.08} {'loss': 0.0585, 'learning_rate': 3.745730350015352e-05, 'epoch': 25.09} {'loss': 0.0623, 'learning_rate': 3.745490482038686e-05, 'epoch': 25.09} {'loss': 0.0601, 'learning_rate': 3.7452506140620206e-05, 'epoch': 25.09} {'loss': 0.0595, 'learning_rate': 3.745010746085355e-05, 'epoch': 25.1} {'loss': 0.0581, 'learning_rate': 3.744770878108689e-05, 'epoch': 25.1} {'loss': 0.0597, 'learning_rate': 3.744531010132024e-05, 'epoch': 25.11} {'loss': 0.0603, 'learning_rate': 3.744291142155358e-05, 'epoch': 25.11} {'loss': 0.0611, 'learning_rate': 3.744051274178692e-05, 'epoch': 25.12} {'loss': 0.0605, 'learning_rate': 3.743811406202027e-05, 'epoch': 25.12} {'loss': 0.0572, 'learning_rate': 3.743571538225361e-05, 'epoch': 25.13} {'loss': 0.0568, 'learning_rate': 3.7433316702486954e-05, 'epoch': 25.13} {'loss': 0.0588, 'learning_rate': 3.7430918022720294e-05, 'epoch': 25.14} {'loss': 0.0643, 'learning_rate': 3.742851934295364e-05, 'epoch': 25.14} {'loss': 0.0576, 'learning_rate': 3.742612066318698e-05, 'epoch': 25.15} {'loss': 0.0582, 'learning_rate': 3.742372198342033e-05, 'epoch': 25.15} {'loss': 0.059, 'learning_rate': 3.742132330365367e-05, 'epoch': 25.16} {'loss': 0.0627, 'learning_rate': 3.741892462388701e-05, 'epoch': 25.16} {'loss': 0.0593, 'learning_rate': 3.741652594412036e-05, 'epoch': 25.17} {'loss': 0.058, 'learning_rate': 3.7414127264353696e-05, 'epoch': 25.17} {'loss': 0.0585, 'learning_rate': 3.741172858458705e-05, 'epoch': 25.18} {'loss': 0.0598, 'learning_rate': 3.740932990482039e-05, 'epoch': 25.18} {'loss': 0.0593, 'learning_rate': 3.7406931225053734e-05, 'epoch': 25.19} {'loss': 0.0586, 'learning_rate': 3.7404532545287074e-05, 'epoch': 25.19} {'loss': 0.0622, 'learning_rate': 3.740213386552042e-05, 'epoch': 25.2} {'loss': 0.058, 'learning_rate': 3.7399735185753766e-05, 'epoch': 25.2} {'loss': 0.0608, 'learning_rate': 3.7397336505987105e-05, 'epoch': 25.21} {'loss': 0.0592, 'learning_rate': 3.739493782622045e-05, 'epoch': 25.21} {'loss': 0.0595, 'learning_rate': 3.739253914645379e-05, 'epoch': 25.21} {'loss': 0.0596, 'learning_rate': 3.7390140466687137e-05, 'epoch': 25.22} {'loss': 0.06, 'learning_rate': 3.738774178692048e-05, 'epoch': 25.22} {'loss': 0.0575, 'learning_rate': 3.738534310715382e-05, 'epoch': 25.23} {'loss': 0.0623, 'learning_rate': 3.738294442738717e-05, 'epoch': 25.23} {'loss': 0.0597, 'learning_rate': 3.738054574762051e-05, 'epoch': 25.24} {'loss': 0.0597, 'learning_rate': 3.7378147067853853e-05, 'epoch': 25.24} {'loss': 0.0605, 'learning_rate': 3.73757483880872e-05, 'epoch': 25.25} {'loss': 0.0587, 'learning_rate': 3.7373349708320546e-05, 'epoch': 25.25} {'loss': 0.06, 'learning_rate': 3.7370951028553885e-05, 'epoch': 25.26} {'loss': 0.0629, 'learning_rate': 3.736855234878723e-05, 'epoch': 25.26} {'loss': 0.0598, 'learning_rate': 3.736615366902057e-05, 'epoch': 25.27} {'loss': 0.0609, 'learning_rate': 3.7363754989253916e-05, 'epoch': 25.27} {'loss': 0.0601, 'learning_rate': 3.736135630948726e-05, 'epoch': 25.28} {'loss': 0.0608, 'learning_rate': 3.73589576297206e-05, 'epoch': 25.28} {'loss': 0.0586, 'learning_rate': 3.735655894995395e-05, 'epoch': 25.29} {'loss': 0.0613, 'learning_rate': 3.735416027018729e-05, 'epoch': 25.29} {'loss': 0.0605, 'learning_rate': 3.735176159042063e-05, 'epoch': 25.3} {'loss': 0.0594, 'learning_rate': 3.734936291065398e-05, 'epoch': 25.3} {'loss': 0.0594, 'learning_rate': 3.734696423088732e-05, 'epoch': 25.31} {'loss': 0.0617, 'learning_rate': 3.7344565551120665e-05, 'epoch': 25.31} {'loss': 0.0597, 'learning_rate': 3.7342166871354004e-05, 'epoch': 25.32} {'loss': 0.0558, 'learning_rate': 3.733976819158736e-05, 'epoch': 25.32} {'loss': 0.0592, 'learning_rate': 3.7337369511820696e-05, 'epoch': 25.33} {'loss': 0.06, 'learning_rate': 3.733497083205404e-05, 'epoch': 25.33} {'loss': 0.0595, 'learning_rate': 3.733257215228738e-05, 'epoch': 25.33} {'loss': 0.0637, 'learning_rate': 3.733017347252072e-05, 'epoch': 25.34} {'loss': 0.0609, 'learning_rate': 3.7327774792754074e-05, 'epoch': 25.34} {'loss': 0.0598, 'learning_rate': 3.732537611298741e-05, 'epoch': 25.35} {'loss': 0.0581, 'learning_rate': 3.732297743322076e-05, 'epoch': 25.35} {'loss': 0.0598, 'learning_rate': 3.73205787534541e-05, 'epoch': 25.36} {'loss': 0.0601, 'learning_rate': 3.7318180073687445e-05, 'epoch': 25.36} {'loss': 0.0592, 'learning_rate': 3.731578139392079e-05, 'epoch': 25.37} {'loss': 0.059, 'learning_rate': 3.731338271415413e-05, 'epoch': 25.37} {'loss': 0.0601, 'learning_rate': 3.7310984034387476e-05, 'epoch': 25.38} {'loss': 0.0591, 'learning_rate': 3.7308585354620816e-05, 'epoch': 25.38} {'loss': 0.0609, 'learning_rate': 3.730618667485416e-05, 'epoch': 25.39} {'loss': 0.0588, 'learning_rate': 3.730378799508751e-05, 'epoch': 25.39} {'loss': 0.0595, 'learning_rate': 3.730138931532085e-05, 'epoch': 25.4} {'loss': 0.0598, 'learning_rate': 3.729899063555419e-05, 'epoch': 25.4} {'loss': 0.0606, 'learning_rate': 3.729659195578753e-05, 'epoch': 25.41} {'loss': 0.0602, 'learning_rate': 3.729419327602088e-05, 'epoch': 25.41} {'loss': 0.0582, 'learning_rate': 3.7291794596254225e-05, 'epoch': 25.42} {'loss': 0.0611, 'learning_rate': 3.728939591648757e-05, 'epoch': 25.42} {'loss': 0.059, 'learning_rate': 3.728699723672091e-05, 'epoch': 25.43} {'loss': 0.0592, 'learning_rate': 3.7284598556954256e-05, 'epoch': 25.43} {'loss': 0.0574, 'learning_rate': 3.7282199877187595e-05, 'epoch': 25.44} {'loss': 0.0588, 'learning_rate': 3.727980119742094e-05, 'epoch': 25.44} {'loss': 0.0588, 'learning_rate': 3.727740251765429e-05, 'epoch': 25.45} {'loss': 0.0588, 'learning_rate': 3.727500383788763e-05, 'epoch': 25.45} {'loss': 0.0616, 'learning_rate': 3.727260515812097e-05, 'epoch': 25.45} {'loss': 0.0599, 'learning_rate': 3.727020647835431e-05, 'epoch': 25.46} {'loss': 0.0601, 'learning_rate': 3.726780779858766e-05, 'epoch': 25.46} {'loss': 0.0623, 'learning_rate': 3.7265409118821005e-05, 'epoch': 25.47} {'loss': 0.0586, 'learning_rate': 3.7263010439054344e-05, 'epoch': 25.47} {'loss': 0.0587, 'learning_rate': 3.726061175928769e-05, 'epoch': 25.48} {'loss': 0.0585, 'learning_rate': 3.725821307952103e-05, 'epoch': 25.48} {'loss': 0.0613, 'learning_rate': 3.725581439975438e-05, 'epoch': 25.49} {'loss': 0.0588, 'learning_rate': 3.725341571998772e-05, 'epoch': 25.49} {'loss': 0.0605, 'learning_rate': 3.725101704022107e-05, 'epoch': 25.5} {'loss': 0.0565, 'learning_rate': 3.724861836045441e-05, 'epoch': 25.5} {'loss': 0.0588, 'learning_rate': 3.7246219680687746e-05, 'epoch': 25.51} {'loss': 0.0608, 'learning_rate': 3.72438210009211e-05, 'epoch': 25.51} {'loss': 0.06, 'learning_rate': 3.724142232115444e-05, 'epoch': 25.52} {'loss': 0.0611, 'learning_rate': 3.7239023641387784e-05, 'epoch': 25.52} {'loss': 0.0591, 'learning_rate': 3.7236624961621124e-05, 'epoch': 25.53} {'loss': 0.0597, 'learning_rate': 3.723422628185447e-05, 'epoch': 25.53} {'loss': 0.06, 'learning_rate': 3.7231827602087816e-05, 'epoch': 25.54} {'loss': 0.0593, 'learning_rate': 3.7229428922321155e-05, 'epoch': 25.54} {'loss': 0.0602, 'learning_rate': 3.72270302425545e-05, 'epoch': 25.55} {'loss': 0.0589, 'learning_rate': 3.722463156278784e-05, 'epoch': 25.55} {'loss': 0.0594, 'learning_rate': 3.722223288302119e-05, 'epoch': 25.56} {'loss': 0.0588, 'learning_rate': 3.7219834203254526e-05, 'epoch': 25.56} {'loss': 0.061, 'learning_rate': 3.721743552348788e-05, 'epoch': 25.57} {'loss': 0.06, 'learning_rate': 3.721503684372122e-05, 'epoch': 25.57} {'loss': 0.0614, 'learning_rate': 3.721263816395456e-05, 'epoch': 25.57} {'loss': 0.0577, 'learning_rate': 3.7210239484187904e-05, 'epoch': 25.58} {'loss': 0.0577, 'learning_rate': 3.720784080442124e-05, 'epoch': 25.58} {'loss': 0.0589, 'learning_rate': 3.7205442124654596e-05, 'epoch': 25.59} {'loss': 0.0599, 'learning_rate': 3.7203043444887935e-05, 'epoch': 25.59} {'loss': 0.0604, 'learning_rate': 3.720064476512128e-05, 'epoch': 25.6} {'loss': 0.0579, 'learning_rate': 3.719824608535462e-05, 'epoch': 25.6} {'loss': 0.0586, 'learning_rate': 3.719584740558797e-05, 'epoch': 25.61} {'loss': 0.0594, 'learning_rate': 3.719344872582131e-05, 'epoch': 25.61} {'loss': 0.0578, 'learning_rate': 3.719105004605465e-05, 'epoch': 25.62} {'loss': 0.0576, 'learning_rate': 3.7188651366288e-05, 'epoch': 25.62} {'loss': 0.0599, 'learning_rate': 3.718625268652134e-05, 'epoch': 25.63} {'loss': 0.059, 'learning_rate': 3.7183854006754684e-05, 'epoch': 25.63} {'loss': 0.0566, 'learning_rate': 3.718145532698803e-05, 'epoch': 25.64} {'loss': 0.0583, 'learning_rate': 3.717905664722137e-05, 'epoch': 25.64} {'loss': 0.0584, 'learning_rate': 3.7176657967454715e-05, 'epoch': 25.65} {'loss': 0.0573, 'learning_rate': 3.7174259287688054e-05, 'epoch': 25.65} {'loss': 0.0586, 'learning_rate': 3.71718606079214e-05, 'epoch': 25.66} {'loss': 0.0608, 'learning_rate': 3.7169461928154747e-05, 'epoch': 25.66} {'loss': 0.0601, 'learning_rate': 3.716706324838809e-05, 'epoch': 25.67} {'loss': 0.0579, 'learning_rate': 3.716466456862143e-05, 'epoch': 25.67} {'loss': 0.0593, 'learning_rate': 3.716226588885478e-05, 'epoch': 25.68} {'loss': 0.0627, 'learning_rate': 3.715986720908812e-05, 'epoch': 25.68} {'loss': 0.0593, 'learning_rate': 3.7157468529321463e-05, 'epoch': 25.69} {'loss': 0.0585, 'learning_rate': 3.715506984955481e-05, 'epoch': 25.69} {'loss': 0.0597, 'learning_rate': 3.715267116978815e-05, 'epoch': 25.69} {'loss': 0.0649, 'learning_rate': 3.7150272490021495e-05, 'epoch': 25.7} {'loss': 0.0583, 'learning_rate': 3.7147873810254834e-05, 'epoch': 25.7} {'loss': 0.0607, 'learning_rate': 3.714547513048818e-05, 'epoch': 25.71} {'loss': 0.0612, 'learning_rate': 3.7143076450721526e-05, 'epoch': 25.71} {'loss': 0.0614, 'learning_rate': 3.7140677770954866e-05, 'epoch': 25.72} {'loss': 0.0576, 'learning_rate': 3.713827909118821e-05, 'epoch': 25.72} {'loss': 0.058, 'learning_rate': 3.713588041142155e-05, 'epoch': 25.73} {'loss': 0.0585, 'learning_rate': 3.7133481731654904e-05, 'epoch': 25.73} {'loss': 0.059, 'learning_rate': 3.713108305188824e-05, 'epoch': 25.74} {'loss': 0.0568, 'learning_rate': 3.712868437212158e-05, 'epoch': 25.74} {'loss': 0.0601, 'learning_rate': 3.712628569235493e-05, 'epoch': 25.75} {'loss': 0.0592, 'learning_rate': 3.712388701258827e-05, 'epoch': 25.75} {'loss': 0.0589, 'learning_rate': 3.712148833282162e-05, 'epoch': 25.76} {'loss': 0.0587, 'learning_rate': 3.711908965305496e-05, 'epoch': 25.76} {'loss': 0.0582, 'learning_rate': 3.7116690973288306e-05, 'epoch': 25.77} {'loss': 0.0594, 'learning_rate': 3.7114292293521646e-05, 'epoch': 25.77} {'loss': 0.0768, 'learning_rate': 3.711189361375499e-05, 'epoch': 25.78} {'loss': 0.0741, 'learning_rate': 3.710949493398834e-05, 'epoch': 25.78} {'loss': 0.0659, 'learning_rate': 3.710709625422168e-05, 'epoch': 25.79} {'loss': 0.059, 'learning_rate': 3.710469757445502e-05, 'epoch': 25.79} {'loss': 0.0587, 'learning_rate': 3.710229889468836e-05, 'epoch': 25.8} {'loss': 0.0579, 'learning_rate': 3.709990021492171e-05, 'epoch': 25.8} {'loss': 0.059, 'learning_rate': 3.7097501535155055e-05, 'epoch': 25.8} {'loss': 0.0579, 'learning_rate': 3.7095102855388394e-05, 'epoch': 25.81} {'loss': 0.0588, 'learning_rate': 3.709270417562174e-05, 'epoch': 25.81} {'loss': 0.06, 'learning_rate': 3.709030549585508e-05, 'epoch': 25.82} {'loss': 0.0578, 'learning_rate': 3.7087906816088426e-05, 'epoch': 25.82} {'loss': 0.0572, 'learning_rate': 3.708550813632177e-05, 'epoch': 25.83} {'loss': 0.0592, 'learning_rate': 3.708310945655512e-05, 'epoch': 25.83} {'loss': 0.0617, 'learning_rate': 3.708071077678846e-05, 'epoch': 25.84} {'loss': 0.0596, 'learning_rate': 3.70783120970218e-05, 'epoch': 25.84} {'loss': 0.0573, 'learning_rate': 3.707591341725514e-05, 'epoch': 25.85} {'loss': 0.0618, 'learning_rate': 3.707351473748849e-05, 'epoch': 25.85} {'loss': 0.0595, 'learning_rate': 3.7071116057721835e-05, 'epoch': 25.86} {'loss': 0.0582, 'learning_rate': 3.7068717377955174e-05, 'epoch': 25.86} {'loss': 0.0577, 'learning_rate': 3.706631869818852e-05, 'epoch': 25.87} {'loss': 0.0589, 'learning_rate': 3.706392001842186e-05, 'epoch': 25.87} {'loss': 0.0566, 'learning_rate': 3.7061521338655205e-05, 'epoch': 25.88} {'loss': 0.0597, 'learning_rate': 3.705912265888855e-05, 'epoch': 25.88} {'loss': 0.0614, 'learning_rate': 3.705672397912189e-05, 'epoch': 25.89} {'loss': 0.0586, 'learning_rate': 3.705432529935524e-05, 'epoch': 25.89} {'loss': 0.0611, 'learning_rate': 3.7051926619588576e-05, 'epoch': 25.9} {'loss': 0.0609, 'learning_rate': 3.704952793982193e-05, 'epoch': 25.9} {'loss': 0.0558, 'learning_rate': 3.704712926005527e-05, 'epoch': 25.91} {'loss': 0.0601, 'learning_rate': 3.7044730580288615e-05, 'epoch': 25.91} {'loss': 0.0588, 'learning_rate': 3.7042331900521954e-05, 'epoch': 25.92} {'loss': 0.0589, 'learning_rate': 3.703993322075529e-05, 'epoch': 25.92} {'loss': 0.0598, 'learning_rate': 3.7037534540988646e-05, 'epoch': 25.92} {'loss': 0.0586, 'learning_rate': 3.7035135861221985e-05, 'epoch': 25.93} {'loss': 0.0603, 'learning_rate': 3.703273718145533e-05, 'epoch': 25.93} {'loss': 0.0603, 'learning_rate': 3.703033850168867e-05, 'epoch': 25.94} {'loss': 0.0602, 'learning_rate': 3.702793982192202e-05, 'epoch': 25.94} {'loss': 0.059, 'learning_rate': 3.702554114215536e-05, 'epoch': 25.95} {'loss': 0.0601, 'learning_rate': 3.70231424623887e-05, 'epoch': 25.95} {'loss': 0.058, 'learning_rate': 3.702074378262205e-05, 'epoch': 25.96} {'loss': 0.059, 'learning_rate': 3.701834510285539e-05, 'epoch': 25.96} {'loss': 0.0607, 'learning_rate': 3.7015946423088734e-05, 'epoch': 25.97} {'loss': 0.0583, 'learning_rate': 3.701354774332207e-05, 'epoch': 25.97} {'loss': 0.0611, 'learning_rate': 3.701114906355542e-05, 'epoch': 25.98} {'loss': 0.0592, 'learning_rate': 3.7008750383788765e-05, 'epoch': 25.98} {'loss': 0.0574, 'learning_rate': 3.7006351704022105e-05, 'epoch': 25.99} {'loss': 0.0606, 'learning_rate': 3.700395302425545e-05, 'epoch': 25.99} {'loss': 0.0583, 'learning_rate': 3.700155434448879e-05, 'epoch': 26.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.05523492023348808, 'eval_runtime': 514.7035, 'eval_samples_per_second': 809.971, 'eval_steps_per_second': 101.247, 'epoch': 26.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-2709824 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-2709824/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-2709824/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-2605600] due to args.save_total_limit {'loss': 0.0614, 'learning_rate': 3.699915566472214e-05, 'epoch': 26.0} {'loss': 0.0555, 'learning_rate': 3.699675698495548e-05, 'epoch': 26.01} {'loss': 0.0585, 'learning_rate': 3.699435830518883e-05, 'epoch': 26.01} {'loss': 0.0591, 'learning_rate': 3.699195962542217e-05, 'epoch': 26.02} {'loss': 0.0597, 'learning_rate': 3.6989560945655514e-05, 'epoch': 26.02} {'loss': 0.0586, 'learning_rate': 3.698716226588886e-05, 'epoch': 26.03} {'loss': 0.0579, 'learning_rate': 3.69847635861222e-05, 'epoch': 26.03} {'loss': 0.0597, 'learning_rate': 3.6982364906355545e-05, 'epoch': 26.04} {'loss': 0.0593, 'learning_rate': 3.6979966226588885e-05, 'epoch': 26.04} {'loss': 0.0601, 'learning_rate': 3.697756754682223e-05, 'epoch': 26.04} {'loss': 0.059, 'learning_rate': 3.697516886705558e-05, 'epoch': 26.05} {'loss': 0.058, 'learning_rate': 3.6972770187288916e-05, 'epoch': 26.05} {'loss': 0.0585, 'learning_rate': 3.697037150752226e-05, 'epoch': 26.06} {'loss': 0.0571, 'learning_rate': 3.69679728277556e-05, 'epoch': 26.06} {'loss': 0.0563, 'learning_rate': 3.696557414798895e-05, 'epoch': 26.07} {'loss': 0.0603, 'learning_rate': 3.6963175468222294e-05, 'epoch': 26.07} {'loss': 0.0602, 'learning_rate': 3.696077678845564e-05, 'epoch': 26.08} {'loss': 0.0579, 'learning_rate': 3.695837810868898e-05, 'epoch': 26.08} {'loss': 0.0567, 'learning_rate': 3.695597942892232e-05, 'epoch': 26.09} {'loss': 0.0604, 'learning_rate': 3.6953580749155664e-05, 'epoch': 26.09} {'loss': 0.0571, 'learning_rate': 3.695118206938901e-05, 'epoch': 26.1} {'loss': 0.0582, 'learning_rate': 3.6948783389622357e-05, 'epoch': 26.1} {'loss': 0.0572, 'learning_rate': 3.6946384709855696e-05, 'epoch': 26.11} {'loss': 0.0596, 'learning_rate': 3.694398603008904e-05, 'epoch': 26.11} {'loss': 0.0594, 'learning_rate': 3.694158735032238e-05, 'epoch': 26.12} {'loss': 0.0585, 'learning_rate': 3.693918867055573e-05, 'epoch': 26.12} {'loss': 0.0587, 'learning_rate': 3.6936789990789073e-05, 'epoch': 26.13} {'loss': 0.057, 'learning_rate': 3.693439131102241e-05, 'epoch': 26.13} {'loss': 0.0576, 'learning_rate': 3.693199263125576e-05, 'epoch': 26.14} {'loss': 0.0566, 'learning_rate': 3.69295939514891e-05, 'epoch': 26.14} {'loss': 0.0577, 'learning_rate': 3.692719527172245e-05, 'epoch': 26.15} {'loss': 0.0592, 'learning_rate': 3.692479659195579e-05, 'epoch': 26.15} {'loss': 0.0602, 'learning_rate': 3.692239791218913e-05, 'epoch': 26.16} {'loss': 0.0605, 'learning_rate': 3.6919999232422476e-05, 'epoch': 26.16} {'loss': 0.058, 'learning_rate': 3.6917600552655815e-05, 'epoch': 26.16} {'loss': 0.058, 'learning_rate': 3.691520187288917e-05, 'epoch': 26.17} {'loss': 0.0582, 'learning_rate': 3.691280319312251e-05, 'epoch': 26.17} {'loss': 0.0597, 'learning_rate': 3.6910404513355853e-05, 'epoch': 26.18} {'loss': 0.0587, 'learning_rate': 3.690800583358919e-05, 'epoch': 26.18} {'loss': 0.0583, 'learning_rate': 3.690560715382254e-05, 'epoch': 26.19} {'loss': 0.058, 'learning_rate': 3.6903208474055885e-05, 'epoch': 26.19} {'loss': 0.0588, 'learning_rate': 3.6900809794289224e-05, 'epoch': 26.2} {'loss': 0.0581, 'learning_rate': 3.689841111452257e-05, 'epoch': 26.2} {'loss': 0.0616, 'learning_rate': 3.689601243475591e-05, 'epoch': 26.21} {'loss': 0.057, 'learning_rate': 3.6893613754989256e-05, 'epoch': 26.21} {'loss': 0.0569, 'learning_rate': 3.68912150752226e-05, 'epoch': 26.22} {'loss': 0.0585, 'learning_rate': 3.688881639545594e-05, 'epoch': 26.22} {'loss': 0.0591, 'learning_rate': 3.688641771568929e-05, 'epoch': 26.23} {'loss': 0.0645, 'learning_rate': 3.6884019035922627e-05, 'epoch': 26.23} {'loss': 0.057, 'learning_rate': 3.688162035615597e-05, 'epoch': 26.24} {'loss': 0.0612, 'learning_rate': 3.687922167638932e-05, 'epoch': 26.24} {'loss': 0.0587, 'learning_rate': 3.6876822996622665e-05, 'epoch': 26.25} {'loss': 0.0599, 'learning_rate': 3.6874424316856004e-05, 'epoch': 26.25} {'loss': 0.0593, 'learning_rate': 3.687202563708935e-05, 'epoch': 26.26} {'loss': 0.0607, 'learning_rate': 3.686962695732269e-05, 'epoch': 26.26} {'loss': 0.0589, 'learning_rate': 3.6867228277556036e-05, 'epoch': 26.27} {'loss': 0.0557, 'learning_rate': 3.686482959778938e-05, 'epoch': 26.27} {'loss': 0.0569, 'learning_rate': 3.686243091802272e-05, 'epoch': 26.28} {'loss': 0.059, 'learning_rate': 3.686003223825607e-05, 'epoch': 26.28} {'loss': 0.057, 'learning_rate': 3.6857633558489406e-05, 'epoch': 26.28} {'loss': 0.0581, 'learning_rate': 3.685523487872275e-05, 'epoch': 26.29} {'loss': 0.0551, 'learning_rate': 3.68528361989561e-05, 'epoch': 26.29} {'loss': 0.0585, 'learning_rate': 3.685043751918944e-05, 'epoch': 26.3} {'loss': 0.0596, 'learning_rate': 3.6848038839422784e-05, 'epoch': 26.3} {'loss': 0.0588, 'learning_rate': 3.684564015965612e-05, 'epoch': 26.31} {'loss': 0.0571, 'learning_rate': 3.6843241479889476e-05, 'epoch': 26.31} {'loss': 0.06, 'learning_rate': 3.6840842800122815e-05, 'epoch': 26.32} {'loss': 0.0555, 'learning_rate': 3.6838444120356155e-05, 'epoch': 26.32} {'loss': 0.059, 'learning_rate': 3.68360454405895e-05, 'epoch': 26.33} {'loss': 0.0582, 'learning_rate': 3.683364676082284e-05, 'epoch': 26.33} {'loss': 0.0564, 'learning_rate': 3.683124808105619e-05, 'epoch': 26.34} {'loss': 0.0577, 'learning_rate': 3.682884940128953e-05, 'epoch': 26.34} {'loss': 0.0579, 'learning_rate': 3.682645072152288e-05, 'epoch': 26.35} {'loss': 0.0585, 'learning_rate': 3.682405204175622e-05, 'epoch': 26.35} {'loss': 0.0572, 'learning_rate': 3.6821653361989564e-05, 'epoch': 26.36} {'loss': 0.0559, 'learning_rate': 3.681925468222291e-05, 'epoch': 26.36} {'loss': 0.0611, 'learning_rate': 3.681685600245625e-05, 'epoch': 26.37} {'loss': 0.0584, 'learning_rate': 3.6814457322689595e-05, 'epoch': 26.37} {'loss': 0.0599, 'learning_rate': 3.6812058642922935e-05, 'epoch': 26.38} {'loss': 0.0587, 'learning_rate': 3.680965996315628e-05, 'epoch': 26.38} {'loss': 0.06, 'learning_rate': 3.680726128338963e-05, 'epoch': 26.39} {'loss': 0.0568, 'learning_rate': 3.6804862603622966e-05, 'epoch': 26.39} {'loss': 0.059, 'learning_rate': 3.680246392385631e-05, 'epoch': 26.4} {'loss': 0.0591, 'learning_rate': 3.680006524408965e-05, 'epoch': 26.4} {'loss': 0.0591, 'learning_rate': 3.6797666564323e-05, 'epoch': 26.4} {'loss': 0.0587, 'learning_rate': 3.679526788455634e-05, 'epoch': 26.41} {'loss': 0.0585, 'learning_rate': 3.679286920478969e-05, 'epoch': 26.41} {'loss': 0.061, 'learning_rate': 3.679047052502303e-05, 'epoch': 26.42} {'loss': 0.0578, 'learning_rate': 3.6788071845256375e-05, 'epoch': 26.42} {'loss': 0.058, 'learning_rate': 3.6785673165489715e-05, 'epoch': 26.43} {'loss': 0.0597, 'learning_rate': 3.6783274485723054e-05, 'epoch': 26.43} {'loss': 0.0586, 'learning_rate': 3.678087580595641e-05, 'epoch': 26.44} {'loss': 0.0591, 'learning_rate': 3.6778477126189746e-05, 'epoch': 26.44} {'loss': 0.0565, 'learning_rate': 3.677607844642309e-05, 'epoch': 26.45} {'loss': 0.059, 'learning_rate': 3.677367976665643e-05, 'epoch': 26.45} {'loss': 0.0581, 'learning_rate': 3.677128108688978e-05, 'epoch': 26.46} {'loss': 0.0583, 'learning_rate': 3.6768882407123124e-05, 'epoch': 26.46} {'loss': 0.0599, 'learning_rate': 3.676648372735646e-05, 'epoch': 26.47} {'loss': 0.0582, 'learning_rate': 3.676408504758981e-05, 'epoch': 26.47} {'loss': 0.0563, 'learning_rate': 3.676168636782315e-05, 'epoch': 26.48} {'loss': 0.0606, 'learning_rate': 3.6759287688056495e-05, 'epoch': 26.48} {'loss': 0.0568, 'learning_rate': 3.675688900828984e-05, 'epoch': 26.49} {'loss': 0.0592, 'learning_rate': 3.675449032852319e-05, 'epoch': 26.49} {'loss': 0.0578, 'learning_rate': 3.6752091648756526e-05, 'epoch': 26.5} {'loss': 0.0574, 'learning_rate': 3.6749692968989865e-05, 'epoch': 26.5} {'loss': 0.0617, 'learning_rate': 3.674729428922321e-05, 'epoch': 26.51} {'loss': 0.0565, 'learning_rate': 3.674489560945656e-05, 'epoch': 26.51} {'loss': 0.0593, 'learning_rate': 3.6742496929689904e-05, 'epoch': 26.52} {'loss': 0.0585, 'learning_rate': 3.674009824992324e-05, 'epoch': 26.52} {'loss': 0.06, 'learning_rate': 3.673769957015659e-05, 'epoch': 26.52} {'loss': 0.0615, 'learning_rate': 3.673530089038993e-05, 'epoch': 26.53} {'loss': 0.0582, 'learning_rate': 3.6732902210623274e-05, 'epoch': 26.53} {'loss': 0.061, 'learning_rate': 3.673050353085662e-05, 'epoch': 26.54} {'loss': 0.0592, 'learning_rate': 3.672810485108996e-05, 'epoch': 26.54} {'loss': 0.0599, 'learning_rate': 3.6725706171323306e-05, 'epoch': 26.55} {'loss': 0.0604, 'learning_rate': 3.6723307491556645e-05, 'epoch': 26.55} {'loss': 0.0586, 'learning_rate': 3.672090881178999e-05, 'epoch': 26.56} {'loss': 0.0587, 'learning_rate': 3.671851013202334e-05, 'epoch': 26.56} {'loss': 0.0575, 'learning_rate': 3.671611145225668e-05, 'epoch': 26.57} {'loss': 0.0578, 'learning_rate': 3.671371277249002e-05, 'epoch': 26.57} {'loss': 0.0588, 'learning_rate': 3.671131409272336e-05, 'epoch': 26.58} {'loss': 0.0576, 'learning_rate': 3.6708915412956715e-05, 'epoch': 26.58} {'loss': 0.0577, 'learning_rate': 3.6706516733190054e-05, 'epoch': 26.59} {'loss': 0.0588, 'learning_rate': 3.67041180534234e-05, 'epoch': 26.59} {'loss': 0.0599, 'learning_rate': 3.670171937365674e-05, 'epoch': 26.6} {'loss': 0.0594, 'learning_rate': 3.6699320693890086e-05, 'epoch': 26.6} {'loss': 0.059, 'learning_rate': 3.669692201412343e-05, 'epoch': 26.61} {'loss': 0.0604, 'learning_rate': 3.669452333435677e-05, 'epoch': 26.61} {'loss': 0.0566, 'learning_rate': 3.669212465459012e-05, 'epoch': 26.62} {'loss': 0.0576, 'learning_rate': 3.668972597482346e-05, 'epoch': 26.62} {'loss': 0.0601, 'learning_rate': 3.66873272950568e-05, 'epoch': 26.63} {'loss': 0.0573, 'learning_rate': 3.668492861529015e-05, 'epoch': 26.63} {'loss': 0.0607, 'learning_rate': 3.668252993552349e-05, 'epoch': 26.63} {'loss': 0.0589, 'learning_rate': 3.6680131255756834e-05, 'epoch': 26.64} {'loss': 0.0566, 'learning_rate': 3.6677732575990174e-05, 'epoch': 26.64} {'loss': 0.0603, 'learning_rate': 3.667533389622352e-05, 'epoch': 26.65} {'loss': 0.058, 'learning_rate': 3.6672935216456866e-05, 'epoch': 26.65} {'loss': 0.0593, 'learning_rate': 3.667053653669021e-05, 'epoch': 26.66} {'loss': 0.0598, 'learning_rate': 3.666813785692355e-05, 'epoch': 26.66} {'loss': 0.0549, 'learning_rate': 3.666573917715689e-05, 'epoch': 26.67} {'loss': 0.0588, 'learning_rate': 3.6663340497390237e-05, 'epoch': 26.67} {'loss': 0.0592, 'learning_rate': 3.666094181762358e-05, 'epoch': 26.68} {'loss': 0.0588, 'learning_rate': 3.665854313785693e-05, 'epoch': 26.68} {'loss': 0.059, 'learning_rate': 3.665614445809027e-05, 'epoch': 26.69} {'loss': 0.0596, 'learning_rate': 3.6653745778323614e-05, 'epoch': 26.69} {'loss': 0.0584, 'learning_rate': 3.6651347098556953e-05, 'epoch': 26.7} {'loss': 0.0595, 'learning_rate': 3.66489484187903e-05, 'epoch': 26.7} {'loss': 0.0583, 'learning_rate': 3.6646549739023646e-05, 'epoch': 26.71} {'loss': 0.0566, 'learning_rate': 3.6644151059256985e-05, 'epoch': 26.71} {'loss': 0.0574, 'learning_rate': 3.664175237949033e-05, 'epoch': 26.72} {'loss': 0.0571, 'learning_rate': 3.663935369972367e-05, 'epoch': 26.72} {'loss': 0.0593, 'learning_rate': 3.663695501995702e-05, 'epoch': 26.73} {'loss': 0.0594, 'learning_rate': 3.663455634019036e-05, 'epoch': 26.73} {'loss': 0.0574, 'learning_rate': 3.66321576604237e-05, 'epoch': 26.74} {'loss': 0.0593, 'learning_rate': 3.662975898065705e-05, 'epoch': 26.74} {'loss': 0.0594, 'learning_rate': 3.662736030089039e-05, 'epoch': 26.75} {'loss': 0.0571, 'learning_rate': 3.662496162112374e-05, 'epoch': 26.75} {'loss': 0.0572, 'learning_rate': 3.662256294135708e-05, 'epoch': 26.75} {'loss': 0.0589, 'learning_rate': 3.6620164261590426e-05, 'epoch': 26.76} {'loss': 0.0595, 'learning_rate': 3.6617765581823765e-05, 'epoch': 26.76} {'loss': 0.0595, 'learning_rate': 3.661536690205711e-05, 'epoch': 26.77} {'loss': 0.0598, 'learning_rate': 3.661296822229046e-05, 'epoch': 26.77} {'loss': 0.0579, 'learning_rate': 3.6610569542523796e-05, 'epoch': 26.78} {'loss': 0.0599, 'learning_rate': 3.660817086275714e-05, 'epoch': 26.78} {'loss': 0.0602, 'learning_rate': 3.660577218299048e-05, 'epoch': 26.79} {'loss': 0.0598, 'learning_rate': 3.660337350322383e-05, 'epoch': 26.79} {'loss': 0.0566, 'learning_rate': 3.6600974823457174e-05, 'epoch': 26.8} {'loss': 0.059, 'learning_rate': 3.659857614369051e-05, 'epoch': 26.8} {'loss': 0.0576, 'learning_rate': 3.659617746392386e-05, 'epoch': 26.81} {'loss': 0.0611, 'learning_rate': 3.65937787841572e-05, 'epoch': 26.81} {'loss': 0.0567, 'learning_rate': 3.6591380104390545e-05, 'epoch': 26.82} {'loss': 0.0591, 'learning_rate': 3.6588981424623884e-05, 'epoch': 26.82} {'loss': 0.0579, 'learning_rate': 3.658658274485724e-05, 'epoch': 26.83} {'loss': 0.0572, 'learning_rate': 3.6584184065090576e-05, 'epoch': 26.83} {'loss': 0.0593, 'learning_rate': 3.658178538532392e-05, 'epoch': 26.84} {'loss': 0.0586, 'learning_rate': 3.657938670555726e-05, 'epoch': 26.84} {'loss': 0.0588, 'learning_rate': 3.65769880257906e-05, 'epoch': 26.85} {'loss': 0.0591, 'learning_rate': 3.6574589346023954e-05, 'epoch': 26.85} {'loss': 0.0583, 'learning_rate': 3.657219066625729e-05, 'epoch': 26.86} {'loss': 0.0593, 'learning_rate': 3.656979198649064e-05, 'epoch': 26.86} {'loss': 0.0575, 'learning_rate': 3.656739330672398e-05, 'epoch': 26.87} {'loss': 0.0576, 'learning_rate': 3.6564994626957325e-05, 'epoch': 26.87} {'loss': 0.0576, 'learning_rate': 3.656259594719067e-05, 'epoch': 26.87} {'loss': 0.0562, 'learning_rate': 3.656019726742401e-05, 'epoch': 26.88} {'loss': 0.0615, 'learning_rate': 3.6557798587657356e-05, 'epoch': 26.88} {'loss': 0.0561, 'learning_rate': 3.6555399907890695e-05, 'epoch': 26.89} {'loss': 0.0566, 'learning_rate': 3.655300122812404e-05, 'epoch': 26.89} {'loss': 0.0587, 'learning_rate': 3.655060254835739e-05, 'epoch': 26.9} {'loss': 0.0594, 'learning_rate': 3.654820386859073e-05, 'epoch': 26.9} {'loss': 0.0568, 'learning_rate': 3.654580518882407e-05, 'epoch': 26.91} {'loss': 0.0592, 'learning_rate': 3.654340650905741e-05, 'epoch': 26.91} {'loss': 0.0586, 'learning_rate': 3.654100782929076e-05, 'epoch': 26.92} {'loss': 0.0589, 'learning_rate': 3.6538609149524105e-05, 'epoch': 26.92} {'loss': 0.0583, 'learning_rate': 3.653621046975745e-05, 'epoch': 26.93} {'loss': 0.055, 'learning_rate': 3.653381178999079e-05, 'epoch': 26.93} {'loss': 0.0581, 'learning_rate': 3.6531413110224136e-05, 'epoch': 26.94} {'loss': 0.0594, 'learning_rate': 3.6529014430457475e-05, 'epoch': 26.94} {'loss': 0.0578, 'learning_rate': 3.652661575069082e-05, 'epoch': 26.95} {'loss': 0.0556, 'learning_rate': 3.652421707092417e-05, 'epoch': 26.95} {'loss': 0.0571, 'learning_rate': 3.652181839115751e-05, 'epoch': 26.96} {'loss': 0.0596, 'learning_rate': 3.651941971139085e-05, 'epoch': 26.96} {'loss': 0.0591, 'learning_rate': 3.651702103162419e-05, 'epoch': 26.97} {'loss': 0.0584, 'learning_rate': 3.651462235185754e-05, 'epoch': 26.97} {'loss': 0.0589, 'learning_rate': 3.6512223672090884e-05, 'epoch': 26.98} {'loss': 0.0593, 'learning_rate': 3.6509824992324224e-05, 'epoch': 26.98} {'loss': 0.0591, 'learning_rate': 3.650742631255757e-05, 'epoch': 26.99} {'loss': 0.0569, 'learning_rate': 3.650502763279091e-05, 'epoch': 26.99} {'loss': 0.0574, 'learning_rate': 3.650262895302426e-05, 'epoch': 26.99} {'loss': 0.0564, 'learning_rate': 3.65002302732576e-05, 'epoch': 27.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.05448218807578087, 'eval_runtime': 514.0401, 'eval_samples_per_second': 811.017, 'eval_steps_per_second': 101.377, 'epoch': 27.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-2814048 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-2814048/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-2814048/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-2709824] due to args.save_total_limit {'loss': 0.0599, 'learning_rate': 3.649783159349095e-05, 'epoch': 27.0} {'loss': 0.0582, 'learning_rate': 3.649543291372429e-05, 'epoch': 27.01} {'loss': 0.0542, 'learning_rate': 3.6493034233957626e-05, 'epoch': 27.01} {'loss': 0.0567, 'learning_rate': 3.649063555419098e-05, 'epoch': 27.02} {'loss': 0.0572, 'learning_rate': 3.648823687442432e-05, 'epoch': 27.02} {'loss': 0.0572, 'learning_rate': 3.6485838194657664e-05, 'epoch': 27.03} {'loss': 0.0592, 'learning_rate': 3.6483439514891004e-05, 'epoch': 27.03} {'loss': 0.0584, 'learning_rate': 3.648104083512435e-05, 'epoch': 27.04} {'loss': 0.058, 'learning_rate': 3.6478642155357696e-05, 'epoch': 27.04} {'loss': 0.0598, 'learning_rate': 3.6476243475591035e-05, 'epoch': 27.05} {'loss': 0.0586, 'learning_rate': 3.647384479582438e-05, 'epoch': 27.05} {'loss': 0.0596, 'learning_rate': 3.647144611605772e-05, 'epoch': 27.06} {'loss': 0.058, 'learning_rate': 3.646904743629107e-05, 'epoch': 27.06} {'loss': 0.0597, 'learning_rate': 3.646664875652441e-05, 'epoch': 27.07} {'loss': 0.057, 'learning_rate': 3.646425007675776e-05, 'epoch': 27.07} {'loss': 0.0576, 'learning_rate': 3.64618513969911e-05, 'epoch': 27.08} {'loss': 0.0571, 'learning_rate': 3.645945271722444e-05, 'epoch': 27.08} {'loss': 0.0588, 'learning_rate': 3.6457054037457784e-05, 'epoch': 27.09} {'loss': 0.0584, 'learning_rate': 3.645465535769113e-05, 'epoch': 27.09} {'loss': 0.0583, 'learning_rate': 3.6452256677924476e-05, 'epoch': 27.1} {'loss': 0.0586, 'learning_rate': 3.6449857998157815e-05, 'epoch': 27.1} {'loss': 0.0607, 'learning_rate': 3.644745931839116e-05, 'epoch': 27.11} {'loss': 0.0579, 'learning_rate': 3.64450606386245e-05, 'epoch': 27.11} {'loss': 0.0579, 'learning_rate': 3.6442661958857847e-05, 'epoch': 27.11} {'loss': 0.0586, 'learning_rate': 3.644026327909119e-05, 'epoch': 27.12} {'loss': 0.0586, 'learning_rate': 3.643786459932453e-05, 'epoch': 27.12} {'loss': 0.0582, 'learning_rate': 3.643546591955788e-05, 'epoch': 27.13} {'loss': 0.0592, 'learning_rate': 3.643306723979122e-05, 'epoch': 27.13} {'loss': 0.0581, 'learning_rate': 3.6430668560024563e-05, 'epoch': 27.14} {'loss': 0.0577, 'learning_rate': 3.642826988025791e-05, 'epoch': 27.14} {'loss': 0.0578, 'learning_rate': 3.642587120049125e-05, 'epoch': 27.15} {'loss': 0.0577, 'learning_rate': 3.6423472520724595e-05, 'epoch': 27.15} {'loss': 0.0558, 'learning_rate': 3.6421073840957934e-05, 'epoch': 27.16} {'loss': 0.0583, 'learning_rate': 3.641867516119129e-05, 'epoch': 27.16} {'loss': 0.0579, 'learning_rate': 3.6416276481424626e-05, 'epoch': 27.17} {'loss': 0.0575, 'learning_rate': 3.641387780165797e-05, 'epoch': 27.17} {'loss': 0.0601, 'learning_rate': 3.641147912189131e-05, 'epoch': 27.18} {'loss': 0.0594, 'learning_rate': 3.640908044212465e-05, 'epoch': 27.18} {'loss': 0.0565, 'learning_rate': 3.6406681762358004e-05, 'epoch': 27.19} {'loss': 0.0588, 'learning_rate': 3.640428308259134e-05, 'epoch': 27.19} {'loss': 0.0584, 'learning_rate': 3.640188440282469e-05, 'epoch': 27.2} {'loss': 0.0583, 'learning_rate': 3.639948572305803e-05, 'epoch': 27.2} {'loss': 0.0592, 'learning_rate': 3.6397087043291375e-05, 'epoch': 27.21} {'loss': 0.0597, 'learning_rate': 3.639468836352472e-05, 'epoch': 27.21} {'loss': 0.0602, 'learning_rate': 3.639228968375806e-05, 'epoch': 27.22} {'loss': 0.0564, 'learning_rate': 3.6389891003991406e-05, 'epoch': 27.22} {'loss': 0.0576, 'learning_rate': 3.6387492324224746e-05, 'epoch': 27.23} {'loss': 0.057, 'learning_rate': 3.638509364445809e-05, 'epoch': 27.23} {'loss': 0.0571, 'learning_rate': 3.638269496469144e-05, 'epoch': 27.23} {'loss': 0.0582, 'learning_rate': 3.6380296284924784e-05, 'epoch': 27.24} {'loss': 0.0587, 'learning_rate': 3.637789760515812e-05, 'epoch': 27.24} {'loss': 0.058, 'learning_rate': 3.637549892539146e-05, 'epoch': 27.25} {'loss': 0.0575, 'learning_rate': 3.637310024562481e-05, 'epoch': 27.25} {'loss': 0.0601, 'learning_rate': 3.637070156585815e-05, 'epoch': 27.26} {'loss': 0.0595, 'learning_rate': 3.63683028860915e-05, 'epoch': 27.26} {'loss': 0.0559, 'learning_rate': 3.636590420632484e-05, 'epoch': 27.27} {'loss': 0.0584, 'learning_rate': 3.6363505526558186e-05, 'epoch': 27.27} {'loss': 0.0586, 'learning_rate': 3.6361106846791526e-05, 'epoch': 27.28} {'loss': 0.057, 'learning_rate': 3.635870816702487e-05, 'epoch': 27.28} {'loss': 0.0577, 'learning_rate': 3.635630948725822e-05, 'epoch': 27.29} {'loss': 0.0578, 'learning_rate': 3.635391080749156e-05, 'epoch': 27.29} {'loss': 0.0574, 'learning_rate': 3.63515121277249e-05, 'epoch': 27.3} {'loss': 0.0589, 'learning_rate': 3.634911344795824e-05, 'epoch': 27.3} {'loss': 0.0577, 'learning_rate': 3.634671476819159e-05, 'epoch': 27.31} {'loss': 0.0593, 'learning_rate': 3.6344316088424935e-05, 'epoch': 27.31} {'loss': 0.057, 'learning_rate': 3.6341917408658274e-05, 'epoch': 27.32} {'loss': 0.0574, 'learning_rate': 3.633951872889162e-05, 'epoch': 27.32} {'loss': 0.058, 'learning_rate': 3.633712004912496e-05, 'epoch': 27.33} {'loss': 0.0581, 'learning_rate': 3.6334721369358305e-05, 'epoch': 27.33} {'loss': 0.06, 'learning_rate': 3.633232268959165e-05, 'epoch': 27.34} {'loss': 0.0577, 'learning_rate': 3.6329924009825e-05, 'epoch': 27.34} {'loss': 0.0593, 'learning_rate': 3.632752533005834e-05, 'epoch': 27.34} {'loss': 0.0583, 'learning_rate': 3.632512665029168e-05, 'epoch': 27.35} {'loss': 0.0578, 'learning_rate': 3.632272797052502e-05, 'epoch': 27.35} {'loss': 0.0593, 'learning_rate': 3.632032929075837e-05, 'epoch': 27.36} {'loss': 0.0595, 'learning_rate': 3.6317930610991715e-05, 'epoch': 27.36} {'loss': 0.0619, 'learning_rate': 3.6315531931225054e-05, 'epoch': 27.37} {'loss': 0.0559, 'learning_rate': 3.63131332514584e-05, 'epoch': 27.37} {'loss': 0.0551, 'learning_rate': 3.631073457169174e-05, 'epoch': 27.38} {'loss': 0.0569, 'learning_rate': 3.6308335891925085e-05, 'epoch': 27.38} {'loss': 0.0579, 'learning_rate': 3.630593721215843e-05, 'epoch': 27.39} {'loss': 0.0581, 'learning_rate': 3.630353853239177e-05, 'epoch': 27.39} {'loss': 0.057, 'learning_rate': 3.630113985262512e-05, 'epoch': 27.4} {'loss': 0.0576, 'learning_rate': 3.6298741172858456e-05, 'epoch': 27.4} {'loss': 0.059, 'learning_rate': 3.629634249309181e-05, 'epoch': 27.41} {'loss': 0.0604, 'learning_rate': 3.629394381332515e-05, 'epoch': 27.41} {'loss': 0.0598, 'learning_rate': 3.6291545133558494e-05, 'epoch': 27.42} {'loss': 0.0579, 'learning_rate': 3.6289146453791834e-05, 'epoch': 27.42} {'loss': 0.0564, 'learning_rate': 3.628674777402517e-05, 'epoch': 27.43} {'loss': 0.0581, 'learning_rate': 3.6284349094258526e-05, 'epoch': 27.43} {'loss': 0.0572, 'learning_rate': 3.6281950414491865e-05, 'epoch': 27.44} {'loss': 0.0594, 'learning_rate': 3.627955173472521e-05, 'epoch': 27.44} {'loss': 0.0569, 'learning_rate': 3.627715305495855e-05, 'epoch': 27.45} {'loss': 0.0568, 'learning_rate': 3.62747543751919e-05, 'epoch': 27.45} {'loss': 0.0591, 'learning_rate': 3.627235569542524e-05, 'epoch': 27.46} {'loss': 0.0598, 'learning_rate': 3.626995701565858e-05, 'epoch': 27.46} {'loss': 0.0587, 'learning_rate': 3.626755833589193e-05, 'epoch': 27.46} {'loss': 0.0559, 'learning_rate': 3.626515965612527e-05, 'epoch': 27.47} {'loss': 0.0584, 'learning_rate': 3.6262760976358614e-05, 'epoch': 27.47} {'loss': 0.0592, 'learning_rate': 3.626036229659196e-05, 'epoch': 27.48} {'loss': 0.056, 'learning_rate': 3.62579636168253e-05, 'epoch': 27.48} {'loss': 0.0581, 'learning_rate': 3.6255564937058645e-05, 'epoch': 27.49} {'loss': 0.0584, 'learning_rate': 3.6253166257291984e-05, 'epoch': 27.49} {'loss': 0.057, 'learning_rate': 3.625076757752533e-05, 'epoch': 27.5} {'loss': 0.0561, 'learning_rate': 3.624836889775868e-05, 'epoch': 27.5} {'loss': 0.0586, 'learning_rate': 3.624597021799202e-05, 'epoch': 27.51} {'loss': 0.0555, 'learning_rate': 3.624357153822536e-05, 'epoch': 27.51} {'loss': 0.0573, 'learning_rate': 3.624117285845871e-05, 'epoch': 27.52} {'loss': 0.0575, 'learning_rate': 3.623877417869205e-05, 'epoch': 27.52} {'loss': 0.058, 'learning_rate': 3.6236375498925394e-05, 'epoch': 27.53} {'loss': 0.0577, 'learning_rate': 3.623397681915874e-05, 'epoch': 27.53} {'loss': 0.0576, 'learning_rate': 3.623157813939208e-05, 'epoch': 27.54} {'loss': 0.0574, 'learning_rate': 3.6229179459625425e-05, 'epoch': 27.54} {'loss': 0.0574, 'learning_rate': 3.6226780779858764e-05, 'epoch': 27.55} {'loss': 0.0569, 'learning_rate': 3.622438210009211e-05, 'epoch': 27.55} {'loss': 0.0567, 'learning_rate': 3.6221983420325457e-05, 'epoch': 27.56} {'loss': 0.0602, 'learning_rate': 3.6219584740558796e-05, 'epoch': 27.56} {'loss': 0.0543, 'learning_rate': 3.621718606079214e-05, 'epoch': 27.57} {'loss': 0.0562, 'learning_rate': 3.621478738102548e-05, 'epoch': 27.57} {'loss': 0.0581, 'learning_rate': 3.6212388701258834e-05, 'epoch': 27.58} {'loss': 0.0561, 'learning_rate': 3.6209990021492173e-05, 'epoch': 27.58} {'loss': 0.0549, 'learning_rate': 3.620759134172552e-05, 'epoch': 27.58} {'loss': 0.0594, 'learning_rate': 3.620519266195886e-05, 'epoch': 27.59} {'loss': 0.0566, 'learning_rate': 3.62027939821922e-05, 'epoch': 27.59} {'loss': 0.0572, 'learning_rate': 3.620039530242555e-05, 'epoch': 27.6} {'loss': 0.0582, 'learning_rate': 3.619799662265889e-05, 'epoch': 27.6} {'loss': 0.0592, 'learning_rate': 3.6195597942892236e-05, 'epoch': 27.61} {'loss': 0.0558, 'learning_rate': 3.6193199263125576e-05, 'epoch': 27.61} {'loss': 0.0571, 'learning_rate': 3.619080058335892e-05, 'epoch': 27.62} {'loss': 0.0538, 'learning_rate': 3.618840190359227e-05, 'epoch': 27.62} {'loss': 0.0561, 'learning_rate': 3.618600322382561e-05, 'epoch': 27.63} {'loss': 0.0573, 'learning_rate': 3.618360454405895e-05, 'epoch': 27.63} {'loss': 0.0593, 'learning_rate': 3.618120586429229e-05, 'epoch': 27.64} {'loss': 0.0568, 'learning_rate': 3.617880718452564e-05, 'epoch': 27.64} {'loss': 0.0586, 'learning_rate': 3.6176408504758985e-05, 'epoch': 27.65} {'loss': 0.0588, 'learning_rate': 3.617400982499233e-05, 'epoch': 27.65} {'loss': 0.0594, 'learning_rate': 3.617161114522567e-05, 'epoch': 27.66} {'loss': 0.0564, 'learning_rate': 3.616921246545901e-05, 'epoch': 27.66} {'loss': 0.0578, 'learning_rate': 3.6166813785692356e-05, 'epoch': 27.67} {'loss': 0.0566, 'learning_rate': 3.6164415105925695e-05, 'epoch': 27.67} {'loss': 0.058, 'learning_rate': 3.616201642615905e-05, 'epoch': 27.68} {'loss': 0.0595, 'learning_rate': 3.615961774639239e-05, 'epoch': 27.68} {'loss': 0.0576, 'learning_rate': 3.615721906662573e-05, 'epoch': 27.69} {'loss': 0.0584, 'learning_rate': 3.615482038685907e-05, 'epoch': 27.69} {'loss': 0.0583, 'learning_rate': 3.615242170709242e-05, 'epoch': 27.7} {'loss': 0.0598, 'learning_rate': 3.6150023027325765e-05, 'epoch': 27.7} {'loss': 0.0561, 'learning_rate': 3.6147624347559104e-05, 'epoch': 27.7} {'loss': 0.0579, 'learning_rate': 3.614522566779245e-05, 'epoch': 27.71} {'loss': 0.0567, 'learning_rate': 3.614282698802579e-05, 'epoch': 27.71} {'loss': 0.0589, 'learning_rate': 3.6140428308259136e-05, 'epoch': 27.72} {'loss': 0.0584, 'learning_rate': 3.613802962849248e-05, 'epoch': 27.72} {'loss': 0.0586, 'learning_rate': 3.613563094872582e-05, 'epoch': 27.73} {'loss': 0.0566, 'learning_rate': 3.613323226895917e-05, 'epoch': 27.73} {'loss': 0.0597, 'learning_rate': 3.6130833589192506e-05, 'epoch': 27.74} {'loss': 0.0583, 'learning_rate': 3.612843490942585e-05, 'epoch': 27.74} {'loss': 0.056, 'learning_rate': 3.61260362296592e-05, 'epoch': 27.75} {'loss': 0.058, 'learning_rate': 3.6123637549892545e-05, 'epoch': 27.75} {'loss': 0.0583, 'learning_rate': 3.6121238870125884e-05, 'epoch': 27.76} {'loss': 0.0571, 'learning_rate': 3.611884019035922e-05, 'epoch': 27.76} {'loss': 0.0574, 'learning_rate': 3.611644151059257e-05, 'epoch': 27.77} {'loss': 0.0586, 'learning_rate': 3.6114042830825915e-05, 'epoch': 27.77} {'loss': 0.0595, 'learning_rate': 3.611164415105926e-05, 'epoch': 27.78} {'loss': 0.0578, 'learning_rate': 3.61092454712926e-05, 'epoch': 27.78} {'loss': 0.0552, 'learning_rate': 3.610684679152595e-05, 'epoch': 27.79} {'loss': 0.0567, 'learning_rate': 3.6104448111759286e-05, 'epoch': 27.79} {'loss': 0.0565, 'learning_rate': 3.610204943199263e-05, 'epoch': 27.8} {'loss': 0.0577, 'learning_rate': 3.609965075222598e-05, 'epoch': 27.8} {'loss': 0.058, 'learning_rate': 3.609725207245932e-05, 'epoch': 27.81} {'loss': 0.0596, 'learning_rate': 3.6094853392692664e-05, 'epoch': 27.81} {'loss': 0.0595, 'learning_rate': 3.6092454712926e-05, 'epoch': 27.82} {'loss': 0.0586, 'learning_rate': 3.6090056033159356e-05, 'epoch': 27.82} {'loss': 0.0564, 'learning_rate': 3.6087657353392695e-05, 'epoch': 27.82} {'loss': 0.0574, 'learning_rate': 3.6085258673626035e-05, 'epoch': 27.83} {'loss': 0.057, 'learning_rate': 3.608285999385938e-05, 'epoch': 27.83} {'loss': 0.0561, 'learning_rate': 3.608046131409272e-05, 'epoch': 27.84} {'loss': 0.0554, 'learning_rate': 3.607806263432607e-05, 'epoch': 27.84} {'loss': 0.0584, 'learning_rate': 3.607566395455941e-05, 'epoch': 27.85} {'loss': 0.0548, 'learning_rate': 3.607326527479276e-05, 'epoch': 27.85} {'loss': 0.058, 'learning_rate': 3.60708665950261e-05, 'epoch': 27.86} {'loss': 0.0571, 'learning_rate': 3.6068467915259444e-05, 'epoch': 27.86} {'loss': 0.0574, 'learning_rate': 3.606606923549279e-05, 'epoch': 27.87} {'loss': 0.0588, 'learning_rate': 3.606367055572613e-05, 'epoch': 27.87} {'loss': 0.0577, 'learning_rate': 3.6061271875959475e-05, 'epoch': 27.88} {'loss': 0.0576, 'learning_rate': 3.6058873196192815e-05, 'epoch': 27.88} {'loss': 0.0603, 'learning_rate': 3.605647451642616e-05, 'epoch': 27.89} {'loss': 0.0586, 'learning_rate': 3.605407583665951e-05, 'epoch': 27.89} {'loss': 0.0588, 'learning_rate': 3.6051677156892846e-05, 'epoch': 27.9} {'loss': 0.0552, 'learning_rate': 3.604927847712619e-05, 'epoch': 27.9} {'loss': 0.0574, 'learning_rate': 3.604687979735953e-05, 'epoch': 27.91} {'loss': 0.0558, 'learning_rate': 3.604448111759288e-05, 'epoch': 27.91} {'loss': 0.0567, 'learning_rate': 3.6042082437826224e-05, 'epoch': 27.92} {'loss': 0.0597, 'learning_rate': 3.603968375805957e-05, 'epoch': 27.92} {'loss': 0.0565, 'learning_rate': 3.603728507829291e-05, 'epoch': 27.93} {'loss': 0.0589, 'learning_rate': 3.6034886398526255e-05, 'epoch': 27.93} {'loss': 0.0558, 'learning_rate': 3.6032487718759594e-05, 'epoch': 27.94} {'loss': 0.0562, 'learning_rate': 3.603008903899294e-05, 'epoch': 27.94} {'loss': 0.0577, 'learning_rate': 3.602769035922629e-05, 'epoch': 27.94} {'loss': 0.0571, 'learning_rate': 3.6025291679459626e-05, 'epoch': 27.95} {'loss': 0.059, 'learning_rate': 3.602289299969297e-05, 'epoch': 27.95} {'loss': 0.0566, 'learning_rate': 3.602049431992631e-05, 'epoch': 27.96} {'loss': 0.0582, 'learning_rate': 3.601809564015966e-05, 'epoch': 27.96} {'loss': 0.0565, 'learning_rate': 3.6015696960393004e-05, 'epoch': 27.97} {'loss': 0.0573, 'learning_rate': 3.601329828062634e-05, 'epoch': 27.97} {'loss': 0.0559, 'learning_rate': 3.601089960085969e-05, 'epoch': 27.98} {'loss': 0.0558, 'learning_rate': 3.600850092109303e-05, 'epoch': 27.98} {'loss': 0.0573, 'learning_rate': 3.600610224132638e-05, 'epoch': 27.99} {'loss': 0.0567, 'learning_rate': 3.600370356155972e-05, 'epoch': 27.99} {'loss': 0.0566, 'learning_rate': 3.600130488179306e-05, 'epoch': 28.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.05320358648896217, 'eval_runtime': 515.2525, 'eval_samples_per_second': 809.108, 'eval_steps_per_second': 101.139, 'epoch': 28.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-2918272 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-2918272/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-2918272/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-2814048] due to args.save_total_limit {'loss': 0.056, 'learning_rate': 3.5998906202026406e-05, 'epoch': 28.0} {'loss': 0.0554, 'learning_rate': 3.5996507522259745e-05, 'epoch': 28.01} {'loss': 0.0565, 'learning_rate': 3.59941088424931e-05, 'epoch': 28.01} {'loss': 0.0587, 'learning_rate': 3.599171016272644e-05, 'epoch': 28.02} {'loss': 0.055, 'learning_rate': 3.5989311482959783e-05, 'epoch': 28.02} {'loss': 0.0604, 'learning_rate': 3.598691280319312e-05, 'epoch': 28.03} {'loss': 0.0568, 'learning_rate': 3.598451412342647e-05, 'epoch': 28.03} {'loss': 0.0574, 'learning_rate': 3.5982115443659815e-05, 'epoch': 28.04} {'loss': 0.0573, 'learning_rate': 3.5979716763893154e-05, 'epoch': 28.04} {'loss': 0.0579, 'learning_rate': 3.59773180841265e-05, 'epoch': 28.05} {'loss': 0.0572, 'learning_rate': 3.597491940435984e-05, 'epoch': 28.05} {'loss': 0.0562, 'learning_rate': 3.5972520724593186e-05, 'epoch': 28.05} {'loss': 0.058, 'learning_rate': 3.597012204482653e-05, 'epoch': 28.06} {'loss': 0.0599, 'learning_rate': 3.596772336505987e-05, 'epoch': 28.06} {'loss': 0.058, 'learning_rate': 3.596532468529322e-05, 'epoch': 28.07} {'loss': 0.0575, 'learning_rate': 3.5962926005526557e-05, 'epoch': 28.07} {'loss': 0.0567, 'learning_rate': 3.59605273257599e-05, 'epoch': 28.08} {'loss': 0.0564, 'learning_rate': 3.595812864599324e-05, 'epoch': 28.08} {'loss': 0.0573, 'learning_rate': 3.5955729966226595e-05, 'epoch': 28.09} {'loss': 0.0568, 'learning_rate': 3.5953331286459934e-05, 'epoch': 28.09} {'loss': 0.0577, 'learning_rate': 3.595093260669328e-05, 'epoch': 28.1} {'loss': 0.0558, 'learning_rate': 3.594853392692662e-05, 'epoch': 28.1} {'loss': 0.0565, 'learning_rate': 3.594613524715996e-05, 'epoch': 28.11} {'loss': 0.0584, 'learning_rate': 3.594373656739331e-05, 'epoch': 28.11} {'loss': 0.0569, 'learning_rate': 3.594133788762665e-05, 'epoch': 28.12} {'loss': 0.056, 'learning_rate': 3.593893920786e-05, 'epoch': 28.12} {'loss': 0.0585, 'learning_rate': 3.5936540528093336e-05, 'epoch': 28.13} {'loss': 0.0546, 'learning_rate': 3.593414184832668e-05, 'epoch': 28.13} {'loss': 0.0574, 'learning_rate': 3.593174316856003e-05, 'epoch': 28.14} {'loss': 0.0558, 'learning_rate': 3.592934448879337e-05, 'epoch': 28.14} {'loss': 0.0561, 'learning_rate': 3.5926945809026714e-05, 'epoch': 28.15} {'loss': 0.0579, 'learning_rate': 3.592454712926005e-05, 'epoch': 28.15} {'loss': 0.0565, 'learning_rate': 3.59221484494934e-05, 'epoch': 28.16} {'loss': 0.0576, 'learning_rate': 3.5919749769726746e-05, 'epoch': 28.16} {'loss': 0.0577, 'learning_rate': 3.591735108996009e-05, 'epoch': 28.17} {'loss': 0.0575, 'learning_rate': 3.591495241019343e-05, 'epoch': 28.17} {'loss': 0.0571, 'learning_rate': 3.591255373042677e-05, 'epoch': 28.17} {'loss': 0.0573, 'learning_rate': 3.5910155050660116e-05, 'epoch': 28.18} {'loss': 0.0583, 'learning_rate': 3.590775637089346e-05, 'epoch': 28.18} {'loss': 0.0548, 'learning_rate': 3.590535769112681e-05, 'epoch': 28.19} {'loss': 0.0557, 'learning_rate': 3.590295901136015e-05, 'epoch': 28.19} {'loss': 0.0577, 'learning_rate': 3.5900560331593494e-05, 'epoch': 28.2} {'loss': 0.0573, 'learning_rate': 3.589816165182683e-05, 'epoch': 28.2} {'loss': 0.0569, 'learning_rate': 3.589576297206018e-05, 'epoch': 28.21} {'loss': 0.0577, 'learning_rate': 3.5893364292293525e-05, 'epoch': 28.21} {'loss': 0.057, 'learning_rate': 3.5890965612526865e-05, 'epoch': 28.22} {'loss': 0.0578, 'learning_rate': 3.588856693276021e-05, 'epoch': 28.22} {'loss': 0.057, 'learning_rate': 3.588616825299355e-05, 'epoch': 28.23} {'loss': 0.0564, 'learning_rate': 3.58837695732269e-05, 'epoch': 28.23} {'loss': 0.0558, 'learning_rate': 3.588137089346024e-05, 'epoch': 28.24} {'loss': 0.0556, 'learning_rate': 3.587897221369358e-05, 'epoch': 28.24} {'loss': 0.0581, 'learning_rate': 3.587657353392693e-05, 'epoch': 28.25} {'loss': 0.0563, 'learning_rate': 3.587417485416027e-05, 'epoch': 28.25} {'loss': 0.0582, 'learning_rate': 3.587177617439362e-05, 'epoch': 28.26} {'loss': 0.0603, 'learning_rate': 3.586937749462696e-05, 'epoch': 28.26} {'loss': 0.0565, 'learning_rate': 3.5866978814860305e-05, 'epoch': 28.27} {'loss': 0.0565, 'learning_rate': 3.5864580135093645e-05, 'epoch': 28.27} {'loss': 0.0592, 'learning_rate': 3.586218145532699e-05, 'epoch': 28.28} {'loss': 0.0573, 'learning_rate': 3.585978277556034e-05, 'epoch': 28.28} {'loss': 0.0587, 'learning_rate': 3.5857384095793676e-05, 'epoch': 28.29} {'loss': 0.0575, 'learning_rate': 3.585498541602702e-05, 'epoch': 28.29} {'loss': 0.0566, 'learning_rate': 3.585258673626036e-05, 'epoch': 28.29} {'loss': 0.0589, 'learning_rate': 3.585018805649371e-05, 'epoch': 28.3} {'loss': 0.0588, 'learning_rate': 3.5847789376727054e-05, 'epoch': 28.3} {'loss': 0.0584, 'learning_rate': 3.584539069696039e-05, 'epoch': 28.31} {'loss': 0.058, 'learning_rate': 3.584299201719374e-05, 'epoch': 28.31} {'loss': 0.0563, 'learning_rate': 3.584059333742708e-05, 'epoch': 28.32} {'loss': 0.0596, 'learning_rate': 3.5838194657660425e-05, 'epoch': 28.32} {'loss': 0.0579, 'learning_rate': 3.583579597789377e-05, 'epoch': 28.33} {'loss': 0.058, 'learning_rate': 3.583339729812712e-05, 'epoch': 28.33} {'loss': 0.0563, 'learning_rate': 3.5830998618360456e-05, 'epoch': 28.34} {'loss': 0.0582, 'learning_rate': 3.5828599938593795e-05, 'epoch': 28.34} {'loss': 0.0571, 'learning_rate': 3.582620125882714e-05, 'epoch': 28.35} {'loss': 0.0544, 'learning_rate': 3.582380257906049e-05, 'epoch': 28.35} {'loss': 0.0577, 'learning_rate': 3.5821403899293834e-05, 'epoch': 28.36} {'loss': 0.0563, 'learning_rate': 3.581900521952717e-05, 'epoch': 28.36} {'loss': 0.0564, 'learning_rate': 3.581660653976052e-05, 'epoch': 28.37} {'loss': 0.0575, 'learning_rate': 3.581420785999386e-05, 'epoch': 28.37} {'loss': 0.0573, 'learning_rate': 3.5811809180227204e-05, 'epoch': 28.38} {'loss': 0.0574, 'learning_rate': 3.580941050046055e-05, 'epoch': 28.38} {'loss': 0.0565, 'learning_rate': 3.580701182069389e-05, 'epoch': 28.39} {'loss': 0.0571, 'learning_rate': 3.5804613140927236e-05, 'epoch': 28.39} {'loss': 0.0547, 'learning_rate': 3.5802214461160575e-05, 'epoch': 28.4} {'loss': 0.0554, 'learning_rate': 3.579981578139393e-05, 'epoch': 28.4} {'loss': 0.0585, 'learning_rate': 3.579741710162727e-05, 'epoch': 28.41} {'loss': 0.0566, 'learning_rate': 3.579501842186061e-05, 'epoch': 28.41} {'loss': 0.0553, 'learning_rate': 3.579261974209395e-05, 'epoch': 28.41} {'loss': 0.0581, 'learning_rate': 3.579022106232729e-05, 'epoch': 28.42} {'loss': 0.057, 'learning_rate': 3.5787822382560645e-05, 'epoch': 28.42} {'loss': 0.0548, 'learning_rate': 3.5785423702793984e-05, 'epoch': 28.43} {'loss': 0.0561, 'learning_rate': 3.578302502302733e-05, 'epoch': 28.43} {'loss': 0.0567, 'learning_rate': 3.578062634326067e-05, 'epoch': 28.44} {'loss': 0.0585, 'learning_rate': 3.5778227663494016e-05, 'epoch': 28.44} {'loss': 0.0582, 'learning_rate': 3.577582898372736e-05, 'epoch': 28.45} {'loss': 0.0585, 'learning_rate': 3.57734303039607e-05, 'epoch': 28.45} {'loss': 0.0581, 'learning_rate': 3.577103162419405e-05, 'epoch': 28.46} {'loss': 0.059, 'learning_rate': 3.576863294442739e-05, 'epoch': 28.46} {'loss': 0.06, 'learning_rate': 3.576623426466073e-05, 'epoch': 28.47} {'loss': 0.0538, 'learning_rate': 3.576383558489408e-05, 'epoch': 28.47} {'loss': 0.0568, 'learning_rate': 3.576143690512742e-05, 'epoch': 28.48} {'loss': 0.0549, 'learning_rate': 3.5759038225360764e-05, 'epoch': 28.48} {'loss': 0.0575, 'learning_rate': 3.5756639545594104e-05, 'epoch': 28.49} {'loss': 0.0563, 'learning_rate': 3.575424086582745e-05, 'epoch': 28.49} {'loss': 0.0577, 'learning_rate': 3.5751842186060796e-05, 'epoch': 28.5} {'loss': 0.0614, 'learning_rate': 3.574944350629414e-05, 'epoch': 28.5} {'loss': 0.0571, 'learning_rate': 3.574704482652748e-05, 'epoch': 28.51} {'loss': 0.0587, 'learning_rate': 3.574464614676083e-05, 'epoch': 28.51} {'loss': 0.0585, 'learning_rate': 3.5742247466994167e-05, 'epoch': 28.52} {'loss': 0.0571, 'learning_rate': 3.5739848787227506e-05, 'epoch': 28.52} {'loss': 0.0583, 'learning_rate': 3.573745010746086e-05, 'epoch': 28.53} {'loss': 0.0586, 'learning_rate': 3.57350514276942e-05, 'epoch': 28.53} {'loss': 0.0591, 'learning_rate': 3.5732652747927544e-05, 'epoch': 28.53} {'loss': 0.0588, 'learning_rate': 3.5730254068160883e-05, 'epoch': 28.54} {'loss': 0.0572, 'learning_rate': 3.572785538839423e-05, 'epoch': 28.54} {'loss': 0.0552, 'learning_rate': 3.5725456708627576e-05, 'epoch': 28.55} {'loss': 0.0597, 'learning_rate': 3.5723058028860915e-05, 'epoch': 28.55} {'loss': 0.059, 'learning_rate': 3.572065934909426e-05, 'epoch': 28.56} {'loss': 0.0549, 'learning_rate': 3.57182606693276e-05, 'epoch': 28.56} {'loss': 0.0577, 'learning_rate': 3.5715861989560946e-05, 'epoch': 28.57} {'loss': 0.0578, 'learning_rate': 3.571346330979429e-05, 'epoch': 28.57} {'loss': 0.0562, 'learning_rate': 3.571106463002763e-05, 'epoch': 28.58} {'loss': 0.059, 'learning_rate': 3.570866595026098e-05, 'epoch': 28.58} {'loss': 0.0566, 'learning_rate': 3.570626727049432e-05, 'epoch': 28.59} {'loss': 0.0562, 'learning_rate': 3.570386859072766e-05, 'epoch': 28.59} {'loss': 0.0596, 'learning_rate': 3.570146991096101e-05, 'epoch': 28.6} {'loss': 0.054, 'learning_rate': 3.5699071231194356e-05, 'epoch': 28.6} {'loss': 0.0551, 'learning_rate': 3.5696672551427695e-05, 'epoch': 28.61} {'loss': 0.0584, 'learning_rate': 3.569427387166104e-05, 'epoch': 28.61} {'loss': 0.0559, 'learning_rate': 3.569187519189438e-05, 'epoch': 28.62} {'loss': 0.0575, 'learning_rate': 3.5689476512127726e-05, 'epoch': 28.62} {'loss': 0.0597, 'learning_rate': 3.568707783236107e-05, 'epoch': 28.63} {'loss': 0.0567, 'learning_rate': 3.568467915259441e-05, 'epoch': 28.63} {'loss': 0.0558, 'learning_rate': 3.568228047282776e-05, 'epoch': 28.64} {'loss': 0.0576, 'learning_rate': 3.56798817930611e-05, 'epoch': 28.64} {'loss': 0.0574, 'learning_rate': 3.567748311329444e-05, 'epoch': 28.65} {'loss': 0.0573, 'learning_rate': 3.567508443352779e-05, 'epoch': 28.65} {'loss': 0.0564, 'learning_rate': 3.567268575376113e-05, 'epoch': 28.65} {'loss': 0.0577, 'learning_rate': 3.5670287073994475e-05, 'epoch': 28.66} {'loss': 0.0569, 'learning_rate': 3.5667888394227814e-05, 'epoch': 28.66} {'loss': 0.0578, 'learning_rate': 3.566548971446117e-05, 'epoch': 28.67} {'loss': 0.0593, 'learning_rate': 3.5663091034694506e-05, 'epoch': 28.67} {'loss': 0.0569, 'learning_rate': 3.566069235492785e-05, 'epoch': 28.68} {'loss': 0.0563, 'learning_rate': 3.565829367516119e-05, 'epoch': 28.68} {'loss': 0.0602, 'learning_rate': 3.565589499539453e-05, 'epoch': 28.69} {'loss': 0.0569, 'learning_rate': 3.5653496315627884e-05, 'epoch': 28.69} {'loss': 0.0554, 'learning_rate': 3.565109763586122e-05, 'epoch': 28.7} {'loss': 0.0572, 'learning_rate': 3.564869895609457e-05, 'epoch': 28.7} {'loss': 0.0576, 'learning_rate': 3.564630027632791e-05, 'epoch': 28.71} {'loss': 0.059, 'learning_rate': 3.5643901596561255e-05, 'epoch': 28.71} {'loss': 0.0562, 'learning_rate': 3.56415029167946e-05, 'epoch': 28.72} {'loss': 0.0561, 'learning_rate': 3.563910423702794e-05, 'epoch': 28.72} {'loss': 0.0575, 'learning_rate': 3.5636705557261286e-05, 'epoch': 28.73} {'loss': 0.056, 'learning_rate': 3.5634306877494625e-05, 'epoch': 28.73} {'loss': 0.056, 'learning_rate': 3.563190819772797e-05, 'epoch': 28.74} {'loss': 0.0595, 'learning_rate': 3.562950951796132e-05, 'epoch': 28.74} {'loss': 0.0577, 'learning_rate': 3.5627110838194664e-05, 'epoch': 28.75} {'loss': 0.0557, 'learning_rate': 3.5624712158428e-05, 'epoch': 28.75} {'loss': 0.0567, 'learning_rate': 3.562231347866134e-05, 'epoch': 28.76} {'loss': 0.0566, 'learning_rate': 3.561991479889469e-05, 'epoch': 28.76} {'loss': 0.0579, 'learning_rate': 3.5617516119128035e-05, 'epoch': 28.76} {'loss': 0.0572, 'learning_rate': 3.561511743936138e-05, 'epoch': 28.77} {'loss': 0.0589, 'learning_rate': 3.561271875959472e-05, 'epoch': 28.77} {'loss': 0.0563, 'learning_rate': 3.5610320079828066e-05, 'epoch': 28.78} {'loss': 0.0581, 'learning_rate': 3.5607921400061405e-05, 'epoch': 28.78} {'loss': 0.0609, 'learning_rate': 3.560552272029475e-05, 'epoch': 28.79} {'loss': 0.0569, 'learning_rate': 3.56031240405281e-05, 'epoch': 28.79} {'loss': 0.0557, 'learning_rate': 3.560072536076144e-05, 'epoch': 28.8} {'loss': 0.0556, 'learning_rate': 3.559832668099478e-05, 'epoch': 28.8} {'loss': 0.0561, 'learning_rate': 3.559592800122812e-05, 'epoch': 28.81} {'loss': 0.0552, 'learning_rate': 3.5593529321461475e-05, 'epoch': 28.81} {'loss': 0.0576, 'learning_rate': 3.5591130641694814e-05, 'epoch': 28.82} {'loss': 0.0561, 'learning_rate': 3.5588731961928154e-05, 'epoch': 28.82} {'loss': 0.0579, 'learning_rate': 3.55863332821615e-05, 'epoch': 28.83} {'loss': 0.058, 'learning_rate': 3.558393460239484e-05, 'epoch': 28.83} {'loss': 0.0563, 'learning_rate': 3.558153592262819e-05, 'epoch': 28.84} {'loss': 0.0581, 'learning_rate': 3.557913724286153e-05, 'epoch': 28.84} {'loss': 0.0584, 'learning_rate': 3.557673856309488e-05, 'epoch': 28.85} {'loss': 0.0562, 'learning_rate': 3.557433988332822e-05, 'epoch': 28.85} {'loss': 0.0564, 'learning_rate': 3.557194120356156e-05, 'epoch': 28.86} {'loss': 0.0572, 'learning_rate': 3.556954252379491e-05, 'epoch': 28.86} {'loss': 0.0584, 'learning_rate': 3.556714384402825e-05, 'epoch': 28.87} {'loss': 0.0559, 'learning_rate': 3.5564745164261594e-05, 'epoch': 28.87} {'loss': 0.0571, 'learning_rate': 3.5562346484494934e-05, 'epoch': 28.88} {'loss': 0.056, 'learning_rate': 3.555994780472828e-05, 'epoch': 28.88} {'loss': 0.0581, 'learning_rate': 3.5557549124961626e-05, 'epoch': 28.88} {'loss': 0.0562, 'learning_rate': 3.5555150445194965e-05, 'epoch': 28.89} {'loss': 0.0545, 'learning_rate': 3.555275176542831e-05, 'epoch': 28.89} {'loss': 0.0566, 'learning_rate': 3.555035308566165e-05, 'epoch': 28.9} {'loss': 0.0574, 'learning_rate': 3.5547954405895e-05, 'epoch': 28.9} {'loss': 0.057, 'learning_rate': 3.554555572612834e-05, 'epoch': 28.91} {'loss': 0.0571, 'learning_rate': 3.554315704636169e-05, 'epoch': 28.91} {'loss': 0.0552, 'learning_rate': 3.554075836659503e-05, 'epoch': 28.92} {'loss': 0.058, 'learning_rate': 3.553835968682837e-05, 'epoch': 28.92} {'loss': 0.0578, 'learning_rate': 3.5535961007061714e-05, 'epoch': 28.93} {'loss': 0.0565, 'learning_rate': 3.553356232729505e-05, 'epoch': 28.93} {'loss': 0.0568, 'learning_rate': 3.5531163647528406e-05, 'epoch': 28.94} {'loss': 0.0568, 'learning_rate': 3.5528764967761745e-05, 'epoch': 28.94} {'loss': 0.0597, 'learning_rate': 3.552636628799509e-05, 'epoch': 28.95} {'loss': 0.0589, 'learning_rate': 3.552396760822843e-05, 'epoch': 28.95} {'loss': 0.0559, 'learning_rate': 3.5521568928461777e-05, 'epoch': 28.96} {'loss': 0.058, 'learning_rate': 3.551917024869512e-05, 'epoch': 28.96} {'loss': 0.0566, 'learning_rate': 3.551677156892846e-05, 'epoch': 28.97} {'loss': 0.0575, 'learning_rate': 3.551437288916181e-05, 'epoch': 28.97} {'loss': 0.0585, 'learning_rate': 3.551197420939515e-05, 'epoch': 28.98} {'loss': 0.0612, 'learning_rate': 3.5509575529628493e-05, 'epoch': 28.98} {'loss': 0.059, 'learning_rate': 3.550717684986184e-05, 'epoch': 28.99} {'loss': 0.0578, 'learning_rate': 3.550477817009518e-05, 'epoch': 28.99} {'loss': 0.058, 'learning_rate': 3.5502379490328525e-05, 'epoch': 29.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.05266052484512329, 'eval_runtime': 514.3755, 'eval_samples_per_second': 810.488, 'eval_steps_per_second': 101.311, 'epoch': 29.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-3022496 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-3022496/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-3022496/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-2918272] due to args.save_total_limit {'loss': 0.0562, 'learning_rate': 3.5499980810561864e-05, 'epoch': 29.0} {'loss': 0.0567, 'learning_rate': 3.549758213079521e-05, 'epoch': 29.0} {'loss': 0.0574, 'learning_rate': 3.5495183451028556e-05, 'epoch': 29.01} {'loss': 0.0552, 'learning_rate': 3.54927847712619e-05, 'epoch': 29.01} {'loss': 0.0556, 'learning_rate': 3.549038609149524e-05, 'epoch': 29.02} {'loss': 0.0557, 'learning_rate': 3.548798741172859e-05, 'epoch': 29.02} {'loss': 0.0595, 'learning_rate': 3.548558873196193e-05, 'epoch': 29.03} {'loss': 0.057, 'learning_rate': 3.5483190052195273e-05, 'epoch': 29.03} {'loss': 0.0573, 'learning_rate': 3.548079137242862e-05, 'epoch': 29.04} {'loss': 0.0588, 'learning_rate': 3.547839269266196e-05, 'epoch': 29.04} {'loss': 0.0587, 'learning_rate': 3.5475994012895305e-05, 'epoch': 29.05} {'loss': 0.0567, 'learning_rate': 3.5473595333128644e-05, 'epoch': 29.05} {'loss': 0.0564, 'learning_rate': 3.547119665336199e-05, 'epoch': 29.06} {'loss': 0.0569, 'learning_rate': 3.5468797973595336e-05, 'epoch': 29.06} {'loss': 0.058, 'learning_rate': 3.5466399293828676e-05, 'epoch': 29.07} {'loss': 0.0541, 'learning_rate': 3.546400061406202e-05, 'epoch': 29.07} {'loss': 0.056, 'learning_rate': 3.546160193429536e-05, 'epoch': 29.08} {'loss': 0.057, 'learning_rate': 3.5459203254528714e-05, 'epoch': 29.08} {'loss': 0.0575, 'learning_rate': 3.545680457476205e-05, 'epoch': 29.09} {'loss': 0.0563, 'learning_rate': 3.54544058949954e-05, 'epoch': 29.09} {'loss': 0.0581, 'learning_rate': 3.545200721522874e-05, 'epoch': 29.1} {'loss': 0.0557, 'learning_rate': 3.544960853546208e-05, 'epoch': 29.1} {'loss': 0.0566, 'learning_rate': 3.544720985569543e-05, 'epoch': 29.11} {'loss': 0.0583, 'learning_rate': 3.544481117592877e-05, 'epoch': 29.11} {'loss': 0.0559, 'learning_rate': 3.5442412496162116e-05, 'epoch': 29.12} {'loss': 0.057, 'learning_rate': 3.5440013816395456e-05, 'epoch': 29.12} {'loss': 0.0542, 'learning_rate': 3.54376151366288e-05, 'epoch': 29.12} {'loss': 0.0563, 'learning_rate': 3.543521645686215e-05, 'epoch': 29.13} {'loss': 0.0546, 'learning_rate': 3.543281777709549e-05, 'epoch': 29.13} {'loss': 0.0565, 'learning_rate': 3.543041909732883e-05, 'epoch': 29.14} {'loss': 0.0571, 'learning_rate': 3.542802041756217e-05, 'epoch': 29.14} {'loss': 0.057, 'learning_rate': 3.542562173779552e-05, 'epoch': 29.15} {'loss': 0.0584, 'learning_rate': 3.5423223058028865e-05, 'epoch': 29.15} {'loss': 0.0548, 'learning_rate': 3.5420824378262204e-05, 'epoch': 29.16} {'loss': 0.0566, 'learning_rate': 3.541842569849555e-05, 'epoch': 29.16} {'loss': 0.0561, 'learning_rate': 3.541602701872889e-05, 'epoch': 29.17} {'loss': 0.0562, 'learning_rate': 3.5413628338962236e-05, 'epoch': 29.17} {'loss': 0.0567, 'learning_rate': 3.541122965919558e-05, 'epoch': 29.18} {'loss': 0.057, 'learning_rate': 3.540883097942893e-05, 'epoch': 29.18} {'loss': 0.0561, 'learning_rate': 3.540643229966227e-05, 'epoch': 29.19} {'loss': 0.056, 'learning_rate': 3.540403361989561e-05, 'epoch': 29.19} {'loss': 0.0566, 'learning_rate': 3.540163494012895e-05, 'epoch': 29.2} {'loss': 0.0543, 'learning_rate': 3.53992362603623e-05, 'epoch': 29.2} {'loss': 0.0562, 'learning_rate': 3.5396837580595645e-05, 'epoch': 29.21} {'loss': 0.0564, 'learning_rate': 3.5394438900828984e-05, 'epoch': 29.21} {'loss': 0.0554, 'learning_rate': 3.539204022106233e-05, 'epoch': 29.22} {'loss': 0.0557, 'learning_rate': 3.538964154129567e-05, 'epoch': 29.22} {'loss': 0.0565, 'learning_rate': 3.5387242861529015e-05, 'epoch': 29.23} {'loss': 0.0576, 'learning_rate': 3.538484418176236e-05, 'epoch': 29.23} {'loss': 0.0571, 'learning_rate': 3.53824455019957e-05, 'epoch': 29.24} {'loss': 0.0562, 'learning_rate': 3.538004682222905e-05, 'epoch': 29.24} {'loss': 0.0578, 'learning_rate': 3.5377648142462386e-05, 'epoch': 29.24} {'loss': 0.0556, 'learning_rate': 3.537524946269574e-05, 'epoch': 29.25} {'loss': 0.0598, 'learning_rate': 3.537285078292908e-05, 'epoch': 29.25} {'loss': 0.0575, 'learning_rate': 3.5370452103162424e-05, 'epoch': 29.26} {'loss': 0.055, 'learning_rate': 3.5368053423395764e-05, 'epoch': 29.26} {'loss': 0.0528, 'learning_rate': 3.53656547436291e-05, 'epoch': 29.27} {'loss': 0.0563, 'learning_rate': 3.5363256063862456e-05, 'epoch': 29.27} {'loss': 0.0546, 'learning_rate': 3.5360857384095795e-05, 'epoch': 29.28} {'loss': 0.0542, 'learning_rate': 3.535845870432914e-05, 'epoch': 29.28} {'loss': 0.0576, 'learning_rate': 3.535606002456248e-05, 'epoch': 29.29} {'loss': 0.0591, 'learning_rate': 3.535366134479583e-05, 'epoch': 29.29} {'loss': 0.0579, 'learning_rate': 3.535126266502917e-05, 'epoch': 29.3} {'loss': 0.0564, 'learning_rate': 3.534886398526251e-05, 'epoch': 29.3} {'loss': 0.0544, 'learning_rate': 3.534646530549586e-05, 'epoch': 29.31} {'loss': 0.0578, 'learning_rate': 3.53440666257292e-05, 'epoch': 29.31} {'loss': 0.0576, 'learning_rate': 3.5341667945962544e-05, 'epoch': 29.32} {'loss': 0.0538, 'learning_rate': 3.533926926619589e-05, 'epoch': 29.32} {'loss': 0.0542, 'learning_rate': 3.5336870586429236e-05, 'epoch': 29.33} {'loss': 0.0563, 'learning_rate': 3.5334471906662575e-05, 'epoch': 29.33} {'loss': 0.0586, 'learning_rate': 3.5332073226895915e-05, 'epoch': 29.34} {'loss': 0.0565, 'learning_rate': 3.532967454712926e-05, 'epoch': 29.34} {'loss': 0.0584, 'learning_rate': 3.532727586736261e-05, 'epoch': 29.35} {'loss': 0.0549, 'learning_rate': 3.532487718759595e-05, 'epoch': 29.35} {'loss': 0.0556, 'learning_rate': 3.532247850782929e-05, 'epoch': 29.36} {'loss': 0.0546, 'learning_rate': 3.532007982806264e-05, 'epoch': 29.36} {'loss': 0.0569, 'learning_rate': 3.531768114829598e-05, 'epoch': 29.36} {'loss': 0.0564, 'learning_rate': 3.5315282468529324e-05, 'epoch': 29.37} {'loss': 0.0565, 'learning_rate': 3.531288378876267e-05, 'epoch': 29.37} {'loss': 0.0552, 'learning_rate': 3.531048510899601e-05, 'epoch': 29.38} {'loss': 0.0567, 'learning_rate': 3.5308086429229355e-05, 'epoch': 29.38} {'loss': 0.0572, 'learning_rate': 3.5305687749462694e-05, 'epoch': 29.39} {'loss': 0.0573, 'learning_rate': 3.530328906969604e-05, 'epoch': 29.39} {'loss': 0.056, 'learning_rate': 3.5300890389929387e-05, 'epoch': 29.4} {'loss': 0.0565, 'learning_rate': 3.5298491710162726e-05, 'epoch': 29.4} {'loss': 0.0541, 'learning_rate': 3.529609303039607e-05, 'epoch': 29.41} {'loss': 0.056, 'learning_rate': 3.529369435062941e-05, 'epoch': 29.41} {'loss': 0.0561, 'learning_rate': 3.529129567086276e-05, 'epoch': 29.42} {'loss': 0.0575, 'learning_rate': 3.5288896991096104e-05, 'epoch': 29.42} {'loss': 0.0569, 'learning_rate': 3.528649831132945e-05, 'epoch': 29.43} {'loss': 0.0552, 'learning_rate': 3.528409963156279e-05, 'epoch': 29.43} {'loss': 0.0563, 'learning_rate': 3.5281700951796135e-05, 'epoch': 29.44} {'loss': 0.0577, 'learning_rate': 3.5279302272029474e-05, 'epoch': 29.44} {'loss': 0.0553, 'learning_rate': 3.527690359226282e-05, 'epoch': 29.45} {'loss': 0.0555, 'learning_rate': 3.5274504912496167e-05, 'epoch': 29.45} {'loss': 0.0575, 'learning_rate': 3.5272106232729506e-05, 'epoch': 29.46} {'loss': 0.0555, 'learning_rate': 3.526970755296285e-05, 'epoch': 29.46} {'loss': 0.0544, 'learning_rate': 3.526730887319619e-05, 'epoch': 29.47} {'loss': 0.0561, 'learning_rate': 3.526491019342954e-05, 'epoch': 29.47} {'loss': 0.0575, 'learning_rate': 3.5262511513662883e-05, 'epoch': 29.47} {'loss': 0.0579, 'learning_rate': 3.526011283389622e-05, 'epoch': 29.48} {'loss': 0.058, 'learning_rate': 3.525771415412957e-05, 'epoch': 29.48} {'loss': 0.0556, 'learning_rate': 3.525531547436291e-05, 'epoch': 29.49} {'loss': 0.0558, 'learning_rate': 3.525291679459626e-05, 'epoch': 29.49} {'loss': 0.0547, 'learning_rate': 3.52505181148296e-05, 'epoch': 29.5} {'loss': 0.0554, 'learning_rate': 3.524811943506294e-05, 'epoch': 29.5} {'loss': 0.0545, 'learning_rate': 3.5245720755296286e-05, 'epoch': 29.51} {'loss': 0.0581, 'learning_rate': 3.5243322075529625e-05, 'epoch': 29.51} {'loss': 0.0565, 'learning_rate': 3.524092339576298e-05, 'epoch': 29.52} {'loss': 0.058, 'learning_rate': 3.523852471599632e-05, 'epoch': 29.52} {'loss': 0.0573, 'learning_rate': 3.523612603622966e-05, 'epoch': 29.53} {'loss': 0.0556, 'learning_rate': 3.5233727356463e-05, 'epoch': 29.53} {'loss': 0.0547, 'learning_rate': 3.523132867669635e-05, 'epoch': 29.54} {'loss': 0.0583, 'learning_rate': 3.5228929996929695e-05, 'epoch': 29.54} {'loss': 0.0564, 'learning_rate': 3.5226531317163034e-05, 'epoch': 29.55} {'loss': 0.0555, 'learning_rate': 3.522413263739638e-05, 'epoch': 29.55} {'loss': 0.0574, 'learning_rate': 3.522173395762972e-05, 'epoch': 29.56} {'loss': 0.058, 'learning_rate': 3.5219335277863066e-05, 'epoch': 29.56} {'loss': 0.0568, 'learning_rate': 3.521693659809641e-05, 'epoch': 29.57} {'loss': 0.0568, 'learning_rate': 3.521453791832975e-05, 'epoch': 29.57} {'loss': 0.0551, 'learning_rate': 3.52121392385631e-05, 'epoch': 29.58} {'loss': 0.0585, 'learning_rate': 3.5209740558796436e-05, 'epoch': 29.58} {'loss': 0.0577, 'learning_rate': 3.520734187902978e-05, 'epoch': 29.59} {'loss': 0.0595, 'learning_rate': 3.520494319926313e-05, 'epoch': 29.59} {'loss': 0.055, 'learning_rate': 3.5202544519496475e-05, 'epoch': 29.59} {'loss': 0.0539, 'learning_rate': 3.5200145839729814e-05, 'epoch': 29.6} {'loss': 0.0567, 'learning_rate': 3.519774715996316e-05, 'epoch': 29.6} {'loss': 0.057, 'learning_rate': 3.51953484801965e-05, 'epoch': 29.61} {'loss': 0.0564, 'learning_rate': 3.5192949800429846e-05, 'epoch': 29.61} {'loss': 0.0559, 'learning_rate': 3.519055112066319e-05, 'epoch': 29.62} {'loss': 0.0603, 'learning_rate': 3.518815244089653e-05, 'epoch': 29.62} {'loss': 0.0552, 'learning_rate': 3.518575376112988e-05, 'epoch': 29.63} {'loss': 0.0559, 'learning_rate': 3.5183355081363216e-05, 'epoch': 29.63} {'loss': 0.0569, 'learning_rate': 3.518095640159656e-05, 'epoch': 29.64} {'loss': 0.057, 'learning_rate': 3.517855772182991e-05, 'epoch': 29.64} {'loss': 0.0589, 'learning_rate': 3.517615904206325e-05, 'epoch': 29.65} {'loss': 0.0564, 'learning_rate': 3.5173760362296594e-05, 'epoch': 29.65} {'loss': 0.0562, 'learning_rate': 3.517136168252993e-05, 'epoch': 29.66} {'loss': 0.056, 'learning_rate': 3.5168963002763286e-05, 'epoch': 29.66} {'loss': 0.0554, 'learning_rate': 3.5166564322996625e-05, 'epoch': 29.67} {'loss': 0.0564, 'learning_rate': 3.516416564322997e-05, 'epoch': 29.67} {'loss': 0.0574, 'learning_rate': 3.516176696346331e-05, 'epoch': 29.68} {'loss': 0.0554, 'learning_rate': 3.515936828369665e-05, 'epoch': 29.68} {'loss': 0.0554, 'learning_rate': 3.515696960393e-05, 'epoch': 29.69} {'loss': 0.056, 'learning_rate': 3.515457092416334e-05, 'epoch': 29.69} {'loss': 0.0582, 'learning_rate': 3.515217224439669e-05, 'epoch': 29.7} {'loss': 0.0568, 'learning_rate': 3.514977356463003e-05, 'epoch': 29.7} {'loss': 0.0574, 'learning_rate': 3.5147374884863374e-05, 'epoch': 29.71} {'loss': 0.0566, 'learning_rate': 3.514497620509672e-05, 'epoch': 29.71} {'loss': 0.057, 'learning_rate': 3.514257752533006e-05, 'epoch': 29.71} {'loss': 0.0565, 'learning_rate': 3.5140178845563405e-05, 'epoch': 29.72} {'loss': 0.058, 'learning_rate': 3.5137780165796745e-05, 'epoch': 29.72} {'loss': 0.0575, 'learning_rate': 3.513538148603009e-05, 'epoch': 29.73} {'loss': 0.0578, 'learning_rate': 3.513298280626344e-05, 'epoch': 29.73} {'loss': 0.0545, 'learning_rate': 3.5130584126496776e-05, 'epoch': 29.74} {'loss': 0.0542, 'learning_rate': 3.512818544673012e-05, 'epoch': 29.74} {'loss': 0.0578, 'learning_rate': 3.512578676696346e-05, 'epoch': 29.75} {'loss': 0.055, 'learning_rate': 3.512338808719681e-05, 'epoch': 29.75} {'loss': 0.0553, 'learning_rate': 3.5120989407430154e-05, 'epoch': 29.76} {'loss': 0.0558, 'learning_rate': 3.51185907276635e-05, 'epoch': 29.76} {'loss': 0.0569, 'learning_rate': 3.511619204789684e-05, 'epoch': 29.77} {'loss': 0.0569, 'learning_rate': 3.5113793368130185e-05, 'epoch': 29.77} {'loss': 0.0554, 'learning_rate': 3.5111394688363525e-05, 'epoch': 29.78} {'loss': 0.0548, 'learning_rate': 3.5108996008596864e-05, 'epoch': 29.78} {'loss': 0.0573, 'learning_rate': 3.510659732883022e-05, 'epoch': 29.79} {'loss': 0.0558, 'learning_rate': 3.5104198649063556e-05, 'epoch': 29.79} {'loss': 0.0549, 'learning_rate': 3.51017999692969e-05, 'epoch': 29.8} {'loss': 0.055, 'learning_rate': 3.509940128953024e-05, 'epoch': 29.8} {'loss': 0.0548, 'learning_rate': 3.509700260976359e-05, 'epoch': 29.81} {'loss': 0.056, 'learning_rate': 3.5094603929996934e-05, 'epoch': 29.81} {'loss': 0.0572, 'learning_rate': 3.509220525023027e-05, 'epoch': 29.82} {'loss': 0.0567, 'learning_rate': 3.508980657046362e-05, 'epoch': 29.82} {'loss': 0.0559, 'learning_rate': 3.508740789069696e-05, 'epoch': 29.83} {'loss': 0.0578, 'learning_rate': 3.5085009210930304e-05, 'epoch': 29.83} {'loss': 0.0568, 'learning_rate': 3.508261053116365e-05, 'epoch': 29.83} {'loss': 0.0548, 'learning_rate': 3.5080211851396997e-05, 'epoch': 29.84} {'loss': 0.0585, 'learning_rate': 3.5077813171630336e-05, 'epoch': 29.84} {'loss': 0.0556, 'learning_rate': 3.5075414491863675e-05, 'epoch': 29.85} {'loss': 0.0555, 'learning_rate': 3.507301581209702e-05, 'epoch': 29.85} {'loss': 0.0562, 'learning_rate': 3.507061713233037e-05, 'epoch': 29.86} {'loss': 0.0584, 'learning_rate': 3.5068218452563714e-05, 'epoch': 29.86} {'loss': 0.0542, 'learning_rate': 3.506581977279705e-05, 'epoch': 29.87} {'loss': 0.0542, 'learning_rate': 3.50634210930304e-05, 'epoch': 29.87} {'loss': 0.0575, 'learning_rate': 3.506102241326374e-05, 'epoch': 29.88} {'loss': 0.056, 'learning_rate': 3.5058623733497084e-05, 'epoch': 29.88} {'loss': 0.06, 'learning_rate': 3.505622505373043e-05, 'epoch': 29.89} {'loss': 0.057, 'learning_rate': 3.505382637396377e-05, 'epoch': 29.89} {'loss': 0.0584, 'learning_rate': 3.5051427694197116e-05, 'epoch': 29.9} {'loss': 0.0554, 'learning_rate': 3.5049029014430455e-05, 'epoch': 29.9} {'loss': 0.057, 'learning_rate': 3.504663033466381e-05, 'epoch': 29.91} {'loss': 0.0542, 'learning_rate': 3.504423165489715e-05, 'epoch': 29.91} {'loss': 0.0562, 'learning_rate': 3.504183297513049e-05, 'epoch': 29.92} {'loss': 0.0566, 'learning_rate': 3.503943429536383e-05, 'epoch': 29.92} {'loss': 0.0547, 'learning_rate': 3.503703561559717e-05, 'epoch': 29.93} {'loss': 0.0566, 'learning_rate': 3.5034636935830525e-05, 'epoch': 29.93} {'loss': 0.054, 'learning_rate': 3.5032238256063864e-05, 'epoch': 29.94} {'loss': 0.0546, 'learning_rate': 3.502983957629721e-05, 'epoch': 29.94} {'loss': 0.0544, 'learning_rate': 3.502744089653055e-05, 'epoch': 29.95} {'loss': 0.0569, 'learning_rate': 3.5025042216763896e-05, 'epoch': 29.95} {'loss': 0.0546, 'learning_rate': 3.502264353699724e-05, 'epoch': 29.95} {'loss': 0.0569, 'learning_rate': 3.502024485723058e-05, 'epoch': 29.96} {'loss': 0.0561, 'learning_rate': 3.501784617746393e-05, 'epoch': 29.96} {'loss': 0.0563, 'learning_rate': 3.5015447497697267e-05, 'epoch': 29.97} {'loss': 0.0551, 'learning_rate': 3.501304881793061e-05, 'epoch': 29.97} {'loss': 0.0562, 'learning_rate': 3.501065013816396e-05, 'epoch': 29.98} {'loss': 0.0572, 'learning_rate': 3.50082514583973e-05, 'epoch': 29.98} {'loss': 0.0566, 'learning_rate': 3.5005852778630644e-05, 'epoch': 29.99} {'loss': 0.0566, 'learning_rate': 3.5003454098863983e-05, 'epoch': 29.99} {'loss': 0.0569, 'learning_rate': 3.500105541909733e-05, 'epoch': 30.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.05275491997599602, 'eval_runtime': 517.9436, 'eval_samples_per_second': 804.904, 'eval_steps_per_second': 100.613, 'epoch': 30.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-3126720 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-3126720/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-3126720/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-3022496] due to args.save_total_limit {'loss': 0.0571, 'learning_rate': 3.4998656739330676e-05, 'epoch': 30.0} {'loss': 0.057, 'learning_rate': 3.499625805956402e-05, 'epoch': 30.01} {'loss': 0.055, 'learning_rate': 3.499385937979736e-05, 'epoch': 30.01} {'loss': 0.0551, 'learning_rate': 3.499146070003071e-05, 'epoch': 30.02} {'loss': 0.0545, 'learning_rate': 3.4989062020264046e-05, 'epoch': 30.02} {'loss': 0.0549, 'learning_rate': 3.498666334049739e-05, 'epoch': 30.03} {'loss': 0.0564, 'learning_rate': 3.498426466073074e-05, 'epoch': 30.03} {'loss': 0.0565, 'learning_rate': 3.498186598096408e-05, 'epoch': 30.04} {'loss': 0.0547, 'learning_rate': 3.4979467301197424e-05, 'epoch': 30.04} {'loss': 0.0566, 'learning_rate': 3.497706862143076e-05, 'epoch': 30.05} {'loss': 0.056, 'learning_rate': 3.497466994166411e-05, 'epoch': 30.05} {'loss': 0.0554, 'learning_rate': 3.4972271261897456e-05, 'epoch': 30.06} {'loss': 0.0538, 'learning_rate': 3.4969872582130795e-05, 'epoch': 30.06} {'loss': 0.0555, 'learning_rate': 3.496747390236414e-05, 'epoch': 30.07} {'loss': 0.0548, 'learning_rate': 3.496507522259748e-05, 'epoch': 30.07} {'loss': 0.0565, 'learning_rate': 3.496267654283083e-05, 'epoch': 30.07} {'loss': 0.0564, 'learning_rate': 3.496027786306417e-05, 'epoch': 30.08} {'loss': 0.0557, 'learning_rate': 3.495787918329751e-05, 'epoch': 30.08} {'loss': 0.0554, 'learning_rate': 3.495548050353086e-05, 'epoch': 30.09} {'loss': 0.0561, 'learning_rate': 3.49530818237642e-05, 'epoch': 30.09} {'loss': 0.0554, 'learning_rate': 3.495068314399755e-05, 'epoch': 30.1} {'loss': 0.0567, 'learning_rate': 3.494828446423089e-05, 'epoch': 30.1} {'loss': 0.0565, 'learning_rate': 3.4945885784464235e-05, 'epoch': 30.11} {'loss': 0.0555, 'learning_rate': 3.4943487104697575e-05, 'epoch': 30.11} {'loss': 0.0555, 'learning_rate': 3.494108842493092e-05, 'epoch': 30.12} {'loss': 0.058, 'learning_rate': 3.493868974516427e-05, 'epoch': 30.12} {'loss': 0.0566, 'learning_rate': 3.4936291065397606e-05, 'epoch': 30.13} {'loss': 0.0553, 'learning_rate': 3.493389238563095e-05, 'epoch': 30.13} {'loss': 0.0552, 'learning_rate': 3.493149370586429e-05, 'epoch': 30.14} {'loss': 0.0553, 'learning_rate': 3.492909502609764e-05, 'epoch': 30.14} {'loss': 0.0581, 'learning_rate': 3.4926696346330984e-05, 'epoch': 30.15} {'loss': 0.0553, 'learning_rate': 3.492429766656432e-05, 'epoch': 30.15} {'loss': 0.0571, 'learning_rate': 3.492189898679767e-05, 'epoch': 30.16} {'loss': 0.055, 'learning_rate': 3.491950030703101e-05, 'epoch': 30.16} {'loss': 0.0559, 'learning_rate': 3.4917101627264355e-05, 'epoch': 30.17} {'loss': 0.057, 'learning_rate': 3.49147029474977e-05, 'epoch': 30.17} {'loss': 0.057, 'learning_rate': 3.491230426773105e-05, 'epoch': 30.18} {'loss': 0.0545, 'learning_rate': 3.4909905587964386e-05, 'epoch': 30.18} {'loss': 0.0559, 'learning_rate': 3.490750690819773e-05, 'epoch': 30.18} {'loss': 0.0542, 'learning_rate': 3.490510822843107e-05, 'epoch': 30.19} {'loss': 0.0553, 'learning_rate': 3.490270954866441e-05, 'epoch': 30.19} {'loss': 0.0583, 'learning_rate': 3.4900310868897764e-05, 'epoch': 30.2} {'loss': 0.0554, 'learning_rate': 3.48979121891311e-05, 'epoch': 30.2} {'loss': 0.0552, 'learning_rate': 3.489551350936445e-05, 'epoch': 30.21} {'loss': 0.0539, 'learning_rate': 3.489311482959779e-05, 'epoch': 30.21} {'loss': 0.057, 'learning_rate': 3.4890716149831135e-05, 'epoch': 30.22} {'loss': 0.0549, 'learning_rate': 3.488831747006448e-05, 'epoch': 30.22} {'loss': 0.0569, 'learning_rate': 3.488591879029782e-05, 'epoch': 30.23} {'loss': 0.0555, 'learning_rate': 3.4883520110531166e-05, 'epoch': 30.23} {'loss': 0.053, 'learning_rate': 3.4881121430764505e-05, 'epoch': 30.24} {'loss': 0.0535, 'learning_rate': 3.487872275099785e-05, 'epoch': 30.24} {'loss': 0.0566, 'learning_rate': 3.48763240712312e-05, 'epoch': 30.25} {'loss': 0.0575, 'learning_rate': 3.4873925391464544e-05, 'epoch': 30.25} {'loss': 0.0579, 'learning_rate': 3.487152671169788e-05, 'epoch': 30.26} {'loss': 0.058, 'learning_rate': 3.486912803193122e-05, 'epoch': 30.26} {'loss': 0.0577, 'learning_rate': 3.486672935216457e-05, 'epoch': 30.27} {'loss': 0.108, 'learning_rate': 3.4864330672397914e-05, 'epoch': 30.27} {'loss': 0.0614, 'learning_rate': 3.486193199263126e-05, 'epoch': 30.28} {'loss': 0.0578, 'learning_rate': 3.48595333128646e-05, 'epoch': 30.28} {'loss': 0.0553, 'learning_rate': 3.4857134633097946e-05, 'epoch': 30.29} {'loss': 0.0543, 'learning_rate': 3.4854735953331285e-05, 'epoch': 30.29} {'loss': 0.0563, 'learning_rate': 3.485233727356463e-05, 'epoch': 30.3} {'loss': 0.055, 'learning_rate': 3.484993859379798e-05, 'epoch': 30.3} {'loss': 0.056, 'learning_rate': 3.484753991403132e-05, 'epoch': 30.3} {'loss': 0.0555, 'learning_rate': 3.484514123426466e-05, 'epoch': 30.31} {'loss': 0.0561, 'learning_rate': 3.4842742554498e-05, 'epoch': 30.31} {'loss': 0.057, 'learning_rate': 3.484034387473135e-05, 'epoch': 30.32} {'loss': 0.0558, 'learning_rate': 3.4837945194964694e-05, 'epoch': 30.32} {'loss': 0.0557, 'learning_rate': 3.4835546515198034e-05, 'epoch': 30.33} {'loss': 0.0586, 'learning_rate': 3.483314783543138e-05, 'epoch': 30.33} {'loss': 0.0576, 'learning_rate': 3.483074915566472e-05, 'epoch': 30.34} {'loss': 0.0567, 'learning_rate': 3.482835047589807e-05, 'epoch': 30.34} {'loss': 0.0545, 'learning_rate': 3.482595179613141e-05, 'epoch': 30.35} {'loss': 0.0552, 'learning_rate': 3.482355311636476e-05, 'epoch': 30.35} {'loss': 0.0569, 'learning_rate': 3.48211544365981e-05, 'epoch': 30.36} {'loss': 0.0551, 'learning_rate': 3.4818755756831436e-05, 'epoch': 30.36} {'loss': 0.0566, 'learning_rate': 3.481635707706479e-05, 'epoch': 30.37} {'loss': 0.0556, 'learning_rate': 3.481395839729813e-05, 'epoch': 30.37} {'loss': 0.0561, 'learning_rate': 3.4811559717531474e-05, 'epoch': 30.38} {'loss': 0.0552, 'learning_rate': 3.4809161037764814e-05, 'epoch': 30.38} {'loss': 0.0567, 'learning_rate': 3.480676235799816e-05, 'epoch': 30.39} {'loss': 0.0555, 'learning_rate': 3.4804363678231506e-05, 'epoch': 30.39} {'loss': 0.0563, 'learning_rate': 3.4801964998464845e-05, 'epoch': 30.4} {'loss': 0.0538, 'learning_rate': 3.479956631869819e-05, 'epoch': 30.4} {'loss': 0.0551, 'learning_rate': 3.479716763893153e-05, 'epoch': 30.41} {'loss': 0.0552, 'learning_rate': 3.4794768959164877e-05, 'epoch': 30.41} {'loss': 0.0556, 'learning_rate': 3.479237027939822e-05, 'epoch': 30.42} {'loss': 0.056, 'learning_rate': 3.478997159963157e-05, 'epoch': 30.42} {'loss': 0.0569, 'learning_rate': 3.478757291986491e-05, 'epoch': 30.42} {'loss': 0.0569, 'learning_rate': 3.478517424009825e-05, 'epoch': 30.43} {'loss': 0.0548, 'learning_rate': 3.4782775560331593e-05, 'epoch': 30.43} {'loss': 0.054, 'learning_rate': 3.478037688056494e-05, 'epoch': 30.44} {'loss': 0.0549, 'learning_rate': 3.4777978200798286e-05, 'epoch': 30.44} {'loss': 0.0556, 'learning_rate': 3.4775579521031625e-05, 'epoch': 30.45} {'loss': 0.0545, 'learning_rate': 3.477318084126497e-05, 'epoch': 30.45} {'loss': 0.0555, 'learning_rate': 3.477078216149831e-05, 'epoch': 30.46} {'loss': 0.0558, 'learning_rate': 3.4768383481731656e-05, 'epoch': 30.46} {'loss': 0.056, 'learning_rate': 3.4765984801965e-05, 'epoch': 30.47} {'loss': 0.0569, 'learning_rate': 3.476358612219834e-05, 'epoch': 30.47} {'loss': 0.0565, 'learning_rate': 3.476118744243169e-05, 'epoch': 30.48} {'loss': 0.0576, 'learning_rate': 3.475878876266503e-05, 'epoch': 30.48} {'loss': 0.0554, 'learning_rate': 3.475639008289838e-05, 'epoch': 30.49} {'loss': 0.0567, 'learning_rate': 3.475399140313172e-05, 'epoch': 30.49} {'loss': 0.0548, 'learning_rate': 3.475159272336506e-05, 'epoch': 30.5} {'loss': 0.0543, 'learning_rate': 3.4749194043598405e-05, 'epoch': 30.5} {'loss': 0.0568, 'learning_rate': 3.4746795363831744e-05, 'epoch': 30.51} {'loss': 0.0567, 'learning_rate': 3.47443966840651e-05, 'epoch': 30.51} {'loss': 0.0558, 'learning_rate': 3.4741998004298436e-05, 'epoch': 30.52} {'loss': 0.0566, 'learning_rate': 3.473959932453178e-05, 'epoch': 30.52} {'loss': 0.0532, 'learning_rate': 3.473720064476512e-05, 'epoch': 30.53} {'loss': 0.0592, 'learning_rate': 3.473480196499847e-05, 'epoch': 30.53} {'loss': 0.0571, 'learning_rate': 3.4732403285231814e-05, 'epoch': 30.54} {'loss': 0.0551, 'learning_rate': 3.473000460546515e-05, 'epoch': 30.54} {'loss': 0.0548, 'learning_rate': 3.47276059256985e-05, 'epoch': 30.54} {'loss': 0.0545, 'learning_rate': 3.472520724593184e-05, 'epoch': 30.55} {'loss': 0.055, 'learning_rate': 3.4722808566165185e-05, 'epoch': 30.55} {'loss': 0.0545, 'learning_rate': 3.472040988639853e-05, 'epoch': 30.56} {'loss': 0.0532, 'learning_rate': 3.471801120663187e-05, 'epoch': 30.56} {'loss': 0.0581, 'learning_rate': 3.4715612526865216e-05, 'epoch': 30.57} {'loss': 0.0546, 'learning_rate': 3.4713213847098556e-05, 'epoch': 30.57} {'loss': 0.0566, 'learning_rate': 3.47108151673319e-05, 'epoch': 30.58} {'loss': 0.0572, 'learning_rate': 3.470841648756525e-05, 'epoch': 30.58} {'loss': 0.0558, 'learning_rate': 3.4706017807798594e-05, 'epoch': 30.59} {'loss': 0.0577, 'learning_rate': 3.470361912803193e-05, 'epoch': 30.59} {'loss': 0.056, 'learning_rate': 3.470122044826527e-05, 'epoch': 30.6} {'loss': 0.0553, 'learning_rate': 3.469882176849862e-05, 'epoch': 30.6} {'loss': 0.0592, 'learning_rate': 3.4696423088731965e-05, 'epoch': 30.61} {'loss': 0.0556, 'learning_rate': 3.469402440896531e-05, 'epoch': 30.61} {'loss': 0.0576, 'learning_rate': 3.469162572919865e-05, 'epoch': 30.62} {'loss': 0.0583, 'learning_rate': 3.4689227049431996e-05, 'epoch': 30.62} {'loss': 0.0543, 'learning_rate': 3.4686828369665335e-05, 'epoch': 30.63} {'loss': 0.055, 'learning_rate': 3.468442968989868e-05, 'epoch': 30.63} {'loss': 0.056, 'learning_rate': 3.468203101013203e-05, 'epoch': 30.64} {'loss': 0.0564, 'learning_rate': 3.467963233036537e-05, 'epoch': 30.64} {'loss': 0.0552, 'learning_rate': 3.467723365059871e-05, 'epoch': 30.65} {'loss': 0.0559, 'learning_rate': 3.467483497083205e-05, 'epoch': 30.65} {'loss': 0.0572, 'learning_rate': 3.46724362910654e-05, 'epoch': 30.66} {'loss': 0.055, 'learning_rate': 3.4670037611298745e-05, 'epoch': 30.66} {'loss': 0.0544, 'learning_rate': 3.4667638931532084e-05, 'epoch': 30.66} {'loss': 0.0539, 'learning_rate': 3.466524025176543e-05, 'epoch': 30.67} {'loss': 0.0553, 'learning_rate': 3.466284157199877e-05, 'epoch': 30.67} {'loss': 0.0541, 'learning_rate': 3.4660442892232115e-05, 'epoch': 30.68} {'loss': 0.0573, 'learning_rate': 3.465804421246546e-05, 'epoch': 30.68} {'loss': 0.0535, 'learning_rate': 3.465564553269881e-05, 'epoch': 30.69} {'loss': 0.0544, 'learning_rate': 3.465324685293215e-05, 'epoch': 30.69} {'loss': 0.0542, 'learning_rate': 3.465084817316549e-05, 'epoch': 30.7} {'loss': 0.055, 'learning_rate': 3.464844949339883e-05, 'epoch': 30.7} {'loss': 0.0554, 'learning_rate': 3.464605081363218e-05, 'epoch': 30.71} {'loss': 0.0555, 'learning_rate': 3.4643652133865524e-05, 'epoch': 30.71} {'loss': 0.0557, 'learning_rate': 3.4641253454098864e-05, 'epoch': 30.72} {'loss': 0.0536, 'learning_rate': 3.463885477433221e-05, 'epoch': 30.72} {'loss': 0.0564, 'learning_rate': 3.463645609456555e-05, 'epoch': 30.73} {'loss': 0.0567, 'learning_rate': 3.4634057414798895e-05, 'epoch': 30.73} {'loss': 0.0574, 'learning_rate': 3.463165873503224e-05, 'epoch': 30.74} {'loss': 0.0563, 'learning_rate': 3.462926005526558e-05, 'epoch': 30.74} {'loss': 0.0563, 'learning_rate': 3.462686137549893e-05, 'epoch': 30.75} {'loss': 0.0528, 'learning_rate': 3.4624462695732266e-05, 'epoch': 30.75} {'loss': 0.0559, 'learning_rate': 3.462206401596562e-05, 'epoch': 30.76} {'loss': 0.055, 'learning_rate': 3.461966533619896e-05, 'epoch': 30.76} {'loss': 0.0568, 'learning_rate': 3.4617266656432304e-05, 'epoch': 30.77} {'loss': 0.0563, 'learning_rate': 3.4614867976665644e-05, 'epoch': 30.77} {'loss': 0.0573, 'learning_rate': 3.461246929689898e-05, 'epoch': 30.78} {'loss': 0.0557, 'learning_rate': 3.4610070617132336e-05, 'epoch': 30.78} {'loss': 0.058, 'learning_rate': 3.4607671937365675e-05, 'epoch': 30.78} {'loss': 0.0544, 'learning_rate': 3.460527325759902e-05, 'epoch': 30.79} {'loss': 0.0562, 'learning_rate': 3.460287457783236e-05, 'epoch': 30.79} {'loss': 0.0564, 'learning_rate': 3.460047589806571e-05, 'epoch': 30.8} {'loss': 0.0541, 'learning_rate': 3.459807721829905e-05, 'epoch': 30.8} {'loss': 0.0545, 'learning_rate': 3.459567853853239e-05, 'epoch': 30.81} {'loss': 0.0563, 'learning_rate': 3.459327985876574e-05, 'epoch': 30.81} {'loss': 0.0574, 'learning_rate': 3.459088117899908e-05, 'epoch': 30.82} {'loss': 0.0532, 'learning_rate': 3.4588482499232424e-05, 'epoch': 30.82} {'loss': 0.0532, 'learning_rate': 3.458608381946577e-05, 'epoch': 30.83} {'loss': 0.0579, 'learning_rate': 3.4583685139699116e-05, 'epoch': 30.83} {'loss': 0.0551, 'learning_rate': 3.4581286459932455e-05, 'epoch': 30.84} {'loss': 0.0553, 'learning_rate': 3.4578887780165794e-05, 'epoch': 30.84} {'loss': 0.0573, 'learning_rate': 3.457648910039914e-05, 'epoch': 30.85} {'loss': 0.0581, 'learning_rate': 3.4574090420632487e-05, 'epoch': 30.85} {'loss': 0.0558, 'learning_rate': 3.457169174086583e-05, 'epoch': 30.86} {'loss': 0.0573, 'learning_rate': 3.456929306109917e-05, 'epoch': 30.86} {'loss': 0.0543, 'learning_rate': 3.456689438133252e-05, 'epoch': 30.87} {'loss': 0.0534, 'learning_rate': 3.456449570156586e-05, 'epoch': 30.87} {'loss': 0.0541, 'learning_rate': 3.4562097021799203e-05, 'epoch': 30.88} {'loss': 0.0576, 'learning_rate': 3.455969834203255e-05, 'epoch': 30.88} {'loss': 0.0554, 'learning_rate': 3.455729966226589e-05, 'epoch': 30.89} {'loss': 0.0543, 'learning_rate': 3.4554900982499235e-05, 'epoch': 30.89} {'loss': 0.0546, 'learning_rate': 3.4552502302732574e-05, 'epoch': 30.89} {'loss': 0.055, 'learning_rate': 3.455010362296592e-05, 'epoch': 30.9} {'loss': 0.0557, 'learning_rate': 3.4547704943199266e-05, 'epoch': 30.9} {'loss': 0.0541, 'learning_rate': 3.4545306263432606e-05, 'epoch': 30.91} {'loss': 0.0566, 'learning_rate': 3.454290758366595e-05, 'epoch': 30.91} {'loss': 0.0549, 'learning_rate': 3.454050890389929e-05, 'epoch': 30.92} {'loss': 0.0549, 'learning_rate': 3.4538110224132644e-05, 'epoch': 30.92} {'loss': 0.0556, 'learning_rate': 3.453571154436598e-05, 'epoch': 30.93} {'loss': 0.0523, 'learning_rate': 3.453331286459933e-05, 'epoch': 30.93} {'loss': 0.0542, 'learning_rate': 3.453091418483267e-05, 'epoch': 30.94} {'loss': 0.0536, 'learning_rate': 3.452851550506601e-05, 'epoch': 30.94} {'loss': 0.0514, 'learning_rate': 3.452611682529936e-05, 'epoch': 30.95} {'loss': 0.0553, 'learning_rate': 3.45237181455327e-05, 'epoch': 30.95} {'loss': 0.057, 'learning_rate': 3.4521319465766046e-05, 'epoch': 30.96} {'loss': 0.056, 'learning_rate': 3.4518920785999386e-05, 'epoch': 30.96} {'loss': 0.0557, 'learning_rate': 3.451652210623273e-05, 'epoch': 30.97} {'loss': 0.054, 'learning_rate': 3.451412342646608e-05, 'epoch': 30.97} {'loss': 0.0567, 'learning_rate': 3.451172474669942e-05, 'epoch': 30.98} {'loss': 0.0556, 'learning_rate': 3.450932606693276e-05, 'epoch': 30.98} {'loss': 0.0567, 'learning_rate': 3.45069273871661e-05, 'epoch': 30.99} {'loss': 0.0539, 'learning_rate': 3.450452870739945e-05, 'epoch': 30.99} {'loss': 0.0563, 'learning_rate': 3.4502130027632795e-05, 'epoch': 31.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.0525783896446228, 'eval_runtime': 525.1688, 'eval_samples_per_second': 793.83, 'eval_steps_per_second': 99.229, 'epoch': 31.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-3230944 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-3230944/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-3230944/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-3126720] due to args.save_total_limit {'loss': 0.0546, 'learning_rate': 3.449973134786614e-05, 'epoch': 31.0} {'loss': 0.0526, 'learning_rate': 3.449733266809948e-05, 'epoch': 31.01} {'loss': 0.0549, 'learning_rate': 3.449493398833282e-05, 'epoch': 31.01} {'loss': 0.053, 'learning_rate': 3.4492535308566166e-05, 'epoch': 31.01} {'loss': 0.054, 'learning_rate': 3.449013662879951e-05, 'epoch': 31.02} {'loss': 0.0552, 'learning_rate': 3.448773794903286e-05, 'epoch': 31.02} {'loss': 0.0547, 'learning_rate': 3.44853392692662e-05, 'epoch': 31.03} {'loss': 0.0563, 'learning_rate': 3.448294058949954e-05, 'epoch': 31.03} {'loss': 0.0545, 'learning_rate': 3.448054190973288e-05, 'epoch': 31.04} {'loss': 0.0547, 'learning_rate': 3.447814322996623e-05, 'epoch': 31.04} {'loss': 0.0564, 'learning_rate': 3.4475744550199575e-05, 'epoch': 31.05} {'loss': 0.0529, 'learning_rate': 3.4473345870432914e-05, 'epoch': 31.05} {'loss': 0.0557, 'learning_rate': 3.447094719066626e-05, 'epoch': 31.06} {'loss': 0.056, 'learning_rate': 3.44685485108996e-05, 'epoch': 31.06} {'loss': 0.0551, 'learning_rate': 3.4466149831132945e-05, 'epoch': 31.07} {'loss': 0.0536, 'learning_rate': 3.446375115136629e-05, 'epoch': 31.07} {'loss': 0.0564, 'learning_rate': 3.446135247159963e-05, 'epoch': 31.08} {'loss': 0.0563, 'learning_rate': 3.445895379183298e-05, 'epoch': 31.08} {'loss': 0.055, 'learning_rate': 3.4456555112066316e-05, 'epoch': 31.09} {'loss': 0.0556, 'learning_rate': 3.445415643229966e-05, 'epoch': 31.09} {'loss': 0.0543, 'learning_rate': 3.445175775253301e-05, 'epoch': 31.1} {'loss': 0.0571, 'learning_rate': 3.4449359072766355e-05, 'epoch': 31.1} {'loss': 0.0536, 'learning_rate': 3.4446960392999694e-05, 'epoch': 31.11} {'loss': 0.0522, 'learning_rate': 3.444456171323304e-05, 'epoch': 31.11} {'loss': 0.0544, 'learning_rate': 3.444216303346638e-05, 'epoch': 31.12} {'loss': 0.0546, 'learning_rate': 3.4439764353699725e-05, 'epoch': 31.12} {'loss': 0.0544, 'learning_rate': 3.443736567393307e-05, 'epoch': 31.13} {'loss': 0.0564, 'learning_rate': 3.443496699416641e-05, 'epoch': 31.13} {'loss': 0.0554, 'learning_rate': 3.443256831439976e-05, 'epoch': 31.13} {'loss': 0.0543, 'learning_rate': 3.4430169634633096e-05, 'epoch': 31.14} {'loss': 0.0558, 'learning_rate': 3.442777095486644e-05, 'epoch': 31.14} {'loss': 0.0536, 'learning_rate': 3.442537227509979e-05, 'epoch': 31.15} {'loss': 0.0534, 'learning_rate': 3.442297359533313e-05, 'epoch': 31.15} {'loss': 0.0565, 'learning_rate': 3.4420574915566474e-05, 'epoch': 31.16} {'loss': 0.0537, 'learning_rate': 3.441817623579981e-05, 'epoch': 31.16} {'loss': 0.0551, 'learning_rate': 3.4415777556033166e-05, 'epoch': 31.17} {'loss': 0.0539, 'learning_rate': 3.4413378876266505e-05, 'epoch': 31.17} {'loss': 0.0573, 'learning_rate': 3.4410980196499845e-05, 'epoch': 31.18} {'loss': 0.0567, 'learning_rate': 3.440858151673319e-05, 'epoch': 31.18} {'loss': 0.0545, 'learning_rate': 3.440618283696653e-05, 'epoch': 31.19} {'loss': 0.0579, 'learning_rate': 3.440378415719988e-05, 'epoch': 31.19} {'loss': 0.0544, 'learning_rate': 3.440138547743322e-05, 'epoch': 31.2} {'loss': 0.0559, 'learning_rate': 3.439898679766657e-05, 'epoch': 31.2} {'loss': 0.0567, 'learning_rate': 3.439658811789991e-05, 'epoch': 31.21} {'loss': 0.0548, 'learning_rate': 3.4394189438133254e-05, 'epoch': 31.21} {'loss': 0.0566, 'learning_rate': 3.43917907583666e-05, 'epoch': 31.22} {'loss': 0.0577, 'learning_rate': 3.438939207859994e-05, 'epoch': 31.22} {'loss': 0.0547, 'learning_rate': 3.4386993398833285e-05, 'epoch': 31.23} {'loss': 0.0569, 'learning_rate': 3.4384594719066624e-05, 'epoch': 31.23} {'loss': 0.0554, 'learning_rate': 3.438219603929997e-05, 'epoch': 31.24} {'loss': 0.0561, 'learning_rate': 3.437979735953332e-05, 'epoch': 31.24} {'loss': 0.0563, 'learning_rate': 3.4377398679766656e-05, 'epoch': 31.25} {'loss': 0.057, 'learning_rate': 3.4375e-05, 'epoch': 31.25} {'loss': 0.0548, 'learning_rate': 3.437260132023334e-05, 'epoch': 31.25} {'loss': 0.0563, 'learning_rate': 3.437020264046669e-05, 'epoch': 31.26} {'loss': 0.0566, 'learning_rate': 3.4367803960700034e-05, 'epoch': 31.26} {'loss': 0.0552, 'learning_rate': 3.436540528093338e-05, 'epoch': 31.27} {'loss': 0.0563, 'learning_rate': 3.436300660116672e-05, 'epoch': 31.27} {'loss': 0.0548, 'learning_rate': 3.4360607921400065e-05, 'epoch': 31.28} {'loss': 0.0545, 'learning_rate': 3.4358209241633404e-05, 'epoch': 31.28} {'loss': 0.0574, 'learning_rate': 3.435581056186675e-05, 'epoch': 31.29} {'loss': 0.0561, 'learning_rate': 3.4353411882100097e-05, 'epoch': 31.29} {'loss': 0.0548, 'learning_rate': 3.4351013202333436e-05, 'epoch': 31.3} {'loss': 0.0569, 'learning_rate': 3.434861452256678e-05, 'epoch': 31.3} {'loss': 0.0556, 'learning_rate': 3.434621584280012e-05, 'epoch': 31.31} {'loss': 0.0551, 'learning_rate': 3.434381716303347e-05, 'epoch': 31.31} {'loss': 0.0571, 'learning_rate': 3.4341418483266813e-05, 'epoch': 31.32} {'loss': 0.0555, 'learning_rate': 3.433901980350015e-05, 'epoch': 31.32} {'loss': 0.0568, 'learning_rate': 3.43366211237335e-05, 'epoch': 31.33} {'loss': 0.0547, 'learning_rate': 3.433422244396684e-05, 'epoch': 31.33} {'loss': 0.0572, 'learning_rate': 3.433182376420019e-05, 'epoch': 31.34} {'loss': 0.0552, 'learning_rate': 3.432942508443353e-05, 'epoch': 31.34} {'loss': 0.0568, 'learning_rate': 3.4327026404666876e-05, 'epoch': 31.35} {'loss': 0.0566, 'learning_rate': 3.4324627724900216e-05, 'epoch': 31.35} {'loss': 0.0552, 'learning_rate': 3.4322229045133555e-05, 'epoch': 31.36} {'loss': 0.0574, 'learning_rate': 3.431983036536691e-05, 'epoch': 31.36} {'loss': 0.0547, 'learning_rate': 3.431743168560025e-05, 'epoch': 31.37} {'loss': 0.0558, 'learning_rate': 3.431503300583359e-05, 'epoch': 31.37} {'loss': 0.0552, 'learning_rate': 3.431263432606693e-05, 'epoch': 31.37} {'loss': 0.0558, 'learning_rate': 3.431023564630028e-05, 'epoch': 31.38} {'loss': 0.0594, 'learning_rate': 3.4307836966533625e-05, 'epoch': 31.38} {'loss': 0.0548, 'learning_rate': 3.4305438286766964e-05, 'epoch': 31.39} {'loss': 0.0567, 'learning_rate': 3.430303960700031e-05, 'epoch': 31.39} {'loss': 0.0555, 'learning_rate': 3.430064092723365e-05, 'epoch': 31.4} {'loss': 0.0562, 'learning_rate': 3.4298242247466996e-05, 'epoch': 31.4} {'loss': 0.0547, 'learning_rate': 3.429584356770034e-05, 'epoch': 31.41} {'loss': 0.0555, 'learning_rate': 3.429344488793369e-05, 'epoch': 31.41} {'loss': 0.0536, 'learning_rate': 3.429104620816703e-05, 'epoch': 31.42} {'loss': 0.0571, 'learning_rate': 3.4288647528400366e-05, 'epoch': 31.42} {'loss': 0.0542, 'learning_rate': 3.428624884863371e-05, 'epoch': 31.43} {'loss': 0.0583, 'learning_rate': 3.428385016886706e-05, 'epoch': 31.43} {'loss': 0.0537, 'learning_rate': 3.4281451489100405e-05, 'epoch': 31.44} {'loss': 0.0545, 'learning_rate': 3.4279052809333744e-05, 'epoch': 31.44} {'loss': 0.0572, 'learning_rate': 3.427665412956709e-05, 'epoch': 31.45} {'loss': 0.0546, 'learning_rate': 3.427425544980043e-05, 'epoch': 31.45} {'loss': 0.0557, 'learning_rate': 3.4271856770033776e-05, 'epoch': 31.46} {'loss': 0.0544, 'learning_rate': 3.426945809026712e-05, 'epoch': 31.46} {'loss': 0.0536, 'learning_rate': 3.426705941050046e-05, 'epoch': 31.47} {'loss': 0.0543, 'learning_rate': 3.426466073073381e-05, 'epoch': 31.47} {'loss': 0.0575, 'learning_rate': 3.4262262050967146e-05, 'epoch': 31.48} {'loss': 0.055, 'learning_rate': 3.425986337120049e-05, 'epoch': 31.48} {'loss': 0.0575, 'learning_rate': 3.425746469143384e-05, 'epoch': 31.49} {'loss': 0.0565, 'learning_rate': 3.425506601166718e-05, 'epoch': 31.49} {'loss': 0.0566, 'learning_rate': 3.4252667331900524e-05, 'epoch': 31.49} {'loss': 0.0541, 'learning_rate': 3.425026865213386e-05, 'epoch': 31.5} {'loss': 0.0576, 'learning_rate': 3.424786997236721e-05, 'epoch': 31.5} {'loss': 0.0554, 'learning_rate': 3.4245471292600555e-05, 'epoch': 31.51} {'loss': 0.057, 'learning_rate': 3.42430726128339e-05, 'epoch': 31.51} {'loss': 0.0545, 'learning_rate': 3.424067393306724e-05, 'epoch': 31.52} {'loss': 0.0563, 'learning_rate': 3.423827525330058e-05, 'epoch': 31.52} {'loss': 0.0631, 'learning_rate': 3.4235876573533926e-05, 'epoch': 31.53} {'loss': 0.0591, 'learning_rate': 3.423347789376727e-05, 'epoch': 31.53} {'loss': 0.0548, 'learning_rate': 3.423107921400062e-05, 'epoch': 31.54} {'loss': 0.059, 'learning_rate': 3.422868053423396e-05, 'epoch': 31.54} {'loss': 0.062, 'learning_rate': 3.4226281854467304e-05, 'epoch': 31.55} {'loss': 0.0606, 'learning_rate': 3.422388317470064e-05, 'epoch': 31.55} {'loss': 0.056, 'learning_rate': 3.422148449493399e-05, 'epoch': 31.56} {'loss': 0.058, 'learning_rate': 3.4219085815167335e-05, 'epoch': 31.56} {'loss': 0.0569, 'learning_rate': 3.4216687135400675e-05, 'epoch': 31.57} {'loss': 0.0573, 'learning_rate': 3.421428845563402e-05, 'epoch': 31.57} {'loss': 0.0549, 'learning_rate': 3.421188977586736e-05, 'epoch': 31.58} {'loss': 0.0599, 'learning_rate': 3.420949109610071e-05, 'epoch': 31.58} {'loss': 0.0585, 'learning_rate': 3.420709241633405e-05, 'epoch': 31.59} {'loss': 0.0589, 'learning_rate': 3.420469373656739e-05, 'epoch': 31.59} {'loss': 0.0579, 'learning_rate': 3.420229505680074e-05, 'epoch': 31.6} {'loss': 0.0567, 'learning_rate': 3.419989637703408e-05, 'epoch': 31.6} {'loss': 0.0554, 'learning_rate': 3.419749769726743e-05, 'epoch': 31.61} {'loss': 0.0577, 'learning_rate': 3.419509901750077e-05, 'epoch': 31.61} {'loss': 0.0556, 'learning_rate': 3.4192700337734115e-05, 'epoch': 31.61} {'loss': 0.0568, 'learning_rate': 3.4190301657967455e-05, 'epoch': 31.62} {'loss': 0.0534, 'learning_rate': 3.41879029782008e-05, 'epoch': 31.62} {'loss': 0.0567, 'learning_rate': 3.418550429843415e-05, 'epoch': 31.63} {'loss': 0.0572, 'learning_rate': 3.4183105618667486e-05, 'epoch': 31.63} {'loss': 0.0563, 'learning_rate': 3.418070693890083e-05, 'epoch': 31.64} {'loss': 0.0574, 'learning_rate': 3.417830825913417e-05, 'epoch': 31.64} {'loss': 0.0568, 'learning_rate': 3.417590957936752e-05, 'epoch': 31.65} {'loss': 0.0566, 'learning_rate': 3.4173510899600864e-05, 'epoch': 31.65} {'loss': 0.0563, 'learning_rate': 3.41711122198342e-05, 'epoch': 31.66} {'loss': 0.0556, 'learning_rate': 3.416871354006755e-05, 'epoch': 31.66} {'loss': 0.0543, 'learning_rate': 3.416631486030089e-05, 'epoch': 31.67} {'loss': 0.0558, 'learning_rate': 3.4163916180534234e-05, 'epoch': 31.67} {'loss': 0.0547, 'learning_rate': 3.416151750076758e-05, 'epoch': 31.68} {'loss': 0.0518, 'learning_rate': 3.415911882100093e-05, 'epoch': 31.68} {'loss': 0.0539, 'learning_rate': 3.4156720141234266e-05, 'epoch': 31.69} {'loss': 0.0521, 'learning_rate': 3.415432146146761e-05, 'epoch': 31.69} {'loss': 0.0555, 'learning_rate': 3.415192278170095e-05, 'epoch': 31.7} {'loss': 0.0552, 'learning_rate': 3.41495241019343e-05, 'epoch': 31.7} {'loss': 0.0552, 'learning_rate': 3.4147125422167644e-05, 'epoch': 31.71} {'loss': 0.0573, 'learning_rate': 3.414472674240098e-05, 'epoch': 31.71} {'loss': 0.0537, 'learning_rate': 3.414232806263433e-05, 'epoch': 31.72} {'loss': 0.0557, 'learning_rate': 3.413992938286767e-05, 'epoch': 31.72} {'loss': 0.0573, 'learning_rate': 3.4137530703101014e-05, 'epoch': 31.72} {'loss': 0.0544, 'learning_rate': 3.413513202333436e-05, 'epoch': 31.73} {'loss': 0.0561, 'learning_rate': 3.41327333435677e-05, 'epoch': 31.73} {'loss': 0.0546, 'learning_rate': 3.4130334663801046e-05, 'epoch': 31.74} {'loss': 0.0541, 'learning_rate': 3.4127935984034385e-05, 'epoch': 31.74} {'loss': 0.0564, 'learning_rate': 3.412553730426774e-05, 'epoch': 31.75} {'loss': 0.0562, 'learning_rate': 3.412313862450108e-05, 'epoch': 31.75} {'loss': 0.0563, 'learning_rate': 3.412073994473442e-05, 'epoch': 31.76} {'loss': 0.0555, 'learning_rate': 3.411834126496776e-05, 'epoch': 31.76} {'loss': 0.0528, 'learning_rate': 3.41159425852011e-05, 'epoch': 31.77} {'loss': 0.0529, 'learning_rate': 3.4113543905434455e-05, 'epoch': 31.77} {'loss': 0.0527, 'learning_rate': 3.4111145225667794e-05, 'epoch': 31.78} {'loss': 0.0554, 'learning_rate': 3.410874654590114e-05, 'epoch': 31.78} {'loss': 0.0543, 'learning_rate': 3.410634786613448e-05, 'epoch': 31.79} {'loss': 0.0544, 'learning_rate': 3.4103949186367826e-05, 'epoch': 31.79} {'loss': 0.0561, 'learning_rate': 3.410155050660117e-05, 'epoch': 31.8} {'loss': 0.0556, 'learning_rate': 3.409915182683451e-05, 'epoch': 31.8} {'loss': 0.0561, 'learning_rate': 3.409675314706786e-05, 'epoch': 31.81} {'loss': 0.0554, 'learning_rate': 3.4094354467301197e-05, 'epoch': 31.81} {'loss': 0.0533, 'learning_rate': 3.409195578753454e-05, 'epoch': 31.82} {'loss': 0.0553, 'learning_rate': 3.408955710776789e-05, 'epoch': 31.82} {'loss': 0.0544, 'learning_rate': 3.408715842800123e-05, 'epoch': 31.83} {'loss': 0.0549, 'learning_rate': 3.4084759748234574e-05, 'epoch': 31.83} {'loss': 0.0546, 'learning_rate': 3.4082361068467914e-05, 'epoch': 31.84} {'loss': 0.0548, 'learning_rate': 3.407996238870126e-05, 'epoch': 31.84} {'loss': 0.0523, 'learning_rate': 3.4077563708934606e-05, 'epoch': 31.84} {'loss': 0.0534, 'learning_rate': 3.407516502916795e-05, 'epoch': 31.85} {'loss': 0.0549, 'learning_rate': 3.407276634940129e-05, 'epoch': 31.85} {'loss': 0.0545, 'learning_rate': 3.407036766963464e-05, 'epoch': 31.86} {'loss': 0.0554, 'learning_rate': 3.4067968989867976e-05, 'epoch': 31.86} {'loss': 0.057, 'learning_rate': 3.406557031010132e-05, 'epoch': 31.87} {'loss': 0.0544, 'learning_rate': 3.406317163033467e-05, 'epoch': 31.87} {'loss': 0.0553, 'learning_rate': 3.406077295056801e-05, 'epoch': 31.88} {'loss': 0.0554, 'learning_rate': 3.4058374270801354e-05, 'epoch': 31.88} {'loss': 0.0556, 'learning_rate': 3.4055975591034693e-05, 'epoch': 31.89} {'loss': 0.0519, 'learning_rate': 3.405357691126804e-05, 'epoch': 31.89} {'loss': 0.0544, 'learning_rate': 3.4051178231501386e-05, 'epoch': 31.9} {'loss': 0.0537, 'learning_rate': 3.4048779551734725e-05, 'epoch': 31.9} {'loss': 0.056, 'learning_rate': 3.404638087196807e-05, 'epoch': 31.91} {'loss': 0.0542, 'learning_rate': 3.404398219220141e-05, 'epoch': 31.91} {'loss': 0.0539, 'learning_rate': 3.4041583512434756e-05, 'epoch': 31.92} {'loss': 0.055, 'learning_rate': 3.40391848326681e-05, 'epoch': 31.92} {'loss': 0.0562, 'learning_rate': 3.403678615290145e-05, 'epoch': 31.93} {'loss': 0.0559, 'learning_rate': 3.403438747313479e-05, 'epoch': 31.93} {'loss': 0.0591, 'learning_rate': 3.403198879336813e-05, 'epoch': 31.94} {'loss': 0.0559, 'learning_rate': 3.402959011360147e-05, 'epoch': 31.94} {'loss': 0.056, 'learning_rate': 3.402719143383482e-05, 'epoch': 31.95} {'loss': 0.0551, 'learning_rate': 3.4024792754068165e-05, 'epoch': 31.95} {'loss': 0.0549, 'learning_rate': 3.4022394074301505e-05, 'epoch': 31.96} {'loss': 0.0563, 'learning_rate': 3.401999539453485e-05, 'epoch': 31.96} {'loss': 0.0538, 'learning_rate': 3.401759671476819e-05, 'epoch': 31.96} {'loss': 0.0555, 'learning_rate': 3.4015198035001536e-05, 'epoch': 31.97} {'loss': 0.0556, 'learning_rate': 3.401279935523488e-05, 'epoch': 31.97} {'loss': 0.0562, 'learning_rate': 3.401040067546822e-05, 'epoch': 31.98} {'loss': 0.0549, 'learning_rate': 3.400800199570157e-05, 'epoch': 31.98} {'loss': 0.0528, 'learning_rate': 3.400560331593491e-05, 'epoch': 31.99} {'loss': 0.0544, 'learning_rate': 3.400320463616825e-05, 'epoch': 31.99} {'loss': 0.0538, 'learning_rate': 3.40008059564016e-05, 'epoch': 32.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.050910454243421555, 'eval_runtime': 526.5262, 'eval_samples_per_second': 791.784, 'eval_steps_per_second': 98.973, 'epoch': 32.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-3335168 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-3335168/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-3335168/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-3230944] due to args.save_total_limit {'loss': 0.0546, 'learning_rate': 3.399840727663494e-05, 'epoch': 32.0} {'loss': 0.0552, 'learning_rate': 3.3996008596868285e-05, 'epoch': 32.01} {'loss': 0.0561, 'learning_rate': 3.3993609917101624e-05, 'epoch': 32.01} {'loss': 0.0552, 'learning_rate': 3.399121123733498e-05, 'epoch': 32.02} {'loss': 0.055, 'learning_rate': 3.3988812557568316e-05, 'epoch': 32.02} {'loss': 0.054, 'learning_rate': 3.398641387780166e-05, 'epoch': 32.03} {'loss': 0.0552, 'learning_rate': 3.3984015198035e-05, 'epoch': 32.03} {'loss': 0.055, 'learning_rate': 3.398161651826835e-05, 'epoch': 32.04} {'loss': 0.054, 'learning_rate': 3.3979217838501694e-05, 'epoch': 32.04} {'loss': 0.0555, 'learning_rate': 3.397681915873503e-05, 'epoch': 32.05} {'loss': 0.0552, 'learning_rate': 3.397442047896838e-05, 'epoch': 32.05} {'loss': 0.0558, 'learning_rate': 3.397202179920172e-05, 'epoch': 32.06} {'loss': 0.0553, 'learning_rate': 3.3969623119435065e-05, 'epoch': 32.06} {'loss': 0.0505, 'learning_rate': 3.396722443966841e-05, 'epoch': 32.07} {'loss': 0.0551, 'learning_rate': 3.396482575990175e-05, 'epoch': 32.07} {'loss': 0.0561, 'learning_rate': 3.3962427080135096e-05, 'epoch': 32.08} {'loss': 0.0542, 'learning_rate': 3.3960028400368435e-05, 'epoch': 32.08} {'loss': 0.0549, 'learning_rate': 3.395762972060178e-05, 'epoch': 32.08} {'loss': 0.0531, 'learning_rate': 3.395523104083513e-05, 'epoch': 32.09} {'loss': 0.0552, 'learning_rate': 3.3952832361068474e-05, 'epoch': 32.09} {'loss': 0.054, 'learning_rate': 3.395043368130181e-05, 'epoch': 32.1} {'loss': 0.0539, 'learning_rate': 3.394803500153515e-05, 'epoch': 32.1} {'loss': 0.0532, 'learning_rate': 3.39456363217685e-05, 'epoch': 32.11} {'loss': 0.0571, 'learning_rate': 3.3943237642001844e-05, 'epoch': 32.11} {'loss': 0.0571, 'learning_rate': 3.394083896223519e-05, 'epoch': 32.12} {'loss': 0.0556, 'learning_rate': 3.393844028246853e-05, 'epoch': 32.12} {'loss': 0.0561, 'learning_rate': 3.3936041602701876e-05, 'epoch': 32.13} {'loss': 0.0533, 'learning_rate': 3.3933642922935215e-05, 'epoch': 32.13} {'loss': 0.0554, 'learning_rate': 3.393124424316856e-05, 'epoch': 32.14} {'loss': 0.0568, 'learning_rate': 3.392884556340191e-05, 'epoch': 32.14} {'loss': 0.056, 'learning_rate': 3.392644688363525e-05, 'epoch': 32.15} {'loss': 0.0545, 'learning_rate': 3.392404820386859e-05, 'epoch': 32.15} {'loss': 0.0516, 'learning_rate': 3.392164952410193e-05, 'epoch': 32.16} {'loss': 0.0543, 'learning_rate': 3.3919250844335285e-05, 'epoch': 32.16} {'loss': 0.0533, 'learning_rate': 3.3916852164568624e-05, 'epoch': 32.17} {'loss': 0.056, 'learning_rate': 3.3914453484801964e-05, 'epoch': 32.17} {'loss': 0.0529, 'learning_rate': 3.391205480503531e-05, 'epoch': 32.18} {'loss': 0.0522, 'learning_rate': 3.390965612526865e-05, 'epoch': 32.18} {'loss': 0.0545, 'learning_rate': 3.3907257445502e-05, 'epoch': 32.19} {'loss': 0.0554, 'learning_rate': 3.390485876573534e-05, 'epoch': 32.19} {'loss': 0.0532, 'learning_rate': 3.390246008596869e-05, 'epoch': 32.2} {'loss': 0.0549, 'learning_rate': 3.390006140620203e-05, 'epoch': 32.2} {'loss': 0.0568, 'learning_rate': 3.389766272643537e-05, 'epoch': 32.2} {'loss': 0.0586, 'learning_rate': 3.389526404666872e-05, 'epoch': 32.21} {'loss': 0.0559, 'learning_rate': 3.389286536690206e-05, 'epoch': 32.21} {'loss': 0.0563, 'learning_rate': 3.3890466687135404e-05, 'epoch': 32.22} {'loss': 0.054, 'learning_rate': 3.3888068007368744e-05, 'epoch': 32.22} {'loss': 0.056, 'learning_rate': 3.388566932760209e-05, 'epoch': 32.23} {'loss': 0.0522, 'learning_rate': 3.3883270647835436e-05, 'epoch': 32.23} {'loss': 0.0546, 'learning_rate': 3.3880871968068775e-05, 'epoch': 32.24} {'loss': 0.0536, 'learning_rate': 3.387847328830212e-05, 'epoch': 32.24} {'loss': 0.0558, 'learning_rate': 3.387607460853546e-05, 'epoch': 32.25} {'loss': 0.0535, 'learning_rate': 3.3873675928768807e-05, 'epoch': 32.25} {'loss': 0.0537, 'learning_rate': 3.387127724900215e-05, 'epoch': 32.26} {'loss': 0.0545, 'learning_rate': 3.38688785692355e-05, 'epoch': 32.26} {'loss': 0.0561, 'learning_rate': 3.386647988946884e-05, 'epoch': 32.27} {'loss': 0.0568, 'learning_rate': 3.3864081209702184e-05, 'epoch': 32.27} {'loss': 0.054, 'learning_rate': 3.3861682529935524e-05, 'epoch': 32.28} {'loss': 0.0532, 'learning_rate': 3.385928385016887e-05, 'epoch': 32.28} {'loss': 0.0533, 'learning_rate': 3.3856885170402216e-05, 'epoch': 32.29} {'loss': 0.0528, 'learning_rate': 3.3854486490635555e-05, 'epoch': 32.29} {'loss': 0.052, 'learning_rate': 3.38520878108689e-05, 'epoch': 32.3} {'loss': 0.0553, 'learning_rate': 3.384968913110224e-05, 'epoch': 32.3} {'loss': 0.0527, 'learning_rate': 3.3847290451335587e-05, 'epoch': 32.31} {'loss': 0.0544, 'learning_rate': 3.384489177156893e-05, 'epoch': 32.31} {'loss': 0.0552, 'learning_rate': 3.384249309180227e-05, 'epoch': 32.32} {'loss': 0.0545, 'learning_rate': 3.384009441203562e-05, 'epoch': 32.32} {'loss': 0.0545, 'learning_rate': 3.383769573226896e-05, 'epoch': 32.32} {'loss': 0.0563, 'learning_rate': 3.3835297052502303e-05, 'epoch': 32.33} {'loss': 0.0538, 'learning_rate': 3.383289837273565e-05, 'epoch': 32.33} {'loss': 0.0524, 'learning_rate': 3.383049969296899e-05, 'epoch': 32.34} {'loss': 0.0526, 'learning_rate': 3.3828101013202335e-05, 'epoch': 32.34} {'loss': 0.0517, 'learning_rate': 3.3825702333435674e-05, 'epoch': 32.35} {'loss': 0.0523, 'learning_rate': 3.382330365366902e-05, 'epoch': 32.35} {'loss': 0.0528, 'learning_rate': 3.3820904973902366e-05, 'epoch': 32.36} {'loss': 0.0547, 'learning_rate': 3.381850629413571e-05, 'epoch': 32.36} {'loss': 0.0535, 'learning_rate': 3.381610761436905e-05, 'epoch': 32.37} {'loss': 0.0562, 'learning_rate': 3.38137089346024e-05, 'epoch': 32.37} {'loss': 0.0539, 'learning_rate': 3.381131025483574e-05, 'epoch': 32.38} {'loss': 0.0545, 'learning_rate': 3.380891157506908e-05, 'epoch': 32.38} {'loss': 0.0547, 'learning_rate': 3.380651289530243e-05, 'epoch': 32.39} {'loss': 0.0531, 'learning_rate': 3.380411421553577e-05, 'epoch': 32.39} {'loss': 0.0524, 'learning_rate': 3.3801715535769115e-05, 'epoch': 32.4} {'loss': 0.0542, 'learning_rate': 3.3799316856002454e-05, 'epoch': 32.4} {'loss': 0.057, 'learning_rate': 3.37969181762358e-05, 'epoch': 32.41} {'loss': 0.0546, 'learning_rate': 3.3794519496469146e-05, 'epoch': 32.41} {'loss': 0.0534, 'learning_rate': 3.3792120816702486e-05, 'epoch': 32.42} {'loss': 0.055, 'learning_rate': 3.378972213693583e-05, 'epoch': 32.42} {'loss': 0.0542, 'learning_rate': 3.378732345716917e-05, 'epoch': 32.43} {'loss': 0.0538, 'learning_rate': 3.3784924777402524e-05, 'epoch': 32.43} {'loss': 0.0531, 'learning_rate': 3.378252609763586e-05, 'epoch': 32.43} {'loss': 0.0547, 'learning_rate': 3.378012741786921e-05, 'epoch': 32.44} {'loss': 0.0557, 'learning_rate': 3.377772873810255e-05, 'epoch': 32.44} {'loss': 0.0571, 'learning_rate': 3.377533005833589e-05, 'epoch': 32.45} {'loss': 0.0558, 'learning_rate': 3.377293137856924e-05, 'epoch': 32.45} {'loss': 0.0535, 'learning_rate': 3.377053269880258e-05, 'epoch': 32.46} {'loss': 0.0553, 'learning_rate': 3.3768134019035926e-05, 'epoch': 32.46} {'loss': 0.053, 'learning_rate': 3.3765735339269266e-05, 'epoch': 32.47} {'loss': 0.0532, 'learning_rate': 3.376333665950261e-05, 'epoch': 32.47} {'loss': 0.0528, 'learning_rate': 3.376093797973596e-05, 'epoch': 32.48} {'loss': 0.0536, 'learning_rate': 3.37585392999693e-05, 'epoch': 32.48} {'loss': 0.0548, 'learning_rate': 3.375614062020264e-05, 'epoch': 32.49} {'loss': 0.0538, 'learning_rate': 3.375374194043598e-05, 'epoch': 32.49} {'loss': 0.0524, 'learning_rate': 3.375134326066933e-05, 'epoch': 32.5} {'loss': 0.0555, 'learning_rate': 3.3748944580902675e-05, 'epoch': 32.5} {'loss': 0.0544, 'learning_rate': 3.374654590113602e-05, 'epoch': 32.51} {'loss': 0.0548, 'learning_rate': 3.374414722136936e-05, 'epoch': 32.51} {'loss': 0.054, 'learning_rate': 3.37417485416027e-05, 'epoch': 32.52} {'loss': 0.0542, 'learning_rate': 3.3739349861836045e-05, 'epoch': 32.52} {'loss': 0.0546, 'learning_rate': 3.373695118206939e-05, 'epoch': 32.53} {'loss': 0.0545, 'learning_rate': 3.373455250230274e-05, 'epoch': 32.53} {'loss': 0.0541, 'learning_rate': 3.373215382253608e-05, 'epoch': 32.54} {'loss': 0.0549, 'learning_rate': 3.372975514276942e-05, 'epoch': 32.54} {'loss': 0.053, 'learning_rate': 3.372735646300276e-05, 'epoch': 32.55} {'loss': 0.0549, 'learning_rate': 3.372495778323611e-05, 'epoch': 32.55} {'loss': 0.054, 'learning_rate': 3.3722559103469455e-05, 'epoch': 32.55} {'loss': 0.0546, 'learning_rate': 3.3720160423702794e-05, 'epoch': 32.56} {'loss': 0.0539, 'learning_rate': 3.371776174393614e-05, 'epoch': 32.56} {'loss': 0.0524, 'learning_rate': 3.371536306416948e-05, 'epoch': 32.57} {'loss': 0.0521, 'learning_rate': 3.3712964384402825e-05, 'epoch': 32.57} {'loss': 0.0549, 'learning_rate': 3.371056570463617e-05, 'epoch': 32.58} {'loss': 0.0545, 'learning_rate': 3.370816702486951e-05, 'epoch': 32.58} {'loss': 0.054, 'learning_rate': 3.370576834510286e-05, 'epoch': 32.59} {'loss': 0.0556, 'learning_rate': 3.3703369665336196e-05, 'epoch': 32.59} {'loss': 0.0527, 'learning_rate': 3.370097098556955e-05, 'epoch': 32.6} {'loss': 0.0554, 'learning_rate': 3.369857230580289e-05, 'epoch': 32.6} {'loss': 0.0539, 'learning_rate': 3.3696173626036234e-05, 'epoch': 32.61} {'loss': 0.0547, 'learning_rate': 3.3693774946269574e-05, 'epoch': 32.61} {'loss': 0.0544, 'learning_rate': 3.369137626650292e-05, 'epoch': 32.62} {'loss': 0.0553, 'learning_rate': 3.3688977586736266e-05, 'epoch': 32.62} {'loss': 0.0547, 'learning_rate': 3.3686578906969605e-05, 'epoch': 32.63} {'loss': 0.0543, 'learning_rate': 3.368418022720295e-05, 'epoch': 32.63} {'loss': 0.0532, 'learning_rate': 3.368178154743629e-05, 'epoch': 32.64} {'loss': 0.0577, 'learning_rate': 3.367938286766964e-05, 'epoch': 32.64} {'loss': 0.0531, 'learning_rate': 3.367698418790298e-05, 'epoch': 32.65} {'loss': 0.0556, 'learning_rate': 3.367458550813632e-05, 'epoch': 32.65} {'loss': 0.0534, 'learning_rate': 3.367218682836967e-05, 'epoch': 32.66} {'loss': 0.0564, 'learning_rate': 3.366978814860301e-05, 'epoch': 32.66} {'loss': 0.0526, 'learning_rate': 3.3667389468836354e-05, 'epoch': 32.67} {'loss': 0.0549, 'learning_rate': 3.36649907890697e-05, 'epoch': 32.67} {'loss': 0.0512, 'learning_rate': 3.3662592109303046e-05, 'epoch': 32.67} {'loss': 0.0556, 'learning_rate': 3.3660193429536385e-05, 'epoch': 32.68} {'loss': 0.0557, 'learning_rate': 3.3657794749769724e-05, 'epoch': 32.68} {'loss': 0.0543, 'learning_rate': 3.365539607000307e-05, 'epoch': 32.69} {'loss': 0.0522, 'learning_rate': 3.365299739023642e-05, 'epoch': 32.69} {'loss': 0.0554, 'learning_rate': 3.365059871046976e-05, 'epoch': 32.7} {'loss': 0.0562, 'learning_rate': 3.36482000307031e-05, 'epoch': 32.7} {'loss': 0.0544, 'learning_rate': 3.364580135093645e-05, 'epoch': 32.71} {'loss': 0.0539, 'learning_rate': 3.364340267116979e-05, 'epoch': 32.71} {'loss': 0.0558, 'learning_rate': 3.3641003991403134e-05, 'epoch': 32.72} {'loss': 0.0574, 'learning_rate': 3.363860531163648e-05, 'epoch': 32.72} {'loss': 0.0579, 'learning_rate': 3.363620663186982e-05, 'epoch': 32.73} {'loss': 0.0641, 'learning_rate': 3.3633807952103165e-05, 'epoch': 32.73} {'loss': 0.0595, 'learning_rate': 3.3631409272336504e-05, 'epoch': 32.74} {'loss': 0.0598, 'learning_rate': 3.362901059256985e-05, 'epoch': 32.74} {'loss': 0.0622, 'learning_rate': 3.3626611912803197e-05, 'epoch': 32.75} {'loss': 0.058, 'learning_rate': 3.3624213233036536e-05, 'epoch': 32.75} {'loss': 0.0607, 'learning_rate': 3.362181455326988e-05, 'epoch': 32.76} {'loss': 0.0602, 'learning_rate': 3.361941587350322e-05, 'epoch': 32.76} {'loss': 0.0572, 'learning_rate': 3.361701719373657e-05, 'epoch': 32.77} {'loss': 0.0562, 'learning_rate': 3.3614618513969913e-05, 'epoch': 32.77} {'loss': 0.0557, 'learning_rate': 3.361221983420326e-05, 'epoch': 32.78} {'loss': 0.0574, 'learning_rate': 3.36098211544366e-05, 'epoch': 32.78} {'loss': 0.0646, 'learning_rate': 3.3607422474669945e-05, 'epoch': 32.79} {'loss': 0.0585, 'learning_rate': 3.3605023794903284e-05, 'epoch': 32.79} {'loss': 0.0551, 'learning_rate': 3.360262511513663e-05, 'epoch': 32.79} {'loss': 0.0585, 'learning_rate': 3.3600226435369976e-05, 'epoch': 32.8} {'loss': 0.0564, 'learning_rate': 3.3597827755603316e-05, 'epoch': 32.8} {'loss': 0.0574, 'learning_rate': 3.359542907583666e-05, 'epoch': 32.81} {'loss': 0.0588, 'learning_rate': 3.359303039607e-05, 'epoch': 32.81} {'loss': 0.0589, 'learning_rate': 3.359063171630335e-05, 'epoch': 32.82} {'loss': 0.0565, 'learning_rate': 3.358823303653669e-05, 'epoch': 32.82} {'loss': 0.0588, 'learning_rate': 3.358583435677003e-05, 'epoch': 32.83} {'loss': 0.0581, 'learning_rate': 3.358343567700338e-05, 'epoch': 32.83} {'loss': 0.0556, 'learning_rate': 3.358103699723672e-05, 'epoch': 32.84} {'loss': 0.0523, 'learning_rate': 3.357863831747007e-05, 'epoch': 32.84} {'loss': 0.0535, 'learning_rate': 3.357623963770341e-05, 'epoch': 32.85} {'loss': 0.0555, 'learning_rate': 3.3573840957936756e-05, 'epoch': 32.85} {'loss': 0.0565, 'learning_rate': 3.3571442278170096e-05, 'epoch': 32.86} {'loss': 0.0516, 'learning_rate': 3.3569043598403435e-05, 'epoch': 32.86} {'loss': 0.0514, 'learning_rate': 3.356664491863679e-05, 'epoch': 32.87} {'loss': 0.0564, 'learning_rate': 3.356424623887013e-05, 'epoch': 32.87} {'loss': 0.0502, 'learning_rate': 3.356184755910347e-05, 'epoch': 32.88} {'loss': 0.0539, 'learning_rate': 3.355944887933681e-05, 'epoch': 32.88} {'loss': 0.0546, 'learning_rate': 3.355705019957016e-05, 'epoch': 32.89} {'loss': 0.0527, 'learning_rate': 3.3554651519803505e-05, 'epoch': 32.89} {'loss': 0.0548, 'learning_rate': 3.3552252840036844e-05, 'epoch': 32.9} {'loss': 0.0534, 'learning_rate': 3.354985416027019e-05, 'epoch': 32.9} {'loss': 0.0539, 'learning_rate': 3.354745548050353e-05, 'epoch': 32.91} {'loss': 0.0538, 'learning_rate': 3.3545056800736876e-05, 'epoch': 32.91} {'loss': 0.0529, 'learning_rate': 3.354265812097022e-05, 'epoch': 32.91} {'loss': 0.0544, 'learning_rate': 3.354025944120356e-05, 'epoch': 32.92} {'loss': 0.0548, 'learning_rate': 3.353786076143691e-05, 'epoch': 32.92} {'loss': 0.0548, 'learning_rate': 3.3535462081670246e-05, 'epoch': 32.93} {'loss': 0.0548, 'learning_rate': 3.353306340190359e-05, 'epoch': 32.93} {'loss': 0.0547, 'learning_rate': 3.353066472213694e-05, 'epoch': 32.94} {'loss': 0.0546, 'learning_rate': 3.3528266042370285e-05, 'epoch': 32.94} {'loss': 0.0528, 'learning_rate': 3.3525867362603624e-05, 'epoch': 32.95} {'loss': 0.0551, 'learning_rate': 3.352346868283697e-05, 'epoch': 32.95} {'loss': 0.0528, 'learning_rate': 3.352107000307031e-05, 'epoch': 32.96} {'loss': 0.0575, 'learning_rate': 3.3518671323303655e-05, 'epoch': 32.96} {'loss': 0.0549, 'learning_rate': 3.3516272643537e-05, 'epoch': 32.97} {'loss': 0.0539, 'learning_rate': 3.351387396377034e-05, 'epoch': 32.97} {'loss': 0.0538, 'learning_rate': 3.351147528400369e-05, 'epoch': 32.98} {'loss': 0.0571, 'learning_rate': 3.3509076604237026e-05, 'epoch': 32.98} {'loss': 0.0516, 'learning_rate': 3.350667792447037e-05, 'epoch': 32.99} {'loss': 0.0538, 'learning_rate': 3.350427924470372e-05, 'epoch': 32.99} {'loss': 0.052, 'learning_rate': 3.350188056493706e-05, 'epoch': 33.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04991540312767029, 'eval_runtime': 523.1156, 'eval_samples_per_second': 796.946, 'eval_steps_per_second': 99.619, 'epoch': 33.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-3439392 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-3439392/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-3439392/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-3335168] due to args.save_total_limit {'loss': 0.0528, 'learning_rate': 3.3499481885170404e-05, 'epoch': 33.0} {'loss': 0.0525, 'learning_rate': 3.349708320540374e-05, 'epoch': 33.01} {'loss': 0.0521, 'learning_rate': 3.3494684525637096e-05, 'epoch': 33.01} {'loss': 0.0523, 'learning_rate': 3.3492285845870435e-05, 'epoch': 33.02} {'loss': 0.0517, 'learning_rate': 3.348988716610378e-05, 'epoch': 33.02} {'loss': 0.0535, 'learning_rate': 3.348748848633712e-05, 'epoch': 33.03} {'loss': 0.0552, 'learning_rate': 3.348508980657046e-05, 'epoch': 33.03} {'loss': 0.0548, 'learning_rate': 3.348269112680381e-05, 'epoch': 33.03} {'loss': 0.0522, 'learning_rate': 3.348029244703715e-05, 'epoch': 33.04} {'loss': 0.0533, 'learning_rate': 3.34778937672705e-05, 'epoch': 33.04} {'loss': 0.0539, 'learning_rate': 3.347549508750384e-05, 'epoch': 33.05} {'loss': 0.0505, 'learning_rate': 3.3473096407737184e-05, 'epoch': 33.05} {'loss': 0.054, 'learning_rate': 3.347069772797053e-05, 'epoch': 33.06} {'loss': 0.0534, 'learning_rate': 3.346829904820387e-05, 'epoch': 33.06} {'loss': 0.0541, 'learning_rate': 3.3465900368437215e-05, 'epoch': 33.07} {'loss': 0.0544, 'learning_rate': 3.3463501688670555e-05, 'epoch': 33.07} {'loss': 0.0543, 'learning_rate': 3.34611030089039e-05, 'epoch': 33.08} {'loss': 0.0541, 'learning_rate': 3.345870432913725e-05, 'epoch': 33.08} {'loss': 0.0537, 'learning_rate': 3.345630564937059e-05, 'epoch': 33.09} {'loss': 0.0552, 'learning_rate': 3.345390696960393e-05, 'epoch': 33.09} {'loss': 0.0553, 'learning_rate': 3.345150828983727e-05, 'epoch': 33.1} {'loss': 0.0524, 'learning_rate': 3.344910961007062e-05, 'epoch': 33.1} {'loss': 0.0527, 'learning_rate': 3.3446710930303964e-05, 'epoch': 33.11} {'loss': 0.0528, 'learning_rate': 3.344431225053731e-05, 'epoch': 33.11} {'loss': 0.0535, 'learning_rate': 3.344191357077065e-05, 'epoch': 33.12} {'loss': 0.0539, 'learning_rate': 3.3439514891003995e-05, 'epoch': 33.12} {'loss': 0.051, 'learning_rate': 3.3437116211237334e-05, 'epoch': 33.13} {'loss': 0.0524, 'learning_rate': 3.343471753147068e-05, 'epoch': 33.13} {'loss': 0.0537, 'learning_rate': 3.343231885170403e-05, 'epoch': 33.14} {'loss': 0.0541, 'learning_rate': 3.3429920171937366e-05, 'epoch': 33.14} {'loss': 0.0519, 'learning_rate': 3.342752149217071e-05, 'epoch': 33.14} {'loss': 0.0526, 'learning_rate': 3.342512281240405e-05, 'epoch': 33.15} {'loss': 0.0527, 'learning_rate': 3.34227241326374e-05, 'epoch': 33.15} {'loss': 0.0539, 'learning_rate': 3.3420325452870744e-05, 'epoch': 33.16} {'loss': 0.0548, 'learning_rate': 3.341792677310408e-05, 'epoch': 33.16} {'loss': 0.0537, 'learning_rate': 3.341552809333743e-05, 'epoch': 33.17} {'loss': 0.0525, 'learning_rate': 3.341312941357077e-05, 'epoch': 33.17} {'loss': 0.0526, 'learning_rate': 3.3410730733804114e-05, 'epoch': 33.18} {'loss': 0.0551, 'learning_rate': 3.340833205403746e-05, 'epoch': 33.18} {'loss': 0.0513, 'learning_rate': 3.3405933374270807e-05, 'epoch': 33.19} {'loss': 0.0533, 'learning_rate': 3.3403534694504146e-05, 'epoch': 33.19} {'loss': 0.051, 'learning_rate': 3.340113601473749e-05, 'epoch': 33.2} {'loss': 0.0541, 'learning_rate': 3.339873733497083e-05, 'epoch': 33.2} {'loss': 0.0538, 'learning_rate': 3.339633865520418e-05, 'epoch': 33.21} {'loss': 0.0541, 'learning_rate': 3.3393939975437523e-05, 'epoch': 33.21} {'loss': 0.0543, 'learning_rate': 3.339154129567086e-05, 'epoch': 33.22} {'loss': 0.054, 'learning_rate': 3.338914261590421e-05, 'epoch': 33.22} {'loss': 0.0542, 'learning_rate': 3.338674393613755e-05, 'epoch': 33.23} {'loss': 0.0542, 'learning_rate': 3.3384345256370894e-05, 'epoch': 33.23} {'loss': 0.0549, 'learning_rate': 3.338194657660424e-05, 'epoch': 33.24} {'loss': 0.0544, 'learning_rate': 3.337954789683758e-05, 'epoch': 33.24} {'loss': 0.0532, 'learning_rate': 3.3377149217070926e-05, 'epoch': 33.25} {'loss': 0.0509, 'learning_rate': 3.3374750537304265e-05, 'epoch': 33.25} {'loss': 0.0538, 'learning_rate': 3.337235185753762e-05, 'epoch': 33.26} {'loss': 0.0541, 'learning_rate': 3.336995317777096e-05, 'epoch': 33.26} {'loss': 0.0533, 'learning_rate': 3.3367554498004297e-05, 'epoch': 33.26} {'loss': 0.0542, 'learning_rate': 3.336515581823764e-05, 'epoch': 33.27} {'loss': 0.0538, 'learning_rate': 3.336275713847098e-05, 'epoch': 33.27} {'loss': 0.0538, 'learning_rate': 3.3360358458704335e-05, 'epoch': 33.28} {'loss': 0.0551, 'learning_rate': 3.3357959778937674e-05, 'epoch': 33.28} {'loss': 0.0552, 'learning_rate': 3.335556109917102e-05, 'epoch': 33.29} {'loss': 0.0524, 'learning_rate': 3.335316241940436e-05, 'epoch': 33.29} {'loss': 0.0525, 'learning_rate': 3.3350763739637706e-05, 'epoch': 33.3} {'loss': 0.0537, 'learning_rate': 3.334836505987105e-05, 'epoch': 33.3} {'loss': 0.0527, 'learning_rate': 3.334596638010439e-05, 'epoch': 33.31} {'loss': 0.0553, 'learning_rate': 3.334356770033774e-05, 'epoch': 33.31} {'loss': 0.0529, 'learning_rate': 3.3341169020571076e-05, 'epoch': 33.32} {'loss': 0.0545, 'learning_rate': 3.333877034080442e-05, 'epoch': 33.32} {'loss': 0.0553, 'learning_rate': 3.333637166103777e-05, 'epoch': 33.33} {'loss': 0.0524, 'learning_rate': 3.333397298127111e-05, 'epoch': 33.33} {'loss': 0.0534, 'learning_rate': 3.3331574301504454e-05, 'epoch': 33.34} {'loss': 0.053, 'learning_rate': 3.332917562173779e-05, 'epoch': 33.34} {'loss': 0.051, 'learning_rate': 3.332677694197114e-05, 'epoch': 33.35} {'loss': 0.0519, 'learning_rate': 3.3324378262204486e-05, 'epoch': 33.35} {'loss': 0.0559, 'learning_rate': 3.332197958243783e-05, 'epoch': 33.36} {'loss': 0.0572, 'learning_rate': 3.331958090267117e-05, 'epoch': 33.36} {'loss': 0.0541, 'learning_rate': 3.331718222290452e-05, 'epoch': 33.37} {'loss': 0.0544, 'learning_rate': 3.3314783543137856e-05, 'epoch': 33.37} {'loss': 0.0563, 'learning_rate': 3.33123848633712e-05, 'epoch': 33.38} {'loss': 0.0515, 'learning_rate': 3.330998618360455e-05, 'epoch': 33.38} {'loss': 0.0521, 'learning_rate': 3.330758750383789e-05, 'epoch': 33.38} {'loss': 0.0529, 'learning_rate': 3.3305188824071234e-05, 'epoch': 33.39} {'loss': 0.0535, 'learning_rate': 3.330279014430457e-05, 'epoch': 33.39} {'loss': 0.0525, 'learning_rate': 3.330039146453792e-05, 'epoch': 33.4} {'loss': 0.055, 'learning_rate': 3.3297992784771265e-05, 'epoch': 33.4} {'loss': 0.0525, 'learning_rate': 3.3295594105004605e-05, 'epoch': 33.41} {'loss': 0.0526, 'learning_rate': 3.329319542523795e-05, 'epoch': 33.41} {'loss': 0.0555, 'learning_rate': 3.329079674547129e-05, 'epoch': 33.42} {'loss': 0.0528, 'learning_rate': 3.328839806570464e-05, 'epoch': 33.42} {'loss': 0.0535, 'learning_rate': 3.328599938593798e-05, 'epoch': 33.43} {'loss': 0.0532, 'learning_rate': 3.328360070617133e-05, 'epoch': 33.43} {'loss': 0.0542, 'learning_rate': 3.328120202640467e-05, 'epoch': 33.44} {'loss': 0.0529, 'learning_rate': 3.327880334663801e-05, 'epoch': 33.44} {'loss': 0.0527, 'learning_rate': 3.327640466687136e-05, 'epoch': 33.45} {'loss': 0.0534, 'learning_rate': 3.32740059871047e-05, 'epoch': 33.45} {'loss': 0.0548, 'learning_rate': 3.3271607307338045e-05, 'epoch': 33.46} {'loss': 0.0533, 'learning_rate': 3.3269208627571385e-05, 'epoch': 33.46} {'loss': 0.0544, 'learning_rate': 3.326680994780473e-05, 'epoch': 33.47} {'loss': 0.0547, 'learning_rate': 3.326441126803808e-05, 'epoch': 33.47} {'loss': 0.0528, 'learning_rate': 3.3262012588271416e-05, 'epoch': 33.48} {'loss': 0.0548, 'learning_rate': 3.325961390850476e-05, 'epoch': 33.48} {'loss': 0.0536, 'learning_rate': 3.32572152287381e-05, 'epoch': 33.49} {'loss': 0.0528, 'learning_rate': 3.325481654897145e-05, 'epoch': 33.49} {'loss': 0.054, 'learning_rate': 3.3252417869204794e-05, 'epoch': 33.5} {'loss': 0.0545, 'learning_rate': 3.325001918943813e-05, 'epoch': 33.5} {'loss': 0.0535, 'learning_rate': 3.324762050967148e-05, 'epoch': 33.5} {'loss': 0.053, 'learning_rate': 3.324522182990482e-05, 'epoch': 33.51} {'loss': 0.0523, 'learning_rate': 3.3242823150138165e-05, 'epoch': 33.51} {'loss': 0.0541, 'learning_rate': 3.324042447037151e-05, 'epoch': 33.52} {'loss': 0.0527, 'learning_rate': 3.323802579060486e-05, 'epoch': 33.52} {'loss': 0.0559, 'learning_rate': 3.3235627110838196e-05, 'epoch': 33.53} {'loss': 0.0528, 'learning_rate': 3.323322843107154e-05, 'epoch': 33.53} {'loss': 0.0543, 'learning_rate': 3.323082975130488e-05, 'epoch': 33.54} {'loss': 0.0528, 'learning_rate': 3.322843107153823e-05, 'epoch': 33.54} {'loss': 0.0509, 'learning_rate': 3.3226032391771574e-05, 'epoch': 33.55} {'loss': 0.0524, 'learning_rate': 3.322363371200491e-05, 'epoch': 33.55} {'loss': 0.0533, 'learning_rate': 3.322123503223826e-05, 'epoch': 33.56} {'loss': 0.0524, 'learning_rate': 3.32188363524716e-05, 'epoch': 33.56} {'loss': 0.0531, 'learning_rate': 3.3216437672704944e-05, 'epoch': 33.57} {'loss': 0.0522, 'learning_rate': 3.321403899293829e-05, 'epoch': 33.57} {'loss': 0.0518, 'learning_rate': 3.321164031317163e-05, 'epoch': 33.58} {'loss': 0.0528, 'learning_rate': 3.3209241633404976e-05, 'epoch': 33.58} {'loss': 0.0574, 'learning_rate': 3.3206842953638315e-05, 'epoch': 33.59} {'loss': 0.0531, 'learning_rate': 3.320444427387166e-05, 'epoch': 33.59} {'loss': 0.0534, 'learning_rate': 3.320204559410501e-05, 'epoch': 33.6} {'loss': 0.0538, 'learning_rate': 3.3199646914338354e-05, 'epoch': 33.6} {'loss': 0.0531, 'learning_rate': 3.319724823457169e-05, 'epoch': 33.61} {'loss': 0.0541, 'learning_rate': 3.319484955480503e-05, 'epoch': 33.61} {'loss': 0.0516, 'learning_rate': 3.319245087503838e-05, 'epoch': 33.62} {'loss': 0.0543, 'learning_rate': 3.3190052195271724e-05, 'epoch': 33.62} {'loss': 0.0535, 'learning_rate': 3.318765351550507e-05, 'epoch': 33.62} {'loss': 0.0529, 'learning_rate': 3.318525483573841e-05, 'epoch': 33.63} {'loss': 0.054, 'learning_rate': 3.3182856155971756e-05, 'epoch': 33.63} {'loss': 0.0524, 'learning_rate': 3.3180457476205095e-05, 'epoch': 33.64} {'loss': 0.0528, 'learning_rate': 3.317805879643844e-05, 'epoch': 33.64} {'loss': 0.0567, 'learning_rate': 3.317566011667179e-05, 'epoch': 33.65} {'loss': 0.0532, 'learning_rate': 3.317326143690513e-05, 'epoch': 33.65} {'loss': 0.0526, 'learning_rate': 3.317086275713847e-05, 'epoch': 33.66} {'loss': 0.0534, 'learning_rate': 3.316846407737181e-05, 'epoch': 33.66} {'loss': 0.0551, 'learning_rate': 3.3166065397605165e-05, 'epoch': 33.67} {'loss': 0.0533, 'learning_rate': 3.3163666717838504e-05, 'epoch': 33.67} {'loss': 0.0563, 'learning_rate': 3.3161268038071844e-05, 'epoch': 33.68} {'loss': 0.0522, 'learning_rate': 3.315886935830519e-05, 'epoch': 33.68} {'loss': 0.056, 'learning_rate': 3.315647067853853e-05, 'epoch': 33.69} {'loss': 0.0546, 'learning_rate': 3.315407199877188e-05, 'epoch': 33.69} {'loss': 0.0526, 'learning_rate': 3.315167331900522e-05, 'epoch': 33.7} {'loss': 0.0555, 'learning_rate': 3.314927463923857e-05, 'epoch': 33.7} {'loss': 0.0527, 'learning_rate': 3.3146875959471907e-05, 'epoch': 33.71} {'loss': 0.0554, 'learning_rate': 3.314447727970525e-05, 'epoch': 33.71} {'loss': 0.0534, 'learning_rate': 3.31420785999386e-05, 'epoch': 33.72} {'loss': 0.0535, 'learning_rate': 3.313967992017194e-05, 'epoch': 33.72} {'loss': 0.055, 'learning_rate': 3.3137281240405284e-05, 'epoch': 33.73} {'loss': 0.0546, 'learning_rate': 3.3134882560638623e-05, 'epoch': 33.73} {'loss': 0.0543, 'learning_rate': 3.313248388087197e-05, 'epoch': 33.74} {'loss': 0.0544, 'learning_rate': 3.3130085201105316e-05, 'epoch': 33.74} {'loss': 0.0532, 'learning_rate': 3.3127686521338655e-05, 'epoch': 33.74} {'loss': 0.0519, 'learning_rate': 3.3125287841572e-05, 'epoch': 33.75} {'loss': 0.0525, 'learning_rate': 3.312288916180534e-05, 'epoch': 33.75} {'loss': 0.0529, 'learning_rate': 3.3120490482038686e-05, 'epoch': 33.76} {'loss': 0.0521, 'learning_rate': 3.311809180227203e-05, 'epoch': 33.76} {'loss': 0.0534, 'learning_rate': 3.311569312250538e-05, 'epoch': 33.77} {'loss': 0.0537, 'learning_rate': 3.311329444273872e-05, 'epoch': 33.77} {'loss': 0.053, 'learning_rate': 3.311089576297206e-05, 'epoch': 33.78} {'loss': 0.0534, 'learning_rate': 3.31084970832054e-05, 'epoch': 33.78} {'loss': 0.0517, 'learning_rate': 3.310609840343875e-05, 'epoch': 33.79} {'loss': 0.0515, 'learning_rate': 3.3103699723672096e-05, 'epoch': 33.79} {'loss': 0.0532, 'learning_rate': 3.3101301043905435e-05, 'epoch': 33.8} {'loss': 0.0539, 'learning_rate': 3.309890236413878e-05, 'epoch': 33.8} {'loss': 0.0518, 'learning_rate': 3.309650368437212e-05, 'epoch': 33.81} {'loss': 0.0522, 'learning_rate': 3.3094105004605466e-05, 'epoch': 33.81} {'loss': 0.0558, 'learning_rate': 3.309170632483881e-05, 'epoch': 33.82} {'loss': 0.0531, 'learning_rate': 3.308930764507215e-05, 'epoch': 33.82} {'loss': 0.0522, 'learning_rate': 3.30869089653055e-05, 'epoch': 33.83} {'loss': 0.0555, 'learning_rate': 3.308451028553884e-05, 'epoch': 33.83} {'loss': 0.0548, 'learning_rate': 3.308211160577219e-05, 'epoch': 33.84} {'loss': 0.0539, 'learning_rate': 3.307971292600553e-05, 'epoch': 33.84} {'loss': 0.0535, 'learning_rate': 3.307731424623887e-05, 'epoch': 33.85} {'loss': 0.0541, 'learning_rate': 3.3074915566472215e-05, 'epoch': 33.85} {'loss': 0.0561, 'learning_rate': 3.3072516886705554e-05, 'epoch': 33.85} {'loss': 0.0533, 'learning_rate': 3.307011820693891e-05, 'epoch': 33.86} {'loss': 0.0526, 'learning_rate': 3.3067719527172246e-05, 'epoch': 33.86} {'loss': 0.053, 'learning_rate': 3.306532084740559e-05, 'epoch': 33.87} {'loss': 0.0549, 'learning_rate': 3.306292216763893e-05, 'epoch': 33.87} {'loss': 0.0516, 'learning_rate': 3.306052348787228e-05, 'epoch': 33.88} {'loss': 0.0537, 'learning_rate': 3.3058124808105624e-05, 'epoch': 33.88} {'loss': 0.0548, 'learning_rate': 3.305572612833896e-05, 'epoch': 33.89} {'loss': 0.0542, 'learning_rate': 3.305332744857231e-05, 'epoch': 33.89} {'loss': 0.0556, 'learning_rate': 3.305092876880565e-05, 'epoch': 33.9} {'loss': 0.0527, 'learning_rate': 3.3048530089038995e-05, 'epoch': 33.9} {'loss': 0.0542, 'learning_rate': 3.304613140927234e-05, 'epoch': 33.91} {'loss': 0.0559, 'learning_rate': 3.304373272950568e-05, 'epoch': 33.91} {'loss': 0.0562, 'learning_rate': 3.3041334049739026e-05, 'epoch': 33.92} {'loss': 0.055, 'learning_rate': 3.3038935369972365e-05, 'epoch': 33.92} {'loss': 0.0527, 'learning_rate': 3.303653669020571e-05, 'epoch': 33.93} {'loss': 0.0518, 'learning_rate': 3.303413801043906e-05, 'epoch': 33.93} {'loss': 0.0529, 'learning_rate': 3.3031739330672404e-05, 'epoch': 33.94} {'loss': 0.0546, 'learning_rate': 3.302934065090574e-05, 'epoch': 33.94} {'loss': 0.0534, 'learning_rate': 3.302694197113909e-05, 'epoch': 33.95} {'loss': 0.0524, 'learning_rate': 3.302454329137243e-05, 'epoch': 33.95} {'loss': 0.0536, 'learning_rate': 3.3022144611605775e-05, 'epoch': 33.96} {'loss': 0.0508, 'learning_rate': 3.301974593183912e-05, 'epoch': 33.96} {'loss': 0.0534, 'learning_rate': 3.301734725207246e-05, 'epoch': 33.97} {'loss': 0.0531, 'learning_rate': 3.3014948572305806e-05, 'epoch': 33.97} {'loss': 0.0536, 'learning_rate': 3.3012549892539145e-05, 'epoch': 33.97} {'loss': 0.0536, 'learning_rate': 3.301015121277249e-05, 'epoch': 33.98} {'loss': 0.0526, 'learning_rate': 3.300775253300584e-05, 'epoch': 33.98} {'loss': 0.0542, 'learning_rate': 3.300535385323918e-05, 'epoch': 33.99} {'loss': 0.053, 'learning_rate': 3.300295517347252e-05, 'epoch': 33.99} {'loss': 0.0548, 'learning_rate': 3.300055649370586e-05, 'epoch': 34.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.05089410021901131, 'eval_runtime': 513.9504, 'eval_samples_per_second': 811.158, 'eval_steps_per_second': 101.395, 'epoch': 34.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-3543616 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-3543616/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-3543616/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-3439392] due to args.save_total_limit {'loss': 0.0534, 'learning_rate': 3.299815781393921e-05, 'epoch': 34.0} {'loss': 0.0515, 'learning_rate': 3.2995759134172554e-05, 'epoch': 34.01} {'loss': 0.0518, 'learning_rate': 3.29933604544059e-05, 'epoch': 34.01} {'loss': 0.0529, 'learning_rate': 3.299096177463924e-05, 'epoch': 34.02} {'loss': 0.0535, 'learning_rate': 3.298856309487258e-05, 'epoch': 34.02} {'loss': 0.0526, 'learning_rate': 3.2986164415105925e-05, 'epoch': 34.03} {'loss': 0.0544, 'learning_rate': 3.298376573533927e-05, 'epoch': 34.03} {'loss': 0.0524, 'learning_rate': 3.298136705557262e-05, 'epoch': 34.04} {'loss': 0.0535, 'learning_rate': 3.297896837580596e-05, 'epoch': 34.04} {'loss': 0.053, 'learning_rate': 3.29765696960393e-05, 'epoch': 34.05} {'loss': 0.0548, 'learning_rate': 3.297417101627264e-05, 'epoch': 34.05} {'loss': 0.052, 'learning_rate': 3.297177233650599e-05, 'epoch': 34.06} {'loss': 0.0526, 'learning_rate': 3.2969373656739334e-05, 'epoch': 34.06} {'loss': 0.0532, 'learning_rate': 3.2966974976972674e-05, 'epoch': 34.07} {'loss': 0.0536, 'learning_rate': 3.296457629720602e-05, 'epoch': 34.07} {'loss': 0.0533, 'learning_rate': 3.296217761743936e-05, 'epoch': 34.08} {'loss': 0.0532, 'learning_rate': 3.2959778937672705e-05, 'epoch': 34.08} {'loss': 0.053, 'learning_rate': 3.295738025790605e-05, 'epoch': 34.09} {'loss': 0.0506, 'learning_rate': 3.295498157813939e-05, 'epoch': 34.09} {'loss': 0.0511, 'learning_rate': 3.295258289837274e-05, 'epoch': 34.09} {'loss': 0.0509, 'learning_rate': 3.2950184218606076e-05, 'epoch': 34.1} {'loss': 0.053, 'learning_rate': 3.294778553883943e-05, 'epoch': 34.1} {'loss': 0.0535, 'learning_rate': 3.294538685907277e-05, 'epoch': 34.11} {'loss': 0.0523, 'learning_rate': 3.2942988179306114e-05, 'epoch': 34.11} {'loss': 0.0528, 'learning_rate': 3.2940589499539454e-05, 'epoch': 34.12} {'loss': 0.0522, 'learning_rate': 3.293819081977279e-05, 'epoch': 34.12} {'loss': 0.0533, 'learning_rate': 3.2935792140006146e-05, 'epoch': 34.13} {'loss': 0.0547, 'learning_rate': 3.2933393460239485e-05, 'epoch': 34.13} {'loss': 0.0543, 'learning_rate': 3.293099478047283e-05, 'epoch': 34.14} {'loss': 0.0537, 'learning_rate': 3.292859610070617e-05, 'epoch': 34.14} {'loss': 0.0533, 'learning_rate': 3.2926197420939517e-05, 'epoch': 34.15} {'loss': 0.0561, 'learning_rate': 3.292379874117286e-05, 'epoch': 34.15} {'loss': 0.0528, 'learning_rate': 3.29214000614062e-05, 'epoch': 34.16} {'loss': 0.0508, 'learning_rate': 3.291900138163955e-05, 'epoch': 34.16} {'loss': 0.0538, 'learning_rate': 3.291660270187289e-05, 'epoch': 34.17} {'loss': 0.0536, 'learning_rate': 3.2914204022106233e-05, 'epoch': 34.17} {'loss': 0.0527, 'learning_rate': 3.291180534233958e-05, 'epoch': 34.18} {'loss': 0.0533, 'learning_rate': 3.2909406662572926e-05, 'epoch': 34.18} {'loss': 0.0531, 'learning_rate': 3.2907007982806265e-05, 'epoch': 34.19} {'loss': 0.0546, 'learning_rate': 3.2904609303039604e-05, 'epoch': 34.19} {'loss': 0.0516, 'learning_rate': 3.290221062327295e-05, 'epoch': 34.2} {'loss': 0.0521, 'learning_rate': 3.2899811943506296e-05, 'epoch': 34.2} {'loss': 0.0526, 'learning_rate': 3.289741326373964e-05, 'epoch': 34.21} {'loss': 0.0541, 'learning_rate': 3.289501458397298e-05, 'epoch': 34.21} {'loss': 0.0522, 'learning_rate': 3.289261590420633e-05, 'epoch': 34.21} {'loss': 0.0521, 'learning_rate': 3.289021722443967e-05, 'epoch': 34.22} {'loss': 0.0542, 'learning_rate': 3.288781854467301e-05, 'epoch': 34.22} {'loss': 0.0556, 'learning_rate': 3.288541986490636e-05, 'epoch': 34.23} {'loss': 0.0525, 'learning_rate': 3.28830211851397e-05, 'epoch': 34.23} {'loss': 0.0527, 'learning_rate': 3.2880622505373045e-05, 'epoch': 34.24} {'loss': 0.052, 'learning_rate': 3.2878223825606384e-05, 'epoch': 34.24} {'loss': 0.0525, 'learning_rate': 3.287582514583974e-05, 'epoch': 34.25} {'loss': 0.0527, 'learning_rate': 3.2873426466073076e-05, 'epoch': 34.25} {'loss': 0.0528, 'learning_rate': 3.2871027786306416e-05, 'epoch': 34.26} {'loss': 0.0538, 'learning_rate': 3.286862910653976e-05, 'epoch': 34.26} {'loss': 0.0517, 'learning_rate': 3.28662304267731e-05, 'epoch': 34.27} {'loss': 0.0524, 'learning_rate': 3.2863831747006454e-05, 'epoch': 34.27} {'loss': 0.0538, 'learning_rate': 3.286143306723979e-05, 'epoch': 34.28} {'loss': 0.0521, 'learning_rate': 3.285903438747314e-05, 'epoch': 34.28} {'loss': 0.0542, 'learning_rate': 3.285663570770648e-05, 'epoch': 34.29} {'loss': 0.0528, 'learning_rate': 3.2854237027939825e-05, 'epoch': 34.29} {'loss': 0.0531, 'learning_rate': 3.285183834817317e-05, 'epoch': 34.3} {'loss': 0.0502, 'learning_rate': 3.284943966840651e-05, 'epoch': 34.3} {'loss': 0.0539, 'learning_rate': 3.2847040988639856e-05, 'epoch': 34.31} {'loss': 0.0535, 'learning_rate': 3.2844642308873196e-05, 'epoch': 34.31} {'loss': 0.0525, 'learning_rate': 3.284224362910654e-05, 'epoch': 34.32} {'loss': 0.0541, 'learning_rate': 3.283984494933989e-05, 'epoch': 34.32} {'loss': 0.0539, 'learning_rate': 3.283744626957323e-05, 'epoch': 34.33} {'loss': 0.0504, 'learning_rate': 3.283504758980657e-05, 'epoch': 34.33} {'loss': 0.0517, 'learning_rate': 3.283264891003991e-05, 'epoch': 34.33} {'loss': 0.0543, 'learning_rate': 3.283025023027326e-05, 'epoch': 34.34} {'loss': 0.0512, 'learning_rate': 3.2827851550506605e-05, 'epoch': 34.34} {'loss': 0.0515, 'learning_rate': 3.282545287073995e-05, 'epoch': 34.35} {'loss': 0.0523, 'learning_rate': 3.282305419097329e-05, 'epoch': 34.35} {'loss': 0.0642, 'learning_rate': 3.282065551120663e-05, 'epoch': 34.36} {'loss': 0.0542, 'learning_rate': 3.2818256831439975e-05, 'epoch': 34.36} {'loss': 0.0549, 'learning_rate': 3.281585815167332e-05, 'epoch': 34.37} {'loss': 0.0539, 'learning_rate': 3.281345947190667e-05, 'epoch': 34.37} {'loss': 0.0499, 'learning_rate': 3.281106079214001e-05, 'epoch': 34.38} {'loss': 0.0503, 'learning_rate': 3.280866211237335e-05, 'epoch': 34.38} {'loss': 0.0527, 'learning_rate': 3.280626343260669e-05, 'epoch': 34.39} {'loss': 0.057, 'learning_rate': 3.280386475284004e-05, 'epoch': 34.39} {'loss': 0.0545, 'learning_rate': 3.2801466073073385e-05, 'epoch': 34.4} {'loss': 0.0509, 'learning_rate': 3.2799067393306724e-05, 'epoch': 34.4} {'loss': 0.0514, 'learning_rate': 3.279666871354007e-05, 'epoch': 34.41} {'loss': 0.053, 'learning_rate': 3.279427003377341e-05, 'epoch': 34.41} {'loss': 0.0528, 'learning_rate': 3.279187135400676e-05, 'epoch': 34.42} {'loss': 0.055, 'learning_rate': 3.27894726742401e-05, 'epoch': 34.42} {'loss': 0.0532, 'learning_rate': 3.278707399447344e-05, 'epoch': 34.43} {'loss': 0.0519, 'learning_rate': 3.278467531470679e-05, 'epoch': 34.43} {'loss': 0.0551, 'learning_rate': 3.2782276634940126e-05, 'epoch': 34.44} {'loss': 0.0524, 'learning_rate': 3.277987795517347e-05, 'epoch': 34.44} {'loss': 0.0534, 'learning_rate': 3.277747927540682e-05, 'epoch': 34.45} {'loss': 0.053, 'learning_rate': 3.2775080595640164e-05, 'epoch': 34.45} {'loss': 0.0538, 'learning_rate': 3.2772681915873504e-05, 'epoch': 34.45} {'loss': 0.0517, 'learning_rate': 3.277028323610685e-05, 'epoch': 34.46} {'loss': 0.0522, 'learning_rate': 3.276788455634019e-05, 'epoch': 34.46} {'loss': 0.0526, 'learning_rate': 3.2765485876573535e-05, 'epoch': 34.47} {'loss': 0.0539, 'learning_rate': 3.276308719680688e-05, 'epoch': 34.47} {'loss': 0.0548, 'learning_rate': 3.276068851704022e-05, 'epoch': 34.48} {'loss': 0.0542, 'learning_rate': 3.275828983727357e-05, 'epoch': 34.48} {'loss': 0.0524, 'learning_rate': 3.2755891157506906e-05, 'epoch': 34.49} {'loss': 0.0527, 'learning_rate': 3.275349247774025e-05, 'epoch': 34.49} {'loss': 0.0551, 'learning_rate': 3.27510937979736e-05, 'epoch': 34.5} {'loss': 0.051, 'learning_rate': 3.274869511820694e-05, 'epoch': 34.5} {'loss': 0.053, 'learning_rate': 3.2746296438440284e-05, 'epoch': 34.51} {'loss': 0.0524, 'learning_rate': 3.274389775867362e-05, 'epoch': 34.51} {'loss': 0.0534, 'learning_rate': 3.2741499078906976e-05, 'epoch': 34.52} {'loss': 0.0541, 'learning_rate': 3.2739100399140315e-05, 'epoch': 34.52} {'loss': 0.0525, 'learning_rate': 3.273670171937366e-05, 'epoch': 34.53} {'loss': 0.0519, 'learning_rate': 3.2734303039607e-05, 'epoch': 34.53} {'loss': 0.0516, 'learning_rate': 3.273190435984034e-05, 'epoch': 34.54} {'loss': 0.0507, 'learning_rate': 3.272950568007369e-05, 'epoch': 34.54} {'loss': 0.0534, 'learning_rate': 3.272710700030703e-05, 'epoch': 34.55} {'loss': 0.0514, 'learning_rate': 3.272470832054038e-05, 'epoch': 34.55} {'loss': 0.0568, 'learning_rate': 3.272230964077372e-05, 'epoch': 34.56} {'loss': 0.0543, 'learning_rate': 3.2719910961007064e-05, 'epoch': 34.56} {'loss': 0.0508, 'learning_rate': 3.271751228124041e-05, 'epoch': 34.56} {'loss': 0.0525, 'learning_rate': 3.271511360147375e-05, 'epoch': 34.57} {'loss': 0.0538, 'learning_rate': 3.2712714921707095e-05, 'epoch': 34.57} {'loss': 0.0529, 'learning_rate': 3.2710316241940434e-05, 'epoch': 34.58} {'loss': 0.0528, 'learning_rate': 3.270791756217378e-05, 'epoch': 34.58} {'loss': 0.0528, 'learning_rate': 3.2705518882407127e-05, 'epoch': 34.59} {'loss': 0.0533, 'learning_rate': 3.2703120202640466e-05, 'epoch': 34.59} {'loss': 0.0527, 'learning_rate': 3.270072152287381e-05, 'epoch': 34.6} {'loss': 0.052, 'learning_rate': 3.269832284310715e-05, 'epoch': 34.6} {'loss': 0.0514, 'learning_rate': 3.26959241633405e-05, 'epoch': 34.61} {'loss': 0.0551, 'learning_rate': 3.2693525483573843e-05, 'epoch': 34.61} {'loss': 0.0529, 'learning_rate': 3.269112680380719e-05, 'epoch': 34.62} {'loss': 0.0545, 'learning_rate': 3.268872812404053e-05, 'epoch': 34.62} {'loss': 0.0549, 'learning_rate': 3.2686329444273875e-05, 'epoch': 34.63} {'loss': 0.0525, 'learning_rate': 3.2683930764507214e-05, 'epoch': 34.63} {'loss': 0.0539, 'learning_rate': 3.268153208474056e-05, 'epoch': 34.64} {'loss': 0.0562, 'learning_rate': 3.2679133404973906e-05, 'epoch': 34.64} {'loss': 0.0543, 'learning_rate': 3.2676734725207246e-05, 'epoch': 34.65} {'loss': 0.0532, 'learning_rate': 3.267433604544059e-05, 'epoch': 34.65} {'loss': 0.0543, 'learning_rate': 3.267193736567393e-05, 'epoch': 34.66} {'loss': 0.0515, 'learning_rate': 3.266953868590728e-05, 'epoch': 34.66} {'loss': 0.0494, 'learning_rate': 3.266714000614062e-05, 'epoch': 34.67} {'loss': 0.0532, 'learning_rate': 3.266474132637396e-05, 'epoch': 34.67} {'loss': 0.0523, 'learning_rate': 3.266234264660731e-05, 'epoch': 34.68} {'loss': 0.0509, 'learning_rate': 3.265994396684065e-05, 'epoch': 34.68} {'loss': 0.0553, 'learning_rate': 3.2657545287074e-05, 'epoch': 34.68} {'loss': 0.0531, 'learning_rate': 3.265514660730734e-05, 'epoch': 34.69} {'loss': 0.0546, 'learning_rate': 3.2652747927540686e-05, 'epoch': 34.69} {'loss': 0.0546, 'learning_rate': 3.2650349247774026e-05, 'epoch': 34.7} {'loss': 0.0564, 'learning_rate': 3.2647950568007365e-05, 'epoch': 34.7} {'loss': 0.0531, 'learning_rate': 3.264555188824072e-05, 'epoch': 34.71} {'loss': 0.052, 'learning_rate': 3.264315320847406e-05, 'epoch': 34.71} {'loss': 0.0548, 'learning_rate': 3.26407545287074e-05, 'epoch': 34.72} {'loss': 0.0537, 'learning_rate': 3.263835584894074e-05, 'epoch': 34.72} {'loss': 0.0521, 'learning_rate': 3.263595716917409e-05, 'epoch': 34.73} {'loss': 0.0541, 'learning_rate': 3.2633558489407435e-05, 'epoch': 34.73} {'loss': 0.0515, 'learning_rate': 3.2631159809640774e-05, 'epoch': 34.74} {'loss': 0.0518, 'learning_rate': 3.262876112987412e-05, 'epoch': 34.74} {'loss': 0.051, 'learning_rate': 3.262636245010746e-05, 'epoch': 34.75} {'loss': 0.0538, 'learning_rate': 3.2623963770340806e-05, 'epoch': 34.75} {'loss': 0.0513, 'learning_rate': 3.262156509057415e-05, 'epoch': 34.76} {'loss': 0.0537, 'learning_rate': 3.26191664108075e-05, 'epoch': 34.76} {'loss': 0.0548, 'learning_rate': 3.261676773104084e-05, 'epoch': 34.77} {'loss': 0.0515, 'learning_rate': 3.2614369051274176e-05, 'epoch': 34.77} {'loss': 0.0536, 'learning_rate': 3.261197037150752e-05, 'epoch': 34.78} {'loss': 0.0509, 'learning_rate': 3.260957169174087e-05, 'epoch': 34.78} {'loss': 0.0523, 'learning_rate': 3.2607173011974215e-05, 'epoch': 34.79} {'loss': 0.0521, 'learning_rate': 3.2604774332207554e-05, 'epoch': 34.79} {'loss': 0.0536, 'learning_rate': 3.26023756524409e-05, 'epoch': 34.8} {'loss': 0.0518, 'learning_rate': 3.259997697267424e-05, 'epoch': 34.8} {'loss': 0.0538, 'learning_rate': 3.2597578292907585e-05, 'epoch': 34.8} {'loss': 0.0528, 'learning_rate': 3.259517961314093e-05, 'epoch': 34.81} {'loss': 0.0539, 'learning_rate': 3.259278093337427e-05, 'epoch': 34.81} {'loss': 0.0546, 'learning_rate': 3.259038225360762e-05, 'epoch': 34.82} {'loss': 0.0552, 'learning_rate': 3.2587983573840956e-05, 'epoch': 34.82} {'loss': 0.0526, 'learning_rate': 3.258558489407431e-05, 'epoch': 34.83} {'loss': 0.0546, 'learning_rate': 3.258318621430765e-05, 'epoch': 34.83} {'loss': 0.0536, 'learning_rate': 3.258078753454099e-05, 'epoch': 34.84} {'loss': 0.0538, 'learning_rate': 3.2578388854774334e-05, 'epoch': 34.84} {'loss': 0.0541, 'learning_rate': 3.257599017500767e-05, 'epoch': 34.85} {'loss': 0.0524, 'learning_rate': 3.257359149524102e-05, 'epoch': 34.85} {'loss': 0.0533, 'learning_rate': 3.2571192815474365e-05, 'epoch': 34.86} {'loss': 0.0513, 'learning_rate': 3.256879413570771e-05, 'epoch': 34.86} {'loss': 0.0511, 'learning_rate': 3.256639545594105e-05, 'epoch': 34.87} {'loss': 0.0512, 'learning_rate': 3.25639967761744e-05, 'epoch': 34.87} {'loss': 0.0516, 'learning_rate': 3.2561598096407736e-05, 'epoch': 34.88} {'loss': 0.054, 'learning_rate': 3.255919941664108e-05, 'epoch': 34.88} {'loss': 0.0523, 'learning_rate': 3.255680073687443e-05, 'epoch': 34.89} {'loss': 0.0545, 'learning_rate': 3.255440205710777e-05, 'epoch': 34.89} {'loss': 0.0519, 'learning_rate': 3.2552003377341114e-05, 'epoch': 34.9} {'loss': 0.0528, 'learning_rate': 3.254960469757445e-05, 'epoch': 34.9} {'loss': 0.051, 'learning_rate': 3.25472060178078e-05, 'epoch': 34.91} {'loss': 0.0542, 'learning_rate': 3.2544807338041145e-05, 'epoch': 34.91} {'loss': 0.0498, 'learning_rate': 3.2542408658274485e-05, 'epoch': 34.92} {'loss': 0.0526, 'learning_rate': 3.254000997850783e-05, 'epoch': 34.92} {'loss': 0.0518, 'learning_rate': 3.253761129874117e-05, 'epoch': 34.92} {'loss': 0.0539, 'learning_rate': 3.253521261897452e-05, 'epoch': 34.93} {'loss': 0.0539, 'learning_rate': 3.253281393920786e-05, 'epoch': 34.93} {'loss': 0.0533, 'learning_rate': 3.25304152594412e-05, 'epoch': 34.94} {'loss': 0.0525, 'learning_rate': 3.252801657967455e-05, 'epoch': 34.94} {'loss': 0.0514, 'learning_rate': 3.252561789990789e-05, 'epoch': 34.95} {'loss': 0.0533, 'learning_rate': 3.252321922014124e-05, 'epoch': 34.95} {'loss': 0.0513, 'learning_rate': 3.252082054037458e-05, 'epoch': 34.96} {'loss': 0.0551, 'learning_rate': 3.2518421860607925e-05, 'epoch': 34.96} {'loss': 0.0539, 'learning_rate': 3.2516023180841265e-05, 'epoch': 34.97} {'loss': 0.052, 'learning_rate': 3.251362450107461e-05, 'epoch': 34.97} {'loss': 0.0535, 'learning_rate': 3.251122582130796e-05, 'epoch': 34.98} {'loss': 0.0535, 'learning_rate': 3.2508827141541296e-05, 'epoch': 34.98} {'loss': 0.052, 'learning_rate': 3.250642846177464e-05, 'epoch': 34.99} {'loss': 0.0516, 'learning_rate': 3.250402978200798e-05, 'epoch': 34.99} {'loss': 0.0516, 'learning_rate': 3.250163110224133e-05, 'epoch': 35.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.050813816487789154, 'eval_runtime': 515.3316, 'eval_samples_per_second': 808.984, 'eval_steps_per_second': 101.123, 'epoch': 35.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-3647840 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-3647840/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-3647840/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-3543616] due to args.save_total_limit {'loss': 0.0526, 'learning_rate': 3.2499232422474674e-05, 'epoch': 35.0} {'loss': 0.0543, 'learning_rate': 3.249683374270801e-05, 'epoch': 35.01} {'loss': 0.0525, 'learning_rate': 3.249443506294136e-05, 'epoch': 35.01} {'loss': 0.0487, 'learning_rate': 3.24920363831747e-05, 'epoch': 35.02} {'loss': 0.051, 'learning_rate': 3.2489637703408044e-05, 'epoch': 35.02} {'loss': 0.053, 'learning_rate': 3.248723902364139e-05, 'epoch': 35.03} {'loss': 0.0521, 'learning_rate': 3.2484840343874737e-05, 'epoch': 35.03} {'loss': 0.0517, 'learning_rate': 3.2482441664108076e-05, 'epoch': 35.04} {'loss': 0.0539, 'learning_rate': 3.248004298434142e-05, 'epoch': 35.04} {'loss': 0.0523, 'learning_rate': 3.247764430457476e-05, 'epoch': 35.04} {'loss': 0.0531, 'learning_rate': 3.247524562480811e-05, 'epoch': 35.05} {'loss': 0.0528, 'learning_rate': 3.2472846945041453e-05, 'epoch': 35.05} {'loss': 0.0506, 'learning_rate': 3.247044826527479e-05, 'epoch': 35.06} {'loss': 0.0518, 'learning_rate': 3.246804958550814e-05, 'epoch': 35.06} {'loss': 0.0517, 'learning_rate': 3.246565090574148e-05, 'epoch': 35.07} {'loss': 0.0538, 'learning_rate': 3.2463252225974824e-05, 'epoch': 35.07} {'loss': 0.0522, 'learning_rate': 3.246085354620817e-05, 'epoch': 35.08} {'loss': 0.0525, 'learning_rate': 3.245845486644151e-05, 'epoch': 35.08} {'loss': 0.053, 'learning_rate': 3.2456056186674856e-05, 'epoch': 35.09} {'loss': 0.0541, 'learning_rate': 3.2453657506908195e-05, 'epoch': 35.09} {'loss': 0.0545, 'learning_rate': 3.245125882714155e-05, 'epoch': 35.1} {'loss': 0.0543, 'learning_rate': 3.244886014737489e-05, 'epoch': 35.1} {'loss': 0.0492, 'learning_rate': 3.2446461467608233e-05, 'epoch': 35.11} {'loss': 0.0525, 'learning_rate': 3.244406278784157e-05, 'epoch': 35.11} {'loss': 0.0514, 'learning_rate': 3.244166410807491e-05, 'epoch': 35.12} {'loss': 0.052, 'learning_rate': 3.2439265428308265e-05, 'epoch': 35.12} {'loss': 0.0501, 'learning_rate': 3.2436866748541604e-05, 'epoch': 35.13} {'loss': 0.0545, 'learning_rate': 3.243446806877495e-05, 'epoch': 35.13} {'loss': 0.0505, 'learning_rate': 3.243206938900829e-05, 'epoch': 35.14} {'loss': 0.0505, 'learning_rate': 3.2429670709241636e-05, 'epoch': 35.14} {'loss': 0.0513, 'learning_rate': 3.242727202947498e-05, 'epoch': 35.15} {'loss': 0.0538, 'learning_rate': 3.242487334970832e-05, 'epoch': 35.15} {'loss': 0.0506, 'learning_rate': 3.242247466994167e-05, 'epoch': 35.16} {'loss': 0.0527, 'learning_rate': 3.2420075990175007e-05, 'epoch': 35.16} {'loss': 0.0534, 'learning_rate': 3.241767731040835e-05, 'epoch': 35.16} {'loss': 0.0547, 'learning_rate': 3.24152786306417e-05, 'epoch': 35.17} {'loss': 0.0521, 'learning_rate': 3.241287995087504e-05, 'epoch': 35.17} {'loss': 0.0512, 'learning_rate': 3.2410481271108384e-05, 'epoch': 35.18} {'loss': 0.0496, 'learning_rate': 3.2408082591341723e-05, 'epoch': 35.18} {'loss': 0.0545, 'learning_rate': 3.240568391157507e-05, 'epoch': 35.19} {'loss': 0.0511, 'learning_rate': 3.2403285231808416e-05, 'epoch': 35.19} {'loss': 0.0545, 'learning_rate': 3.240088655204176e-05, 'epoch': 35.2} {'loss': 0.0508, 'learning_rate': 3.23984878722751e-05, 'epoch': 35.2} {'loss': 0.0501, 'learning_rate': 3.239608919250845e-05, 'epoch': 35.21} {'loss': 0.054, 'learning_rate': 3.2393690512741786e-05, 'epoch': 35.21} {'loss': 0.0515, 'learning_rate': 3.239129183297513e-05, 'epoch': 35.22} {'loss': 0.0542, 'learning_rate': 3.238889315320848e-05, 'epoch': 35.22} {'loss': 0.0546, 'learning_rate': 3.238649447344182e-05, 'epoch': 35.23} {'loss': 0.0529, 'learning_rate': 3.2384095793675164e-05, 'epoch': 35.23} {'loss': 0.0529, 'learning_rate': 3.23816971139085e-05, 'epoch': 35.24} {'loss': 0.0532, 'learning_rate': 3.237929843414185e-05, 'epoch': 35.24} {'loss': 0.0532, 'learning_rate': 3.2376899754375196e-05, 'epoch': 35.25} {'loss': 0.0525, 'learning_rate': 3.2374501074608535e-05, 'epoch': 35.25} {'loss': 0.052, 'learning_rate': 3.237210239484188e-05, 'epoch': 35.26} {'loss': 0.0508, 'learning_rate': 3.236970371507522e-05, 'epoch': 35.26} {'loss': 0.0504, 'learning_rate': 3.2367305035308566e-05, 'epoch': 35.27} {'loss': 0.0511, 'learning_rate': 3.236490635554191e-05, 'epoch': 35.27} {'loss': 0.0495, 'learning_rate': 3.236250767577526e-05, 'epoch': 35.27} {'loss': 0.0516, 'learning_rate': 3.23601089960086e-05, 'epoch': 35.28} {'loss': 0.0505, 'learning_rate': 3.235771031624194e-05, 'epoch': 35.28} {'loss': 0.0521, 'learning_rate': 3.235531163647528e-05, 'epoch': 35.29} {'loss': 0.0515, 'learning_rate': 3.235291295670863e-05, 'epoch': 35.29} {'loss': 0.0541, 'learning_rate': 3.2350514276941975e-05, 'epoch': 35.3} {'loss': 0.0545, 'learning_rate': 3.2348115597175315e-05, 'epoch': 35.3} {'loss': 0.0495, 'learning_rate': 3.234571691740866e-05, 'epoch': 35.31} {'loss': 0.0521, 'learning_rate': 3.2343318237642e-05, 'epoch': 35.31} {'loss': 0.0563, 'learning_rate': 3.2340919557875346e-05, 'epoch': 35.32} {'loss': 0.0531, 'learning_rate': 3.233852087810869e-05, 'epoch': 35.32} {'loss': 0.0518, 'learning_rate': 3.233612219834203e-05, 'epoch': 35.33} {'loss': 0.0516, 'learning_rate': 3.233372351857538e-05, 'epoch': 35.33} {'loss': 0.0494, 'learning_rate': 3.233132483880872e-05, 'epoch': 35.34} {'loss': 0.0538, 'learning_rate': 3.232892615904207e-05, 'epoch': 35.34} {'loss': 0.0544, 'learning_rate': 3.232652747927541e-05, 'epoch': 35.35} {'loss': 0.0545, 'learning_rate': 3.232412879950875e-05, 'epoch': 35.35} {'loss': 0.0529, 'learning_rate': 3.2321730119742095e-05, 'epoch': 35.36} {'loss': 0.0524, 'learning_rate': 3.2319331439975434e-05, 'epoch': 35.36} {'loss': 0.0532, 'learning_rate': 3.231693276020879e-05, 'epoch': 35.37} {'loss': 0.0539, 'learning_rate': 3.2314534080442126e-05, 'epoch': 35.37} {'loss': 0.0507, 'learning_rate': 3.231213540067547e-05, 'epoch': 35.38} {'loss': 0.0511, 'learning_rate': 3.230973672090881e-05, 'epoch': 35.38} {'loss': 0.0522, 'learning_rate': 3.230733804114216e-05, 'epoch': 35.39} {'loss': 0.0507, 'learning_rate': 3.2304939361375504e-05, 'epoch': 35.39} {'loss': 0.0542, 'learning_rate': 3.230254068160884e-05, 'epoch': 35.39} {'loss': 0.0496, 'learning_rate': 3.230014200184219e-05, 'epoch': 35.4} {'loss': 0.0538, 'learning_rate': 3.229774332207553e-05, 'epoch': 35.4} {'loss': 0.0519, 'learning_rate': 3.2295344642308875e-05, 'epoch': 35.41} {'loss': 0.0514, 'learning_rate': 3.229294596254222e-05, 'epoch': 35.41} {'loss': 0.0521, 'learning_rate': 3.229054728277556e-05, 'epoch': 35.42} {'loss': 0.0508, 'learning_rate': 3.2288148603008906e-05, 'epoch': 35.42} {'loss': 0.0537, 'learning_rate': 3.2285749923242245e-05, 'epoch': 35.43} {'loss': 0.0548, 'learning_rate': 3.228335124347559e-05, 'epoch': 35.43} {'loss': 0.0526, 'learning_rate': 3.228095256370894e-05, 'epoch': 35.44} {'loss': 0.0532, 'learning_rate': 3.2278553883942284e-05, 'epoch': 35.44} {'loss': 0.0511, 'learning_rate': 3.227615520417562e-05, 'epoch': 35.45} {'loss': 0.0518, 'learning_rate': 3.227375652440897e-05, 'epoch': 35.45} {'loss': 0.0548, 'learning_rate': 3.227135784464231e-05, 'epoch': 35.46} {'loss': 0.0541, 'learning_rate': 3.2268959164875654e-05, 'epoch': 35.46} {'loss': 0.0506, 'learning_rate': 3.2266560485109e-05, 'epoch': 35.47} {'loss': 0.0529, 'learning_rate': 3.226416180534234e-05, 'epoch': 35.47} {'loss': 0.0526, 'learning_rate': 3.2261763125575686e-05, 'epoch': 35.48} {'loss': 0.0519, 'learning_rate': 3.2259364445809025e-05, 'epoch': 35.48} {'loss': 0.0531, 'learning_rate': 3.225696576604237e-05, 'epoch': 35.49} {'loss': 0.056, 'learning_rate': 3.225456708627572e-05, 'epoch': 35.49} {'loss': 0.0532, 'learning_rate': 3.225216840650906e-05, 'epoch': 35.5} {'loss': 0.0542, 'learning_rate': 3.22497697267424e-05, 'epoch': 35.5} {'loss': 0.0494, 'learning_rate': 3.224737104697574e-05, 'epoch': 35.51} {'loss': 0.0534, 'learning_rate': 3.2244972367209095e-05, 'epoch': 35.51} {'loss': 0.053, 'learning_rate': 3.2242573687442434e-05, 'epoch': 35.51} {'loss': 0.053, 'learning_rate': 3.2240175007675774e-05, 'epoch': 35.52} {'loss': 0.0514, 'learning_rate': 3.223777632790912e-05, 'epoch': 35.52} {'loss': 0.0535, 'learning_rate': 3.223537764814246e-05, 'epoch': 35.53} {'loss': 0.0511, 'learning_rate': 3.223297896837581e-05, 'epoch': 35.53} {'loss': 0.0524, 'learning_rate': 3.223058028860915e-05, 'epoch': 35.54} {'loss': 0.0543, 'learning_rate': 3.22281816088425e-05, 'epoch': 35.54} {'loss': 0.0512, 'learning_rate': 3.222578292907584e-05, 'epoch': 35.55} {'loss': 0.0522, 'learning_rate': 3.222338424930918e-05, 'epoch': 35.55} {'loss': 0.0529, 'learning_rate': 3.222098556954253e-05, 'epoch': 35.56} {'loss': 0.0553, 'learning_rate': 3.221858688977587e-05, 'epoch': 35.56} {'loss': 0.0519, 'learning_rate': 3.2216188210009214e-05, 'epoch': 35.57} {'loss': 0.0514, 'learning_rate': 3.2213789530242554e-05, 'epoch': 35.57} {'loss': 0.0549, 'learning_rate': 3.22113908504759e-05, 'epoch': 35.58} {'loss': 0.0533, 'learning_rate': 3.2208992170709246e-05, 'epoch': 35.58} {'loss': 0.0522, 'learning_rate': 3.2206593490942585e-05, 'epoch': 35.59} {'loss': 0.0517, 'learning_rate': 3.220419481117593e-05, 'epoch': 35.59} {'loss': 0.0522, 'learning_rate': 3.220179613140927e-05, 'epoch': 35.6} {'loss': 0.0508, 'learning_rate': 3.2199397451642617e-05, 'epoch': 35.6} {'loss': 0.0508, 'learning_rate': 3.219699877187596e-05, 'epoch': 35.61} {'loss': 0.0533, 'learning_rate': 3.219460009210931e-05, 'epoch': 35.61} {'loss': 0.0695, 'learning_rate': 3.219220141234265e-05, 'epoch': 35.62} {'loss': 0.0585, 'learning_rate': 3.2189802732575994e-05, 'epoch': 35.62} {'loss': 0.0543, 'learning_rate': 3.2187404052809333e-05, 'epoch': 35.63} {'loss': 0.0538, 'learning_rate': 3.218500537304268e-05, 'epoch': 35.63} {'loss': 0.053, 'learning_rate': 3.2182606693276026e-05, 'epoch': 35.63} {'loss': 0.0508, 'learning_rate': 3.2180208013509365e-05, 'epoch': 35.64} {'loss': 0.0511, 'learning_rate': 3.217780933374271e-05, 'epoch': 35.64} {'loss': 0.053, 'learning_rate': 3.217541065397605e-05, 'epoch': 35.65} {'loss': 0.0528, 'learning_rate': 3.2173011974209396e-05, 'epoch': 35.65} {'loss': 0.0514, 'learning_rate': 3.217061329444274e-05, 'epoch': 35.66} {'loss': 0.0494, 'learning_rate': 3.216821461467608e-05, 'epoch': 35.66} {'loss': 0.0517, 'learning_rate': 3.216581593490943e-05, 'epoch': 35.67} {'loss': 0.0504, 'learning_rate': 3.216341725514277e-05, 'epoch': 35.67} {'loss': 0.054, 'learning_rate': 3.216101857537612e-05, 'epoch': 35.68} {'loss': 0.0527, 'learning_rate': 3.215861989560946e-05, 'epoch': 35.68} {'loss': 0.0551, 'learning_rate': 3.2156221215842806e-05, 'epoch': 35.69} {'loss': 0.052, 'learning_rate': 3.2153822536076145e-05, 'epoch': 35.69} {'loss': 0.0496, 'learning_rate': 3.2151423856309484e-05, 'epoch': 35.7} {'loss': 0.0524, 'learning_rate': 3.214902517654283e-05, 'epoch': 35.7} {'loss': 0.0504, 'learning_rate': 3.2146626496776176e-05, 'epoch': 35.71} {'loss': 0.0581, 'learning_rate': 3.214422781700952e-05, 'epoch': 35.71} {'loss': 0.0567, 'learning_rate': 3.214182913724286e-05, 'epoch': 35.72} {'loss': 0.0558, 'learning_rate': 3.213943045747621e-05, 'epoch': 35.72} {'loss': 0.0523, 'learning_rate': 3.213703177770955e-05, 'epoch': 35.73} {'loss': 0.0526, 'learning_rate': 3.213463309794289e-05, 'epoch': 35.73} {'loss': 0.0519, 'learning_rate': 3.213223441817624e-05, 'epoch': 35.74} {'loss': 0.0528, 'learning_rate': 3.212983573840958e-05, 'epoch': 35.74} {'loss': 0.0521, 'learning_rate': 3.2127437058642925e-05, 'epoch': 35.75} {'loss': 0.0543, 'learning_rate': 3.2125038378876264e-05, 'epoch': 35.75} {'loss': 0.0507, 'learning_rate': 3.212263969910961e-05, 'epoch': 35.75} {'loss': 0.0517, 'learning_rate': 3.2120241019342956e-05, 'epoch': 35.76} {'loss': 0.0517, 'learning_rate': 3.2117842339576296e-05, 'epoch': 35.76} {'loss': 0.0539, 'learning_rate': 3.211544365980964e-05, 'epoch': 35.77} {'loss': 0.0525, 'learning_rate': 3.211304498004298e-05, 'epoch': 35.77} {'loss': 0.0516, 'learning_rate': 3.2110646300276334e-05, 'epoch': 35.78} {'loss': 0.0537, 'learning_rate': 3.210824762050967e-05, 'epoch': 35.78} {'loss': 0.0539, 'learning_rate': 3.210584894074302e-05, 'epoch': 35.79} {'loss': 0.0532, 'learning_rate': 3.210345026097636e-05, 'epoch': 35.79} {'loss': 0.0545, 'learning_rate': 3.2101051581209705e-05, 'epoch': 35.8} {'loss': 0.0515, 'learning_rate': 3.209865290144305e-05, 'epoch': 35.8} {'loss': 0.0531, 'learning_rate': 3.209625422167639e-05, 'epoch': 35.81} {'loss': 0.0505, 'learning_rate': 3.2093855541909736e-05, 'epoch': 35.81} {'loss': 0.0525, 'learning_rate': 3.2091456862143075e-05, 'epoch': 35.82} {'loss': 0.0525, 'learning_rate': 3.208905818237642e-05, 'epoch': 35.82} {'loss': 0.0527, 'learning_rate': 3.208665950260977e-05, 'epoch': 35.83} {'loss': 0.0534, 'learning_rate': 3.208426082284311e-05, 'epoch': 35.83} {'loss': 0.0543, 'learning_rate': 3.208186214307645e-05, 'epoch': 35.84} {'loss': 0.0501, 'learning_rate': 3.207946346330979e-05, 'epoch': 35.84} {'loss': 0.0517, 'learning_rate': 3.207706478354314e-05, 'epoch': 35.85} {'loss': 0.0575, 'learning_rate': 3.2074666103776485e-05, 'epoch': 35.85} {'loss': 0.0517, 'learning_rate': 3.207226742400983e-05, 'epoch': 35.86} {'loss': 0.0509, 'learning_rate': 3.206986874424317e-05, 'epoch': 35.86} {'loss': 0.0539, 'learning_rate': 3.206747006447651e-05, 'epoch': 35.87} {'loss': 0.0528, 'learning_rate': 3.2065071384709855e-05, 'epoch': 35.87} {'loss': 0.0516, 'learning_rate': 3.20626727049432e-05, 'epoch': 35.87} {'loss': 0.0523, 'learning_rate': 3.206027402517655e-05, 'epoch': 35.88} {'loss': 0.053, 'learning_rate': 3.205787534540989e-05, 'epoch': 35.88} {'loss': 0.0533, 'learning_rate': 3.205547666564323e-05, 'epoch': 35.89} {'loss': 0.0534, 'learning_rate': 3.205307798587657e-05, 'epoch': 35.89} {'loss': 0.052, 'learning_rate': 3.205067930610992e-05, 'epoch': 35.9} {'loss': 0.0503, 'learning_rate': 3.2048280626343264e-05, 'epoch': 35.9} {'loss': 0.0502, 'learning_rate': 3.2045881946576604e-05, 'epoch': 35.91} {'loss': 0.0542, 'learning_rate': 3.204348326680995e-05, 'epoch': 35.91} {'loss': 0.0514, 'learning_rate': 3.204108458704329e-05, 'epoch': 35.92} {'loss': 0.05, 'learning_rate': 3.203868590727664e-05, 'epoch': 35.92} {'loss': 0.0527, 'learning_rate': 3.203628722750998e-05, 'epoch': 35.93} {'loss': 0.0514, 'learning_rate': 3.203388854774332e-05, 'epoch': 35.93} {'loss': 0.0518, 'learning_rate': 3.203148986797667e-05, 'epoch': 35.94} {'loss': 0.0544, 'learning_rate': 3.2029091188210006e-05, 'epoch': 35.94} {'loss': 0.0531, 'learning_rate': 3.202669250844336e-05, 'epoch': 35.95} {'loss': 0.0529, 'learning_rate': 3.20242938286767e-05, 'epoch': 35.95} {'loss': 0.0531, 'learning_rate': 3.2021895148910044e-05, 'epoch': 35.96} {'loss': 0.0535, 'learning_rate': 3.2019496469143384e-05, 'epoch': 35.96} {'loss': 0.0553, 'learning_rate': 3.201709778937673e-05, 'epoch': 35.97} {'loss': 0.051, 'learning_rate': 3.2014699109610076e-05, 'epoch': 35.97} {'loss': 0.0495, 'learning_rate': 3.2012300429843415e-05, 'epoch': 35.98} {'loss': 0.0521, 'learning_rate': 3.200990175007676e-05, 'epoch': 35.98} {'loss': 0.0514, 'learning_rate': 3.20075030703101e-05, 'epoch': 35.98} {'loss': 0.0519, 'learning_rate': 3.200510439054345e-05, 'epoch': 35.99} {'loss': 0.053, 'learning_rate': 3.200270571077679e-05, 'epoch': 35.99} {'loss': 0.0523, 'learning_rate': 3.200030703101013e-05, 'epoch': 36.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.049271006137132645, 'eval_runtime': 618.639, 'eval_samples_per_second': 673.891, 'eval_steps_per_second': 84.237, 'epoch': 36.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-3752064 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-3752064/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-3752064/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-3647840] due to args.save_total_limit {'loss': 0.0518, 'learning_rate': 3.199790835124348e-05, 'epoch': 36.0} {'loss': 0.0534, 'learning_rate': 3.199550967147682e-05, 'epoch': 36.01} {'loss': 0.0518, 'learning_rate': 3.1993110991710164e-05, 'epoch': 36.01} {'loss': 0.0516, 'learning_rate': 3.199071231194351e-05, 'epoch': 36.02} {'loss': 0.0503, 'learning_rate': 3.1988313632176856e-05, 'epoch': 36.02} {'loss': 0.0506, 'learning_rate': 3.1985914952410195e-05, 'epoch': 36.03} {'loss': 0.0519, 'learning_rate': 3.198351627264354e-05, 'epoch': 36.03} {'loss': 0.0522, 'learning_rate': 3.198111759287688e-05, 'epoch': 36.04} {'loss': 0.0519, 'learning_rate': 3.1978718913110227e-05, 'epoch': 36.04} {'loss': 0.0529, 'learning_rate': 3.197632023334357e-05, 'epoch': 36.05} {'loss': 0.0509, 'learning_rate': 3.197392155357691e-05, 'epoch': 36.05} {'loss': 0.0527, 'learning_rate': 3.197152287381026e-05, 'epoch': 36.06} {'loss': 0.0498, 'learning_rate': 3.19691241940436e-05, 'epoch': 36.06} {'loss': 0.0501, 'learning_rate': 3.1966725514276943e-05, 'epoch': 36.07} {'loss': 0.0516, 'learning_rate': 3.196432683451029e-05, 'epoch': 36.07} {'loss': 0.0503, 'learning_rate': 3.196192815474363e-05, 'epoch': 36.08} {'loss': 0.0511, 'learning_rate': 3.1959529474976975e-05, 'epoch': 36.08} {'loss': 0.0525, 'learning_rate': 3.1957130795210314e-05, 'epoch': 36.09} {'loss': 0.0498, 'learning_rate': 3.195473211544367e-05, 'epoch': 36.09} {'loss': 0.0512, 'learning_rate': 3.1952333435677006e-05, 'epoch': 36.1} {'loss': 0.0498, 'learning_rate': 3.1949934755910346e-05, 'epoch': 36.1} {'loss': 0.0525, 'learning_rate': 3.194753607614369e-05, 'epoch': 36.1} {'loss': 0.0521, 'learning_rate': 3.194513739637703e-05, 'epoch': 36.11} {'loss': 0.0507, 'learning_rate': 3.194273871661038e-05, 'epoch': 36.11} {'loss': 0.0553, 'learning_rate': 3.194034003684372e-05, 'epoch': 36.12} {'loss': 0.0495, 'learning_rate': 3.193794135707707e-05, 'epoch': 36.12} {'loss': 0.0529, 'learning_rate': 3.193554267731041e-05, 'epoch': 36.13} {'loss': 0.0519, 'learning_rate': 3.1933143997543755e-05, 'epoch': 36.13} {'loss': 0.0517, 'learning_rate': 3.1930745317777094e-05, 'epoch': 36.14} {'loss': 0.0509, 'learning_rate': 3.192834663801044e-05, 'epoch': 36.14} {'loss': 0.0525, 'learning_rate': 3.1925947958243786e-05, 'epoch': 36.15} {'loss': 0.0535, 'learning_rate': 3.1923549278477126e-05, 'epoch': 36.15} {'loss': 0.0533, 'learning_rate': 3.192115059871047e-05, 'epoch': 36.16} {'loss': 0.0514, 'learning_rate': 3.191875191894381e-05, 'epoch': 36.16} {'loss': 0.0528, 'learning_rate': 3.191635323917716e-05, 'epoch': 36.17} {'loss': 0.0503, 'learning_rate': 3.19139545594105e-05, 'epoch': 36.17} {'loss': 0.0507, 'learning_rate': 3.191155587964384e-05, 'epoch': 36.18} {'loss': 0.0483, 'learning_rate': 3.190915719987719e-05, 'epoch': 36.18} {'loss': 0.0528, 'learning_rate': 3.190675852011053e-05, 'epoch': 36.19} {'loss': 0.0569, 'learning_rate': 3.190435984034388e-05, 'epoch': 36.19} {'loss': 0.0524, 'learning_rate': 3.190196116057722e-05, 'epoch': 36.2} {'loss': 0.0543, 'learning_rate': 3.1899562480810566e-05, 'epoch': 36.2} {'loss': 0.0521, 'learning_rate': 3.1897163801043906e-05, 'epoch': 36.21} {'loss': 0.0529, 'learning_rate': 3.1894765121277245e-05, 'epoch': 36.21} {'loss': 0.0513, 'learning_rate': 3.18923664415106e-05, 'epoch': 36.22} {'loss': 0.0521, 'learning_rate': 3.188996776174394e-05, 'epoch': 36.22} {'loss': 0.0539, 'learning_rate': 3.188756908197728e-05, 'epoch': 36.22} {'loss': 0.0534, 'learning_rate': 3.188517040221062e-05, 'epoch': 36.23} {'loss': 0.0527, 'learning_rate': 3.188277172244397e-05, 'epoch': 36.23} {'loss': 0.0534, 'learning_rate': 3.1880373042677315e-05, 'epoch': 36.24} {'loss': 0.0522, 'learning_rate': 3.1877974362910654e-05, 'epoch': 36.24} {'loss': 0.0503, 'learning_rate': 3.1875575683144e-05, 'epoch': 36.25} {'loss': 0.0506, 'learning_rate': 3.187317700337734e-05, 'epoch': 36.25} {'loss': 0.0524, 'learning_rate': 3.1870778323610685e-05, 'epoch': 36.26} {'loss': 0.0538, 'learning_rate': 3.186837964384403e-05, 'epoch': 36.26} {'loss': 0.0521, 'learning_rate': 3.186598096407738e-05, 'epoch': 36.27} {'loss': 0.0505, 'learning_rate': 3.186358228431072e-05, 'epoch': 36.27} {'loss': 0.0536, 'learning_rate': 3.1861183604544056e-05, 'epoch': 36.28} {'loss': 0.051, 'learning_rate': 3.18587849247774e-05, 'epoch': 36.28} {'loss': 0.0499, 'learning_rate': 3.185638624501075e-05, 'epoch': 36.29} {'loss': 0.0514, 'learning_rate': 3.1853987565244095e-05, 'epoch': 36.29} {'loss': 0.0522, 'learning_rate': 3.1851588885477434e-05, 'epoch': 36.3} {'loss': 0.0516, 'learning_rate': 3.184919020571078e-05, 'epoch': 36.3} {'loss': 0.0524, 'learning_rate': 3.184679152594412e-05, 'epoch': 36.31} {'loss': 0.0542, 'learning_rate': 3.1844392846177465e-05, 'epoch': 36.31} {'loss': 0.0501, 'learning_rate': 3.184199416641081e-05, 'epoch': 36.32} {'loss': 0.0539, 'learning_rate': 3.183959548664415e-05, 'epoch': 36.32} {'loss': 0.0508, 'learning_rate': 3.18371968068775e-05, 'epoch': 36.33} {'loss': 0.0491, 'learning_rate': 3.1834798127110836e-05, 'epoch': 36.33} {'loss': 0.0541, 'learning_rate': 3.183239944734418e-05, 'epoch': 36.34} {'loss': 0.0522, 'learning_rate': 3.183000076757753e-05, 'epoch': 36.34} {'loss': 0.0503, 'learning_rate': 3.182760208781087e-05, 'epoch': 36.34} {'loss': 0.0512, 'learning_rate': 3.1825203408044214e-05, 'epoch': 36.35} {'loss': 0.0503, 'learning_rate': 3.182280472827755e-05, 'epoch': 36.35} {'loss': 0.0504, 'learning_rate': 3.1820406048510906e-05, 'epoch': 36.36} {'loss': 0.0522, 'learning_rate': 3.1818007368744245e-05, 'epoch': 36.36} {'loss': 0.0512, 'learning_rate': 3.181560868897759e-05, 'epoch': 36.37} {'loss': 0.0524, 'learning_rate': 3.181321000921093e-05, 'epoch': 36.37} {'loss': 0.0513, 'learning_rate': 3.181081132944427e-05, 'epoch': 36.38} {'loss': 0.0525, 'learning_rate': 3.180841264967762e-05, 'epoch': 36.38} {'loss': 0.0538, 'learning_rate': 3.180601396991096e-05, 'epoch': 36.39} {'loss': 0.0514, 'learning_rate': 3.180361529014431e-05, 'epoch': 36.39} {'loss': 0.0499, 'learning_rate': 3.180121661037765e-05, 'epoch': 36.4} {'loss': 0.0515, 'learning_rate': 3.1798817930610994e-05, 'epoch': 36.4} {'loss': 0.0526, 'learning_rate': 3.179641925084434e-05, 'epoch': 36.41} {'loss': 0.053, 'learning_rate': 3.179402057107768e-05, 'epoch': 36.41} {'loss': 0.0539, 'learning_rate': 3.1791621891311025e-05, 'epoch': 36.42} {'loss': 0.0516, 'learning_rate': 3.1789223211544364e-05, 'epoch': 36.42} {'loss': 0.0516, 'learning_rate': 3.178682453177771e-05, 'epoch': 36.43} {'loss': 0.0501, 'learning_rate': 3.178442585201106e-05, 'epoch': 36.43} {'loss': 0.054, 'learning_rate': 3.17820271722444e-05, 'epoch': 36.44} {'loss': 0.0508, 'learning_rate': 3.177962849247774e-05, 'epoch': 36.44} {'loss': 0.05, 'learning_rate': 3.177722981271108e-05, 'epoch': 36.45} {'loss': 0.0507, 'learning_rate': 3.177483113294443e-05, 'epoch': 36.45} {'loss': 0.0525, 'learning_rate': 3.1772432453177774e-05, 'epoch': 36.46} {'loss': 0.0536, 'learning_rate': 3.177003377341112e-05, 'epoch': 36.46} {'loss': 0.0522, 'learning_rate': 3.176763509364446e-05, 'epoch': 36.46} {'loss': 0.0495, 'learning_rate': 3.1765236413877805e-05, 'epoch': 36.47} {'loss': 0.0514, 'learning_rate': 3.1762837734111144e-05, 'epoch': 36.47} {'loss': 0.0511, 'learning_rate': 3.176043905434449e-05, 'epoch': 36.48} {'loss': 0.0491, 'learning_rate': 3.1758040374577837e-05, 'epoch': 36.48} {'loss': 0.0526, 'learning_rate': 3.1755641694811176e-05, 'epoch': 36.49} {'loss': 0.0534, 'learning_rate': 3.175324301504452e-05, 'epoch': 36.49} {'loss': 0.0509, 'learning_rate': 3.175084433527786e-05, 'epoch': 36.5} {'loss': 0.0486, 'learning_rate': 3.1748445655511214e-05, 'epoch': 36.5} {'loss': 0.0506, 'learning_rate': 3.1746046975744553e-05, 'epoch': 36.51} {'loss': 0.0518, 'learning_rate': 3.174364829597789e-05, 'epoch': 36.51} {'loss': 0.052, 'learning_rate': 3.174124961621124e-05, 'epoch': 36.52} {'loss': 0.0536, 'learning_rate': 3.173885093644458e-05, 'epoch': 36.52} {'loss': 0.0516, 'learning_rate': 3.173645225667793e-05, 'epoch': 36.53} {'loss': 0.0533, 'learning_rate': 3.173405357691127e-05, 'epoch': 36.53} {'loss': 0.0533, 'learning_rate': 3.1731654897144616e-05, 'epoch': 36.54} {'loss': 0.0512, 'learning_rate': 3.1729256217377956e-05, 'epoch': 36.54} {'loss': 0.0522, 'learning_rate': 3.17268575376113e-05, 'epoch': 36.55} {'loss': 0.0511, 'learning_rate': 3.172445885784464e-05, 'epoch': 36.55} {'loss': 0.052, 'learning_rate': 3.172206017807799e-05, 'epoch': 36.56} {'loss': 0.0495, 'learning_rate': 3.171966149831133e-05, 'epoch': 36.56} {'loss': 0.0524, 'learning_rate': 3.171726281854467e-05, 'epoch': 36.57} {'loss': 0.0528, 'learning_rate': 3.171486413877802e-05, 'epoch': 36.57} {'loss': 0.0505, 'learning_rate': 3.171246545901136e-05, 'epoch': 36.58} {'loss': 0.0518, 'learning_rate': 3.1710066779244704e-05, 'epoch': 36.58} {'loss': 0.0504, 'learning_rate': 3.170766809947805e-05, 'epoch': 36.58} {'loss': 0.0507, 'learning_rate': 3.170526941971139e-05, 'epoch': 36.59} {'loss': 0.0498, 'learning_rate': 3.1702870739944736e-05, 'epoch': 36.59} {'loss': 0.0475, 'learning_rate': 3.1700472060178075e-05, 'epoch': 36.6} {'loss': 0.0544, 'learning_rate': 3.169807338041143e-05, 'epoch': 36.6} {'loss': 0.0515, 'learning_rate': 3.169567470064477e-05, 'epoch': 36.61} {'loss': 0.0518, 'learning_rate': 3.169327602087811e-05, 'epoch': 36.61} {'loss': 0.051, 'learning_rate': 3.169087734111145e-05, 'epoch': 36.62} {'loss': 0.0524, 'learning_rate': 3.168847866134479e-05, 'epoch': 36.62} {'loss': 0.0543, 'learning_rate': 3.1686079981578145e-05, 'epoch': 36.63} {'loss': 0.0515, 'learning_rate': 3.1683681301811484e-05, 'epoch': 36.63} {'loss': 0.0512, 'learning_rate': 3.168128262204483e-05, 'epoch': 36.64} {'loss': 0.0546, 'learning_rate': 3.167888394227817e-05, 'epoch': 36.64} {'loss': 0.0539, 'learning_rate': 3.1676485262511516e-05, 'epoch': 36.65} {'loss': 0.0507, 'learning_rate': 3.167408658274486e-05, 'epoch': 36.65} {'loss': 0.0509, 'learning_rate': 3.16716879029782e-05, 'epoch': 36.66} {'loss': 0.0545, 'learning_rate': 3.166928922321155e-05, 'epoch': 36.66} {'loss': 0.0498, 'learning_rate': 3.1666890543444886e-05, 'epoch': 36.67} {'loss': 0.0502, 'learning_rate': 3.166449186367823e-05, 'epoch': 36.67} {'loss': 0.052, 'learning_rate': 3.166209318391158e-05, 'epoch': 36.68} {'loss': 0.0517, 'learning_rate': 3.165969450414492e-05, 'epoch': 36.68} {'loss': 0.0509, 'learning_rate': 3.1657295824378264e-05, 'epoch': 36.69} {'loss': 0.0523, 'learning_rate': 3.16548971446116e-05, 'epoch': 36.69} {'loss': 0.0511, 'learning_rate': 3.165249846484495e-05, 'epoch': 36.7} {'loss': 0.0521, 'learning_rate': 3.1650099785078295e-05, 'epoch': 36.7} {'loss': 0.051, 'learning_rate': 3.164770110531164e-05, 'epoch': 36.7} {'loss': 0.052, 'learning_rate': 3.164530242554498e-05, 'epoch': 36.71} {'loss': 0.0528, 'learning_rate': 3.164290374577833e-05, 'epoch': 36.71} {'loss': 0.051, 'learning_rate': 3.1640505066011666e-05, 'epoch': 36.72} {'loss': 0.0519, 'learning_rate': 3.163810638624501e-05, 'epoch': 36.72} {'loss': 0.0521, 'learning_rate': 3.163570770647836e-05, 'epoch': 36.73} {'loss': 0.0534, 'learning_rate': 3.16333090267117e-05, 'epoch': 36.73} {'loss': 0.0505, 'learning_rate': 3.1630910346945044e-05, 'epoch': 36.74} {'loss': 0.0525, 'learning_rate': 3.162851166717838e-05, 'epoch': 36.74} {'loss': 0.0528, 'learning_rate': 3.162611298741173e-05, 'epoch': 36.75} {'loss': 0.0541, 'learning_rate': 3.1623714307645075e-05, 'epoch': 36.75} {'loss': 0.0525, 'learning_rate': 3.1621315627878415e-05, 'epoch': 36.76} {'loss': 0.052, 'learning_rate': 3.161891694811176e-05, 'epoch': 36.76} {'loss': 0.0533, 'learning_rate': 3.16165182683451e-05, 'epoch': 36.77} {'loss': 0.0513, 'learning_rate': 3.161411958857845e-05, 'epoch': 36.77} {'loss': 0.0515, 'learning_rate': 3.161172090881179e-05, 'epoch': 36.78} {'loss': 0.0502, 'learning_rate': 3.160932222904514e-05, 'epoch': 36.78} {'loss': 0.0522, 'learning_rate': 3.160692354927848e-05, 'epoch': 36.79} {'loss': 0.0528, 'learning_rate': 3.160452486951182e-05, 'epoch': 36.79} {'loss': 0.0502, 'learning_rate': 3.160212618974517e-05, 'epoch': 36.8} {'loss': 0.0533, 'learning_rate': 3.159972750997851e-05, 'epoch': 36.8} {'loss': 0.0529, 'learning_rate': 3.1597328830211855e-05, 'epoch': 36.81} {'loss': 0.0529, 'learning_rate': 3.1594930150445195e-05, 'epoch': 36.81} {'loss': 0.0507, 'learning_rate': 3.159253147067854e-05, 'epoch': 36.81} {'loss': 0.0541, 'learning_rate': 3.159013279091189e-05, 'epoch': 36.82} {'loss': 0.0524, 'learning_rate': 3.1587734111145226e-05, 'epoch': 36.82} {'loss': 0.0524, 'learning_rate': 3.158533543137857e-05, 'epoch': 36.83} {'loss': 0.0505, 'learning_rate': 3.158293675161191e-05, 'epoch': 36.83} {'loss': 0.0507, 'learning_rate': 3.158053807184526e-05, 'epoch': 36.84} {'loss': 0.0511, 'learning_rate': 3.1578139392078604e-05, 'epoch': 36.84} {'loss': 0.0529, 'learning_rate': 3.157574071231195e-05, 'epoch': 36.85} {'loss': 0.0524, 'learning_rate': 3.157334203254529e-05, 'epoch': 36.85} {'loss': 0.0525, 'learning_rate': 3.157094335277863e-05, 'epoch': 36.86} {'loss': 0.0521, 'learning_rate': 3.1568544673011974e-05, 'epoch': 36.86} {'loss': 0.0525, 'learning_rate': 3.156614599324532e-05, 'epoch': 36.87} {'loss': 0.0517, 'learning_rate': 3.156374731347867e-05, 'epoch': 36.87} {'loss': 0.0522, 'learning_rate': 3.1561348633712006e-05, 'epoch': 36.88} {'loss': 0.0501, 'learning_rate': 3.155894995394535e-05, 'epoch': 36.88} {'loss': 0.0543, 'learning_rate': 3.155655127417869e-05, 'epoch': 36.89} {'loss': 0.0484, 'learning_rate': 3.155415259441204e-05, 'epoch': 36.89} {'loss': 0.0519, 'learning_rate': 3.1551753914645384e-05, 'epoch': 36.9} {'loss': 0.0527, 'learning_rate': 3.154935523487872e-05, 'epoch': 36.9} {'loss': 0.0536, 'learning_rate': 3.154695655511207e-05, 'epoch': 36.91} {'loss': 0.0525, 'learning_rate': 3.154455787534541e-05, 'epoch': 36.91} {'loss': 0.0502, 'learning_rate': 3.1542159195578754e-05, 'epoch': 36.92} {'loss': 0.0522, 'learning_rate': 3.15397605158121e-05, 'epoch': 36.92} {'loss': 0.0524, 'learning_rate': 3.153736183604544e-05, 'epoch': 36.93} {'loss': 0.0554, 'learning_rate': 3.1534963156278786e-05, 'epoch': 36.93} {'loss': 0.0531, 'learning_rate': 3.1532564476512125e-05, 'epoch': 36.93} {'loss': 0.0509, 'learning_rate': 3.153016579674548e-05, 'epoch': 36.94} {'loss': 0.0503, 'learning_rate': 3.152776711697882e-05, 'epoch': 36.94} {'loss': 0.051, 'learning_rate': 3.1525368437212163e-05, 'epoch': 36.95} {'loss': 0.0523, 'learning_rate': 3.15229697574455e-05, 'epoch': 36.95} {'loss': 0.0535, 'learning_rate': 3.152057107767884e-05, 'epoch': 36.96} {'loss': 0.0515, 'learning_rate': 3.151817239791219e-05, 'epoch': 36.96} {'loss': 0.0537, 'learning_rate': 3.1515773718145534e-05, 'epoch': 36.97} {'loss': 0.0528, 'learning_rate': 3.151337503837888e-05, 'epoch': 36.97} {'loss': 0.0516, 'learning_rate': 3.151097635861222e-05, 'epoch': 36.98} {'loss': 0.0502, 'learning_rate': 3.1508577678845566e-05, 'epoch': 36.98} {'loss': 0.0503, 'learning_rate': 3.1506178999078905e-05, 'epoch': 36.99} {'loss': 0.0503, 'learning_rate': 3.150378031931225e-05, 'epoch': 36.99} {'loss': 0.0521, 'learning_rate': 3.15013816395456e-05, 'epoch': 37.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.05051395297050476, 'eval_runtime': 516.4942, 'eval_samples_per_second': 807.163, 'eval_steps_per_second': 100.896, 'epoch': 37.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-3856288 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-3856288/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-3856288/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-3752064] due to args.save_total_limit {'loss': 0.052, 'learning_rate': 3.1498982959778937e-05, 'epoch': 37.0} {'loss': 0.0518, 'learning_rate': 3.149658428001228e-05, 'epoch': 37.01} {'loss': 0.0494, 'learning_rate': 3.149418560024562e-05, 'epoch': 37.01} {'loss': 0.0521, 'learning_rate': 3.1491786920478975e-05, 'epoch': 37.02} {'loss': 0.0524, 'learning_rate': 3.1489388240712314e-05, 'epoch': 37.02} {'loss': 0.0513, 'learning_rate': 3.1486989560945653e-05, 'epoch': 37.03} {'loss': 0.0502, 'learning_rate': 3.1484590881179e-05, 'epoch': 37.03} {'loss': 0.0518, 'learning_rate': 3.148219220141234e-05, 'epoch': 37.04} {'loss': 0.0522, 'learning_rate': 3.147979352164569e-05, 'epoch': 37.04} {'loss': 0.0522, 'learning_rate': 3.147739484187903e-05, 'epoch': 37.05} {'loss': 0.0521, 'learning_rate': 3.147499616211238e-05, 'epoch': 37.05} {'loss': 0.0527, 'learning_rate': 3.1472597482345716e-05, 'epoch': 37.05} {'loss': 0.0508, 'learning_rate': 3.147019880257906e-05, 'epoch': 37.06} {'loss': 0.0524, 'learning_rate': 3.146780012281241e-05, 'epoch': 37.06} {'loss': 0.0515, 'learning_rate': 3.146540144304575e-05, 'epoch': 37.07} {'loss': 0.0521, 'learning_rate': 3.1463002763279094e-05, 'epoch': 37.07} {'loss': 0.0534, 'learning_rate': 3.146060408351243e-05, 'epoch': 37.08} {'loss': 0.051, 'learning_rate': 3.145820540374578e-05, 'epoch': 37.08} {'loss': 0.0529, 'learning_rate': 3.1455806723979126e-05, 'epoch': 37.09} {'loss': 0.0502, 'learning_rate': 3.1453408044212465e-05, 'epoch': 37.09} {'loss': 0.0502, 'learning_rate': 3.145100936444581e-05, 'epoch': 37.1} {'loss': 0.0505, 'learning_rate': 3.144861068467915e-05, 'epoch': 37.1} {'loss': 0.0512, 'learning_rate': 3.1446212004912496e-05, 'epoch': 37.11} {'loss': 0.0531, 'learning_rate': 3.144381332514584e-05, 'epoch': 37.11} {'loss': 0.0519, 'learning_rate': 3.144141464537919e-05, 'epoch': 37.12} {'loss': 0.0511, 'learning_rate': 3.143901596561253e-05, 'epoch': 37.12} {'loss': 0.0516, 'learning_rate': 3.1436617285845874e-05, 'epoch': 37.13} {'loss': 0.0545, 'learning_rate': 3.143421860607921e-05, 'epoch': 37.13} {'loss': 0.0493, 'learning_rate': 3.143181992631256e-05, 'epoch': 37.14} {'loss': 0.0492, 'learning_rate': 3.1429421246545905e-05, 'epoch': 37.14} {'loss': 0.0494, 'learning_rate': 3.1427022566779245e-05, 'epoch': 37.15} {'loss': 0.0503, 'learning_rate': 3.142462388701259e-05, 'epoch': 37.15} {'loss': 0.0496, 'learning_rate': 3.142222520724593e-05, 'epoch': 37.16} {'loss': 0.0531, 'learning_rate': 3.1419826527479276e-05, 'epoch': 37.16} {'loss': 0.051, 'learning_rate': 3.141742784771262e-05, 'epoch': 37.17} {'loss': 0.0501, 'learning_rate': 3.141502916794596e-05, 'epoch': 37.17} {'loss': 0.0506, 'learning_rate': 3.141263048817931e-05, 'epoch': 37.17} {'loss': 0.0499, 'learning_rate': 3.141023180841265e-05, 'epoch': 37.18} {'loss': 0.0528, 'learning_rate': 3.1407833128646e-05, 'epoch': 37.18} {'loss': 0.052, 'learning_rate': 3.140543444887934e-05, 'epoch': 37.19} {'loss': 0.0504, 'learning_rate': 3.140303576911268e-05, 'epoch': 37.19} {'loss': 0.0517, 'learning_rate': 3.1400637089346025e-05, 'epoch': 37.2} {'loss': 0.0513, 'learning_rate': 3.1398238409579364e-05, 'epoch': 37.2} {'loss': 0.0492, 'learning_rate': 3.139583972981272e-05, 'epoch': 37.21} {'loss': 0.0511, 'learning_rate': 3.1393441050046056e-05, 'epoch': 37.21} {'loss': 0.0536, 'learning_rate': 3.13910423702794e-05, 'epoch': 37.22} {'loss': 0.0517, 'learning_rate': 3.138864369051274e-05, 'epoch': 37.22} {'loss': 0.0503, 'learning_rate': 3.138624501074609e-05, 'epoch': 37.23} {'loss': 0.0495, 'learning_rate': 3.1383846330979434e-05, 'epoch': 37.23} {'loss': 0.0513, 'learning_rate': 3.138144765121277e-05, 'epoch': 37.24} {'loss': 0.0526, 'learning_rate': 3.137904897144612e-05, 'epoch': 37.24} {'loss': 0.0498, 'learning_rate': 3.137665029167946e-05, 'epoch': 37.25} {'loss': 0.0495, 'learning_rate': 3.1374251611912805e-05, 'epoch': 37.25} {'loss': 0.0524, 'learning_rate': 3.137185293214615e-05, 'epoch': 37.26} {'loss': 0.0525, 'learning_rate': 3.136945425237949e-05, 'epoch': 37.26} {'loss': 0.0517, 'learning_rate': 3.1367055572612836e-05, 'epoch': 37.27} {'loss': 0.0504, 'learning_rate': 3.1364656892846175e-05, 'epoch': 37.27} {'loss': 0.0507, 'learning_rate': 3.136225821307952e-05, 'epoch': 37.28} {'loss': 0.0523, 'learning_rate': 3.135985953331287e-05, 'epoch': 37.28} {'loss': 0.0496, 'learning_rate': 3.1357460853546214e-05, 'epoch': 37.29} {'loss': 0.053, 'learning_rate': 3.135506217377955e-05, 'epoch': 37.29} {'loss': 0.0508, 'learning_rate': 3.13526634940129e-05, 'epoch': 37.29} {'loss': 0.0535, 'learning_rate': 3.135026481424624e-05, 'epoch': 37.3} {'loss': 0.0518, 'learning_rate': 3.1347866134479584e-05, 'epoch': 37.3} {'loss': 0.0501, 'learning_rate': 3.134546745471293e-05, 'epoch': 37.31} {'loss': 0.0508, 'learning_rate': 3.134306877494627e-05, 'epoch': 37.31} {'loss': 0.0543, 'learning_rate': 3.1340670095179616e-05, 'epoch': 37.32} {'loss': 0.0492, 'learning_rate': 3.1338271415412955e-05, 'epoch': 37.32} {'loss': 0.0521, 'learning_rate': 3.13358727356463e-05, 'epoch': 37.33} {'loss': 0.0507, 'learning_rate': 3.133347405587965e-05, 'epoch': 37.33} {'loss': 0.0522, 'learning_rate': 3.133107537611299e-05, 'epoch': 37.34} {'loss': 0.0519, 'learning_rate': 3.132867669634633e-05, 'epoch': 37.34} {'loss': 0.0527, 'learning_rate': 3.132627801657967e-05, 'epoch': 37.35} {'loss': 0.0506, 'learning_rate': 3.1323879336813025e-05, 'epoch': 37.35} {'loss': 0.0536, 'learning_rate': 3.1321480657046364e-05, 'epoch': 37.36} {'loss': 0.0495, 'learning_rate': 3.131908197727971e-05, 'epoch': 37.36} {'loss': 0.0498, 'learning_rate': 3.131668329751305e-05, 'epoch': 37.37} {'loss': 0.0537, 'learning_rate': 3.131428461774639e-05, 'epoch': 37.37} {'loss': 0.0509, 'learning_rate': 3.1311885937979735e-05, 'epoch': 37.38} {'loss': 0.0507, 'learning_rate': 3.130948725821308e-05, 'epoch': 37.38} {'loss': 0.0516, 'learning_rate': 3.130708857844643e-05, 'epoch': 37.39} {'loss': 0.0524, 'learning_rate': 3.130468989867977e-05, 'epoch': 37.39} {'loss': 0.05, 'learning_rate': 3.130229121891311e-05, 'epoch': 37.4} {'loss': 0.0503, 'learning_rate': 3.129989253914645e-05, 'epoch': 37.4} {'loss': 0.0522, 'learning_rate': 3.12974938593798e-05, 'epoch': 37.41} {'loss': 0.0534, 'learning_rate': 3.1295095179613144e-05, 'epoch': 37.41} {'loss': 0.0544, 'learning_rate': 3.1292696499846484e-05, 'epoch': 37.41} {'loss': 0.0565, 'learning_rate': 3.129029782007983e-05, 'epoch': 37.42} {'loss': 0.0573, 'learning_rate': 3.128789914031317e-05, 'epoch': 37.42} {'loss': 0.0574, 'learning_rate': 3.128550046054652e-05, 'epoch': 37.43} {'loss': 0.0576, 'learning_rate': 3.128310178077986e-05, 'epoch': 37.43} {'loss': 0.0554, 'learning_rate': 3.12807031010132e-05, 'epoch': 37.44} {'loss': 0.0524, 'learning_rate': 3.1278304421246547e-05, 'epoch': 37.44} {'loss': 0.0589, 'learning_rate': 3.1275905741479886e-05, 'epoch': 37.45} {'loss': 0.0557, 'learning_rate': 3.127350706171324e-05, 'epoch': 37.45} {'loss': 0.0585, 'learning_rate': 3.127110838194658e-05, 'epoch': 37.46} {'loss': 0.0574, 'learning_rate': 3.1268709702179924e-05, 'epoch': 37.46} {'loss': 0.0556, 'learning_rate': 3.1266311022413263e-05, 'epoch': 37.47} {'loss': 0.0574, 'learning_rate': 3.126391234264661e-05, 'epoch': 37.47} {'loss': 0.0585, 'learning_rate': 3.1261513662879956e-05, 'epoch': 37.48} {'loss': 0.0576, 'learning_rate': 3.1259114983113295e-05, 'epoch': 37.48} {'loss': 0.0581, 'learning_rate': 3.125671630334664e-05, 'epoch': 37.49} {'loss': 0.0563, 'learning_rate': 3.125431762357998e-05, 'epoch': 37.49} {'loss': 0.0593, 'learning_rate': 3.1251918943813326e-05, 'epoch': 37.5} {'loss': 0.0557, 'learning_rate': 3.124952026404667e-05, 'epoch': 37.5} {'loss': 0.0574, 'learning_rate': 3.124712158428001e-05, 'epoch': 37.51} {'loss': 0.0594, 'learning_rate': 3.124472290451336e-05, 'epoch': 37.51} {'loss': 0.0574, 'learning_rate': 3.12423242247467e-05, 'epoch': 37.52} {'loss': 0.0563, 'learning_rate': 3.1239925544980043e-05, 'epoch': 37.52} {'loss': 0.0551, 'learning_rate': 3.123752686521339e-05, 'epoch': 37.52} {'loss': 0.0594, 'learning_rate': 3.1235128185446736e-05, 'epoch': 37.53} {'loss': 0.0582, 'learning_rate': 3.1232729505680075e-05, 'epoch': 37.53} {'loss': 0.0575, 'learning_rate': 3.1230330825913414e-05, 'epoch': 37.54} {'loss': 0.0546, 'learning_rate': 3.122793214614676e-05, 'epoch': 37.54} {'loss': 0.0526, 'learning_rate': 3.1225533466380106e-05, 'epoch': 37.55} {'loss': 0.051, 'learning_rate': 3.122313478661345e-05, 'epoch': 37.55} {'loss': 0.0518, 'learning_rate': 3.122073610684679e-05, 'epoch': 37.56} {'loss': 0.0521, 'learning_rate': 3.121833742708014e-05, 'epoch': 37.56} {'loss': 0.051, 'learning_rate': 3.121593874731348e-05, 'epoch': 37.57} {'loss': 0.053, 'learning_rate': 3.121354006754682e-05, 'epoch': 37.57} {'loss': 0.0521, 'learning_rate': 3.121114138778017e-05, 'epoch': 37.58} {'loss': 0.0513, 'learning_rate': 3.120874270801351e-05, 'epoch': 37.58} {'loss': 0.0529, 'learning_rate': 3.1206344028246855e-05, 'epoch': 37.59} {'loss': 0.0521, 'learning_rate': 3.1203945348480194e-05, 'epoch': 37.59} {'loss': 0.0514, 'learning_rate': 3.120154666871355e-05, 'epoch': 37.6} {'loss': 0.0537, 'learning_rate': 3.1199147988946886e-05, 'epoch': 37.6} {'loss': 0.0486, 'learning_rate': 3.1196749309180226e-05, 'epoch': 37.61} {'loss': 0.0505, 'learning_rate': 3.119435062941357e-05, 'epoch': 37.61} {'loss': 0.0518, 'learning_rate': 3.119195194964691e-05, 'epoch': 37.62} {'loss': 0.0517, 'learning_rate': 3.1189553269880264e-05, 'epoch': 37.62} {'loss': 0.0498, 'learning_rate': 3.11871545901136e-05, 'epoch': 37.63} {'loss': 0.0511, 'learning_rate': 3.118475591034695e-05, 'epoch': 37.63} {'loss': 0.0488, 'learning_rate': 3.118235723058029e-05, 'epoch': 37.64} {'loss': 0.052, 'learning_rate': 3.1179958550813635e-05, 'epoch': 37.64} {'loss': 0.0516, 'learning_rate': 3.117755987104698e-05, 'epoch': 37.64} {'loss': 0.0484, 'learning_rate': 3.117516119128032e-05, 'epoch': 37.65} {'loss': 0.0534, 'learning_rate': 3.1172762511513666e-05, 'epoch': 37.65} {'loss': 0.0498, 'learning_rate': 3.1170363831747006e-05, 'epoch': 37.66} {'loss': 0.0511, 'learning_rate': 3.116796515198035e-05, 'epoch': 37.66} {'loss': 0.0501, 'learning_rate': 3.11655664722137e-05, 'epoch': 37.67} {'loss': 0.0503, 'learning_rate': 3.116316779244704e-05, 'epoch': 37.67} {'loss': 0.0526, 'learning_rate': 3.116076911268038e-05, 'epoch': 37.68} {'loss': 0.0508, 'learning_rate': 3.115837043291372e-05, 'epoch': 37.68} {'loss': 0.05, 'learning_rate': 3.115597175314707e-05, 'epoch': 37.69} {'loss': 0.0537, 'learning_rate': 3.1153573073380415e-05, 'epoch': 37.69} {'loss': 0.0501, 'learning_rate': 3.115117439361376e-05, 'epoch': 37.7} {'loss': 0.0506, 'learning_rate': 3.11487757138471e-05, 'epoch': 37.7} {'loss': 0.0519, 'learning_rate': 3.1146377034080446e-05, 'epoch': 37.71} {'loss': 0.0531, 'learning_rate': 3.1143978354313785e-05, 'epoch': 37.71} {'loss': 0.0519, 'learning_rate': 3.114157967454713e-05, 'epoch': 37.72} {'loss': 0.0506, 'learning_rate': 3.113918099478048e-05, 'epoch': 37.72} {'loss': 0.0515, 'learning_rate': 3.113678231501382e-05, 'epoch': 37.73} {'loss': 0.0523, 'learning_rate': 3.113438363524716e-05, 'epoch': 37.73} {'loss': 0.0503, 'learning_rate': 3.11319849554805e-05, 'epoch': 37.74} {'loss': 0.0506, 'learning_rate': 3.112958627571385e-05, 'epoch': 37.74} {'loss': 0.0511, 'learning_rate': 3.1127187595947194e-05, 'epoch': 37.75} {'loss': 0.05, 'learning_rate': 3.1124788916180534e-05, 'epoch': 37.75} {'loss': 0.0513, 'learning_rate': 3.112239023641388e-05, 'epoch': 37.76} {'loss': 0.0523, 'learning_rate': 3.111999155664722e-05, 'epoch': 37.76} {'loss': 0.05, 'learning_rate': 3.111759287688057e-05, 'epoch': 37.76} {'loss': 0.049, 'learning_rate': 3.111519419711391e-05, 'epoch': 37.77} {'loss': 0.0515, 'learning_rate': 3.111279551734725e-05, 'epoch': 37.77} {'loss': 0.0495, 'learning_rate': 3.11103968375806e-05, 'epoch': 37.78} {'loss': 0.05, 'learning_rate': 3.1107998157813936e-05, 'epoch': 37.78} {'loss': 0.0526, 'learning_rate': 3.110559947804729e-05, 'epoch': 37.79} {'loss': 0.0523, 'learning_rate': 3.110320079828063e-05, 'epoch': 37.79} {'loss': 0.0524, 'learning_rate': 3.1100802118513974e-05, 'epoch': 37.8} {'loss': 0.0501, 'learning_rate': 3.1098403438747314e-05, 'epoch': 37.8} {'loss': 0.0536, 'learning_rate': 3.109600475898066e-05, 'epoch': 37.81} {'loss': 0.0508, 'learning_rate': 3.1093606079214e-05, 'epoch': 37.81} {'loss': 0.0506, 'learning_rate': 3.1091207399447345e-05, 'epoch': 37.82} {'loss': 0.0505, 'learning_rate': 3.108880871968069e-05, 'epoch': 37.82} {'loss': 0.0514, 'learning_rate': 3.108641003991403e-05, 'epoch': 37.83} {'loss': 0.0505, 'learning_rate': 3.108401136014738e-05, 'epoch': 37.83} {'loss': 0.0503, 'learning_rate': 3.1081612680380716e-05, 'epoch': 37.84} {'loss': 0.0517, 'learning_rate': 3.107921400061406e-05, 'epoch': 37.84} {'loss': 0.0491, 'learning_rate': 3.107681532084741e-05, 'epoch': 37.85} {'loss': 0.0511, 'learning_rate': 3.107441664108075e-05, 'epoch': 37.85} {'loss': 0.053, 'learning_rate': 3.1072017961314094e-05, 'epoch': 37.86} {'loss': 0.049, 'learning_rate': 3.106961928154743e-05, 'epoch': 37.86} {'loss': 0.05, 'learning_rate': 3.1067220601780786e-05, 'epoch': 37.87} {'loss': 0.0518, 'learning_rate': 3.1064821922014125e-05, 'epoch': 37.87} {'loss': 0.0518, 'learning_rate': 3.106242324224747e-05, 'epoch': 37.88} {'loss': 0.0505, 'learning_rate': 3.106002456248081e-05, 'epoch': 37.88} {'loss': 0.0516, 'learning_rate': 3.105762588271415e-05, 'epoch': 37.88} {'loss': 0.0501, 'learning_rate': 3.10552272029475e-05, 'epoch': 37.89} {'loss': 0.0526, 'learning_rate': 3.105282852318084e-05, 'epoch': 37.89} {'loss': 0.0519, 'learning_rate': 3.105042984341419e-05, 'epoch': 37.9} {'loss': 0.0512, 'learning_rate': 3.104803116364753e-05, 'epoch': 37.9} {'loss': 0.0503, 'learning_rate': 3.1045632483880874e-05, 'epoch': 37.91} {'loss': 0.0511, 'learning_rate': 3.104323380411422e-05, 'epoch': 37.91} {'loss': 0.0528, 'learning_rate': 3.104083512434756e-05, 'epoch': 37.92} {'loss': 0.0495, 'learning_rate': 3.1038436444580905e-05, 'epoch': 37.92} {'loss': 0.048, 'learning_rate': 3.1036037764814244e-05, 'epoch': 37.93} {'loss': 0.0506, 'learning_rate': 3.103363908504759e-05, 'epoch': 37.93} {'loss': 0.051, 'learning_rate': 3.1031240405280936e-05, 'epoch': 37.94} {'loss': 0.0506, 'learning_rate': 3.102884172551428e-05, 'epoch': 37.94} {'loss': 0.0507, 'learning_rate': 3.102644304574762e-05, 'epoch': 37.95} {'loss': 0.0516, 'learning_rate': 3.102404436598096e-05, 'epoch': 37.95} {'loss': 0.0514, 'learning_rate': 3.102164568621431e-05, 'epoch': 37.96} {'loss': 0.0509, 'learning_rate': 3.1019247006447653e-05, 'epoch': 37.96} {'loss': 0.051, 'learning_rate': 3.1016848326681e-05, 'epoch': 37.97} {'loss': 0.0515, 'learning_rate': 3.101444964691434e-05, 'epoch': 37.97} {'loss': 0.0493, 'learning_rate': 3.1012050967147685e-05, 'epoch': 37.98} {'loss': 0.0534, 'learning_rate': 3.1009652287381024e-05, 'epoch': 37.98} {'loss': 0.0523, 'learning_rate': 3.100725360761437e-05, 'epoch': 37.99} {'loss': 0.0506, 'learning_rate': 3.1004854927847716e-05, 'epoch': 37.99} {'loss': 0.0488, 'learning_rate': 3.1002456248081056e-05, 'epoch': 38.0} {'loss': 0.0515, 'learning_rate': 3.10000575683144e-05, 'epoch': 38.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04853970557451248, 'eval_runtime': 514.5406, 'eval_samples_per_second': 810.228, 'eval_steps_per_second': 101.279, 'epoch': 38.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-3960512 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-3960512/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-3960512/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-3856288] due to args.save_total_limit {'loss': 0.0526, 'learning_rate': 3.099765888854774e-05, 'epoch': 38.0} {'loss': 0.0515, 'learning_rate': 3.0995260208781094e-05, 'epoch': 38.01} {'loss': 0.0508, 'learning_rate': 3.099286152901443e-05, 'epoch': 38.01} {'loss': 0.0494, 'learning_rate': 3.099046284924777e-05, 'epoch': 38.02} {'loss': 0.0498, 'learning_rate': 3.098806416948112e-05, 'epoch': 38.02} {'loss': 0.0505, 'learning_rate': 3.098566548971446e-05, 'epoch': 38.03} {'loss': 0.0494, 'learning_rate': 3.098326680994781e-05, 'epoch': 38.03} {'loss': 0.0511, 'learning_rate': 3.098086813018115e-05, 'epoch': 38.04} {'loss': 0.0503, 'learning_rate': 3.0978469450414496e-05, 'epoch': 38.04} {'loss': 0.0494, 'learning_rate': 3.0976070770647836e-05, 'epoch': 38.05} {'loss': 0.0471, 'learning_rate': 3.097367209088118e-05, 'epoch': 38.05} {'loss': 0.0476, 'learning_rate': 3.097127341111453e-05, 'epoch': 38.06} {'loss': 0.0513, 'learning_rate': 3.096887473134787e-05, 'epoch': 38.06} {'loss': 0.0503, 'learning_rate': 3.096647605158121e-05, 'epoch': 38.07} {'loss': 0.0521, 'learning_rate': 3.096407737181455e-05, 'epoch': 38.07} {'loss': 0.0506, 'learning_rate': 3.09616786920479e-05, 'epoch': 38.08} {'loss': 0.0518, 'learning_rate': 3.0959280012281245e-05, 'epoch': 38.08} {'loss': 0.0529, 'learning_rate': 3.0956881332514584e-05, 'epoch': 38.09} {'loss': 0.0492, 'learning_rate': 3.095448265274793e-05, 'epoch': 38.09} {'loss': 0.0486, 'learning_rate': 3.095208397298127e-05, 'epoch': 38.1} {'loss': 0.0498, 'learning_rate': 3.0949685293214616e-05, 'epoch': 38.1} {'loss': 0.0501, 'learning_rate': 3.094728661344796e-05, 'epoch': 38.11} {'loss': 0.0497, 'learning_rate': 3.094488793368131e-05, 'epoch': 38.11} {'loss': 0.0506, 'learning_rate': 3.094248925391465e-05, 'epoch': 38.12} {'loss': 0.0517, 'learning_rate': 3.0940090574147986e-05, 'epoch': 38.12} {'loss': 0.0499, 'learning_rate': 3.093769189438133e-05, 'epoch': 38.12} {'loss': 0.0496, 'learning_rate': 3.093529321461468e-05, 'epoch': 38.13} {'loss': 0.0496, 'learning_rate': 3.0932894534848025e-05, 'epoch': 38.13} {'loss': 0.0535, 'learning_rate': 3.0930495855081364e-05, 'epoch': 38.14} {'loss': 0.0507, 'learning_rate': 3.092809717531471e-05, 'epoch': 38.14} {'loss': 0.0528, 'learning_rate': 3.092569849554805e-05, 'epoch': 38.15} {'loss': 0.0505, 'learning_rate': 3.0923299815781395e-05, 'epoch': 38.15} {'loss': 0.0518, 'learning_rate': 3.092090113601474e-05, 'epoch': 38.16} {'loss': 0.0536, 'learning_rate': 3.091850245624808e-05, 'epoch': 38.16} {'loss': 0.0495, 'learning_rate': 3.091610377648143e-05, 'epoch': 38.17} {'loss': 0.0506, 'learning_rate': 3.0913705096714766e-05, 'epoch': 38.17} {'loss': 0.0489, 'learning_rate': 3.091130641694812e-05, 'epoch': 38.18} {'loss': 0.0502, 'learning_rate': 3.090890773718146e-05, 'epoch': 38.18} {'loss': 0.0488, 'learning_rate': 3.09065090574148e-05, 'epoch': 38.19} {'loss': 0.0494, 'learning_rate': 3.0904110377648144e-05, 'epoch': 38.19} {'loss': 0.0483, 'learning_rate': 3.090171169788148e-05, 'epoch': 38.2} {'loss': 0.0484, 'learning_rate': 3.0899313018114836e-05, 'epoch': 38.2} {'loss': 0.0507, 'learning_rate': 3.0896914338348175e-05, 'epoch': 38.21} {'loss': 0.0496, 'learning_rate': 3.089451565858152e-05, 'epoch': 38.21} {'loss': 0.0507, 'learning_rate': 3.089211697881486e-05, 'epoch': 38.22} {'loss': 0.0502, 'learning_rate': 3.088971829904821e-05, 'epoch': 38.22} {'loss': 0.0501, 'learning_rate': 3.0887319619281546e-05, 'epoch': 38.23} {'loss': 0.0482, 'learning_rate': 3.088492093951489e-05, 'epoch': 38.23} {'loss': 0.051, 'learning_rate': 3.088252225974824e-05, 'epoch': 38.23} {'loss': 0.0516, 'learning_rate': 3.088012357998158e-05, 'epoch': 38.24} {'loss': 0.05, 'learning_rate': 3.0877724900214924e-05, 'epoch': 38.24} {'loss': 0.0499, 'learning_rate': 3.087532622044826e-05, 'epoch': 38.25} {'loss': 0.0506, 'learning_rate': 3.087292754068161e-05, 'epoch': 38.25} {'loss': 0.052, 'learning_rate': 3.0870528860914955e-05, 'epoch': 38.26} {'loss': 0.0501, 'learning_rate': 3.0868130181148295e-05, 'epoch': 38.26} {'loss': 0.049, 'learning_rate': 3.086573150138164e-05, 'epoch': 38.27} {'loss': 0.0519, 'learning_rate': 3.086333282161498e-05, 'epoch': 38.27} {'loss': 0.052, 'learning_rate': 3.086093414184833e-05, 'epoch': 38.28} {'loss': 0.0475, 'learning_rate': 3.085853546208167e-05, 'epoch': 38.28} {'loss': 0.0525, 'learning_rate': 3.085613678231502e-05, 'epoch': 38.29} {'loss': 0.0506, 'learning_rate': 3.085373810254836e-05, 'epoch': 38.29} {'loss': 0.0532, 'learning_rate': 3.08513394227817e-05, 'epoch': 38.3} {'loss': 0.0491, 'learning_rate': 3.084894074301505e-05, 'epoch': 38.3} {'loss': 0.0513, 'learning_rate': 3.084654206324839e-05, 'epoch': 38.31} {'loss': 0.0507, 'learning_rate': 3.0844143383481735e-05, 'epoch': 38.31} {'loss': 0.0485, 'learning_rate': 3.0841744703715074e-05, 'epoch': 38.32} {'loss': 0.0524, 'learning_rate': 3.083934602394842e-05, 'epoch': 38.32} {'loss': 0.0509, 'learning_rate': 3.0836947344181767e-05, 'epoch': 38.33} {'loss': 0.0493, 'learning_rate': 3.0834548664415106e-05, 'epoch': 38.33} {'loss': 0.0518, 'learning_rate': 3.083214998464845e-05, 'epoch': 38.34} {'loss': 0.0511, 'learning_rate': 3.082975130488179e-05, 'epoch': 38.34} {'loss': 0.051, 'learning_rate': 3.082735262511514e-05, 'epoch': 38.35} {'loss': 0.0476, 'learning_rate': 3.0824953945348484e-05, 'epoch': 38.35} {'loss': 0.0525, 'learning_rate': 3.082255526558182e-05, 'epoch': 38.35} {'loss': 0.051, 'learning_rate': 3.082015658581517e-05, 'epoch': 38.36} {'loss': 0.0506, 'learning_rate': 3.081775790604851e-05, 'epoch': 38.36} {'loss': 0.0496, 'learning_rate': 3.0815359226281854e-05, 'epoch': 38.37} {'loss': 0.0518, 'learning_rate': 3.08129605465152e-05, 'epoch': 38.37} {'loss': 0.0475, 'learning_rate': 3.0810561866748547e-05, 'epoch': 38.38} {'loss': 0.0493, 'learning_rate': 3.0808163186981886e-05, 'epoch': 38.38} {'loss': 0.0529, 'learning_rate': 3.080576450721523e-05, 'epoch': 38.39} {'loss': 0.0489, 'learning_rate': 3.080336582744857e-05, 'epoch': 38.39} {'loss': 0.0517, 'learning_rate': 3.080096714768192e-05, 'epoch': 38.4} {'loss': 0.0499, 'learning_rate': 3.0798568467915263e-05, 'epoch': 38.4} {'loss': 0.0511, 'learning_rate': 3.07961697881486e-05, 'epoch': 38.41} {'loss': 0.0506, 'learning_rate': 3.079377110838195e-05, 'epoch': 38.41} {'loss': 0.0509, 'learning_rate': 3.079137242861529e-05, 'epoch': 38.42} {'loss': 0.0511, 'learning_rate': 3.0788973748848634e-05, 'epoch': 38.42} {'loss': 0.0502, 'learning_rate': 3.078657506908198e-05, 'epoch': 38.43} {'loss': 0.051, 'learning_rate': 3.078417638931532e-05, 'epoch': 38.43} {'loss': 0.0508, 'learning_rate': 3.0781777709548666e-05, 'epoch': 38.44} {'loss': 0.0516, 'learning_rate': 3.0779379029782005e-05, 'epoch': 38.44} {'loss': 0.0507, 'learning_rate': 3.077698035001536e-05, 'epoch': 38.45} {'loss': 0.0522, 'learning_rate': 3.07745816702487e-05, 'epoch': 38.45} {'loss': 0.0495, 'learning_rate': 3.077218299048204e-05, 'epoch': 38.46} {'loss': 0.0487, 'learning_rate': 3.076978431071538e-05, 'epoch': 38.46} {'loss': 0.0493, 'learning_rate': 3.076738563094872e-05, 'epoch': 38.47} {'loss': 0.0496, 'learning_rate': 3.0764986951182075e-05, 'epoch': 38.47} {'loss': 0.0518, 'learning_rate': 3.0762588271415414e-05, 'epoch': 38.47} {'loss': 0.0534, 'learning_rate': 3.076018959164876e-05, 'epoch': 38.48} {'loss': 0.0498, 'learning_rate': 3.07577909118821e-05, 'epoch': 38.48} {'loss': 0.0497, 'learning_rate': 3.0755392232115446e-05, 'epoch': 38.49} {'loss': 0.0505, 'learning_rate': 3.075299355234879e-05, 'epoch': 38.49} {'loss': 0.0503, 'learning_rate': 3.075059487258213e-05, 'epoch': 38.5} {'loss': 0.0498, 'learning_rate': 3.074819619281548e-05, 'epoch': 38.5} {'loss': 0.0511, 'learning_rate': 3.0745797513048816e-05, 'epoch': 38.51} {'loss': 0.0496, 'learning_rate': 3.074339883328216e-05, 'epoch': 38.51} {'loss': 0.0487, 'learning_rate': 3.074100015351551e-05, 'epoch': 38.52} {'loss': 0.0498, 'learning_rate': 3.0738601473748855e-05, 'epoch': 38.52} {'loss': 0.0496, 'learning_rate': 3.0736202793982194e-05, 'epoch': 38.53} {'loss': 0.0494, 'learning_rate': 3.073380411421553e-05, 'epoch': 38.53} {'loss': 0.0515, 'learning_rate': 3.073140543444888e-05, 'epoch': 38.54} {'loss': 0.0504, 'learning_rate': 3.0729006754682226e-05, 'epoch': 38.54} {'loss': 0.0495, 'learning_rate': 3.072660807491557e-05, 'epoch': 38.55} {'loss': 0.0512, 'learning_rate': 3.072420939514891e-05, 'epoch': 38.55} {'loss': 0.048, 'learning_rate': 3.072181071538226e-05, 'epoch': 38.56} {'loss': 0.0494, 'learning_rate': 3.0719412035615596e-05, 'epoch': 38.56} {'loss': 0.0497, 'learning_rate': 3.071701335584894e-05, 'epoch': 38.57} {'loss': 0.0503, 'learning_rate': 3.071461467608229e-05, 'epoch': 38.57} {'loss': 0.0488, 'learning_rate': 3.071221599631563e-05, 'epoch': 38.58} {'loss': 0.0518, 'learning_rate': 3.0709817316548974e-05, 'epoch': 38.58} {'loss': 0.0507, 'learning_rate': 3.070741863678231e-05, 'epoch': 38.59} {'loss': 0.0494, 'learning_rate': 3.070501995701566e-05, 'epoch': 38.59} {'loss': 0.0525, 'learning_rate': 3.0702621277249005e-05, 'epoch': 38.59} {'loss': 0.0512, 'learning_rate': 3.0700222597482345e-05, 'epoch': 38.6} {'loss': 0.0499, 'learning_rate': 3.069782391771569e-05, 'epoch': 38.6} {'loss': 0.0494, 'learning_rate': 3.069542523794903e-05, 'epoch': 38.61} {'loss': 0.0506, 'learning_rate': 3.069302655818238e-05, 'epoch': 38.61} {'loss': 0.0501, 'learning_rate': 3.069062787841572e-05, 'epoch': 38.62} {'loss': 0.0478, 'learning_rate': 3.068822919864907e-05, 'epoch': 38.62} {'loss': 0.0518, 'learning_rate': 3.068583051888241e-05, 'epoch': 38.63} {'loss': 0.051, 'learning_rate': 3.0683431839115754e-05, 'epoch': 38.63} {'loss': 0.0526, 'learning_rate': 3.06810331593491e-05, 'epoch': 38.64} {'loss': 0.0513, 'learning_rate': 3.067863447958244e-05, 'epoch': 38.64} {'loss': 0.0504, 'learning_rate': 3.0676235799815785e-05, 'epoch': 38.65} {'loss': 0.0504, 'learning_rate': 3.0673837120049125e-05, 'epoch': 38.65} {'loss': 0.049, 'learning_rate': 3.067143844028247e-05, 'epoch': 38.66} {'loss': 0.0511, 'learning_rate': 3.066903976051581e-05, 'epoch': 38.66} {'loss': 0.0521, 'learning_rate': 3.0666641080749156e-05, 'epoch': 38.67} {'loss': 0.0512, 'learning_rate': 3.06642424009825e-05, 'epoch': 38.67} {'loss': 0.0483, 'learning_rate': 3.066184372121584e-05, 'epoch': 38.68} {'loss': 0.0493, 'learning_rate': 3.065944504144919e-05, 'epoch': 38.68} {'loss': 0.0501, 'learning_rate': 3.065704636168253e-05, 'epoch': 38.69} {'loss': 0.0499, 'learning_rate': 3.065464768191588e-05, 'epoch': 38.69} {'loss': 0.0502, 'learning_rate': 3.065224900214922e-05, 'epoch': 38.7} {'loss': 0.0526, 'learning_rate': 3.064985032238256e-05, 'epoch': 38.7} {'loss': 0.0518, 'learning_rate': 3.0647451642615905e-05, 'epoch': 38.71} {'loss': 0.0495, 'learning_rate': 3.0645052962849244e-05, 'epoch': 38.71} {'loss': 0.0497, 'learning_rate': 3.06426542830826e-05, 'epoch': 38.71} {'loss': 0.0487, 'learning_rate': 3.0640255603315936e-05, 'epoch': 38.72} {'loss': 0.0505, 'learning_rate': 3.063785692354928e-05, 'epoch': 38.72} {'loss': 0.0517, 'learning_rate': 3.063545824378262e-05, 'epoch': 38.73} {'loss': 0.0511, 'learning_rate': 3.063305956401597e-05, 'epoch': 38.73} {'loss': 0.0492, 'learning_rate': 3.0630660884249314e-05, 'epoch': 38.74} {'loss': 0.0519, 'learning_rate': 3.062826220448265e-05, 'epoch': 38.74} {'loss': 0.053, 'learning_rate': 3.0625863524716e-05, 'epoch': 38.75} {'loss': 0.0505, 'learning_rate': 3.062346484494934e-05, 'epoch': 38.75} {'loss': 0.0493, 'learning_rate': 3.0621066165182684e-05, 'epoch': 38.76} {'loss': 0.0501, 'learning_rate': 3.061866748541603e-05, 'epoch': 38.76} {'loss': 0.0501, 'learning_rate': 3.061626880564937e-05, 'epoch': 38.77} {'loss': 0.0512, 'learning_rate': 3.0613870125882716e-05, 'epoch': 38.77} {'loss': 0.049, 'learning_rate': 3.0611471446116055e-05, 'epoch': 38.78} {'loss': 0.0506, 'learning_rate': 3.06090727663494e-05, 'epoch': 38.78} {'loss': 0.0506, 'learning_rate': 3.060667408658275e-05, 'epoch': 38.79} {'loss': 0.0523, 'learning_rate': 3.0604275406816094e-05, 'epoch': 38.79} {'loss': 0.0505, 'learning_rate': 3.060187672704943e-05, 'epoch': 38.8} {'loss': 0.0515, 'learning_rate': 3.059947804728278e-05, 'epoch': 38.8} {'loss': 0.0514, 'learning_rate': 3.059707936751612e-05, 'epoch': 38.81} {'loss': 0.0544, 'learning_rate': 3.0594680687749464e-05, 'epoch': 38.81} {'loss': 0.0505, 'learning_rate': 3.059228200798281e-05, 'epoch': 38.82} {'loss': 0.051, 'learning_rate': 3.058988332821615e-05, 'epoch': 38.82} {'loss': 0.0511, 'learning_rate': 3.0587484648449496e-05, 'epoch': 38.83} {'loss': 0.054, 'learning_rate': 3.0585085968682835e-05, 'epoch': 38.83} {'loss': 0.0494, 'learning_rate': 3.058268728891618e-05, 'epoch': 38.83} {'loss': 0.0493, 'learning_rate': 3.058028860914953e-05, 'epoch': 38.84} {'loss': 0.051, 'learning_rate': 3.057788992938287e-05, 'epoch': 38.84} {'loss': 0.0518, 'learning_rate': 3.057549124961621e-05, 'epoch': 38.85} {'loss': 0.05, 'learning_rate': 3.057309256984955e-05, 'epoch': 38.85} {'loss': 0.049, 'learning_rate': 3.0570693890082905e-05, 'epoch': 38.86} {'loss': 0.0498, 'learning_rate': 3.0568295210316244e-05, 'epoch': 38.86} {'loss': 0.0476, 'learning_rate': 3.056589653054959e-05, 'epoch': 38.87} {'loss': 0.0476, 'learning_rate': 3.056349785078293e-05, 'epoch': 38.87} {'loss': 0.0498, 'learning_rate': 3.056109917101627e-05, 'epoch': 38.88} {'loss': 0.0517, 'learning_rate': 3.055870049124962e-05, 'epoch': 38.88} {'loss': 0.0504, 'learning_rate': 3.055630181148296e-05, 'epoch': 38.89} {'loss': 0.0503, 'learning_rate': 3.055390313171631e-05, 'epoch': 38.89} {'loss': 0.0509, 'learning_rate': 3.0551504451949647e-05, 'epoch': 38.9} {'loss': 0.0515, 'learning_rate': 3.054910577218299e-05, 'epoch': 38.9} {'loss': 0.0501, 'learning_rate': 3.054670709241634e-05, 'epoch': 38.91} {'loss': 0.0515, 'learning_rate': 3.054430841264968e-05, 'epoch': 38.91} {'loss': 0.0507, 'learning_rate': 3.0541909732883024e-05, 'epoch': 38.92} {'loss': 0.0505, 'learning_rate': 3.0539511053116363e-05, 'epoch': 38.92} {'loss': 0.0509, 'learning_rate': 3.053711237334971e-05, 'epoch': 38.93} {'loss': 0.0514, 'learning_rate': 3.0534713693583056e-05, 'epoch': 38.93} {'loss': 0.0498, 'learning_rate': 3.0532315013816395e-05, 'epoch': 38.94} {'loss': 0.0512, 'learning_rate': 3.052991633404974e-05, 'epoch': 38.94} {'loss': 0.0517, 'learning_rate': 3.052751765428308e-05, 'epoch': 38.94} {'loss': 0.0494, 'learning_rate': 3.0525118974516426e-05, 'epoch': 38.95} {'loss': 0.0521, 'learning_rate': 3.052272029474977e-05, 'epoch': 38.95} {'loss': 0.0494, 'learning_rate': 3.052032161498312e-05, 'epoch': 38.96} {'loss': 0.0497, 'learning_rate': 3.051792293521646e-05, 'epoch': 38.96} {'loss': 0.05, 'learning_rate': 3.05155242554498e-05, 'epoch': 38.97} {'loss': 0.0493, 'learning_rate': 3.0513125575683143e-05, 'epoch': 38.97} {'loss': 0.0521, 'learning_rate': 3.0510726895916493e-05, 'epoch': 38.98} {'loss': 0.0524, 'learning_rate': 3.0508328216149836e-05, 'epoch': 38.98} {'loss': 0.0491, 'learning_rate': 3.0505929536383175e-05, 'epoch': 38.99} {'loss': 0.0502, 'learning_rate': 3.0503530856616518e-05, 'epoch': 38.99} {'loss': 0.0477, 'learning_rate': 3.050113217684986e-05, 'epoch': 39.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.047675032168626785, 'eval_runtime': 526.0072, 'eval_samples_per_second': 792.565, 'eval_steps_per_second': 99.071, 'epoch': 39.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-4064736 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-4064736/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-4064736/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-3960512] due to args.save_total_limit {'loss': 0.0497, 'learning_rate': 3.049873349708321e-05, 'epoch': 39.0} {'loss': 0.0522, 'learning_rate': 3.0496334817316552e-05, 'epoch': 39.01} {'loss': 0.0516, 'learning_rate': 3.0493936137549895e-05, 'epoch': 39.01} {'loss': 0.0498, 'learning_rate': 3.0491537457783238e-05, 'epoch': 39.02} {'loss': 0.0514, 'learning_rate': 3.048913877801658e-05, 'epoch': 39.02} {'loss': 0.0503, 'learning_rate': 3.0486740098249927e-05, 'epoch': 39.03} {'loss': 0.0511, 'learning_rate': 3.048434141848327e-05, 'epoch': 39.03} {'loss': 0.0499, 'learning_rate': 3.0481942738716612e-05, 'epoch': 39.04} {'loss': 0.0502, 'learning_rate': 3.0479544058949955e-05, 'epoch': 39.04} {'loss': 0.0515, 'learning_rate': 3.0477145379183297e-05, 'epoch': 39.05} {'loss': 0.0504, 'learning_rate': 3.0474746699416647e-05, 'epoch': 39.05} {'loss': 0.0513, 'learning_rate': 3.0472348019649986e-05, 'epoch': 39.06} {'loss': 0.0513, 'learning_rate': 3.046994933988333e-05, 'epoch': 39.06} {'loss': 0.0483, 'learning_rate': 3.046755066011667e-05, 'epoch': 39.06} {'loss': 0.0518, 'learning_rate': 3.0465151980350014e-05, 'epoch': 39.07} {'loss': 0.0483, 'learning_rate': 3.0462753300583357e-05, 'epoch': 39.07} {'loss': 0.052, 'learning_rate': 3.0460354620816707e-05, 'epoch': 39.08} {'loss': 0.0502, 'learning_rate': 3.045795594105005e-05, 'epoch': 39.08} {'loss': 0.0481, 'learning_rate': 3.0455557261283392e-05, 'epoch': 39.09} {'loss': 0.0518, 'learning_rate': 3.0453158581516735e-05, 'epoch': 39.09} {'loss': 0.0484, 'learning_rate': 3.0450759901750074e-05, 'epoch': 39.1} {'loss': 0.0513, 'learning_rate': 3.0448361221983423e-05, 'epoch': 39.1} {'loss': 0.0474, 'learning_rate': 3.0445962542216766e-05, 'epoch': 39.11} {'loss': 0.051, 'learning_rate': 3.044356386245011e-05, 'epoch': 39.11} {'loss': 0.0502, 'learning_rate': 3.044116518268345e-05, 'epoch': 39.12} {'loss': 0.0515, 'learning_rate': 3.0438766502916794e-05, 'epoch': 39.12} {'loss': 0.0485, 'learning_rate': 3.043636782315014e-05, 'epoch': 39.13} {'loss': 0.048, 'learning_rate': 3.0433969143383483e-05, 'epoch': 39.13} {'loss': 0.0518, 'learning_rate': 3.0431570463616826e-05, 'epoch': 39.14} {'loss': 0.0492, 'learning_rate': 3.042917178385017e-05, 'epoch': 39.14} {'loss': 0.0504, 'learning_rate': 3.042677310408351e-05, 'epoch': 39.15} {'loss': 0.0497, 'learning_rate': 3.042437442431686e-05, 'epoch': 39.15} {'loss': 0.0533, 'learning_rate': 3.0421975744550203e-05, 'epoch': 39.16} {'loss': 0.0502, 'learning_rate': 3.0419577064783543e-05, 'epoch': 39.16} {'loss': 0.0503, 'learning_rate': 3.0417178385016885e-05, 'epoch': 39.17} {'loss': 0.0485, 'learning_rate': 3.0414779705250228e-05, 'epoch': 39.17} {'loss': 0.0525, 'learning_rate': 3.0412381025483578e-05, 'epoch': 39.18} {'loss': 0.0487, 'learning_rate': 3.040998234571692e-05, 'epoch': 39.18} {'loss': 0.0501, 'learning_rate': 3.0407583665950263e-05, 'epoch': 39.18} {'loss': 0.0478, 'learning_rate': 3.0405184986183606e-05, 'epoch': 39.19} {'loss': 0.0484, 'learning_rate': 3.040278630641695e-05, 'epoch': 39.19} {'loss': 0.053, 'learning_rate': 3.0400387626650294e-05, 'epoch': 39.2} {'loss': 0.0499, 'learning_rate': 3.0397988946883637e-05, 'epoch': 39.2} {'loss': 0.0506, 'learning_rate': 3.039559026711698e-05, 'epoch': 39.21} {'loss': 0.0486, 'learning_rate': 3.0393191587350323e-05, 'epoch': 39.21} {'loss': 0.0493, 'learning_rate': 3.0390792907583665e-05, 'epoch': 39.22} {'loss': 0.05, 'learning_rate': 3.0388394227817015e-05, 'epoch': 39.22} {'loss': 0.0514, 'learning_rate': 3.0385995548050354e-05, 'epoch': 39.23} {'loss': 0.0541, 'learning_rate': 3.0383596868283697e-05, 'epoch': 39.23} {'loss': 0.0501, 'learning_rate': 3.038119818851704e-05, 'epoch': 39.24} {'loss': 0.0499, 'learning_rate': 3.0378799508750382e-05, 'epoch': 39.24} {'loss': 0.053, 'learning_rate': 3.037640082898373e-05, 'epoch': 39.25} {'loss': 0.0507, 'learning_rate': 3.0374002149217074e-05, 'epoch': 39.25} {'loss': 0.0496, 'learning_rate': 3.0371603469450417e-05, 'epoch': 39.26} {'loss': 0.0502, 'learning_rate': 3.036920478968376e-05, 'epoch': 39.26} {'loss': 0.0487, 'learning_rate': 3.0366806109917102e-05, 'epoch': 39.27} {'loss': 0.0487, 'learning_rate': 3.036440743015045e-05, 'epoch': 39.27} {'loss': 0.0515, 'learning_rate': 3.036200875038379e-05, 'epoch': 39.28} {'loss': 0.0504, 'learning_rate': 3.0359610070617134e-05, 'epoch': 39.28} {'loss': 0.051, 'learning_rate': 3.0357211390850477e-05, 'epoch': 39.29} {'loss': 0.0513, 'learning_rate': 3.035481271108382e-05, 'epoch': 39.29} {'loss': 0.0517, 'learning_rate': 3.0352414031317165e-05, 'epoch': 39.3} {'loss': 0.0488, 'learning_rate': 3.0350015351550508e-05, 'epoch': 39.3} {'loss': 0.0487, 'learning_rate': 3.034761667178385e-05, 'epoch': 39.3} {'loss': 0.0493, 'learning_rate': 3.0345217992017194e-05, 'epoch': 39.31} {'loss': 0.0496, 'learning_rate': 3.0342819312250536e-05, 'epoch': 39.31} {'loss': 0.0502, 'learning_rate': 3.0340420632483886e-05, 'epoch': 39.32} {'loss': 0.0483, 'learning_rate': 3.033802195271723e-05, 'epoch': 39.32} {'loss': 0.0509, 'learning_rate': 3.033562327295057e-05, 'epoch': 39.33} {'loss': 0.0517, 'learning_rate': 3.033322459318391e-05, 'epoch': 39.33} {'loss': 0.0507, 'learning_rate': 3.0330825913417253e-05, 'epoch': 39.34} {'loss': 0.0483, 'learning_rate': 3.0328427233650603e-05, 'epoch': 39.34} {'loss': 0.0494, 'learning_rate': 3.0326028553883945e-05, 'epoch': 39.35} {'loss': 0.0531, 'learning_rate': 3.0323629874117288e-05, 'epoch': 39.35} {'loss': 0.0496, 'learning_rate': 3.032123119435063e-05, 'epoch': 39.36} {'loss': 0.0485, 'learning_rate': 3.0318832514583973e-05, 'epoch': 39.36} {'loss': 0.0502, 'learning_rate': 3.031643383481732e-05, 'epoch': 39.37} {'loss': 0.0508, 'learning_rate': 3.0314035155050662e-05, 'epoch': 39.37} {'loss': 0.048, 'learning_rate': 3.0311636475284005e-05, 'epoch': 39.38} {'loss': 0.0511, 'learning_rate': 3.0309237795517348e-05, 'epoch': 39.38} {'loss': 0.0501, 'learning_rate': 3.030683911575069e-05, 'epoch': 39.39} {'loss': 0.0496, 'learning_rate': 3.030444043598404e-05, 'epoch': 39.39} {'loss': 0.048, 'learning_rate': 3.030204175621738e-05, 'epoch': 39.4} {'loss': 0.0486, 'learning_rate': 3.0299643076450722e-05, 'epoch': 39.4} {'loss': 0.052, 'learning_rate': 3.0297244396684065e-05, 'epoch': 39.41} {'loss': 0.049, 'learning_rate': 3.0294845716917407e-05, 'epoch': 39.41} {'loss': 0.0502, 'learning_rate': 3.0292447037150757e-05, 'epoch': 39.42} {'loss': 0.0497, 'learning_rate': 3.02900483573841e-05, 'epoch': 39.42} {'loss': 0.0464, 'learning_rate': 3.0287649677617442e-05, 'epoch': 39.42} {'loss': 0.0509, 'learning_rate': 3.0285250997850785e-05, 'epoch': 39.43} {'loss': 0.0527, 'learning_rate': 3.0282852318084128e-05, 'epoch': 39.43} {'loss': 0.0482, 'learning_rate': 3.0280453638317474e-05, 'epoch': 39.44} {'loss': 0.0523, 'learning_rate': 3.0278054958550816e-05, 'epoch': 39.44} {'loss': 0.0517, 'learning_rate': 3.027565627878416e-05, 'epoch': 39.45} {'loss': 0.048, 'learning_rate': 3.0273257599017502e-05, 'epoch': 39.45} {'loss': 0.0492, 'learning_rate': 3.0270858919250844e-05, 'epoch': 39.46} {'loss': 0.0516, 'learning_rate': 3.026846023948419e-05, 'epoch': 39.46} {'loss': 0.0493, 'learning_rate': 3.0266061559717533e-05, 'epoch': 39.47} {'loss': 0.0521, 'learning_rate': 3.0263662879950876e-05, 'epoch': 39.47} {'loss': 0.0494, 'learning_rate': 3.026126420018422e-05, 'epoch': 39.48} {'loss': 0.0506, 'learning_rate': 3.025886552041756e-05, 'epoch': 39.48} {'loss': 0.0479, 'learning_rate': 3.0256466840650904e-05, 'epoch': 39.49} {'loss': 0.0494, 'learning_rate': 3.0254068160884254e-05, 'epoch': 39.49} {'loss': 0.05, 'learning_rate': 3.0251669481117596e-05, 'epoch': 39.5} {'loss': 0.0505, 'learning_rate': 3.024927080135094e-05, 'epoch': 39.5} {'loss': 0.0503, 'learning_rate': 3.0246872121584278e-05, 'epoch': 39.51} {'loss': 0.0503, 'learning_rate': 3.024447344181762e-05, 'epoch': 39.51} {'loss': 0.0486, 'learning_rate': 3.024207476205097e-05, 'epoch': 39.52} {'loss': 0.0497, 'learning_rate': 3.0239676082284313e-05, 'epoch': 39.52} {'loss': 0.0492, 'learning_rate': 3.0237277402517656e-05, 'epoch': 39.53} {'loss': 0.0491, 'learning_rate': 3.0234878722751e-05, 'epoch': 39.53} {'loss': 0.0493, 'learning_rate': 3.023248004298434e-05, 'epoch': 39.54} {'loss': 0.0497, 'learning_rate': 3.0230081363217687e-05, 'epoch': 39.54} {'loss': 0.0499, 'learning_rate': 3.022768268345103e-05, 'epoch': 39.54} {'loss': 0.051, 'learning_rate': 3.0225284003684373e-05, 'epoch': 39.55} {'loss': 0.0487, 'learning_rate': 3.0222885323917715e-05, 'epoch': 39.55} {'loss': 0.0502, 'learning_rate': 3.0220486644151058e-05, 'epoch': 39.56} {'loss': 0.0485, 'learning_rate': 3.0218087964384408e-05, 'epoch': 39.56} {'loss': 0.0491, 'learning_rate': 3.0215689284617747e-05, 'epoch': 39.57} {'loss': 0.0505, 'learning_rate': 3.021329060485109e-05, 'epoch': 39.57} {'loss': 0.0498, 'learning_rate': 3.0210891925084432e-05, 'epoch': 39.58} {'loss': 0.05, 'learning_rate': 3.0208493245317775e-05, 'epoch': 39.58} {'loss': 0.0499, 'learning_rate': 3.0206094565551125e-05, 'epoch': 39.59} {'loss': 0.0492, 'learning_rate': 3.0203695885784467e-05, 'epoch': 39.59} {'loss': 0.05, 'learning_rate': 3.020129720601781e-05, 'epoch': 39.6} {'loss': 0.0494, 'learning_rate': 3.0198898526251153e-05, 'epoch': 39.6} {'loss': 0.0512, 'learning_rate': 3.0196499846484495e-05, 'epoch': 39.61} {'loss': 0.0488, 'learning_rate': 3.019410116671784e-05, 'epoch': 39.61} {'loss': 0.0491, 'learning_rate': 3.0191702486951184e-05, 'epoch': 39.62} {'loss': 0.0486, 'learning_rate': 3.0189303807184527e-05, 'epoch': 39.62} {'loss': 0.0482, 'learning_rate': 3.018690512741787e-05, 'epoch': 39.63} {'loss': 0.0511, 'learning_rate': 3.0184506447651212e-05, 'epoch': 39.63} {'loss': 0.0504, 'learning_rate': 3.018210776788456e-05, 'epoch': 39.64} {'loss': 0.0523, 'learning_rate': 3.01797090881179e-05, 'epoch': 39.64} {'loss': 0.051, 'learning_rate': 3.0177310408351244e-05, 'epoch': 39.65} {'loss': 0.0493, 'learning_rate': 3.0174911728584586e-05, 'epoch': 39.65} {'loss': 0.0516, 'learning_rate': 3.017251304881793e-05, 'epoch': 39.65} {'loss': 0.0498, 'learning_rate': 3.017011436905128e-05, 'epoch': 39.66} {'loss': 0.0502, 'learning_rate': 3.016771568928462e-05, 'epoch': 39.66} {'loss': 0.0496, 'learning_rate': 3.0165317009517964e-05, 'epoch': 39.67} {'loss': 0.0484, 'learning_rate': 3.0162918329751307e-05, 'epoch': 39.67} {'loss': 0.0486, 'learning_rate': 3.0160519649984646e-05, 'epoch': 39.68} {'loss': 0.05, 'learning_rate': 3.0158120970217996e-05, 'epoch': 39.68} {'loss': 0.0501, 'learning_rate': 3.0155722290451338e-05, 'epoch': 39.69} {'loss': 0.05, 'learning_rate': 3.015332361068468e-05, 'epoch': 39.69} {'loss': 0.0487, 'learning_rate': 3.0150924930918024e-05, 'epoch': 39.7} {'loss': 0.0517, 'learning_rate': 3.0148526251151366e-05, 'epoch': 39.7} {'loss': 0.051, 'learning_rate': 3.0146127571384712e-05, 'epoch': 39.71} {'loss': 0.0494, 'learning_rate': 3.0143728891618055e-05, 'epoch': 39.71} {'loss': 0.0524, 'learning_rate': 3.0141330211851398e-05, 'epoch': 39.72} {'loss': 0.0503, 'learning_rate': 3.013893153208474e-05, 'epoch': 39.72} {'loss': 0.0492, 'learning_rate': 3.0136532852318083e-05, 'epoch': 39.73} {'loss': 0.0509, 'learning_rate': 3.0134134172551433e-05, 'epoch': 39.73} {'loss': 0.0515, 'learning_rate': 3.0131735492784775e-05, 'epoch': 39.74} {'loss': 0.0494, 'learning_rate': 3.0129336813018115e-05, 'epoch': 39.74} {'loss': 0.0488, 'learning_rate': 3.0126938133251457e-05, 'epoch': 39.75} {'loss': 0.0527, 'learning_rate': 3.01245394534848e-05, 'epoch': 39.75} {'loss': 0.05, 'learning_rate': 3.012214077371815e-05, 'epoch': 39.76} {'loss': 0.05, 'learning_rate': 3.0119742093951492e-05, 'epoch': 39.76} {'loss': 0.0501, 'learning_rate': 3.0117343414184835e-05, 'epoch': 39.77} {'loss': 0.0493, 'learning_rate': 3.0114944734418178e-05, 'epoch': 39.77} {'loss': 0.0502, 'learning_rate': 3.011254605465152e-05, 'epoch': 39.77} {'loss': 0.0534, 'learning_rate': 3.0110147374884867e-05, 'epoch': 39.78} {'loss': 0.0479, 'learning_rate': 3.010774869511821e-05, 'epoch': 39.78} {'loss': 0.05, 'learning_rate': 3.0105350015351552e-05, 'epoch': 39.79} {'loss': 0.0488, 'learning_rate': 3.0102951335584895e-05, 'epoch': 39.79} {'loss': 0.0484, 'learning_rate': 3.0100552655818237e-05, 'epoch': 39.8} {'loss': 0.0484, 'learning_rate': 3.0098153976051583e-05, 'epoch': 39.8} {'loss': 0.0511, 'learning_rate': 3.0095755296284926e-05, 'epoch': 39.81} {'loss': 0.047, 'learning_rate': 3.009335661651827e-05, 'epoch': 39.81} {'loss': 0.0504, 'learning_rate': 3.009095793675161e-05, 'epoch': 39.82} {'loss': 0.0513, 'learning_rate': 3.0088559256984954e-05, 'epoch': 39.82} {'loss': 0.0496, 'learning_rate': 3.0086160577218304e-05, 'epoch': 39.83} {'loss': 0.051, 'learning_rate': 3.0083761897451646e-05, 'epoch': 39.83} {'loss': 0.0504, 'learning_rate': 3.008136321768499e-05, 'epoch': 39.84} {'loss': 0.0489, 'learning_rate': 3.0078964537918332e-05, 'epoch': 39.84} {'loss': 0.0499, 'learning_rate': 3.0076565858151675e-05, 'epoch': 39.85} {'loss': 0.0483, 'learning_rate': 3.007416717838502e-05, 'epoch': 39.85} {'loss': 0.0506, 'learning_rate': 3.0071768498618363e-05, 'epoch': 39.86} {'loss': 0.0514, 'learning_rate': 3.0069369818851706e-05, 'epoch': 39.86} {'loss': 0.0501, 'learning_rate': 3.006697113908505e-05, 'epoch': 39.87} {'loss': 0.0518, 'learning_rate': 3.006457245931839e-05, 'epoch': 39.87} {'loss': 0.0505, 'learning_rate': 3.0062173779551738e-05, 'epoch': 39.88} {'loss': 0.05, 'learning_rate': 3.005977509978508e-05, 'epoch': 39.88} {'loss': 0.0489, 'learning_rate': 3.0057376420018423e-05, 'epoch': 39.89} {'loss': 0.0514, 'learning_rate': 3.0054977740251766e-05, 'epoch': 39.89} {'loss': 0.0523, 'learning_rate': 3.005257906048511e-05, 'epoch': 39.89} {'loss': 0.0494, 'learning_rate': 3.0050180380718458e-05, 'epoch': 39.9} {'loss': 0.0493, 'learning_rate': 3.00477817009518e-05, 'epoch': 39.9} {'loss': 0.0476, 'learning_rate': 3.0045383021185143e-05, 'epoch': 39.91} {'loss': 0.0507, 'learning_rate': 3.0042984341418483e-05, 'epoch': 39.91} {'loss': 0.0496, 'learning_rate': 3.0040585661651825e-05, 'epoch': 39.92} {'loss': 0.0497, 'learning_rate': 3.0038186981885168e-05, 'epoch': 39.92} {'loss': 0.0489, 'learning_rate': 3.0035788302118517e-05, 'epoch': 39.93} {'loss': 0.0489, 'learning_rate': 3.003338962235186e-05, 'epoch': 39.93} {'loss': 0.052, 'learning_rate': 3.0030990942585203e-05, 'epoch': 39.94} {'loss': 0.051, 'learning_rate': 3.0028592262818546e-05, 'epoch': 39.94} {'loss': 0.0491, 'learning_rate': 3.0026193583051888e-05, 'epoch': 39.95} {'loss': 0.0472, 'learning_rate': 3.0023794903285234e-05, 'epoch': 39.95} {'loss': 0.049, 'learning_rate': 3.0021396223518577e-05, 'epoch': 39.96} {'loss': 0.052, 'learning_rate': 3.001899754375192e-05, 'epoch': 39.96} {'loss': 0.0475, 'learning_rate': 3.0016598863985262e-05, 'epoch': 39.97} {'loss': 0.0482, 'learning_rate': 3.0014200184218605e-05, 'epoch': 39.97} {'loss': 0.0522, 'learning_rate': 3.001180150445195e-05, 'epoch': 39.98} {'loss': 0.0494, 'learning_rate': 3.0009402824685294e-05, 'epoch': 39.98} {'loss': 0.0507, 'learning_rate': 3.0007004144918637e-05, 'epoch': 39.99} {'loss': 0.0515, 'learning_rate': 3.000460546515198e-05, 'epoch': 39.99} {'loss': 0.0504, 'learning_rate': 3.0002206785385322e-05, 'epoch': 40.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04697290062904358, 'eval_runtime': 524.1088, 'eval_samples_per_second': 795.436, 'eval_steps_per_second': 99.43, 'epoch': 40.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-4168960 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-4168960/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-4168960/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-4064736] due to args.save_total_limit {'loss': 0.0487, 'learning_rate': 2.999980810561867e-05, 'epoch': 40.0} {'loss': 0.0517, 'learning_rate': 2.9997409425852014e-05, 'epoch': 40.01} {'loss': 0.0484, 'learning_rate': 2.9995010746085357e-05, 'epoch': 40.01} {'loss': 0.0487, 'learning_rate': 2.99926120663187e-05, 'epoch': 40.01} {'loss': 0.0492, 'learning_rate': 2.9990213386552042e-05, 'epoch': 40.02} {'loss': 0.0493, 'learning_rate': 2.998781470678539e-05, 'epoch': 40.02} {'loss': 0.0479, 'learning_rate': 2.998541602701873e-05, 'epoch': 40.03} {'loss': 0.0491, 'learning_rate': 2.9983017347252074e-05, 'epoch': 40.03} {'loss': 0.0509, 'learning_rate': 2.9980618667485417e-05, 'epoch': 40.04} {'loss': 0.049, 'learning_rate': 2.997821998771876e-05, 'epoch': 40.04} {'loss': 0.0508, 'learning_rate': 2.9975821307952105e-05, 'epoch': 40.05} {'loss': 0.0487, 'learning_rate': 2.9973422628185448e-05, 'epoch': 40.05} {'loss': 0.0501, 'learning_rate': 2.997102394841879e-05, 'epoch': 40.06} {'loss': 0.0511, 'learning_rate': 2.9968625268652133e-05, 'epoch': 40.06} {'loss': 0.0494, 'learning_rate': 2.9966226588885476e-05, 'epoch': 40.07} {'loss': 0.0508, 'learning_rate': 2.9963827909118826e-05, 'epoch': 40.07} {'loss': 0.0513, 'learning_rate': 2.996142922935217e-05, 'epoch': 40.08} {'loss': 0.045, 'learning_rate': 2.995903054958551e-05, 'epoch': 40.08} {'loss': 0.0476, 'learning_rate': 2.995663186981885e-05, 'epoch': 40.09} {'loss': 0.049, 'learning_rate': 2.9954233190052193e-05, 'epoch': 40.09} {'loss': 0.0476, 'learning_rate': 2.9951834510285543e-05, 'epoch': 40.1} {'loss': 0.05, 'learning_rate': 2.9949435830518885e-05, 'epoch': 40.1} {'loss': 0.049, 'learning_rate': 2.9947037150752228e-05, 'epoch': 40.11} {'loss': 0.0508, 'learning_rate': 2.994463847098557e-05, 'epoch': 40.11} {'loss': 0.0492, 'learning_rate': 2.9942239791218913e-05, 'epoch': 40.12} {'loss': 0.0477, 'learning_rate': 2.993984111145226e-05, 'epoch': 40.12} {'loss': 0.0489, 'learning_rate': 2.9937442431685602e-05, 'epoch': 40.13} {'loss': 0.0485, 'learning_rate': 2.9935043751918945e-05, 'epoch': 40.13} {'loss': 0.0481, 'learning_rate': 2.9932645072152288e-05, 'epoch': 40.13} {'loss': 0.0494, 'learning_rate': 2.993024639238563e-05, 'epoch': 40.14} {'loss': 0.0506, 'learning_rate': 2.992784771261898e-05, 'epoch': 40.14} {'loss': 0.0485, 'learning_rate': 2.992544903285232e-05, 'epoch': 40.15} {'loss': 0.0483, 'learning_rate': 2.9923050353085662e-05, 'epoch': 40.15} {'loss': 0.0497, 'learning_rate': 2.9920651673319004e-05, 'epoch': 40.16} {'loss': 0.0484, 'learning_rate': 2.9918252993552347e-05, 'epoch': 40.16} {'loss': 0.0491, 'learning_rate': 2.9915854313785697e-05, 'epoch': 40.17} {'loss': 0.0496, 'learning_rate': 2.991345563401904e-05, 'epoch': 40.17} {'loss': 0.0487, 'learning_rate': 2.9911056954252382e-05, 'epoch': 40.18} {'loss': 0.0477, 'learning_rate': 2.9908658274485725e-05, 'epoch': 40.18} {'loss': 0.0503, 'learning_rate': 2.9906259594719067e-05, 'epoch': 40.19} {'loss': 0.0484, 'learning_rate': 2.9903860914952414e-05, 'epoch': 40.19} {'loss': 0.0503, 'learning_rate': 2.9901462235185756e-05, 'epoch': 40.2} {'loss': 0.0501, 'learning_rate': 2.98990635554191e-05, 'epoch': 40.2} {'loss': 0.0485, 'learning_rate': 2.989666487565244e-05, 'epoch': 40.21} {'loss': 0.0512, 'learning_rate': 2.9894266195885784e-05, 'epoch': 40.21} {'loss': 0.0497, 'learning_rate': 2.989186751611913e-05, 'epoch': 40.22} {'loss': 0.0495, 'learning_rate': 2.9889468836352473e-05, 'epoch': 40.22} {'loss': 0.0483, 'learning_rate': 2.9887070156585816e-05, 'epoch': 40.23} {'loss': 0.0499, 'learning_rate': 2.988467147681916e-05, 'epoch': 40.23} {'loss': 0.0502, 'learning_rate': 2.98822727970525e-05, 'epoch': 40.24} {'loss': 0.0494, 'learning_rate': 2.987987411728585e-05, 'epoch': 40.24} {'loss': 0.0475, 'learning_rate': 2.9877475437519193e-05, 'epoch': 40.25} {'loss': 0.0489, 'learning_rate': 2.9875076757752536e-05, 'epoch': 40.25} {'loss': 0.0517, 'learning_rate': 2.987267807798588e-05, 'epoch': 40.25} {'loss': 0.049, 'learning_rate': 2.9870279398219218e-05, 'epoch': 40.26} {'loss': 0.0505, 'learning_rate': 2.9867880718452568e-05, 'epoch': 40.26} {'loss': 0.0493, 'learning_rate': 2.986548203868591e-05, 'epoch': 40.27} {'loss': 0.0505, 'learning_rate': 2.9863083358919253e-05, 'epoch': 40.27} {'loss': 0.0514, 'learning_rate': 2.9860684679152596e-05, 'epoch': 40.28} {'loss': 0.0479, 'learning_rate': 2.985828599938594e-05, 'epoch': 40.28} {'loss': 0.0495, 'learning_rate': 2.9855887319619285e-05, 'epoch': 40.29} {'loss': 0.0489, 'learning_rate': 2.9853488639852627e-05, 'epoch': 40.29} {'loss': 0.049, 'learning_rate': 2.985108996008597e-05, 'epoch': 40.3} {'loss': 0.0492, 'learning_rate': 2.9848691280319313e-05, 'epoch': 40.3} {'loss': 0.0495, 'learning_rate': 2.9846292600552655e-05, 'epoch': 40.31} {'loss': 0.0478, 'learning_rate': 2.9843893920786005e-05, 'epoch': 40.31} {'loss': 0.05, 'learning_rate': 2.9841495241019348e-05, 'epoch': 40.32} {'loss': 0.0501, 'learning_rate': 2.9839096561252687e-05, 'epoch': 40.32} {'loss': 0.0495, 'learning_rate': 2.983669788148603e-05, 'epoch': 40.33} {'loss': 0.05, 'learning_rate': 2.9834299201719372e-05, 'epoch': 40.33} {'loss': 0.0457, 'learning_rate': 2.9831900521952715e-05, 'epoch': 40.34} {'loss': 0.0493, 'learning_rate': 2.9829501842186064e-05, 'epoch': 40.34} {'loss': 0.0495, 'learning_rate': 2.9827103162419407e-05, 'epoch': 40.35} {'loss': 0.0503, 'learning_rate': 2.982470448265275e-05, 'epoch': 40.35} {'loss': 0.0491, 'learning_rate': 2.9822305802886093e-05, 'epoch': 40.36} {'loss': 0.0493, 'learning_rate': 2.9819907123119435e-05, 'epoch': 40.36} {'loss': 0.0505, 'learning_rate': 2.981750844335278e-05, 'epoch': 40.36} {'loss': 0.0499, 'learning_rate': 2.9815109763586124e-05, 'epoch': 40.37} {'loss': 0.0497, 'learning_rate': 2.9812711083819467e-05, 'epoch': 40.37} {'loss': 0.0483, 'learning_rate': 2.981031240405281e-05, 'epoch': 40.38} {'loss': 0.0512, 'learning_rate': 2.9807913724286152e-05, 'epoch': 40.38} {'loss': 0.048, 'learning_rate': 2.9805515044519498e-05, 'epoch': 40.39} {'loss': 0.0474, 'learning_rate': 2.980311636475284e-05, 'epoch': 40.39} {'loss': 0.0463, 'learning_rate': 2.9800717684986184e-05, 'epoch': 40.4} {'loss': 0.0506, 'learning_rate': 2.9798319005219526e-05, 'epoch': 40.4} {'loss': 0.0509, 'learning_rate': 2.979592032545287e-05, 'epoch': 40.41} {'loss': 0.0483, 'learning_rate': 2.979352164568622e-05, 'epoch': 40.41} {'loss': 0.0482, 'learning_rate': 2.979112296591956e-05, 'epoch': 40.42} {'loss': 0.0501, 'learning_rate': 2.9788724286152904e-05, 'epoch': 40.42} {'loss': 0.0495, 'learning_rate': 2.9786325606386247e-05, 'epoch': 40.43} {'loss': 0.0496, 'learning_rate': 2.9783926926619586e-05, 'epoch': 40.43} {'loss': 0.0468, 'learning_rate': 2.9781528246852935e-05, 'epoch': 40.44} {'loss': 0.0499, 'learning_rate': 2.9779129567086278e-05, 'epoch': 40.44} {'loss': 0.0511, 'learning_rate': 2.977673088731962e-05, 'epoch': 40.45} {'loss': 0.051, 'learning_rate': 2.9774332207552964e-05, 'epoch': 40.45} {'loss': 0.0502, 'learning_rate': 2.9771933527786306e-05, 'epoch': 40.46} {'loss': 0.0515, 'learning_rate': 2.9769534848019652e-05, 'epoch': 40.46} {'loss': 0.05, 'learning_rate': 2.9767136168252995e-05, 'epoch': 40.47} {'loss': 0.0508, 'learning_rate': 2.9764737488486338e-05, 'epoch': 40.47} {'loss': 0.05, 'learning_rate': 2.976233880871968e-05, 'epoch': 40.48} {'loss': 0.0496, 'learning_rate': 2.9759940128953023e-05, 'epoch': 40.48} {'loss': 0.0481, 'learning_rate': 2.9757541449186373e-05, 'epoch': 40.48} {'loss': 0.0498, 'learning_rate': 2.9755142769419715e-05, 'epoch': 40.49} {'loss': 0.0497, 'learning_rate': 2.9752744089653055e-05, 'epoch': 40.49} {'loss': 0.0509, 'learning_rate': 2.9750345409886397e-05, 'epoch': 40.5} {'loss': 0.0486, 'learning_rate': 2.974794673011974e-05, 'epoch': 40.5} {'loss': 0.0524, 'learning_rate': 2.974554805035309e-05, 'epoch': 40.51} {'loss': 0.0496, 'learning_rate': 2.9743149370586432e-05, 'epoch': 40.51} {'loss': 0.049, 'learning_rate': 2.9740750690819775e-05, 'epoch': 40.52} {'loss': 0.0495, 'learning_rate': 2.9738352011053118e-05, 'epoch': 40.52} {'loss': 0.0515, 'learning_rate': 2.973595333128646e-05, 'epoch': 40.53} {'loss': 0.0486, 'learning_rate': 2.9733554651519806e-05, 'epoch': 40.53} {'loss': 0.0491, 'learning_rate': 2.973115597175315e-05, 'epoch': 40.54} {'loss': 0.0502, 'learning_rate': 2.9728757291986492e-05, 'epoch': 40.54} {'loss': 0.0499, 'learning_rate': 2.9726358612219835e-05, 'epoch': 40.55} {'loss': 0.0472, 'learning_rate': 2.9723959932453177e-05, 'epoch': 40.55} {'loss': 0.046, 'learning_rate': 2.9721561252686523e-05, 'epoch': 40.56} {'loss': 0.0482, 'learning_rate': 2.9719162572919866e-05, 'epoch': 40.56} {'loss': 0.0516, 'learning_rate': 2.971676389315321e-05, 'epoch': 40.57} {'loss': 0.0486, 'learning_rate': 2.971436521338655e-05, 'epoch': 40.57} {'loss': 0.0499, 'learning_rate': 2.9711966533619894e-05, 'epoch': 40.58} {'loss': 0.0498, 'learning_rate': 2.9709567853853244e-05, 'epoch': 40.58} {'loss': 0.0505, 'learning_rate': 2.9707169174086586e-05, 'epoch': 40.59} {'loss': 0.0492, 'learning_rate': 2.970477049431993e-05, 'epoch': 40.59} {'loss': 0.0485, 'learning_rate': 2.9702371814553272e-05, 'epoch': 40.6} {'loss': 0.047, 'learning_rate': 2.9699973134786614e-05, 'epoch': 40.6} {'loss': 0.0514, 'learning_rate': 2.969757445501996e-05, 'epoch': 40.6} {'loss': 0.0506, 'learning_rate': 2.9695175775253303e-05, 'epoch': 40.61} {'loss': 0.0491, 'learning_rate': 2.9692777095486646e-05, 'epoch': 40.61} {'loss': 0.0495, 'learning_rate': 2.969037841571999e-05, 'epoch': 40.62} {'loss': 0.0489, 'learning_rate': 2.968797973595333e-05, 'epoch': 40.62} {'loss': 0.0503, 'learning_rate': 2.9685581056186677e-05, 'epoch': 40.63} {'loss': 0.0476, 'learning_rate': 2.968318237642002e-05, 'epoch': 40.63} {'loss': 0.0501, 'learning_rate': 2.9680783696653363e-05, 'epoch': 40.64} {'loss': 0.049, 'learning_rate': 2.9678385016886706e-05, 'epoch': 40.64} {'loss': 0.0496, 'learning_rate': 2.9675986337120048e-05, 'epoch': 40.65} {'loss': 0.0485, 'learning_rate': 2.9673587657353398e-05, 'epoch': 40.65} {'loss': 0.0487, 'learning_rate': 2.967118897758674e-05, 'epoch': 40.66} {'loss': 0.0507, 'learning_rate': 2.9668790297820083e-05, 'epoch': 40.66} {'loss': 0.048, 'learning_rate': 2.9666391618053423e-05, 'epoch': 40.67} {'loss': 0.0496, 'learning_rate': 2.9663992938286765e-05, 'epoch': 40.67} {'loss': 0.0495, 'learning_rate': 2.9661594258520115e-05, 'epoch': 40.68} {'loss': 0.0523, 'learning_rate': 2.9659195578753457e-05, 'epoch': 40.68} {'loss': 0.0472, 'learning_rate': 2.96567968989868e-05, 'epoch': 40.69} {'loss': 0.0498, 'learning_rate': 2.9654398219220143e-05, 'epoch': 40.69} {'loss': 0.0487, 'learning_rate': 2.9651999539453486e-05, 'epoch': 40.7} {'loss': 0.0484, 'learning_rate': 2.964960085968683e-05, 'epoch': 40.7} {'loss': 0.05, 'learning_rate': 2.9647202179920174e-05, 'epoch': 40.71} {'loss': 0.0496, 'learning_rate': 2.9644803500153517e-05, 'epoch': 40.71} {'loss': 0.0465, 'learning_rate': 2.964240482038686e-05, 'epoch': 40.72} {'loss': 0.0513, 'learning_rate': 2.9640006140620202e-05, 'epoch': 40.72} {'loss': 0.0491, 'learning_rate': 2.9637607460853552e-05, 'epoch': 40.72} {'loss': 0.0469, 'learning_rate': 2.963520878108689e-05, 'epoch': 40.73} {'loss': 0.048, 'learning_rate': 2.9632810101320234e-05, 'epoch': 40.73} {'loss': 0.0476, 'learning_rate': 2.9630411421553577e-05, 'epoch': 40.74} {'loss': 0.0481, 'learning_rate': 2.962801274178692e-05, 'epoch': 40.74} {'loss': 0.0516, 'learning_rate': 2.962561406202027e-05, 'epoch': 40.75} {'loss': 0.0505, 'learning_rate': 2.962321538225361e-05, 'epoch': 40.75} {'loss': 0.05, 'learning_rate': 2.9620816702486954e-05, 'epoch': 40.76} {'loss': 0.0481, 'learning_rate': 2.9618418022720297e-05, 'epoch': 40.76} {'loss': 0.048, 'learning_rate': 2.961601934295364e-05, 'epoch': 40.77} {'loss': 0.0501, 'learning_rate': 2.961362066318698e-05, 'epoch': 40.77} {'loss': 0.0478, 'learning_rate': 2.961122198342033e-05, 'epoch': 40.78} {'loss': 0.0497, 'learning_rate': 2.960882330365367e-05, 'epoch': 40.78} {'loss': 0.0499, 'learning_rate': 2.9606424623887014e-05, 'epoch': 40.79} {'loss': 0.0505, 'learning_rate': 2.9604025944120357e-05, 'epoch': 40.79} {'loss': 0.0495, 'learning_rate': 2.96016272643537e-05, 'epoch': 40.8} {'loss': 0.0479, 'learning_rate': 2.9599228584587045e-05, 'epoch': 40.8} {'loss': 0.0484, 'learning_rate': 2.9596829904820388e-05, 'epoch': 40.81} {'loss': 0.0493, 'learning_rate': 2.959443122505373e-05, 'epoch': 40.81} {'loss': 0.0477, 'learning_rate': 2.9592032545287073e-05, 'epoch': 40.82} {'loss': 0.047, 'learning_rate': 2.9589633865520416e-05, 'epoch': 40.82} {'loss': 0.0491, 'learning_rate': 2.9587235185753766e-05, 'epoch': 40.83} {'loss': 0.0501, 'learning_rate': 2.9584836505987108e-05, 'epoch': 40.83} {'loss': 0.0496, 'learning_rate': 2.958243782622045e-05, 'epoch': 40.84} {'loss': 0.0477, 'learning_rate': 2.958003914645379e-05, 'epoch': 40.84} {'loss': 0.0488, 'learning_rate': 2.9577640466687133e-05, 'epoch': 40.84} {'loss': 0.0482, 'learning_rate': 2.9575241786920482e-05, 'epoch': 40.85} {'loss': 0.0486, 'learning_rate': 2.9572843107153825e-05, 'epoch': 40.85} {'loss': 0.0486, 'learning_rate': 2.9570444427387168e-05, 'epoch': 40.86} {'loss': 0.051, 'learning_rate': 2.956804574762051e-05, 'epoch': 40.86} {'loss': 0.0485, 'learning_rate': 2.9565647067853853e-05, 'epoch': 40.87} {'loss': 0.0494, 'learning_rate': 2.95632483880872e-05, 'epoch': 40.87} {'loss': 0.0531, 'learning_rate': 2.9560849708320542e-05, 'epoch': 40.88} {'loss': 0.0488, 'learning_rate': 2.9558451028553885e-05, 'epoch': 40.88} {'loss': 0.0479, 'learning_rate': 2.9556052348787228e-05, 'epoch': 40.89} {'loss': 0.0489, 'learning_rate': 2.955365366902057e-05, 'epoch': 40.89} {'loss': 0.0498, 'learning_rate': 2.955125498925392e-05, 'epoch': 40.9} {'loss': 0.0501, 'learning_rate': 2.954885630948726e-05, 'epoch': 40.9} {'loss': 0.0476, 'learning_rate': 2.9546457629720602e-05, 'epoch': 40.91} {'loss': 0.0483, 'learning_rate': 2.9544058949953944e-05, 'epoch': 40.91} {'loss': 0.0515, 'learning_rate': 2.9541660270187287e-05, 'epoch': 40.92} {'loss': 0.0486, 'learning_rate': 2.9539261590420637e-05, 'epoch': 40.92} {'loss': 0.0498, 'learning_rate': 2.953686291065398e-05, 'epoch': 40.93} {'loss': 0.0507, 'learning_rate': 2.9534464230887322e-05, 'epoch': 40.93} {'loss': 0.0496, 'learning_rate': 2.9532065551120665e-05, 'epoch': 40.94} {'loss': 0.0503, 'learning_rate': 2.9529666871354007e-05, 'epoch': 40.94} {'loss': 0.0484, 'learning_rate': 2.9527268191587354e-05, 'epoch': 40.95} {'loss': 0.0507, 'learning_rate': 2.9524869511820696e-05, 'epoch': 40.95} {'loss': 0.0502, 'learning_rate': 2.952247083205404e-05, 'epoch': 40.96} {'loss': 0.0513, 'learning_rate': 2.952007215228738e-05, 'epoch': 40.96} {'loss': 0.0496, 'learning_rate': 2.9517673472520724e-05, 'epoch': 40.96} {'loss': 0.0477, 'learning_rate': 2.951527479275407e-05, 'epoch': 40.97} {'loss': 0.0486, 'learning_rate': 2.9512876112987413e-05, 'epoch': 40.97} {'loss': 0.0486, 'learning_rate': 2.9510477433220756e-05, 'epoch': 40.98} {'loss': 0.0484, 'learning_rate': 2.95080787534541e-05, 'epoch': 40.98} {'loss': 0.05, 'learning_rate': 2.950568007368744e-05, 'epoch': 40.99} {'loss': 0.0485, 'learning_rate': 2.950328139392079e-05, 'epoch': 40.99} {'loss': 0.0498, 'learning_rate': 2.9500882714154133e-05, 'epoch': 41.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.046453919261693954, 'eval_runtime': 743.0728, 'eval_samples_per_second': 561.042, 'eval_steps_per_second': 70.13, 'epoch': 41.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-4273184 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-4273184/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-4273184/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-4168960] due to args.save_total_limit {'loss': 0.0504, 'learning_rate': 2.9498484034387476e-05, 'epoch': 41.0} {'loss': 0.0504, 'learning_rate': 2.949608535462082e-05, 'epoch': 41.01} {'loss': 0.0501, 'learning_rate': 2.9493686674854158e-05, 'epoch': 41.01} {'loss': 0.0491, 'learning_rate': 2.9491287995087508e-05, 'epoch': 41.02} {'loss': 0.0498, 'learning_rate': 2.948888931532085e-05, 'epoch': 41.02} {'loss': 0.0482, 'learning_rate': 2.9486490635554193e-05, 'epoch': 41.03} {'loss': 0.0512, 'learning_rate': 2.9484091955787536e-05, 'epoch': 41.03} {'loss': 0.0474, 'learning_rate': 2.948169327602088e-05, 'epoch': 41.04} {'loss': 0.0489, 'learning_rate': 2.9479294596254225e-05, 'epoch': 41.04} {'loss': 0.0481, 'learning_rate': 2.9476895916487567e-05, 'epoch': 41.05} {'loss': 0.0493, 'learning_rate': 2.947449723672091e-05, 'epoch': 41.05} {'loss': 0.0481, 'learning_rate': 2.9472098556954253e-05, 'epoch': 41.06} {'loss': 0.0477, 'learning_rate': 2.9469699877187595e-05, 'epoch': 41.06} {'loss': 0.0499, 'learning_rate': 2.9467301197420945e-05, 'epoch': 41.07} {'loss': 0.0472, 'learning_rate': 2.9464902517654287e-05, 'epoch': 41.07} {'loss': 0.0496, 'learning_rate': 2.9462503837887627e-05, 'epoch': 41.07} {'loss': 0.0497, 'learning_rate': 2.946010515812097e-05, 'epoch': 41.08} {'loss': 0.0486, 'learning_rate': 2.9457706478354312e-05, 'epoch': 41.08} {'loss': 0.0486, 'learning_rate': 2.9455307798587662e-05, 'epoch': 41.09} {'loss': 0.0481, 'learning_rate': 2.9452909118821004e-05, 'epoch': 41.09} {'loss': 0.0495, 'learning_rate': 2.9450510439054347e-05, 'epoch': 41.1} {'loss': 0.0485, 'learning_rate': 2.944811175928769e-05, 'epoch': 41.1} {'loss': 0.0482, 'learning_rate': 2.9445713079521033e-05, 'epoch': 41.11} {'loss': 0.0485, 'learning_rate': 2.944331439975438e-05, 'epoch': 41.11} {'loss': 0.0458, 'learning_rate': 2.944091571998772e-05, 'epoch': 41.12} {'loss': 0.047, 'learning_rate': 2.9438517040221064e-05, 'epoch': 41.12} {'loss': 0.0485, 'learning_rate': 2.9436118360454407e-05, 'epoch': 41.13} {'loss': 0.0494, 'learning_rate': 2.943371968068775e-05, 'epoch': 41.13} {'loss': 0.0506, 'learning_rate': 2.9431321000921096e-05, 'epoch': 41.14} {'loss': 0.0478, 'learning_rate': 2.9428922321154438e-05, 'epoch': 41.14} {'loss': 0.0473, 'learning_rate': 2.942652364138778e-05, 'epoch': 41.15} {'loss': 0.0496, 'learning_rate': 2.9424124961621124e-05, 'epoch': 41.15} {'loss': 0.0518, 'learning_rate': 2.9421726281854466e-05, 'epoch': 41.16} {'loss': 0.0499, 'learning_rate': 2.9419327602087816e-05, 'epoch': 41.16} {'loss': 0.0484, 'learning_rate': 2.941692892232116e-05, 'epoch': 41.17} {'loss': 0.0481, 'learning_rate': 2.94145302425545e-05, 'epoch': 41.17} {'loss': 0.0496, 'learning_rate': 2.9412131562787844e-05, 'epoch': 41.18} {'loss': 0.0497, 'learning_rate': 2.9409732883021183e-05, 'epoch': 41.18} {'loss': 0.0485, 'learning_rate': 2.9407334203254526e-05, 'epoch': 41.19} {'loss': 0.0492, 'learning_rate': 2.9404935523487875e-05, 'epoch': 41.19} {'loss': 0.0487, 'learning_rate': 2.9402536843721218e-05, 'epoch': 41.19} {'loss': 0.0477, 'learning_rate': 2.940013816395456e-05, 'epoch': 41.2} {'loss': 0.0495, 'learning_rate': 2.9397739484187904e-05, 'epoch': 41.2} {'loss': 0.0472, 'learning_rate': 2.9395340804421246e-05, 'epoch': 41.21} {'loss': 0.0478, 'learning_rate': 2.9392942124654592e-05, 'epoch': 41.21} {'loss': 0.0476, 'learning_rate': 2.9390543444887935e-05, 'epoch': 41.22} {'loss': 0.0476, 'learning_rate': 2.9388144765121278e-05, 'epoch': 41.22} {'loss': 0.0484, 'learning_rate': 2.938574608535462e-05, 'epoch': 41.23} {'loss': 0.0497, 'learning_rate': 2.9383347405587963e-05, 'epoch': 41.23} {'loss': 0.0502, 'learning_rate': 2.9380948725821313e-05, 'epoch': 41.24} {'loss': 0.049, 'learning_rate': 2.9378550046054655e-05, 'epoch': 41.24} {'loss': 0.0492, 'learning_rate': 2.9376151366287995e-05, 'epoch': 41.25} {'loss': 0.0479, 'learning_rate': 2.9373752686521337e-05, 'epoch': 41.25} {'loss': 0.0474, 'learning_rate': 2.937135400675468e-05, 'epoch': 41.26} {'loss': 0.0477, 'learning_rate': 2.936895532698803e-05, 'epoch': 41.26} {'loss': 0.0473, 'learning_rate': 2.9366556647221372e-05, 'epoch': 41.27} {'loss': 0.0496, 'learning_rate': 2.9364157967454715e-05, 'epoch': 41.27} {'loss': 0.0467, 'learning_rate': 2.9361759287688058e-05, 'epoch': 41.28} {'loss': 0.0481, 'learning_rate': 2.93593606079214e-05, 'epoch': 41.28} {'loss': 0.0468, 'learning_rate': 2.9356961928154746e-05, 'epoch': 41.29} {'loss': 0.05, 'learning_rate': 2.935456324838809e-05, 'epoch': 41.29} {'loss': 0.05, 'learning_rate': 2.9352164568621432e-05, 'epoch': 41.3} {'loss': 0.0509, 'learning_rate': 2.9349765888854775e-05, 'epoch': 41.3} {'loss': 0.0485, 'learning_rate': 2.9347367209088117e-05, 'epoch': 41.31} {'loss': 0.05, 'learning_rate': 2.9344968529321463e-05, 'epoch': 41.31} {'loss': 0.048, 'learning_rate': 2.9342569849554806e-05, 'epoch': 41.31} {'loss': 0.0508, 'learning_rate': 2.934017116978815e-05, 'epoch': 41.32} {'loss': 0.0491, 'learning_rate': 2.933777249002149e-05, 'epoch': 41.32} {'loss': 0.049, 'learning_rate': 2.9335373810254834e-05, 'epoch': 41.33} {'loss': 0.0485, 'learning_rate': 2.9332975130488184e-05, 'epoch': 41.33} {'loss': 0.0491, 'learning_rate': 2.9330576450721526e-05, 'epoch': 41.34} {'loss': 0.0504, 'learning_rate': 2.932817777095487e-05, 'epoch': 41.34} {'loss': 0.0488, 'learning_rate': 2.9325779091188212e-05, 'epoch': 41.35} {'loss': 0.0476, 'learning_rate': 2.932338041142155e-05, 'epoch': 41.35} {'loss': 0.0498, 'learning_rate': 2.93209817316549e-05, 'epoch': 41.36} {'loss': 0.0489, 'learning_rate': 2.9318583051888243e-05, 'epoch': 41.36} {'loss': 0.0504, 'learning_rate': 2.9316184372121586e-05, 'epoch': 41.37} {'loss': 0.0489, 'learning_rate': 2.931378569235493e-05, 'epoch': 41.37} {'loss': 0.0481, 'learning_rate': 2.931138701258827e-05, 'epoch': 41.38} {'loss': 0.0496, 'learning_rate': 2.9308988332821617e-05, 'epoch': 41.38} {'loss': 0.0484, 'learning_rate': 2.930658965305496e-05, 'epoch': 41.39} {'loss': 0.0514, 'learning_rate': 2.9304190973288303e-05, 'epoch': 41.39} {'loss': 0.0505, 'learning_rate': 2.9301792293521646e-05, 'epoch': 41.4} {'loss': 0.0482, 'learning_rate': 2.9299393613754988e-05, 'epoch': 41.4} {'loss': 0.0495, 'learning_rate': 2.9296994933988338e-05, 'epoch': 41.41} {'loss': 0.0475, 'learning_rate': 2.929459625422168e-05, 'epoch': 41.41} {'loss': 0.0484, 'learning_rate': 2.9292197574455023e-05, 'epoch': 41.42} {'loss': 0.0482, 'learning_rate': 2.9289798894688362e-05, 'epoch': 41.42} {'loss': 0.0487, 'learning_rate': 2.9287400214921705e-05, 'epoch': 41.43} {'loss': 0.0487, 'learning_rate': 2.9285001535155055e-05, 'epoch': 41.43} {'loss': 0.0489, 'learning_rate': 2.9282602855388397e-05, 'epoch': 41.43} {'loss': 0.0496, 'learning_rate': 2.928020417562174e-05, 'epoch': 41.44} {'loss': 0.0469, 'learning_rate': 2.9277805495855083e-05, 'epoch': 41.44} {'loss': 0.0499, 'learning_rate': 2.9275406816088425e-05, 'epoch': 41.45} {'loss': 0.0491, 'learning_rate': 2.927300813632177e-05, 'epoch': 41.45} {'loss': 0.0485, 'learning_rate': 2.9270609456555114e-05, 'epoch': 41.46} {'loss': 0.0525, 'learning_rate': 2.9268210776788457e-05, 'epoch': 41.46} {'loss': 0.0506, 'learning_rate': 2.92658120970218e-05, 'epoch': 41.47} {'loss': 0.0494, 'learning_rate': 2.9263413417255142e-05, 'epoch': 41.47} {'loss': 0.0482, 'learning_rate': 2.9261014737488492e-05, 'epoch': 41.48} {'loss': 0.0483, 'learning_rate': 2.925861605772183e-05, 'epoch': 41.48} {'loss': 0.0493, 'learning_rate': 2.9256217377955174e-05, 'epoch': 41.49} {'loss': 0.05, 'learning_rate': 2.9253818698188517e-05, 'epoch': 41.49} {'loss': 0.049, 'learning_rate': 2.925142001842186e-05, 'epoch': 41.5} {'loss': 0.0486, 'learning_rate': 2.924902133865521e-05, 'epoch': 41.5} {'loss': 0.0473, 'learning_rate': 2.924662265888855e-05, 'epoch': 41.51} {'loss': 0.0501, 'learning_rate': 2.9244223979121894e-05, 'epoch': 41.51} {'loss': 0.0466, 'learning_rate': 2.9241825299355237e-05, 'epoch': 41.52} {'loss': 0.0491, 'learning_rate': 2.923942661958858e-05, 'epoch': 41.52} {'loss': 0.0486, 'learning_rate': 2.9237027939821926e-05, 'epoch': 41.53} {'loss': 0.0495, 'learning_rate': 2.923462926005527e-05, 'epoch': 41.53} {'loss': 0.0492, 'learning_rate': 2.923223058028861e-05, 'epoch': 41.54} {'loss': 0.0478, 'learning_rate': 2.9229831900521954e-05, 'epoch': 41.54} {'loss': 0.0476, 'learning_rate': 2.9227433220755296e-05, 'epoch': 41.55} {'loss': 0.0505, 'learning_rate': 2.9225034540988643e-05, 'epoch': 41.55} {'loss': 0.0483, 'learning_rate': 2.9222635861221985e-05, 'epoch': 41.55} {'loss': 0.0466, 'learning_rate': 2.9220237181455328e-05, 'epoch': 41.56} {'loss': 0.0475, 'learning_rate': 2.921783850168867e-05, 'epoch': 41.56} {'loss': 0.0465, 'learning_rate': 2.9215439821922013e-05, 'epoch': 41.57} {'loss': 0.0498, 'learning_rate': 2.9213041142155363e-05, 'epoch': 41.57} {'loss': 0.0509, 'learning_rate': 2.9210642462388706e-05, 'epoch': 41.58} {'loss': 0.0486, 'learning_rate': 2.9208243782622048e-05, 'epoch': 41.58} {'loss': 0.0489, 'learning_rate': 2.9205845102855388e-05, 'epoch': 41.59} {'loss': 0.0515, 'learning_rate': 2.920344642308873e-05, 'epoch': 41.59} {'loss': 0.0493, 'learning_rate': 2.9201047743322073e-05, 'epoch': 41.6} {'loss': 0.0455, 'learning_rate': 2.9198649063555422e-05, 'epoch': 41.6} {'loss': 0.0492, 'learning_rate': 2.9196250383788765e-05, 'epoch': 41.61} {'loss': 0.048, 'learning_rate': 2.9193851704022108e-05, 'epoch': 41.61} {'loss': 0.0476, 'learning_rate': 2.919145302425545e-05, 'epoch': 41.62} {'loss': 0.0493, 'learning_rate': 2.9189054344488793e-05, 'epoch': 41.62} {'loss': 0.0499, 'learning_rate': 2.918665566472214e-05, 'epoch': 41.63} {'loss': 0.0468, 'learning_rate': 2.9184256984955482e-05, 'epoch': 41.63} {'loss': 0.048, 'learning_rate': 2.9181858305188825e-05, 'epoch': 41.64} {'loss': 0.0499, 'learning_rate': 2.9179459625422167e-05, 'epoch': 41.64} {'loss': 0.0458, 'learning_rate': 2.917706094565551e-05, 'epoch': 41.65} {'loss': 0.0468, 'learning_rate': 2.917466226588886e-05, 'epoch': 41.65} {'loss': 0.05, 'learning_rate': 2.91722635861222e-05, 'epoch': 41.66} {'loss': 0.0482, 'learning_rate': 2.916986490635554e-05, 'epoch': 41.66} {'loss': 0.049, 'learning_rate': 2.9167466226588884e-05, 'epoch': 41.67} {'loss': 0.0492, 'learning_rate': 2.9165067546822227e-05, 'epoch': 41.67} {'loss': 0.0488, 'learning_rate': 2.9162668867055577e-05, 'epoch': 41.67} {'loss': 0.0491, 'learning_rate': 2.916027018728892e-05, 'epoch': 41.68} {'loss': 0.046, 'learning_rate': 2.9157871507522262e-05, 'epoch': 41.68} {'loss': 0.0455, 'learning_rate': 2.9155472827755605e-05, 'epoch': 41.69} {'loss': 0.047, 'learning_rate': 2.9153074147988947e-05, 'epoch': 41.69} {'loss': 0.0485, 'learning_rate': 2.9150675468222293e-05, 'epoch': 41.7} {'loss': 0.0473, 'learning_rate': 2.9148276788455636e-05, 'epoch': 41.7} {'loss': 0.0469, 'learning_rate': 2.914587810868898e-05, 'epoch': 41.71} {'loss': 0.0471, 'learning_rate': 2.914347942892232e-05, 'epoch': 41.71} {'loss': 0.0478, 'learning_rate': 2.9141080749155664e-05, 'epoch': 41.72} {'loss': 0.0483, 'learning_rate': 2.913868206938901e-05, 'epoch': 41.72} {'loss': 0.049, 'learning_rate': 2.9136283389622353e-05, 'epoch': 41.73} {'loss': 0.0489, 'learning_rate': 2.9133884709855696e-05, 'epoch': 41.73} {'loss': 0.0488, 'learning_rate': 2.913148603008904e-05, 'epoch': 41.74} {'loss': 0.049, 'learning_rate': 2.912908735032238e-05, 'epoch': 41.74} {'loss': 0.0468, 'learning_rate': 2.912668867055573e-05, 'epoch': 41.75} {'loss': 0.0497, 'learning_rate': 2.9124289990789073e-05, 'epoch': 41.75} {'loss': 0.0494, 'learning_rate': 2.9121891311022416e-05, 'epoch': 41.76} {'loss': 0.05, 'learning_rate': 2.9119492631255755e-05, 'epoch': 41.76} {'loss': 0.049, 'learning_rate': 2.9117093951489098e-05, 'epoch': 41.77} {'loss': 0.047, 'learning_rate': 2.9114695271722448e-05, 'epoch': 41.77} {'loss': 0.0493, 'learning_rate': 2.911229659195579e-05, 'epoch': 41.78} {'loss': 0.0492, 'learning_rate': 2.9109897912189133e-05, 'epoch': 41.78} {'loss': 0.049, 'learning_rate': 2.9107499232422476e-05, 'epoch': 41.79} {'loss': 0.0484, 'learning_rate': 2.910510055265582e-05, 'epoch': 41.79} {'loss': 0.05, 'learning_rate': 2.9102701872889164e-05, 'epoch': 41.79} {'loss': 0.0499, 'learning_rate': 2.9100303193122507e-05, 'epoch': 41.8} {'loss': 0.0531, 'learning_rate': 2.909790451335585e-05, 'epoch': 41.8} {'loss': 0.0467, 'learning_rate': 2.9095505833589193e-05, 'epoch': 41.81} {'loss': 0.0488, 'learning_rate': 2.9093107153822535e-05, 'epoch': 41.81} {'loss': 0.049, 'learning_rate': 2.9090708474055885e-05, 'epoch': 41.82} {'loss': 0.0483, 'learning_rate': 2.9088309794289227e-05, 'epoch': 41.82} {'loss': 0.0498, 'learning_rate': 2.9085911114522567e-05, 'epoch': 41.83} {'loss': 0.0512, 'learning_rate': 2.908351243475591e-05, 'epoch': 41.83} {'loss': 0.0483, 'learning_rate': 2.9081113754989252e-05, 'epoch': 41.84} {'loss': 0.0493, 'learning_rate': 2.90787150752226e-05, 'epoch': 41.84} {'loss': 0.0499, 'learning_rate': 2.9076316395455944e-05, 'epoch': 41.85} {'loss': 0.0481, 'learning_rate': 2.9073917715689287e-05, 'epoch': 41.85} {'loss': 0.0476, 'learning_rate': 2.907151903592263e-05, 'epoch': 41.86} {'loss': 0.0485, 'learning_rate': 2.9069120356155972e-05, 'epoch': 41.86} {'loss': 0.0499, 'learning_rate': 2.906672167638932e-05, 'epoch': 41.87} {'loss': 0.048, 'learning_rate': 2.906432299662266e-05, 'epoch': 41.87} {'loss': 0.0489, 'learning_rate': 2.9061924316856004e-05, 'epoch': 41.88} {'loss': 0.0486, 'learning_rate': 2.9059525637089347e-05, 'epoch': 41.88} {'loss': 0.0504, 'learning_rate': 2.905712695732269e-05, 'epoch': 41.89} {'loss': 0.0512, 'learning_rate': 2.9054728277556035e-05, 'epoch': 41.89} {'loss': 0.0477, 'learning_rate': 2.9052329597789378e-05, 'epoch': 41.9} {'loss': 0.0485, 'learning_rate': 2.904993091802272e-05, 'epoch': 41.9} {'loss': 0.0504, 'learning_rate': 2.9047532238256064e-05, 'epoch': 41.9} {'loss': 0.0473, 'learning_rate': 2.9045133558489406e-05, 'epoch': 41.91} {'loss': 0.0484, 'learning_rate': 2.9042734878722756e-05, 'epoch': 41.91} {'loss': 0.0496, 'learning_rate': 2.90403361989561e-05, 'epoch': 41.92} {'loss': 0.0458, 'learning_rate': 2.903793751918944e-05, 'epoch': 41.92} {'loss': 0.0484, 'learning_rate': 2.9035538839422784e-05, 'epoch': 41.93} {'loss': 0.0496, 'learning_rate': 2.9033140159656123e-05, 'epoch': 41.93} {'loss': 0.0495, 'learning_rate': 2.9030741479889473e-05, 'epoch': 41.94} {'loss': 0.0487, 'learning_rate': 2.9028342800122815e-05, 'epoch': 41.94} {'loss': 0.0472, 'learning_rate': 2.9025944120356158e-05, 'epoch': 41.95} {'loss': 0.0487, 'learning_rate': 2.90235454405895e-05, 'epoch': 41.95} {'loss': 0.0492, 'learning_rate': 2.9021146760822843e-05, 'epoch': 41.96} {'loss': 0.0485, 'learning_rate': 2.901874808105619e-05, 'epoch': 41.96} {'loss': 0.0486, 'learning_rate': 2.9016349401289532e-05, 'epoch': 41.97} {'loss': 0.0471, 'learning_rate': 2.9013950721522875e-05, 'epoch': 41.97} {'loss': 0.0478, 'learning_rate': 2.9011552041756218e-05, 'epoch': 41.98} {'loss': 0.048, 'learning_rate': 2.900915336198956e-05, 'epoch': 41.98} {'loss': 0.0489, 'learning_rate': 2.900675468222291e-05, 'epoch': 41.99} {'loss': 0.049, 'learning_rate': 2.9004356002456253e-05, 'epoch': 41.99} {'loss': 0.0483, 'learning_rate': 2.9001957322689592e-05, 'epoch': 42.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.045815903693437576, 'eval_runtime': 738.3355, 'eval_samples_per_second': 564.642, 'eval_steps_per_second': 70.58, 'epoch': 42.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-4377408 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-4377408/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-4377408/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-4273184] due to args.save_total_limit {'loss': 0.0497, 'learning_rate': 2.8999558642922935e-05, 'epoch': 42.0} {'loss': 0.0468, 'learning_rate': 2.8997159963156277e-05, 'epoch': 42.01} {'loss': 0.0479, 'learning_rate': 2.8994761283389627e-05, 'epoch': 42.01} {'loss': 0.0474, 'learning_rate': 2.899236260362297e-05, 'epoch': 42.02} {'loss': 0.0496, 'learning_rate': 2.8989963923856312e-05, 'epoch': 42.02} {'loss': 0.0468, 'learning_rate': 2.8987565244089655e-05, 'epoch': 42.02} {'loss': 0.0481, 'learning_rate': 2.8985166564322998e-05, 'epoch': 42.03} {'loss': 0.0479, 'learning_rate': 2.898276788455634e-05, 'epoch': 42.03} {'loss': 0.0485, 'learning_rate': 2.8980369204789686e-05, 'epoch': 42.04} {'loss': 0.0472, 'learning_rate': 2.897797052502303e-05, 'epoch': 42.04} {'loss': 0.0504, 'learning_rate': 2.8975571845256372e-05, 'epoch': 42.05} {'loss': 0.0474, 'learning_rate': 2.8973173165489714e-05, 'epoch': 42.05} {'loss': 0.049, 'learning_rate': 2.8970774485723057e-05, 'epoch': 42.06} {'loss': 0.0465, 'learning_rate': 2.8968375805956403e-05, 'epoch': 42.06} {'loss': 0.0463, 'learning_rate': 2.8965977126189746e-05, 'epoch': 42.07} {'loss': 0.0495, 'learning_rate': 2.896357844642309e-05, 'epoch': 42.07} {'loss': 0.0482, 'learning_rate': 2.896117976665643e-05, 'epoch': 42.08} {'loss': 0.0457, 'learning_rate': 2.8958781086889774e-05, 'epoch': 42.08} {'loss': 0.0496, 'learning_rate': 2.8956382407123124e-05, 'epoch': 42.09} {'loss': 0.0484, 'learning_rate': 2.8953983727356466e-05, 'epoch': 42.09} {'loss': 0.0459, 'learning_rate': 2.895158504758981e-05, 'epoch': 42.1} {'loss': 0.0487, 'learning_rate': 2.894918636782315e-05, 'epoch': 42.1} {'loss': 0.0506, 'learning_rate': 2.894678768805649e-05, 'epoch': 42.11} {'loss': 0.05, 'learning_rate': 2.894438900828984e-05, 'epoch': 42.11} {'loss': 0.0495, 'learning_rate': 2.8941990328523183e-05, 'epoch': 42.12} {'loss': 0.0485, 'learning_rate': 2.8939591648756526e-05, 'epoch': 42.12} {'loss': 0.0475, 'learning_rate': 2.893719296898987e-05, 'epoch': 42.13} {'loss': 0.0493, 'learning_rate': 2.893479428922321e-05, 'epoch': 42.13} {'loss': 0.0478, 'learning_rate': 2.8932395609456557e-05, 'epoch': 42.14} {'loss': 0.0491, 'learning_rate': 2.89299969296899e-05, 'epoch': 42.14} {'loss': 0.049, 'learning_rate': 2.8927598249923243e-05, 'epoch': 42.14} {'loss': 0.0493, 'learning_rate': 2.8925199570156585e-05, 'epoch': 42.15} {'loss': 0.049, 'learning_rate': 2.8922800890389928e-05, 'epoch': 42.15} {'loss': 0.0494, 'learning_rate': 2.8920402210623278e-05, 'epoch': 42.16} {'loss': 0.0471, 'learning_rate': 2.891800353085662e-05, 'epoch': 42.16} {'loss': 0.0466, 'learning_rate': 2.891560485108996e-05, 'epoch': 42.17} {'loss': 0.0492, 'learning_rate': 2.8913206171323302e-05, 'epoch': 42.17} {'loss': 0.0472, 'learning_rate': 2.8910807491556645e-05, 'epoch': 42.18} {'loss': 0.048, 'learning_rate': 2.8908408811789995e-05, 'epoch': 42.18} {'loss': 0.0474, 'learning_rate': 2.8906010132023337e-05, 'epoch': 42.19} {'loss': 0.0479, 'learning_rate': 2.890361145225668e-05, 'epoch': 42.19} {'loss': 0.0484, 'learning_rate': 2.8901212772490023e-05, 'epoch': 42.2} {'loss': 0.048, 'learning_rate': 2.8898814092723365e-05, 'epoch': 42.2} {'loss': 0.0489, 'learning_rate': 2.889641541295671e-05, 'epoch': 42.21} {'loss': 0.0485, 'learning_rate': 2.8894016733190054e-05, 'epoch': 42.21} {'loss': 0.0491, 'learning_rate': 2.8891618053423397e-05, 'epoch': 42.22} {'loss': 0.0478, 'learning_rate': 2.888921937365674e-05, 'epoch': 42.22} {'loss': 0.0492, 'learning_rate': 2.8886820693890082e-05, 'epoch': 42.23} {'loss': 0.0494, 'learning_rate': 2.8884422014123432e-05, 'epoch': 42.23} {'loss': 0.0487, 'learning_rate': 2.888202333435677e-05, 'epoch': 42.24} {'loss': 0.047, 'learning_rate': 2.8879624654590114e-05, 'epoch': 42.24} {'loss': 0.0471, 'learning_rate': 2.8877225974823456e-05, 'epoch': 42.25} {'loss': 0.0479, 'learning_rate': 2.88748272950568e-05, 'epoch': 42.25} {'loss': 0.046, 'learning_rate': 2.887242861529015e-05, 'epoch': 42.26} {'loss': 0.0465, 'learning_rate': 2.887002993552349e-05, 'epoch': 42.26} {'loss': 0.0498, 'learning_rate': 2.8867631255756834e-05, 'epoch': 42.26} {'loss': 0.0501, 'learning_rate': 2.8865232575990177e-05, 'epoch': 42.27} {'loss': 0.0506, 'learning_rate': 2.886283389622352e-05, 'epoch': 42.27} {'loss': 0.0485, 'learning_rate': 2.8860435216456866e-05, 'epoch': 42.28} {'loss': 0.0467, 'learning_rate': 2.8858036536690208e-05, 'epoch': 42.28} {'loss': 0.0471, 'learning_rate': 2.885563785692355e-05, 'epoch': 42.29} {'loss': 0.0495, 'learning_rate': 2.8853239177156894e-05, 'epoch': 42.29} {'loss': 0.0483, 'learning_rate': 2.8850840497390236e-05, 'epoch': 42.3} {'loss': 0.0486, 'learning_rate': 2.8848441817623582e-05, 'epoch': 42.3} {'loss': 0.049, 'learning_rate': 2.8846043137856925e-05, 'epoch': 42.31} {'loss': 0.0496, 'learning_rate': 2.8843644458090268e-05, 'epoch': 42.31} {'loss': 0.0476, 'learning_rate': 2.884124577832361e-05, 'epoch': 42.32} {'loss': 0.0484, 'learning_rate': 2.8838847098556953e-05, 'epoch': 42.32} {'loss': 0.0482, 'learning_rate': 2.8836448418790303e-05, 'epoch': 42.33} {'loss': 0.0494, 'learning_rate': 2.8834049739023645e-05, 'epoch': 42.33} {'loss': 0.0486, 'learning_rate': 2.8831651059256988e-05, 'epoch': 42.34} {'loss': 0.0491, 'learning_rate': 2.8829252379490327e-05, 'epoch': 42.34} {'loss': 0.0497, 'learning_rate': 2.882685369972367e-05, 'epoch': 42.35} {'loss': 0.0483, 'learning_rate': 2.882445501995702e-05, 'epoch': 42.35} {'loss': 0.0467, 'learning_rate': 2.8822056340190362e-05, 'epoch': 42.36} {'loss': 0.0479, 'learning_rate': 2.8819657660423705e-05, 'epoch': 42.36} {'loss': 0.048, 'learning_rate': 2.8817258980657048e-05, 'epoch': 42.37} {'loss': 0.0485, 'learning_rate': 2.881486030089039e-05, 'epoch': 42.37} {'loss': 0.0463, 'learning_rate': 2.8812461621123737e-05, 'epoch': 42.38} {'loss': 0.0482, 'learning_rate': 2.881006294135708e-05, 'epoch': 42.38} {'loss': 0.0478, 'learning_rate': 2.8807664261590422e-05, 'epoch': 42.38} {'loss': 0.0453, 'learning_rate': 2.8805265581823765e-05, 'epoch': 42.39} {'loss': 0.0474, 'learning_rate': 2.8802866902057107e-05, 'epoch': 42.39} {'loss': 0.0477, 'learning_rate': 2.8800468222290457e-05, 'epoch': 42.4} {'loss': 0.0503, 'learning_rate': 2.87980695425238e-05, 'epoch': 42.4} {'loss': 0.0487, 'learning_rate': 2.879567086275714e-05, 'epoch': 42.41} {'loss': 0.0479, 'learning_rate': 2.879327218299048e-05, 'epoch': 42.41} {'loss': 0.0473, 'learning_rate': 2.8790873503223824e-05, 'epoch': 42.42} {'loss': 0.0479, 'learning_rate': 2.8788474823457174e-05, 'epoch': 42.42} {'loss': 0.0488, 'learning_rate': 2.8786076143690516e-05, 'epoch': 42.43} {'loss': 0.0475, 'learning_rate': 2.878367746392386e-05, 'epoch': 42.43} {'loss': 0.0487, 'learning_rate': 2.8781278784157202e-05, 'epoch': 42.44} {'loss': 0.0503, 'learning_rate': 2.8778880104390545e-05, 'epoch': 42.44} {'loss': 0.046, 'learning_rate': 2.8776481424623887e-05, 'epoch': 42.45} {'loss': 0.0483, 'learning_rate': 2.8774082744857233e-05, 'epoch': 42.45} {'loss': 0.0495, 'learning_rate': 2.8771684065090576e-05, 'epoch': 42.46} {'loss': 0.0463, 'learning_rate': 2.876928538532392e-05, 'epoch': 42.46} {'loss': 0.0461, 'learning_rate': 2.876688670555726e-05, 'epoch': 42.47} {'loss': 0.0488, 'learning_rate': 2.8764488025790604e-05, 'epoch': 42.47} {'loss': 0.0473, 'learning_rate': 2.876208934602395e-05, 'epoch': 42.48} {'loss': 0.0484, 'learning_rate': 2.8759690666257293e-05, 'epoch': 42.48} {'loss': 0.0497, 'learning_rate': 2.8757291986490636e-05, 'epoch': 42.49} {'loss': 0.0464, 'learning_rate': 2.875489330672398e-05, 'epoch': 42.49} {'loss': 0.0492, 'learning_rate': 2.875249462695732e-05, 'epoch': 42.5} {'loss': 0.051, 'learning_rate': 2.875009594719067e-05, 'epoch': 42.5} {'loss': 0.0477, 'learning_rate': 2.8747697267424013e-05, 'epoch': 42.5} {'loss': 0.0458, 'learning_rate': 2.8745298587657356e-05, 'epoch': 42.51} {'loss': 0.0478, 'learning_rate': 2.8742899907890695e-05, 'epoch': 42.51} {'loss': 0.0492, 'learning_rate': 2.8740501228124038e-05, 'epoch': 42.52} {'loss': 0.0481, 'learning_rate': 2.8738102548357387e-05, 'epoch': 42.52} {'loss': 0.0476, 'learning_rate': 2.873570386859073e-05, 'epoch': 42.53} {'loss': 0.0494, 'learning_rate': 2.8733305188824073e-05, 'epoch': 42.53} {'loss': 0.0485, 'learning_rate': 2.8730906509057416e-05, 'epoch': 42.54} {'loss': 0.0496, 'learning_rate': 2.8728507829290758e-05, 'epoch': 42.54} {'loss': 0.0478, 'learning_rate': 2.8726109149524104e-05, 'epoch': 42.55} {'loss': 0.0489, 'learning_rate': 2.8723710469757447e-05, 'epoch': 42.55} {'loss': 0.0479, 'learning_rate': 2.872131178999079e-05, 'epoch': 42.56} {'loss': 0.0493, 'learning_rate': 2.8718913110224132e-05, 'epoch': 42.56} {'loss': 0.0476, 'learning_rate': 2.8716514430457475e-05, 'epoch': 42.57} {'loss': 0.0473, 'learning_rate': 2.8714115750690825e-05, 'epoch': 42.57} {'loss': 0.0476, 'learning_rate': 2.8711717070924164e-05, 'epoch': 42.58} {'loss': 0.0473, 'learning_rate': 2.8709318391157507e-05, 'epoch': 42.58} {'loss': 0.0472, 'learning_rate': 2.870691971139085e-05, 'epoch': 42.59} {'loss': 0.0497, 'learning_rate': 2.8704521031624192e-05, 'epoch': 42.59} {'loss': 0.0486, 'learning_rate': 2.870212235185754e-05, 'epoch': 42.6} {'loss': 0.0482, 'learning_rate': 2.8699723672090884e-05, 'epoch': 42.6} {'loss': 0.0487, 'learning_rate': 2.8697324992324227e-05, 'epoch': 42.61} {'loss': 0.0481, 'learning_rate': 2.869492631255757e-05, 'epoch': 42.61} {'loss': 0.0474, 'learning_rate': 2.8692527632790912e-05, 'epoch': 42.61} {'loss': 0.048, 'learning_rate': 2.869012895302426e-05, 'epoch': 42.62} {'loss': 0.0452, 'learning_rate': 2.86877302732576e-05, 'epoch': 42.62} {'loss': 0.0468, 'learning_rate': 2.8685331593490944e-05, 'epoch': 42.63} {'loss': 0.048, 'learning_rate': 2.8682932913724287e-05, 'epoch': 42.63} {'loss': 0.0494, 'learning_rate': 2.868053423395763e-05, 'epoch': 42.64} {'loss': 0.0478, 'learning_rate': 2.8678135554190975e-05, 'epoch': 42.64} {'loss': 0.0488, 'learning_rate': 2.8675736874424318e-05, 'epoch': 42.65} {'loss': 0.0491, 'learning_rate': 2.867333819465766e-05, 'epoch': 42.65} {'loss': 0.051, 'learning_rate': 2.8670939514891003e-05, 'epoch': 42.66} {'loss': 0.0469, 'learning_rate': 2.8668540835124346e-05, 'epoch': 42.66} {'loss': 0.0463, 'learning_rate': 2.8666142155357696e-05, 'epoch': 42.67} {'loss': 0.0481, 'learning_rate': 2.866374347559104e-05, 'epoch': 42.67} {'loss': 0.0505, 'learning_rate': 2.866134479582438e-05, 'epoch': 42.68} {'loss': 0.0489, 'learning_rate': 2.8658946116057724e-05, 'epoch': 42.68} {'loss': 0.0469, 'learning_rate': 2.8656547436291063e-05, 'epoch': 42.69} {'loss': 0.0478, 'learning_rate': 2.8654148756524413e-05, 'epoch': 42.69} {'loss': 0.0467, 'learning_rate': 2.8651750076757755e-05, 'epoch': 42.7} {'loss': 0.0482, 'learning_rate': 2.8649351396991098e-05, 'epoch': 42.7} {'loss': 0.0491, 'learning_rate': 2.864695271722444e-05, 'epoch': 42.71} {'loss': 0.0477, 'learning_rate': 2.8644554037457783e-05, 'epoch': 42.71} {'loss': 0.0483, 'learning_rate': 2.864215535769113e-05, 'epoch': 42.72} {'loss': 0.0506, 'learning_rate': 2.8639756677924472e-05, 'epoch': 42.72} {'loss': 0.0493, 'learning_rate': 2.8637357998157815e-05, 'epoch': 42.73} {'loss': 0.0476, 'learning_rate': 2.8634959318391158e-05, 'epoch': 42.73} {'loss': 0.0518, 'learning_rate': 2.86325606386245e-05, 'epoch': 42.73} {'loss': 0.0466, 'learning_rate': 2.863016195885785e-05, 'epoch': 42.74} {'loss': 0.0484, 'learning_rate': 2.8627763279091192e-05, 'epoch': 42.74} {'loss': 0.0489, 'learning_rate': 2.8625364599324532e-05, 'epoch': 42.75} {'loss': 0.0472, 'learning_rate': 2.8622965919557874e-05, 'epoch': 42.75} {'loss': 0.0467, 'learning_rate': 2.8620567239791217e-05, 'epoch': 42.76} {'loss': 0.0475, 'learning_rate': 2.8618168560024567e-05, 'epoch': 42.76} {'loss': 0.0497, 'learning_rate': 2.861576988025791e-05, 'epoch': 42.77} {'loss': 0.0506, 'learning_rate': 2.8613371200491252e-05, 'epoch': 42.77} {'loss': 0.049, 'learning_rate': 2.8610972520724595e-05, 'epoch': 42.78} {'loss': 0.0466, 'learning_rate': 2.8608573840957937e-05, 'epoch': 42.78} {'loss': 0.0493, 'learning_rate': 2.8606175161191284e-05, 'epoch': 42.79} {'loss': 0.0493, 'learning_rate': 2.8603776481424626e-05, 'epoch': 42.79} {'loss': 0.0471, 'learning_rate': 2.860137780165797e-05, 'epoch': 42.8} {'loss': 0.0504, 'learning_rate': 2.859897912189131e-05, 'epoch': 42.8} {'loss': 0.0482, 'learning_rate': 2.8596580442124654e-05, 'epoch': 42.81} {'loss': 0.048, 'learning_rate': 2.8594181762358004e-05, 'epoch': 42.81} {'loss': 0.0479, 'learning_rate': 2.8591783082591343e-05, 'epoch': 42.82} {'loss': 0.0478, 'learning_rate': 2.8589384402824686e-05, 'epoch': 42.82} {'loss': 0.0475, 'learning_rate': 2.858698572305803e-05, 'epoch': 42.83} {'loss': 0.0467, 'learning_rate': 2.858458704329137e-05, 'epoch': 42.83} {'loss': 0.0474, 'learning_rate': 2.858218836352472e-05, 'epoch': 42.84} {'loss': 0.0478, 'learning_rate': 2.8579789683758063e-05, 'epoch': 42.84} {'loss': 0.0479, 'learning_rate': 2.8577391003991406e-05, 'epoch': 42.85} {'loss': 0.0476, 'learning_rate': 2.857499232422475e-05, 'epoch': 42.85} {'loss': 0.0468, 'learning_rate': 2.857259364445809e-05, 'epoch': 42.85} {'loss': 0.0453, 'learning_rate': 2.8570194964691438e-05, 'epoch': 42.86} {'loss': 0.0493, 'learning_rate': 2.856779628492478e-05, 'epoch': 42.86} {'loss': 0.0487, 'learning_rate': 2.8565397605158123e-05, 'epoch': 42.87} {'loss': 0.0472, 'learning_rate': 2.8562998925391466e-05, 'epoch': 42.87} {'loss': 0.0488, 'learning_rate': 2.856060024562481e-05, 'epoch': 42.88} {'loss': 0.0482, 'learning_rate': 2.855820156585815e-05, 'epoch': 42.88} {'loss': 0.0486, 'learning_rate': 2.8555802886091497e-05, 'epoch': 42.89} {'loss': 0.0496, 'learning_rate': 2.855340420632484e-05, 'epoch': 42.89} {'loss': 0.0481, 'learning_rate': 2.8551005526558183e-05, 'epoch': 42.9} {'loss': 0.0474, 'learning_rate': 2.8548606846791525e-05, 'epoch': 42.9} {'loss': 0.0471, 'learning_rate': 2.8546208167024868e-05, 'epoch': 42.91} {'loss': 0.0504, 'learning_rate': 2.8543809487258218e-05, 'epoch': 42.91} {'loss': 0.0491, 'learning_rate': 2.854141080749156e-05, 'epoch': 42.92} {'loss': 0.0477, 'learning_rate': 2.85390121277249e-05, 'epoch': 42.92} {'loss': 0.048, 'learning_rate': 2.8536613447958242e-05, 'epoch': 42.93} {'loss': 0.048, 'learning_rate': 2.8534214768191585e-05, 'epoch': 42.93} {'loss': 0.0488, 'learning_rate': 2.8531816088424934e-05, 'epoch': 42.94} {'loss': 0.05, 'learning_rate': 2.8529417408658277e-05, 'epoch': 42.94} {'loss': 0.0473, 'learning_rate': 2.852701872889162e-05, 'epoch': 42.95} {'loss': 0.0494, 'learning_rate': 2.8524620049124963e-05, 'epoch': 42.95} {'loss': 0.0476, 'learning_rate': 2.8522221369358305e-05, 'epoch': 42.96} {'loss': 0.0494, 'learning_rate': 2.851982268959165e-05, 'epoch': 42.96} {'loss': 0.0465, 'learning_rate': 2.8517424009824994e-05, 'epoch': 42.97} {'loss': 0.0497, 'learning_rate': 2.8515025330058337e-05, 'epoch': 42.97} {'loss': 0.0487, 'learning_rate': 2.851262665029168e-05, 'epoch': 42.97} {'loss': 0.0498, 'learning_rate': 2.8510227970525022e-05, 'epoch': 42.98} {'loss': 0.0452, 'learning_rate': 2.8507829290758368e-05, 'epoch': 42.98} {'loss': 0.0483, 'learning_rate': 2.850543061099171e-05, 'epoch': 42.99} {'loss': 0.0472, 'learning_rate': 2.8503031931225054e-05, 'epoch': 42.99} {'loss': 0.049, 'learning_rate': 2.8500633251458396e-05, 'epoch': 43.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04559007287025452, 'eval_runtime': 736.8525, 'eval_samples_per_second': 565.778, 'eval_steps_per_second': 70.722, 'epoch': 43.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-4481632 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-4481632/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-4481632/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-4377408] due to args.save_total_limit {'loss': 0.0453, 'learning_rate': 2.849823457169174e-05, 'epoch': 43.0} {'loss': 0.0485, 'learning_rate': 2.849583589192509e-05, 'epoch': 43.01} {'loss': 0.046, 'learning_rate': 2.849343721215843e-05, 'epoch': 43.01} {'loss': 0.0471, 'learning_rate': 2.8491038532391774e-05, 'epoch': 43.02} {'loss': 0.0473, 'learning_rate': 2.8488639852625117e-05, 'epoch': 43.02} {'loss': 0.0496, 'learning_rate': 2.848624117285846e-05, 'epoch': 43.03} {'loss': 0.0474, 'learning_rate': 2.8483842493091805e-05, 'epoch': 43.03} {'loss': 0.0466, 'learning_rate': 2.8481443813325148e-05, 'epoch': 43.04} {'loss': 0.0466, 'learning_rate': 2.847904513355849e-05, 'epoch': 43.04} {'loss': 0.0497, 'learning_rate': 2.8476646453791834e-05, 'epoch': 43.05} {'loss': 0.0474, 'learning_rate': 2.8474247774025176e-05, 'epoch': 43.05} {'loss': 0.048, 'learning_rate': 2.8471849094258522e-05, 'epoch': 43.06} {'loss': 0.0488, 'learning_rate': 2.8469450414491865e-05, 'epoch': 43.06} {'loss': 0.0486, 'learning_rate': 2.8467051734725208e-05, 'epoch': 43.07} {'loss': 0.0459, 'learning_rate': 2.846465305495855e-05, 'epoch': 43.07} {'loss': 0.0458, 'learning_rate': 2.8462254375191893e-05, 'epoch': 43.08} {'loss': 0.046, 'learning_rate': 2.8459855695425243e-05, 'epoch': 43.08} {'loss': 0.0476, 'learning_rate': 2.8457457015658585e-05, 'epoch': 43.09} {'loss': 0.0461, 'learning_rate': 2.8455058335891928e-05, 'epoch': 43.09} {'loss': 0.0464, 'learning_rate': 2.8452659656125267e-05, 'epoch': 43.09} {'loss': 0.0472, 'learning_rate': 2.845026097635861e-05, 'epoch': 43.1} {'loss': 0.0466, 'learning_rate': 2.844786229659196e-05, 'epoch': 43.1} {'loss': 0.0465, 'learning_rate': 2.8445463616825302e-05, 'epoch': 43.11} {'loss': 0.0493, 'learning_rate': 2.8443064937058645e-05, 'epoch': 43.11} {'loss': 0.047, 'learning_rate': 2.8440666257291988e-05, 'epoch': 43.12} {'loss': 0.0465, 'learning_rate': 2.843826757752533e-05, 'epoch': 43.12} {'loss': 0.0475, 'learning_rate': 2.8435868897758676e-05, 'epoch': 43.13} {'loss': 0.0472, 'learning_rate': 2.843347021799202e-05, 'epoch': 43.13} {'loss': 0.0497, 'learning_rate': 2.8431071538225362e-05, 'epoch': 43.14} {'loss': 0.045, 'learning_rate': 2.8428672858458705e-05, 'epoch': 43.14} {'loss': 0.0473, 'learning_rate': 2.8426274178692047e-05, 'epoch': 43.15} {'loss': 0.0461, 'learning_rate': 2.8423875498925397e-05, 'epoch': 43.15} {'loss': 0.0463, 'learning_rate': 2.8421476819158736e-05, 'epoch': 43.16} {'loss': 0.0477, 'learning_rate': 2.841907813939208e-05, 'epoch': 43.16} {'loss': 0.0494, 'learning_rate': 2.841667945962542e-05, 'epoch': 43.17} {'loss': 0.0479, 'learning_rate': 2.8414280779858764e-05, 'epoch': 43.17} {'loss': 0.0476, 'learning_rate': 2.8411882100092114e-05, 'epoch': 43.18} {'loss': 0.0472, 'learning_rate': 2.8409483420325456e-05, 'epoch': 43.18} {'loss': 0.0469, 'learning_rate': 2.84070847405588e-05, 'epoch': 43.19} {'loss': 0.0457, 'learning_rate': 2.8404686060792142e-05, 'epoch': 43.19} {'loss': 0.0492, 'learning_rate': 2.8402287381025484e-05, 'epoch': 43.2} {'loss': 0.0482, 'learning_rate': 2.839988870125883e-05, 'epoch': 43.2} {'loss': 0.0457, 'learning_rate': 2.8397490021492173e-05, 'epoch': 43.21} {'loss': 0.0463, 'learning_rate': 2.8395091341725516e-05, 'epoch': 43.21} {'loss': 0.0465, 'learning_rate': 2.839269266195886e-05, 'epoch': 43.21} {'loss': 0.0477, 'learning_rate': 2.83902939821922e-05, 'epoch': 43.22} {'loss': 0.0475, 'learning_rate': 2.8387895302425547e-05, 'epoch': 43.22} {'loss': 0.0493, 'learning_rate': 2.838549662265889e-05, 'epoch': 43.23} {'loss': 0.0499, 'learning_rate': 2.8383097942892233e-05, 'epoch': 43.23} {'loss': 0.0486, 'learning_rate': 2.8380699263125576e-05, 'epoch': 43.24} {'loss': 0.0486, 'learning_rate': 2.8378300583358918e-05, 'epoch': 43.24} {'loss': 0.0487, 'learning_rate': 2.8375901903592268e-05, 'epoch': 43.25} {'loss': 0.0471, 'learning_rate': 2.837350322382561e-05, 'epoch': 43.25} {'loss': 0.0485, 'learning_rate': 2.8371104544058953e-05, 'epoch': 43.26} {'loss': 0.0466, 'learning_rate': 2.8368705864292296e-05, 'epoch': 43.26} {'loss': 0.049, 'learning_rate': 2.8366307184525635e-05, 'epoch': 43.27} {'loss': 0.0505, 'learning_rate': 2.8363908504758985e-05, 'epoch': 43.27} {'loss': 0.0474, 'learning_rate': 2.8361509824992327e-05, 'epoch': 43.28} {'loss': 0.0472, 'learning_rate': 2.835911114522567e-05, 'epoch': 43.28} {'loss': 0.0477, 'learning_rate': 2.8356712465459013e-05, 'epoch': 43.29} {'loss': 0.0473, 'learning_rate': 2.8354313785692355e-05, 'epoch': 43.29} {'loss': 0.0474, 'learning_rate': 2.8351915105925698e-05, 'epoch': 43.3} {'loss': 0.048, 'learning_rate': 2.8349516426159044e-05, 'epoch': 43.3} {'loss': 0.0478, 'learning_rate': 2.8347117746392387e-05, 'epoch': 43.31} {'loss': 0.0482, 'learning_rate': 2.834471906662573e-05, 'epoch': 43.31} {'loss': 0.049, 'learning_rate': 2.8342320386859072e-05, 'epoch': 43.32} {'loss': 0.0484, 'learning_rate': 2.8339921707092415e-05, 'epoch': 43.32} {'loss': 0.0488, 'learning_rate': 2.8337523027325765e-05, 'epoch': 43.32} {'loss': 0.0474, 'learning_rate': 2.8335124347559104e-05, 'epoch': 43.33} {'loss': 0.0485, 'learning_rate': 2.8332725667792447e-05, 'epoch': 43.33} {'loss': 0.0466, 'learning_rate': 2.833032698802579e-05, 'epoch': 43.34} {'loss': 0.0512, 'learning_rate': 2.8327928308259132e-05, 'epoch': 43.34} {'loss': 0.0478, 'learning_rate': 2.832552962849248e-05, 'epoch': 43.35} {'loss': 0.0496, 'learning_rate': 2.8323130948725824e-05, 'epoch': 43.35} {'loss': 0.0477, 'learning_rate': 2.8320732268959167e-05, 'epoch': 43.36} {'loss': 0.0471, 'learning_rate': 2.831833358919251e-05, 'epoch': 43.36} {'loss': 0.0484, 'learning_rate': 2.8315934909425852e-05, 'epoch': 43.37} {'loss': 0.0479, 'learning_rate': 2.83135362296592e-05, 'epoch': 43.37} {'loss': 0.0469, 'learning_rate': 2.831113754989254e-05, 'epoch': 43.38} {'loss': 0.0488, 'learning_rate': 2.8308738870125884e-05, 'epoch': 43.38} {'loss': 0.0482, 'learning_rate': 2.8306340190359226e-05, 'epoch': 43.39} {'loss': 0.0493, 'learning_rate': 2.830394151059257e-05, 'epoch': 43.39} {'loss': 0.0491, 'learning_rate': 2.8301542830825915e-05, 'epoch': 43.4} {'loss': 0.0482, 'learning_rate': 2.8299144151059258e-05, 'epoch': 43.4} {'loss': 0.0488, 'learning_rate': 2.82967454712926e-05, 'epoch': 43.41} {'loss': 0.0467, 'learning_rate': 2.8294346791525943e-05, 'epoch': 43.41} {'loss': 0.0465, 'learning_rate': 2.8291948111759286e-05, 'epoch': 43.42} {'loss': 0.0473, 'learning_rate': 2.8289549431992636e-05, 'epoch': 43.42} {'loss': 0.0497, 'learning_rate': 2.8287150752225978e-05, 'epoch': 43.43} {'loss': 0.0456, 'learning_rate': 2.828475207245932e-05, 'epoch': 43.43} {'loss': 0.0459, 'learning_rate': 2.8282353392692664e-05, 'epoch': 43.44} {'loss': 0.0466, 'learning_rate': 2.8279954712926003e-05, 'epoch': 43.44} {'loss': 0.0469, 'learning_rate': 2.8277556033159352e-05, 'epoch': 43.44} {'loss': 0.0482, 'learning_rate': 2.8275157353392695e-05, 'epoch': 43.45} {'loss': 0.0469, 'learning_rate': 2.8272758673626038e-05, 'epoch': 43.45} {'loss': 0.0484, 'learning_rate': 2.827035999385938e-05, 'epoch': 43.46} {'loss': 0.0465, 'learning_rate': 2.8267961314092723e-05, 'epoch': 43.46} {'loss': 0.051, 'learning_rate': 2.826556263432607e-05, 'epoch': 43.47} {'loss': 0.0492, 'learning_rate': 2.8263163954559412e-05, 'epoch': 43.47} {'loss': 0.048, 'learning_rate': 2.8260765274792755e-05, 'epoch': 43.48} {'loss': 0.0471, 'learning_rate': 2.8258366595026097e-05, 'epoch': 43.48} {'loss': 0.05, 'learning_rate': 2.825596791525944e-05, 'epoch': 43.49} {'loss': 0.05, 'learning_rate': 2.825356923549279e-05, 'epoch': 43.49} {'loss': 0.0502, 'learning_rate': 2.8251170555726132e-05, 'epoch': 43.5} {'loss': 0.0491, 'learning_rate': 2.8248771875959472e-05, 'epoch': 43.5} {'loss': 0.0469, 'learning_rate': 2.8246373196192814e-05, 'epoch': 43.51} {'loss': 0.0469, 'learning_rate': 2.8243974516426157e-05, 'epoch': 43.51} {'loss': 0.0471, 'learning_rate': 2.8241575836659507e-05, 'epoch': 43.52} {'loss': 0.0477, 'learning_rate': 2.823917715689285e-05, 'epoch': 43.52} {'loss': 0.0464, 'learning_rate': 2.8236778477126192e-05, 'epoch': 43.53} {'loss': 0.0478, 'learning_rate': 2.8234379797359535e-05, 'epoch': 43.53} {'loss': 0.047, 'learning_rate': 2.8231981117592877e-05, 'epoch': 43.54} {'loss': 0.0486, 'learning_rate': 2.8229582437826223e-05, 'epoch': 43.54} {'loss': 0.0483, 'learning_rate': 2.8227183758059566e-05, 'epoch': 43.55} {'loss': 0.0473, 'learning_rate': 2.822478507829291e-05, 'epoch': 43.55} {'loss': 0.0476, 'learning_rate': 2.822238639852625e-05, 'epoch': 43.56} {'loss': 0.0492, 'learning_rate': 2.8219987718759594e-05, 'epoch': 43.56} {'loss': 0.0493, 'learning_rate': 2.821758903899294e-05, 'epoch': 43.56} {'loss': 0.0488, 'learning_rate': 2.8215190359226283e-05, 'epoch': 43.57} {'loss': 0.0472, 'learning_rate': 2.8212791679459626e-05, 'epoch': 43.57} {'loss': 0.0459, 'learning_rate': 2.821039299969297e-05, 'epoch': 43.58} {'loss': 0.0485, 'learning_rate': 2.820799431992631e-05, 'epoch': 43.58} {'loss': 0.0483, 'learning_rate': 2.820559564015966e-05, 'epoch': 43.59} {'loss': 0.0469, 'learning_rate': 2.8203196960393003e-05, 'epoch': 43.59} {'loss': 0.0488, 'learning_rate': 2.8200798280626346e-05, 'epoch': 43.6} {'loss': 0.0482, 'learning_rate': 2.819839960085969e-05, 'epoch': 43.6} {'loss': 0.0471, 'learning_rate': 2.819600092109303e-05, 'epoch': 43.61} {'loss': 0.0493, 'learning_rate': 2.8193602241326378e-05, 'epoch': 43.61} {'loss': 0.0488, 'learning_rate': 2.819120356155972e-05, 'epoch': 43.62} {'loss': 0.0456, 'learning_rate': 2.8188804881793063e-05, 'epoch': 43.62} {'loss': 0.0465, 'learning_rate': 2.8186406202026406e-05, 'epoch': 43.63} {'loss': 0.048, 'learning_rate': 2.818400752225975e-05, 'epoch': 43.63} {'loss': 0.0484, 'learning_rate': 2.8181608842493094e-05, 'epoch': 43.64} {'loss': 0.0494, 'learning_rate': 2.8179210162726437e-05, 'epoch': 43.64} {'loss': 0.0496, 'learning_rate': 2.817681148295978e-05, 'epoch': 43.65} {'loss': 0.0471, 'learning_rate': 2.8174412803193123e-05, 'epoch': 43.65} {'loss': 0.0469, 'learning_rate': 2.8172014123426465e-05, 'epoch': 43.66} {'loss': 0.0467, 'learning_rate': 2.8169615443659815e-05, 'epoch': 43.66} {'loss': 0.0485, 'learning_rate': 2.8167216763893157e-05, 'epoch': 43.67} {'loss': 0.0467, 'learning_rate': 2.81648180841265e-05, 'epoch': 43.67} {'loss': 0.0474, 'learning_rate': 2.816241940435984e-05, 'epoch': 43.68} {'loss': 0.049, 'learning_rate': 2.8160020724593182e-05, 'epoch': 43.68} {'loss': 0.0506, 'learning_rate': 2.815762204482653e-05, 'epoch': 43.68} {'loss': 0.0495, 'learning_rate': 2.8155223365059874e-05, 'epoch': 43.69} {'loss': 0.048, 'learning_rate': 2.8152824685293217e-05, 'epoch': 43.69} {'loss': 0.0491, 'learning_rate': 2.815042600552656e-05, 'epoch': 43.7} {'loss': 0.0482, 'learning_rate': 2.8148027325759903e-05, 'epoch': 43.7} {'loss': 0.0472, 'learning_rate': 2.8145628645993245e-05, 'epoch': 43.71} {'loss': 0.0495, 'learning_rate': 2.814322996622659e-05, 'epoch': 43.71} {'loss': 0.0471, 'learning_rate': 2.8140831286459934e-05, 'epoch': 43.72} {'loss': 0.0507, 'learning_rate': 2.8138432606693277e-05, 'epoch': 43.72} {'loss': 0.0473, 'learning_rate': 2.813603392692662e-05, 'epoch': 43.73} {'loss': 0.0465, 'learning_rate': 2.8133635247159962e-05, 'epoch': 43.73} {'loss': 0.0473, 'learning_rate': 2.8131236567393308e-05, 'epoch': 43.74} {'loss': 0.0482, 'learning_rate': 2.812883788762665e-05, 'epoch': 43.74} {'loss': 0.0486, 'learning_rate': 2.8126439207859994e-05, 'epoch': 43.75} {'loss': 0.0479, 'learning_rate': 2.8124040528093336e-05, 'epoch': 43.75} {'loss': 0.0477, 'learning_rate': 2.812164184832668e-05, 'epoch': 43.76} {'loss': 0.0477, 'learning_rate': 2.811924316856003e-05, 'epoch': 43.76} {'loss': 0.0484, 'learning_rate': 2.811684448879337e-05, 'epoch': 43.77} {'loss': 0.048, 'learning_rate': 2.8114445809026714e-05, 'epoch': 43.77} {'loss': 0.046, 'learning_rate': 2.8112047129260057e-05, 'epoch': 43.78} {'loss': 0.0476, 'learning_rate': 2.8109648449493396e-05, 'epoch': 43.78} {'loss': 0.0456, 'learning_rate': 2.8107249769726745e-05, 'epoch': 43.79} {'loss': 0.0499, 'learning_rate': 2.8104851089960088e-05, 'epoch': 43.79} {'loss': 0.0448, 'learning_rate': 2.810245241019343e-05, 'epoch': 43.8} {'loss': 0.0477, 'learning_rate': 2.8100053730426774e-05, 'epoch': 43.8} {'loss': 0.0479, 'learning_rate': 2.8097655050660116e-05, 'epoch': 43.8} {'loss': 0.049, 'learning_rate': 2.8095256370893462e-05, 'epoch': 43.81} {'loss': 0.0486, 'learning_rate': 2.8092857691126805e-05, 'epoch': 43.81} {'loss': 0.0488, 'learning_rate': 2.8090459011360148e-05, 'epoch': 43.82} {'loss': 0.0481, 'learning_rate': 2.808806033159349e-05, 'epoch': 43.82} {'loss': 0.0483, 'learning_rate': 2.8085661651826833e-05, 'epoch': 43.83} {'loss': 0.0466, 'learning_rate': 2.8083262972060183e-05, 'epoch': 43.83} {'loss': 0.048, 'learning_rate': 2.8080864292293525e-05, 'epoch': 43.84} {'loss': 0.0481, 'learning_rate': 2.8078465612526868e-05, 'epoch': 43.84} {'loss': 0.0478, 'learning_rate': 2.8076066932760207e-05, 'epoch': 43.85} {'loss': 0.0478, 'learning_rate': 2.807366825299355e-05, 'epoch': 43.85} {'loss': 0.0471, 'learning_rate': 2.80712695732269e-05, 'epoch': 43.86} {'loss': 0.0457, 'learning_rate': 2.8068870893460242e-05, 'epoch': 43.86} {'loss': 0.0467, 'learning_rate': 2.8066472213693585e-05, 'epoch': 43.87} {'loss': 0.0469, 'learning_rate': 2.8064073533926928e-05, 'epoch': 43.87} {'loss': 0.0485, 'learning_rate': 2.806167485416027e-05, 'epoch': 43.88} {'loss': 0.047, 'learning_rate': 2.8059276174393616e-05, 'epoch': 43.88} {'loss': 0.0481, 'learning_rate': 2.805687749462696e-05, 'epoch': 43.89} {'loss': 0.0495, 'learning_rate': 2.8054478814860302e-05, 'epoch': 43.89} {'loss': 0.0491, 'learning_rate': 2.8052080135093645e-05, 'epoch': 43.9} {'loss': 0.05, 'learning_rate': 2.8049681455326987e-05, 'epoch': 43.9} {'loss': 0.0491, 'learning_rate': 2.8047282775560337e-05, 'epoch': 43.91} {'loss': 0.0456, 'learning_rate': 2.8044884095793676e-05, 'epoch': 43.91} {'loss': 0.0514, 'learning_rate': 2.804248541602702e-05, 'epoch': 43.92} {'loss': 0.0472, 'learning_rate': 2.804008673626036e-05, 'epoch': 43.92} {'loss': 0.0477, 'learning_rate': 2.8037688056493704e-05, 'epoch': 43.92} {'loss': 0.0476, 'learning_rate': 2.8035289376727054e-05, 'epoch': 43.93} {'loss': 0.0459, 'learning_rate': 2.8032890696960396e-05, 'epoch': 43.93} {'loss': 0.0459, 'learning_rate': 2.803049201719374e-05, 'epoch': 43.94} {'loss': 0.0507, 'learning_rate': 2.8028093337427082e-05, 'epoch': 43.94} {'loss': 0.0478, 'learning_rate': 2.8025694657660424e-05, 'epoch': 43.95} {'loss': 0.0478, 'learning_rate': 2.802329597789377e-05, 'epoch': 43.95} {'loss': 0.0486, 'learning_rate': 2.8020897298127113e-05, 'epoch': 43.96} {'loss': 0.0479, 'learning_rate': 2.8018498618360456e-05, 'epoch': 43.96} {'loss': 0.0464, 'learning_rate': 2.80160999385938e-05, 'epoch': 43.97} {'loss': 0.046, 'learning_rate': 2.801370125882714e-05, 'epoch': 43.97} {'loss': 0.0456, 'learning_rate': 2.8011302579060487e-05, 'epoch': 43.98} {'loss': 0.046, 'learning_rate': 2.800890389929383e-05, 'epoch': 43.98} {'loss': 0.0473, 'learning_rate': 2.8006505219527173e-05, 'epoch': 43.99} {'loss': 0.0466, 'learning_rate': 2.8004106539760516e-05, 'epoch': 43.99} {'loss': 0.0489, 'learning_rate': 2.8001707859993858e-05, 'epoch': 44.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.045091431587934494, 'eval_runtime': 758.2182, 'eval_samples_per_second': 549.835, 'eval_steps_per_second': 68.73, 'epoch': 44.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-4585856 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-4585856/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-4585856/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-4481632] due to args.save_total_limit {'loss': 0.0481, 'learning_rate': 2.7999309180227208e-05, 'epoch': 44.0} {'loss': 0.048, 'learning_rate': 2.799691050046055e-05, 'epoch': 44.01} {'loss': 0.0503, 'learning_rate': 2.7994511820693893e-05, 'epoch': 44.01} {'loss': 0.0491, 'learning_rate': 2.7992113140927236e-05, 'epoch': 44.02} {'loss': 0.047, 'learning_rate': 2.7989714461160575e-05, 'epoch': 44.02} {'loss': 0.0468, 'learning_rate': 2.7987315781393925e-05, 'epoch': 44.03} {'loss': 0.0447, 'learning_rate': 2.7984917101627267e-05, 'epoch': 44.03} {'loss': 0.0458, 'learning_rate': 2.798251842186061e-05, 'epoch': 44.03} {'loss': 0.0482, 'learning_rate': 2.7980119742093953e-05, 'epoch': 44.04} {'loss': 0.0462, 'learning_rate': 2.7977721062327295e-05, 'epoch': 44.04} {'loss': 0.0468, 'learning_rate': 2.797532238256064e-05, 'epoch': 44.05} {'loss': 0.0469, 'learning_rate': 2.7972923702793984e-05, 'epoch': 44.05} {'loss': 0.0466, 'learning_rate': 2.7970525023027327e-05, 'epoch': 44.06} {'loss': 0.0496, 'learning_rate': 2.796812634326067e-05, 'epoch': 44.06} {'loss': 0.046, 'learning_rate': 2.7965727663494012e-05, 'epoch': 44.07} {'loss': 0.0474, 'learning_rate': 2.7963328983727362e-05, 'epoch': 44.07} {'loss': 0.0466, 'learning_rate': 2.7960930303960705e-05, 'epoch': 44.08} {'loss': 0.047, 'learning_rate': 2.7958531624194044e-05, 'epoch': 44.08} {'loss': 0.0486, 'learning_rate': 2.7956132944427387e-05, 'epoch': 44.09} {'loss': 0.0467, 'learning_rate': 2.795373426466073e-05, 'epoch': 44.09} {'loss': 0.0474, 'learning_rate': 2.795133558489408e-05, 'epoch': 44.1} {'loss': 0.0469, 'learning_rate': 2.794893690512742e-05, 'epoch': 44.1} {'loss': 0.0487, 'learning_rate': 2.7946538225360764e-05, 'epoch': 44.11} {'loss': 0.0483, 'learning_rate': 2.7944139545594107e-05, 'epoch': 44.11} {'loss': 0.0462, 'learning_rate': 2.794174086582745e-05, 'epoch': 44.12} {'loss': 0.047, 'learning_rate': 2.7939342186060796e-05, 'epoch': 44.12} {'loss': 0.0472, 'learning_rate': 2.793694350629414e-05, 'epoch': 44.13} {'loss': 0.0467, 'learning_rate': 2.793454482652748e-05, 'epoch': 44.13} {'loss': 0.0481, 'learning_rate': 2.7932146146760824e-05, 'epoch': 44.14} {'loss': 0.0454, 'learning_rate': 2.7929747466994166e-05, 'epoch': 44.14} {'loss': 0.0484, 'learning_rate': 2.792734878722751e-05, 'epoch': 44.15} {'loss': 0.0485, 'learning_rate': 2.7924950107460855e-05, 'epoch': 44.15} {'loss': 0.0474, 'learning_rate': 2.7922551427694198e-05, 'epoch': 44.15} {'loss': 0.0467, 'learning_rate': 2.792015274792754e-05, 'epoch': 44.16} {'loss': 0.0476, 'learning_rate': 2.7917754068160883e-05, 'epoch': 44.16} {'loss': 0.0468, 'learning_rate': 2.7915355388394226e-05, 'epoch': 44.17} {'loss': 0.0462, 'learning_rate': 2.7912956708627576e-05, 'epoch': 44.17} {'loss': 0.0475, 'learning_rate': 2.7910558028860918e-05, 'epoch': 44.18} {'loss': 0.049, 'learning_rate': 2.790815934909426e-05, 'epoch': 44.18} {'loss': 0.0496, 'learning_rate': 2.79057606693276e-05, 'epoch': 44.19} {'loss': 0.0467, 'learning_rate': 2.7903361989560943e-05, 'epoch': 44.19} {'loss': 0.0469, 'learning_rate': 2.7900963309794292e-05, 'epoch': 44.2} {'loss': 0.0486, 'learning_rate': 2.7898564630027635e-05, 'epoch': 44.2} {'loss': 0.0479, 'learning_rate': 2.7896165950260978e-05, 'epoch': 44.21} {'loss': 0.0453, 'learning_rate': 2.789376727049432e-05, 'epoch': 44.21} {'loss': 0.0458, 'learning_rate': 2.7891368590727663e-05, 'epoch': 44.22} {'loss': 0.0482, 'learning_rate': 2.788896991096101e-05, 'epoch': 44.22} {'loss': 0.0482, 'learning_rate': 2.7886571231194352e-05, 'epoch': 44.23} {'loss': 0.0487, 'learning_rate': 2.7884172551427695e-05, 'epoch': 44.23} {'loss': 0.0486, 'learning_rate': 2.7881773871661037e-05, 'epoch': 44.24} {'loss': 0.0471, 'learning_rate': 2.787937519189438e-05, 'epoch': 44.24} {'loss': 0.0452, 'learning_rate': 2.787697651212773e-05, 'epoch': 44.25} {'loss': 0.0489, 'learning_rate': 2.7874577832361072e-05, 'epoch': 44.25} {'loss': 0.0477, 'learning_rate': 2.787217915259441e-05, 'epoch': 44.26} {'loss': 0.0468, 'learning_rate': 2.7869780472827754e-05, 'epoch': 44.26} {'loss': 0.0477, 'learning_rate': 2.7867381793061097e-05, 'epoch': 44.27} {'loss': 0.0468, 'learning_rate': 2.7864983113294447e-05, 'epoch': 44.27} {'loss': 0.0487, 'learning_rate': 2.786258443352779e-05, 'epoch': 44.27} {'loss': 0.0478, 'learning_rate': 2.7860185753761132e-05, 'epoch': 44.28} {'loss': 0.047, 'learning_rate': 2.7857787073994475e-05, 'epoch': 44.28} {'loss': 0.0449, 'learning_rate': 2.7855388394227817e-05, 'epoch': 44.29} {'loss': 0.0472, 'learning_rate': 2.7852989714461163e-05, 'epoch': 44.29} {'loss': 0.0482, 'learning_rate': 2.7850591034694506e-05, 'epoch': 44.3} {'loss': 0.0484, 'learning_rate': 2.784819235492785e-05, 'epoch': 44.3} {'loss': 0.0455, 'learning_rate': 2.784579367516119e-05, 'epoch': 44.31} {'loss': 0.0463, 'learning_rate': 2.7843394995394534e-05, 'epoch': 44.31} {'loss': 0.0474, 'learning_rate': 2.784099631562788e-05, 'epoch': 44.32} {'loss': 0.0466, 'learning_rate': 2.7838597635861223e-05, 'epoch': 44.32} {'loss': 0.0495, 'learning_rate': 2.7836198956094566e-05, 'epoch': 44.33} {'loss': 0.0465, 'learning_rate': 2.783380027632791e-05, 'epoch': 44.33} {'loss': 0.0485, 'learning_rate': 2.783140159656125e-05, 'epoch': 44.34} {'loss': 0.0477, 'learning_rate': 2.78290029167946e-05, 'epoch': 44.34} {'loss': 0.0468, 'learning_rate': 2.7826604237027943e-05, 'epoch': 44.35} {'loss': 0.0467, 'learning_rate': 2.7824205557261286e-05, 'epoch': 44.35} {'loss': 0.0487, 'learning_rate': 2.782180687749463e-05, 'epoch': 44.36} {'loss': 0.0481, 'learning_rate': 2.7819408197727968e-05, 'epoch': 44.36} {'loss': 0.047, 'learning_rate': 2.7817009517961318e-05, 'epoch': 44.37} {'loss': 0.0488, 'learning_rate': 2.781461083819466e-05, 'epoch': 44.37} {'loss': 0.0452, 'learning_rate': 2.7812212158428003e-05, 'epoch': 44.38} {'loss': 0.0473, 'learning_rate': 2.7809813478661346e-05, 'epoch': 44.38} {'loss': 0.045, 'learning_rate': 2.780741479889469e-05, 'epoch': 44.39} {'loss': 0.0471, 'learning_rate': 2.7805016119128034e-05, 'epoch': 44.39} {'loss': 0.0445, 'learning_rate': 2.7802617439361377e-05, 'epoch': 44.39} {'loss': 0.0447, 'learning_rate': 2.780021875959472e-05, 'epoch': 44.4} {'loss': 0.046, 'learning_rate': 2.7797820079828063e-05, 'epoch': 44.4} {'loss': 0.0463, 'learning_rate': 2.7795421400061405e-05, 'epoch': 44.41} {'loss': 0.0489, 'learning_rate': 2.7793022720294755e-05, 'epoch': 44.41} {'loss': 0.0454, 'learning_rate': 2.7790624040528097e-05, 'epoch': 44.42} {'loss': 0.0467, 'learning_rate': 2.778822536076144e-05, 'epoch': 44.42} {'loss': 0.0467, 'learning_rate': 2.778582668099478e-05, 'epoch': 44.43} {'loss': 0.0476, 'learning_rate': 2.7783428001228122e-05, 'epoch': 44.43} {'loss': 0.0495, 'learning_rate': 2.778102932146147e-05, 'epoch': 44.44} {'loss': 0.0476, 'learning_rate': 2.7778630641694814e-05, 'epoch': 44.44} {'loss': 0.047, 'learning_rate': 2.7776231961928157e-05, 'epoch': 44.45} {'loss': 0.0451, 'learning_rate': 2.77738332821615e-05, 'epoch': 44.45} {'loss': 0.0458, 'learning_rate': 2.7771434602394842e-05, 'epoch': 44.46} {'loss': 0.0488, 'learning_rate': 2.776903592262819e-05, 'epoch': 44.46} {'loss': 0.0467, 'learning_rate': 2.776663724286153e-05, 'epoch': 44.47} {'loss': 0.0467, 'learning_rate': 2.7764238563094874e-05, 'epoch': 44.47} {'loss': 0.0468, 'learning_rate': 2.7761839883328217e-05, 'epoch': 44.48} {'loss': 0.0495, 'learning_rate': 2.775944120356156e-05, 'epoch': 44.48} {'loss': 0.0492, 'learning_rate': 2.775704252379491e-05, 'epoch': 44.49} {'loss': 0.0465, 'learning_rate': 2.7754643844028248e-05, 'epoch': 44.49} {'loss': 0.0472, 'learning_rate': 2.775224516426159e-05, 'epoch': 44.5} {'loss': 0.047, 'learning_rate': 2.7749846484494934e-05, 'epoch': 44.5} {'loss': 0.0462, 'learning_rate': 2.7747447804728276e-05, 'epoch': 44.51} {'loss': 0.0471, 'learning_rate': 2.7745049124961626e-05, 'epoch': 44.51} {'loss': 0.0493, 'learning_rate': 2.774265044519497e-05, 'epoch': 44.51} {'loss': 0.0509, 'learning_rate': 2.774025176542831e-05, 'epoch': 44.52} {'loss': 0.0467, 'learning_rate': 2.7737853085661654e-05, 'epoch': 44.52} {'loss': 0.0464, 'learning_rate': 2.7735454405894997e-05, 'epoch': 44.53} {'loss': 0.0469, 'learning_rate': 2.7733055726128343e-05, 'epoch': 44.53} {'loss': 0.0491, 'learning_rate': 2.7730657046361685e-05, 'epoch': 44.54} {'loss': 0.0472, 'learning_rate': 2.7728258366595028e-05, 'epoch': 44.54} {'loss': 0.047, 'learning_rate': 2.772585968682837e-05, 'epoch': 44.55} {'loss': 0.0479, 'learning_rate': 2.7723461007061713e-05, 'epoch': 44.55} {'loss': 0.0488, 'learning_rate': 2.7721062327295056e-05, 'epoch': 44.56} {'loss': 0.047, 'learning_rate': 2.7718663647528402e-05, 'epoch': 44.56} {'loss': 0.0482, 'learning_rate': 2.7716264967761745e-05, 'epoch': 44.57} {'loss': 0.0464, 'learning_rate': 2.7713866287995088e-05, 'epoch': 44.57} {'loss': 0.0478, 'learning_rate': 2.771146760822843e-05, 'epoch': 44.58} {'loss': 0.0464, 'learning_rate': 2.7709068928461773e-05, 'epoch': 44.58} {'loss': 0.0506, 'learning_rate': 2.7706670248695123e-05, 'epoch': 44.59} {'loss': 0.0477, 'learning_rate': 2.7704271568928465e-05, 'epoch': 44.59} {'loss': 0.0491, 'learning_rate': 2.7701872889161805e-05, 'epoch': 44.6} {'loss': 0.0467, 'learning_rate': 2.7699474209395147e-05, 'epoch': 44.6} {'loss': 0.0458, 'learning_rate': 2.769707552962849e-05, 'epoch': 44.61} {'loss': 0.0474, 'learning_rate': 2.769467684986184e-05, 'epoch': 44.61} {'loss': 0.0475, 'learning_rate': 2.7692278170095182e-05, 'epoch': 44.62} {'loss': 0.0468, 'learning_rate': 2.7689879490328525e-05, 'epoch': 44.62} {'loss': 0.0483, 'learning_rate': 2.7687480810561868e-05, 'epoch': 44.63} {'loss': 0.0477, 'learning_rate': 2.768508213079521e-05, 'epoch': 44.63} {'loss': 0.0461, 'learning_rate': 2.7682683451028556e-05, 'epoch': 44.63} {'loss': 0.0474, 'learning_rate': 2.76802847712619e-05, 'epoch': 44.64} {'loss': 0.0469, 'learning_rate': 2.7677886091495242e-05, 'epoch': 44.64} {'loss': 0.0482, 'learning_rate': 2.7675487411728584e-05, 'epoch': 44.65} {'loss': 0.0465, 'learning_rate': 2.7673088731961927e-05, 'epoch': 44.65} {'loss': 0.0487, 'learning_rate': 2.7670690052195277e-05, 'epoch': 44.66} {'loss': 0.0476, 'learning_rate': 2.7668291372428616e-05, 'epoch': 44.66} {'loss': 0.0486, 'learning_rate': 2.766589269266196e-05, 'epoch': 44.67} {'loss': 0.0461, 'learning_rate': 2.76634940128953e-05, 'epoch': 44.67} {'loss': 0.0484, 'learning_rate': 2.7661095333128644e-05, 'epoch': 44.68} {'loss': 0.0495, 'learning_rate': 2.7658696653361994e-05, 'epoch': 44.68} {'loss': 0.0462, 'learning_rate': 2.7656297973595336e-05, 'epoch': 44.69} {'loss': 0.0468, 'learning_rate': 2.765389929382868e-05, 'epoch': 44.69} {'loss': 0.0495, 'learning_rate': 2.765150061406202e-05, 'epoch': 44.7} {'loss': 0.0462, 'learning_rate': 2.7649101934295364e-05, 'epoch': 44.7} {'loss': 0.0491, 'learning_rate': 2.764670325452871e-05, 'epoch': 44.71} {'loss': 0.0481, 'learning_rate': 2.7644304574762053e-05, 'epoch': 44.71} {'loss': 0.0485, 'learning_rate': 2.7641905894995396e-05, 'epoch': 44.72} {'loss': 0.0476, 'learning_rate': 2.763950721522874e-05, 'epoch': 44.72} {'loss': 0.0477, 'learning_rate': 2.763710853546208e-05, 'epoch': 44.73} {'loss': 0.0486, 'learning_rate': 2.7634709855695427e-05, 'epoch': 44.73} {'loss': 0.0471, 'learning_rate': 2.763231117592877e-05, 'epoch': 44.74} {'loss': 0.049, 'learning_rate': 2.7629912496162113e-05, 'epoch': 44.74} {'loss': 0.045, 'learning_rate': 2.7627513816395455e-05, 'epoch': 44.74} {'loss': 0.0491, 'learning_rate': 2.7625115136628798e-05, 'epoch': 44.75} {'loss': 0.0472, 'learning_rate': 2.7622716456862148e-05, 'epoch': 44.75} {'loss': 0.0457, 'learning_rate': 2.762031777709549e-05, 'epoch': 44.76} {'loss': 0.0466, 'learning_rate': 2.7617919097328833e-05, 'epoch': 44.76} {'loss': 0.0485, 'learning_rate': 2.7615520417562172e-05, 'epoch': 44.77} {'loss': 0.0458, 'learning_rate': 2.7613121737795515e-05, 'epoch': 44.77} {'loss': 0.0471, 'learning_rate': 2.7610723058028865e-05, 'epoch': 44.78} {'loss': 0.0475, 'learning_rate': 2.7608324378262207e-05, 'epoch': 44.78} {'loss': 0.0502, 'learning_rate': 2.760592569849555e-05, 'epoch': 44.79} {'loss': 0.048, 'learning_rate': 2.7603527018728893e-05, 'epoch': 44.79} {'loss': 0.0468, 'learning_rate': 2.7601128338962235e-05, 'epoch': 44.8} {'loss': 0.0485, 'learning_rate': 2.759872965919558e-05, 'epoch': 44.8} {'loss': 0.046, 'learning_rate': 2.7596330979428924e-05, 'epoch': 44.81} {'loss': 0.0457, 'learning_rate': 2.7593932299662267e-05, 'epoch': 44.81} {'loss': 0.0467, 'learning_rate': 2.759153361989561e-05, 'epoch': 44.82} {'loss': 0.0455, 'learning_rate': 2.7589134940128952e-05, 'epoch': 44.82} {'loss': 0.0465, 'learning_rate': 2.7586736260362302e-05, 'epoch': 44.83} {'loss': 0.0477, 'learning_rate': 2.7584337580595644e-05, 'epoch': 44.83} {'loss': 0.0487, 'learning_rate': 2.7581938900828984e-05, 'epoch': 44.84} {'loss': 0.0501, 'learning_rate': 2.7579540221062326e-05, 'epoch': 44.84} {'loss': 0.0486, 'learning_rate': 2.757714154129567e-05, 'epoch': 44.85} {'loss': 0.048, 'learning_rate': 2.757474286152902e-05, 'epoch': 44.85} {'loss': 0.0477, 'learning_rate': 2.757234418176236e-05, 'epoch': 44.86} {'loss': 0.0483, 'learning_rate': 2.7569945501995704e-05, 'epoch': 44.86} {'loss': 0.0488, 'learning_rate': 2.7567546822229047e-05, 'epoch': 44.86} {'loss': 0.0483, 'learning_rate': 2.756514814246239e-05, 'epoch': 44.87} {'loss': 0.0448, 'learning_rate': 2.7562749462695736e-05, 'epoch': 44.87} {'loss': 0.0475, 'learning_rate': 2.7560350782929078e-05, 'epoch': 44.88} {'loss': 0.0454, 'learning_rate': 2.755795210316242e-05, 'epoch': 44.88} {'loss': 0.0496, 'learning_rate': 2.7555553423395764e-05, 'epoch': 44.89} {'loss': 0.0489, 'learning_rate': 2.7553154743629106e-05, 'epoch': 44.89} {'loss': 0.0485, 'learning_rate': 2.7550756063862452e-05, 'epoch': 44.9} {'loss': 0.0486, 'learning_rate': 2.7548357384095795e-05, 'epoch': 44.9} {'loss': 0.0479, 'learning_rate': 2.7545958704329138e-05, 'epoch': 44.91} {'loss': 0.0462, 'learning_rate': 2.754356002456248e-05, 'epoch': 44.91} {'loss': 0.0467, 'learning_rate': 2.7541161344795823e-05, 'epoch': 44.92} {'loss': 0.0458, 'learning_rate': 2.7538762665029173e-05, 'epoch': 44.92} {'loss': 0.0486, 'learning_rate': 2.7536363985262515e-05, 'epoch': 44.93} {'loss': 0.046, 'learning_rate': 2.7533965305495858e-05, 'epoch': 44.93} {'loss': 0.0463, 'learning_rate': 2.75315666257292e-05, 'epoch': 44.94} {'loss': 0.0468, 'learning_rate': 2.752916794596254e-05, 'epoch': 44.94} {'loss': 0.0467, 'learning_rate': 2.752676926619589e-05, 'epoch': 44.95} {'loss': 0.0493, 'learning_rate': 2.7524370586429232e-05, 'epoch': 44.95} {'loss': 0.0494, 'learning_rate': 2.7521971906662575e-05, 'epoch': 44.96} {'loss': 0.0486, 'learning_rate': 2.7519573226895918e-05, 'epoch': 44.96} {'loss': 0.0481, 'learning_rate': 2.751717454712926e-05, 'epoch': 44.97} {'loss': 0.0482, 'learning_rate': 2.7514775867362607e-05, 'epoch': 44.97} {'loss': 0.048, 'learning_rate': 2.751237718759595e-05, 'epoch': 44.98} {'loss': 0.0494, 'learning_rate': 2.7509978507829292e-05, 'epoch': 44.98} {'loss': 0.0475, 'learning_rate': 2.7507579828062635e-05, 'epoch': 44.98} {'loss': 0.0476, 'learning_rate': 2.7505181148295977e-05, 'epoch': 44.99} {'loss': 0.0463, 'learning_rate': 2.750278246852932e-05, 'epoch': 44.99} {'loss': 0.0479, 'learning_rate': 2.750038378876267e-05, 'epoch': 45.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04573497921228409, 'eval_runtime': 740.9799, 'eval_samples_per_second': 562.627, 'eval_steps_per_second': 70.328, 'epoch': 45.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-4690080 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-4690080/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-4690080/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-4585856] due to args.save_total_limit {'loss': 0.045, 'learning_rate': 2.7497985108996012e-05, 'epoch': 45.0} {'loss': 0.0463, 'learning_rate': 2.749558642922935e-05, 'epoch': 45.01} {'loss': 0.045, 'learning_rate': 2.7493187749462694e-05, 'epoch': 45.01} {'loss': 0.0449, 'learning_rate': 2.7490789069696037e-05, 'epoch': 45.02} {'loss': 0.0475, 'learning_rate': 2.7488390389929386e-05, 'epoch': 45.02} {'loss': 0.0442, 'learning_rate': 2.748599171016273e-05, 'epoch': 45.03} {'loss': 0.0452, 'learning_rate': 2.7483593030396072e-05, 'epoch': 45.03} {'loss': 0.0474, 'learning_rate': 2.7481194350629415e-05, 'epoch': 45.04} {'loss': 0.046, 'learning_rate': 2.7478795670862757e-05, 'epoch': 45.04} {'loss': 0.0485, 'learning_rate': 2.7476396991096103e-05, 'epoch': 45.05} {'loss': 0.0468, 'learning_rate': 2.7473998311329446e-05, 'epoch': 45.05} {'loss': 0.0469, 'learning_rate': 2.747159963156279e-05, 'epoch': 45.06} {'loss': 0.0499, 'learning_rate': 2.746920095179613e-05, 'epoch': 45.06} {'loss': 0.0453, 'learning_rate': 2.7466802272029474e-05, 'epoch': 45.07} {'loss': 0.0452, 'learning_rate': 2.746440359226282e-05, 'epoch': 45.07} {'loss': 0.0479, 'learning_rate': 2.7462004912496163e-05, 'epoch': 45.08} {'loss': 0.0473, 'learning_rate': 2.7459606232729506e-05, 'epoch': 45.08} {'loss': 0.0472, 'learning_rate': 2.745720755296285e-05, 'epoch': 45.09} {'loss': 0.0457, 'learning_rate': 2.745480887319619e-05, 'epoch': 45.09} {'loss': 0.0488, 'learning_rate': 2.745241019342954e-05, 'epoch': 45.1} {'loss': 0.0483, 'learning_rate': 2.7450011513662883e-05, 'epoch': 45.1} {'loss': 0.048, 'learning_rate': 2.7447612833896226e-05, 'epoch': 45.1} {'loss': 0.0463, 'learning_rate': 2.744521415412957e-05, 'epoch': 45.11} {'loss': 0.0458, 'learning_rate': 2.7442815474362908e-05, 'epoch': 45.11} {'loss': 0.0446, 'learning_rate': 2.7440416794596257e-05, 'epoch': 45.12} {'loss': 0.0477, 'learning_rate': 2.74380181148296e-05, 'epoch': 45.12} {'loss': 0.0469, 'learning_rate': 2.7435619435062943e-05, 'epoch': 45.13} {'loss': 0.0468, 'learning_rate': 2.7433220755296286e-05, 'epoch': 45.13} {'loss': 0.0461, 'learning_rate': 2.7430822075529628e-05, 'epoch': 45.14} {'loss': 0.0465, 'learning_rate': 2.7428423395762974e-05, 'epoch': 45.14} {'loss': 0.0456, 'learning_rate': 2.7426024715996317e-05, 'epoch': 45.15} {'loss': 0.0474, 'learning_rate': 2.742362603622966e-05, 'epoch': 45.15} {'loss': 0.0472, 'learning_rate': 2.7421227356463002e-05, 'epoch': 45.16} {'loss': 0.0476, 'learning_rate': 2.7418828676696345e-05, 'epoch': 45.16} {'loss': 0.0475, 'learning_rate': 2.7416429996929695e-05, 'epoch': 45.17} {'loss': 0.0477, 'learning_rate': 2.7414031317163037e-05, 'epoch': 45.17} {'loss': 0.0479, 'learning_rate': 2.7411632637396377e-05, 'epoch': 45.18} {'loss': 0.0476, 'learning_rate': 2.740923395762972e-05, 'epoch': 45.18} {'loss': 0.0469, 'learning_rate': 2.7406835277863062e-05, 'epoch': 45.19} {'loss': 0.0445, 'learning_rate': 2.740443659809641e-05, 'epoch': 45.19} {'loss': 0.0467, 'learning_rate': 2.7402037918329754e-05, 'epoch': 45.2} {'loss': 0.0441, 'learning_rate': 2.7399639238563097e-05, 'epoch': 45.2} {'loss': 0.0478, 'learning_rate': 2.739724055879644e-05, 'epoch': 45.21} {'loss': 0.0487, 'learning_rate': 2.7394841879029782e-05, 'epoch': 45.21} {'loss': 0.0473, 'learning_rate': 2.739244319926313e-05, 'epoch': 45.22} {'loss': 0.0459, 'learning_rate': 2.739004451949647e-05, 'epoch': 45.22} {'loss': 0.0459, 'learning_rate': 2.7387645839729814e-05, 'epoch': 45.22} {'loss': 0.0468, 'learning_rate': 2.7385247159963157e-05, 'epoch': 45.23} {'loss': 0.0472, 'learning_rate': 2.73828484801965e-05, 'epoch': 45.23} {'loss': 0.0484, 'learning_rate': 2.738044980042985e-05, 'epoch': 45.24} {'loss': 0.047, 'learning_rate': 2.7378051120663188e-05, 'epoch': 45.24} {'loss': 0.0467, 'learning_rate': 2.737565244089653e-05, 'epoch': 45.25} {'loss': 0.0472, 'learning_rate': 2.7373253761129873e-05, 'epoch': 45.25} {'loss': 0.0472, 'learning_rate': 2.7370855081363216e-05, 'epoch': 45.26} {'loss': 0.0478, 'learning_rate': 2.7368456401596566e-05, 'epoch': 45.26} {'loss': 0.0463, 'learning_rate': 2.736605772182991e-05, 'epoch': 45.27} {'loss': 0.0466, 'learning_rate': 2.736365904206325e-05, 'epoch': 45.27} {'loss': 0.047, 'learning_rate': 2.7361260362296594e-05, 'epoch': 45.28} {'loss': 0.0472, 'learning_rate': 2.7358861682529936e-05, 'epoch': 45.28} {'loss': 0.0475, 'learning_rate': 2.7356463002763283e-05, 'epoch': 45.29} {'loss': 0.0456, 'learning_rate': 2.7354064322996625e-05, 'epoch': 45.29} {'loss': 0.0465, 'learning_rate': 2.7351665643229968e-05, 'epoch': 45.3} {'loss': 0.0478, 'learning_rate': 2.734926696346331e-05, 'epoch': 45.3} {'loss': 0.0474, 'learning_rate': 2.7346868283696653e-05, 'epoch': 45.31} {'loss': 0.0448, 'learning_rate': 2.734446960393e-05, 'epoch': 45.31} {'loss': 0.0486, 'learning_rate': 2.7342070924163342e-05, 'epoch': 45.32} {'loss': 0.0485, 'learning_rate': 2.7339672244396685e-05, 'epoch': 45.32} {'loss': 0.0458, 'learning_rate': 2.7337273564630028e-05, 'epoch': 45.33} {'loss': 0.0462, 'learning_rate': 2.733487488486337e-05, 'epoch': 45.33} {'loss': 0.0448, 'learning_rate': 2.733247620509672e-05, 'epoch': 45.34} {'loss': 0.0456, 'learning_rate': 2.7330077525330062e-05, 'epoch': 45.34} {'loss': 0.048, 'learning_rate': 2.7327678845563405e-05, 'epoch': 45.34} {'loss': 0.0469, 'learning_rate': 2.7325280165796744e-05, 'epoch': 45.35} {'loss': 0.0448, 'learning_rate': 2.7322881486030087e-05, 'epoch': 45.35} {'loss': 0.0481, 'learning_rate': 2.7320482806263437e-05, 'epoch': 45.36} {'loss': 0.046, 'learning_rate': 2.731808412649678e-05, 'epoch': 45.36} {'loss': 0.048, 'learning_rate': 2.7315685446730122e-05, 'epoch': 45.37} {'loss': 0.0461, 'learning_rate': 2.7313286766963465e-05, 'epoch': 45.37} {'loss': 0.045, 'learning_rate': 2.7310888087196807e-05, 'epoch': 45.38} {'loss': 0.0459, 'learning_rate': 2.7308489407430154e-05, 'epoch': 45.38} {'loss': 0.0462, 'learning_rate': 2.7306090727663496e-05, 'epoch': 45.39} {'loss': 0.0469, 'learning_rate': 2.730369204789684e-05, 'epoch': 45.39} {'loss': 0.0481, 'learning_rate': 2.730129336813018e-05, 'epoch': 45.4} {'loss': 0.0472, 'learning_rate': 2.7298894688363524e-05, 'epoch': 45.4} {'loss': 0.0487, 'learning_rate': 2.7296496008596867e-05, 'epoch': 45.41} {'loss': 0.0464, 'learning_rate': 2.7294097328830217e-05, 'epoch': 45.41} {'loss': 0.0475, 'learning_rate': 2.7291698649063556e-05, 'epoch': 45.42} {'loss': 0.0494, 'learning_rate': 2.72892999692969e-05, 'epoch': 45.42} {'loss': 0.0449, 'learning_rate': 2.728690128953024e-05, 'epoch': 45.43} {'loss': 0.0482, 'learning_rate': 2.7284502609763584e-05, 'epoch': 45.43} {'loss': 0.0436, 'learning_rate': 2.7282103929996933e-05, 'epoch': 45.44} {'loss': 0.0468, 'learning_rate': 2.7279705250230276e-05, 'epoch': 45.44} {'loss': 0.0473, 'learning_rate': 2.727730657046362e-05, 'epoch': 45.45} {'loss': 0.0483, 'learning_rate': 2.727490789069696e-05, 'epoch': 45.45} {'loss': 0.0464, 'learning_rate': 2.7272509210930304e-05, 'epoch': 45.45} {'loss': 0.0473, 'learning_rate': 2.727011053116365e-05, 'epoch': 45.46} {'loss': 0.0452, 'learning_rate': 2.7267711851396993e-05, 'epoch': 45.46} {'loss': 0.0462, 'learning_rate': 2.7265313171630336e-05, 'epoch': 45.47} {'loss': 0.0458, 'learning_rate': 2.726291449186368e-05, 'epoch': 45.47} {'loss': 0.0477, 'learning_rate': 2.726051581209702e-05, 'epoch': 45.48} {'loss': 0.0476, 'learning_rate': 2.7258117132330367e-05, 'epoch': 45.48} {'loss': 0.0459, 'learning_rate': 2.725571845256371e-05, 'epoch': 45.49} {'loss': 0.0457, 'learning_rate': 2.7253319772797053e-05, 'epoch': 45.49} {'loss': 0.0461, 'learning_rate': 2.7250921093030395e-05, 'epoch': 45.5} {'loss': 0.0468, 'learning_rate': 2.7248522413263738e-05, 'epoch': 45.5} {'loss': 0.0476, 'learning_rate': 2.7246123733497088e-05, 'epoch': 45.51} {'loss': 0.0439, 'learning_rate': 2.724372505373043e-05, 'epoch': 45.51} {'loss': 0.0455, 'learning_rate': 2.7241326373963773e-05, 'epoch': 45.52} {'loss': 0.0471, 'learning_rate': 2.7238927694197112e-05, 'epoch': 45.52} {'loss': 0.0477, 'learning_rate': 2.7236529014430455e-05, 'epoch': 45.53} {'loss': 0.0479, 'learning_rate': 2.7234130334663804e-05, 'epoch': 45.53} {'loss': 0.0454, 'learning_rate': 2.7231731654897147e-05, 'epoch': 45.54} {'loss': 0.0452, 'learning_rate': 2.722933297513049e-05, 'epoch': 45.54} {'loss': 0.0462, 'learning_rate': 2.7226934295363833e-05, 'epoch': 45.55} {'loss': 0.0463, 'learning_rate': 2.7224535615597175e-05, 'epoch': 45.55} {'loss': 0.0478, 'learning_rate': 2.722213693583052e-05, 'epoch': 45.56} {'loss': 0.0479, 'learning_rate': 2.7219738256063864e-05, 'epoch': 45.56} {'loss': 0.0455, 'learning_rate': 2.7217339576297207e-05, 'epoch': 45.57} {'loss': 0.0461, 'learning_rate': 2.721494089653055e-05, 'epoch': 45.57} {'loss': 0.0456, 'learning_rate': 2.7212542216763892e-05, 'epoch': 45.57} {'loss': 0.0449, 'learning_rate': 2.721014353699724e-05, 'epoch': 45.58} {'loss': 0.0481, 'learning_rate': 2.720774485723058e-05, 'epoch': 45.58} {'loss': 0.0477, 'learning_rate': 2.7205346177463924e-05, 'epoch': 45.59} {'loss': 0.0468, 'learning_rate': 2.7202947497697266e-05, 'epoch': 45.59} {'loss': 0.0458, 'learning_rate': 2.720054881793061e-05, 'epoch': 45.6} {'loss': 0.0471, 'learning_rate': 2.719815013816396e-05, 'epoch': 45.6} {'loss': 0.0482, 'learning_rate': 2.71957514583973e-05, 'epoch': 45.61} {'loss': 0.0477, 'learning_rate': 2.7193352778630644e-05, 'epoch': 45.61} {'loss': 0.0461, 'learning_rate': 2.7190954098863987e-05, 'epoch': 45.62} {'loss': 0.0457, 'learning_rate': 2.718855541909733e-05, 'epoch': 45.62} {'loss': 0.0477, 'learning_rate': 2.7186156739330675e-05, 'epoch': 45.63} {'loss': 0.0459, 'learning_rate': 2.7183758059564018e-05, 'epoch': 45.63} {'loss': 0.0473, 'learning_rate': 2.718135937979736e-05, 'epoch': 45.64} {'loss': 0.049, 'learning_rate': 2.7178960700030704e-05, 'epoch': 45.64} {'loss': 0.049, 'learning_rate': 2.7176562020264046e-05, 'epoch': 45.65} {'loss': 0.0475, 'learning_rate': 2.7174163340497392e-05, 'epoch': 45.65} {'loss': 0.0473, 'learning_rate': 2.7171764660730735e-05, 'epoch': 45.66} {'loss': 0.0455, 'learning_rate': 2.7169365980964078e-05, 'epoch': 45.66} {'loss': 0.0447, 'learning_rate': 2.716696730119742e-05, 'epoch': 45.67} {'loss': 0.0463, 'learning_rate': 2.7164568621430763e-05, 'epoch': 45.67} {'loss': 0.0475, 'learning_rate': 2.7162169941664113e-05, 'epoch': 45.68} {'loss': 0.0481, 'learning_rate': 2.7159771261897455e-05, 'epoch': 45.68} {'loss': 0.0454, 'learning_rate': 2.7157372582130798e-05, 'epoch': 45.69} {'loss': 0.0479, 'learning_rate': 2.715497390236414e-05, 'epoch': 45.69} {'loss': 0.0482, 'learning_rate': 2.715257522259748e-05, 'epoch': 45.69} {'loss': 0.0471, 'learning_rate': 2.715017654283083e-05, 'epoch': 45.7} {'loss': 0.0467, 'learning_rate': 2.7147777863064172e-05, 'epoch': 45.7} {'loss': 0.0449, 'learning_rate': 2.7145379183297515e-05, 'epoch': 45.71} {'loss': 0.0458, 'learning_rate': 2.7142980503530858e-05, 'epoch': 45.71} {'loss': 0.0492, 'learning_rate': 2.71405818237642e-05, 'epoch': 45.72} {'loss': 0.048, 'learning_rate': 2.7138183143997546e-05, 'epoch': 45.72} {'loss': 0.0483, 'learning_rate': 2.713578446423089e-05, 'epoch': 45.73} {'loss': 0.048, 'learning_rate': 2.7133385784464232e-05, 'epoch': 45.73} {'loss': 0.0432, 'learning_rate': 2.7130987104697575e-05, 'epoch': 45.74} {'loss': 0.0489, 'learning_rate': 2.7128588424930917e-05, 'epoch': 45.74} {'loss': 0.0466, 'learning_rate': 2.7126189745164267e-05, 'epoch': 45.75} {'loss': 0.0466, 'learning_rate': 2.712379106539761e-05, 'epoch': 45.75} {'loss': 0.0459, 'learning_rate': 2.712139238563095e-05, 'epoch': 45.76} {'loss': 0.0466, 'learning_rate': 2.711899370586429e-05, 'epoch': 45.76} {'loss': 0.0462, 'learning_rate': 2.7116595026097634e-05, 'epoch': 45.77} {'loss': 0.0468, 'learning_rate': 2.7114196346330984e-05, 'epoch': 45.77} {'loss': 0.0467, 'learning_rate': 2.7111797666564326e-05, 'epoch': 45.78} {'loss': 0.0456, 'learning_rate': 2.710939898679767e-05, 'epoch': 45.78} {'loss': 0.0463, 'learning_rate': 2.7107000307031012e-05, 'epoch': 45.79} {'loss': 0.0454, 'learning_rate': 2.7104601627264354e-05, 'epoch': 45.79} {'loss': 0.0461, 'learning_rate': 2.71022029474977e-05, 'epoch': 45.8} {'loss': 0.0459, 'learning_rate': 2.7099804267731043e-05, 'epoch': 45.8} {'loss': 0.0455, 'learning_rate': 2.7097405587964386e-05, 'epoch': 45.81} {'loss': 0.0482, 'learning_rate': 2.709500690819773e-05, 'epoch': 45.81} {'loss': 0.049, 'learning_rate': 2.709260822843107e-05, 'epoch': 45.81} {'loss': 0.046, 'learning_rate': 2.7090209548664414e-05, 'epoch': 45.82} {'loss': 0.0457, 'learning_rate': 2.708781086889776e-05, 'epoch': 45.82} {'loss': 0.0464, 'learning_rate': 2.7085412189131103e-05, 'epoch': 45.83} {'loss': 0.0456, 'learning_rate': 2.7083013509364446e-05, 'epoch': 45.83} {'loss': 0.0488, 'learning_rate': 2.7080614829597788e-05, 'epoch': 45.84} {'loss': 0.047, 'learning_rate': 2.707821614983113e-05, 'epoch': 45.84} {'loss': 0.0503, 'learning_rate': 2.707581747006448e-05, 'epoch': 45.85} {'loss': 0.0478, 'learning_rate': 2.7073418790297823e-05, 'epoch': 45.85} {'loss': 0.0452, 'learning_rate': 2.7071020110531166e-05, 'epoch': 45.86} {'loss': 0.0444, 'learning_rate': 2.706862143076451e-05, 'epoch': 45.86} {'loss': 0.0482, 'learning_rate': 2.7066222750997848e-05, 'epoch': 45.87} {'loss': 0.0474, 'learning_rate': 2.7063824071231197e-05, 'epoch': 45.87} {'loss': 0.0481, 'learning_rate': 2.706142539146454e-05, 'epoch': 45.88} {'loss': 0.0459, 'learning_rate': 2.7059026711697883e-05, 'epoch': 45.88} {'loss': 0.0482, 'learning_rate': 2.7056628031931225e-05, 'epoch': 45.89} {'loss': 0.0463, 'learning_rate': 2.7054229352164568e-05, 'epoch': 45.89} {'loss': 0.0463, 'learning_rate': 2.7051830672397914e-05, 'epoch': 45.9} {'loss': 0.0472, 'learning_rate': 2.7049431992631257e-05, 'epoch': 45.9} {'loss': 0.0436, 'learning_rate': 2.70470333128646e-05, 'epoch': 45.91} {'loss': 0.0476, 'learning_rate': 2.7044634633097942e-05, 'epoch': 45.91} {'loss': 0.0468, 'learning_rate': 2.7042235953331285e-05, 'epoch': 45.92} {'loss': 0.0472, 'learning_rate': 2.7039837273564635e-05, 'epoch': 45.92} {'loss': 0.048, 'learning_rate': 2.7037438593797977e-05, 'epoch': 45.93} {'loss': 0.0463, 'learning_rate': 2.7035039914031317e-05, 'epoch': 45.93} {'loss': 0.0437, 'learning_rate': 2.703264123426466e-05, 'epoch': 45.93} {'loss': 0.0479, 'learning_rate': 2.7030242554498002e-05, 'epoch': 45.94} {'loss': 0.0487, 'learning_rate': 2.702784387473135e-05, 'epoch': 45.94} {'loss': 0.0473, 'learning_rate': 2.7025445194964694e-05, 'epoch': 45.95} {'loss': 0.0452, 'learning_rate': 2.7023046515198037e-05, 'epoch': 45.95} {'loss': 0.0467, 'learning_rate': 2.702064783543138e-05, 'epoch': 45.96} {'loss': 0.0452, 'learning_rate': 2.7018249155664722e-05, 'epoch': 45.96} {'loss': 0.046, 'learning_rate': 2.701585047589807e-05, 'epoch': 45.97} {'loss': 0.0472, 'learning_rate': 2.701345179613141e-05, 'epoch': 45.97} {'loss': 0.0452, 'learning_rate': 2.7011053116364754e-05, 'epoch': 45.98} {'loss': 0.0457, 'learning_rate': 2.7008654436598096e-05, 'epoch': 45.98} {'loss': 0.0446, 'learning_rate': 2.700625575683144e-05, 'epoch': 45.99} {'loss': 0.0458, 'learning_rate': 2.7003857077064785e-05, 'epoch': 45.99} {'loss': 0.0455, 'learning_rate': 2.7001458397298128e-05, 'epoch': 46.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04468155279755592, 'eval_runtime': 743.4131, 'eval_samples_per_second': 560.785, 'eval_steps_per_second': 70.098, 'epoch': 46.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-4794304 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-4794304/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-4794304/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-4690080] due to args.save_total_limit {'loss': 0.0469, 'learning_rate': 2.699905971753147e-05, 'epoch': 46.0} {'loss': 0.0473, 'learning_rate': 2.6996661037764813e-05, 'epoch': 46.01} {'loss': 0.0482, 'learning_rate': 2.6994262357998156e-05, 'epoch': 46.01} {'loss': 0.0462, 'learning_rate': 2.6991863678231506e-05, 'epoch': 46.02} {'loss': 0.0461, 'learning_rate': 2.6989464998464848e-05, 'epoch': 46.02} {'loss': 0.0468, 'learning_rate': 2.698706631869819e-05, 'epoch': 46.03} {'loss': 0.0463, 'learning_rate': 2.6984667638931534e-05, 'epoch': 46.03} {'loss': 0.0443, 'learning_rate': 2.6982268959164876e-05, 'epoch': 46.04} {'loss': 0.0486, 'learning_rate': 2.6979870279398222e-05, 'epoch': 46.04} {'loss': 0.0466, 'learning_rate': 2.6977471599631565e-05, 'epoch': 46.05} {'loss': 0.0478, 'learning_rate': 2.6975072919864908e-05, 'epoch': 46.05} {'loss': 0.0453, 'learning_rate': 2.697267424009825e-05, 'epoch': 46.05} {'loss': 0.0461, 'learning_rate': 2.6970275560331593e-05, 'epoch': 46.06} {'loss': 0.0452, 'learning_rate': 2.696787688056494e-05, 'epoch': 46.06} {'loss': 0.0465, 'learning_rate': 2.6965478200798282e-05, 'epoch': 46.07} {'loss': 0.0453, 'learning_rate': 2.6963079521031625e-05, 'epoch': 46.07} {'loss': 0.0468, 'learning_rate': 2.6960680841264967e-05, 'epoch': 46.08} {'loss': 0.0445, 'learning_rate': 2.695828216149831e-05, 'epoch': 46.08} {'loss': 0.0447, 'learning_rate': 2.695588348173166e-05, 'epoch': 46.09} {'loss': 0.0484, 'learning_rate': 2.6953484801965002e-05, 'epoch': 46.09} {'loss': 0.0476, 'learning_rate': 2.6951086122198345e-05, 'epoch': 46.1} {'loss': 0.0469, 'learning_rate': 2.6948687442431684e-05, 'epoch': 46.1} {'loss': 0.0449, 'learning_rate': 2.6946288762665027e-05, 'epoch': 46.11} {'loss': 0.0473, 'learning_rate': 2.6943890082898377e-05, 'epoch': 46.11} {'loss': 0.0466, 'learning_rate': 2.694149140313172e-05, 'epoch': 46.12} {'loss': 0.0469, 'learning_rate': 2.6939092723365062e-05, 'epoch': 46.12} {'loss': 0.0477, 'learning_rate': 2.6936694043598405e-05, 'epoch': 46.13} {'loss': 0.0435, 'learning_rate': 2.6934295363831747e-05, 'epoch': 46.13} {'loss': 0.0462, 'learning_rate': 2.6931896684065093e-05, 'epoch': 46.14} {'loss': 0.0462, 'learning_rate': 2.6929498004298436e-05, 'epoch': 46.14} {'loss': 0.0459, 'learning_rate': 2.692709932453178e-05, 'epoch': 46.15} {'loss': 0.0461, 'learning_rate': 2.692470064476512e-05, 'epoch': 46.15} {'loss': 0.0444, 'learning_rate': 2.6922301964998464e-05, 'epoch': 46.16} {'loss': 0.0464, 'learning_rate': 2.6919903285231814e-05, 'epoch': 46.16} {'loss': 0.0481, 'learning_rate': 2.6917504605465153e-05, 'epoch': 46.16} {'loss': 0.0455, 'learning_rate': 2.6915105925698496e-05, 'epoch': 46.17} {'loss': 0.0462, 'learning_rate': 2.691270724593184e-05, 'epoch': 46.17} {'loss': 0.045, 'learning_rate': 2.691030856616518e-05, 'epoch': 46.18} {'loss': 0.0484, 'learning_rate': 2.690790988639853e-05, 'epoch': 46.18} {'loss': 0.0477, 'learning_rate': 2.6905511206631873e-05, 'epoch': 46.19} {'loss': 0.0443, 'learning_rate': 2.6903112526865216e-05, 'epoch': 46.19} {'loss': 0.0456, 'learning_rate': 2.690071384709856e-05, 'epoch': 46.2} {'loss': 0.0468, 'learning_rate': 2.68983151673319e-05, 'epoch': 46.2} {'loss': 0.0441, 'learning_rate': 2.6895916487565248e-05, 'epoch': 46.21} {'loss': 0.0453, 'learning_rate': 2.689351780779859e-05, 'epoch': 46.21} {'loss': 0.0448, 'learning_rate': 2.6891119128031933e-05, 'epoch': 46.22} {'loss': 0.046, 'learning_rate': 2.6888720448265276e-05, 'epoch': 46.22} {'loss': 0.0477, 'learning_rate': 2.688632176849862e-05, 'epoch': 46.23} {'loss': 0.0457, 'learning_rate': 2.6883923088731964e-05, 'epoch': 46.23} {'loss': 0.047, 'learning_rate': 2.6881524408965307e-05, 'epoch': 46.24} {'loss': 0.0469, 'learning_rate': 2.687912572919865e-05, 'epoch': 46.24} {'loss': 0.0444, 'learning_rate': 2.6876727049431993e-05, 'epoch': 46.25} {'loss': 0.0447, 'learning_rate': 2.6874328369665335e-05, 'epoch': 46.25} {'loss': 0.0482, 'learning_rate': 2.6871929689898678e-05, 'epoch': 46.26} {'loss': 0.0463, 'learning_rate': 2.6869531010132027e-05, 'epoch': 46.26} {'loss': 0.0457, 'learning_rate': 2.686713233036537e-05, 'epoch': 46.27} {'loss': 0.0454, 'learning_rate': 2.6864733650598713e-05, 'epoch': 46.27} {'loss': 0.0481, 'learning_rate': 2.6862334970832052e-05, 'epoch': 46.28} {'loss': 0.046, 'learning_rate': 2.6859936291065395e-05, 'epoch': 46.28} {'loss': 0.0491, 'learning_rate': 2.6857537611298744e-05, 'epoch': 46.28} {'loss': 0.0465, 'learning_rate': 2.6855138931532087e-05, 'epoch': 46.29} {'loss': 0.0475, 'learning_rate': 2.685274025176543e-05, 'epoch': 46.29} {'loss': 0.0453, 'learning_rate': 2.6850341571998772e-05, 'epoch': 46.3} {'loss': 0.0449, 'learning_rate': 2.6847942892232115e-05, 'epoch': 46.3} {'loss': 0.0468, 'learning_rate': 2.684554421246546e-05, 'epoch': 46.31} {'loss': 0.0481, 'learning_rate': 2.6843145532698804e-05, 'epoch': 46.31} {'loss': 0.0481, 'learning_rate': 2.6840746852932147e-05, 'epoch': 46.32} {'loss': 0.047, 'learning_rate': 2.683834817316549e-05, 'epoch': 46.32} {'loss': 0.0497, 'learning_rate': 2.6835949493398832e-05, 'epoch': 46.33} {'loss': 0.0456, 'learning_rate': 2.683355081363218e-05, 'epoch': 46.33} {'loss': 0.0473, 'learning_rate': 2.683115213386552e-05, 'epoch': 46.34} {'loss': 0.0493, 'learning_rate': 2.6828753454098864e-05, 'epoch': 46.34} {'loss': 0.0461, 'learning_rate': 2.6826354774332206e-05, 'epoch': 46.35} {'loss': 0.0448, 'learning_rate': 2.682395609456555e-05, 'epoch': 46.35} {'loss': 0.0454, 'learning_rate': 2.68215574147989e-05, 'epoch': 46.36} {'loss': 0.0439, 'learning_rate': 2.681915873503224e-05, 'epoch': 46.36} {'loss': 0.0452, 'learning_rate': 2.6816760055265584e-05, 'epoch': 46.37} {'loss': 0.0472, 'learning_rate': 2.6814361375498927e-05, 'epoch': 46.37} {'loss': 0.046, 'learning_rate': 2.681196269573227e-05, 'epoch': 46.38} {'loss': 0.0461, 'learning_rate': 2.6809564015965615e-05, 'epoch': 46.38} {'loss': 0.0472, 'learning_rate': 2.6807165336198958e-05, 'epoch': 46.39} {'loss': 0.0466, 'learning_rate': 2.68047666564323e-05, 'epoch': 46.39} {'loss': 0.0469, 'learning_rate': 2.6802367976665643e-05, 'epoch': 46.4} {'loss': 0.0457, 'learning_rate': 2.6799969296898986e-05, 'epoch': 46.4} {'loss': 0.0444, 'learning_rate': 2.6797570617132332e-05, 'epoch': 46.4} {'loss': 0.0469, 'learning_rate': 2.6795171937365675e-05, 'epoch': 46.41} {'loss': 0.0483, 'learning_rate': 2.6792773257599018e-05, 'epoch': 46.41} {'loss': 0.0453, 'learning_rate': 2.679037457783236e-05, 'epoch': 46.42} {'loss': 0.0462, 'learning_rate': 2.6787975898065703e-05, 'epoch': 46.42} {'loss': 0.0472, 'learning_rate': 2.6785577218299053e-05, 'epoch': 46.43} {'loss': 0.0463, 'learning_rate': 2.6783178538532395e-05, 'epoch': 46.43} {'loss': 0.0477, 'learning_rate': 2.6780779858765738e-05, 'epoch': 46.44} {'loss': 0.0472, 'learning_rate': 2.677838117899908e-05, 'epoch': 46.44} {'loss': 0.0451, 'learning_rate': 2.677598249923242e-05, 'epoch': 46.45} {'loss': 0.0463, 'learning_rate': 2.677358381946577e-05, 'epoch': 46.45} {'loss': 0.0476, 'learning_rate': 2.6771185139699112e-05, 'epoch': 46.46} {'loss': 0.0469, 'learning_rate': 2.6768786459932455e-05, 'epoch': 46.46} {'loss': 0.045, 'learning_rate': 2.6766387780165798e-05, 'epoch': 46.47} {'loss': 0.0478, 'learning_rate': 2.676398910039914e-05, 'epoch': 46.47} {'loss': 0.0446, 'learning_rate': 2.6761590420632486e-05, 'epoch': 46.48} {'loss': 0.0478, 'learning_rate': 2.675919174086583e-05, 'epoch': 46.48} {'loss': 0.0473, 'learning_rate': 2.6756793061099172e-05, 'epoch': 46.49} {'loss': 0.0469, 'learning_rate': 2.6754394381332515e-05, 'epoch': 46.49} {'loss': 0.0455, 'learning_rate': 2.6751995701565857e-05, 'epoch': 46.5} {'loss': 0.046, 'learning_rate': 2.6749597021799207e-05, 'epoch': 46.5} {'loss': 0.0459, 'learning_rate': 2.674719834203255e-05, 'epoch': 46.51} {'loss': 0.0442, 'learning_rate': 2.674479966226589e-05, 'epoch': 46.51} {'loss': 0.0467, 'learning_rate': 2.674240098249923e-05, 'epoch': 46.52} {'loss': 0.0456, 'learning_rate': 2.6740002302732574e-05, 'epoch': 46.52} {'loss': 0.0446, 'learning_rate': 2.6737603622965924e-05, 'epoch': 46.52} {'loss': 0.0459, 'learning_rate': 2.6735204943199266e-05, 'epoch': 46.53} {'loss': 0.0462, 'learning_rate': 2.673280626343261e-05, 'epoch': 46.53} {'loss': 0.0445, 'learning_rate': 2.6730407583665952e-05, 'epoch': 46.54} {'loss': 0.046, 'learning_rate': 2.6728008903899294e-05, 'epoch': 46.54} {'loss': 0.047, 'learning_rate': 2.672561022413264e-05, 'epoch': 46.55} {'loss': 0.0465, 'learning_rate': 2.6723211544365983e-05, 'epoch': 46.55} {'loss': 0.0479, 'learning_rate': 2.6720812864599326e-05, 'epoch': 46.56} {'loss': 0.047, 'learning_rate': 2.671841418483267e-05, 'epoch': 46.56} {'loss': 0.0475, 'learning_rate': 2.671601550506601e-05, 'epoch': 46.57} {'loss': 0.0426, 'learning_rate': 2.6713616825299357e-05, 'epoch': 46.57} {'loss': 0.0483, 'learning_rate': 2.67112181455327e-05, 'epoch': 46.58} {'loss': 0.0471, 'learning_rate': 2.6708819465766043e-05, 'epoch': 46.58} {'loss': 0.0446, 'learning_rate': 2.6706420785999386e-05, 'epoch': 46.59} {'loss': 0.0454, 'learning_rate': 2.6704022106232728e-05, 'epoch': 46.59} {'loss': 0.0464, 'learning_rate': 2.6701623426466078e-05, 'epoch': 46.6} {'loss': 0.0455, 'learning_rate': 2.669922474669942e-05, 'epoch': 46.6} {'loss': 0.0438, 'learning_rate': 2.6696826066932763e-05, 'epoch': 46.61} {'loss': 0.047, 'learning_rate': 2.6694427387166106e-05, 'epoch': 46.61} {'loss': 0.0473, 'learning_rate': 2.669202870739945e-05, 'epoch': 46.62} {'loss': 0.0471, 'learning_rate': 2.6689630027632795e-05, 'epoch': 46.62} {'loss': 0.0465, 'learning_rate': 2.6687231347866137e-05, 'epoch': 46.63} {'loss': 0.0459, 'learning_rate': 2.668483266809948e-05, 'epoch': 46.63} {'loss': 0.0452, 'learning_rate': 2.6682433988332823e-05, 'epoch': 46.64} {'loss': 0.0461, 'learning_rate': 2.6680035308566165e-05, 'epoch': 46.64} {'loss': 0.0448, 'learning_rate': 2.667763662879951e-05, 'epoch': 46.64} {'loss': 0.0467, 'learning_rate': 2.6675237949032854e-05, 'epoch': 46.65} {'loss': 0.0472, 'learning_rate': 2.6672839269266197e-05, 'epoch': 46.65} {'loss': 0.0453, 'learning_rate': 2.667044058949954e-05, 'epoch': 46.66} {'loss': 0.0469, 'learning_rate': 2.6668041909732882e-05, 'epoch': 46.66} {'loss': 0.0465, 'learning_rate': 2.6665643229966225e-05, 'epoch': 46.67} {'loss': 0.045, 'learning_rate': 2.6663244550199574e-05, 'epoch': 46.67} {'loss': 0.0465, 'learning_rate': 2.6660845870432917e-05, 'epoch': 46.68} {'loss': 0.0468, 'learning_rate': 2.6658447190666257e-05, 'epoch': 46.68} {'loss': 0.0462, 'learning_rate': 2.66560485108996e-05, 'epoch': 46.69} {'loss': 0.0453, 'learning_rate': 2.6653649831132942e-05, 'epoch': 46.69} {'loss': 0.0453, 'learning_rate': 2.665125115136629e-05, 'epoch': 46.7} {'loss': 0.0498, 'learning_rate': 2.6648852471599634e-05, 'epoch': 46.7} {'loss': 0.0465, 'learning_rate': 2.6646453791832977e-05, 'epoch': 46.71} {'loss': 0.0461, 'learning_rate': 2.664405511206632e-05, 'epoch': 46.71} {'loss': 0.0458, 'learning_rate': 2.6641656432299662e-05, 'epoch': 46.72} {'loss': 0.0457, 'learning_rate': 2.6639257752533008e-05, 'epoch': 46.72} {'loss': 0.0463, 'learning_rate': 2.663685907276635e-05, 'epoch': 46.73} {'loss': 0.0478, 'learning_rate': 2.6634460392999694e-05, 'epoch': 46.73} {'loss': 0.0468, 'learning_rate': 2.6632061713233036e-05, 'epoch': 46.74} {'loss': 0.0466, 'learning_rate': 2.662966303346638e-05, 'epoch': 46.74} {'loss': 0.0438, 'learning_rate': 2.6627264353699725e-05, 'epoch': 46.75} {'loss': 0.0472, 'learning_rate': 2.6624865673933068e-05, 'epoch': 46.75} {'loss': 0.0462, 'learning_rate': 2.662246699416641e-05, 'epoch': 46.76} {'loss': 0.0485, 'learning_rate': 2.6620068314399753e-05, 'epoch': 46.76} {'loss': 0.0474, 'learning_rate': 2.6617669634633096e-05, 'epoch': 46.76} {'loss': 0.047, 'learning_rate': 2.6615270954866445e-05, 'epoch': 46.77} {'loss': 0.0456, 'learning_rate': 2.6612872275099788e-05, 'epoch': 46.77} {'loss': 0.0441, 'learning_rate': 2.661047359533313e-05, 'epoch': 46.78} {'loss': 0.0456, 'learning_rate': 2.6608074915566474e-05, 'epoch': 46.78} {'loss': 0.0439, 'learning_rate': 2.6605676235799813e-05, 'epoch': 46.79} {'loss': 0.048, 'learning_rate': 2.6603277556033162e-05, 'epoch': 46.79} {'loss': 0.0484, 'learning_rate': 2.6600878876266505e-05, 'epoch': 46.8} {'loss': 0.0453, 'learning_rate': 2.6598480196499848e-05, 'epoch': 46.8} {'loss': 0.0473, 'learning_rate': 2.659608151673319e-05, 'epoch': 46.81} {'loss': 0.0441, 'learning_rate': 2.6593682836966533e-05, 'epoch': 46.81} {'loss': 0.0448, 'learning_rate': 2.659128415719988e-05, 'epoch': 46.82} {'loss': 0.0483, 'learning_rate': 2.6588885477433222e-05, 'epoch': 46.82} {'loss': 0.0455, 'learning_rate': 2.6586486797666565e-05, 'epoch': 46.83} {'loss': 0.0457, 'learning_rate': 2.6584088117899907e-05, 'epoch': 46.83} {'loss': 0.0477, 'learning_rate': 2.658168943813325e-05, 'epoch': 46.84} {'loss': 0.0473, 'learning_rate': 2.65792907583666e-05, 'epoch': 46.84} {'loss': 0.0447, 'learning_rate': 2.6576892078599942e-05, 'epoch': 46.85} {'loss': 0.045, 'learning_rate': 2.6574493398833285e-05, 'epoch': 46.85} {'loss': 0.0466, 'learning_rate': 2.6572094719066624e-05, 'epoch': 46.86} {'loss': 0.0455, 'learning_rate': 2.6569696039299967e-05, 'epoch': 46.86} {'loss': 0.0462, 'learning_rate': 2.6567297359533317e-05, 'epoch': 46.87} {'loss': 0.0481, 'learning_rate': 2.656489867976666e-05, 'epoch': 46.87} {'loss': 0.0446, 'learning_rate': 2.6562500000000002e-05, 'epoch': 46.88} {'loss': 0.0488, 'learning_rate': 2.6560101320233345e-05, 'epoch': 46.88} {'loss': 0.0449, 'learning_rate': 2.6557702640466687e-05, 'epoch': 46.88} {'loss': 0.0475, 'learning_rate': 2.6555303960700033e-05, 'epoch': 46.89} {'loss': 0.0446, 'learning_rate': 2.6552905280933376e-05, 'epoch': 46.89} {'loss': 0.0461, 'learning_rate': 2.655050660116672e-05, 'epoch': 46.9} {'loss': 0.0467, 'learning_rate': 2.654810792140006e-05, 'epoch': 46.9} {'loss': 0.0458, 'learning_rate': 2.6545709241633404e-05, 'epoch': 46.91} {'loss': 0.0462, 'learning_rate': 2.6543310561866754e-05, 'epoch': 46.91} {'loss': 0.0459, 'learning_rate': 2.6540911882100093e-05, 'epoch': 46.92} {'loss': 0.0456, 'learning_rate': 2.6538513202333436e-05, 'epoch': 46.92} {'loss': 0.0447, 'learning_rate': 2.653611452256678e-05, 'epoch': 46.93} {'loss': 0.0448, 'learning_rate': 2.653371584280012e-05, 'epoch': 46.93} {'loss': 0.0462, 'learning_rate': 2.653131716303347e-05, 'epoch': 46.94} {'loss': 0.0449, 'learning_rate': 2.6528918483266813e-05, 'epoch': 46.94} {'loss': 0.0456, 'learning_rate': 2.6526519803500156e-05, 'epoch': 46.95} {'loss': 0.0462, 'learning_rate': 2.65241211237335e-05, 'epoch': 46.95} {'loss': 0.047, 'learning_rate': 2.652172244396684e-05, 'epoch': 46.96} {'loss': 0.0455, 'learning_rate': 2.6519323764200188e-05, 'epoch': 46.96} {'loss': 0.0458, 'learning_rate': 2.651692508443353e-05, 'epoch': 46.97} {'loss': 0.0467, 'learning_rate': 2.6514526404666873e-05, 'epoch': 46.97} {'loss': 0.0484, 'learning_rate': 2.6512127724900216e-05, 'epoch': 46.98} {'loss': 0.0468, 'learning_rate': 2.650972904513356e-05, 'epoch': 46.98} {'loss': 0.0454, 'learning_rate': 2.6507330365366904e-05, 'epoch': 46.99} {'loss': 0.0455, 'learning_rate': 2.6504931685600247e-05, 'epoch': 46.99} {'loss': 0.0471, 'learning_rate': 2.650253300583359e-05, 'epoch': 46.99} {'loss': 0.0455, 'learning_rate': 2.6500134326066933e-05, 'epoch': 47.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.044948503375053406, 'eval_runtime': 737.7856, 'eval_samples_per_second': 565.063, 'eval_steps_per_second': 70.633, 'epoch': 47.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-4898528 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-4898528/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-4898528/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-4794304] due to args.save_total_limit {'loss': 0.0451, 'learning_rate': 2.6497735646300275e-05, 'epoch': 47.0} {'loss': 0.0457, 'learning_rate': 2.6495336966533625e-05, 'epoch': 47.01} {'loss': 0.0443, 'learning_rate': 2.6492938286766967e-05, 'epoch': 47.01} {'loss': 0.0463, 'learning_rate': 2.649053960700031e-05, 'epoch': 47.02} {'loss': 0.0484, 'learning_rate': 2.6488140927233653e-05, 'epoch': 47.02} {'loss': 0.0452, 'learning_rate': 2.6485742247466992e-05, 'epoch': 47.03} {'loss': 0.0458, 'learning_rate': 2.648334356770034e-05, 'epoch': 47.03} {'loss': 0.047, 'learning_rate': 2.6480944887933684e-05, 'epoch': 47.04} {'loss': 0.0457, 'learning_rate': 2.6478546208167027e-05, 'epoch': 47.04} {'loss': 0.0434, 'learning_rate': 2.647614752840037e-05, 'epoch': 47.05} {'loss': 0.0442, 'learning_rate': 2.6473748848633712e-05, 'epoch': 47.05} {'loss': 0.0457, 'learning_rate': 2.647135016886706e-05, 'epoch': 47.06} {'loss': 0.0457, 'learning_rate': 2.64689514891004e-05, 'epoch': 47.06} {'loss': 0.0464, 'learning_rate': 2.6466552809333744e-05, 'epoch': 47.07} {'loss': 0.0457, 'learning_rate': 2.6464154129567087e-05, 'epoch': 47.07} {'loss': 0.0471, 'learning_rate': 2.646175544980043e-05, 'epoch': 47.08} {'loss': 0.0469, 'learning_rate': 2.645935677003378e-05, 'epoch': 47.08} {'loss': 0.0466, 'learning_rate': 2.645695809026712e-05, 'epoch': 47.09} {'loss': 0.0467, 'learning_rate': 2.645455941050046e-05, 'epoch': 47.09} {'loss': 0.0458, 'learning_rate': 2.6452160730733804e-05, 'epoch': 47.1} {'loss': 0.0439, 'learning_rate': 2.6449762050967146e-05, 'epoch': 47.1} {'loss': 0.0435, 'learning_rate': 2.644736337120049e-05, 'epoch': 47.11} {'loss': 0.0494, 'learning_rate': 2.644496469143384e-05, 'epoch': 47.11} {'loss': 0.0462, 'learning_rate': 2.644256601166718e-05, 'epoch': 47.11} {'loss': 0.0447, 'learning_rate': 2.6440167331900524e-05, 'epoch': 47.12} {'loss': 0.0457, 'learning_rate': 2.6437768652133867e-05, 'epoch': 47.12} {'loss': 0.0463, 'learning_rate': 2.643536997236721e-05, 'epoch': 47.13} {'loss': 0.0446, 'learning_rate': 2.6432971292600555e-05, 'epoch': 47.13} {'loss': 0.0446, 'learning_rate': 2.6430572612833898e-05, 'epoch': 47.14} {'loss': 0.0452, 'learning_rate': 2.642817393306724e-05, 'epoch': 47.14} {'loss': 0.0468, 'learning_rate': 2.6425775253300583e-05, 'epoch': 47.15} {'loss': 0.0461, 'learning_rate': 2.6423376573533926e-05, 'epoch': 47.15} {'loss': 0.0454, 'learning_rate': 2.6420977893767272e-05, 'epoch': 47.16} {'loss': 0.0439, 'learning_rate': 2.6418579214000615e-05, 'epoch': 47.16} {'loss': 0.0462, 'learning_rate': 2.6416180534233958e-05, 'epoch': 47.17} {'loss': 0.0469, 'learning_rate': 2.64137818544673e-05, 'epoch': 47.17} {'loss': 0.0452, 'learning_rate': 2.6411383174700643e-05, 'epoch': 47.18} {'loss': 0.0466, 'learning_rate': 2.6408984494933993e-05, 'epoch': 47.18} {'loss': 0.0456, 'learning_rate': 2.6406585815167335e-05, 'epoch': 47.19} {'loss': 0.047, 'learning_rate': 2.6404187135400678e-05, 'epoch': 47.19} {'loss': 0.0468, 'learning_rate': 2.6401788455634017e-05, 'epoch': 47.2} {'loss': 0.0452, 'learning_rate': 2.639938977586736e-05, 'epoch': 47.2} {'loss': 0.0452, 'learning_rate': 2.639699109610071e-05, 'epoch': 47.21} {'loss': 0.0471, 'learning_rate': 2.6394592416334052e-05, 'epoch': 47.21} {'loss': 0.0456, 'learning_rate': 2.6392193736567395e-05, 'epoch': 47.22} {'loss': 0.0454, 'learning_rate': 2.6389795056800738e-05, 'epoch': 47.22} {'loss': 0.0455, 'learning_rate': 2.638739637703408e-05, 'epoch': 47.23} {'loss': 0.0464, 'learning_rate': 2.6384997697267426e-05, 'epoch': 47.23} {'loss': 0.0449, 'learning_rate': 2.638259901750077e-05, 'epoch': 47.23} {'loss': 0.046, 'learning_rate': 2.6380200337734112e-05, 'epoch': 47.24} {'loss': 0.0437, 'learning_rate': 2.6377801657967454e-05, 'epoch': 47.24} {'loss': 0.047, 'learning_rate': 2.6375402978200797e-05, 'epoch': 47.25} {'loss': 0.0452, 'learning_rate': 2.6373004298434147e-05, 'epoch': 47.25} {'loss': 0.0469, 'learning_rate': 2.637060561866749e-05, 'epoch': 47.26} {'loss': 0.0442, 'learning_rate': 2.636820693890083e-05, 'epoch': 47.26} {'loss': 0.0445, 'learning_rate': 2.636580825913417e-05, 'epoch': 47.27} {'loss': 0.0472, 'learning_rate': 2.6363409579367514e-05, 'epoch': 47.27} {'loss': 0.0463, 'learning_rate': 2.6361010899600864e-05, 'epoch': 47.28} {'loss': 0.0463, 'learning_rate': 2.6358612219834206e-05, 'epoch': 47.28} {'loss': 0.045, 'learning_rate': 2.635621354006755e-05, 'epoch': 47.29} {'loss': 0.0477, 'learning_rate': 2.635381486030089e-05, 'epoch': 47.29} {'loss': 0.046, 'learning_rate': 2.6351416180534234e-05, 'epoch': 47.3} {'loss': 0.0447, 'learning_rate': 2.634901750076758e-05, 'epoch': 47.3} {'loss': 0.0458, 'learning_rate': 2.6346618821000923e-05, 'epoch': 47.31} {'loss': 0.0437, 'learning_rate': 2.6344220141234266e-05, 'epoch': 47.31} {'loss': 0.0461, 'learning_rate': 2.634182146146761e-05, 'epoch': 47.32} {'loss': 0.0451, 'learning_rate': 2.633942278170095e-05, 'epoch': 47.32} {'loss': 0.0445, 'learning_rate': 2.6337024101934297e-05, 'epoch': 47.33} {'loss': 0.0453, 'learning_rate': 2.633462542216764e-05, 'epoch': 47.33} {'loss': 0.0499, 'learning_rate': 2.6332226742400983e-05, 'epoch': 47.34} {'loss': 0.0444, 'learning_rate': 2.6329828062634325e-05, 'epoch': 47.34} {'loss': 0.0459, 'learning_rate': 2.6327429382867668e-05, 'epoch': 47.35} {'loss': 0.044, 'learning_rate': 2.6325030703101018e-05, 'epoch': 47.35} {'loss': 0.0459, 'learning_rate': 2.632263202333436e-05, 'epoch': 47.35} {'loss': 0.0472, 'learning_rate': 2.6320233343567703e-05, 'epoch': 47.36} {'loss': 0.0457, 'learning_rate': 2.6317834663801046e-05, 'epoch': 47.36} {'loss': 0.0455, 'learning_rate': 2.6315435984034385e-05, 'epoch': 47.37} {'loss': 0.0461, 'learning_rate': 2.6313037304267735e-05, 'epoch': 47.37} {'loss': 0.0471, 'learning_rate': 2.6310638624501077e-05, 'epoch': 47.38} {'loss': 0.0447, 'learning_rate': 2.630823994473442e-05, 'epoch': 47.38} {'loss': 0.0458, 'learning_rate': 2.6305841264967763e-05, 'epoch': 47.39} {'loss': 0.0445, 'learning_rate': 2.6303442585201105e-05, 'epoch': 47.39} {'loss': 0.0463, 'learning_rate': 2.630104390543445e-05, 'epoch': 47.4} {'loss': 0.0462, 'learning_rate': 2.6298645225667794e-05, 'epoch': 47.4} {'loss': 0.0468, 'learning_rate': 2.6296246545901137e-05, 'epoch': 47.41} {'loss': 0.0452, 'learning_rate': 2.629384786613448e-05, 'epoch': 47.41} {'loss': 0.0451, 'learning_rate': 2.6291449186367822e-05, 'epoch': 47.42} {'loss': 0.0463, 'learning_rate': 2.6289050506601172e-05, 'epoch': 47.42} {'loss': 0.0474, 'learning_rate': 2.6286651826834514e-05, 'epoch': 47.43} {'loss': 0.0492, 'learning_rate': 2.6284253147067857e-05, 'epoch': 47.43} {'loss': 0.0468, 'learning_rate': 2.6281854467301196e-05, 'epoch': 47.44} {'loss': 0.0463, 'learning_rate': 2.627945578753454e-05, 'epoch': 47.44} {'loss': 0.0477, 'learning_rate': 2.627705710776789e-05, 'epoch': 47.45} {'loss': 0.044, 'learning_rate': 2.627465842800123e-05, 'epoch': 47.45} {'loss': 0.0469, 'learning_rate': 2.6272259748234574e-05, 'epoch': 47.46} {'loss': 0.0459, 'learning_rate': 2.6269861068467917e-05, 'epoch': 47.46} {'loss': 0.0458, 'learning_rate': 2.626746238870126e-05, 'epoch': 47.47} {'loss': 0.0465, 'learning_rate': 2.6265063708934606e-05, 'epoch': 47.47} {'loss': 0.0455, 'learning_rate': 2.6262665029167948e-05, 'epoch': 47.47} {'loss': 0.044, 'learning_rate': 2.626026634940129e-05, 'epoch': 47.48} {'loss': 0.0477, 'learning_rate': 2.6257867669634634e-05, 'epoch': 47.48} {'loss': 0.0479, 'learning_rate': 2.6255468989867976e-05, 'epoch': 47.49} {'loss': 0.0455, 'learning_rate': 2.6253070310101326e-05, 'epoch': 47.49} {'loss': 0.0479, 'learning_rate': 2.6250671630334665e-05, 'epoch': 47.5} {'loss': 0.0463, 'learning_rate': 2.6248272950568008e-05, 'epoch': 47.5} {'loss': 0.0442, 'learning_rate': 2.624587427080135e-05, 'epoch': 47.51} {'loss': 0.0451, 'learning_rate': 2.6243475591034693e-05, 'epoch': 47.51} {'loss': 0.0476, 'learning_rate': 2.6241076911268036e-05, 'epoch': 47.52} {'loss': 0.0468, 'learning_rate': 2.6238678231501385e-05, 'epoch': 47.52} {'loss': 0.047, 'learning_rate': 2.6236279551734728e-05, 'epoch': 47.53} {'loss': 0.0469, 'learning_rate': 2.623388087196807e-05, 'epoch': 47.53} {'loss': 0.0448, 'learning_rate': 2.6231482192201414e-05, 'epoch': 47.54} {'loss': 0.0447, 'learning_rate': 2.6229083512434753e-05, 'epoch': 47.54} {'loss': 0.0457, 'learning_rate': 2.6226684832668102e-05, 'epoch': 47.55} {'loss': 0.047, 'learning_rate': 2.6224286152901445e-05, 'epoch': 47.55} {'loss': 0.0453, 'learning_rate': 2.6221887473134788e-05, 'epoch': 47.56} {'loss': 0.0474, 'learning_rate': 2.621948879336813e-05, 'epoch': 47.56} {'loss': 0.0455, 'learning_rate': 2.6217090113601473e-05, 'epoch': 47.57} {'loss': 0.0455, 'learning_rate': 2.621469143383482e-05, 'epoch': 47.57} {'loss': 0.0451, 'learning_rate': 2.6212292754068162e-05, 'epoch': 47.58} {'loss': 0.0454, 'learning_rate': 2.6209894074301505e-05, 'epoch': 47.58} {'loss': 0.0467, 'learning_rate': 2.6207495394534847e-05, 'epoch': 47.59} {'loss': 0.044, 'learning_rate': 2.620509671476819e-05, 'epoch': 47.59} {'loss': 0.0463, 'learning_rate': 2.620269803500154e-05, 'epoch': 47.59} {'loss': 0.0461, 'learning_rate': 2.6200299355234882e-05, 'epoch': 47.6} {'loss': 0.0469, 'learning_rate': 2.6197900675468225e-05, 'epoch': 47.6} {'loss': 0.0448, 'learning_rate': 2.6195501995701564e-05, 'epoch': 47.61} {'loss': 0.0455, 'learning_rate': 2.6193103315934907e-05, 'epoch': 47.61} {'loss': 0.044, 'learning_rate': 2.6190704636168256e-05, 'epoch': 47.62} {'loss': 0.0452, 'learning_rate': 2.61883059564016e-05, 'epoch': 47.62} {'loss': 0.045, 'learning_rate': 2.6185907276634942e-05, 'epoch': 47.63} {'loss': 0.0455, 'learning_rate': 2.6183508596868285e-05, 'epoch': 47.63} {'loss': 0.0433, 'learning_rate': 2.6181109917101627e-05, 'epoch': 47.64} {'loss': 0.0462, 'learning_rate': 2.6178711237334973e-05, 'epoch': 47.64} {'loss': 0.0452, 'learning_rate': 2.6176312557568316e-05, 'epoch': 47.65} {'loss': 0.0448, 'learning_rate': 2.617391387780166e-05, 'epoch': 47.65} {'loss': 0.0442, 'learning_rate': 2.6171515198035e-05, 'epoch': 47.66} {'loss': 0.0444, 'learning_rate': 2.6169116518268344e-05, 'epoch': 47.66} {'loss': 0.0464, 'learning_rate': 2.6166717838501694e-05, 'epoch': 47.67} {'loss': 0.0472, 'learning_rate': 2.6164319158735033e-05, 'epoch': 47.67} {'loss': 0.046, 'learning_rate': 2.6161920478968376e-05, 'epoch': 47.68} {'loss': 0.0441, 'learning_rate': 2.615952179920172e-05, 'epoch': 47.68} {'loss': 0.046, 'learning_rate': 2.615712311943506e-05, 'epoch': 47.69} {'loss': 0.0438, 'learning_rate': 2.615472443966841e-05, 'epoch': 47.69} {'loss': 0.0466, 'learning_rate': 2.6152325759901753e-05, 'epoch': 47.7} {'loss': 0.0469, 'learning_rate': 2.6149927080135096e-05, 'epoch': 47.7} {'loss': 0.0464, 'learning_rate': 2.614752840036844e-05, 'epoch': 47.7} {'loss': 0.0451, 'learning_rate': 2.614512972060178e-05, 'epoch': 47.71} {'loss': 0.0455, 'learning_rate': 2.6142731040835127e-05, 'epoch': 47.71} {'loss': 0.0472, 'learning_rate': 2.614033236106847e-05, 'epoch': 47.72} {'loss': 0.0462, 'learning_rate': 2.6137933681301813e-05, 'epoch': 47.72} {'loss': 0.0453, 'learning_rate': 2.6135535001535156e-05, 'epoch': 47.73} {'loss': 0.0462, 'learning_rate': 2.6133136321768498e-05, 'epoch': 47.73} {'loss': 0.0446, 'learning_rate': 2.6130737642001844e-05, 'epoch': 47.74} {'loss': 0.0455, 'learning_rate': 2.6128338962235187e-05, 'epoch': 47.74} {'loss': 0.0449, 'learning_rate': 2.612594028246853e-05, 'epoch': 47.75} {'loss': 0.046, 'learning_rate': 2.6123541602701872e-05, 'epoch': 47.75} {'loss': 0.0468, 'learning_rate': 2.6121142922935215e-05, 'epoch': 47.76} {'loss': 0.0456, 'learning_rate': 2.6118744243168565e-05, 'epoch': 47.76} {'loss': 0.0454, 'learning_rate': 2.6116345563401907e-05, 'epoch': 47.77} {'loss': 0.0432, 'learning_rate': 2.611394688363525e-05, 'epoch': 47.77} {'loss': 0.0446, 'learning_rate': 2.611154820386859e-05, 'epoch': 47.78} {'loss': 0.0458, 'learning_rate': 2.6109149524101932e-05, 'epoch': 47.78} {'loss': 0.0465, 'learning_rate': 2.610675084433528e-05, 'epoch': 47.79} {'loss': 0.0453, 'learning_rate': 2.6104352164568624e-05, 'epoch': 47.79} {'loss': 0.0471, 'learning_rate': 2.6101953484801967e-05, 'epoch': 47.8} {'loss': 0.045, 'learning_rate': 2.609955480503531e-05, 'epoch': 47.8} {'loss': 0.0448, 'learning_rate': 2.6097156125268652e-05, 'epoch': 47.81} {'loss': 0.044, 'learning_rate': 2.6094757445502e-05, 'epoch': 47.81} {'loss': 0.0436, 'learning_rate': 2.609235876573534e-05, 'epoch': 47.82} {'loss': 0.0456, 'learning_rate': 2.6089960085968684e-05, 'epoch': 47.82} {'loss': 0.047, 'learning_rate': 2.6087561406202027e-05, 'epoch': 47.82} {'loss': 0.0441, 'learning_rate': 2.608516272643537e-05, 'epoch': 47.83} {'loss': 0.0457, 'learning_rate': 2.608276404666872e-05, 'epoch': 47.83} {'loss': 0.045, 'learning_rate': 2.608036536690206e-05, 'epoch': 47.84} {'loss': 0.0478, 'learning_rate': 2.60779666871354e-05, 'epoch': 47.84} {'loss': 0.0457, 'learning_rate': 2.6075568007368743e-05, 'epoch': 47.85} {'loss': 0.0467, 'learning_rate': 2.6073169327602086e-05, 'epoch': 47.85} {'loss': 0.0453, 'learning_rate': 2.6070770647835436e-05, 'epoch': 47.86} {'loss': 0.0454, 'learning_rate': 2.606837196806878e-05, 'epoch': 47.86} {'loss': 0.044, 'learning_rate': 2.606597328830212e-05, 'epoch': 47.87} {'loss': 0.0458, 'learning_rate': 2.6063574608535464e-05, 'epoch': 47.87} {'loss': 0.0444, 'learning_rate': 2.6061175928768806e-05, 'epoch': 47.88} {'loss': 0.0457, 'learning_rate': 2.6058777249002153e-05, 'epoch': 47.88} {'loss': 0.0458, 'learning_rate': 2.6056378569235495e-05, 'epoch': 47.89} {'loss': 0.0463, 'learning_rate': 2.6053979889468838e-05, 'epoch': 47.89} {'loss': 0.0454, 'learning_rate': 2.605158120970218e-05, 'epoch': 47.9} {'loss': 0.0439, 'learning_rate': 2.6049182529935523e-05, 'epoch': 47.9} {'loss': 0.0455, 'learning_rate': 2.604678385016887e-05, 'epoch': 47.91} {'loss': 0.0462, 'learning_rate': 2.6044385170402212e-05, 'epoch': 47.91} {'loss': 0.047, 'learning_rate': 2.6041986490635555e-05, 'epoch': 47.92} {'loss': 0.0459, 'learning_rate': 2.6039587810868898e-05, 'epoch': 47.92} {'loss': 0.0449, 'learning_rate': 2.603718913110224e-05, 'epoch': 47.93} {'loss': 0.0466, 'learning_rate': 2.603479045133559e-05, 'epoch': 47.93} {'loss': 0.0474, 'learning_rate': 2.6032391771568932e-05, 'epoch': 47.94} {'loss': 0.0443, 'learning_rate': 2.6029993091802275e-05, 'epoch': 47.94} {'loss': 0.0445, 'learning_rate': 2.6027594412035618e-05, 'epoch': 47.94} {'loss': 0.0446, 'learning_rate': 2.6025195732268957e-05, 'epoch': 47.95} {'loss': 0.0462, 'learning_rate': 2.60227970525023e-05, 'epoch': 47.95} {'loss': 0.0447, 'learning_rate': 2.602039837273565e-05, 'epoch': 47.96} {'loss': 0.045, 'learning_rate': 2.6017999692968992e-05, 'epoch': 47.96} {'loss': 0.0476, 'learning_rate': 2.6015601013202335e-05, 'epoch': 47.97} {'loss': 0.0459, 'learning_rate': 2.6013202333435677e-05, 'epoch': 47.97} {'loss': 0.0457, 'learning_rate': 2.601080365366902e-05, 'epoch': 47.98} {'loss': 0.0443, 'learning_rate': 2.6008404973902366e-05, 'epoch': 47.98} {'loss': 0.0448, 'learning_rate': 2.600600629413571e-05, 'epoch': 47.99} {'loss': 0.0449, 'learning_rate': 2.600360761436905e-05, 'epoch': 47.99} {'loss': 0.0445, 'learning_rate': 2.6001208934602394e-05, 'epoch': 48.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04397398978471756, 'eval_runtime': 738.3816, 'eval_samples_per_second': 564.606, 'eval_steps_per_second': 70.576, 'epoch': 48.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-5002752 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-5002752/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-5002752/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-4898528] due to args.save_total_limit {'loss': 0.0453, 'learning_rate': 2.5998810254835737e-05, 'epoch': 48.0} {'loss': 0.0462, 'learning_rate': 2.5996411575069087e-05, 'epoch': 48.01} {'loss': 0.0459, 'learning_rate': 2.599401289530243e-05, 'epoch': 48.01} {'loss': 0.0434, 'learning_rate': 2.599161421553577e-05, 'epoch': 48.02} {'loss': 0.044, 'learning_rate': 2.598921553576911e-05, 'epoch': 48.02} {'loss': 0.0446, 'learning_rate': 2.5986816856002454e-05, 'epoch': 48.03} {'loss': 0.0462, 'learning_rate': 2.5984418176235803e-05, 'epoch': 48.03} {'loss': 0.0445, 'learning_rate': 2.5982019496469146e-05, 'epoch': 48.04} {'loss': 0.0452, 'learning_rate': 2.597962081670249e-05, 'epoch': 48.04} {'loss': 0.0453, 'learning_rate': 2.597722213693583e-05, 'epoch': 48.05} {'loss': 0.0465, 'learning_rate': 2.5974823457169174e-05, 'epoch': 48.05} {'loss': 0.044, 'learning_rate': 2.597242477740252e-05, 'epoch': 48.06} {'loss': 0.0465, 'learning_rate': 2.5970026097635863e-05, 'epoch': 48.06} {'loss': 0.0457, 'learning_rate': 2.5967627417869206e-05, 'epoch': 48.06} {'loss': 0.0445, 'learning_rate': 2.596522873810255e-05, 'epoch': 48.07} {'loss': 0.045, 'learning_rate': 2.596283005833589e-05, 'epoch': 48.07} {'loss': 0.0461, 'learning_rate': 2.5960431378569237e-05, 'epoch': 48.08} {'loss': 0.0472, 'learning_rate': 2.595803269880258e-05, 'epoch': 48.08} {'loss': 0.0454, 'learning_rate': 2.5955634019035923e-05, 'epoch': 48.09} {'loss': 0.0464, 'learning_rate': 2.5953235339269265e-05, 'epoch': 48.09} {'loss': 0.0487, 'learning_rate': 2.5950836659502608e-05, 'epoch': 48.1} {'loss': 0.0441, 'learning_rate': 2.5948437979735958e-05, 'epoch': 48.1} {'loss': 0.0452, 'learning_rate': 2.59460392999693e-05, 'epoch': 48.11} {'loss': 0.0458, 'learning_rate': 2.5943640620202643e-05, 'epoch': 48.11} {'loss': 0.047, 'learning_rate': 2.5941241940435986e-05, 'epoch': 48.12} {'loss': 0.0466, 'learning_rate': 2.5938843260669325e-05, 'epoch': 48.12} {'loss': 0.0443, 'learning_rate': 2.5936444580902674e-05, 'epoch': 48.13} {'loss': 0.044, 'learning_rate': 2.5934045901136017e-05, 'epoch': 48.13} {'loss': 0.0459, 'learning_rate': 2.593164722136936e-05, 'epoch': 48.14} {'loss': 0.0434, 'learning_rate': 2.5929248541602703e-05, 'epoch': 48.14} {'loss': 0.0443, 'learning_rate': 2.5926849861836045e-05, 'epoch': 48.15} {'loss': 0.0449, 'learning_rate': 2.592445118206939e-05, 'epoch': 48.15} {'loss': 0.045, 'learning_rate': 2.5922052502302734e-05, 'epoch': 48.16} {'loss': 0.0451, 'learning_rate': 2.5919653822536077e-05, 'epoch': 48.16} {'loss': 0.0459, 'learning_rate': 2.591725514276942e-05, 'epoch': 48.17} {'loss': 0.045, 'learning_rate': 2.5914856463002762e-05, 'epoch': 48.17} {'loss': 0.0465, 'learning_rate': 2.591245778323611e-05, 'epoch': 48.18} {'loss': 0.0453, 'learning_rate': 2.5910059103469454e-05, 'epoch': 48.18} {'loss': 0.0455, 'learning_rate': 2.5907660423702794e-05, 'epoch': 48.18} {'loss': 0.0436, 'learning_rate': 2.5905261743936136e-05, 'epoch': 48.19} {'loss': 0.0442, 'learning_rate': 2.590286306416948e-05, 'epoch': 48.19} {'loss': 0.045, 'learning_rate': 2.590046438440283e-05, 'epoch': 48.2} {'loss': 0.0436, 'learning_rate': 2.589806570463617e-05, 'epoch': 48.2} {'loss': 0.0435, 'learning_rate': 2.5895667024869514e-05, 'epoch': 48.21} {'loss': 0.0437, 'learning_rate': 2.5893268345102857e-05, 'epoch': 48.21} {'loss': 0.0434, 'learning_rate': 2.58908696653362e-05, 'epoch': 48.22} {'loss': 0.0461, 'learning_rate': 2.5888470985569545e-05, 'epoch': 48.22} {'loss': 0.0449, 'learning_rate': 2.5886072305802888e-05, 'epoch': 48.23} {'loss': 0.0459, 'learning_rate': 2.588367362603623e-05, 'epoch': 48.23} {'loss': 0.0446, 'learning_rate': 2.5881274946269574e-05, 'epoch': 48.24} {'loss': 0.0456, 'learning_rate': 2.5878876266502916e-05, 'epoch': 48.24} {'loss': 0.0458, 'learning_rate': 2.5876477586736266e-05, 'epoch': 48.25} {'loss': 0.0439, 'learning_rate': 2.5874078906969605e-05, 'epoch': 48.25} {'loss': 0.0443, 'learning_rate': 2.5871680227202948e-05, 'epoch': 48.26} {'loss': 0.0471, 'learning_rate': 2.586928154743629e-05, 'epoch': 48.26} {'loss': 0.0452, 'learning_rate': 2.5866882867669633e-05, 'epoch': 48.27} {'loss': 0.043, 'learning_rate': 2.5864484187902983e-05, 'epoch': 48.27} {'loss': 0.0447, 'learning_rate': 2.5862085508136325e-05, 'epoch': 48.28} {'loss': 0.0484, 'learning_rate': 2.5859686828369668e-05, 'epoch': 48.28} {'loss': 0.0457, 'learning_rate': 2.585728814860301e-05, 'epoch': 48.29} {'loss': 0.0455, 'learning_rate': 2.5854889468836353e-05, 'epoch': 48.29} {'loss': 0.0471, 'learning_rate': 2.58524907890697e-05, 'epoch': 48.3} {'loss': 0.0459, 'learning_rate': 2.5850092109303042e-05, 'epoch': 48.3} {'loss': 0.0447, 'learning_rate': 2.5847693429536385e-05, 'epoch': 48.3} {'loss': 0.0444, 'learning_rate': 2.5845294749769728e-05, 'epoch': 48.31} {'loss': 0.0435, 'learning_rate': 2.584289607000307e-05, 'epoch': 48.31} {'loss': 0.0449, 'learning_rate': 2.5840497390236416e-05, 'epoch': 48.32} {'loss': 0.0446, 'learning_rate': 2.583809871046976e-05, 'epoch': 48.32} {'loss': 0.0475, 'learning_rate': 2.5835700030703102e-05, 'epoch': 48.33} {'loss': 0.0427, 'learning_rate': 2.5833301350936445e-05, 'epoch': 48.33} {'loss': 0.0455, 'learning_rate': 2.5830902671169787e-05, 'epoch': 48.34} {'loss': 0.0441, 'learning_rate': 2.5828503991403137e-05, 'epoch': 48.34} {'loss': 0.0448, 'learning_rate': 2.582610531163648e-05, 'epoch': 48.35} {'loss': 0.0431, 'learning_rate': 2.5823706631869822e-05, 'epoch': 48.35} {'loss': 0.0456, 'learning_rate': 2.582130795210316e-05, 'epoch': 48.36} {'loss': 0.0448, 'learning_rate': 2.5818909272336504e-05, 'epoch': 48.36} {'loss': 0.0473, 'learning_rate': 2.5816510592569847e-05, 'epoch': 48.37} {'loss': 0.0442, 'learning_rate': 2.5814111912803196e-05, 'epoch': 48.37} {'loss': 0.0464, 'learning_rate': 2.581171323303654e-05, 'epoch': 48.38} {'loss': 0.0435, 'learning_rate': 2.5809314553269882e-05, 'epoch': 48.38} {'loss': 0.0453, 'learning_rate': 2.5806915873503224e-05, 'epoch': 48.39} {'loss': 0.0455, 'learning_rate': 2.5804517193736567e-05, 'epoch': 48.39} {'loss': 0.0463, 'learning_rate': 2.5802118513969913e-05, 'epoch': 48.4} {'loss': 0.0441, 'learning_rate': 2.5799719834203256e-05, 'epoch': 48.4} {'loss': 0.0454, 'learning_rate': 2.57973211544366e-05, 'epoch': 48.41} {'loss': 0.0457, 'learning_rate': 2.579492247466994e-05, 'epoch': 48.41} {'loss': 0.0438, 'learning_rate': 2.5792523794903284e-05, 'epoch': 48.41} {'loss': 0.0453, 'learning_rate': 2.5790125115136634e-05, 'epoch': 48.42} {'loss': 0.047, 'learning_rate': 2.5787726435369973e-05, 'epoch': 48.42} {'loss': 0.0475, 'learning_rate': 2.5785327755603316e-05, 'epoch': 48.43} {'loss': 0.0454, 'learning_rate': 2.5782929075836658e-05, 'epoch': 48.43} {'loss': 0.0449, 'learning_rate': 2.578053039607e-05, 'epoch': 48.44} {'loss': 0.0429, 'learning_rate': 2.577813171630335e-05, 'epoch': 48.44} {'loss': 0.0426, 'learning_rate': 2.5775733036536693e-05, 'epoch': 48.45} {'loss': 0.0462, 'learning_rate': 2.5773334356770036e-05, 'epoch': 48.45} {'loss': 0.0474, 'learning_rate': 2.577093567700338e-05, 'epoch': 48.46} {'loss': 0.0454, 'learning_rate': 2.576853699723672e-05, 'epoch': 48.46} {'loss': 0.0451, 'learning_rate': 2.5766138317470067e-05, 'epoch': 48.47} {'loss': 0.0449, 'learning_rate': 2.576373963770341e-05, 'epoch': 48.47} {'loss': 0.0429, 'learning_rate': 2.5761340957936753e-05, 'epoch': 48.48} {'loss': 0.0448, 'learning_rate': 2.5758942278170095e-05, 'epoch': 48.48} {'loss': 0.0451, 'learning_rate': 2.5756543598403438e-05, 'epoch': 48.49} {'loss': 0.0446, 'learning_rate': 2.5754144918636784e-05, 'epoch': 48.49} {'loss': 0.0452, 'learning_rate': 2.5751746238870127e-05, 'epoch': 48.5} {'loss': 0.0448, 'learning_rate': 2.574934755910347e-05, 'epoch': 48.5} {'loss': 0.0444, 'learning_rate': 2.5746948879336812e-05, 'epoch': 48.51} {'loss': 0.043, 'learning_rate': 2.5744550199570155e-05, 'epoch': 48.51} {'loss': 0.0451, 'learning_rate': 2.5742151519803505e-05, 'epoch': 48.52} {'loss': 0.045, 'learning_rate': 2.5739752840036847e-05, 'epoch': 48.52} {'loss': 0.0454, 'learning_rate': 2.573735416027019e-05, 'epoch': 48.53} {'loss': 0.0459, 'learning_rate': 2.573495548050353e-05, 'epoch': 48.53} {'loss': 0.0445, 'learning_rate': 2.5732556800736872e-05, 'epoch': 48.53} {'loss': 0.0446, 'learning_rate': 2.573015812097022e-05, 'epoch': 48.54} {'loss': 0.0455, 'learning_rate': 2.5727759441203564e-05, 'epoch': 48.54} {'loss': 0.046, 'learning_rate': 2.5725360761436907e-05, 'epoch': 48.55} {'loss': 0.0462, 'learning_rate': 2.572296208167025e-05, 'epoch': 48.55} {'loss': 0.0425, 'learning_rate': 2.5720563401903592e-05, 'epoch': 48.56} {'loss': 0.0451, 'learning_rate': 2.571816472213694e-05, 'epoch': 48.56} {'loss': 0.0453, 'learning_rate': 2.571576604237028e-05, 'epoch': 48.57} {'loss': 0.0442, 'learning_rate': 2.5713367362603624e-05, 'epoch': 48.57} {'loss': 0.0461, 'learning_rate': 2.5710968682836966e-05, 'epoch': 48.58} {'loss': 0.0445, 'learning_rate': 2.570857000307031e-05, 'epoch': 48.58} {'loss': 0.0481, 'learning_rate': 2.570617132330366e-05, 'epoch': 48.59} {'loss': 0.0456, 'learning_rate': 2.5703772643536998e-05, 'epoch': 48.59} {'loss': 0.0436, 'learning_rate': 2.570137396377034e-05, 'epoch': 48.6} {'loss': 0.0468, 'learning_rate': 2.5698975284003683e-05, 'epoch': 48.6} {'loss': 0.0462, 'learning_rate': 2.5696576604237026e-05, 'epoch': 48.61} {'loss': 0.0454, 'learning_rate': 2.5694177924470376e-05, 'epoch': 48.61} {'loss': 0.0447, 'learning_rate': 2.5691779244703718e-05, 'epoch': 48.62} {'loss': 0.0451, 'learning_rate': 2.568938056493706e-05, 'epoch': 48.62} {'loss': 0.0459, 'learning_rate': 2.5686981885170404e-05, 'epoch': 48.63} {'loss': 0.0465, 'learning_rate': 2.5684583205403746e-05, 'epoch': 48.63} {'loss': 0.0462, 'learning_rate': 2.5682184525637092e-05, 'epoch': 48.64} {'loss': 0.0454, 'learning_rate': 2.5679785845870435e-05, 'epoch': 48.64} {'loss': 0.0432, 'learning_rate': 2.5677387166103778e-05, 'epoch': 48.65} {'loss': 0.0458, 'learning_rate': 2.567498848633712e-05, 'epoch': 48.65} {'loss': 0.0438, 'learning_rate': 2.5672589806570463e-05, 'epoch': 48.65} {'loss': 0.0442, 'learning_rate': 2.567019112680381e-05, 'epoch': 48.66} {'loss': 0.0458, 'learning_rate': 2.5667792447037152e-05, 'epoch': 48.66} {'loss': 0.0448, 'learning_rate': 2.5665393767270495e-05, 'epoch': 48.67} {'loss': 0.0448, 'learning_rate': 2.5662995087503837e-05, 'epoch': 48.67} {'loss': 0.0452, 'learning_rate': 2.566059640773718e-05, 'epoch': 48.68} {'loss': 0.0449, 'learning_rate': 2.565819772797053e-05, 'epoch': 48.68} {'loss': 0.045, 'learning_rate': 2.5655799048203872e-05, 'epoch': 48.69} {'loss': 0.0448, 'learning_rate': 2.5653400368437215e-05, 'epoch': 48.69} {'loss': 0.0456, 'learning_rate': 2.5651001688670558e-05, 'epoch': 48.7} {'loss': 0.0443, 'learning_rate': 2.5648603008903897e-05, 'epoch': 48.7} {'loss': 0.0443, 'learning_rate': 2.5646204329137247e-05, 'epoch': 48.71} {'loss': 0.0443, 'learning_rate': 2.564380564937059e-05, 'epoch': 48.71} {'loss': 0.0463, 'learning_rate': 2.5641406969603932e-05, 'epoch': 48.72} {'loss': 0.0445, 'learning_rate': 2.5639008289837275e-05, 'epoch': 48.72} {'loss': 0.0453, 'learning_rate': 2.5636609610070617e-05, 'epoch': 48.73} {'loss': 0.0443, 'learning_rate': 2.5634210930303963e-05, 'epoch': 48.73} {'loss': 0.045, 'learning_rate': 2.5631812250537306e-05, 'epoch': 48.74} {'loss': 0.045, 'learning_rate': 2.562941357077065e-05, 'epoch': 48.74} {'loss': 0.0469, 'learning_rate': 2.562701489100399e-05, 'epoch': 48.75} {'loss': 0.046, 'learning_rate': 2.5624616211237334e-05, 'epoch': 48.75} {'loss': 0.0454, 'learning_rate': 2.5622217531470684e-05, 'epoch': 48.76} {'loss': 0.0459, 'learning_rate': 2.5619818851704026e-05, 'epoch': 48.76} {'loss': 0.0447, 'learning_rate': 2.5617420171937366e-05, 'epoch': 48.77} {'loss': 0.0449, 'learning_rate': 2.561502149217071e-05, 'epoch': 48.77} {'loss': 0.0458, 'learning_rate': 2.561262281240405e-05, 'epoch': 48.77} {'loss': 0.0445, 'learning_rate': 2.5610224132637394e-05, 'epoch': 48.78} {'loss': 0.0451, 'learning_rate': 2.5607825452870743e-05, 'epoch': 48.78} {'loss': 0.0444, 'learning_rate': 2.5605426773104086e-05, 'epoch': 48.79} {'loss': 0.0453, 'learning_rate': 2.560302809333743e-05, 'epoch': 48.79} {'loss': 0.0465, 'learning_rate': 2.560062941357077e-05, 'epoch': 48.8} {'loss': 0.0459, 'learning_rate': 2.5598230733804114e-05, 'epoch': 48.8} {'loss': 0.0454, 'learning_rate': 2.559583205403746e-05, 'epoch': 48.81} {'loss': 0.0452, 'learning_rate': 2.5593433374270803e-05, 'epoch': 48.81} {'loss': 0.0461, 'learning_rate': 2.5591034694504146e-05, 'epoch': 48.82} {'loss': 0.0454, 'learning_rate': 2.558863601473749e-05, 'epoch': 48.82} {'loss': 0.0454, 'learning_rate': 2.558623733497083e-05, 'epoch': 48.83} {'loss': 0.0465, 'learning_rate': 2.5583838655204177e-05, 'epoch': 48.83} {'loss': 0.045, 'learning_rate': 2.558143997543752e-05, 'epoch': 48.84} {'loss': 0.0438, 'learning_rate': 2.5579041295670863e-05, 'epoch': 48.84} {'loss': 0.0456, 'learning_rate': 2.5576642615904205e-05, 'epoch': 48.85} {'loss': 0.0432, 'learning_rate': 2.5574243936137548e-05, 'epoch': 48.85} {'loss': 0.0448, 'learning_rate': 2.5571845256370897e-05, 'epoch': 48.86} {'loss': 0.0448, 'learning_rate': 2.556944657660424e-05, 'epoch': 48.86} {'loss': 0.0476, 'learning_rate': 2.5567047896837583e-05, 'epoch': 48.87} {'loss': 0.0455, 'learning_rate': 2.5564649217070926e-05, 'epoch': 48.87} {'loss': 0.0459, 'learning_rate': 2.5562250537304265e-05, 'epoch': 48.88} {'loss': 0.0438, 'learning_rate': 2.5559851857537614e-05, 'epoch': 48.88} {'loss': 0.0449, 'learning_rate': 2.5557453177770957e-05, 'epoch': 48.89} {'loss': 0.0459, 'learning_rate': 2.55550544980043e-05, 'epoch': 48.89} {'loss': 0.046, 'learning_rate': 2.5552655818237642e-05, 'epoch': 48.89} {'loss': 0.0452, 'learning_rate': 2.5550257138470985e-05, 'epoch': 48.9} {'loss': 0.0462, 'learning_rate': 2.554785845870433e-05, 'epoch': 48.9} {'loss': 0.0454, 'learning_rate': 2.5545459778937674e-05, 'epoch': 48.91} {'loss': 0.0446, 'learning_rate': 2.5543061099171017e-05, 'epoch': 48.91} {'loss': 0.0459, 'learning_rate': 2.554066241940436e-05, 'epoch': 48.92} {'loss': 0.0482, 'learning_rate': 2.5538263739637702e-05, 'epoch': 48.92} {'loss': 0.0462, 'learning_rate': 2.553586505987105e-05, 'epoch': 48.93} {'loss': 0.0429, 'learning_rate': 2.5533466380104394e-05, 'epoch': 48.93} {'loss': 0.0447, 'learning_rate': 2.5531067700337734e-05, 'epoch': 48.94} {'loss': 0.0446, 'learning_rate': 2.5528669020571076e-05, 'epoch': 48.94} {'loss': 0.0449, 'learning_rate': 2.552627034080442e-05, 'epoch': 48.95} {'loss': 0.0442, 'learning_rate': 2.552387166103777e-05, 'epoch': 48.95} {'loss': 0.0459, 'learning_rate': 2.552147298127111e-05, 'epoch': 48.96} {'loss': 0.0436, 'learning_rate': 2.5519074301504454e-05, 'epoch': 48.96} {'loss': 0.047, 'learning_rate': 2.5516675621737797e-05, 'epoch': 48.97} {'loss': 0.0439, 'learning_rate': 2.551427694197114e-05, 'epoch': 48.97} {'loss': 0.0459, 'learning_rate': 2.5511878262204485e-05, 'epoch': 48.98} {'loss': 0.0437, 'learning_rate': 2.5509479582437828e-05, 'epoch': 48.98} {'loss': 0.0449, 'learning_rate': 2.550708090267117e-05, 'epoch': 48.99} {'loss': 0.0472, 'learning_rate': 2.5504682222904513e-05, 'epoch': 48.99} {'loss': 0.0444, 'learning_rate': 2.5502283543137856e-05, 'epoch': 49.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04282800853252411, 'eval_runtime': 740.5828, 'eval_samples_per_second': 562.928, 'eval_steps_per_second': 70.366, 'epoch': 49.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-5106976 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-5106976/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-5106976/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-5002752] due to args.save_total_limit {'loss': 0.0439, 'learning_rate': 2.5499884863371202e-05, 'epoch': 49.0} {'loss': 0.0445, 'learning_rate': 2.5497486183604545e-05, 'epoch': 49.01} {'loss': 0.0435, 'learning_rate': 2.5495087503837888e-05, 'epoch': 49.01} {'loss': 0.0438, 'learning_rate': 2.549268882407123e-05, 'epoch': 49.01} {'loss': 0.0458, 'learning_rate': 2.5490290144304573e-05, 'epoch': 49.02} {'loss': 0.0457, 'learning_rate': 2.5487891464537923e-05, 'epoch': 49.02} {'loss': 0.0441, 'learning_rate': 2.5485492784771265e-05, 'epoch': 49.03} {'loss': 0.0458, 'learning_rate': 2.5483094105004608e-05, 'epoch': 49.03} {'loss': 0.0442, 'learning_rate': 2.548069542523795e-05, 'epoch': 49.04} {'loss': 0.0467, 'learning_rate': 2.5478296745471293e-05, 'epoch': 49.04} {'loss': 0.0432, 'learning_rate': 2.547589806570464e-05, 'epoch': 49.05} {'loss': 0.0452, 'learning_rate': 2.5473499385937982e-05, 'epoch': 49.05} {'loss': 0.0447, 'learning_rate': 2.5471100706171325e-05, 'epoch': 49.06} {'loss': 0.0446, 'learning_rate': 2.5468702026404668e-05, 'epoch': 49.06} {'loss': 0.0444, 'learning_rate': 2.546630334663801e-05, 'epoch': 49.07} {'loss': 0.044, 'learning_rate': 2.5463904666871356e-05, 'epoch': 49.07} {'loss': 0.0453, 'learning_rate': 2.54615059871047e-05, 'epoch': 49.08} {'loss': 0.0429, 'learning_rate': 2.5459107307338042e-05, 'epoch': 49.08} {'loss': 0.044, 'learning_rate': 2.5456708627571384e-05, 'epoch': 49.09} {'loss': 0.0462, 'learning_rate': 2.5454309947804727e-05, 'epoch': 49.09} {'loss': 0.0465, 'learning_rate': 2.5451911268038077e-05, 'epoch': 49.1} {'loss': 0.0432, 'learning_rate': 2.544951258827142e-05, 'epoch': 49.1} {'loss': 0.0463, 'learning_rate': 2.5447113908504762e-05, 'epoch': 49.11} {'loss': 0.0442, 'learning_rate': 2.54447152287381e-05, 'epoch': 49.11} {'loss': 0.0453, 'learning_rate': 2.5442316548971444e-05, 'epoch': 49.12} {'loss': 0.0441, 'learning_rate': 2.5439917869204794e-05, 'epoch': 49.12} {'loss': 0.0448, 'learning_rate': 2.5437519189438136e-05, 'epoch': 49.12} {'loss': 0.0438, 'learning_rate': 2.543512050967148e-05, 'epoch': 49.13} {'loss': 0.0452, 'learning_rate': 2.543272182990482e-05, 'epoch': 49.13} {'loss': 0.0446, 'learning_rate': 2.5430323150138164e-05, 'epoch': 49.14} {'loss': 0.0429, 'learning_rate': 2.542792447037151e-05, 'epoch': 49.14} {'loss': 0.0441, 'learning_rate': 2.5425525790604853e-05, 'epoch': 49.15} {'loss': 0.0454, 'learning_rate': 2.5423127110838196e-05, 'epoch': 49.15} {'loss': 0.0444, 'learning_rate': 2.542072843107154e-05, 'epoch': 49.16} {'loss': 0.047, 'learning_rate': 2.541832975130488e-05, 'epoch': 49.16} {'loss': 0.045, 'learning_rate': 2.541593107153823e-05, 'epoch': 49.17} {'loss': 0.0448, 'learning_rate': 2.541353239177157e-05, 'epoch': 49.17} {'loss': 0.0469, 'learning_rate': 2.5411133712004913e-05, 'epoch': 49.18} {'loss': 0.0439, 'learning_rate': 2.5408735032238255e-05, 'epoch': 49.18} {'loss': 0.0467, 'learning_rate': 2.5406336352471598e-05, 'epoch': 49.19} {'loss': 0.0447, 'learning_rate': 2.5403937672704948e-05, 'epoch': 49.19} {'loss': 0.0459, 'learning_rate': 2.540153899293829e-05, 'epoch': 49.2} {'loss': 0.0424, 'learning_rate': 2.5399140313171633e-05, 'epoch': 49.2} {'loss': 0.0455, 'learning_rate': 2.5396741633404976e-05, 'epoch': 49.21} {'loss': 0.0455, 'learning_rate': 2.539434295363832e-05, 'epoch': 49.21} {'loss': 0.0454, 'learning_rate': 2.539194427387166e-05, 'epoch': 49.22} {'loss': 0.0457, 'learning_rate': 2.5389545594105007e-05, 'epoch': 49.22} {'loss': 0.045, 'learning_rate': 2.538714691433835e-05, 'epoch': 49.23} {'loss': 0.0456, 'learning_rate': 2.5384748234571693e-05, 'epoch': 49.23} {'loss': 0.0427, 'learning_rate': 2.5382349554805035e-05, 'epoch': 49.24} {'loss': 0.0452, 'learning_rate': 2.5379950875038378e-05, 'epoch': 49.24} {'loss': 0.0449, 'learning_rate': 2.5377552195271724e-05, 'epoch': 49.24} {'loss': 0.0455, 'learning_rate': 2.5375153515505067e-05, 'epoch': 49.25} {'loss': 0.0438, 'learning_rate': 2.537275483573841e-05, 'epoch': 49.25} {'loss': 0.045, 'learning_rate': 2.5370356155971752e-05, 'epoch': 49.26} {'loss': 0.045, 'learning_rate': 2.5367957476205095e-05, 'epoch': 49.26} {'loss': 0.0452, 'learning_rate': 2.5365558796438444e-05, 'epoch': 49.27} {'loss': 0.047, 'learning_rate': 2.5363160116671787e-05, 'epoch': 49.27} {'loss': 0.0442, 'learning_rate': 2.536076143690513e-05, 'epoch': 49.28} {'loss': 0.043, 'learning_rate': 2.535836275713847e-05, 'epoch': 49.28} {'loss': 0.0426, 'learning_rate': 2.5355964077371812e-05, 'epoch': 49.29} {'loss': 0.0452, 'learning_rate': 2.535356539760516e-05, 'epoch': 49.29} {'loss': 0.0453, 'learning_rate': 2.5351166717838504e-05, 'epoch': 49.3} {'loss': 0.0436, 'learning_rate': 2.5348768038071847e-05, 'epoch': 49.3} {'loss': 0.0464, 'learning_rate': 2.534636935830519e-05, 'epoch': 49.31} {'loss': 0.0437, 'learning_rate': 2.5343970678538532e-05, 'epoch': 49.31} {'loss': 0.0436, 'learning_rate': 2.5341571998771878e-05, 'epoch': 49.32} {'loss': 0.0451, 'learning_rate': 2.533917331900522e-05, 'epoch': 49.32} {'loss': 0.0423, 'learning_rate': 2.5336774639238564e-05, 'epoch': 49.33} {'loss': 0.0433, 'learning_rate': 2.5334375959471906e-05, 'epoch': 49.33} {'loss': 0.0457, 'learning_rate': 2.533197727970525e-05, 'epoch': 49.34} {'loss': 0.0442, 'learning_rate': 2.53295785999386e-05, 'epoch': 49.34} {'loss': 0.0467, 'learning_rate': 2.5327179920171938e-05, 'epoch': 49.35} {'loss': 0.0418, 'learning_rate': 2.532478124040528e-05, 'epoch': 49.35} {'loss': 0.0467, 'learning_rate': 2.5322382560638623e-05, 'epoch': 49.36} {'loss': 0.0423, 'learning_rate': 2.5319983880871966e-05, 'epoch': 49.36} {'loss': 0.0459, 'learning_rate': 2.5317585201105315e-05, 'epoch': 49.36} {'loss': 0.0457, 'learning_rate': 2.5315186521338658e-05, 'epoch': 49.37} {'loss': 0.0422, 'learning_rate': 2.5312787841572e-05, 'epoch': 49.37} {'loss': 0.0458, 'learning_rate': 2.5310389161805344e-05, 'epoch': 49.38} {'loss': 0.0451, 'learning_rate': 2.5307990482038686e-05, 'epoch': 49.38} {'loss': 0.0441, 'learning_rate': 2.5305591802272032e-05, 'epoch': 49.39} {'loss': 0.0444, 'learning_rate': 2.5303193122505375e-05, 'epoch': 49.39} {'loss': 0.0447, 'learning_rate': 2.5300794442738718e-05, 'epoch': 49.4} {'loss': 0.0443, 'learning_rate': 2.529839576297206e-05, 'epoch': 49.4} {'loss': 0.0458, 'learning_rate': 2.5295997083205403e-05, 'epoch': 49.41} {'loss': 0.0442, 'learning_rate': 2.529359840343875e-05, 'epoch': 49.41} {'loss': 0.0446, 'learning_rate': 2.5291199723672092e-05, 'epoch': 49.42} {'loss': 0.0446, 'learning_rate': 2.5288801043905435e-05, 'epoch': 49.42} {'loss': 0.0452, 'learning_rate': 2.5286402364138777e-05, 'epoch': 49.43} {'loss': 0.0443, 'learning_rate': 2.528400368437212e-05, 'epoch': 49.43} {'loss': 0.0437, 'learning_rate': 2.528160500460547e-05, 'epoch': 49.44} {'loss': 0.0447, 'learning_rate': 2.5279206324838812e-05, 'epoch': 49.44} {'loss': 0.0463, 'learning_rate': 2.5276807645072155e-05, 'epoch': 49.45} {'loss': 0.0449, 'learning_rate': 2.5274408965305498e-05, 'epoch': 49.45} {'loss': 0.046, 'learning_rate': 2.5272010285538837e-05, 'epoch': 49.46} {'loss': 0.0475, 'learning_rate': 2.5269611605772186e-05, 'epoch': 49.46} {'loss': 0.045, 'learning_rate': 2.526721292600553e-05, 'epoch': 49.47} {'loss': 0.0427, 'learning_rate': 2.5264814246238872e-05, 'epoch': 49.47} {'loss': 0.0455, 'learning_rate': 2.5262415566472215e-05, 'epoch': 49.48} {'loss': 0.0441, 'learning_rate': 2.5260016886705557e-05, 'epoch': 49.48} {'loss': 0.044, 'learning_rate': 2.5257618206938903e-05, 'epoch': 49.48} {'loss': 0.0468, 'learning_rate': 2.5255219527172246e-05, 'epoch': 49.49} {'loss': 0.0432, 'learning_rate': 2.525282084740559e-05, 'epoch': 49.49} {'loss': 0.044, 'learning_rate': 2.525042216763893e-05, 'epoch': 49.5} {'loss': 0.044, 'learning_rate': 2.5248023487872274e-05, 'epoch': 49.5} {'loss': 0.0434, 'learning_rate': 2.5245624808105624e-05, 'epoch': 49.51} {'loss': 0.045, 'learning_rate': 2.5243226128338966e-05, 'epoch': 49.51} {'loss': 0.0454, 'learning_rate': 2.5240827448572306e-05, 'epoch': 49.52} {'loss': 0.0461, 'learning_rate': 2.523842876880565e-05, 'epoch': 49.52} {'loss': 0.0442, 'learning_rate': 2.523603008903899e-05, 'epoch': 49.53} {'loss': 0.045, 'learning_rate': 2.523363140927234e-05, 'epoch': 49.53} {'loss': 0.0461, 'learning_rate': 2.5231232729505683e-05, 'epoch': 49.54} {'loss': 0.0454, 'learning_rate': 2.5228834049739026e-05, 'epoch': 49.54} {'loss': 0.0433, 'learning_rate': 2.522643536997237e-05, 'epoch': 49.55} {'loss': 0.0475, 'learning_rate': 2.522403669020571e-05, 'epoch': 49.55} {'loss': 0.0453, 'learning_rate': 2.5221638010439057e-05, 'epoch': 49.56} {'loss': 0.0453, 'learning_rate': 2.52192393306724e-05, 'epoch': 49.56} {'loss': 0.0478, 'learning_rate': 2.5216840650905743e-05, 'epoch': 49.57} {'loss': 0.0443, 'learning_rate': 2.5214441971139086e-05, 'epoch': 49.57} {'loss': 0.0434, 'learning_rate': 2.521204329137243e-05, 'epoch': 49.58} {'loss': 0.0429, 'learning_rate': 2.5209644611605774e-05, 'epoch': 49.58} {'loss': 0.0447, 'learning_rate': 2.5207245931839117e-05, 'epoch': 49.59} {'loss': 0.0441, 'learning_rate': 2.520484725207246e-05, 'epoch': 49.59} {'loss': 0.0423, 'learning_rate': 2.5202448572305803e-05, 'epoch': 49.6} {'loss': 0.0453, 'learning_rate': 2.5200049892539145e-05, 'epoch': 49.6} {'loss': 0.0439, 'learning_rate': 2.5197651212772495e-05, 'epoch': 49.6} {'loss': 0.0451, 'learning_rate': 2.5195252533005837e-05, 'epoch': 49.61} {'loss': 0.0434, 'learning_rate': 2.519285385323918e-05, 'epoch': 49.61} {'loss': 0.0467, 'learning_rate': 2.5190455173472523e-05, 'epoch': 49.62} {'loss': 0.0425, 'learning_rate': 2.5188056493705866e-05, 'epoch': 49.62} {'loss': 0.0433, 'learning_rate': 2.5185657813939205e-05, 'epoch': 49.63} {'loss': 0.0458, 'learning_rate': 2.5183259134172554e-05, 'epoch': 49.63} {'loss': 0.0463, 'learning_rate': 2.5180860454405897e-05, 'epoch': 49.64} {'loss': 0.0438, 'learning_rate': 2.517846177463924e-05, 'epoch': 49.64} {'loss': 0.0424, 'learning_rate': 2.5176063094872582e-05, 'epoch': 49.65} {'loss': 0.0456, 'learning_rate': 2.5173664415105925e-05, 'epoch': 49.65} {'loss': 0.0462, 'learning_rate': 2.517126573533927e-05, 'epoch': 49.66} {'loss': 0.0462, 'learning_rate': 2.5168867055572614e-05, 'epoch': 49.66} {'loss': 0.0461, 'learning_rate': 2.5166468375805957e-05, 'epoch': 49.67} {'loss': 0.0431, 'learning_rate': 2.51640696960393e-05, 'epoch': 49.67} {'loss': 0.0456, 'learning_rate': 2.5161671016272642e-05, 'epoch': 49.68} {'loss': 0.0437, 'learning_rate': 2.515927233650599e-05, 'epoch': 49.68} {'loss': 0.0438, 'learning_rate': 2.5156873656739334e-05, 'epoch': 49.69} {'loss': 0.0437, 'learning_rate': 2.5154474976972674e-05, 'epoch': 49.69} {'loss': 0.045, 'learning_rate': 2.5152076297206016e-05, 'epoch': 49.7} {'loss': 0.0472, 'learning_rate': 2.514967761743936e-05, 'epoch': 49.7} {'loss': 0.0447, 'learning_rate': 2.514727893767271e-05, 'epoch': 49.71} {'loss': 0.0457, 'learning_rate': 2.514488025790605e-05, 'epoch': 49.71} {'loss': 0.0438, 'learning_rate': 2.5142481578139394e-05, 'epoch': 49.72} {'loss': 0.0469, 'learning_rate': 2.5140082898372737e-05, 'epoch': 49.72} {'loss': 0.0445, 'learning_rate': 2.513768421860608e-05, 'epoch': 49.72} {'loss': 0.0437, 'learning_rate': 2.5135285538839425e-05, 'epoch': 49.73} {'loss': 0.0437, 'learning_rate': 2.5132886859072768e-05, 'epoch': 49.73} {'loss': 0.0467, 'learning_rate': 2.513048817930611e-05, 'epoch': 49.74} {'loss': 0.0456, 'learning_rate': 2.5128089499539453e-05, 'epoch': 49.74} {'loss': 0.0435, 'learning_rate': 2.5125690819772796e-05, 'epoch': 49.75} {'loss': 0.0453, 'learning_rate': 2.5123292140006142e-05, 'epoch': 49.75} {'loss': 0.0459, 'learning_rate': 2.5120893460239485e-05, 'epoch': 49.76} {'loss': 0.043, 'learning_rate': 2.5118494780472828e-05, 'epoch': 49.76} {'loss': 0.0442, 'learning_rate': 2.511609610070617e-05, 'epoch': 49.77} {'loss': 0.0439, 'learning_rate': 2.5113697420939513e-05, 'epoch': 49.77} {'loss': 0.0462, 'learning_rate': 2.5111298741172863e-05, 'epoch': 49.78} {'loss': 0.0444, 'learning_rate': 2.5108900061406205e-05, 'epoch': 49.78} {'loss': 0.0437, 'learning_rate': 2.5106501381639548e-05, 'epoch': 49.79} {'loss': 0.0468, 'learning_rate': 2.510410270187289e-05, 'epoch': 49.79} {'loss': 0.0459, 'learning_rate': 2.5101704022106233e-05, 'epoch': 49.8} {'loss': 0.0439, 'learning_rate': 2.509930534233958e-05, 'epoch': 49.8} {'loss': 0.0436, 'learning_rate': 2.5096906662572922e-05, 'epoch': 49.81} {'loss': 0.0475, 'learning_rate': 2.5094507982806265e-05, 'epoch': 49.81} {'loss': 0.0452, 'learning_rate': 2.5092109303039608e-05, 'epoch': 49.82} {'loss': 0.0452, 'learning_rate': 2.508971062327295e-05, 'epoch': 49.82} {'loss': 0.0453, 'learning_rate': 2.5087311943506296e-05, 'epoch': 49.83} {'loss': 0.0438, 'learning_rate': 2.508491326373964e-05, 'epoch': 49.83} {'loss': 0.0427, 'learning_rate': 2.5082514583972982e-05, 'epoch': 49.83} {'loss': 0.0461, 'learning_rate': 2.5080115904206324e-05, 'epoch': 49.84} {'loss': 0.0453, 'learning_rate': 2.5077717224439667e-05, 'epoch': 49.84} {'loss': 0.0465, 'learning_rate': 2.5075318544673017e-05, 'epoch': 49.85} {'loss': 0.0456, 'learning_rate': 2.507291986490636e-05, 'epoch': 49.85} {'loss': 0.0449, 'learning_rate': 2.5070521185139702e-05, 'epoch': 49.86} {'loss': 0.0481, 'learning_rate': 2.506812250537304e-05, 'epoch': 49.86} {'loss': 0.046, 'learning_rate': 2.5065723825606384e-05, 'epoch': 49.87} {'loss': 0.0452, 'learning_rate': 2.5063325145839734e-05, 'epoch': 49.87} {'loss': 0.0453, 'learning_rate': 2.5060926466073076e-05, 'epoch': 49.88} {'loss': 0.0449, 'learning_rate': 2.505852778630642e-05, 'epoch': 49.88} {'loss': 0.0453, 'learning_rate': 2.505612910653976e-05, 'epoch': 49.89} {'loss': 0.0449, 'learning_rate': 2.5053730426773104e-05, 'epoch': 49.89} {'loss': 0.0491, 'learning_rate': 2.505133174700645e-05, 'epoch': 49.9} {'loss': 0.0447, 'learning_rate': 2.5048933067239793e-05, 'epoch': 49.9} {'loss': 0.0439, 'learning_rate': 2.5046534387473136e-05, 'epoch': 49.91} {'loss': 0.0442, 'learning_rate': 2.504413570770648e-05, 'epoch': 49.91} {'loss': 0.0472, 'learning_rate': 2.504173702793982e-05, 'epoch': 49.92} {'loss': 0.0436, 'learning_rate': 2.503933834817317e-05, 'epoch': 49.92} {'loss': 0.0429, 'learning_rate': 2.503693966840651e-05, 'epoch': 49.93} {'loss': 0.0462, 'learning_rate': 2.5034540988639853e-05, 'epoch': 49.93} {'loss': 0.0443, 'learning_rate': 2.5032142308873195e-05, 'epoch': 49.94} {'loss': 0.0455, 'learning_rate': 2.5029743629106538e-05, 'epoch': 49.94} {'loss': 0.0413, 'learning_rate': 2.5027344949339888e-05, 'epoch': 49.95} {'loss': 0.0451, 'learning_rate': 2.502494626957323e-05, 'epoch': 49.95} {'loss': 0.0458, 'learning_rate': 2.5022547589806573e-05, 'epoch': 49.95} {'loss': 0.0461, 'learning_rate': 2.5020148910039916e-05, 'epoch': 49.96} {'loss': 0.0429, 'learning_rate': 2.501775023027326e-05, 'epoch': 49.96} {'loss': 0.0421, 'learning_rate': 2.5015351550506605e-05, 'epoch': 49.97} {'loss': 0.0426, 'learning_rate': 2.5012952870739947e-05, 'epoch': 49.97} {'loss': 0.0453, 'learning_rate': 2.501055419097329e-05, 'epoch': 49.98} {'loss': 0.0456, 'learning_rate': 2.5008155511206633e-05, 'epoch': 49.98} {'loss': 0.0456, 'learning_rate': 2.5005756831439975e-05, 'epoch': 49.99} {'loss': 0.0427, 'learning_rate': 2.500335815167332e-05, 'epoch': 49.99} {'loss': 0.0447, 'learning_rate': 2.5000959471906664e-05, 'epoch': 50.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.042885180562734604, 'eval_runtime': 747.4046, 'eval_samples_per_second': 557.79, 'eval_steps_per_second': 69.724, 'epoch': 50.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-5211200 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-5211200/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-5211200/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-5106976] due to args.save_total_limit {'loss': 0.0433, 'learning_rate': 2.4998560792140007e-05, 'epoch': 50.0} {'loss': 0.0437, 'learning_rate': 2.499616211237335e-05, 'epoch': 50.01} {'loss': 0.0439, 'learning_rate': 2.4993763432606696e-05, 'epoch': 50.01} {'loss': 0.0442, 'learning_rate': 2.499136475284004e-05, 'epoch': 50.02} {'loss': 0.0458, 'learning_rate': 2.498896607307338e-05, 'epoch': 50.02} {'loss': 0.0447, 'learning_rate': 2.4986567393306727e-05, 'epoch': 50.03} {'loss': 0.0457, 'learning_rate': 2.498416871354007e-05, 'epoch': 50.03} {'loss': 0.0447, 'learning_rate': 2.4981770033773413e-05, 'epoch': 50.04} {'loss': 0.0465, 'learning_rate': 2.4979371354006755e-05, 'epoch': 50.04} {'loss': 0.0457, 'learning_rate': 2.4976972674240098e-05, 'epoch': 50.05} {'loss': 0.0442, 'learning_rate': 2.4974573994473444e-05, 'epoch': 50.05} {'loss': 0.0463, 'learning_rate': 2.4972175314706787e-05, 'epoch': 50.06} {'loss': 0.0458, 'learning_rate': 2.4969776634940133e-05, 'epoch': 50.06} {'loss': 0.0452, 'learning_rate': 2.4967377955173472e-05, 'epoch': 50.07} {'loss': 0.0438, 'learning_rate': 2.4964979275406815e-05, 'epoch': 50.07} {'loss': 0.0425, 'learning_rate': 2.496258059564016e-05, 'epoch': 50.07} {'loss': 0.0459, 'learning_rate': 2.4960181915873504e-05, 'epoch': 50.08} {'loss': 0.0452, 'learning_rate': 2.495778323610685e-05, 'epoch': 50.08} {'loss': 0.0447, 'learning_rate': 2.4955384556340192e-05, 'epoch': 50.09} {'loss': 0.0444, 'learning_rate': 2.4952985876573535e-05, 'epoch': 50.09} {'loss': 0.0435, 'learning_rate': 2.4950587196806878e-05, 'epoch': 50.1} {'loss': 0.0446, 'learning_rate': 2.494818851704022e-05, 'epoch': 50.1} {'loss': 0.044, 'learning_rate': 2.4945789837273567e-05, 'epoch': 50.11} {'loss': 0.0439, 'learning_rate': 2.494339115750691e-05, 'epoch': 50.11} {'loss': 0.0432, 'learning_rate': 2.4940992477740252e-05, 'epoch': 50.12} {'loss': 0.0436, 'learning_rate': 2.4938593797973598e-05, 'epoch': 50.12} {'loss': 0.0411, 'learning_rate': 2.493619511820694e-05, 'epoch': 50.13} {'loss': 0.0428, 'learning_rate': 2.4933796438440284e-05, 'epoch': 50.13} {'loss': 0.0438, 'learning_rate': 2.4931397758673626e-05, 'epoch': 50.14} {'loss': 0.0441, 'learning_rate': 2.492899907890697e-05, 'epoch': 50.14} {'loss': 0.0446, 'learning_rate': 2.4926600399140315e-05, 'epoch': 50.15} {'loss': 0.0433, 'learning_rate': 2.4924201719373658e-05, 'epoch': 50.15} {'loss': 0.0439, 'learning_rate': 2.4921803039607e-05, 'epoch': 50.16} {'loss': 0.0446, 'learning_rate': 2.4919404359840347e-05, 'epoch': 50.16} {'loss': 0.0464, 'learning_rate': 2.491700568007369e-05, 'epoch': 50.17} {'loss': 0.0442, 'learning_rate': 2.4914607000307032e-05, 'epoch': 50.17} {'loss': 0.0454, 'learning_rate': 2.4912208320540375e-05, 'epoch': 50.18} {'loss': 0.0423, 'learning_rate': 2.4909809640773717e-05, 'epoch': 50.18} {'loss': 0.0433, 'learning_rate': 2.4907410961007063e-05, 'epoch': 50.19} {'loss': 0.0436, 'learning_rate': 2.4905012281240406e-05, 'epoch': 50.19} {'loss': 0.0455, 'learning_rate': 2.4902613601473752e-05, 'epoch': 50.19} {'loss': 0.0451, 'learning_rate': 2.4900214921707095e-05, 'epoch': 50.2} {'loss': 0.0444, 'learning_rate': 2.4897816241940438e-05, 'epoch': 50.2} {'loss': 0.0451, 'learning_rate': 2.489541756217378e-05, 'epoch': 50.21} {'loss': 0.0448, 'learning_rate': 2.4893018882407123e-05, 'epoch': 50.21} {'loss': 0.0443, 'learning_rate': 2.489062020264047e-05, 'epoch': 50.22} {'loss': 0.0428, 'learning_rate': 2.4888221522873812e-05, 'epoch': 50.22} {'loss': 0.0422, 'learning_rate': 2.4885822843107155e-05, 'epoch': 50.23} {'loss': 0.043, 'learning_rate': 2.48834241633405e-05, 'epoch': 50.23} {'loss': 0.0415, 'learning_rate': 2.488102548357384e-05, 'epoch': 50.24} {'loss': 0.0441, 'learning_rate': 2.4878626803807186e-05, 'epoch': 50.24} {'loss': 0.0455, 'learning_rate': 2.487622812404053e-05, 'epoch': 50.25} {'loss': 0.0422, 'learning_rate': 2.487382944427387e-05, 'epoch': 50.25} {'loss': 0.0445, 'learning_rate': 2.4871430764507218e-05, 'epoch': 50.26} {'loss': 0.0439, 'learning_rate': 2.486903208474056e-05, 'epoch': 50.26} {'loss': 0.0439, 'learning_rate': 2.4866633404973906e-05, 'epoch': 50.27} {'loss': 0.0423, 'learning_rate': 2.4864234725207246e-05, 'epoch': 50.27} {'loss': 0.0452, 'learning_rate': 2.486183604544059e-05, 'epoch': 50.28} {'loss': 0.0429, 'learning_rate': 2.4859437365673934e-05, 'epoch': 50.28} {'loss': 0.0444, 'learning_rate': 2.4857038685907277e-05, 'epoch': 50.29} {'loss': 0.0449, 'learning_rate': 2.4854640006140623e-05, 'epoch': 50.29} {'loss': 0.0431, 'learning_rate': 2.4852241326373966e-05, 'epoch': 50.3} {'loss': 0.0422, 'learning_rate': 2.484984264660731e-05, 'epoch': 50.3} {'loss': 0.0448, 'learning_rate': 2.484744396684065e-05, 'epoch': 50.31} {'loss': 0.0452, 'learning_rate': 2.4845045287073994e-05, 'epoch': 50.31} {'loss': 0.0426, 'learning_rate': 2.484264660730734e-05, 'epoch': 50.31} {'loss': 0.0428, 'learning_rate': 2.4840247927540683e-05, 'epoch': 50.32} {'loss': 0.0429, 'learning_rate': 2.4837849247774026e-05, 'epoch': 50.32} {'loss': 0.0423, 'learning_rate': 2.483545056800737e-05, 'epoch': 50.33} {'loss': 0.0439, 'learning_rate': 2.4833051888240714e-05, 'epoch': 50.33} {'loss': 0.0455, 'learning_rate': 2.4830653208474057e-05, 'epoch': 50.34} {'loss': 0.0434, 'learning_rate': 2.48282545287074e-05, 'epoch': 50.34} {'loss': 0.0434, 'learning_rate': 2.4825855848940742e-05, 'epoch': 50.35} {'loss': 0.0441, 'learning_rate': 2.482345716917409e-05, 'epoch': 50.35} {'loss': 0.0442, 'learning_rate': 2.482105848940743e-05, 'epoch': 50.36} {'loss': 0.0454, 'learning_rate': 2.4818659809640774e-05, 'epoch': 50.36} {'loss': 0.0443, 'learning_rate': 2.481626112987412e-05, 'epoch': 50.37} {'loss': 0.0465, 'learning_rate': 2.4813862450107463e-05, 'epoch': 50.37} {'loss': 0.0433, 'learning_rate': 2.4811463770340805e-05, 'epoch': 50.38} {'loss': 0.0435, 'learning_rate': 2.4809065090574148e-05, 'epoch': 50.38} {'loss': 0.0461, 'learning_rate': 2.480666641080749e-05, 'epoch': 50.39} {'loss': 0.0429, 'learning_rate': 2.4804267731040837e-05, 'epoch': 50.39} {'loss': 0.0457, 'learning_rate': 2.480186905127418e-05, 'epoch': 50.4} {'loss': 0.0444, 'learning_rate': 2.4799470371507526e-05, 'epoch': 50.4} {'loss': 0.0437, 'learning_rate': 2.479707169174087e-05, 'epoch': 50.41} {'loss': 0.0445, 'learning_rate': 2.4794673011974208e-05, 'epoch': 50.41} {'loss': 0.0425, 'learning_rate': 2.4792274332207554e-05, 'epoch': 50.42} {'loss': 0.0442, 'learning_rate': 2.4789875652440897e-05, 'epoch': 50.42} {'loss': 0.0452, 'learning_rate': 2.4787476972674243e-05, 'epoch': 50.43} {'loss': 0.0444, 'learning_rate': 2.4785078292907585e-05, 'epoch': 50.43} {'loss': 0.0455, 'learning_rate': 2.4782679613140928e-05, 'epoch': 50.43} {'loss': 0.0427, 'learning_rate': 2.4780280933374274e-05, 'epoch': 50.44} {'loss': 0.0453, 'learning_rate': 2.4777882253607613e-05, 'epoch': 50.44} {'loss': 0.044, 'learning_rate': 2.477548357384096e-05, 'epoch': 50.45} {'loss': 0.0442, 'learning_rate': 2.4773084894074302e-05, 'epoch': 50.45} {'loss': 0.0442, 'learning_rate': 2.4770686214307645e-05, 'epoch': 50.46} {'loss': 0.0464, 'learning_rate': 2.476828753454099e-05, 'epoch': 50.46} {'loss': 0.0472, 'learning_rate': 2.4765888854774334e-05, 'epoch': 50.47} {'loss': 0.0446, 'learning_rate': 2.4763490175007676e-05, 'epoch': 50.47} {'loss': 0.0446, 'learning_rate': 2.476109149524102e-05, 'epoch': 50.48} {'loss': 0.0435, 'learning_rate': 2.4758692815474362e-05, 'epoch': 50.48} {'loss': 0.0466, 'learning_rate': 2.4756294135707708e-05, 'epoch': 50.49} {'loss': 0.0446, 'learning_rate': 2.475389545594105e-05, 'epoch': 50.49} {'loss': 0.0454, 'learning_rate': 2.4751496776174397e-05, 'epoch': 50.5} {'loss': 0.0456, 'learning_rate': 2.474909809640774e-05, 'epoch': 50.5} {'loss': 0.0444, 'learning_rate': 2.4746699416641082e-05, 'epoch': 50.51} {'loss': 0.0453, 'learning_rate': 2.4744300736874425e-05, 'epoch': 50.51} {'loss': 0.0439, 'learning_rate': 2.4741902057107768e-05, 'epoch': 50.52} {'loss': 0.0446, 'learning_rate': 2.4739503377341114e-05, 'epoch': 50.52} {'loss': 0.0448, 'learning_rate': 2.4737104697574456e-05, 'epoch': 50.53} {'loss': 0.0434, 'learning_rate': 2.47347060178078e-05, 'epoch': 50.53} {'loss': 0.0445, 'learning_rate': 2.4732307338041145e-05, 'epoch': 50.54} {'loss': 0.046, 'learning_rate': 2.4729908658274488e-05, 'epoch': 50.54} {'loss': 0.0438, 'learning_rate': 2.472750997850783e-05, 'epoch': 50.54} {'loss': 0.0443, 'learning_rate': 2.4725111298741173e-05, 'epoch': 50.55} {'loss': 0.0461, 'learning_rate': 2.4722712618974516e-05, 'epoch': 50.55} {'loss': 0.0454, 'learning_rate': 2.4720313939207862e-05, 'epoch': 50.56} {'loss': 0.0455, 'learning_rate': 2.4717915259441205e-05, 'epoch': 50.56} {'loss': 0.0436, 'learning_rate': 2.471551657967455e-05, 'epoch': 50.57} {'loss': 0.044, 'learning_rate': 2.4713117899907894e-05, 'epoch': 50.57} {'loss': 0.0431, 'learning_rate': 2.4710719220141236e-05, 'epoch': 50.58} {'loss': 0.0443, 'learning_rate': 2.470832054037458e-05, 'epoch': 50.58} {'loss': 0.0445, 'learning_rate': 2.470592186060792e-05, 'epoch': 50.59} {'loss': 0.0441, 'learning_rate': 2.4703523180841264e-05, 'epoch': 50.59} {'loss': 0.0448, 'learning_rate': 2.470112450107461e-05, 'epoch': 50.6} {'loss': 0.0449, 'learning_rate': 2.4698725821307953e-05, 'epoch': 50.6} {'loss': 0.0453, 'learning_rate': 2.46963271415413e-05, 'epoch': 50.61} {'loss': 0.0451, 'learning_rate': 2.4693928461774642e-05, 'epoch': 50.61} {'loss': 0.0459, 'learning_rate': 2.469152978200798e-05, 'epoch': 50.62} {'loss': 0.0445, 'learning_rate': 2.4689131102241327e-05, 'epoch': 50.62} {'loss': 0.044, 'learning_rate': 2.468673242247467e-05, 'epoch': 50.63} {'loss': 0.0453, 'learning_rate': 2.4684333742708016e-05, 'epoch': 50.63} {'loss': 0.0454, 'learning_rate': 2.468193506294136e-05, 'epoch': 50.64} {'loss': 0.0454, 'learning_rate': 2.46795363831747e-05, 'epoch': 50.64} {'loss': 0.0432, 'learning_rate': 2.4677137703408044e-05, 'epoch': 50.65} {'loss': 0.0451, 'learning_rate': 2.4674739023641387e-05, 'epoch': 50.65} {'loss': 0.0457, 'learning_rate': 2.4672340343874733e-05, 'epoch': 50.66} {'loss': 0.0454, 'learning_rate': 2.4669941664108076e-05, 'epoch': 50.66} {'loss': 0.0448, 'learning_rate': 2.466754298434142e-05, 'epoch': 50.66} {'loss': 0.0446, 'learning_rate': 2.4665144304574765e-05, 'epoch': 50.67} {'loss': 0.0447, 'learning_rate': 2.4662745624808107e-05, 'epoch': 50.67} {'loss': 0.0422, 'learning_rate': 2.466034694504145e-05, 'epoch': 50.68} {'loss': 0.0446, 'learning_rate': 2.4657948265274793e-05, 'epoch': 50.68} {'loss': 0.0442, 'learning_rate': 2.4655549585508135e-05, 'epoch': 50.69} {'loss': 0.045, 'learning_rate': 2.465315090574148e-05, 'epoch': 50.69} {'loss': 0.0443, 'learning_rate': 2.4650752225974824e-05, 'epoch': 50.7} {'loss': 0.0446, 'learning_rate': 2.464835354620817e-05, 'epoch': 50.7} {'loss': 0.0443, 'learning_rate': 2.4645954866441513e-05, 'epoch': 50.71} {'loss': 0.0443, 'learning_rate': 2.4643556186674856e-05, 'epoch': 50.71} {'loss': 0.0456, 'learning_rate': 2.46411575069082e-05, 'epoch': 50.72} {'loss': 0.044, 'learning_rate': 2.463875882714154e-05, 'epoch': 50.72} {'loss': 0.0442, 'learning_rate': 2.4636360147374887e-05, 'epoch': 50.73} {'loss': 0.0464, 'learning_rate': 2.463396146760823e-05, 'epoch': 50.73} {'loss': 0.0454, 'learning_rate': 2.4631562787841573e-05, 'epoch': 50.74} {'loss': 0.0436, 'learning_rate': 2.462916410807492e-05, 'epoch': 50.74} {'loss': 0.0443, 'learning_rate': 2.462676542830826e-05, 'epoch': 50.75} {'loss': 0.0445, 'learning_rate': 2.4624366748541604e-05, 'epoch': 50.75} {'loss': 0.0444, 'learning_rate': 2.4621968068774947e-05, 'epoch': 50.76} {'loss': 0.0436, 'learning_rate': 2.461956938900829e-05, 'epoch': 50.76} {'loss': 0.0445, 'learning_rate': 2.4617170709241636e-05, 'epoch': 50.77} {'loss': 0.0451, 'learning_rate': 2.4614772029474978e-05, 'epoch': 50.77} {'loss': 0.0452, 'learning_rate': 2.4612373349708324e-05, 'epoch': 50.78} {'loss': 0.0429, 'learning_rate': 2.4609974669941667e-05, 'epoch': 50.78} {'loss': 0.0449, 'learning_rate': 2.4607575990175006e-05, 'epoch': 50.78} {'loss': 0.0442, 'learning_rate': 2.4605177310408352e-05, 'epoch': 50.79} {'loss': 0.0448, 'learning_rate': 2.4602778630641695e-05, 'epoch': 50.79} {'loss': 0.0432, 'learning_rate': 2.4600379950875038e-05, 'epoch': 50.8} {'loss': 0.0429, 'learning_rate': 2.4597981271108384e-05, 'epoch': 50.8} {'loss': 0.0428, 'learning_rate': 2.4595582591341727e-05, 'epoch': 50.81} {'loss': 0.0449, 'learning_rate': 2.4593183911575073e-05, 'epoch': 50.81} {'loss': 0.0434, 'learning_rate': 2.4590785231808412e-05, 'epoch': 50.82} {'loss': 0.0435, 'learning_rate': 2.4588386552041755e-05, 'epoch': 50.82} {'loss': 0.0449, 'learning_rate': 2.45859878722751e-05, 'epoch': 50.83} {'loss': 0.045, 'learning_rate': 2.4583589192508444e-05, 'epoch': 50.83} {'loss': 0.0443, 'learning_rate': 2.458119051274179e-05, 'epoch': 50.84} {'loss': 0.0461, 'learning_rate': 2.4578791832975132e-05, 'epoch': 50.84} {'loss': 0.0444, 'learning_rate': 2.4576393153208475e-05, 'epoch': 50.85} {'loss': 0.0436, 'learning_rate': 2.4573994473441818e-05, 'epoch': 50.85} {'loss': 0.0442, 'learning_rate': 2.457159579367516e-05, 'epoch': 50.86} {'loss': 0.0446, 'learning_rate': 2.4569197113908507e-05, 'epoch': 50.86} {'loss': 0.0423, 'learning_rate': 2.456679843414185e-05, 'epoch': 50.87} {'loss': 0.0453, 'learning_rate': 2.4564399754375192e-05, 'epoch': 50.87} {'loss': 0.0418, 'learning_rate': 2.4562001074608538e-05, 'epoch': 50.88} {'loss': 0.0442, 'learning_rate': 2.455960239484188e-05, 'epoch': 50.88} {'loss': 0.0441, 'learning_rate': 2.4557203715075223e-05, 'epoch': 50.89} {'loss': 0.0445, 'learning_rate': 2.4554805035308566e-05, 'epoch': 50.89} {'loss': 0.0412, 'learning_rate': 2.455240635554191e-05, 'epoch': 50.9} {'loss': 0.0441, 'learning_rate': 2.4550007675775255e-05, 'epoch': 50.9} {'loss': 0.0442, 'learning_rate': 2.4547608996008598e-05, 'epoch': 50.9} {'loss': 0.0449, 'learning_rate': 2.4545210316241944e-05, 'epoch': 50.91} {'loss': 0.0474, 'learning_rate': 2.4542811636475286e-05, 'epoch': 50.91} {'loss': 0.0426, 'learning_rate': 2.454041295670863e-05, 'epoch': 50.92} {'loss': 0.0414, 'learning_rate': 2.4538014276941972e-05, 'epoch': 50.92} {'loss': 0.0457, 'learning_rate': 2.4535615597175315e-05, 'epoch': 50.93} {'loss': 0.0453, 'learning_rate': 2.453321691740866e-05, 'epoch': 50.93} {'loss': 0.0437, 'learning_rate': 2.4530818237642003e-05, 'epoch': 50.94} {'loss': 0.0433, 'learning_rate': 2.4528419557875346e-05, 'epoch': 50.94} {'loss': 0.0447, 'learning_rate': 2.4526020878108692e-05, 'epoch': 50.95} {'loss': 0.0421, 'learning_rate': 2.4523622198342035e-05, 'epoch': 50.95} {'loss': 0.0442, 'learning_rate': 2.4521223518575378e-05, 'epoch': 50.96} {'loss': 0.0439, 'learning_rate': 2.451882483880872e-05, 'epoch': 50.96} {'loss': 0.0468, 'learning_rate': 2.4516426159042063e-05, 'epoch': 50.97} {'loss': 0.0459, 'learning_rate': 2.451402747927541e-05, 'epoch': 50.97} {'loss': 0.0422, 'learning_rate': 2.4511628799508752e-05, 'epoch': 50.98} {'loss': 0.0461, 'learning_rate': 2.4509230119742098e-05, 'epoch': 50.98} {'loss': 0.0462, 'learning_rate': 2.450683143997544e-05, 'epoch': 50.99} {'loss': 0.0452, 'learning_rate': 2.450443276020878e-05, 'epoch': 50.99} {'loss': 0.0454, 'learning_rate': 2.4502034080442126e-05, 'epoch': 51.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04246211051940918, 'eval_runtime': 756.4432, 'eval_samples_per_second': 551.125, 'eval_steps_per_second': 68.891, 'epoch': 51.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-5315424 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-5315424/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-5315424/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-5211200] due to args.save_total_limit {'loss': 0.0453, 'learning_rate': 2.449963540067547e-05, 'epoch': 51.0} {'loss': 0.0426, 'learning_rate': 2.449723672090881e-05, 'epoch': 51.01} {'loss': 0.0432, 'learning_rate': 2.4494838041142157e-05, 'epoch': 51.01} {'loss': 0.0422, 'learning_rate': 2.44924393613755e-05, 'epoch': 51.02} {'loss': 0.0432, 'learning_rate': 2.4490040681608846e-05, 'epoch': 51.02} {'loss': 0.0449, 'learning_rate': 2.4487642001842186e-05, 'epoch': 51.02} {'loss': 0.0426, 'learning_rate': 2.4485243322075528e-05, 'epoch': 51.03} {'loss': 0.0455, 'learning_rate': 2.4482844642308874e-05, 'epoch': 51.03} {'loss': 0.0452, 'learning_rate': 2.4480445962542217e-05, 'epoch': 51.04} {'loss': 0.0435, 'learning_rate': 2.4478047282775563e-05, 'epoch': 51.04} {'loss': 0.0451, 'learning_rate': 2.4475648603008906e-05, 'epoch': 51.05} {'loss': 0.0422, 'learning_rate': 2.447324992324225e-05, 'epoch': 51.05} {'loss': 0.0444, 'learning_rate': 2.447085124347559e-05, 'epoch': 51.06} {'loss': 0.0446, 'learning_rate': 2.4468452563708934e-05, 'epoch': 51.06} {'loss': 0.0437, 'learning_rate': 2.446605388394228e-05, 'epoch': 51.07} {'loss': 0.0438, 'learning_rate': 2.4463655204175623e-05, 'epoch': 51.07} {'loss': 0.044, 'learning_rate': 2.4461256524408965e-05, 'epoch': 51.08} {'loss': 0.044, 'learning_rate': 2.445885784464231e-05, 'epoch': 51.08} {'loss': 0.0439, 'learning_rate': 2.4456459164875654e-05, 'epoch': 51.09} {'loss': 0.0449, 'learning_rate': 2.4454060485108997e-05, 'epoch': 51.09} {'loss': 0.0431, 'learning_rate': 2.445166180534234e-05, 'epoch': 51.1} {'loss': 0.044, 'learning_rate': 2.4449263125575682e-05, 'epoch': 51.1} {'loss': 0.045, 'learning_rate': 2.444686444580903e-05, 'epoch': 51.11} {'loss': 0.0418, 'learning_rate': 2.444446576604237e-05, 'epoch': 51.11} {'loss': 0.0433, 'learning_rate': 2.4442067086275717e-05, 'epoch': 51.12} {'loss': 0.0455, 'learning_rate': 2.443966840650906e-05, 'epoch': 51.12} {'loss': 0.0434, 'learning_rate': 2.4437269726742403e-05, 'epoch': 51.13} {'loss': 0.0439, 'learning_rate': 2.4434871046975745e-05, 'epoch': 51.13} {'loss': 0.045, 'learning_rate': 2.4432472367209088e-05, 'epoch': 51.14} {'loss': 0.0448, 'learning_rate': 2.4430073687442434e-05, 'epoch': 51.14} {'loss': 0.0445, 'learning_rate': 2.4427675007675777e-05, 'epoch': 51.14} {'loss': 0.0427, 'learning_rate': 2.442527632790912e-05, 'epoch': 51.15} {'loss': 0.0444, 'learning_rate': 2.4422877648142466e-05, 'epoch': 51.15} {'loss': 0.0421, 'learning_rate': 2.442047896837581e-05, 'epoch': 51.16} {'loss': 0.0437, 'learning_rate': 2.441808028860915e-05, 'epoch': 51.16} {'loss': 0.0426, 'learning_rate': 2.4415681608842494e-05, 'epoch': 51.17} {'loss': 0.0433, 'learning_rate': 2.4413282929075836e-05, 'epoch': 51.17} {'loss': 0.0435, 'learning_rate': 2.4410884249309183e-05, 'epoch': 51.18} {'loss': 0.0449, 'learning_rate': 2.4408485569542525e-05, 'epoch': 51.18} {'loss': 0.0443, 'learning_rate': 2.440608688977587e-05, 'epoch': 51.19} {'loss': 0.0416, 'learning_rate': 2.440368821000921e-05, 'epoch': 51.19} {'loss': 0.0436, 'learning_rate': 2.4401289530242553e-05, 'epoch': 51.2} {'loss': 0.0446, 'learning_rate': 2.43988908504759e-05, 'epoch': 51.2} {'loss': 0.043, 'learning_rate': 2.4396492170709242e-05, 'epoch': 51.21} {'loss': 0.0439, 'learning_rate': 2.4394093490942585e-05, 'epoch': 51.21} {'loss': 0.0428, 'learning_rate': 2.439169481117593e-05, 'epoch': 51.22} {'loss': 0.0447, 'learning_rate': 2.4389296131409274e-05, 'epoch': 51.22} {'loss': 0.0424, 'learning_rate': 2.4386897451642616e-05, 'epoch': 51.23} {'loss': 0.0428, 'learning_rate': 2.438449877187596e-05, 'epoch': 51.23} {'loss': 0.0437, 'learning_rate': 2.4382100092109302e-05, 'epoch': 51.24} {'loss': 0.0432, 'learning_rate': 2.4379701412342648e-05, 'epoch': 51.24} {'loss': 0.0426, 'learning_rate': 2.437730273257599e-05, 'epoch': 51.25} {'loss': 0.0452, 'learning_rate': 2.4374904052809337e-05, 'epoch': 51.25} {'loss': 0.0435, 'learning_rate': 2.437250537304268e-05, 'epoch': 51.25} {'loss': 0.0438, 'learning_rate': 2.4370106693276022e-05, 'epoch': 51.26} {'loss': 0.0433, 'learning_rate': 2.4367708013509365e-05, 'epoch': 51.26} {'loss': 0.0445, 'learning_rate': 2.4365309333742707e-05, 'epoch': 51.27} {'loss': 0.044, 'learning_rate': 2.4362910653976054e-05, 'epoch': 51.27} {'loss': 0.0455, 'learning_rate': 2.4360511974209396e-05, 'epoch': 51.28} {'loss': 0.0431, 'learning_rate': 2.435811329444274e-05, 'epoch': 51.28} {'loss': 0.0445, 'learning_rate': 2.4355714614676085e-05, 'epoch': 51.29} {'loss': 0.0423, 'learning_rate': 2.4353315934909428e-05, 'epoch': 51.29} {'loss': 0.0425, 'learning_rate': 2.435091725514277e-05, 'epoch': 51.3} {'loss': 0.0446, 'learning_rate': 2.4348518575376113e-05, 'epoch': 51.3} {'loss': 0.0437, 'learning_rate': 2.4346119895609456e-05, 'epoch': 51.31} {'loss': 0.0425, 'learning_rate': 2.4343721215842802e-05, 'epoch': 51.31} {'loss': 0.0429, 'learning_rate': 2.4341322536076145e-05, 'epoch': 51.32} {'loss': 0.0437, 'learning_rate': 2.433892385630949e-05, 'epoch': 51.32} {'loss': 0.0443, 'learning_rate': 2.4336525176542833e-05, 'epoch': 51.33} {'loss': 0.0427, 'learning_rate': 2.4334126496776176e-05, 'epoch': 51.33} {'loss': 0.0421, 'learning_rate': 2.433172781700952e-05, 'epoch': 51.34} {'loss': 0.0449, 'learning_rate': 2.432932913724286e-05, 'epoch': 51.34} {'loss': 0.0446, 'learning_rate': 2.4326930457476208e-05, 'epoch': 51.35} {'loss': 0.0444, 'learning_rate': 2.432453177770955e-05, 'epoch': 51.35} {'loss': 0.0442, 'learning_rate': 2.4322133097942893e-05, 'epoch': 51.36} {'loss': 0.0449, 'learning_rate': 2.431973441817624e-05, 'epoch': 51.36} {'loss': 0.0457, 'learning_rate': 2.431733573840958e-05, 'epoch': 51.37} {'loss': 0.0449, 'learning_rate': 2.4314937058642925e-05, 'epoch': 51.37} {'loss': 0.0418, 'learning_rate': 2.4312538378876267e-05, 'epoch': 51.37} {'loss': 0.0432, 'learning_rate': 2.431013969910961e-05, 'epoch': 51.38} {'loss': 0.0442, 'learning_rate': 2.4307741019342956e-05, 'epoch': 51.38} {'loss': 0.0442, 'learning_rate': 2.43053423395763e-05, 'epoch': 51.39} {'loss': 0.0437, 'learning_rate': 2.4302943659809645e-05, 'epoch': 51.39} {'loss': 0.0437, 'learning_rate': 2.4300544980042984e-05, 'epoch': 51.4} {'loss': 0.0414, 'learning_rate': 2.4298146300276327e-05, 'epoch': 51.4} {'loss': 0.0408, 'learning_rate': 2.4295747620509673e-05, 'epoch': 51.41} {'loss': 0.0424, 'learning_rate': 2.4293348940743016e-05, 'epoch': 51.41} {'loss': 0.0435, 'learning_rate': 2.429095026097636e-05, 'epoch': 51.42} {'loss': 0.0447, 'learning_rate': 2.4288551581209704e-05, 'epoch': 51.42} {'loss': 0.0415, 'learning_rate': 2.4286152901443047e-05, 'epoch': 51.43} {'loss': 0.0446, 'learning_rate': 2.428375422167639e-05, 'epoch': 51.43} {'loss': 0.0439, 'learning_rate': 2.4281355541909733e-05, 'epoch': 51.44} {'loss': 0.0472, 'learning_rate': 2.4278956862143075e-05, 'epoch': 51.44} {'loss': 0.0437, 'learning_rate': 2.427655818237642e-05, 'epoch': 51.45} {'loss': 0.0433, 'learning_rate': 2.4274159502609764e-05, 'epoch': 51.45} {'loss': 0.0423, 'learning_rate': 2.427176082284311e-05, 'epoch': 51.46} {'loss': 0.0424, 'learning_rate': 2.4269362143076453e-05, 'epoch': 51.46} {'loss': 0.0421, 'learning_rate': 2.4266963463309796e-05, 'epoch': 51.47} {'loss': 0.0461, 'learning_rate': 2.4264564783543138e-05, 'epoch': 51.47} {'loss': 0.0458, 'learning_rate': 2.426216610377648e-05, 'epoch': 51.48} {'loss': 0.0426, 'learning_rate': 2.4259767424009827e-05, 'epoch': 51.48} {'loss': 0.0424, 'learning_rate': 2.425736874424317e-05, 'epoch': 51.49} {'loss': 0.0455, 'learning_rate': 2.4254970064476512e-05, 'epoch': 51.49} {'loss': 0.0439, 'learning_rate': 2.425257138470986e-05, 'epoch': 51.49} {'loss': 0.043, 'learning_rate': 2.42501727049432e-05, 'epoch': 51.5} {'loss': 0.0443, 'learning_rate': 2.4247774025176544e-05, 'epoch': 51.5} {'loss': 0.0426, 'learning_rate': 2.4245375345409887e-05, 'epoch': 51.51} {'loss': 0.0474, 'learning_rate': 2.424297666564323e-05, 'epoch': 51.51} {'loss': 0.0431, 'learning_rate': 2.4240577985876575e-05, 'epoch': 51.52} {'loss': 0.0447, 'learning_rate': 2.4238179306109918e-05, 'epoch': 51.52} {'loss': 0.0433, 'learning_rate': 2.4235780626343264e-05, 'epoch': 51.53} {'loss': 0.0432, 'learning_rate': 2.4233381946576607e-05, 'epoch': 51.53} {'loss': 0.0443, 'learning_rate': 2.4230983266809946e-05, 'epoch': 51.54} {'loss': 0.0438, 'learning_rate': 2.4228584587043292e-05, 'epoch': 51.54} {'loss': 0.0425, 'learning_rate': 2.4226185907276635e-05, 'epoch': 51.55} {'loss': 0.0455, 'learning_rate': 2.422378722750998e-05, 'epoch': 51.55} {'loss': 0.0436, 'learning_rate': 2.4221388547743324e-05, 'epoch': 51.56} {'loss': 0.0446, 'learning_rate': 2.4218989867976667e-05, 'epoch': 51.56} {'loss': 0.0436, 'learning_rate': 2.4216591188210013e-05, 'epoch': 51.57} {'loss': 0.0423, 'learning_rate': 2.4214192508443352e-05, 'epoch': 51.57} {'loss': 0.0427, 'learning_rate': 2.4211793828676698e-05, 'epoch': 51.58} {'loss': 0.0423, 'learning_rate': 2.420939514891004e-05, 'epoch': 51.58} {'loss': 0.0441, 'learning_rate': 2.4206996469143383e-05, 'epoch': 51.59} {'loss': 0.042, 'learning_rate': 2.420459778937673e-05, 'epoch': 51.59} {'loss': 0.044, 'learning_rate': 2.4202199109610072e-05, 'epoch': 51.6} {'loss': 0.045, 'learning_rate': 2.4199800429843415e-05, 'epoch': 51.6} {'loss': 0.0432, 'learning_rate': 2.4197401750076758e-05, 'epoch': 51.61} {'loss': 0.0427, 'learning_rate': 2.41950030703101e-05, 'epoch': 51.61} {'loss': 0.0457, 'learning_rate': 2.4192604390543446e-05, 'epoch': 51.61} {'loss': 0.044, 'learning_rate': 2.419020571077679e-05, 'epoch': 51.62} {'loss': 0.0441, 'learning_rate': 2.4187807031010135e-05, 'epoch': 51.62} {'loss': 0.0427, 'learning_rate': 2.4185408351243478e-05, 'epoch': 51.63} {'loss': 0.0446, 'learning_rate': 2.418300967147682e-05, 'epoch': 51.63} {'loss': 0.0408, 'learning_rate': 2.4180610991710163e-05, 'epoch': 51.64} {'loss': 0.0412, 'learning_rate': 2.4178212311943506e-05, 'epoch': 51.64} {'loss': 0.0442, 'learning_rate': 2.417581363217685e-05, 'epoch': 51.65} {'loss': 0.0432, 'learning_rate': 2.4173414952410195e-05, 'epoch': 51.65} {'loss': 0.0436, 'learning_rate': 2.4171016272643538e-05, 'epoch': 51.66} {'loss': 0.043, 'learning_rate': 2.4168617592876884e-05, 'epoch': 51.66} {'loss': 0.043, 'learning_rate': 2.4166218913110226e-05, 'epoch': 51.67} {'loss': 0.0436, 'learning_rate': 2.416382023334357e-05, 'epoch': 51.67} {'loss': 0.0419, 'learning_rate': 2.4161421553576912e-05, 'epoch': 51.68} {'loss': 0.0451, 'learning_rate': 2.4159022873810254e-05, 'epoch': 51.68} {'loss': 0.0455, 'learning_rate': 2.41566241940436e-05, 'epoch': 51.69} {'loss': 0.0435, 'learning_rate': 2.4154225514276943e-05, 'epoch': 51.69} {'loss': 0.0452, 'learning_rate': 2.4151826834510286e-05, 'epoch': 51.7} {'loss': 0.0433, 'learning_rate': 2.4149428154743632e-05, 'epoch': 51.7} {'loss': 0.0446, 'learning_rate': 2.4147029474976975e-05, 'epoch': 51.71} {'loss': 0.0448, 'learning_rate': 2.4144630795210317e-05, 'epoch': 51.71} {'loss': 0.0433, 'learning_rate': 2.414223211544366e-05, 'epoch': 51.72} {'loss': 0.0444, 'learning_rate': 2.4139833435677003e-05, 'epoch': 51.72} {'loss': 0.0437, 'learning_rate': 2.413743475591035e-05, 'epoch': 51.73} {'loss': 0.0425, 'learning_rate': 2.413503607614369e-05, 'epoch': 51.73} {'loss': 0.0463, 'learning_rate': 2.4132637396377038e-05, 'epoch': 51.73} {'loss': 0.0439, 'learning_rate': 2.413023871661038e-05, 'epoch': 51.74} {'loss': 0.0441, 'learning_rate': 2.412784003684372e-05, 'epoch': 51.74} {'loss': 0.0461, 'learning_rate': 2.4125441357077066e-05, 'epoch': 51.75} {'loss': 0.0429, 'learning_rate': 2.412304267731041e-05, 'epoch': 51.75} {'loss': 0.0447, 'learning_rate': 2.4120643997543755e-05, 'epoch': 51.76} {'loss': 0.0423, 'learning_rate': 2.4118245317777097e-05, 'epoch': 51.76} {'loss': 0.0432, 'learning_rate': 2.411584663801044e-05, 'epoch': 51.77} {'loss': 0.0441, 'learning_rate': 2.4113447958243783e-05, 'epoch': 51.77} {'loss': 0.0428, 'learning_rate': 2.4111049278477125e-05, 'epoch': 51.78} {'loss': 0.0413, 'learning_rate': 2.410865059871047e-05, 'epoch': 51.78} {'loss': 0.042, 'learning_rate': 2.4106251918943814e-05, 'epoch': 51.79} {'loss': 0.0442, 'learning_rate': 2.4103853239177157e-05, 'epoch': 51.79} {'loss': 0.041, 'learning_rate': 2.4101454559410503e-05, 'epoch': 51.8} {'loss': 0.0427, 'learning_rate': 2.4099055879643846e-05, 'epoch': 51.8} {'loss': 0.0462, 'learning_rate': 2.409665719987719e-05, 'epoch': 51.81} {'loss': 0.0446, 'learning_rate': 2.409425852011053e-05, 'epoch': 51.81} {'loss': 0.0434, 'learning_rate': 2.4091859840343874e-05, 'epoch': 51.82} {'loss': 0.0436, 'learning_rate': 2.408946116057722e-05, 'epoch': 51.82} {'loss': 0.0437, 'learning_rate': 2.4087062480810563e-05, 'epoch': 51.83} {'loss': 0.0452, 'learning_rate': 2.408466380104391e-05, 'epoch': 51.83} {'loss': 0.0419, 'learning_rate': 2.408226512127725e-05, 'epoch': 51.84} {'loss': 0.0448, 'learning_rate': 2.4079866441510594e-05, 'epoch': 51.84} {'loss': 0.0423, 'learning_rate': 2.4077467761743937e-05, 'epoch': 51.85} {'loss': 0.0434, 'learning_rate': 2.407506908197728e-05, 'epoch': 51.85} {'loss': 0.0434, 'learning_rate': 2.4072670402210622e-05, 'epoch': 51.85} {'loss': 0.0438, 'learning_rate': 2.407027172244397e-05, 'epoch': 51.86} {'loss': 0.0418, 'learning_rate': 2.406787304267731e-05, 'epoch': 51.86} {'loss': 0.0442, 'learning_rate': 2.4065474362910657e-05, 'epoch': 51.87} {'loss': 0.0413, 'learning_rate': 2.4063075683144e-05, 'epoch': 51.87} {'loss': 0.0434, 'learning_rate': 2.4060677003377343e-05, 'epoch': 51.88} {'loss': 0.0429, 'learning_rate': 2.4058278323610685e-05, 'epoch': 51.88} {'loss': 0.0434, 'learning_rate': 2.4055879643844028e-05, 'epoch': 51.89} {'loss': 0.0458, 'learning_rate': 2.4053480964077374e-05, 'epoch': 51.89} {'loss': 0.045, 'learning_rate': 2.4051082284310717e-05, 'epoch': 51.9} {'loss': 0.0447, 'learning_rate': 2.404868360454406e-05, 'epoch': 51.9} {'loss': 0.0425, 'learning_rate': 2.4046284924777406e-05, 'epoch': 51.91} {'loss': 0.0424, 'learning_rate': 2.4043886245010748e-05, 'epoch': 51.91} {'loss': 0.0435, 'learning_rate': 2.404148756524409e-05, 'epoch': 51.92} {'loss': 0.0434, 'learning_rate': 2.4039088885477434e-05, 'epoch': 51.92} {'loss': 0.0444, 'learning_rate': 2.4036690205710776e-05, 'epoch': 51.93} {'loss': 0.0441, 'learning_rate': 2.4034291525944122e-05, 'epoch': 51.93} {'loss': 0.045, 'learning_rate': 2.4031892846177465e-05, 'epoch': 51.94} {'loss': 0.0416, 'learning_rate': 2.402949416641081e-05, 'epoch': 51.94} {'loss': 0.0431, 'learning_rate': 2.402709548664415e-05, 'epoch': 51.95} {'loss': 0.0421, 'learning_rate': 2.4024696806877493e-05, 'epoch': 51.95} {'loss': 0.0434, 'learning_rate': 2.402229812711084e-05, 'epoch': 51.96} {'loss': 0.0438, 'learning_rate': 2.4019899447344182e-05, 'epoch': 51.96} {'loss': 0.0447, 'learning_rate': 2.4017500767577528e-05, 'epoch': 51.96} {'loss': 0.043, 'learning_rate': 2.401510208781087e-05, 'epoch': 51.97} {'loss': 0.0439, 'learning_rate': 2.4012703408044214e-05, 'epoch': 51.97} {'loss': 0.0419, 'learning_rate': 2.4010304728277556e-05, 'epoch': 51.98} {'loss': 0.0448, 'learning_rate': 2.40079060485109e-05, 'epoch': 51.98} {'loss': 0.0452, 'learning_rate': 2.4005507368744245e-05, 'epoch': 51.99} {'loss': 0.0441, 'learning_rate': 2.4003108688977588e-05, 'epoch': 51.99} {'loss': 0.0442, 'learning_rate': 2.400071000921093e-05, 'epoch': 52.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.042361464351415634, 'eval_runtime': 733.902, 'eval_samples_per_second': 568.053, 'eval_steps_per_second': 71.007, 'epoch': 52.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-5419648 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-5419648/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-5419648/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-5315424] due to args.save_total_limit {'loss': 0.0423, 'learning_rate': 2.3998311329444277e-05, 'epoch': 52.0} {'loss': 0.0418, 'learning_rate': 2.399591264967762e-05, 'epoch': 52.01} {'loss': 0.0422, 'learning_rate': 2.3993513969910962e-05, 'epoch': 52.01} {'loss': 0.0424, 'learning_rate': 2.3991115290144305e-05, 'epoch': 52.02} {'loss': 0.0437, 'learning_rate': 2.3988716610377647e-05, 'epoch': 52.02} {'loss': 0.043, 'learning_rate': 2.3986317930610993e-05, 'epoch': 52.03} {'loss': 0.0446, 'learning_rate': 2.3983919250844336e-05, 'epoch': 52.03} {'loss': 0.0432, 'learning_rate': 2.3981520571077682e-05, 'epoch': 52.04} {'loss': 0.0429, 'learning_rate': 2.3979121891311025e-05, 'epoch': 52.04} {'loss': 0.0436, 'learning_rate': 2.3976723211544368e-05, 'epoch': 52.05} {'loss': 0.0413, 'learning_rate': 2.397432453177771e-05, 'epoch': 52.05} {'loss': 0.044, 'learning_rate': 2.3971925852011053e-05, 'epoch': 52.06} {'loss': 0.0437, 'learning_rate': 2.3969527172244396e-05, 'epoch': 52.06} {'loss': 0.0438, 'learning_rate': 2.3967128492477742e-05, 'epoch': 52.07} {'loss': 0.0429, 'learning_rate': 2.3964729812711085e-05, 'epoch': 52.07} {'loss': 0.0415, 'learning_rate': 2.396233113294443e-05, 'epoch': 52.08} {'loss': 0.0456, 'learning_rate': 2.3959932453177773e-05, 'epoch': 52.08} {'loss': 0.043, 'learning_rate': 2.3957533773411113e-05, 'epoch': 52.08} {'loss': 0.0432, 'learning_rate': 2.395513509364446e-05, 'epoch': 52.09} {'loss': 0.0452, 'learning_rate': 2.39527364138778e-05, 'epoch': 52.09} {'loss': 0.0427, 'learning_rate': 2.3950337734111148e-05, 'epoch': 52.1} {'loss': 0.0428, 'learning_rate': 2.394793905434449e-05, 'epoch': 52.1} {'loss': 0.0453, 'learning_rate': 2.3945540374577833e-05, 'epoch': 52.11} {'loss': 0.0403, 'learning_rate': 2.394314169481118e-05, 'epoch': 52.11} {'loss': 0.0442, 'learning_rate': 2.394074301504452e-05, 'epoch': 52.12} {'loss': 0.0433, 'learning_rate': 2.3938344335277864e-05, 'epoch': 52.12} {'loss': 0.0432, 'learning_rate': 2.3935945655511207e-05, 'epoch': 52.13} {'loss': 0.0417, 'learning_rate': 2.393354697574455e-05, 'epoch': 52.13} {'loss': 0.0435, 'learning_rate': 2.3931148295977896e-05, 'epoch': 52.14} {'loss': 0.0464, 'learning_rate': 2.392874961621124e-05, 'epoch': 52.14} {'loss': 0.0427, 'learning_rate': 2.3926350936444585e-05, 'epoch': 52.15} {'loss': 0.0439, 'learning_rate': 2.3923952256677924e-05, 'epoch': 52.15} {'loss': 0.0437, 'learning_rate': 2.3921553576911267e-05, 'epoch': 52.16} {'loss': 0.0429, 'learning_rate': 2.3919154897144613e-05, 'epoch': 52.16} {'loss': 0.0444, 'learning_rate': 2.3916756217377956e-05, 'epoch': 52.17} {'loss': 0.0442, 'learning_rate': 2.39143575376113e-05, 'epoch': 52.17} {'loss': 0.045, 'learning_rate': 2.3911958857844644e-05, 'epoch': 52.18} {'loss': 0.0411, 'learning_rate': 2.3909560178077987e-05, 'epoch': 52.18} {'loss': 0.0437, 'learning_rate': 2.390716149831133e-05, 'epoch': 52.19} {'loss': 0.0422, 'learning_rate': 2.3904762818544672e-05, 'epoch': 52.19} {'loss': 0.0413, 'learning_rate': 2.390236413877802e-05, 'epoch': 52.2} {'loss': 0.0435, 'learning_rate': 2.389996545901136e-05, 'epoch': 52.2} {'loss': 0.0423, 'learning_rate': 2.3897566779244704e-05, 'epoch': 52.2} {'loss': 0.0435, 'learning_rate': 2.389516809947805e-05, 'epoch': 52.21} {'loss': 0.0417, 'learning_rate': 2.3892769419711393e-05, 'epoch': 52.21} {'loss': 0.0409, 'learning_rate': 2.3890370739944735e-05, 'epoch': 52.22} {'loss': 0.0432, 'learning_rate': 2.3887972060178078e-05, 'epoch': 52.22} {'loss': 0.044, 'learning_rate': 2.388557338041142e-05, 'epoch': 52.23} {'loss': 0.0438, 'learning_rate': 2.3883174700644767e-05, 'epoch': 52.23} {'loss': 0.0436, 'learning_rate': 2.388077602087811e-05, 'epoch': 52.24} {'loss': 0.0434, 'learning_rate': 2.3878377341111456e-05, 'epoch': 52.24} {'loss': 0.0451, 'learning_rate': 2.38759786613448e-05, 'epoch': 52.25} {'loss': 0.0452, 'learning_rate': 2.387357998157814e-05, 'epoch': 52.25} {'loss': 0.0439, 'learning_rate': 2.3871181301811484e-05, 'epoch': 52.26} {'loss': 0.0443, 'learning_rate': 2.3868782622044827e-05, 'epoch': 52.26} {'loss': 0.0421, 'learning_rate': 2.386638394227817e-05, 'epoch': 52.27} {'loss': 0.0417, 'learning_rate': 2.3863985262511515e-05, 'epoch': 52.27} {'loss': 0.0438, 'learning_rate': 2.3861586582744858e-05, 'epoch': 52.28} {'loss': 0.0454, 'learning_rate': 2.3859187902978204e-05, 'epoch': 52.28} {'loss': 0.0423, 'learning_rate': 2.3856789223211547e-05, 'epoch': 52.29} {'loss': 0.0427, 'learning_rate': 2.3854390543444886e-05, 'epoch': 52.29} {'loss': 0.0434, 'learning_rate': 2.3851991863678232e-05, 'epoch': 52.3} {'loss': 0.0425, 'learning_rate': 2.3849593183911575e-05, 'epoch': 52.3} {'loss': 0.046, 'learning_rate': 2.384719450414492e-05, 'epoch': 52.31} {'loss': 0.0417, 'learning_rate': 2.3844795824378264e-05, 'epoch': 52.31} {'loss': 0.0431, 'learning_rate': 2.3842397144611606e-05, 'epoch': 52.32} {'loss': 0.0431, 'learning_rate': 2.3839998464844953e-05, 'epoch': 52.32} {'loss': 0.0431, 'learning_rate': 2.3837599785078292e-05, 'epoch': 52.32} {'loss': 0.0447, 'learning_rate': 2.3835201105311638e-05, 'epoch': 52.33} {'loss': 0.0445, 'learning_rate': 2.383280242554498e-05, 'epoch': 52.33} {'loss': 0.0439, 'learning_rate': 2.3830403745778323e-05, 'epoch': 52.34} {'loss': 0.0441, 'learning_rate': 2.382800506601167e-05, 'epoch': 52.34} {'loss': 0.0431, 'learning_rate': 2.3825606386245012e-05, 'epoch': 52.35} {'loss': 0.0432, 'learning_rate': 2.3823207706478355e-05, 'epoch': 52.35} {'loss': 0.0419, 'learning_rate': 2.3820809026711698e-05, 'epoch': 52.36} {'loss': 0.0442, 'learning_rate': 2.381841034694504e-05, 'epoch': 52.36} {'loss': 0.0449, 'learning_rate': 2.3816011667178386e-05, 'epoch': 52.37} {'loss': 0.0446, 'learning_rate': 2.381361298741173e-05, 'epoch': 52.37} {'loss': 0.0429, 'learning_rate': 2.3811214307645075e-05, 'epoch': 52.38} {'loss': 0.0429, 'learning_rate': 2.3808815627878418e-05, 'epoch': 52.38} {'loss': 0.045, 'learning_rate': 2.380641694811176e-05, 'epoch': 52.39} {'loss': 0.0431, 'learning_rate': 2.3804018268345103e-05, 'epoch': 52.39} {'loss': 0.0434, 'learning_rate': 2.3801619588578446e-05, 'epoch': 52.4} {'loss': 0.0454, 'learning_rate': 2.3799220908811792e-05, 'epoch': 52.4} {'loss': 0.0442, 'learning_rate': 2.3796822229045135e-05, 'epoch': 52.41} {'loss': 0.0434, 'learning_rate': 2.3794423549278478e-05, 'epoch': 52.41} {'loss': 0.0435, 'learning_rate': 2.3792024869511824e-05, 'epoch': 52.42} {'loss': 0.0433, 'learning_rate': 2.3789626189745166e-05, 'epoch': 52.42} {'loss': 0.0436, 'learning_rate': 2.378722750997851e-05, 'epoch': 52.43} {'loss': 0.0428, 'learning_rate': 2.3784828830211852e-05, 'epoch': 52.43} {'loss': 0.0447, 'learning_rate': 2.3782430150445194e-05, 'epoch': 52.44} {'loss': 0.0408, 'learning_rate': 2.378003147067854e-05, 'epoch': 52.44} {'loss': 0.045, 'learning_rate': 2.3777632790911883e-05, 'epoch': 52.44} {'loss': 0.0425, 'learning_rate': 2.377523411114523e-05, 'epoch': 52.45} {'loss': 0.0414, 'learning_rate': 2.3772835431378572e-05, 'epoch': 52.45} {'loss': 0.0432, 'learning_rate': 2.3770436751611915e-05, 'epoch': 52.46} {'loss': 0.0417, 'learning_rate': 2.3768038071845257e-05, 'epoch': 52.46} {'loss': 0.0453, 'learning_rate': 2.37656393920786e-05, 'epoch': 52.47} {'loss': 0.0437, 'learning_rate': 2.3763240712311943e-05, 'epoch': 52.47} {'loss': 0.0434, 'learning_rate': 2.376084203254529e-05, 'epoch': 52.48} {'loss': 0.0435, 'learning_rate': 2.375844335277863e-05, 'epoch': 52.48} {'loss': 0.0445, 'learning_rate': 2.3756044673011978e-05, 'epoch': 52.49} {'loss': 0.0397, 'learning_rate': 2.3753645993245317e-05, 'epoch': 52.49} {'loss': 0.0434, 'learning_rate': 2.375124731347866e-05, 'epoch': 52.5} {'loss': 0.0421, 'learning_rate': 2.3748848633712006e-05, 'epoch': 52.5} {'loss': 0.0441, 'learning_rate': 2.374644995394535e-05, 'epoch': 52.51} {'loss': 0.0428, 'learning_rate': 2.3744051274178695e-05, 'epoch': 52.51} {'loss': 0.0416, 'learning_rate': 2.3741652594412037e-05, 'epoch': 52.52} {'loss': 0.0406, 'learning_rate': 2.373925391464538e-05, 'epoch': 52.52} {'loss': 0.0428, 'learning_rate': 2.3736855234878723e-05, 'epoch': 52.53} {'loss': 0.0429, 'learning_rate': 2.3734456555112065e-05, 'epoch': 52.53} {'loss': 0.0426, 'learning_rate': 2.373205787534541e-05, 'epoch': 52.54} {'loss': 0.0426, 'learning_rate': 2.3729659195578754e-05, 'epoch': 52.54} {'loss': 0.0436, 'learning_rate': 2.3727260515812097e-05, 'epoch': 52.55} {'loss': 0.0437, 'learning_rate': 2.3724861836045443e-05, 'epoch': 52.55} {'loss': 0.0437, 'learning_rate': 2.3722463156278786e-05, 'epoch': 52.56} {'loss': 0.0454, 'learning_rate': 2.372006447651213e-05, 'epoch': 52.56} {'loss': 0.0445, 'learning_rate': 2.371766579674547e-05, 'epoch': 52.56} {'loss': 0.0429, 'learning_rate': 2.3715267116978814e-05, 'epoch': 52.57} {'loss': 0.0416, 'learning_rate': 2.371286843721216e-05, 'epoch': 52.57} {'loss': 0.045, 'learning_rate': 2.3710469757445503e-05, 'epoch': 52.58} {'loss': 0.0458, 'learning_rate': 2.370807107767885e-05, 'epoch': 52.58} {'loss': 0.0433, 'learning_rate': 2.370567239791219e-05, 'epoch': 52.59} {'loss': 0.0433, 'learning_rate': 2.3703273718145534e-05, 'epoch': 52.59} {'loss': 0.0433, 'learning_rate': 2.3700875038378877e-05, 'epoch': 52.6} {'loss': 0.0444, 'learning_rate': 2.369847635861222e-05, 'epoch': 52.6} {'loss': 0.0433, 'learning_rate': 2.3696077678845566e-05, 'epoch': 52.61} {'loss': 0.0423, 'learning_rate': 2.369367899907891e-05, 'epoch': 52.61} {'loss': 0.0428, 'learning_rate': 2.369128031931225e-05, 'epoch': 52.62} {'loss': 0.0449, 'learning_rate': 2.3688881639545597e-05, 'epoch': 52.62} {'loss': 0.046, 'learning_rate': 2.368648295977894e-05, 'epoch': 52.63} {'loss': 0.0443, 'learning_rate': 2.3684084280012283e-05, 'epoch': 52.63} {'loss': 0.0423, 'learning_rate': 2.3681685600245625e-05, 'epoch': 52.64} {'loss': 0.044, 'learning_rate': 2.3679286920478968e-05, 'epoch': 52.64} {'loss': 0.0439, 'learning_rate': 2.3676888240712314e-05, 'epoch': 52.65} {'loss': 0.0447, 'learning_rate': 2.3674489560945657e-05, 'epoch': 52.65} {'loss': 0.0428, 'learning_rate': 2.3672090881179003e-05, 'epoch': 52.66} {'loss': 0.0445, 'learning_rate': 2.3669692201412346e-05, 'epoch': 52.66} {'loss': 0.0421, 'learning_rate': 2.3667293521645685e-05, 'epoch': 52.67} {'loss': 0.0423, 'learning_rate': 2.366489484187903e-05, 'epoch': 52.67} {'loss': 0.0452, 'learning_rate': 2.3662496162112374e-05, 'epoch': 52.68} {'loss': 0.0426, 'learning_rate': 2.366009748234572e-05, 'epoch': 52.68} {'loss': 0.0431, 'learning_rate': 2.3657698802579062e-05, 'epoch': 52.68} {'loss': 0.0424, 'learning_rate': 2.3655300122812405e-05, 'epoch': 52.69} {'loss': 0.0423, 'learning_rate': 2.365290144304575e-05, 'epoch': 52.69} {'loss': 0.0432, 'learning_rate': 2.365050276327909e-05, 'epoch': 52.7} {'loss': 0.0437, 'learning_rate': 2.3648104083512433e-05, 'epoch': 52.7} {'loss': 0.0428, 'learning_rate': 2.364570540374578e-05, 'epoch': 52.71} {'loss': 0.0414, 'learning_rate': 2.3643306723979122e-05, 'epoch': 52.71} {'loss': 0.0426, 'learning_rate': 2.3640908044212468e-05, 'epoch': 52.72} {'loss': 0.0445, 'learning_rate': 2.363850936444581e-05, 'epoch': 52.72} {'loss': 0.0429, 'learning_rate': 2.3636110684679154e-05, 'epoch': 52.73} {'loss': 0.0417, 'learning_rate': 2.3633712004912496e-05, 'epoch': 52.73} {'loss': 0.044, 'learning_rate': 2.363131332514584e-05, 'epoch': 52.74} {'loss': 0.0434, 'learning_rate': 2.3628914645379185e-05, 'epoch': 52.74} {'loss': 0.0451, 'learning_rate': 2.3626515965612528e-05, 'epoch': 52.75} {'loss': 0.043, 'learning_rate': 2.362411728584587e-05, 'epoch': 52.75} {'loss': 0.0441, 'learning_rate': 2.3621718606079217e-05, 'epoch': 52.76} {'loss': 0.0423, 'learning_rate': 2.361931992631256e-05, 'epoch': 52.76} {'loss': 0.0403, 'learning_rate': 2.3616921246545902e-05, 'epoch': 52.77} {'loss': 0.0427, 'learning_rate': 2.3614522566779245e-05, 'epoch': 52.77} {'loss': 0.0449, 'learning_rate': 2.3612123887012587e-05, 'epoch': 52.78} {'loss': 0.0444, 'learning_rate': 2.3609725207245933e-05, 'epoch': 52.78} {'loss': 0.0437, 'learning_rate': 2.3607326527479276e-05, 'epoch': 52.79} {'loss': 0.043, 'learning_rate': 2.3604927847712622e-05, 'epoch': 52.79} {'loss': 0.0424, 'learning_rate': 2.3602529167945965e-05, 'epoch': 52.79} {'loss': 0.043, 'learning_rate': 2.3600130488179308e-05, 'epoch': 52.8} {'loss': 0.045, 'learning_rate': 2.359773180841265e-05, 'epoch': 52.8} {'loss': 0.0442, 'learning_rate': 2.3595333128645993e-05, 'epoch': 52.81} {'loss': 0.0452, 'learning_rate': 2.359293444887934e-05, 'epoch': 52.81} {'loss': 0.0419, 'learning_rate': 2.3590535769112682e-05, 'epoch': 52.82} {'loss': 0.0435, 'learning_rate': 2.3588137089346025e-05, 'epoch': 52.82} {'loss': 0.0439, 'learning_rate': 2.358573840957937e-05, 'epoch': 52.83} {'loss': 0.0451, 'learning_rate': 2.3583339729812713e-05, 'epoch': 52.83} {'loss': 0.0424, 'learning_rate': 2.3580941050046056e-05, 'epoch': 52.84} {'loss': 0.0416, 'learning_rate': 2.35785423702794e-05, 'epoch': 52.84} {'loss': 0.0433, 'learning_rate': 2.357614369051274e-05, 'epoch': 52.85} {'loss': 0.0429, 'learning_rate': 2.3573745010746088e-05, 'epoch': 52.85} {'loss': 0.0424, 'learning_rate': 2.357134633097943e-05, 'epoch': 52.86} {'loss': 0.0422, 'learning_rate': 2.3568947651212776e-05, 'epoch': 52.86} {'loss': 0.0417, 'learning_rate': 2.356654897144612e-05, 'epoch': 52.87} {'loss': 0.0431, 'learning_rate': 2.356415029167946e-05, 'epoch': 52.87} {'loss': 0.0435, 'learning_rate': 2.3561751611912804e-05, 'epoch': 52.88} {'loss': 0.0444, 'learning_rate': 2.3559352932146147e-05, 'epoch': 52.88} {'loss': 0.0432, 'learning_rate': 2.3556954252379493e-05, 'epoch': 52.89} {'loss': 0.0426, 'learning_rate': 2.3554555572612836e-05, 'epoch': 52.89} {'loss': 0.0431, 'learning_rate': 2.355215689284618e-05, 'epoch': 52.9} {'loss': 0.0434, 'learning_rate': 2.354975821307952e-05, 'epoch': 52.9} {'loss': 0.0421, 'learning_rate': 2.3547359533312864e-05, 'epoch': 52.91} {'loss': 0.0435, 'learning_rate': 2.3544960853546207e-05, 'epoch': 52.91} {'loss': 0.0416, 'learning_rate': 2.3542562173779553e-05, 'epoch': 52.91} {'loss': 0.0446, 'learning_rate': 2.3540163494012896e-05, 'epoch': 52.92} {'loss': 0.0425, 'learning_rate': 2.353776481424624e-05, 'epoch': 52.92} {'loss': 0.0442, 'learning_rate': 2.3535366134479584e-05, 'epoch': 52.93} {'loss': 0.0444, 'learning_rate': 2.3532967454712927e-05, 'epoch': 52.93} {'loss': 0.042, 'learning_rate': 2.353056877494627e-05, 'epoch': 52.94} {'loss': 0.0416, 'learning_rate': 2.3528170095179612e-05, 'epoch': 52.94} {'loss': 0.0439, 'learning_rate': 2.352577141541296e-05, 'epoch': 52.95} {'loss': 0.0446, 'learning_rate': 2.35233727356463e-05, 'epoch': 52.95} {'loss': 0.0438, 'learning_rate': 2.3520974055879644e-05, 'epoch': 52.96} {'loss': 0.0445, 'learning_rate': 2.351857537611299e-05, 'epoch': 52.96} {'loss': 0.0421, 'learning_rate': 2.3516176696346333e-05, 'epoch': 52.97} {'loss': 0.0438, 'learning_rate': 2.3513778016579675e-05, 'epoch': 52.97} {'loss': 0.0429, 'learning_rate': 2.3511379336813018e-05, 'epoch': 52.98} {'loss': 0.0446, 'learning_rate': 2.350898065704636e-05, 'epoch': 52.98} {'loss': 0.0433, 'learning_rate': 2.3506581977279707e-05, 'epoch': 52.99} {'loss': 0.0417, 'learning_rate': 2.350418329751305e-05, 'epoch': 52.99} {'loss': 0.0422, 'learning_rate': 2.3501784617746396e-05, 'epoch': 53.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04137999936938286, 'eval_runtime': 741.1131, 'eval_samples_per_second': 562.526, 'eval_steps_per_second': 70.316, 'epoch': 53.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-5523872 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-5523872/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-5523872/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-5419648] due to args.save_total_limit {'loss': 0.0438, 'learning_rate': 2.349938593797974e-05, 'epoch': 53.0} {'loss': 0.0426, 'learning_rate': 2.349698725821308e-05, 'epoch': 53.01} {'loss': 0.041, 'learning_rate': 2.3494588578446424e-05, 'epoch': 53.01} {'loss': 0.0432, 'learning_rate': 2.3492189898679767e-05, 'epoch': 53.02} {'loss': 0.0414, 'learning_rate': 2.3489791218913113e-05, 'epoch': 53.02} {'loss': 0.0431, 'learning_rate': 2.3487392539146455e-05, 'epoch': 53.03} {'loss': 0.0447, 'learning_rate': 2.3484993859379798e-05, 'epoch': 53.03} {'loss': 0.0429, 'learning_rate': 2.3482595179613144e-05, 'epoch': 53.03} {'loss': 0.0435, 'learning_rate': 2.3480196499846487e-05, 'epoch': 53.04} {'loss': 0.0429, 'learning_rate': 2.347779782007983e-05, 'epoch': 53.04} {'loss': 0.041, 'learning_rate': 2.3475399140313172e-05, 'epoch': 53.05} {'loss': 0.0412, 'learning_rate': 2.3473000460546515e-05, 'epoch': 53.05} {'loss': 0.0413, 'learning_rate': 2.347060178077986e-05, 'epoch': 53.06} {'loss': 0.0426, 'learning_rate': 2.3468203101013204e-05, 'epoch': 53.06} {'loss': 0.0394, 'learning_rate': 2.346580442124655e-05, 'epoch': 53.07} {'loss': 0.043, 'learning_rate': 2.346340574147989e-05, 'epoch': 53.07} {'loss': 0.0411, 'learning_rate': 2.3461007061713232e-05, 'epoch': 53.08} {'loss': 0.0417, 'learning_rate': 2.3458608381946578e-05, 'epoch': 53.08} {'loss': 0.0429, 'learning_rate': 2.345620970217992e-05, 'epoch': 53.09} {'loss': 0.0446, 'learning_rate': 2.3453811022413267e-05, 'epoch': 53.09} {'loss': 0.0426, 'learning_rate': 2.345141234264661e-05, 'epoch': 53.1} {'loss': 0.0421, 'learning_rate': 2.3449013662879952e-05, 'epoch': 53.1} {'loss': 0.0421, 'learning_rate': 2.3446614983113295e-05, 'epoch': 53.11} {'loss': 0.0407, 'learning_rate': 2.3444216303346638e-05, 'epoch': 53.11} {'loss': 0.0422, 'learning_rate': 2.344181762357998e-05, 'epoch': 53.12} {'loss': 0.0416, 'learning_rate': 2.3439418943813326e-05, 'epoch': 53.12} {'loss': 0.0435, 'learning_rate': 2.343702026404667e-05, 'epoch': 53.13} {'loss': 0.0437, 'learning_rate': 2.3434621584280015e-05, 'epoch': 53.13} {'loss': 0.0442, 'learning_rate': 2.3432222904513358e-05, 'epoch': 53.14} {'loss': 0.0426, 'learning_rate': 2.34298242247467e-05, 'epoch': 53.14} {'loss': 0.0431, 'learning_rate': 2.3427425544980043e-05, 'epoch': 53.15} {'loss': 0.0428, 'learning_rate': 2.3425026865213386e-05, 'epoch': 53.15} {'loss': 0.0444, 'learning_rate': 2.3422628185446732e-05, 'epoch': 53.15} {'loss': 0.0416, 'learning_rate': 2.3420229505680075e-05, 'epoch': 53.16} {'loss': 0.0421, 'learning_rate': 2.3417830825913417e-05, 'epoch': 53.16} {'loss': 0.0426, 'learning_rate': 2.3415432146146764e-05, 'epoch': 53.17} {'loss': 0.0417, 'learning_rate': 2.3413033466380106e-05, 'epoch': 53.17} {'loss': 0.0416, 'learning_rate': 2.341063478661345e-05, 'epoch': 53.18} {'loss': 0.0429, 'learning_rate': 2.340823610684679e-05, 'epoch': 53.18} {'loss': 0.0445, 'learning_rate': 2.3405837427080134e-05, 'epoch': 53.19} {'loss': 0.0455, 'learning_rate': 2.340343874731348e-05, 'epoch': 53.19} {'loss': 0.045, 'learning_rate': 2.3401040067546823e-05, 'epoch': 53.2} {'loss': 0.0423, 'learning_rate': 2.339864138778017e-05, 'epoch': 53.2} {'loss': 0.0429, 'learning_rate': 2.3396242708013512e-05, 'epoch': 53.21} {'loss': 0.0441, 'learning_rate': 2.3393844028246855e-05, 'epoch': 53.21} {'loss': 0.044, 'learning_rate': 2.3391445348480197e-05, 'epoch': 53.22} {'loss': 0.0421, 'learning_rate': 2.338904666871354e-05, 'epoch': 53.22} {'loss': 0.0434, 'learning_rate': 2.3386647988946886e-05, 'epoch': 53.23} {'loss': 0.0443, 'learning_rate': 2.338424930918023e-05, 'epoch': 53.23} {'loss': 0.0438, 'learning_rate': 2.338185062941357e-05, 'epoch': 53.24} {'loss': 0.042, 'learning_rate': 2.3379451949646918e-05, 'epoch': 53.24} {'loss': 0.0425, 'learning_rate': 2.3377053269880257e-05, 'epoch': 53.25} {'loss': 0.0408, 'learning_rate': 2.3374654590113603e-05, 'epoch': 53.25} {'loss': 0.0426, 'learning_rate': 2.3372255910346946e-05, 'epoch': 53.26} {'loss': 0.0423, 'learning_rate': 2.336985723058029e-05, 'epoch': 53.26} {'loss': 0.0423, 'learning_rate': 2.3367458550813635e-05, 'epoch': 53.27} {'loss': 0.0417, 'learning_rate': 2.3365059871046977e-05, 'epoch': 53.27} {'loss': 0.0422, 'learning_rate': 2.3362661191280323e-05, 'epoch': 53.27} {'loss': 0.0434, 'learning_rate': 2.3360262511513663e-05, 'epoch': 53.28} {'loss': 0.043, 'learning_rate': 2.3357863831747005e-05, 'epoch': 53.28} {'loss': 0.0417, 'learning_rate': 2.335546515198035e-05, 'epoch': 53.29} {'loss': 0.0429, 'learning_rate': 2.3353066472213694e-05, 'epoch': 53.29} {'loss': 0.0421, 'learning_rate': 2.335066779244704e-05, 'epoch': 53.3} {'loss': 0.0437, 'learning_rate': 2.3348269112680383e-05, 'epoch': 53.3} {'loss': 0.0426, 'learning_rate': 2.3345870432913726e-05, 'epoch': 53.31} {'loss': 0.0435, 'learning_rate': 2.334347175314707e-05, 'epoch': 53.31} {'loss': 0.0439, 'learning_rate': 2.334107307338041e-05, 'epoch': 53.32} {'loss': 0.0425, 'learning_rate': 2.3338674393613754e-05, 'epoch': 53.32} {'loss': 0.041, 'learning_rate': 2.33362757138471e-05, 'epoch': 53.33} {'loss': 0.0447, 'learning_rate': 2.3333877034080443e-05, 'epoch': 53.33} {'loss': 0.0434, 'learning_rate': 2.333147835431379e-05, 'epoch': 53.34} {'loss': 0.0441, 'learning_rate': 2.332907967454713e-05, 'epoch': 53.34} {'loss': 0.0411, 'learning_rate': 2.3326680994780474e-05, 'epoch': 53.35} {'loss': 0.0426, 'learning_rate': 2.3324282315013817e-05, 'epoch': 53.35} {'loss': 0.0435, 'learning_rate': 2.332188363524716e-05, 'epoch': 53.36} {'loss': 0.0418, 'learning_rate': 2.3319484955480506e-05, 'epoch': 53.36} {'loss': 0.0449, 'learning_rate': 2.3317086275713848e-05, 'epoch': 53.37} {'loss': 0.0426, 'learning_rate': 2.331468759594719e-05, 'epoch': 53.37} {'loss': 0.0419, 'learning_rate': 2.3312288916180537e-05, 'epoch': 53.38} {'loss': 0.0432, 'learning_rate': 2.330989023641388e-05, 'epoch': 53.38} {'loss': 0.0414, 'learning_rate': 2.3307491556647222e-05, 'epoch': 53.39} {'loss': 0.0405, 'learning_rate': 2.3305092876880565e-05, 'epoch': 53.39} {'loss': 0.0447, 'learning_rate': 2.3302694197113908e-05, 'epoch': 53.39} {'loss': 0.0431, 'learning_rate': 2.3300295517347254e-05, 'epoch': 53.4} {'loss': 0.0435, 'learning_rate': 2.3297896837580597e-05, 'epoch': 53.4} {'loss': 0.0436, 'learning_rate': 2.3295498157813943e-05, 'epoch': 53.41} {'loss': 0.0433, 'learning_rate': 2.3293099478047285e-05, 'epoch': 53.41} {'loss': 0.0443, 'learning_rate': 2.3290700798280625e-05, 'epoch': 53.42} {'loss': 0.0438, 'learning_rate': 2.328830211851397e-05, 'epoch': 53.42} {'loss': 0.0419, 'learning_rate': 2.3285903438747314e-05, 'epoch': 53.43} {'loss': 0.042, 'learning_rate': 2.328350475898066e-05, 'epoch': 53.43} {'loss': 0.0432, 'learning_rate': 2.3281106079214002e-05, 'epoch': 53.44} {'loss': 0.0424, 'learning_rate': 2.3278707399447345e-05, 'epoch': 53.44} {'loss': 0.0421, 'learning_rate': 2.327630871968069e-05, 'epoch': 53.45} {'loss': 0.0447, 'learning_rate': 2.327391003991403e-05, 'epoch': 53.45} {'loss': 0.0427, 'learning_rate': 2.3271511360147377e-05, 'epoch': 53.46} {'loss': 0.0427, 'learning_rate': 2.326911268038072e-05, 'epoch': 53.46} {'loss': 0.042, 'learning_rate': 2.3266714000614062e-05, 'epoch': 53.47} {'loss': 0.043, 'learning_rate': 2.3264315320847408e-05, 'epoch': 53.47} {'loss': 0.0416, 'learning_rate': 2.326191664108075e-05, 'epoch': 53.48} {'loss': 0.0443, 'learning_rate': 2.3259517961314093e-05, 'epoch': 53.48} {'loss': 0.0424, 'learning_rate': 2.3257119281547436e-05, 'epoch': 53.49} {'loss': 0.0413, 'learning_rate': 2.325472060178078e-05, 'epoch': 53.49} {'loss': 0.0421, 'learning_rate': 2.3252321922014125e-05, 'epoch': 53.5} {'loss': 0.0449, 'learning_rate': 2.3249923242247468e-05, 'epoch': 53.5} {'loss': 0.0465, 'learning_rate': 2.3247524562480814e-05, 'epoch': 53.5} {'loss': 0.0465, 'learning_rate': 2.3245125882714156e-05, 'epoch': 53.51} {'loss': 0.0429, 'learning_rate': 2.32427272029475e-05, 'epoch': 53.51} {'loss': 0.0441, 'learning_rate': 2.3240328523180842e-05, 'epoch': 53.52} {'loss': 0.0446, 'learning_rate': 2.3237929843414185e-05, 'epoch': 53.52} {'loss': 0.0445, 'learning_rate': 2.3235531163647527e-05, 'epoch': 53.53} {'loss': 0.043, 'learning_rate': 2.3233132483880873e-05, 'epoch': 53.53} {'loss': 0.0421, 'learning_rate': 2.3230733804114216e-05, 'epoch': 53.54} {'loss': 0.0418, 'learning_rate': 2.3228335124347562e-05, 'epoch': 53.54} {'loss': 0.045, 'learning_rate': 2.3225936444580905e-05, 'epoch': 53.55} {'loss': 0.0424, 'learning_rate': 2.3223537764814248e-05, 'epoch': 53.55} {'loss': 0.0425, 'learning_rate': 2.322113908504759e-05, 'epoch': 53.56} {'loss': 0.0431, 'learning_rate': 2.3218740405280933e-05, 'epoch': 53.56} {'loss': 0.0414, 'learning_rate': 2.321634172551428e-05, 'epoch': 53.57} {'loss': 0.0436, 'learning_rate': 2.3213943045747622e-05, 'epoch': 53.57} {'loss': 0.0438, 'learning_rate': 2.3211544365980964e-05, 'epoch': 53.58} {'loss': 0.0441, 'learning_rate': 2.320914568621431e-05, 'epoch': 53.58} {'loss': 0.0421, 'learning_rate': 2.3206747006447653e-05, 'epoch': 53.59} {'loss': 0.0423, 'learning_rate': 2.3204348326680996e-05, 'epoch': 53.59} {'loss': 0.0417, 'learning_rate': 2.320194964691434e-05, 'epoch': 53.6} {'loss': 0.0425, 'learning_rate': 2.319955096714768e-05, 'epoch': 53.6} {'loss': 0.0398, 'learning_rate': 2.3197152287381027e-05, 'epoch': 53.61} {'loss': 0.0404, 'learning_rate': 2.319475360761437e-05, 'epoch': 53.61} {'loss': 0.0431, 'learning_rate': 2.3192354927847716e-05, 'epoch': 53.62} {'loss': 0.0446, 'learning_rate': 2.318995624808106e-05, 'epoch': 53.62} {'loss': 0.0423, 'learning_rate': 2.3187557568314398e-05, 'epoch': 53.62} {'loss': 0.0445, 'learning_rate': 2.3185158888547744e-05, 'epoch': 53.63} {'loss': 0.0431, 'learning_rate': 2.3182760208781087e-05, 'epoch': 53.63} {'loss': 0.0447, 'learning_rate': 2.3180361529014433e-05, 'epoch': 53.64} {'loss': 0.0398, 'learning_rate': 2.3177962849247776e-05, 'epoch': 53.64} {'loss': 0.0428, 'learning_rate': 2.317556416948112e-05, 'epoch': 53.65} {'loss': 0.0423, 'learning_rate': 2.317316548971446e-05, 'epoch': 53.65} {'loss': 0.0415, 'learning_rate': 2.3170766809947804e-05, 'epoch': 53.66} {'loss': 0.0414, 'learning_rate': 2.316836813018115e-05, 'epoch': 53.66} {'loss': 0.0441, 'learning_rate': 2.3165969450414493e-05, 'epoch': 53.67} {'loss': 0.0436, 'learning_rate': 2.3163570770647835e-05, 'epoch': 53.67} {'loss': 0.0437, 'learning_rate': 2.316117209088118e-05, 'epoch': 53.68} {'loss': 0.0438, 'learning_rate': 2.3158773411114524e-05, 'epoch': 53.68} {'loss': 0.0437, 'learning_rate': 2.3156374731347867e-05, 'epoch': 53.69} {'loss': 0.0446, 'learning_rate': 2.315397605158121e-05, 'epoch': 53.69} {'loss': 0.0419, 'learning_rate': 2.3151577371814552e-05, 'epoch': 53.7} {'loss': 0.0423, 'learning_rate': 2.31491786920479e-05, 'epoch': 53.7} {'loss': 0.0405, 'learning_rate': 2.314678001228124e-05, 'epoch': 53.71} {'loss': 0.0438, 'learning_rate': 2.3144381332514587e-05, 'epoch': 53.71} {'loss': 0.0427, 'learning_rate': 2.314198265274793e-05, 'epoch': 53.72} {'loss': 0.0447, 'learning_rate': 2.3139583972981273e-05, 'epoch': 53.72} {'loss': 0.0439, 'learning_rate': 2.3137185293214615e-05, 'epoch': 53.73} {'loss': 0.0417, 'learning_rate': 2.3134786613447958e-05, 'epoch': 53.73} {'loss': 0.044, 'learning_rate': 2.3132387933681304e-05, 'epoch': 53.74} {'loss': 0.0414, 'learning_rate': 2.3129989253914647e-05, 'epoch': 53.74} {'loss': 0.043, 'learning_rate': 2.312759057414799e-05, 'epoch': 53.74} {'loss': 0.0426, 'learning_rate': 2.3125191894381336e-05, 'epoch': 53.75} {'loss': 0.0389, 'learning_rate': 2.312279321461468e-05, 'epoch': 53.75} {'loss': 0.0427, 'learning_rate': 2.312039453484802e-05, 'epoch': 53.76} {'loss': 0.0437, 'learning_rate': 2.3117995855081364e-05, 'epoch': 53.76} {'loss': 0.0412, 'learning_rate': 2.3115597175314706e-05, 'epoch': 53.77} {'loss': 0.041, 'learning_rate': 2.3113198495548053e-05, 'epoch': 53.77} {'loss': 0.044, 'learning_rate': 2.3110799815781395e-05, 'epoch': 53.78} {'loss': 0.0435, 'learning_rate': 2.3108401136014738e-05, 'epoch': 53.78} {'loss': 0.043, 'learning_rate': 2.3106002456248084e-05, 'epoch': 53.79} {'loss': 0.0437, 'learning_rate': 2.3103603776481423e-05, 'epoch': 53.79} {'loss': 0.0437, 'learning_rate': 2.310120509671477e-05, 'epoch': 53.8} {'loss': 0.0428, 'learning_rate': 2.3098806416948112e-05, 'epoch': 53.8} {'loss': 0.0425, 'learning_rate': 2.3096407737181455e-05, 'epoch': 53.81} {'loss': 0.0405, 'learning_rate': 2.30940090574148e-05, 'epoch': 53.81} {'loss': 0.0449, 'learning_rate': 2.3091610377648144e-05, 'epoch': 53.82} {'loss': 0.0447, 'learning_rate': 2.308921169788149e-05, 'epoch': 53.82} {'loss': 0.0437, 'learning_rate': 2.308681301811483e-05, 'epoch': 53.83} {'loss': 0.0431, 'learning_rate': 2.3084414338348172e-05, 'epoch': 53.83} {'loss': 0.044, 'learning_rate': 2.3082015658581518e-05, 'epoch': 53.84} {'loss': 0.0453, 'learning_rate': 2.307961697881486e-05, 'epoch': 53.84} {'loss': 0.0432, 'learning_rate': 2.3077218299048207e-05, 'epoch': 53.85} {'loss': 0.0434, 'learning_rate': 2.307481961928155e-05, 'epoch': 53.85} {'loss': 0.0421, 'learning_rate': 2.3072420939514892e-05, 'epoch': 53.86} {'loss': 0.0417, 'learning_rate': 2.3070022259748235e-05, 'epoch': 53.86} {'loss': 0.0444, 'learning_rate': 2.3067623579981577e-05, 'epoch': 53.86} {'loss': 0.0433, 'learning_rate': 2.3065224900214924e-05, 'epoch': 53.87} {'loss': 0.0428, 'learning_rate': 2.3062826220448266e-05, 'epoch': 53.87} {'loss': 0.0428, 'learning_rate': 2.306042754068161e-05, 'epoch': 53.88} {'loss': 0.0435, 'learning_rate': 2.3058028860914955e-05, 'epoch': 53.88} {'loss': 0.0442, 'learning_rate': 2.3055630181148298e-05, 'epoch': 53.89} {'loss': 0.0438, 'learning_rate': 2.305323150138164e-05, 'epoch': 53.89} {'loss': 0.0432, 'learning_rate': 2.3050832821614983e-05, 'epoch': 53.9} {'loss': 0.0457, 'learning_rate': 2.3048434141848326e-05, 'epoch': 53.9} {'loss': 0.0421, 'learning_rate': 2.3046035462081672e-05, 'epoch': 53.91} {'loss': 0.0424, 'learning_rate': 2.3043636782315015e-05, 'epoch': 53.91} {'loss': 0.0433, 'learning_rate': 2.304123810254836e-05, 'epoch': 53.92} {'loss': 0.0439, 'learning_rate': 2.3038839422781703e-05, 'epoch': 53.92} {'loss': 0.0427, 'learning_rate': 2.3036440743015046e-05, 'epoch': 53.93} {'loss': 0.0438, 'learning_rate': 2.303404206324839e-05, 'epoch': 53.93} {'loss': 0.041, 'learning_rate': 2.303164338348173e-05, 'epoch': 53.94} {'loss': 0.045, 'learning_rate': 2.3029244703715078e-05, 'epoch': 53.94} {'loss': 0.0425, 'learning_rate': 2.302684602394842e-05, 'epoch': 53.95} {'loss': 0.0433, 'learning_rate': 2.3024447344181763e-05, 'epoch': 53.95} {'loss': 0.0415, 'learning_rate': 2.302204866441511e-05, 'epoch': 53.96} {'loss': 0.041, 'learning_rate': 2.3019649984648452e-05, 'epoch': 53.96} {'loss': 0.0423, 'learning_rate': 2.301725130488179e-05, 'epoch': 53.97} {'loss': 0.0431, 'learning_rate': 2.3014852625115137e-05, 'epoch': 53.97} {'loss': 0.0444, 'learning_rate': 2.301245394534848e-05, 'epoch': 53.98} {'loss': 0.0447, 'learning_rate': 2.3010055265581826e-05, 'epoch': 53.98} {'loss': 0.0432, 'learning_rate': 2.300765658581517e-05, 'epoch': 53.98} {'loss': 0.0435, 'learning_rate': 2.300525790604851e-05, 'epoch': 53.99} {'loss': 0.0424, 'learning_rate': 2.3002859226281858e-05, 'epoch': 53.99} {'loss': 0.0411, 'learning_rate': 2.3000460546515197e-05, 'epoch': 54.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.041691768914461136, 'eval_runtime': 737.9675, 'eval_samples_per_second': 564.923, 'eval_steps_per_second': 70.616, 'epoch': 54.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-5628096 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-5628096/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-5628096/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-5523872] due to args.save_total_limit {'loss': 0.0417, 'learning_rate': 2.2998061866748543e-05, 'epoch': 54.0} {'loss': 0.0429, 'learning_rate': 2.2995663186981886e-05, 'epoch': 54.01} {'loss': 0.0416, 'learning_rate': 2.299326450721523e-05, 'epoch': 54.01} {'loss': 0.0396, 'learning_rate': 2.2990865827448574e-05, 'epoch': 54.02} {'loss': 0.0432, 'learning_rate': 2.2988467147681917e-05, 'epoch': 54.02} {'loss': 0.0411, 'learning_rate': 2.2986068467915263e-05, 'epoch': 54.03} {'loss': 0.041, 'learning_rate': 2.2983669788148603e-05, 'epoch': 54.03} {'loss': 0.0421, 'learning_rate': 2.2981271108381945e-05, 'epoch': 54.04} {'loss': 0.0412, 'learning_rate': 2.297887242861529e-05, 'epoch': 54.04} {'loss': 0.0424, 'learning_rate': 2.2976473748848634e-05, 'epoch': 54.05} {'loss': 0.0424, 'learning_rate': 2.297407506908198e-05, 'epoch': 54.05} {'loss': 0.0402, 'learning_rate': 2.2971676389315323e-05, 'epoch': 54.06} {'loss': 0.041, 'learning_rate': 2.2969277709548666e-05, 'epoch': 54.06} {'loss': 0.0405, 'learning_rate': 2.2966879029782008e-05, 'epoch': 54.07} {'loss': 0.0406, 'learning_rate': 2.296448035001535e-05, 'epoch': 54.07} {'loss': 0.0422, 'learning_rate': 2.2962081670248697e-05, 'epoch': 54.08} {'loss': 0.0417, 'learning_rate': 2.295968299048204e-05, 'epoch': 54.08} {'loss': 0.0423, 'learning_rate': 2.2957284310715382e-05, 'epoch': 54.09} {'loss': 0.0422, 'learning_rate': 2.295488563094873e-05, 'epoch': 54.09} {'loss': 0.0433, 'learning_rate': 2.295248695118207e-05, 'epoch': 54.1} {'loss': 0.0429, 'learning_rate': 2.2950088271415414e-05, 'epoch': 54.1} {'loss': 0.0418, 'learning_rate': 2.2947689591648757e-05, 'epoch': 54.1} {'loss': 0.0416, 'learning_rate': 2.29452909118821e-05, 'epoch': 54.11} {'loss': 0.0423, 'learning_rate': 2.2942892232115445e-05, 'epoch': 54.11} {'loss': 0.0416, 'learning_rate': 2.2940493552348788e-05, 'epoch': 54.12} {'loss': 0.0432, 'learning_rate': 2.2938094872582134e-05, 'epoch': 54.12} {'loss': 0.0428, 'learning_rate': 2.2935696192815477e-05, 'epoch': 54.13} {'loss': 0.0412, 'learning_rate': 2.293329751304882e-05, 'epoch': 54.13} {'loss': 0.0438, 'learning_rate': 2.2930898833282162e-05, 'epoch': 54.14} {'loss': 0.0415, 'learning_rate': 2.2928500153515505e-05, 'epoch': 54.14} {'loss': 0.043, 'learning_rate': 2.292610147374885e-05, 'epoch': 54.15} {'loss': 0.0436, 'learning_rate': 2.2923702793982194e-05, 'epoch': 54.15} {'loss': 0.0399, 'learning_rate': 2.2921304114215537e-05, 'epoch': 54.16} {'loss': 0.0436, 'learning_rate': 2.2918905434448883e-05, 'epoch': 54.16} {'loss': 0.0418, 'learning_rate': 2.2916506754682225e-05, 'epoch': 54.17} {'loss': 0.0417, 'learning_rate': 2.2914108074915565e-05, 'epoch': 54.17} {'loss': 0.0417, 'learning_rate': 2.291170939514891e-05, 'epoch': 54.18} {'loss': 0.0424, 'learning_rate': 2.2909310715382253e-05, 'epoch': 54.18} {'loss': 0.0424, 'learning_rate': 2.29069120356156e-05, 'epoch': 54.19} {'loss': 0.0439, 'learning_rate': 2.2904513355848942e-05, 'epoch': 54.19} {'loss': 0.041, 'learning_rate': 2.2902114676082285e-05, 'epoch': 54.2} {'loss': 0.0421, 'learning_rate': 2.2899715996315628e-05, 'epoch': 54.2} {'loss': 0.044, 'learning_rate': 2.289731731654897e-05, 'epoch': 54.21} {'loss': 0.0422, 'learning_rate': 2.2894918636782316e-05, 'epoch': 54.21} {'loss': 0.0408, 'learning_rate': 2.289251995701566e-05, 'epoch': 54.21} {'loss': 0.0425, 'learning_rate': 2.2890121277249002e-05, 'epoch': 54.22} {'loss': 0.0417, 'learning_rate': 2.2887722597482348e-05, 'epoch': 54.22} {'loss': 0.0426, 'learning_rate': 2.288532391771569e-05, 'epoch': 54.23} {'loss': 0.0428, 'learning_rate': 2.2882925237949033e-05, 'epoch': 54.23} {'loss': 0.0421, 'learning_rate': 2.2880526558182376e-05, 'epoch': 54.24} {'loss': 0.0437, 'learning_rate': 2.287812787841572e-05, 'epoch': 54.24} {'loss': 0.0432, 'learning_rate': 2.2875729198649065e-05, 'epoch': 54.25} {'loss': 0.043, 'learning_rate': 2.2873330518882408e-05, 'epoch': 54.25} {'loss': 0.0426, 'learning_rate': 2.2870931839115754e-05, 'epoch': 54.26} {'loss': 0.0426, 'learning_rate': 2.2868533159349096e-05, 'epoch': 54.26} {'loss': 0.0422, 'learning_rate': 2.286613447958244e-05, 'epoch': 54.27} {'loss': 0.0402, 'learning_rate': 2.2863735799815782e-05, 'epoch': 54.27} {'loss': 0.044, 'learning_rate': 2.2861337120049124e-05, 'epoch': 54.28} {'loss': 0.0425, 'learning_rate': 2.285893844028247e-05, 'epoch': 54.28} {'loss': 0.044, 'learning_rate': 2.2856539760515813e-05, 'epoch': 54.29} {'loss': 0.0423, 'learning_rate': 2.2854141080749156e-05, 'epoch': 54.29} {'loss': 0.042, 'learning_rate': 2.2851742400982502e-05, 'epoch': 54.3} {'loss': 0.0415, 'learning_rate': 2.2849343721215845e-05, 'epoch': 54.3} {'loss': 0.0407, 'learning_rate': 2.2846945041449187e-05, 'epoch': 54.31} {'loss': 0.045, 'learning_rate': 2.284454636168253e-05, 'epoch': 54.31} {'loss': 0.0422, 'learning_rate': 2.2842147681915873e-05, 'epoch': 54.32} {'loss': 0.043, 'learning_rate': 2.283974900214922e-05, 'epoch': 54.32} {'loss': 0.0426, 'learning_rate': 2.283735032238256e-05, 'epoch': 54.33} {'loss': 0.0426, 'learning_rate': 2.2834951642615908e-05, 'epoch': 54.33} {'loss': 0.0426, 'learning_rate': 2.283255296284925e-05, 'epoch': 54.33} {'loss': 0.0431, 'learning_rate': 2.2830154283082593e-05, 'epoch': 54.34} {'loss': 0.0417, 'learning_rate': 2.2827755603315936e-05, 'epoch': 54.34} {'loss': 0.0438, 'learning_rate': 2.282535692354928e-05, 'epoch': 54.35} {'loss': 0.0422, 'learning_rate': 2.2822958243782625e-05, 'epoch': 54.35} {'loss': 0.0413, 'learning_rate': 2.2820559564015967e-05, 'epoch': 54.36} {'loss': 0.0409, 'learning_rate': 2.281816088424931e-05, 'epoch': 54.36} {'loss': 0.0423, 'learning_rate': 2.2815762204482656e-05, 'epoch': 54.37} {'loss': 0.0396, 'learning_rate': 2.2813363524715995e-05, 'epoch': 54.37} {'loss': 0.0442, 'learning_rate': 2.2810964844949338e-05, 'epoch': 54.38} {'loss': 0.0422, 'learning_rate': 2.2808566165182684e-05, 'epoch': 54.38} {'loss': 0.0416, 'learning_rate': 2.2806167485416027e-05, 'epoch': 54.39} {'loss': 0.0427, 'learning_rate': 2.2803768805649373e-05, 'epoch': 54.39} {'loss': 0.042, 'learning_rate': 2.2801370125882716e-05, 'epoch': 54.4} {'loss': 0.0419, 'learning_rate': 2.279897144611606e-05, 'epoch': 54.4} {'loss': 0.0449, 'learning_rate': 2.27965727663494e-05, 'epoch': 54.41} {'loss': 0.0412, 'learning_rate': 2.2794174086582744e-05, 'epoch': 54.41} {'loss': 0.0422, 'learning_rate': 2.279177540681609e-05, 'epoch': 54.42} {'loss': 0.04, 'learning_rate': 2.2789376727049433e-05, 'epoch': 54.42} {'loss': 0.042, 'learning_rate': 2.2786978047282775e-05, 'epoch': 54.43} {'loss': 0.0407, 'learning_rate': 2.278457936751612e-05, 'epoch': 54.43} {'loss': 0.041, 'learning_rate': 2.2782180687749464e-05, 'epoch': 54.44} {'loss': 0.042, 'learning_rate': 2.2779782007982807e-05, 'epoch': 54.44} {'loss': 0.043, 'learning_rate': 2.277738332821615e-05, 'epoch': 54.45} {'loss': 0.044, 'learning_rate': 2.2774984648449492e-05, 'epoch': 54.45} {'loss': 0.0408, 'learning_rate': 2.277258596868284e-05, 'epoch': 54.45} {'loss': 0.0434, 'learning_rate': 2.277018728891618e-05, 'epoch': 54.46} {'loss': 0.0433, 'learning_rate': 2.2767788609149527e-05, 'epoch': 54.46} {'loss': 0.0408, 'learning_rate': 2.276538992938287e-05, 'epoch': 54.47} {'loss': 0.0439, 'learning_rate': 2.2762991249616213e-05, 'epoch': 54.47} {'loss': 0.0429, 'learning_rate': 2.2760592569849555e-05, 'epoch': 54.48} {'loss': 0.0412, 'learning_rate': 2.2758193890082898e-05, 'epoch': 54.48} {'loss': 0.0419, 'learning_rate': 2.2755795210316244e-05, 'epoch': 54.49} {'loss': 0.0405, 'learning_rate': 2.2753396530549587e-05, 'epoch': 54.49} {'loss': 0.0448, 'learning_rate': 2.275099785078293e-05, 'epoch': 54.5} {'loss': 0.0413, 'learning_rate': 2.2748599171016276e-05, 'epoch': 54.5} {'loss': 0.0422, 'learning_rate': 2.2746200491249618e-05, 'epoch': 54.51} {'loss': 0.0434, 'learning_rate': 2.274380181148296e-05, 'epoch': 54.51} {'loss': 0.043, 'learning_rate': 2.2741403131716304e-05, 'epoch': 54.52} {'loss': 0.0417, 'learning_rate': 2.2739004451949646e-05, 'epoch': 54.52} {'loss': 0.0421, 'learning_rate': 2.2736605772182992e-05, 'epoch': 54.53} {'loss': 0.042, 'learning_rate': 2.2734207092416335e-05, 'epoch': 54.53} {'loss': 0.0445, 'learning_rate': 2.273180841264968e-05, 'epoch': 54.54} {'loss': 0.0421, 'learning_rate': 2.2729409732883024e-05, 'epoch': 54.54} {'loss': 0.0435, 'learning_rate': 2.2727011053116363e-05, 'epoch': 54.55} {'loss': 0.0441, 'learning_rate': 2.272461237334971e-05, 'epoch': 54.55} {'loss': 0.0447, 'learning_rate': 2.2722213693583052e-05, 'epoch': 54.56} {'loss': 0.0418, 'learning_rate': 2.2719815013816398e-05, 'epoch': 54.56} {'loss': 0.0419, 'learning_rate': 2.271741633404974e-05, 'epoch': 54.57} {'loss': 0.0419, 'learning_rate': 2.2715017654283084e-05, 'epoch': 54.57} {'loss': 0.0422, 'learning_rate': 2.271261897451643e-05, 'epoch': 54.57} {'loss': 0.0427, 'learning_rate': 2.271022029474977e-05, 'epoch': 54.58} {'loss': 0.041, 'learning_rate': 2.270782161498311e-05, 'epoch': 54.58} {'loss': 0.0438, 'learning_rate': 2.2705422935216458e-05, 'epoch': 54.59} {'loss': 0.0433, 'learning_rate': 2.27030242554498e-05, 'epoch': 54.59} {'loss': 0.0425, 'learning_rate': 2.2700625575683147e-05, 'epoch': 54.6} {'loss': 0.0426, 'learning_rate': 2.269822689591649e-05, 'epoch': 54.6} {'loss': 0.0429, 'learning_rate': 2.2695828216149832e-05, 'epoch': 54.61} {'loss': 0.0413, 'learning_rate': 2.2693429536383175e-05, 'epoch': 54.61} {'loss': 0.0443, 'learning_rate': 2.2691030856616517e-05, 'epoch': 54.62} {'loss': 0.0409, 'learning_rate': 2.2688632176849863e-05, 'epoch': 54.62} {'loss': 0.0428, 'learning_rate': 2.2686233497083206e-05, 'epoch': 54.63} {'loss': 0.0432, 'learning_rate': 2.268383481731655e-05, 'epoch': 54.63} {'loss': 0.0434, 'learning_rate': 2.2681436137549895e-05, 'epoch': 54.64} {'loss': 0.0412, 'learning_rate': 2.2679037457783238e-05, 'epoch': 54.64} {'loss': 0.0452, 'learning_rate': 2.267663877801658e-05, 'epoch': 54.65} {'loss': 0.0414, 'learning_rate': 2.2674240098249923e-05, 'epoch': 54.65} {'loss': 0.0439, 'learning_rate': 2.2671841418483266e-05, 'epoch': 54.66} {'loss': 0.0423, 'learning_rate': 2.2669442738716612e-05, 'epoch': 54.66} {'loss': 0.0424, 'learning_rate': 2.2667044058949955e-05, 'epoch': 54.67} {'loss': 0.0426, 'learning_rate': 2.26646453791833e-05, 'epoch': 54.67} {'loss': 0.0448, 'learning_rate': 2.2662246699416643e-05, 'epoch': 54.68} {'loss': 0.0435, 'learning_rate': 2.2659848019649986e-05, 'epoch': 54.68} {'loss': 0.041, 'learning_rate': 2.265744933988333e-05, 'epoch': 54.69} {'loss': 0.0412, 'learning_rate': 2.265505066011667e-05, 'epoch': 54.69} {'loss': 0.0411, 'learning_rate': 2.2652651980350018e-05, 'epoch': 54.69} {'loss': 0.041, 'learning_rate': 2.265025330058336e-05, 'epoch': 54.7} {'loss': 0.0421, 'learning_rate': 2.2647854620816703e-05, 'epoch': 54.7} {'loss': 0.0433, 'learning_rate': 2.264545594105005e-05, 'epoch': 54.71} {'loss': 0.0424, 'learning_rate': 2.2643057261283392e-05, 'epoch': 54.71} {'loss': 0.0431, 'learning_rate': 2.2640658581516734e-05, 'epoch': 54.72} {'loss': 0.044, 'learning_rate': 2.2638259901750077e-05, 'epoch': 54.72} {'loss': 0.0421, 'learning_rate': 2.263586122198342e-05, 'epoch': 54.73} {'loss': 0.0414, 'learning_rate': 2.2633462542216766e-05, 'epoch': 54.73} {'loss': 0.0409, 'learning_rate': 2.263106386245011e-05, 'epoch': 54.74} {'loss': 0.0422, 'learning_rate': 2.2628665182683455e-05, 'epoch': 54.74} {'loss': 0.0432, 'learning_rate': 2.2626266502916797e-05, 'epoch': 54.75} {'loss': 0.0414, 'learning_rate': 2.2623867823150137e-05, 'epoch': 54.75} {'loss': 0.0435, 'learning_rate': 2.2621469143383483e-05, 'epoch': 54.76} {'loss': 0.0432, 'learning_rate': 2.2619070463616826e-05, 'epoch': 54.76} {'loss': 0.0421, 'learning_rate': 2.261667178385017e-05, 'epoch': 54.77} {'loss': 0.0419, 'learning_rate': 2.2614273104083514e-05, 'epoch': 54.77} {'loss': 0.0413, 'learning_rate': 2.2611874424316857e-05, 'epoch': 54.78} {'loss': 0.0427, 'learning_rate': 2.26094757445502e-05, 'epoch': 54.78} {'loss': 0.041, 'learning_rate': 2.2607077064783542e-05, 'epoch': 54.79} {'loss': 0.043, 'learning_rate': 2.260467838501689e-05, 'epoch': 54.79} {'loss': 0.0432, 'learning_rate': 2.260227970525023e-05, 'epoch': 54.8} {'loss': 0.043, 'learning_rate': 2.2599881025483574e-05, 'epoch': 54.8} {'loss': 0.0422, 'learning_rate': 2.259748234571692e-05, 'epoch': 54.81} {'loss': 0.0424, 'learning_rate': 2.2595083665950263e-05, 'epoch': 54.81} {'loss': 0.0409, 'learning_rate': 2.2592684986183605e-05, 'epoch': 54.81} {'loss': 0.0458, 'learning_rate': 2.2590286306416948e-05, 'epoch': 54.82} {'loss': 0.042, 'learning_rate': 2.258788762665029e-05, 'epoch': 54.82} {'loss': 0.0428, 'learning_rate': 2.2585488946883637e-05, 'epoch': 54.83} {'loss': 0.0432, 'learning_rate': 2.258309026711698e-05, 'epoch': 54.83} {'loss': 0.0431, 'learning_rate': 2.2580691587350322e-05, 'epoch': 54.84} {'loss': 0.0405, 'learning_rate': 2.257829290758367e-05, 'epoch': 54.84} {'loss': 0.0412, 'learning_rate': 2.257589422781701e-05, 'epoch': 54.85} {'loss': 0.0433, 'learning_rate': 2.2573495548050354e-05, 'epoch': 54.85} {'loss': 0.0426, 'learning_rate': 2.2571096868283697e-05, 'epoch': 54.86} {'loss': 0.0428, 'learning_rate': 2.256869818851704e-05, 'epoch': 54.86} {'loss': 0.0431, 'learning_rate': 2.2566299508750385e-05, 'epoch': 54.87} {'loss': 0.0391, 'learning_rate': 2.2563900828983728e-05, 'epoch': 54.87} {'loss': 0.0397, 'learning_rate': 2.2561502149217074e-05, 'epoch': 54.88} {'loss': 0.0418, 'learning_rate': 2.2559103469450417e-05, 'epoch': 54.88} {'loss': 0.0435, 'learning_rate': 2.255670478968376e-05, 'epoch': 54.89} {'loss': 0.0411, 'learning_rate': 2.2554306109917102e-05, 'epoch': 54.89} {'loss': 0.0418, 'learning_rate': 2.2551907430150445e-05, 'epoch': 54.9} {'loss': 0.0401, 'learning_rate': 2.254950875038379e-05, 'epoch': 54.9} {'loss': 0.0416, 'learning_rate': 2.2547110070617134e-05, 'epoch': 54.91} {'loss': 0.0437, 'learning_rate': 2.2544711390850476e-05, 'epoch': 54.91} {'loss': 0.0404, 'learning_rate': 2.2542312711083823e-05, 'epoch': 54.92} {'loss': 0.0413, 'learning_rate': 2.2539914031317165e-05, 'epoch': 54.92} {'loss': 0.0435, 'learning_rate': 2.2537515351550508e-05, 'epoch': 54.92} {'loss': 0.0421, 'learning_rate': 2.253511667178385e-05, 'epoch': 54.93} {'loss': 0.0401, 'learning_rate': 2.2532717992017193e-05, 'epoch': 54.93} {'loss': 0.0407, 'learning_rate': 2.253031931225054e-05, 'epoch': 54.94} {'loss': 0.0423, 'learning_rate': 2.2527920632483882e-05, 'epoch': 54.94} {'loss': 0.0424, 'learning_rate': 2.2525521952717228e-05, 'epoch': 54.95} {'loss': 0.0431, 'learning_rate': 2.2523123272950568e-05, 'epoch': 54.95} {'loss': 0.041, 'learning_rate': 2.252072459318391e-05, 'epoch': 54.96} {'loss': 0.0421, 'learning_rate': 2.2518325913417256e-05, 'epoch': 54.96} {'loss': 0.044, 'learning_rate': 2.25159272336506e-05, 'epoch': 54.97} {'loss': 0.0432, 'learning_rate': 2.2513528553883945e-05, 'epoch': 54.97} {'loss': 0.0436, 'learning_rate': 2.2511129874117288e-05, 'epoch': 54.98} {'loss': 0.0434, 'learning_rate': 2.250873119435063e-05, 'epoch': 54.98} {'loss': 0.0425, 'learning_rate': 2.2506332514583973e-05, 'epoch': 54.99} {'loss': 0.0416, 'learning_rate': 2.2503933834817316e-05, 'epoch': 54.99} {'loss': 0.0424, 'learning_rate': 2.2501535155050662e-05, 'epoch': 55.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04063963517546654, 'eval_runtime': 735.4415, 'eval_samples_per_second': 566.864, 'eval_steps_per_second': 70.858, 'epoch': 55.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-5732320 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-5732320/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-5732320/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-5628096] due to args.save_total_limit {'loss': 0.0419, 'learning_rate': 2.2499136475284005e-05, 'epoch': 55.0} {'loss': 0.0414, 'learning_rate': 2.2496737795517347e-05, 'epoch': 55.01} {'loss': 0.0427, 'learning_rate': 2.2494339115750694e-05, 'epoch': 55.01} {'loss': 0.0393, 'learning_rate': 2.2491940435984036e-05, 'epoch': 55.02} {'loss': 0.0422, 'learning_rate': 2.248954175621738e-05, 'epoch': 55.02} {'loss': 0.0409, 'learning_rate': 2.2487143076450722e-05, 'epoch': 55.03} {'loss': 0.0417, 'learning_rate': 2.2484744396684064e-05, 'epoch': 55.03} {'loss': 0.0413, 'learning_rate': 2.248234571691741e-05, 'epoch': 55.04} {'loss': 0.0421, 'learning_rate': 2.2479947037150753e-05, 'epoch': 55.04} {'loss': 0.0418, 'learning_rate': 2.2477548357384096e-05, 'epoch': 55.04} {'loss': 0.0407, 'learning_rate': 2.2475149677617442e-05, 'epoch': 55.05} {'loss': 0.0405, 'learning_rate': 2.2472750997850785e-05, 'epoch': 55.05} {'loss': 0.0427, 'learning_rate': 2.2470352318084127e-05, 'epoch': 55.06} {'loss': 0.0423, 'learning_rate': 2.246795363831747e-05, 'epoch': 55.06} {'loss': 0.043, 'learning_rate': 2.2465554958550813e-05, 'epoch': 55.07} {'loss': 0.0443, 'learning_rate': 2.246315627878416e-05, 'epoch': 55.07} {'loss': 0.0431, 'learning_rate': 2.24607575990175e-05, 'epoch': 55.08} {'loss': 0.043, 'learning_rate': 2.2458358919250848e-05, 'epoch': 55.08} {'loss': 0.0412, 'learning_rate': 2.245596023948419e-05, 'epoch': 55.09} {'loss': 0.0415, 'learning_rate': 2.245356155971753e-05, 'epoch': 55.09} {'loss': 0.0415, 'learning_rate': 2.2451162879950876e-05, 'epoch': 55.1} {'loss': 0.0418, 'learning_rate': 2.244876420018422e-05, 'epoch': 55.1} {'loss': 0.042, 'learning_rate': 2.2446365520417565e-05, 'epoch': 55.11} {'loss': 0.0402, 'learning_rate': 2.2443966840650907e-05, 'epoch': 55.11} {'loss': 0.042, 'learning_rate': 2.244156816088425e-05, 'epoch': 55.12} {'loss': 0.0412, 'learning_rate': 2.2439169481117596e-05, 'epoch': 55.12} {'loss': 0.0415, 'learning_rate': 2.2436770801350935e-05, 'epoch': 55.13} {'loss': 0.0405, 'learning_rate': 2.243437212158428e-05, 'epoch': 55.13} {'loss': 0.0436, 'learning_rate': 2.2431973441817624e-05, 'epoch': 55.14} {'loss': 0.0405, 'learning_rate': 2.2429574762050967e-05, 'epoch': 55.14} {'loss': 0.0411, 'learning_rate': 2.2427176082284313e-05, 'epoch': 55.15} {'loss': 0.0411, 'learning_rate': 2.2424777402517656e-05, 'epoch': 55.15} {'loss': 0.0436, 'learning_rate': 2.2422378722751002e-05, 'epoch': 55.16} {'loss': 0.0421, 'learning_rate': 2.241998004298434e-05, 'epoch': 55.16} {'loss': 0.0413, 'learning_rate': 2.2417581363217684e-05, 'epoch': 55.16} {'loss': 0.0421, 'learning_rate': 2.241518268345103e-05, 'epoch': 55.17} {'loss': 0.0394, 'learning_rate': 2.2412784003684373e-05, 'epoch': 55.17} {'loss': 0.0442, 'learning_rate': 2.241038532391772e-05, 'epoch': 55.18} {'loss': 0.0428, 'learning_rate': 2.240798664415106e-05, 'epoch': 55.18} {'loss': 0.0421, 'learning_rate': 2.2405587964384404e-05, 'epoch': 55.19} {'loss': 0.0417, 'learning_rate': 2.2403189284617747e-05, 'epoch': 55.19} {'loss': 0.0424, 'learning_rate': 2.240079060485109e-05, 'epoch': 55.2} {'loss': 0.0419, 'learning_rate': 2.2398391925084436e-05, 'epoch': 55.2} {'loss': 0.0408, 'learning_rate': 2.2395993245317778e-05, 'epoch': 55.21} {'loss': 0.0405, 'learning_rate': 2.239359456555112e-05, 'epoch': 55.21} {'loss': 0.042, 'learning_rate': 2.2391195885784467e-05, 'epoch': 55.22} {'loss': 0.043, 'learning_rate': 2.238879720601781e-05, 'epoch': 55.22} {'loss': 0.0413, 'learning_rate': 2.2386398526251152e-05, 'epoch': 55.23} {'loss': 0.0391, 'learning_rate': 2.2383999846484495e-05, 'epoch': 55.23} {'loss': 0.0403, 'learning_rate': 2.2381601166717838e-05, 'epoch': 55.24} {'loss': 0.0407, 'learning_rate': 2.2379202486951184e-05, 'epoch': 55.24} {'loss': 0.0436, 'learning_rate': 2.2376803807184527e-05, 'epoch': 55.25} {'loss': 0.0421, 'learning_rate': 2.237440512741787e-05, 'epoch': 55.25} {'loss': 0.0453, 'learning_rate': 2.2372006447651215e-05, 'epoch': 55.26} {'loss': 0.0407, 'learning_rate': 2.2369607767884558e-05, 'epoch': 55.26} {'loss': 0.0408, 'learning_rate': 2.23672090881179e-05, 'epoch': 55.27} {'loss': 0.0425, 'learning_rate': 2.2364810408351244e-05, 'epoch': 55.27} {'loss': 0.0412, 'learning_rate': 2.2362411728584586e-05, 'epoch': 55.28} {'loss': 0.0421, 'learning_rate': 2.2360013048817932e-05, 'epoch': 55.28} {'loss': 0.0403, 'learning_rate': 2.2357614369051275e-05, 'epoch': 55.28} {'loss': 0.0416, 'learning_rate': 2.235521568928462e-05, 'epoch': 55.29} {'loss': 0.0418, 'learning_rate': 2.2352817009517964e-05, 'epoch': 55.29} {'loss': 0.0407, 'learning_rate': 2.2350418329751303e-05, 'epoch': 55.3} {'loss': 0.0426, 'learning_rate': 2.234801964998465e-05, 'epoch': 55.3} {'loss': 0.041, 'learning_rate': 2.2345620970217992e-05, 'epoch': 55.31} {'loss': 0.0424, 'learning_rate': 2.2343222290451338e-05, 'epoch': 55.31} {'loss': 0.0418, 'learning_rate': 2.234082361068468e-05, 'epoch': 55.32} {'loss': 0.0438, 'learning_rate': 2.2338424930918024e-05, 'epoch': 55.32} {'loss': 0.043, 'learning_rate': 2.233602625115137e-05, 'epoch': 55.33} {'loss': 0.0425, 'learning_rate': 2.233362757138471e-05, 'epoch': 55.33} {'loss': 0.042, 'learning_rate': 2.2331228891618055e-05, 'epoch': 55.34} {'loss': 0.0418, 'learning_rate': 2.2328830211851398e-05, 'epoch': 55.34} {'loss': 0.0423, 'learning_rate': 2.232643153208474e-05, 'epoch': 55.35} {'loss': 0.0416, 'learning_rate': 2.2324032852318086e-05, 'epoch': 55.35} {'loss': 0.0394, 'learning_rate': 2.232163417255143e-05, 'epoch': 55.36} {'loss': 0.0426, 'learning_rate': 2.2319235492784772e-05, 'epoch': 55.36} {'loss': 0.0401, 'learning_rate': 2.2316836813018115e-05, 'epoch': 55.37} {'loss': 0.0416, 'learning_rate': 2.2314438133251457e-05, 'epoch': 55.37} {'loss': 0.0416, 'learning_rate': 2.2312039453484803e-05, 'epoch': 55.38} {'loss': 0.0415, 'learning_rate': 2.2309640773718146e-05, 'epoch': 55.38} {'loss': 0.0406, 'learning_rate': 2.2307242093951492e-05, 'epoch': 55.39} {'loss': 0.0398, 'learning_rate': 2.2304843414184835e-05, 'epoch': 55.39} {'loss': 0.0418, 'learning_rate': 2.2302444734418178e-05, 'epoch': 55.4} {'loss': 0.0437, 'learning_rate': 2.230004605465152e-05, 'epoch': 55.4} {'loss': 0.0421, 'learning_rate': 2.2297647374884863e-05, 'epoch': 55.4} {'loss': 0.0408, 'learning_rate': 2.229524869511821e-05, 'epoch': 55.41} {'loss': 0.0422, 'learning_rate': 2.2292850015351552e-05, 'epoch': 55.41} {'loss': 0.0412, 'learning_rate': 2.2290451335584895e-05, 'epoch': 55.42} {'loss': 0.0414, 'learning_rate': 2.228805265581824e-05, 'epoch': 55.42} {'loss': 0.0409, 'learning_rate': 2.2285653976051583e-05, 'epoch': 55.43} {'loss': 0.0421, 'learning_rate': 2.2283255296284926e-05, 'epoch': 55.43} {'loss': 0.0429, 'learning_rate': 2.228085661651827e-05, 'epoch': 55.44} {'loss': 0.0416, 'learning_rate': 2.227845793675161e-05, 'epoch': 55.44} {'loss': 0.0424, 'learning_rate': 2.2276059256984958e-05, 'epoch': 55.45} {'loss': 0.0422, 'learning_rate': 2.22736605772183e-05, 'epoch': 55.45} {'loss': 0.0417, 'learning_rate': 2.2271261897451643e-05, 'epoch': 55.46} {'loss': 0.0407, 'learning_rate': 2.226886321768499e-05, 'epoch': 55.46} {'loss': 0.0425, 'learning_rate': 2.2266464537918332e-05, 'epoch': 55.47} {'loss': 0.0415, 'learning_rate': 2.2264065858151674e-05, 'epoch': 55.47} {'loss': 0.0422, 'learning_rate': 2.2261667178385017e-05, 'epoch': 55.48} {'loss': 0.0429, 'learning_rate': 2.225926849861836e-05, 'epoch': 55.48} {'loss': 0.0418, 'learning_rate': 2.2256869818851706e-05, 'epoch': 55.49} {'loss': 0.0403, 'learning_rate': 2.225447113908505e-05, 'epoch': 55.49} {'loss': 0.0426, 'learning_rate': 2.2252072459318395e-05, 'epoch': 55.5} {'loss': 0.0416, 'learning_rate': 2.2249673779551737e-05, 'epoch': 55.5} {'loss': 0.0411, 'learning_rate': 2.2247275099785077e-05, 'epoch': 55.51} {'loss': 0.0428, 'learning_rate': 2.2244876420018423e-05, 'epoch': 55.51} {'loss': 0.0429, 'learning_rate': 2.2242477740251766e-05, 'epoch': 55.52} {'loss': 0.0415, 'learning_rate': 2.224007906048511e-05, 'epoch': 55.52} {'loss': 0.0429, 'learning_rate': 2.2237680380718454e-05, 'epoch': 55.52} {'loss': 0.0406, 'learning_rate': 2.2235281700951797e-05, 'epoch': 55.53} {'loss': 0.0423, 'learning_rate': 2.223288302118514e-05, 'epoch': 55.53} {'loss': 0.044, 'learning_rate': 2.2230484341418482e-05, 'epoch': 55.54} {'loss': 0.0418, 'learning_rate': 2.222808566165183e-05, 'epoch': 55.54} {'loss': 0.0416, 'learning_rate': 2.222568698188517e-05, 'epoch': 55.55} {'loss': 0.0405, 'learning_rate': 2.2223288302118514e-05, 'epoch': 55.55} {'loss': 0.0415, 'learning_rate': 2.222088962235186e-05, 'epoch': 55.56} {'loss': 0.0425, 'learning_rate': 2.2218490942585203e-05, 'epoch': 55.56} {'loss': 0.0426, 'learning_rate': 2.2216092262818545e-05, 'epoch': 55.57} {'loss': 0.0426, 'learning_rate': 2.2213693583051888e-05, 'epoch': 55.57} {'loss': 0.0427, 'learning_rate': 2.221129490328523e-05, 'epoch': 55.58} {'loss': 0.0419, 'learning_rate': 2.2208896223518577e-05, 'epoch': 55.58} {'loss': 0.042, 'learning_rate': 2.220649754375192e-05, 'epoch': 55.59} {'loss': 0.0437, 'learning_rate': 2.2204098863985266e-05, 'epoch': 55.59} {'loss': 0.0422, 'learning_rate': 2.220170018421861e-05, 'epoch': 55.6} {'loss': 0.0411, 'learning_rate': 2.219930150445195e-05, 'epoch': 55.6} {'loss': 0.0414, 'learning_rate': 2.2196902824685294e-05, 'epoch': 55.61} {'loss': 0.0411, 'learning_rate': 2.2194504144918637e-05, 'epoch': 55.61} {'loss': 0.041, 'learning_rate': 2.2192105465151983e-05, 'epoch': 55.62} {'loss': 0.0437, 'learning_rate': 2.2189706785385325e-05, 'epoch': 55.62} {'loss': 0.0428, 'learning_rate': 2.2187308105618668e-05, 'epoch': 55.63} {'loss': 0.0411, 'learning_rate': 2.2184909425852014e-05, 'epoch': 55.63} {'loss': 0.0419, 'learning_rate': 2.2182510746085357e-05, 'epoch': 55.63} {'loss': 0.042, 'learning_rate': 2.21801120663187e-05, 'epoch': 55.64} {'loss': 0.0426, 'learning_rate': 2.2177713386552042e-05, 'epoch': 55.64} {'loss': 0.0441, 'learning_rate': 2.2175314706785385e-05, 'epoch': 55.65} {'loss': 0.043, 'learning_rate': 2.217291602701873e-05, 'epoch': 55.65} {'loss': 0.0416, 'learning_rate': 2.2170517347252074e-05, 'epoch': 55.66} {'loss': 0.0413, 'learning_rate': 2.2168118667485416e-05, 'epoch': 55.66} {'loss': 0.043, 'learning_rate': 2.2165719987718763e-05, 'epoch': 55.67} {'loss': 0.0417, 'learning_rate': 2.2163321307952102e-05, 'epoch': 55.67} {'loss': 0.0414, 'learning_rate': 2.2160922628185448e-05, 'epoch': 55.68} {'loss': 0.0417, 'learning_rate': 2.215852394841879e-05, 'epoch': 55.68} {'loss': 0.0413, 'learning_rate': 2.2156125268652133e-05, 'epoch': 55.69} {'loss': 0.0415, 'learning_rate': 2.215372658888548e-05, 'epoch': 55.69} {'loss': 0.0438, 'learning_rate': 2.2151327909118822e-05, 'epoch': 55.7} {'loss': 0.0427, 'learning_rate': 2.2148929229352168e-05, 'epoch': 55.7} {'loss': 0.0423, 'learning_rate': 2.2146530549585508e-05, 'epoch': 55.71} {'loss': 0.0426, 'learning_rate': 2.214413186981885e-05, 'epoch': 55.71} {'loss': 0.0409, 'learning_rate': 2.2141733190052196e-05, 'epoch': 55.72} {'loss': 0.0416, 'learning_rate': 2.213933451028554e-05, 'epoch': 55.72} {'loss': 0.0432, 'learning_rate': 2.2136935830518885e-05, 'epoch': 55.73} {'loss': 0.0413, 'learning_rate': 2.2134537150752228e-05, 'epoch': 55.73} {'loss': 0.0434, 'learning_rate': 2.213213847098557e-05, 'epoch': 55.74} {'loss': 0.0394, 'learning_rate': 2.2129739791218913e-05, 'epoch': 55.74} {'loss': 0.0408, 'learning_rate': 2.2127341111452256e-05, 'epoch': 55.75} {'loss': 0.0414, 'learning_rate': 2.2124942431685602e-05, 'epoch': 55.75} {'loss': 0.0418, 'learning_rate': 2.2122543751918945e-05, 'epoch': 55.75} {'loss': 0.043, 'learning_rate': 2.2120145072152287e-05, 'epoch': 55.76} {'loss': 0.0436, 'learning_rate': 2.2117746392385634e-05, 'epoch': 55.76} {'loss': 0.0427, 'learning_rate': 2.2115347712618976e-05, 'epoch': 55.77} {'loss': 0.0408, 'learning_rate': 2.211294903285232e-05, 'epoch': 55.77} {'loss': 0.0424, 'learning_rate': 2.211055035308566e-05, 'epoch': 55.78} {'loss': 0.0436, 'learning_rate': 2.2108151673319004e-05, 'epoch': 55.78} {'loss': 0.0433, 'learning_rate': 2.210575299355235e-05, 'epoch': 55.79} {'loss': 0.0422, 'learning_rate': 2.2103354313785693e-05, 'epoch': 55.79} {'loss': 0.0423, 'learning_rate': 2.210095563401904e-05, 'epoch': 55.8} {'loss': 0.0417, 'learning_rate': 2.2098556954252382e-05, 'epoch': 55.8} {'loss': 0.0413, 'learning_rate': 2.2096158274485725e-05, 'epoch': 55.81} {'loss': 0.0428, 'learning_rate': 2.2093759594719067e-05, 'epoch': 55.81} {'loss': 0.0421, 'learning_rate': 2.209136091495241e-05, 'epoch': 55.82} {'loss': 0.0418, 'learning_rate': 2.2088962235185756e-05, 'epoch': 55.82} {'loss': 0.0399, 'learning_rate': 2.20865635554191e-05, 'epoch': 55.83} {'loss': 0.0419, 'learning_rate': 2.208416487565244e-05, 'epoch': 55.83} {'loss': 0.0405, 'learning_rate': 2.2081766195885788e-05, 'epoch': 55.84} {'loss': 0.0422, 'learning_rate': 2.207936751611913e-05, 'epoch': 55.84} {'loss': 0.0408, 'learning_rate': 2.2076968836352473e-05, 'epoch': 55.85} {'loss': 0.0417, 'learning_rate': 2.2074570156585816e-05, 'epoch': 55.85} {'loss': 0.0398, 'learning_rate': 2.207217147681916e-05, 'epoch': 55.86} {'loss': 0.0406, 'learning_rate': 2.2069772797052505e-05, 'epoch': 55.86} {'loss': 0.0426, 'learning_rate': 2.2067374117285847e-05, 'epoch': 55.87} {'loss': 0.0432, 'learning_rate': 2.206497543751919e-05, 'epoch': 55.87} {'loss': 0.0429, 'learning_rate': 2.2062576757752536e-05, 'epoch': 55.87} {'loss': 0.0425, 'learning_rate': 2.2060178077985875e-05, 'epoch': 55.88} {'loss': 0.0414, 'learning_rate': 2.205777939821922e-05, 'epoch': 55.88} {'loss': 0.0419, 'learning_rate': 2.2055380718452564e-05, 'epoch': 55.89} {'loss': 0.0431, 'learning_rate': 2.2052982038685907e-05, 'epoch': 55.89} {'loss': 0.0427, 'learning_rate': 2.2050583358919253e-05, 'epoch': 55.9} {'loss': 0.0442, 'learning_rate': 2.2048184679152596e-05, 'epoch': 55.9} {'loss': 0.0412, 'learning_rate': 2.2045785999385942e-05, 'epoch': 55.91} {'loss': 0.0418, 'learning_rate': 2.204338731961928e-05, 'epoch': 55.91} {'loss': 0.0436, 'learning_rate': 2.2040988639852624e-05, 'epoch': 55.92} {'loss': 0.043, 'learning_rate': 2.203858996008597e-05, 'epoch': 55.92} {'loss': 0.0425, 'learning_rate': 2.2036191280319313e-05, 'epoch': 55.93} {'loss': 0.0413, 'learning_rate': 2.203379260055266e-05, 'epoch': 55.93} {'loss': 0.0419, 'learning_rate': 2.2031393920786e-05, 'epoch': 55.94} {'loss': 0.0408, 'learning_rate': 2.2028995241019344e-05, 'epoch': 55.94} {'loss': 0.0405, 'learning_rate': 2.2026596561252687e-05, 'epoch': 55.95} {'loss': 0.0402, 'learning_rate': 2.202419788148603e-05, 'epoch': 55.95} {'loss': 0.0427, 'learning_rate': 2.2021799201719376e-05, 'epoch': 55.96} {'loss': 0.042, 'learning_rate': 2.2019400521952718e-05, 'epoch': 55.96} {'loss': 0.043, 'learning_rate': 2.201700184218606e-05, 'epoch': 55.97} {'loss': 0.0433, 'learning_rate': 2.2014603162419407e-05, 'epoch': 55.97} {'loss': 0.0432, 'learning_rate': 2.201220448265275e-05, 'epoch': 55.98} {'loss': 0.042, 'learning_rate': 2.2009805802886092e-05, 'epoch': 55.98} {'loss': 0.0423, 'learning_rate': 2.2007407123119435e-05, 'epoch': 55.99} {'loss': 0.0411, 'learning_rate': 2.2005008443352778e-05, 'epoch': 55.99} {'loss': 0.0409, 'learning_rate': 2.2002609763586124e-05, 'epoch': 55.99} {'loss': 0.0418, 'learning_rate': 2.2000211083819467e-05, 'epoch': 56.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04103346914052963, 'eval_runtime': 754.8465, 'eval_samples_per_second': 552.291, 'eval_steps_per_second': 69.037, 'epoch': 56.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-5836544 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-5836544/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-5836544/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-5732320] due to args.save_total_limit {'loss': 0.0419, 'learning_rate': 2.1997812404052813e-05, 'epoch': 56.0} {'loss': 0.0412, 'learning_rate': 2.1995413724286155e-05, 'epoch': 56.01} {'loss': 0.0418, 'learning_rate': 2.1993015044519498e-05, 'epoch': 56.01} {'loss': 0.0425, 'learning_rate': 2.199061636475284e-05, 'epoch': 56.02} {'loss': 0.04, 'learning_rate': 2.1988217684986184e-05, 'epoch': 56.02} {'loss': 0.0418, 'learning_rate': 2.198581900521953e-05, 'epoch': 56.03} {'loss': 0.0414, 'learning_rate': 2.1983420325452872e-05, 'epoch': 56.03} {'loss': 0.043, 'learning_rate': 2.1981021645686215e-05, 'epoch': 56.04} {'loss': 0.0409, 'learning_rate': 2.197862296591956e-05, 'epoch': 56.04} {'loss': 0.0403, 'learning_rate': 2.1976224286152904e-05, 'epoch': 56.05} {'loss': 0.042, 'learning_rate': 2.1973825606386247e-05, 'epoch': 56.05} {'loss': 0.0404, 'learning_rate': 2.197142692661959e-05, 'epoch': 56.06} {'loss': 0.0427, 'learning_rate': 2.1969028246852932e-05, 'epoch': 56.06} {'loss': 0.0422, 'learning_rate': 2.1966629567086278e-05, 'epoch': 56.07} {'loss': 0.0412, 'learning_rate': 2.196423088731962e-05, 'epoch': 56.07} {'loss': 0.0395, 'learning_rate': 2.1961832207552963e-05, 'epoch': 56.08} {'loss': 0.0383, 'learning_rate': 2.1959433527786306e-05, 'epoch': 56.08} {'loss': 0.0416, 'learning_rate': 2.195703484801965e-05, 'epoch': 56.09} {'loss': 0.0422, 'learning_rate': 2.1954636168252995e-05, 'epoch': 56.09} {'loss': 0.0413, 'learning_rate': 2.1952237488486338e-05, 'epoch': 56.1} {'loss': 0.0398, 'learning_rate': 2.194983880871968e-05, 'epoch': 56.1} {'loss': 0.0411, 'learning_rate': 2.1947440128953026e-05, 'epoch': 56.11} {'loss': 0.0402, 'learning_rate': 2.194504144918637e-05, 'epoch': 56.11} {'loss': 0.0417, 'learning_rate': 2.1942642769419712e-05, 'epoch': 56.11} {'loss': 0.0416, 'learning_rate': 2.1940244089653055e-05, 'epoch': 56.12} {'loss': 0.0413, 'learning_rate': 2.1937845409886397e-05, 'epoch': 56.12} {'loss': 0.0422, 'learning_rate': 2.1935446730119743e-05, 'epoch': 56.13} {'loss': 0.0416, 'learning_rate': 2.1933048050353086e-05, 'epoch': 56.13} {'loss': 0.0412, 'learning_rate': 2.1930649370586432e-05, 'epoch': 56.14} {'loss': 0.0407, 'learning_rate': 2.1928250690819775e-05, 'epoch': 56.14} {'loss': 0.0415, 'learning_rate': 2.1925852011053118e-05, 'epoch': 56.15} {'loss': 0.0421, 'learning_rate': 2.192345333128646e-05, 'epoch': 56.15} {'loss': 0.0391, 'learning_rate': 2.1921054651519803e-05, 'epoch': 56.16} {'loss': 0.0393, 'learning_rate': 2.191865597175315e-05, 'epoch': 56.16} {'loss': 0.0425, 'learning_rate': 2.1916257291986492e-05, 'epoch': 56.17} {'loss': 0.041, 'learning_rate': 2.1913858612219834e-05, 'epoch': 56.17} {'loss': 0.0399, 'learning_rate': 2.191145993245318e-05, 'epoch': 56.18} {'loss': 0.0418, 'learning_rate': 2.1909061252686523e-05, 'epoch': 56.18} {'loss': 0.0421, 'learning_rate': 2.1906662572919866e-05, 'epoch': 56.19} {'loss': 0.0418, 'learning_rate': 2.190426389315321e-05, 'epoch': 56.19} {'loss': 0.0387, 'learning_rate': 2.190186521338655e-05, 'epoch': 56.2} {'loss': 0.0435, 'learning_rate': 2.1899466533619897e-05, 'epoch': 56.2} {'loss': 0.0418, 'learning_rate': 2.189706785385324e-05, 'epoch': 56.21} {'loss': 0.04, 'learning_rate': 2.1894669174086586e-05, 'epoch': 56.21} {'loss': 0.0402, 'learning_rate': 2.189227049431993e-05, 'epoch': 56.22} {'loss': 0.0417, 'learning_rate': 2.188987181455327e-05, 'epoch': 56.22} {'loss': 0.0421, 'learning_rate': 2.1887473134786614e-05, 'epoch': 56.23} {'loss': 0.042, 'learning_rate': 2.1885074455019957e-05, 'epoch': 56.23} {'loss': 0.0398, 'learning_rate': 2.1882675775253303e-05, 'epoch': 56.23} {'loss': 0.0444, 'learning_rate': 2.1880277095486646e-05, 'epoch': 56.24} {'loss': 0.0399, 'learning_rate': 2.187787841571999e-05, 'epoch': 56.24} {'loss': 0.0404, 'learning_rate': 2.1875479735953335e-05, 'epoch': 56.25} {'loss': 0.0387, 'learning_rate': 2.1873081056186674e-05, 'epoch': 56.25} {'loss': 0.0414, 'learning_rate': 2.187068237642002e-05, 'epoch': 56.26} {'loss': 0.0412, 'learning_rate': 2.1868283696653363e-05, 'epoch': 56.26} {'loss': 0.0427, 'learning_rate': 2.1865885016886705e-05, 'epoch': 56.27} {'loss': 0.0422, 'learning_rate': 2.186348633712005e-05, 'epoch': 56.27} {'loss': 0.0416, 'learning_rate': 2.1861087657353394e-05, 'epoch': 56.28} {'loss': 0.0416, 'learning_rate': 2.1858688977586737e-05, 'epoch': 56.28} {'loss': 0.0403, 'learning_rate': 2.185629029782008e-05, 'epoch': 56.29} {'loss': 0.0422, 'learning_rate': 2.1853891618053422e-05, 'epoch': 56.29} {'loss': 0.042, 'learning_rate': 2.185149293828677e-05, 'epoch': 56.3} {'loss': 0.0395, 'learning_rate': 2.184909425852011e-05, 'epoch': 56.3} {'loss': 0.0421, 'learning_rate': 2.1846695578753454e-05, 'epoch': 56.31} {'loss': 0.0418, 'learning_rate': 2.18442968989868e-05, 'epoch': 56.31} {'loss': 0.0416, 'learning_rate': 2.1841898219220143e-05, 'epoch': 56.32} {'loss': 0.0404, 'learning_rate': 2.1839499539453485e-05, 'epoch': 56.32} {'loss': 0.041, 'learning_rate': 2.1837100859686828e-05, 'epoch': 56.33} {'loss': 0.0396, 'learning_rate': 2.183470217992017e-05, 'epoch': 56.33} {'loss': 0.0387, 'learning_rate': 2.1832303500153517e-05, 'epoch': 56.34} {'loss': 0.0426, 'learning_rate': 2.182990482038686e-05, 'epoch': 56.34} {'loss': 0.0419, 'learning_rate': 2.1827506140620206e-05, 'epoch': 56.34} {'loss': 0.0437, 'learning_rate': 2.182510746085355e-05, 'epoch': 56.35} {'loss': 0.0431, 'learning_rate': 2.182270878108689e-05, 'epoch': 56.35} {'loss': 0.0414, 'learning_rate': 2.1820310101320234e-05, 'epoch': 56.36} {'loss': 0.0394, 'learning_rate': 2.1817911421553576e-05, 'epoch': 56.36} {'loss': 0.0405, 'learning_rate': 2.1815512741786923e-05, 'epoch': 56.37} {'loss': 0.042, 'learning_rate': 2.1813114062020265e-05, 'epoch': 56.37} {'loss': 0.0412, 'learning_rate': 2.1810715382253608e-05, 'epoch': 56.38} {'loss': 0.0426, 'learning_rate': 2.1808316702486954e-05, 'epoch': 56.38} {'loss': 0.0428, 'learning_rate': 2.1805918022720297e-05, 'epoch': 56.39} {'loss': 0.0431, 'learning_rate': 2.180351934295364e-05, 'epoch': 56.39} {'loss': 0.0406, 'learning_rate': 2.1801120663186982e-05, 'epoch': 56.4} {'loss': 0.042, 'learning_rate': 2.1798721983420325e-05, 'epoch': 56.4} {'loss': 0.0414, 'learning_rate': 2.179632330365367e-05, 'epoch': 56.41} {'loss': 0.0436, 'learning_rate': 2.1793924623887014e-05, 'epoch': 56.41} {'loss': 0.0403, 'learning_rate': 2.179152594412036e-05, 'epoch': 56.42} {'loss': 0.0413, 'learning_rate': 2.1789127264353702e-05, 'epoch': 56.42} {'loss': 0.0408, 'learning_rate': 2.1786728584587042e-05, 'epoch': 56.43} {'loss': 0.0402, 'learning_rate': 2.1784329904820388e-05, 'epoch': 56.43} {'loss': 0.0415, 'learning_rate': 2.178193122505373e-05, 'epoch': 56.44} {'loss': 0.0417, 'learning_rate': 2.1779532545287077e-05, 'epoch': 56.44} {'loss': 0.0396, 'learning_rate': 2.177713386552042e-05, 'epoch': 56.45} {'loss': 0.042, 'learning_rate': 2.1774735185753762e-05, 'epoch': 56.45} {'loss': 0.0407, 'learning_rate': 2.1772336505987108e-05, 'epoch': 56.46} {'loss': 0.04, 'learning_rate': 2.1769937826220447e-05, 'epoch': 56.46} {'loss': 0.0427, 'learning_rate': 2.1767539146453794e-05, 'epoch': 56.46} {'loss': 0.0401, 'learning_rate': 2.1765140466687136e-05, 'epoch': 56.47} {'loss': 0.04, 'learning_rate': 2.176274178692048e-05, 'epoch': 56.47} {'loss': 0.0396, 'learning_rate': 2.1760343107153825e-05, 'epoch': 56.48} {'loss': 0.0429, 'learning_rate': 2.1757944427387168e-05, 'epoch': 56.48} {'loss': 0.0409, 'learning_rate': 2.175554574762051e-05, 'epoch': 56.49} {'loss': 0.0397, 'learning_rate': 2.1753147067853853e-05, 'epoch': 56.49} {'loss': 0.0403, 'learning_rate': 2.1750748388087196e-05, 'epoch': 56.5} {'loss': 0.0413, 'learning_rate': 2.1748349708320542e-05, 'epoch': 56.5} {'loss': 0.041, 'learning_rate': 2.1745951028553885e-05, 'epoch': 56.51} {'loss': 0.0423, 'learning_rate': 2.1743552348787227e-05, 'epoch': 56.51} {'loss': 0.0427, 'learning_rate': 2.1741153669020573e-05, 'epoch': 56.52} {'loss': 0.0398, 'learning_rate': 2.1738754989253916e-05, 'epoch': 56.52} {'loss': 0.0406, 'learning_rate': 2.173635630948726e-05, 'epoch': 56.53} {'loss': 0.041, 'learning_rate': 2.17339576297206e-05, 'epoch': 56.53} {'loss': 0.0421, 'learning_rate': 2.1731558949953944e-05, 'epoch': 56.54} {'loss': 0.0421, 'learning_rate': 2.172916027018729e-05, 'epoch': 56.54} {'loss': 0.0415, 'learning_rate': 2.1726761590420633e-05, 'epoch': 56.55} {'loss': 0.0431, 'learning_rate': 2.172436291065398e-05, 'epoch': 56.55} {'loss': 0.0403, 'learning_rate': 2.1721964230887322e-05, 'epoch': 56.56} {'loss': 0.0414, 'learning_rate': 2.1719565551120665e-05, 'epoch': 56.56} {'loss': 0.0442, 'learning_rate': 2.1717166871354007e-05, 'epoch': 56.57} {'loss': 0.0389, 'learning_rate': 2.171476819158735e-05, 'epoch': 56.57} {'loss': 0.0416, 'learning_rate': 2.1712369511820696e-05, 'epoch': 56.58} {'loss': 0.0413, 'learning_rate': 2.170997083205404e-05, 'epoch': 56.58} {'loss': 0.0431, 'learning_rate': 2.170757215228738e-05, 'epoch': 56.58} {'loss': 0.0418, 'learning_rate': 2.1705173472520728e-05, 'epoch': 56.59} {'loss': 0.0413, 'learning_rate': 2.170277479275407e-05, 'epoch': 56.59} {'loss': 0.0399, 'learning_rate': 2.1700376112987413e-05, 'epoch': 56.6} {'loss': 0.0398, 'learning_rate': 2.1697977433220756e-05, 'epoch': 56.6} {'loss': 0.0423, 'learning_rate': 2.16955787534541e-05, 'epoch': 56.61} {'loss': 0.0396, 'learning_rate': 2.1693180073687444e-05, 'epoch': 56.61} {'loss': 0.04, 'learning_rate': 2.1690781393920787e-05, 'epoch': 56.62} {'loss': 0.0414, 'learning_rate': 2.1688382714154133e-05, 'epoch': 56.62} {'loss': 0.0408, 'learning_rate': 2.1685984034387476e-05, 'epoch': 56.63} {'loss': 0.0405, 'learning_rate': 2.1683585354620815e-05, 'epoch': 56.63} {'loss': 0.0408, 'learning_rate': 2.168118667485416e-05, 'epoch': 56.64} {'loss': 0.0415, 'learning_rate': 2.1678787995087504e-05, 'epoch': 56.64} {'loss': 0.0434, 'learning_rate': 2.167638931532085e-05, 'epoch': 56.65} {'loss': 0.0414, 'learning_rate': 2.1673990635554193e-05, 'epoch': 56.65} {'loss': 0.0411, 'learning_rate': 2.1671591955787536e-05, 'epoch': 56.66} {'loss': 0.0429, 'learning_rate': 2.1669193276020878e-05, 'epoch': 56.66} {'loss': 0.0398, 'learning_rate': 2.166679459625422e-05, 'epoch': 56.67} {'loss': 0.0425, 'learning_rate': 2.1664395916487567e-05, 'epoch': 56.67} {'loss': 0.0414, 'learning_rate': 2.166199723672091e-05, 'epoch': 56.68} {'loss': 0.041, 'learning_rate': 2.1659598556954252e-05, 'epoch': 56.68} {'loss': 0.0408, 'learning_rate': 2.16571998771876e-05, 'epoch': 56.69} {'loss': 0.0382, 'learning_rate': 2.165480119742094e-05, 'epoch': 56.69} {'loss': 0.0424, 'learning_rate': 2.1652402517654284e-05, 'epoch': 56.7} {'loss': 0.0421, 'learning_rate': 2.1650003837887627e-05, 'epoch': 56.7} {'loss': 0.0401, 'learning_rate': 2.164760515812097e-05, 'epoch': 56.7} {'loss': 0.0411, 'learning_rate': 2.1645206478354315e-05, 'epoch': 56.71} {'loss': 0.0408, 'learning_rate': 2.1642807798587658e-05, 'epoch': 56.71} {'loss': 0.0415, 'learning_rate': 2.1640409118821e-05, 'epoch': 56.72} {'loss': 0.043, 'learning_rate': 2.1638010439054347e-05, 'epoch': 56.72} {'loss': 0.0418, 'learning_rate': 2.163561175928769e-05, 'epoch': 56.73} {'loss': 0.0421, 'learning_rate': 2.1633213079521032e-05, 'epoch': 56.73} {'loss': 0.0409, 'learning_rate': 2.1630814399754375e-05, 'epoch': 56.74} {'loss': 0.0415, 'learning_rate': 2.1628415719987718e-05, 'epoch': 56.74} {'loss': 0.0407, 'learning_rate': 2.1626017040221064e-05, 'epoch': 56.75} {'loss': 0.0403, 'learning_rate': 2.1623618360454407e-05, 'epoch': 56.75} {'loss': 0.0408, 'learning_rate': 2.1621219680687753e-05, 'epoch': 56.76} {'loss': 0.042, 'learning_rate': 2.1618821000921095e-05, 'epoch': 56.76} {'loss': 0.0414, 'learning_rate': 2.1616422321154438e-05, 'epoch': 56.77} {'loss': 0.0426, 'learning_rate': 2.161402364138778e-05, 'epoch': 56.77} {'loss': 0.043, 'learning_rate': 2.1611624961621123e-05, 'epoch': 56.78} {'loss': 0.0416, 'learning_rate': 2.160922628185447e-05, 'epoch': 56.78} {'loss': 0.0411, 'learning_rate': 2.1606827602087812e-05, 'epoch': 56.79} {'loss': 0.0433, 'learning_rate': 2.1604428922321155e-05, 'epoch': 56.79} {'loss': 0.0404, 'learning_rate': 2.16020302425545e-05, 'epoch': 56.8} {'loss': 0.0423, 'learning_rate': 2.1599631562787844e-05, 'epoch': 56.8} {'loss': 0.0423, 'learning_rate': 2.1597232883021186e-05, 'epoch': 56.81} {'loss': 0.0398, 'learning_rate': 2.159483420325453e-05, 'epoch': 56.81} {'loss': 0.0391, 'learning_rate': 2.1592435523487872e-05, 'epoch': 56.82} {'loss': 0.0411, 'learning_rate': 2.1590036843721218e-05, 'epoch': 56.82} {'loss': 0.0406, 'learning_rate': 2.158763816395456e-05, 'epoch': 56.82} {'loss': 0.0393, 'learning_rate': 2.1585239484187907e-05, 'epoch': 56.83} {'loss': 0.042, 'learning_rate': 2.1582840804421246e-05, 'epoch': 56.83} {'loss': 0.041, 'learning_rate': 2.158044212465459e-05, 'epoch': 56.84} {'loss': 0.0422, 'learning_rate': 2.1578043444887935e-05, 'epoch': 56.84} {'loss': 0.0438, 'learning_rate': 2.1575644765121278e-05, 'epoch': 56.85} {'loss': 0.0411, 'learning_rate': 2.1573246085354624e-05, 'epoch': 56.85} {'loss': 0.042, 'learning_rate': 2.1570847405587966e-05, 'epoch': 56.86} {'loss': 0.0414, 'learning_rate': 2.156844872582131e-05, 'epoch': 56.86} {'loss': 0.0403, 'learning_rate': 2.1566050046054652e-05, 'epoch': 56.87} {'loss': 0.0384, 'learning_rate': 2.1563651366287994e-05, 'epoch': 56.87} {'loss': 0.0402, 'learning_rate': 2.156125268652134e-05, 'epoch': 56.88} {'loss': 0.0412, 'learning_rate': 2.1558854006754683e-05, 'epoch': 56.88} {'loss': 0.0403, 'learning_rate': 2.1556455326988026e-05, 'epoch': 56.89} {'loss': 0.041, 'learning_rate': 2.1554056647221372e-05, 'epoch': 56.89} {'loss': 0.0425, 'learning_rate': 2.1551657967454715e-05, 'epoch': 56.9} {'loss': 0.0402, 'learning_rate': 2.1549259287688057e-05, 'epoch': 56.9} {'loss': 0.0428, 'learning_rate': 2.15468606079214e-05, 'epoch': 56.91} {'loss': 0.0402, 'learning_rate': 2.1544461928154743e-05, 'epoch': 56.91} {'loss': 0.042, 'learning_rate': 2.154206324838809e-05, 'epoch': 56.92} {'loss': 0.0415, 'learning_rate': 2.153966456862143e-05, 'epoch': 56.92} {'loss': 0.0407, 'learning_rate': 2.1537265888854774e-05, 'epoch': 56.93} {'loss': 0.0413, 'learning_rate': 2.153486720908812e-05, 'epoch': 56.93} {'loss': 0.0386, 'learning_rate': 2.1532468529321463e-05, 'epoch': 56.94} {'loss': 0.0426, 'learning_rate': 2.1530069849554806e-05, 'epoch': 56.94} {'loss': 0.0427, 'learning_rate': 2.152767116978815e-05, 'epoch': 56.94} {'loss': 0.0423, 'learning_rate': 2.152527249002149e-05, 'epoch': 56.95} {'loss': 0.0416, 'learning_rate': 2.1522873810254837e-05, 'epoch': 56.95} {'loss': 0.0412, 'learning_rate': 2.152047513048818e-05, 'epoch': 56.96} {'loss': 0.0404, 'learning_rate': 2.1518076450721526e-05, 'epoch': 56.96} {'loss': 0.0419, 'learning_rate': 2.151567777095487e-05, 'epoch': 56.97} {'loss': 0.0419, 'learning_rate': 2.1513279091188208e-05, 'epoch': 56.97} {'loss': 0.0422, 'learning_rate': 2.1510880411421554e-05, 'epoch': 56.98} {'loss': 0.0419, 'learning_rate': 2.1508481731654897e-05, 'epoch': 56.98} {'loss': 0.0419, 'learning_rate': 2.1506083051888243e-05, 'epoch': 56.99} {'loss': 0.0397, 'learning_rate': 2.1503684372121586e-05, 'epoch': 56.99} {'loss': 0.0424, 'learning_rate': 2.150128569235493e-05, 'epoch': 57.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04049630090594292, 'eval_runtime': 746.0294, 'eval_samples_per_second': 558.818, 'eval_steps_per_second': 69.852, 'epoch': 57.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-5940768 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-5940768/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-5940768/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-5836544] due to args.save_total_limit {'loss': 0.0411, 'learning_rate': 2.1498887012588275e-05, 'epoch': 57.0} {'loss': 0.0416, 'learning_rate': 2.1496488332821614e-05, 'epoch': 57.01} {'loss': 0.0419, 'learning_rate': 2.149408965305496e-05, 'epoch': 57.01} {'loss': 0.0388, 'learning_rate': 2.1491690973288303e-05, 'epoch': 57.02} {'loss': 0.0392, 'learning_rate': 2.1489292293521645e-05, 'epoch': 57.02} {'loss': 0.0409, 'learning_rate': 2.148689361375499e-05, 'epoch': 57.03} {'loss': 0.0409, 'learning_rate': 2.1484494933988334e-05, 'epoch': 57.03} {'loss': 0.0407, 'learning_rate': 2.148209625422168e-05, 'epoch': 57.04} {'loss': 0.0406, 'learning_rate': 2.147969757445502e-05, 'epoch': 57.04} {'loss': 0.0416, 'learning_rate': 2.1477298894688362e-05, 'epoch': 57.05} {'loss': 0.0409, 'learning_rate': 2.147490021492171e-05, 'epoch': 57.05} {'loss': 0.041, 'learning_rate': 2.147250153515505e-05, 'epoch': 57.05} {'loss': 0.0415, 'learning_rate': 2.1470102855388397e-05, 'epoch': 57.06} {'loss': 0.0411, 'learning_rate': 2.146770417562174e-05, 'epoch': 57.06} {'loss': 0.042, 'learning_rate': 2.1465305495855083e-05, 'epoch': 57.07} {'loss': 0.0389, 'learning_rate': 2.1462906816088425e-05, 'epoch': 57.07} {'loss': 0.04, 'learning_rate': 2.1460508136321768e-05, 'epoch': 57.08} {'loss': 0.04, 'learning_rate': 2.1458109456555114e-05, 'epoch': 57.08} {'loss': 0.0428, 'learning_rate': 2.1455710776788457e-05, 'epoch': 57.09} {'loss': 0.043, 'learning_rate': 2.14533120970218e-05, 'epoch': 57.09} {'loss': 0.0412, 'learning_rate': 2.1450913417255146e-05, 'epoch': 57.1} {'loss': 0.0415, 'learning_rate': 2.1448514737488488e-05, 'epoch': 57.1} {'loss': 0.041, 'learning_rate': 2.144611605772183e-05, 'epoch': 57.11} {'loss': 0.0416, 'learning_rate': 2.1443717377955174e-05, 'epoch': 57.11} {'loss': 0.0422, 'learning_rate': 2.1441318698188516e-05, 'epoch': 57.12} {'loss': 0.0426, 'learning_rate': 2.1438920018421862e-05, 'epoch': 57.12} {'loss': 0.0406, 'learning_rate': 2.1436521338655205e-05, 'epoch': 57.13} {'loss': 0.0404, 'learning_rate': 2.1434122658888548e-05, 'epoch': 57.13} {'loss': 0.0403, 'learning_rate': 2.1431723979121894e-05, 'epoch': 57.14} {'loss': 0.0411, 'learning_rate': 2.1429325299355237e-05, 'epoch': 57.14} {'loss': 0.0416, 'learning_rate': 2.142692661958858e-05, 'epoch': 57.15} {'loss': 0.0414, 'learning_rate': 2.1424527939821922e-05, 'epoch': 57.15} {'loss': 0.041, 'learning_rate': 2.1422129260055265e-05, 'epoch': 57.16} {'loss': 0.0416, 'learning_rate': 2.141973058028861e-05, 'epoch': 57.16} {'loss': 0.0431, 'learning_rate': 2.1417331900521954e-05, 'epoch': 57.17} {'loss': 0.0407, 'learning_rate': 2.14149332207553e-05, 'epoch': 57.17} {'loss': 0.0406, 'learning_rate': 2.1412534540988642e-05, 'epoch': 57.17} {'loss': 0.0406, 'learning_rate': 2.141013586122198e-05, 'epoch': 57.18} {'loss': 0.0402, 'learning_rate': 2.1407737181455328e-05, 'epoch': 57.18} {'loss': 0.042, 'learning_rate': 2.140533850168867e-05, 'epoch': 57.19} {'loss': 0.0382, 'learning_rate': 2.1402939821922017e-05, 'epoch': 57.19} {'loss': 0.0419, 'learning_rate': 2.140054114215536e-05, 'epoch': 57.2} {'loss': 0.0427, 'learning_rate': 2.1398142462388702e-05, 'epoch': 57.2} {'loss': 0.0412, 'learning_rate': 2.1395743782622048e-05, 'epoch': 57.21} {'loss': 0.0414, 'learning_rate': 2.1393345102855387e-05, 'epoch': 57.21} {'loss': 0.0397, 'learning_rate': 2.1390946423088733e-05, 'epoch': 57.22} {'loss': 0.039, 'learning_rate': 2.1388547743322076e-05, 'epoch': 57.22} {'loss': 0.0411, 'learning_rate': 2.138614906355542e-05, 'epoch': 57.23} {'loss': 0.0403, 'learning_rate': 2.1383750383788765e-05, 'epoch': 57.23} {'loss': 0.0408, 'learning_rate': 2.1381351704022108e-05, 'epoch': 57.24} {'loss': 0.041, 'learning_rate': 2.137895302425545e-05, 'epoch': 57.24} {'loss': 0.0393, 'learning_rate': 2.1376554344488793e-05, 'epoch': 57.25} {'loss': 0.0414, 'learning_rate': 2.1374155664722136e-05, 'epoch': 57.25} {'loss': 0.0411, 'learning_rate': 2.1371756984955482e-05, 'epoch': 57.26} {'loss': 0.0406, 'learning_rate': 2.1369358305188825e-05, 'epoch': 57.26} {'loss': 0.0406, 'learning_rate': 2.136695962542217e-05, 'epoch': 57.27} {'loss': 0.0389, 'learning_rate': 2.1364560945655513e-05, 'epoch': 57.27} {'loss': 0.0389, 'learning_rate': 2.1362162265888856e-05, 'epoch': 57.28} {'loss': 0.0417, 'learning_rate': 2.13597635861222e-05, 'epoch': 57.28} {'loss': 0.0412, 'learning_rate': 2.135736490635554e-05, 'epoch': 57.29} {'loss': 0.0423, 'learning_rate': 2.1354966226588888e-05, 'epoch': 57.29} {'loss': 0.0407, 'learning_rate': 2.135256754682223e-05, 'epoch': 57.29} {'loss': 0.0418, 'learning_rate': 2.1350168867055573e-05, 'epoch': 57.3} {'loss': 0.0429, 'learning_rate': 2.134777018728892e-05, 'epoch': 57.3} {'loss': 0.0403, 'learning_rate': 2.1345371507522262e-05, 'epoch': 57.31} {'loss': 0.039, 'learning_rate': 2.1342972827755604e-05, 'epoch': 57.31} {'loss': 0.0407, 'learning_rate': 2.1340574147988947e-05, 'epoch': 57.32} {'loss': 0.0406, 'learning_rate': 2.133817546822229e-05, 'epoch': 57.32} {'loss': 0.0405, 'learning_rate': 2.1335776788455636e-05, 'epoch': 57.33} {'loss': 0.0405, 'learning_rate': 2.133337810868898e-05, 'epoch': 57.33} {'loss': 0.0407, 'learning_rate': 2.133097942892232e-05, 'epoch': 57.34} {'loss': 0.0409, 'learning_rate': 2.1328580749155667e-05, 'epoch': 57.34} {'loss': 0.0414, 'learning_rate': 2.132618206938901e-05, 'epoch': 57.35} {'loss': 0.0438, 'learning_rate': 2.1323783389622353e-05, 'epoch': 57.35} {'loss': 0.042, 'learning_rate': 2.1321384709855696e-05, 'epoch': 57.36} {'loss': 0.0413, 'learning_rate': 2.1318986030089038e-05, 'epoch': 57.36} {'loss': 0.0423, 'learning_rate': 2.1316587350322384e-05, 'epoch': 57.37} {'loss': 0.0414, 'learning_rate': 2.1314188670555727e-05, 'epoch': 57.37} {'loss': 0.0399, 'learning_rate': 2.1311789990789073e-05, 'epoch': 57.38} {'loss': 0.0421, 'learning_rate': 2.1309391311022412e-05, 'epoch': 57.38} {'loss': 0.0413, 'learning_rate': 2.1306992631255755e-05, 'epoch': 57.39} {'loss': 0.0434, 'learning_rate': 2.13045939514891e-05, 'epoch': 57.39} {'loss': 0.0418, 'learning_rate': 2.1302195271722444e-05, 'epoch': 57.4} {'loss': 0.0417, 'learning_rate': 2.129979659195579e-05, 'epoch': 57.4} {'loss': 0.041, 'learning_rate': 2.1297397912189133e-05, 'epoch': 57.41} {'loss': 0.0421, 'learning_rate': 2.1294999232422475e-05, 'epoch': 57.41} {'loss': 0.0416, 'learning_rate': 2.1292600552655818e-05, 'epoch': 57.41} {'loss': 0.0396, 'learning_rate': 2.129020187288916e-05, 'epoch': 57.42} {'loss': 0.0426, 'learning_rate': 2.1287803193122507e-05, 'epoch': 57.42} {'loss': 0.0406, 'learning_rate': 2.128540451335585e-05, 'epoch': 57.43} {'loss': 0.043, 'learning_rate': 2.1283005833589192e-05, 'epoch': 57.43} {'loss': 0.0406, 'learning_rate': 2.128060715382254e-05, 'epoch': 57.44} {'loss': 0.0395, 'learning_rate': 2.127820847405588e-05, 'epoch': 57.44} {'loss': 0.0433, 'learning_rate': 2.1275809794289224e-05, 'epoch': 57.45} {'loss': 0.0386, 'learning_rate': 2.1273411114522567e-05, 'epoch': 57.45} {'loss': 0.0406, 'learning_rate': 2.127101243475591e-05, 'epoch': 57.46} {'loss': 0.0399, 'learning_rate': 2.1268613754989255e-05, 'epoch': 57.46} {'loss': 0.0416, 'learning_rate': 2.1266215075222598e-05, 'epoch': 57.47} {'loss': 0.0392, 'learning_rate': 2.1263816395455944e-05, 'epoch': 57.47} {'loss': 0.043, 'learning_rate': 2.1261417715689287e-05, 'epoch': 57.48} {'loss': 0.0405, 'learning_rate': 2.125901903592263e-05, 'epoch': 57.48} {'loss': 0.0406, 'learning_rate': 2.1256620356155972e-05, 'epoch': 57.49} {'loss': 0.0411, 'learning_rate': 2.1254221676389315e-05, 'epoch': 57.49} {'loss': 0.0403, 'learning_rate': 2.125182299662266e-05, 'epoch': 57.5} {'loss': 0.0388, 'learning_rate': 2.1249424316856004e-05, 'epoch': 57.5} {'loss': 0.0437, 'learning_rate': 2.1247025637089346e-05, 'epoch': 57.51} {'loss': 0.0407, 'learning_rate': 2.1244626957322693e-05, 'epoch': 57.51} {'loss': 0.0415, 'learning_rate': 2.1242228277556035e-05, 'epoch': 57.52} {'loss': 0.0414, 'learning_rate': 2.1239829597789378e-05, 'epoch': 57.52} {'loss': 0.0408, 'learning_rate': 2.123743091802272e-05, 'epoch': 57.53} {'loss': 0.0422, 'learning_rate': 2.1235032238256063e-05, 'epoch': 57.53} {'loss': 0.0406, 'learning_rate': 2.123263355848941e-05, 'epoch': 57.53} {'loss': 0.042, 'learning_rate': 2.1230234878722752e-05, 'epoch': 57.54} {'loss': 0.0414, 'learning_rate': 2.1227836198956095e-05, 'epoch': 57.54} {'loss': 0.0412, 'learning_rate': 2.122543751918944e-05, 'epoch': 57.55} {'loss': 0.0402, 'learning_rate': 2.122303883942278e-05, 'epoch': 57.55} {'loss': 0.0413, 'learning_rate': 2.1220640159656126e-05, 'epoch': 57.56} {'loss': 0.0397, 'learning_rate': 2.121824147988947e-05, 'epoch': 57.56} {'loss': 0.0416, 'learning_rate': 2.1215842800122812e-05, 'epoch': 57.57} {'loss': 0.0423, 'learning_rate': 2.1213444120356158e-05, 'epoch': 57.57} {'loss': 0.0413, 'learning_rate': 2.12110454405895e-05, 'epoch': 57.58} {'loss': 0.042, 'learning_rate': 2.1208646760822847e-05, 'epoch': 57.58} {'loss': 0.0427, 'learning_rate': 2.1206248081056186e-05, 'epoch': 57.59} {'loss': 0.0435, 'learning_rate': 2.120384940128953e-05, 'epoch': 57.59} {'loss': 0.0412, 'learning_rate': 2.1201450721522875e-05, 'epoch': 57.6} {'loss': 0.0387, 'learning_rate': 2.1199052041756217e-05, 'epoch': 57.6} {'loss': 0.0396, 'learning_rate': 2.1196653361989564e-05, 'epoch': 57.61} {'loss': 0.0414, 'learning_rate': 2.1194254682222906e-05, 'epoch': 57.61} {'loss': 0.0432, 'learning_rate': 2.119185600245625e-05, 'epoch': 57.62} {'loss': 0.0387, 'learning_rate': 2.118945732268959e-05, 'epoch': 57.62} {'loss': 0.0407, 'learning_rate': 2.1187058642922934e-05, 'epoch': 57.63} {'loss': 0.0414, 'learning_rate': 2.118465996315628e-05, 'epoch': 57.63} {'loss': 0.0407, 'learning_rate': 2.1182261283389623e-05, 'epoch': 57.64} {'loss': 0.041, 'learning_rate': 2.1179862603622966e-05, 'epoch': 57.64} {'loss': 0.0392, 'learning_rate': 2.1177463923856312e-05, 'epoch': 57.65} {'loss': 0.0438, 'learning_rate': 2.1175065244089655e-05, 'epoch': 57.65} {'loss': 0.0413, 'learning_rate': 2.1172666564322997e-05, 'epoch': 57.65} {'loss': 0.0409, 'learning_rate': 2.117026788455634e-05, 'epoch': 57.66} {'loss': 0.0412, 'learning_rate': 2.1167869204789683e-05, 'epoch': 57.66} {'loss': 0.0397, 'learning_rate': 2.116547052502303e-05, 'epoch': 57.67} {'loss': 0.0404, 'learning_rate': 2.116307184525637e-05, 'epoch': 57.67} {'loss': 0.0405, 'learning_rate': 2.1160673165489718e-05, 'epoch': 57.68} {'loss': 0.0395, 'learning_rate': 2.115827448572306e-05, 'epoch': 57.68} {'loss': 0.0399, 'learning_rate': 2.1155875805956403e-05, 'epoch': 57.69} {'loss': 0.0418, 'learning_rate': 2.1153477126189746e-05, 'epoch': 57.69} {'loss': 0.0378, 'learning_rate': 2.115107844642309e-05, 'epoch': 57.7} {'loss': 0.0419, 'learning_rate': 2.1148679766656435e-05, 'epoch': 57.7} {'loss': 0.0393, 'learning_rate': 2.1146281086889777e-05, 'epoch': 57.71} {'loss': 0.0395, 'learning_rate': 2.114388240712312e-05, 'epoch': 57.71} {'loss': 0.0414, 'learning_rate': 2.1141483727356466e-05, 'epoch': 57.72} {'loss': 0.0407, 'learning_rate': 2.113908504758981e-05, 'epoch': 57.72} {'loss': 0.0406, 'learning_rate': 2.113668636782315e-05, 'epoch': 57.73} {'loss': 0.0412, 'learning_rate': 2.1134287688056494e-05, 'epoch': 57.73} {'loss': 0.0388, 'learning_rate': 2.1131889008289837e-05, 'epoch': 57.74} {'loss': 0.042, 'learning_rate': 2.1129490328523183e-05, 'epoch': 57.74} {'loss': 0.0427, 'learning_rate': 2.1127091648756526e-05, 'epoch': 57.75} {'loss': 0.0395, 'learning_rate': 2.112469296898987e-05, 'epoch': 57.75} {'loss': 0.0419, 'learning_rate': 2.1122294289223214e-05, 'epoch': 57.76} {'loss': 0.0419, 'learning_rate': 2.1119895609456554e-05, 'epoch': 57.76} {'loss': 0.041, 'learning_rate': 2.11174969296899e-05, 'epoch': 57.77} {'loss': 0.0403, 'learning_rate': 2.1115098249923243e-05, 'epoch': 57.77} {'loss': 0.0427, 'learning_rate': 2.1112699570156585e-05, 'epoch': 57.77} {'loss': 0.0417, 'learning_rate': 2.111030089038993e-05, 'epoch': 57.78} {'loss': 0.04, 'learning_rate': 2.1107902210623274e-05, 'epoch': 57.78} {'loss': 0.0417, 'learning_rate': 2.1105503530856617e-05, 'epoch': 57.79} {'loss': 0.0434, 'learning_rate': 2.110310485108996e-05, 'epoch': 57.79} {'loss': 0.0391, 'learning_rate': 2.1100706171323302e-05, 'epoch': 57.8} {'loss': 0.0404, 'learning_rate': 2.1098307491556648e-05, 'epoch': 57.8} {'loss': 0.039, 'learning_rate': 2.109590881178999e-05, 'epoch': 57.81} {'loss': 0.04, 'learning_rate': 2.1093510132023337e-05, 'epoch': 57.81} {'loss': 0.0404, 'learning_rate': 2.109111145225668e-05, 'epoch': 57.82} {'loss': 0.0415, 'learning_rate': 2.1088712772490022e-05, 'epoch': 57.82} {'loss': 0.0407, 'learning_rate': 2.1086314092723365e-05, 'epoch': 57.83} {'loss': 0.0421, 'learning_rate': 2.1083915412956708e-05, 'epoch': 57.83} {'loss': 0.041, 'learning_rate': 2.1081516733190054e-05, 'epoch': 57.84} {'loss': 0.0407, 'learning_rate': 2.1079118053423397e-05, 'epoch': 57.84} {'loss': 0.043, 'learning_rate': 2.107671937365674e-05, 'epoch': 57.85} {'loss': 0.0387, 'learning_rate': 2.1074320693890085e-05, 'epoch': 57.85} {'loss': 0.0417, 'learning_rate': 2.1071922014123428e-05, 'epoch': 57.86} {'loss': 0.0389, 'learning_rate': 2.106952333435677e-05, 'epoch': 57.86} {'loss': 0.0416, 'learning_rate': 2.1067124654590114e-05, 'epoch': 57.87} {'loss': 0.0399, 'learning_rate': 2.1064725974823456e-05, 'epoch': 57.87} {'loss': 0.041, 'learning_rate': 2.1062327295056802e-05, 'epoch': 57.88} {'loss': 0.041, 'learning_rate': 2.1059928615290145e-05, 'epoch': 57.88} {'loss': 0.0396, 'learning_rate': 2.105752993552349e-05, 'epoch': 57.88} {'loss': 0.0399, 'learning_rate': 2.1055131255756834e-05, 'epoch': 57.89} {'loss': 0.0426, 'learning_rate': 2.1052732575990177e-05, 'epoch': 57.89} {'loss': 0.0394, 'learning_rate': 2.105033389622352e-05, 'epoch': 57.9} {'loss': 0.0413, 'learning_rate': 2.1047935216456862e-05, 'epoch': 57.9} {'loss': 0.0406, 'learning_rate': 2.1045536536690208e-05, 'epoch': 57.91} {'loss': 0.0405, 'learning_rate': 2.104313785692355e-05, 'epoch': 57.91} {'loss': 0.0391, 'learning_rate': 2.1040739177156893e-05, 'epoch': 57.92} {'loss': 0.042, 'learning_rate': 2.103834049739024e-05, 'epoch': 57.92} {'loss': 0.0427, 'learning_rate': 2.1035941817623582e-05, 'epoch': 57.93} {'loss': 0.0401, 'learning_rate': 2.1033543137856925e-05, 'epoch': 57.93} {'loss': 0.0407, 'learning_rate': 2.1031144458090268e-05, 'epoch': 57.94} {'loss': 0.0416, 'learning_rate': 2.102874577832361e-05, 'epoch': 57.94} {'loss': 0.0401, 'learning_rate': 2.1026347098556956e-05, 'epoch': 57.95} {'loss': 0.0398, 'learning_rate': 2.10239484187903e-05, 'epoch': 57.95} {'loss': 0.0416, 'learning_rate': 2.1021549739023645e-05, 'epoch': 57.96} {'loss': 0.0415, 'learning_rate': 2.1019151059256985e-05, 'epoch': 57.96} {'loss': 0.0415, 'learning_rate': 2.1016752379490327e-05, 'epoch': 57.97} {'loss': 0.0422, 'learning_rate': 2.1014353699723673e-05, 'epoch': 57.97} {'loss': 0.0404, 'learning_rate': 2.1011955019957016e-05, 'epoch': 57.98} {'loss': 0.0417, 'learning_rate': 2.100955634019036e-05, 'epoch': 57.98} {'loss': 0.0413, 'learning_rate': 2.1007157660423705e-05, 'epoch': 57.99} {'loss': 0.0399, 'learning_rate': 2.1004758980657048e-05, 'epoch': 57.99} {'loss': 0.0423, 'learning_rate': 2.100236030089039e-05, 'epoch': 58.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04023924842476845, 'eval_runtime': 799.4263, 'eval_samples_per_second': 521.493, 'eval_steps_per_second': 65.187, 'epoch': 58.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-6044992 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-6044992/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-6044992/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-5940768] due to args.save_total_limit {'loss': 0.0415, 'learning_rate': 2.0999961621123733e-05, 'epoch': 58.0} {'loss': 0.0411, 'learning_rate': 2.0997562941357076e-05, 'epoch': 58.0} {'loss': 0.04, 'learning_rate': 2.0995164261590422e-05, 'epoch': 58.01} {'loss': 0.0398, 'learning_rate': 2.0992765581823764e-05, 'epoch': 58.01} {'loss': 0.0408, 'learning_rate': 2.099036690205711e-05, 'epoch': 58.02} {'loss': 0.041, 'learning_rate': 2.0987968222290453e-05, 'epoch': 58.02} {'loss': 0.0396, 'learning_rate': 2.0985569542523796e-05, 'epoch': 58.03} {'loss': 0.0412, 'learning_rate': 2.098317086275714e-05, 'epoch': 58.03} {'loss': 0.0398, 'learning_rate': 2.098077218299048e-05, 'epoch': 58.04} {'loss': 0.0412, 'learning_rate': 2.0978373503223827e-05, 'epoch': 58.04} {'loss': 0.0403, 'learning_rate': 2.097597482345717e-05, 'epoch': 58.05} {'loss': 0.0395, 'learning_rate': 2.0973576143690513e-05, 'epoch': 58.05} {'loss': 0.0413, 'learning_rate': 2.097117746392386e-05, 'epoch': 58.06} {'loss': 0.0423, 'learning_rate': 2.09687787841572e-05, 'epoch': 58.06} {'loss': 0.0419, 'learning_rate': 2.0966380104390544e-05, 'epoch': 58.07} {'loss': 0.0401, 'learning_rate': 2.0963981424623887e-05, 'epoch': 58.07} {'loss': 0.0408, 'learning_rate': 2.096158274485723e-05, 'epoch': 58.08} {'loss': 0.0393, 'learning_rate': 2.0959184065090576e-05, 'epoch': 58.08} {'loss': 0.0394, 'learning_rate': 2.095678538532392e-05, 'epoch': 58.09} {'loss': 0.0402, 'learning_rate': 2.0954386705557265e-05, 'epoch': 58.09} {'loss': 0.0422, 'learning_rate': 2.0951988025790607e-05, 'epoch': 58.1} {'loss': 0.0421, 'learning_rate': 2.094958934602395e-05, 'epoch': 58.1} {'loss': 0.0403, 'learning_rate': 2.0947190666257293e-05, 'epoch': 58.11} {'loss': 0.0397, 'learning_rate': 2.0944791986490636e-05, 'epoch': 58.11} {'loss': 0.0407, 'learning_rate': 2.094239330672398e-05, 'epoch': 58.12} {'loss': 0.0406, 'learning_rate': 2.0939994626957324e-05, 'epoch': 58.12} {'loss': 0.04, 'learning_rate': 2.0937595947190667e-05, 'epoch': 58.12} {'loss': 0.04, 'learning_rate': 2.0935197267424013e-05, 'epoch': 58.13} {'loss': 0.0394, 'learning_rate': 2.0932798587657352e-05, 'epoch': 58.13} {'loss': 0.0428, 'learning_rate': 2.09303999078907e-05, 'epoch': 58.14} {'loss': 0.0401, 'learning_rate': 2.092800122812404e-05, 'epoch': 58.14} {'loss': 0.0401, 'learning_rate': 2.0925602548357384e-05, 'epoch': 58.15} {'loss': 0.0424, 'learning_rate': 2.092320386859073e-05, 'epoch': 58.15} {'loss': 0.0385, 'learning_rate': 2.0920805188824073e-05, 'epoch': 58.16} {'loss': 0.0391, 'learning_rate': 2.091840650905742e-05, 'epoch': 58.16} {'loss': 0.0411, 'learning_rate': 2.0916007829290758e-05, 'epoch': 58.17} {'loss': 0.0388, 'learning_rate': 2.09136091495241e-05, 'epoch': 58.17} {'loss': 0.0392, 'learning_rate': 2.0911210469757447e-05, 'epoch': 58.18} {'loss': 0.041, 'learning_rate': 2.090881178999079e-05, 'epoch': 58.18} {'loss': 0.0393, 'learning_rate': 2.0906413110224132e-05, 'epoch': 58.19} {'loss': 0.041, 'learning_rate': 2.090401443045748e-05, 'epoch': 58.19} {'loss': 0.0399, 'learning_rate': 2.090161575069082e-05, 'epoch': 58.2} {'loss': 0.0387, 'learning_rate': 2.0899217070924164e-05, 'epoch': 58.2} {'loss': 0.0404, 'learning_rate': 2.0896818391157507e-05, 'epoch': 58.21} {'loss': 0.0404, 'learning_rate': 2.089441971139085e-05, 'epoch': 58.21} {'loss': 0.039, 'learning_rate': 2.0892021031624195e-05, 'epoch': 58.22} {'loss': 0.0393, 'learning_rate': 2.0889622351857538e-05, 'epoch': 58.22} {'loss': 0.042, 'learning_rate': 2.0887223672090884e-05, 'epoch': 58.23} {'loss': 0.0406, 'learning_rate': 2.0884824992324227e-05, 'epoch': 58.23} {'loss': 0.0397, 'learning_rate': 2.088242631255757e-05, 'epoch': 58.24} {'loss': 0.0396, 'learning_rate': 2.0880027632790912e-05, 'epoch': 58.24} {'loss': 0.0392, 'learning_rate': 2.0877628953024255e-05, 'epoch': 58.24} {'loss': 0.0385, 'learning_rate': 2.08752302732576e-05, 'epoch': 58.25} {'loss': 0.038, 'learning_rate': 2.0872831593490944e-05, 'epoch': 58.25} {'loss': 0.0409, 'learning_rate': 2.0870432913724286e-05, 'epoch': 58.26} {'loss': 0.0414, 'learning_rate': 2.0868034233957632e-05, 'epoch': 58.26} {'loss': 0.0395, 'learning_rate': 2.0865635554190975e-05, 'epoch': 58.27} {'loss': 0.0425, 'learning_rate': 2.0863236874424318e-05, 'epoch': 58.27} {'loss': 0.04, 'learning_rate': 2.086083819465766e-05, 'epoch': 58.28} {'loss': 0.0408, 'learning_rate': 2.0858439514891003e-05, 'epoch': 58.28} {'loss': 0.0389, 'learning_rate': 2.085604083512435e-05, 'epoch': 58.29} {'loss': 0.04, 'learning_rate': 2.0853642155357692e-05, 'epoch': 58.29} {'loss': 0.0436, 'learning_rate': 2.0851243475591038e-05, 'epoch': 58.3} {'loss': 0.0405, 'learning_rate': 2.084884479582438e-05, 'epoch': 58.3} {'loss': 0.0407, 'learning_rate': 2.084644611605772e-05, 'epoch': 58.31} {'loss': 0.0385, 'learning_rate': 2.0844047436291066e-05, 'epoch': 58.31} {'loss': 0.0402, 'learning_rate': 2.084164875652441e-05, 'epoch': 58.32} {'loss': 0.0413, 'learning_rate': 2.0839250076757755e-05, 'epoch': 58.32} {'loss': 0.0401, 'learning_rate': 2.0836851396991098e-05, 'epoch': 58.33} {'loss': 0.0391, 'learning_rate': 2.083445271722444e-05, 'epoch': 58.33} {'loss': 0.0392, 'learning_rate': 2.0832054037457787e-05, 'epoch': 58.34} {'loss': 0.0391, 'learning_rate': 2.0829655357691126e-05, 'epoch': 58.34} {'loss': 0.0403, 'learning_rate': 2.0827256677924472e-05, 'epoch': 58.35} {'loss': 0.0423, 'learning_rate': 2.0824857998157815e-05, 'epoch': 58.35} {'loss': 0.0413, 'learning_rate': 2.0822459318391157e-05, 'epoch': 58.36} {'loss': 0.039, 'learning_rate': 2.0820060638624504e-05, 'epoch': 58.36} {'loss': 0.0399, 'learning_rate': 2.0817661958857846e-05, 'epoch': 58.36} {'loss': 0.0398, 'learning_rate': 2.081526327909119e-05, 'epoch': 58.37} {'loss': 0.0394, 'learning_rate': 2.081286459932453e-05, 'epoch': 58.37} {'loss': 0.0391, 'learning_rate': 2.0810465919557874e-05, 'epoch': 58.38} {'loss': 0.0416, 'learning_rate': 2.080806723979122e-05, 'epoch': 58.38} {'loss': 0.042, 'learning_rate': 2.0805668560024563e-05, 'epoch': 58.39} {'loss': 0.0381, 'learning_rate': 2.0803269880257906e-05, 'epoch': 58.39} {'loss': 0.0392, 'learning_rate': 2.0800871200491252e-05, 'epoch': 58.4} {'loss': 0.0422, 'learning_rate': 2.0798472520724595e-05, 'epoch': 58.4} {'loss': 0.0411, 'learning_rate': 2.0796073840957937e-05, 'epoch': 58.41} {'loss': 0.0397, 'learning_rate': 2.079367516119128e-05, 'epoch': 58.41} {'loss': 0.0404, 'learning_rate': 2.0791276481424623e-05, 'epoch': 58.42} {'loss': 0.0406, 'learning_rate': 2.078887780165797e-05, 'epoch': 58.42} {'loss': 0.0402, 'learning_rate': 2.078647912189131e-05, 'epoch': 58.43} {'loss': 0.0398, 'learning_rate': 2.0784080442124658e-05, 'epoch': 58.43} {'loss': 0.0413, 'learning_rate': 2.0781681762358e-05, 'epoch': 58.44} {'loss': 0.0388, 'learning_rate': 2.0779283082591343e-05, 'epoch': 58.44} {'loss': 0.0395, 'learning_rate': 2.0776884402824686e-05, 'epoch': 58.45} {'loss': 0.041, 'learning_rate': 2.077448572305803e-05, 'epoch': 58.45} {'loss': 0.0395, 'learning_rate': 2.0772087043291375e-05, 'epoch': 58.46} {'loss': 0.0394, 'learning_rate': 2.0769688363524717e-05, 'epoch': 58.46} {'loss': 0.0408, 'learning_rate': 2.076728968375806e-05, 'epoch': 58.47} {'loss': 0.0414, 'learning_rate': 2.0764891003991406e-05, 'epoch': 58.47} {'loss': 0.0398, 'learning_rate': 2.076249232422475e-05, 'epoch': 58.48} {'loss': 0.0413, 'learning_rate': 2.076009364445809e-05, 'epoch': 58.48} {'loss': 0.0441, 'learning_rate': 2.0757694964691434e-05, 'epoch': 58.48} {'loss': 0.0415, 'learning_rate': 2.0755296284924777e-05, 'epoch': 58.49} {'loss': 0.0424, 'learning_rate': 2.0752897605158123e-05, 'epoch': 58.49} {'loss': 0.0403, 'learning_rate': 2.0750498925391466e-05, 'epoch': 58.5} {'loss': 0.0389, 'learning_rate': 2.0748100245624812e-05, 'epoch': 58.5} {'loss': 0.0381, 'learning_rate': 2.0745701565858154e-05, 'epoch': 58.51} {'loss': 0.0423, 'learning_rate': 2.0743302886091494e-05, 'epoch': 58.51} {'loss': 0.0394, 'learning_rate': 2.074090420632484e-05, 'epoch': 58.52} {'loss': 0.0412, 'learning_rate': 2.0738505526558183e-05, 'epoch': 58.52} {'loss': 0.0412, 'learning_rate': 2.073610684679153e-05, 'epoch': 58.53} {'loss': 0.0409, 'learning_rate': 2.073370816702487e-05, 'epoch': 58.53} {'loss': 0.0429, 'learning_rate': 2.0731309487258214e-05, 'epoch': 58.54} {'loss': 0.0403, 'learning_rate': 2.0728910807491557e-05, 'epoch': 58.54} {'loss': 0.0414, 'learning_rate': 2.07265121277249e-05, 'epoch': 58.55} {'loss': 0.0398, 'learning_rate': 2.0724113447958246e-05, 'epoch': 58.55} {'loss': 0.0409, 'learning_rate': 2.0721714768191588e-05, 'epoch': 58.56} {'loss': 0.0385, 'learning_rate': 2.071931608842493e-05, 'epoch': 58.56} {'loss': 0.0408, 'learning_rate': 2.0716917408658277e-05, 'epoch': 58.57} {'loss': 0.0426, 'learning_rate': 2.071451872889162e-05, 'epoch': 58.57} {'loss': 0.0402, 'learning_rate': 2.0712120049124962e-05, 'epoch': 58.58} {'loss': 0.0397, 'learning_rate': 2.0709721369358305e-05, 'epoch': 58.58} {'loss': 0.0431, 'learning_rate': 2.0707322689591648e-05, 'epoch': 58.59} {'loss': 0.0408, 'learning_rate': 2.0704924009824994e-05, 'epoch': 58.59} {'loss': 0.0394, 'learning_rate': 2.0702525330058337e-05, 'epoch': 58.59} {'loss': 0.0427, 'learning_rate': 2.070012665029168e-05, 'epoch': 58.6} {'loss': 0.04, 'learning_rate': 2.0697727970525025e-05, 'epoch': 58.6} {'loss': 0.041, 'learning_rate': 2.0695329290758368e-05, 'epoch': 58.61} {'loss': 0.0399, 'learning_rate': 2.069293061099171e-05, 'epoch': 58.61} {'loss': 0.041, 'learning_rate': 2.0690531931225054e-05, 'epoch': 58.62} {'loss': 0.04, 'learning_rate': 2.0688133251458396e-05, 'epoch': 58.62} {'loss': 0.0406, 'learning_rate': 2.0685734571691742e-05, 'epoch': 58.63} {'loss': 0.0425, 'learning_rate': 2.0683335891925085e-05, 'epoch': 58.63} {'loss': 0.0408, 'learning_rate': 2.068093721215843e-05, 'epoch': 58.64} {'loss': 0.0412, 'learning_rate': 2.0678538532391774e-05, 'epoch': 58.64} {'loss': 0.0398, 'learning_rate': 2.0676139852625117e-05, 'epoch': 58.65} {'loss': 0.0397, 'learning_rate': 2.067374117285846e-05, 'epoch': 58.65} {'loss': 0.0407, 'learning_rate': 2.0671342493091802e-05, 'epoch': 58.66} {'loss': 0.0367, 'learning_rate': 2.0668943813325148e-05, 'epoch': 58.66} {'loss': 0.0383, 'learning_rate': 2.066654513355849e-05, 'epoch': 58.67} {'loss': 0.04, 'learning_rate': 2.0664146453791833e-05, 'epoch': 58.67} {'loss': 0.041, 'learning_rate': 2.066174777402518e-05, 'epoch': 58.68} {'loss': 0.0404, 'learning_rate': 2.065934909425852e-05, 'epoch': 58.68} {'loss': 0.0396, 'learning_rate': 2.0656950414491865e-05, 'epoch': 58.69} {'loss': 0.0386, 'learning_rate': 2.0654551734725208e-05, 'epoch': 58.69} {'loss': 0.0404, 'learning_rate': 2.065215305495855e-05, 'epoch': 58.7} {'loss': 0.0406, 'learning_rate': 2.0649754375191896e-05, 'epoch': 58.7} {'loss': 0.0392, 'learning_rate': 2.064735569542524e-05, 'epoch': 58.71} {'loss': 0.0371, 'learning_rate': 2.0644957015658585e-05, 'epoch': 58.71} {'loss': 0.0398, 'learning_rate': 2.0642558335891925e-05, 'epoch': 58.71} {'loss': 0.0425, 'learning_rate': 2.0640159656125267e-05, 'epoch': 58.72} {'loss': 0.0403, 'learning_rate': 2.0637760976358613e-05, 'epoch': 58.72} {'loss': 0.0426, 'learning_rate': 2.0635362296591956e-05, 'epoch': 58.73} {'loss': 0.0387, 'learning_rate': 2.0632963616825302e-05, 'epoch': 58.73} {'loss': 0.0423, 'learning_rate': 2.0630564937058645e-05, 'epoch': 58.74} {'loss': 0.0406, 'learning_rate': 2.0628166257291988e-05, 'epoch': 58.74} {'loss': 0.0417, 'learning_rate': 2.062576757752533e-05, 'epoch': 58.75} {'loss': 0.0404, 'learning_rate': 2.0623368897758673e-05, 'epoch': 58.75} {'loss': 0.0395, 'learning_rate': 2.062097021799202e-05, 'epoch': 58.76} {'loss': 0.0404, 'learning_rate': 2.0618571538225362e-05, 'epoch': 58.76} {'loss': 0.0422, 'learning_rate': 2.0616172858458704e-05, 'epoch': 58.77} {'loss': 0.0408, 'learning_rate': 2.061377417869205e-05, 'epoch': 58.77} {'loss': 0.0418, 'learning_rate': 2.0611375498925393e-05, 'epoch': 58.78} {'loss': 0.0382, 'learning_rate': 2.0608976819158736e-05, 'epoch': 58.78} {'loss': 0.0426, 'learning_rate': 2.060657813939208e-05, 'epoch': 58.79} {'loss': 0.0381, 'learning_rate': 2.060417945962542e-05, 'epoch': 58.79} {'loss': 0.0412, 'learning_rate': 2.0601780779858767e-05, 'epoch': 58.8} {'loss': 0.0419, 'learning_rate': 2.059938210009211e-05, 'epoch': 58.8} {'loss': 0.041, 'learning_rate': 2.0596983420325453e-05, 'epoch': 58.81} {'loss': 0.0383, 'learning_rate': 2.05945847405588e-05, 'epoch': 58.81} {'loss': 0.0412, 'learning_rate': 2.059218606079214e-05, 'epoch': 58.82} {'loss': 0.0402, 'learning_rate': 2.0589787381025484e-05, 'epoch': 58.82} {'loss': 0.0424, 'learning_rate': 2.0587388701258827e-05, 'epoch': 58.83} {'loss': 0.0428, 'learning_rate': 2.058499002149217e-05, 'epoch': 58.83} {'loss': 0.0414, 'learning_rate': 2.0582591341725516e-05, 'epoch': 58.83} {'loss': 0.0394, 'learning_rate': 2.058019266195886e-05, 'epoch': 58.84} {'loss': 0.0387, 'learning_rate': 2.0577793982192205e-05, 'epoch': 58.84} {'loss': 0.043, 'learning_rate': 2.0575395302425547e-05, 'epoch': 58.85} {'loss': 0.0391, 'learning_rate': 2.0572996622658887e-05, 'epoch': 58.85} {'loss': 0.0423, 'learning_rate': 2.0570597942892233e-05, 'epoch': 58.86} {'loss': 0.0414, 'learning_rate': 2.0568199263125575e-05, 'epoch': 58.86} {'loss': 0.0393, 'learning_rate': 2.056580058335892e-05, 'epoch': 58.87} {'loss': 0.0389, 'learning_rate': 2.0563401903592264e-05, 'epoch': 58.87} {'loss': 0.04, 'learning_rate': 2.0561003223825607e-05, 'epoch': 58.88} {'loss': 0.0398, 'learning_rate': 2.0558604544058953e-05, 'epoch': 58.88} {'loss': 0.041, 'learning_rate': 2.0556205864292292e-05, 'epoch': 58.89} {'loss': 0.04, 'learning_rate': 2.055380718452564e-05, 'epoch': 58.89} {'loss': 0.0405, 'learning_rate': 2.055140850475898e-05, 'epoch': 58.9} {'loss': 0.0393, 'learning_rate': 2.0549009824992324e-05, 'epoch': 58.9} {'loss': 0.0403, 'learning_rate': 2.054661114522567e-05, 'epoch': 58.91} {'loss': 0.041, 'learning_rate': 2.0544212465459013e-05, 'epoch': 58.91} {'loss': 0.0417, 'learning_rate': 2.054181378569236e-05, 'epoch': 58.92} {'loss': 0.0408, 'learning_rate': 2.0539415105925698e-05, 'epoch': 58.92} {'loss': 0.0408, 'learning_rate': 2.053701642615904e-05, 'epoch': 58.93} {'loss': 0.0397, 'learning_rate': 2.0534617746392387e-05, 'epoch': 58.93} {'loss': 0.0419, 'learning_rate': 2.053221906662573e-05, 'epoch': 58.94} {'loss': 0.0408, 'learning_rate': 2.0529820386859076e-05, 'epoch': 58.94} {'loss': 0.0398, 'learning_rate': 2.052742170709242e-05, 'epoch': 58.95} {'loss': 0.0407, 'learning_rate': 2.052502302732576e-05, 'epoch': 58.95} {'loss': 0.0392, 'learning_rate': 2.0522624347559104e-05, 'epoch': 58.95} {'loss': 0.0422, 'learning_rate': 2.0520225667792446e-05, 'epoch': 58.96} {'loss': 0.0403, 'learning_rate': 2.0517826988025793e-05, 'epoch': 58.96} {'loss': 0.0404, 'learning_rate': 2.0515428308259135e-05, 'epoch': 58.97} {'loss': 0.0411, 'learning_rate': 2.0513029628492478e-05, 'epoch': 58.97} {'loss': 0.0411, 'learning_rate': 2.0510630948725824e-05, 'epoch': 58.98} {'loss': 0.0411, 'learning_rate': 2.0508232268959167e-05, 'epoch': 58.98} {'loss': 0.04, 'learning_rate': 2.050583358919251e-05, 'epoch': 58.99} {'loss': 0.0417, 'learning_rate': 2.0503434909425852e-05, 'epoch': 58.99} {'loss': 0.0417, 'learning_rate': 2.0501036229659195e-05, 'epoch': 59.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.039570294320583344, 'eval_runtime': 736.831, 'eval_samples_per_second': 565.795, 'eval_steps_per_second': 70.724, 'epoch': 59.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-6149216 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-6149216/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-6149216/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-6044992] due to args.save_total_limit {'loss': 0.0407, 'learning_rate': 2.049863754989254e-05, 'epoch': 59.0} {'loss': 0.0387, 'learning_rate': 2.0496238870125884e-05, 'epoch': 59.01} {'loss': 0.0428, 'learning_rate': 2.049384019035923e-05, 'epoch': 59.01} {'loss': 0.0395, 'learning_rate': 2.0491441510592572e-05, 'epoch': 59.02} {'loss': 0.0402, 'learning_rate': 2.0489042830825915e-05, 'epoch': 59.02} {'loss': 0.0401, 'learning_rate': 2.0486644151059258e-05, 'epoch': 59.03} {'loss': 0.0405, 'learning_rate': 2.04842454712926e-05, 'epoch': 59.03} {'loss': 0.0398, 'learning_rate': 2.0481846791525943e-05, 'epoch': 59.04} {'loss': 0.0412, 'learning_rate': 2.047944811175929e-05, 'epoch': 59.04} {'loss': 0.0394, 'learning_rate': 2.0477049431992632e-05, 'epoch': 59.05} {'loss': 0.0401, 'learning_rate': 2.0474650752225978e-05, 'epoch': 59.05} {'loss': 0.04, 'learning_rate': 2.047225207245932e-05, 'epoch': 59.06} {'loss': 0.0408, 'learning_rate': 2.046985339269266e-05, 'epoch': 59.06} {'loss': 0.039, 'learning_rate': 2.0467454712926006e-05, 'epoch': 59.07} {'loss': 0.0389, 'learning_rate': 2.046505603315935e-05, 'epoch': 59.07} {'loss': 0.0381, 'learning_rate': 2.0462657353392695e-05, 'epoch': 59.07} {'loss': 0.0401, 'learning_rate': 2.0460258673626038e-05, 'epoch': 59.08} {'loss': 0.039, 'learning_rate': 2.045785999385938e-05, 'epoch': 59.08} {'loss': 0.0402, 'learning_rate': 2.0455461314092723e-05, 'epoch': 59.09} {'loss': 0.0401, 'learning_rate': 2.0453062634326066e-05, 'epoch': 59.09} {'loss': 0.0382, 'learning_rate': 2.0450663954559412e-05, 'epoch': 59.1} {'loss': 0.0403, 'learning_rate': 2.0448265274792755e-05, 'epoch': 59.1} {'loss': 0.0397, 'learning_rate': 2.0445866595026097e-05, 'epoch': 59.11} {'loss': 0.0401, 'learning_rate': 2.0443467915259443e-05, 'epoch': 59.11} {'loss': 0.0392, 'learning_rate': 2.0441069235492786e-05, 'epoch': 59.12} {'loss': 0.0381, 'learning_rate': 2.043867055572613e-05, 'epoch': 59.12} {'loss': 0.0399, 'learning_rate': 2.043627187595947e-05, 'epoch': 59.13} {'loss': 0.0414, 'learning_rate': 2.0433873196192814e-05, 'epoch': 59.13} {'loss': 0.0372, 'learning_rate': 2.043147451642616e-05, 'epoch': 59.14} {'loss': 0.04, 'learning_rate': 2.0429075836659503e-05, 'epoch': 59.14} {'loss': 0.0409, 'learning_rate': 2.042667715689285e-05, 'epoch': 59.15} {'loss': 0.0403, 'learning_rate': 2.0424278477126192e-05, 'epoch': 59.15} {'loss': 0.0415, 'learning_rate': 2.0421879797359535e-05, 'epoch': 59.16} {'loss': 0.0403, 'learning_rate': 2.0419481117592877e-05, 'epoch': 59.16} {'loss': 0.0371, 'learning_rate': 2.041708243782622e-05, 'epoch': 59.17} {'loss': 0.041, 'learning_rate': 2.0414683758059566e-05, 'epoch': 59.17} {'loss': 0.0395, 'learning_rate': 2.041228507829291e-05, 'epoch': 59.18} {'loss': 0.0393, 'learning_rate': 2.040988639852625e-05, 'epoch': 59.18} {'loss': 0.0405, 'learning_rate': 2.0407487718759598e-05, 'epoch': 59.19} {'loss': 0.0399, 'learning_rate': 2.040508903899294e-05, 'epoch': 59.19} {'loss': 0.0385, 'learning_rate': 2.0402690359226283e-05, 'epoch': 59.19} {'loss': 0.0417, 'learning_rate': 2.0400291679459626e-05, 'epoch': 59.2} {'loss': 0.0391, 'learning_rate': 2.039789299969297e-05, 'epoch': 59.2} {'loss': 0.0388, 'learning_rate': 2.0395494319926314e-05, 'epoch': 59.21} {'loss': 0.0392, 'learning_rate': 2.0393095640159657e-05, 'epoch': 59.21} {'loss': 0.0409, 'learning_rate': 2.0390696960393003e-05, 'epoch': 59.22} {'loss': 0.0373, 'learning_rate': 2.0388298280626346e-05, 'epoch': 59.22} {'loss': 0.0402, 'learning_rate': 2.038589960085969e-05, 'epoch': 59.23} {'loss': 0.0399, 'learning_rate': 2.038350092109303e-05, 'epoch': 59.23} {'loss': 0.0403, 'learning_rate': 2.0381102241326374e-05, 'epoch': 59.24} {'loss': 0.0404, 'learning_rate': 2.0378703561559717e-05, 'epoch': 59.24} {'loss': 0.041, 'learning_rate': 2.0376304881793063e-05, 'epoch': 59.25} {'loss': 0.0403, 'learning_rate': 2.0373906202026406e-05, 'epoch': 59.25} {'loss': 0.0423, 'learning_rate': 2.037150752225975e-05, 'epoch': 59.26} {'loss': 0.0412, 'learning_rate': 2.036910884249309e-05, 'epoch': 59.26} {'loss': 0.0392, 'learning_rate': 2.0366710162726434e-05, 'epoch': 59.27} {'loss': 0.0424, 'learning_rate': 2.036431148295978e-05, 'epoch': 59.27} {'loss': 0.04, 'learning_rate': 2.0361912803193122e-05, 'epoch': 59.28} {'loss': 0.0392, 'learning_rate': 2.035951412342647e-05, 'epoch': 59.28} {'loss': 0.039, 'learning_rate': 2.035711544365981e-05, 'epoch': 59.29} {'loss': 0.04, 'learning_rate': 2.0354716763893154e-05, 'epoch': 59.29} {'loss': 0.0403, 'learning_rate': 2.0352318084126497e-05, 'epoch': 59.3} {'loss': 0.0402, 'learning_rate': 2.034991940435984e-05, 'epoch': 59.3} {'loss': 0.0408, 'learning_rate': 2.0347520724593185e-05, 'epoch': 59.3} {'loss': 0.0395, 'learning_rate': 2.0345122044826528e-05, 'epoch': 59.31} {'loss': 0.04, 'learning_rate': 2.034272336505987e-05, 'epoch': 59.31} {'loss': 0.039, 'learning_rate': 2.0340324685293217e-05, 'epoch': 59.32} {'loss': 0.0401, 'learning_rate': 2.033792600552656e-05, 'epoch': 59.32} {'loss': 0.0398, 'learning_rate': 2.0335527325759902e-05, 'epoch': 59.33} {'loss': 0.0386, 'learning_rate': 2.0333128645993245e-05, 'epoch': 59.33} {'loss': 0.0393, 'learning_rate': 2.0330729966226588e-05, 'epoch': 59.34} {'loss': 0.0403, 'learning_rate': 2.0328331286459934e-05, 'epoch': 59.34} {'loss': 0.0397, 'learning_rate': 2.0325932606693277e-05, 'epoch': 59.35} {'loss': 0.0407, 'learning_rate': 2.0323533926926623e-05, 'epoch': 59.35} {'loss': 0.0402, 'learning_rate': 2.0321135247159965e-05, 'epoch': 59.36} {'loss': 0.0388, 'learning_rate': 2.0318736567393308e-05, 'epoch': 59.36} {'loss': 0.0379, 'learning_rate': 2.031633788762665e-05, 'epoch': 59.37} {'loss': 0.0406, 'learning_rate': 2.0313939207859993e-05, 'epoch': 59.37} {'loss': 0.0394, 'learning_rate': 2.031154052809334e-05, 'epoch': 59.38} {'loss': 0.0384, 'learning_rate': 2.0309141848326682e-05, 'epoch': 59.38} {'loss': 0.0398, 'learning_rate': 2.0306743168560025e-05, 'epoch': 59.39} {'loss': 0.0407, 'learning_rate': 2.030434448879337e-05, 'epoch': 59.39} {'loss': 0.0401, 'learning_rate': 2.0301945809026714e-05, 'epoch': 59.4} {'loss': 0.0404, 'learning_rate': 2.0299547129260056e-05, 'epoch': 59.4} {'loss': 0.0383, 'learning_rate': 2.02971484494934e-05, 'epoch': 59.41} {'loss': 0.0405, 'learning_rate': 2.0294749769726742e-05, 'epoch': 59.41} {'loss': 0.04, 'learning_rate': 2.0292351089960088e-05, 'epoch': 59.42} {'loss': 0.0405, 'learning_rate': 2.028995241019343e-05, 'epoch': 59.42} {'loss': 0.0393, 'learning_rate': 2.0287553730426777e-05, 'epoch': 59.42} {'loss': 0.0391, 'learning_rate': 2.028515505066012e-05, 'epoch': 59.43} {'loss': 0.0408, 'learning_rate': 2.028275637089346e-05, 'epoch': 59.43} {'loss': 0.0409, 'learning_rate': 2.0280357691126805e-05, 'epoch': 59.44} {'loss': 0.0419, 'learning_rate': 2.0277959011360148e-05, 'epoch': 59.44} {'loss': 0.0386, 'learning_rate': 2.027556033159349e-05, 'epoch': 59.45} {'loss': 0.0414, 'learning_rate': 2.0273161651826836e-05, 'epoch': 59.45} {'loss': 0.0398, 'learning_rate': 2.027076297206018e-05, 'epoch': 59.46} {'loss': 0.0406, 'learning_rate': 2.0268364292293525e-05, 'epoch': 59.46} {'loss': 0.0408, 'learning_rate': 2.0265965612526864e-05, 'epoch': 59.47} {'loss': 0.0401, 'learning_rate': 2.0263566932760207e-05, 'epoch': 59.47} {'loss': 0.0407, 'learning_rate': 2.0261168252993553e-05, 'epoch': 59.48} {'loss': 0.0392, 'learning_rate': 2.0258769573226896e-05, 'epoch': 59.48} {'loss': 0.0402, 'learning_rate': 2.0256370893460242e-05, 'epoch': 59.49} {'loss': 0.0382, 'learning_rate': 2.0253972213693585e-05, 'epoch': 59.49} {'loss': 0.0386, 'learning_rate': 2.0251573533926927e-05, 'epoch': 59.5} {'loss': 0.0405, 'learning_rate': 2.024917485416027e-05, 'epoch': 59.5} {'loss': 0.0391, 'learning_rate': 2.0246776174393613e-05, 'epoch': 59.51} {'loss': 0.04, 'learning_rate': 2.024437749462696e-05, 'epoch': 59.51} {'loss': 0.0392, 'learning_rate': 2.02419788148603e-05, 'epoch': 59.52} {'loss': 0.0403, 'learning_rate': 2.0239580135093644e-05, 'epoch': 59.52} {'loss': 0.0403, 'learning_rate': 2.023718145532699e-05, 'epoch': 59.53} {'loss': 0.0391, 'learning_rate': 2.0234782775560333e-05, 'epoch': 59.53} {'loss': 0.0397, 'learning_rate': 2.0232384095793676e-05, 'epoch': 59.54} {'loss': 0.0389, 'learning_rate': 2.022998541602702e-05, 'epoch': 59.54} {'loss': 0.0401, 'learning_rate': 2.022758673626036e-05, 'epoch': 59.54} {'loss': 0.0402, 'learning_rate': 2.0225188056493707e-05, 'epoch': 59.55} {'loss': 0.0411, 'learning_rate': 2.022278937672705e-05, 'epoch': 59.55} {'loss': 0.04, 'learning_rate': 2.0220390696960396e-05, 'epoch': 59.56} {'loss': 0.0406, 'learning_rate': 2.021799201719374e-05, 'epoch': 59.56} {'loss': 0.0394, 'learning_rate': 2.021559333742708e-05, 'epoch': 59.57} {'loss': 0.0419, 'learning_rate': 2.0213194657660424e-05, 'epoch': 59.57} {'loss': 0.0398, 'learning_rate': 2.0210795977893767e-05, 'epoch': 59.58} {'loss': 0.0413, 'learning_rate': 2.0208397298127113e-05, 'epoch': 59.58} {'loss': 0.0402, 'learning_rate': 2.0205998618360456e-05, 'epoch': 59.59} {'loss': 0.0413, 'learning_rate': 2.02035999385938e-05, 'epoch': 59.59} {'loss': 0.0392, 'learning_rate': 2.0201201258827145e-05, 'epoch': 59.6} {'loss': 0.0406, 'learning_rate': 2.0198802579060487e-05, 'epoch': 59.6} {'loss': 0.0388, 'learning_rate': 2.019640389929383e-05, 'epoch': 59.61} {'loss': 0.0387, 'learning_rate': 2.0194005219527173e-05, 'epoch': 59.61} {'loss': 0.0404, 'learning_rate': 2.0191606539760515e-05, 'epoch': 59.62} {'loss': 0.0402, 'learning_rate': 2.018920785999386e-05, 'epoch': 59.62} {'loss': 0.0391, 'learning_rate': 2.0186809180227204e-05, 'epoch': 59.63} {'loss': 0.0402, 'learning_rate': 2.018441050046055e-05, 'epoch': 59.63} {'loss': 0.0393, 'learning_rate': 2.0182011820693893e-05, 'epoch': 59.64} {'loss': 0.0389, 'learning_rate': 2.0179613140927232e-05, 'epoch': 59.64} {'loss': 0.0403, 'learning_rate': 2.017721446116058e-05, 'epoch': 59.65} {'loss': 0.0395, 'learning_rate': 2.017481578139392e-05, 'epoch': 59.65} {'loss': 0.0402, 'learning_rate': 2.0172417101627264e-05, 'epoch': 59.66} {'loss': 0.0405, 'learning_rate': 2.017001842186061e-05, 'epoch': 59.66} {'loss': 0.0389, 'learning_rate': 2.0167619742093953e-05, 'epoch': 59.66} {'loss': 0.0395, 'learning_rate': 2.0165221062327295e-05, 'epoch': 59.67} {'loss': 0.0399, 'learning_rate': 2.0162822382560638e-05, 'epoch': 59.67} {'loss': 0.0405, 'learning_rate': 2.016042370279398e-05, 'epoch': 59.68} {'loss': 0.04, 'learning_rate': 2.0158025023027327e-05, 'epoch': 59.68} {'loss': 0.0397, 'learning_rate': 2.015562634326067e-05, 'epoch': 59.69} {'loss': 0.0403, 'learning_rate': 2.0153227663494016e-05, 'epoch': 59.69} {'loss': 0.0395, 'learning_rate': 2.0150828983727358e-05, 'epoch': 59.7} {'loss': 0.0387, 'learning_rate': 2.01484303039607e-05, 'epoch': 59.7} {'loss': 0.0393, 'learning_rate': 2.0146031624194044e-05, 'epoch': 59.71} {'loss': 0.0413, 'learning_rate': 2.0143632944427386e-05, 'epoch': 59.71} {'loss': 0.042, 'learning_rate': 2.0141234264660732e-05, 'epoch': 59.72} {'loss': 0.0402, 'learning_rate': 2.0138835584894075e-05, 'epoch': 59.72} {'loss': 0.0393, 'learning_rate': 2.0136436905127418e-05, 'epoch': 59.73} {'loss': 0.0414, 'learning_rate': 2.0134038225360764e-05, 'epoch': 59.73} {'loss': 0.0402, 'learning_rate': 2.0131639545594107e-05, 'epoch': 59.74} {'loss': 0.0404, 'learning_rate': 2.012924086582745e-05, 'epoch': 59.74} {'loss': 0.041, 'learning_rate': 2.0126842186060792e-05, 'epoch': 59.75} {'loss': 0.0396, 'learning_rate': 2.0124443506294135e-05, 'epoch': 59.75} {'loss': 0.0399, 'learning_rate': 2.012204482652748e-05, 'epoch': 59.76} {'loss': 0.0408, 'learning_rate': 2.0119646146760824e-05, 'epoch': 59.76} {'loss': 0.0396, 'learning_rate': 2.011724746699417e-05, 'epoch': 59.77} {'loss': 0.0406, 'learning_rate': 2.0114848787227512e-05, 'epoch': 59.77} {'loss': 0.0408, 'learning_rate': 2.0112450107460855e-05, 'epoch': 59.78} {'loss': 0.0405, 'learning_rate': 2.0110051427694198e-05, 'epoch': 59.78} {'loss': 0.0396, 'learning_rate': 2.010765274792754e-05, 'epoch': 59.78} {'loss': 0.041, 'learning_rate': 2.0105254068160887e-05, 'epoch': 59.79} {'loss': 0.0392, 'learning_rate': 2.010285538839423e-05, 'epoch': 59.79} {'loss': 0.0393, 'learning_rate': 2.0100456708627572e-05, 'epoch': 59.8} {'loss': 0.04, 'learning_rate': 2.0098058028860918e-05, 'epoch': 59.8} {'loss': 0.0394, 'learning_rate': 2.009565934909426e-05, 'epoch': 59.81} {'loss': 0.0396, 'learning_rate': 2.0093260669327603e-05, 'epoch': 59.81} {'loss': 0.0401, 'learning_rate': 2.0090861989560946e-05, 'epoch': 59.82} {'loss': 0.039, 'learning_rate': 2.008846330979429e-05, 'epoch': 59.82} {'loss': 0.0406, 'learning_rate': 2.0086064630027635e-05, 'epoch': 59.83} {'loss': 0.0388, 'learning_rate': 2.0083665950260978e-05, 'epoch': 59.83} {'loss': 0.0409, 'learning_rate': 2.0081267270494324e-05, 'epoch': 59.84} {'loss': 0.0388, 'learning_rate': 2.0078868590727663e-05, 'epoch': 59.84} {'loss': 0.042, 'learning_rate': 2.0076469910961006e-05, 'epoch': 59.85} {'loss': 0.0412, 'learning_rate': 2.0074071231194352e-05, 'epoch': 59.85} {'loss': 0.0415, 'learning_rate': 2.0071672551427695e-05, 'epoch': 59.86} {'loss': 0.04, 'learning_rate': 2.0069273871661037e-05, 'epoch': 59.86} {'loss': 0.0388, 'learning_rate': 2.0066875191894383e-05, 'epoch': 59.87} {'loss': 0.0385, 'learning_rate': 2.0064476512127726e-05, 'epoch': 59.87} {'loss': 0.0413, 'learning_rate': 2.006207783236107e-05, 'epoch': 59.88} {'loss': 0.0418, 'learning_rate': 2.005967915259441e-05, 'epoch': 59.88} {'loss': 0.0418, 'learning_rate': 2.0057280472827754e-05, 'epoch': 59.89} {'loss': 0.0419, 'learning_rate': 2.00548817930611e-05, 'epoch': 59.89} {'loss': 0.0383, 'learning_rate': 2.0052483113294443e-05, 'epoch': 59.9} {'loss': 0.0401, 'learning_rate': 2.005008443352779e-05, 'epoch': 59.9} {'loss': 0.042, 'learning_rate': 2.0047685753761132e-05, 'epoch': 59.9} {'loss': 0.04, 'learning_rate': 2.0045287073994474e-05, 'epoch': 59.91} {'loss': 0.0381, 'learning_rate': 2.0042888394227817e-05, 'epoch': 59.91} {'loss': 0.0411, 'learning_rate': 2.004048971446116e-05, 'epoch': 59.92} {'loss': 0.0404, 'learning_rate': 2.0038091034694506e-05, 'epoch': 59.92} {'loss': 0.0399, 'learning_rate': 2.003569235492785e-05, 'epoch': 59.93} {'loss': 0.0403, 'learning_rate': 2.003329367516119e-05, 'epoch': 59.93} {'loss': 0.0391, 'learning_rate': 2.0030894995394537e-05, 'epoch': 59.94} {'loss': 0.0393, 'learning_rate': 2.002849631562788e-05, 'epoch': 59.94} {'loss': 0.0425, 'learning_rate': 2.0026097635861223e-05, 'epoch': 59.95} {'loss': 0.0401, 'learning_rate': 2.0023698956094566e-05, 'epoch': 59.95} {'loss': 0.0399, 'learning_rate': 2.0021300276327908e-05, 'epoch': 59.96} {'loss': 0.0381, 'learning_rate': 2.0018901596561254e-05, 'epoch': 59.96} {'loss': 0.0399, 'learning_rate': 2.0016502916794597e-05, 'epoch': 59.97} {'loss': 0.0424, 'learning_rate': 2.0014104237027943e-05, 'epoch': 59.97} {'loss': 0.0377, 'learning_rate': 2.0011705557261286e-05, 'epoch': 59.98} {'loss': 0.039, 'learning_rate': 2.0009306877494625e-05, 'epoch': 59.98} {'loss': 0.0389, 'learning_rate': 2.000690819772797e-05, 'epoch': 59.99} {'loss': 0.0406, 'learning_rate': 2.0004509517961314e-05, 'epoch': 59.99} {'loss': 0.0425, 'learning_rate': 2.000211083819466e-05, 'epoch': 60.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03997712954878807, 'eval_runtime': 735.764, 'eval_samples_per_second': 566.615, 'eval_steps_per_second': 70.827, 'epoch': 60.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-6253440 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-6253440/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-6253440/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-6149216] due to args.save_total_limit {'loss': 0.0386, 'learning_rate': 1.9999712158428003e-05, 'epoch': 60.0} {'loss': 0.0408, 'learning_rate': 1.9997313478661345e-05, 'epoch': 60.01} {'loss': 0.0401, 'learning_rate': 1.999491479889469e-05, 'epoch': 60.01} {'loss': 0.041, 'learning_rate': 1.999251611912803e-05, 'epoch': 60.01} {'loss': 0.0394, 'learning_rate': 1.9990117439361377e-05, 'epoch': 60.02} {'loss': 0.0392, 'learning_rate': 1.998771875959472e-05, 'epoch': 60.02} {'loss': 0.0383, 'learning_rate': 1.9985320079828062e-05, 'epoch': 60.03} {'loss': 0.0385, 'learning_rate': 1.998292140006141e-05, 'epoch': 60.03} {'loss': 0.0401, 'learning_rate': 1.998052272029475e-05, 'epoch': 60.04} {'loss': 0.0375, 'learning_rate': 1.9978124040528097e-05, 'epoch': 60.04} {'loss': 0.0395, 'learning_rate': 1.9975725360761437e-05, 'epoch': 60.05} {'loss': 0.0415, 'learning_rate': 1.997332668099478e-05, 'epoch': 60.05} {'loss': 0.0397, 'learning_rate': 1.9970928001228125e-05, 'epoch': 60.06} {'loss': 0.0399, 'learning_rate': 1.9968529321461468e-05, 'epoch': 60.06} {'loss': 0.0397, 'learning_rate': 1.9966130641694814e-05, 'epoch': 60.07} {'loss': 0.0388, 'learning_rate': 1.9963731961928157e-05, 'epoch': 60.07} {'loss': 0.0415, 'learning_rate': 1.99613332821615e-05, 'epoch': 60.08} {'loss': 0.0385, 'learning_rate': 1.9958934602394842e-05, 'epoch': 60.08} {'loss': 0.0403, 'learning_rate': 1.9956535922628185e-05, 'epoch': 60.09} {'loss': 0.0407, 'learning_rate': 1.9954137242861528e-05, 'epoch': 60.09} {'loss': 0.0392, 'learning_rate': 1.9951738563094874e-05, 'epoch': 60.1} {'loss': 0.04, 'learning_rate': 1.9949339883328216e-05, 'epoch': 60.1} {'loss': 0.0397, 'learning_rate': 1.9946941203561563e-05, 'epoch': 60.11} {'loss': 0.038, 'learning_rate': 1.9944542523794905e-05, 'epoch': 60.11} {'loss': 0.04, 'learning_rate': 1.9942143844028248e-05, 'epoch': 60.12} {'loss': 0.0389, 'learning_rate': 1.993974516426159e-05, 'epoch': 60.12} {'loss': 0.0396, 'learning_rate': 1.9937346484494933e-05, 'epoch': 60.13} {'loss': 0.0401, 'learning_rate': 1.993494780472828e-05, 'epoch': 60.13} {'loss': 0.0405, 'learning_rate': 1.9932549124961622e-05, 'epoch': 60.13} {'loss': 0.0386, 'learning_rate': 1.9930150445194965e-05, 'epoch': 60.14} {'loss': 0.0384, 'learning_rate': 1.992775176542831e-05, 'epoch': 60.14} {'loss': 0.0412, 'learning_rate': 1.9925353085661654e-05, 'epoch': 60.15} {'loss': 0.0394, 'learning_rate': 1.9922954405894996e-05, 'epoch': 60.15} {'loss': 0.039, 'learning_rate': 1.992055572612834e-05, 'epoch': 60.16} {'loss': 0.0414, 'learning_rate': 1.9918157046361682e-05, 'epoch': 60.16} {'loss': 0.0405, 'learning_rate': 1.9915758366595028e-05, 'epoch': 60.17} {'loss': 0.0415, 'learning_rate': 1.991335968682837e-05, 'epoch': 60.17} {'loss': 0.0381, 'learning_rate': 1.9910961007061717e-05, 'epoch': 60.18} {'loss': 0.0412, 'learning_rate': 1.990856232729506e-05, 'epoch': 60.18} {'loss': 0.039, 'learning_rate': 1.99061636475284e-05, 'epoch': 60.19} {'loss': 0.0401, 'learning_rate': 1.9903764967761745e-05, 'epoch': 60.19} {'loss': 0.0391, 'learning_rate': 1.9901366287995087e-05, 'epoch': 60.2} {'loss': 0.0395, 'learning_rate': 1.9898967608228434e-05, 'epoch': 60.2} {'loss': 0.0406, 'learning_rate': 1.9896568928461776e-05, 'epoch': 60.21} {'loss': 0.0402, 'learning_rate': 1.989417024869512e-05, 'epoch': 60.21} {'loss': 0.0408, 'learning_rate': 1.9891771568928465e-05, 'epoch': 60.22} {'loss': 0.0399, 'learning_rate': 1.9889372889161804e-05, 'epoch': 60.22} {'loss': 0.0399, 'learning_rate': 1.988697420939515e-05, 'epoch': 60.23} {'loss': 0.0397, 'learning_rate': 1.9884575529628493e-05, 'epoch': 60.23} {'loss': 0.0384, 'learning_rate': 1.9882176849861836e-05, 'epoch': 60.24} {'loss': 0.0355, 'learning_rate': 1.9879778170095182e-05, 'epoch': 60.24} {'loss': 0.0408, 'learning_rate': 1.9877379490328525e-05, 'epoch': 60.25} {'loss': 0.04, 'learning_rate': 1.9874980810561867e-05, 'epoch': 60.25} {'loss': 0.0393, 'learning_rate': 1.987258213079521e-05, 'epoch': 60.25} {'loss': 0.0385, 'learning_rate': 1.9870183451028553e-05, 'epoch': 60.26} {'loss': 0.0408, 'learning_rate': 1.98677847712619e-05, 'epoch': 60.26} {'loss': 0.0393, 'learning_rate': 1.986538609149524e-05, 'epoch': 60.27} {'loss': 0.0397, 'learning_rate': 1.9862987411728588e-05, 'epoch': 60.27} {'loss': 0.0391, 'learning_rate': 1.986058873196193e-05, 'epoch': 60.28} {'loss': 0.0396, 'learning_rate': 1.9858190052195273e-05, 'epoch': 60.28} {'loss': 0.0425, 'learning_rate': 1.9855791372428616e-05, 'epoch': 60.29} {'loss': 0.0406, 'learning_rate': 1.985339269266196e-05, 'epoch': 60.29} {'loss': 0.0394, 'learning_rate': 1.98509940128953e-05, 'epoch': 60.3} {'loss': 0.0386, 'learning_rate': 1.9848595333128647e-05, 'epoch': 60.3} {'loss': 0.0409, 'learning_rate': 1.984619665336199e-05, 'epoch': 60.31} {'loss': 0.04, 'learning_rate': 1.9843797973595336e-05, 'epoch': 60.31} {'loss': 0.0389, 'learning_rate': 1.984139929382868e-05, 'epoch': 60.32} {'loss': 0.0391, 'learning_rate': 1.983900061406202e-05, 'epoch': 60.32} {'loss': 0.0402, 'learning_rate': 1.9836601934295364e-05, 'epoch': 60.33} {'loss': 0.0389, 'learning_rate': 1.9834203254528707e-05, 'epoch': 60.33} {'loss': 0.0396, 'learning_rate': 1.9831804574762053e-05, 'epoch': 60.34} {'loss': 0.0383, 'learning_rate': 1.9829405894995396e-05, 'epoch': 60.34} {'loss': 0.0407, 'learning_rate': 1.982700721522874e-05, 'epoch': 60.35} {'loss': 0.0404, 'learning_rate': 1.9824608535462084e-05, 'epoch': 60.35} {'loss': 0.0391, 'learning_rate': 1.9822209855695427e-05, 'epoch': 60.36} {'loss': 0.0413, 'learning_rate': 1.981981117592877e-05, 'epoch': 60.36} {'loss': 0.04, 'learning_rate': 1.9817412496162113e-05, 'epoch': 60.37} {'loss': 0.0402, 'learning_rate': 1.9815013816395455e-05, 'epoch': 60.37} {'loss': 0.0409, 'learning_rate': 1.98126151366288e-05, 'epoch': 60.37} {'loss': 0.0404, 'learning_rate': 1.9810216456862144e-05, 'epoch': 60.38} {'loss': 0.0402, 'learning_rate': 1.980781777709549e-05, 'epoch': 60.38} {'loss': 0.0391, 'learning_rate': 1.980541909732883e-05, 'epoch': 60.39} {'loss': 0.0395, 'learning_rate': 1.9803020417562172e-05, 'epoch': 60.39} {'loss': 0.0412, 'learning_rate': 1.9800621737795518e-05, 'epoch': 60.4} {'loss': 0.0381, 'learning_rate': 1.979822305802886e-05, 'epoch': 60.4} {'loss': 0.0405, 'learning_rate': 1.9795824378262207e-05, 'epoch': 60.41} {'loss': 0.0375, 'learning_rate': 1.979342569849555e-05, 'epoch': 60.41} {'loss': 0.0388, 'learning_rate': 1.9791027018728892e-05, 'epoch': 60.42} {'loss': 0.0403, 'learning_rate': 1.9788628338962235e-05, 'epoch': 60.42} {'loss': 0.039, 'learning_rate': 1.9786229659195578e-05, 'epoch': 60.43} {'loss': 0.0365, 'learning_rate': 1.9783830979428924e-05, 'epoch': 60.43} {'loss': 0.0399, 'learning_rate': 1.9781432299662267e-05, 'epoch': 60.44} {'loss': 0.0385, 'learning_rate': 1.977903361989561e-05, 'epoch': 60.44} {'loss': 0.0417, 'learning_rate': 1.9776634940128955e-05, 'epoch': 60.45} {'loss': 0.0387, 'learning_rate': 1.9774236260362298e-05, 'epoch': 60.45} {'loss': 0.0394, 'learning_rate': 1.977183758059564e-05, 'epoch': 60.46} {'loss': 0.0396, 'learning_rate': 1.9769438900828984e-05, 'epoch': 60.46} {'loss': 0.038, 'learning_rate': 1.9767040221062326e-05, 'epoch': 60.47} {'loss': 0.0411, 'learning_rate': 1.9764641541295672e-05, 'epoch': 60.47} {'loss': 0.04, 'learning_rate': 1.9762242861529015e-05, 'epoch': 60.48} {'loss': 0.0397, 'learning_rate': 1.975984418176236e-05, 'epoch': 60.48} {'loss': 0.0404, 'learning_rate': 1.9757445501995704e-05, 'epoch': 60.49} {'loss': 0.0391, 'learning_rate': 1.9755046822229047e-05, 'epoch': 60.49} {'loss': 0.0391, 'learning_rate': 1.975264814246239e-05, 'epoch': 60.49} {'loss': 0.0407, 'learning_rate': 1.9750249462695732e-05, 'epoch': 60.5} {'loss': 0.0372, 'learning_rate': 1.9747850782929075e-05, 'epoch': 60.5} {'loss': 0.0407, 'learning_rate': 1.974545210316242e-05, 'epoch': 60.51} {'loss': 0.0394, 'learning_rate': 1.9743053423395763e-05, 'epoch': 60.51} {'loss': 0.0396, 'learning_rate': 1.974065474362911e-05, 'epoch': 60.52} {'loss': 0.0401, 'learning_rate': 1.9738256063862452e-05, 'epoch': 60.52} {'loss': 0.0389, 'learning_rate': 1.9735857384095795e-05, 'epoch': 60.53} {'loss': 0.0396, 'learning_rate': 1.9733458704329138e-05, 'epoch': 60.53} {'loss': 0.0401, 'learning_rate': 1.973106002456248e-05, 'epoch': 60.54} {'loss': 0.04, 'learning_rate': 1.9728661344795826e-05, 'epoch': 60.54} {'loss': 0.0397, 'learning_rate': 1.972626266502917e-05, 'epoch': 60.55} {'loss': 0.0389, 'learning_rate': 1.9723863985262512e-05, 'epoch': 60.55} {'loss': 0.0384, 'learning_rate': 1.9721465305495858e-05, 'epoch': 60.56} {'loss': 0.0396, 'learning_rate': 1.9719066625729197e-05, 'epoch': 60.56} {'loss': 0.0378, 'learning_rate': 1.9716667945962543e-05, 'epoch': 60.57} {'loss': 0.0403, 'learning_rate': 1.9714269266195886e-05, 'epoch': 60.57} {'loss': 0.041, 'learning_rate': 1.971187058642923e-05, 'epoch': 60.58} {'loss': 0.0396, 'learning_rate': 1.9709471906662575e-05, 'epoch': 60.58} {'loss': 0.0405, 'learning_rate': 1.9707073226895918e-05, 'epoch': 60.59} {'loss': 0.0392, 'learning_rate': 1.9704674547129264e-05, 'epoch': 60.59} {'loss': 0.038, 'learning_rate': 1.9702275867362603e-05, 'epoch': 60.6} {'loss': 0.0417, 'learning_rate': 1.9699877187595946e-05, 'epoch': 60.6} {'loss': 0.0381, 'learning_rate': 1.9697478507829292e-05, 'epoch': 60.61} {'loss': 0.0395, 'learning_rate': 1.9695079828062634e-05, 'epoch': 60.61} {'loss': 0.0394, 'learning_rate': 1.969268114829598e-05, 'epoch': 60.61} {'loss': 0.0412, 'learning_rate': 1.9690282468529323e-05, 'epoch': 60.62} {'loss': 0.0418, 'learning_rate': 1.9687883788762666e-05, 'epoch': 60.62} {'loss': 0.0394, 'learning_rate': 1.968548510899601e-05, 'epoch': 60.63} {'loss': 0.0403, 'learning_rate': 1.968308642922935e-05, 'epoch': 60.63} {'loss': 0.0411, 'learning_rate': 1.9680687749462697e-05, 'epoch': 60.64} {'loss': 0.0408, 'learning_rate': 1.967828906969604e-05, 'epoch': 60.64} {'loss': 0.0385, 'learning_rate': 1.9675890389929383e-05, 'epoch': 60.65} {'loss': 0.0383, 'learning_rate': 1.967349171016273e-05, 'epoch': 60.65} {'loss': 0.0396, 'learning_rate': 1.967109303039607e-05, 'epoch': 60.66} {'loss': 0.0401, 'learning_rate': 1.9668694350629414e-05, 'epoch': 60.66} {'loss': 0.0399, 'learning_rate': 1.9666295670862757e-05, 'epoch': 60.67} {'loss': 0.0407, 'learning_rate': 1.96638969910961e-05, 'epoch': 60.67} {'loss': 0.0394, 'learning_rate': 1.9661498311329446e-05, 'epoch': 60.68} {'loss': 0.041, 'learning_rate': 1.965909963156279e-05, 'epoch': 60.68} {'loss': 0.04, 'learning_rate': 1.9656700951796135e-05, 'epoch': 60.69} {'loss': 0.0387, 'learning_rate': 1.9654302272029477e-05, 'epoch': 60.69} {'loss': 0.0394, 'learning_rate': 1.965190359226282e-05, 'epoch': 60.7} {'loss': 0.0373, 'learning_rate': 1.9649504912496163e-05, 'epoch': 60.7} {'loss': 0.0401, 'learning_rate': 1.9647106232729505e-05, 'epoch': 60.71} {'loss': 0.0395, 'learning_rate': 1.9644707552962848e-05, 'epoch': 60.71} {'loss': 0.0423, 'learning_rate': 1.9642308873196194e-05, 'epoch': 60.72} {'loss': 0.0395, 'learning_rate': 1.9639910193429537e-05, 'epoch': 60.72} {'loss': 0.0402, 'learning_rate': 1.9637511513662883e-05, 'epoch': 60.72} {'loss': 0.0403, 'learning_rate': 1.9635112833896226e-05, 'epoch': 60.73} {'loss': 0.0368, 'learning_rate': 1.9632714154129565e-05, 'epoch': 60.73} {'loss': 0.0409, 'learning_rate': 1.963031547436291e-05, 'epoch': 60.74} {'loss': 0.0393, 'learning_rate': 1.9627916794596254e-05, 'epoch': 60.74} {'loss': 0.0411, 'learning_rate': 1.96255181148296e-05, 'epoch': 60.75} {'loss': 0.0396, 'learning_rate': 1.9623119435062943e-05, 'epoch': 60.75} {'loss': 0.0397, 'learning_rate': 1.9620720755296285e-05, 'epoch': 60.76} {'loss': 0.0407, 'learning_rate': 1.961832207552963e-05, 'epoch': 60.76} {'loss': 0.039, 'learning_rate': 1.961592339576297e-05, 'epoch': 60.77} {'loss': 0.0394, 'learning_rate': 1.9613524715996317e-05, 'epoch': 60.77} {'loss': 0.0399, 'learning_rate': 1.961112603622966e-05, 'epoch': 60.78} {'loss': 0.0391, 'learning_rate': 1.9608727356463002e-05, 'epoch': 60.78} {'loss': 0.0407, 'learning_rate': 1.960632867669635e-05, 'epoch': 60.79} {'loss': 0.0416, 'learning_rate': 1.960392999692969e-05, 'epoch': 60.79} {'loss': 0.0391, 'learning_rate': 1.9601531317163034e-05, 'epoch': 60.8} {'loss': 0.0398, 'learning_rate': 1.9599132637396376e-05, 'epoch': 60.8} {'loss': 0.0386, 'learning_rate': 1.959673395762972e-05, 'epoch': 60.81} {'loss': 0.0411, 'learning_rate': 1.9594335277863065e-05, 'epoch': 60.81} {'loss': 0.038, 'learning_rate': 1.9591936598096408e-05, 'epoch': 60.82} {'loss': 0.0397, 'learning_rate': 1.9589537918329754e-05, 'epoch': 60.82} {'loss': 0.0412, 'learning_rate': 1.9587139238563097e-05, 'epoch': 60.83} {'loss': 0.0412, 'learning_rate': 1.958474055879644e-05, 'epoch': 60.83} {'loss': 0.0411, 'learning_rate': 1.9582341879029782e-05, 'epoch': 60.84} {'loss': 0.0385, 'learning_rate': 1.9579943199263125e-05, 'epoch': 60.84} {'loss': 0.0403, 'learning_rate': 1.957754451949647e-05, 'epoch': 60.84} {'loss': 0.0403, 'learning_rate': 1.9575145839729814e-05, 'epoch': 60.85} {'loss': 0.0396, 'learning_rate': 1.9572747159963156e-05, 'epoch': 60.85} {'loss': 0.0404, 'learning_rate': 1.9570348480196502e-05, 'epoch': 60.86} {'loss': 0.038, 'learning_rate': 1.9567949800429845e-05, 'epoch': 60.86} {'loss': 0.0381, 'learning_rate': 1.9565551120663188e-05, 'epoch': 60.87} {'loss': 0.0385, 'learning_rate': 1.956315244089653e-05, 'epoch': 60.87} {'loss': 0.0398, 'learning_rate': 1.9560753761129873e-05, 'epoch': 60.88} {'loss': 0.0416, 'learning_rate': 1.955835508136322e-05, 'epoch': 60.88} {'loss': 0.0389, 'learning_rate': 1.9555956401596562e-05, 'epoch': 60.89} {'loss': 0.039, 'learning_rate': 1.9553557721829908e-05, 'epoch': 60.89} {'loss': 0.0404, 'learning_rate': 1.955115904206325e-05, 'epoch': 60.9} {'loss': 0.0413, 'learning_rate': 1.9548760362296594e-05, 'epoch': 60.9} {'loss': 0.0402, 'learning_rate': 1.9546361682529936e-05, 'epoch': 60.91} {'loss': 0.0394, 'learning_rate': 1.954396300276328e-05, 'epoch': 60.91} {'loss': 0.0391, 'learning_rate': 1.9541564322996622e-05, 'epoch': 60.92} {'loss': 0.0388, 'learning_rate': 1.9539165643229968e-05, 'epoch': 60.92} {'loss': 0.0395, 'learning_rate': 1.953676696346331e-05, 'epoch': 60.93} {'loss': 0.0377, 'learning_rate': 1.9534368283696657e-05, 'epoch': 60.93} {'loss': 0.0409, 'learning_rate': 1.953196960393e-05, 'epoch': 60.94} {'loss': 0.0395, 'learning_rate': 1.952957092416334e-05, 'epoch': 60.94} {'loss': 0.0422, 'learning_rate': 1.9527172244396685e-05, 'epoch': 60.95} {'loss': 0.0412, 'learning_rate': 1.9524773564630027e-05, 'epoch': 60.95} {'loss': 0.0402, 'learning_rate': 1.9522374884863373e-05, 'epoch': 60.96} {'loss': 0.04, 'learning_rate': 1.9519976205096716e-05, 'epoch': 60.96} {'loss': 0.0391, 'learning_rate': 1.951757752533006e-05, 'epoch': 60.96} {'loss': 0.0395, 'learning_rate': 1.95151788455634e-05, 'epoch': 60.97} {'loss': 0.0404, 'learning_rate': 1.9512780165796744e-05, 'epoch': 60.97} {'loss': 0.0385, 'learning_rate': 1.951038148603009e-05, 'epoch': 60.98} {'loss': 0.0383, 'learning_rate': 1.9507982806263433e-05, 'epoch': 60.98} {'loss': 0.0395, 'learning_rate': 1.9505584126496776e-05, 'epoch': 60.99} {'loss': 0.0407, 'learning_rate': 1.9503185446730122e-05, 'epoch': 60.99} {'loss': 0.0406, 'learning_rate': 1.9500786766963465e-05, 'epoch': 61.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03877268359065056, 'eval_runtime': 734.5879, 'eval_samples_per_second': 567.522, 'eval_steps_per_second': 70.94, 'epoch': 61.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-6357664 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-6357664/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-6357664/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-6253440] due to args.save_total_limit {'loss': 0.0396, 'learning_rate': 1.9498388087196807e-05, 'epoch': 61.0} {'loss': 0.0398, 'learning_rate': 1.949598940743015e-05, 'epoch': 61.01} {'loss': 0.0395, 'learning_rate': 1.9493590727663493e-05, 'epoch': 61.01} {'loss': 0.0389, 'learning_rate': 1.949119204789684e-05, 'epoch': 61.02} {'loss': 0.0398, 'learning_rate': 1.948879336813018e-05, 'epoch': 61.02} {'loss': 0.039, 'learning_rate': 1.9486394688363528e-05, 'epoch': 61.03} {'loss': 0.0367, 'learning_rate': 1.948399600859687e-05, 'epoch': 61.03} {'loss': 0.0423, 'learning_rate': 1.9481597328830213e-05, 'epoch': 61.04} {'loss': 0.0398, 'learning_rate': 1.9479198649063556e-05, 'epoch': 61.04} {'loss': 0.0395, 'learning_rate': 1.94767999692969e-05, 'epoch': 61.05} {'loss': 0.039, 'learning_rate': 1.9474401289530244e-05, 'epoch': 61.05} {'loss': 0.0385, 'learning_rate': 1.9472002609763587e-05, 'epoch': 61.06} {'loss': 0.0378, 'learning_rate': 1.946960392999693e-05, 'epoch': 61.06} {'loss': 0.0379, 'learning_rate': 1.9467205250230276e-05, 'epoch': 61.07} {'loss': 0.0388, 'learning_rate': 1.946480657046362e-05, 'epoch': 61.07} {'loss': 0.0401, 'learning_rate': 1.946240789069696e-05, 'epoch': 61.08} {'loss': 0.0369, 'learning_rate': 1.9460009210930304e-05, 'epoch': 61.08} {'loss': 0.0391, 'learning_rate': 1.9457610531163647e-05, 'epoch': 61.08} {'loss': 0.0404, 'learning_rate': 1.9455211851396993e-05, 'epoch': 61.09} {'loss': 0.0398, 'learning_rate': 1.9452813171630336e-05, 'epoch': 61.09} {'loss': 0.0391, 'learning_rate': 1.945041449186368e-05, 'epoch': 61.1} {'loss': 0.0403, 'learning_rate': 1.9448015812097024e-05, 'epoch': 61.1} {'loss': 0.0379, 'learning_rate': 1.9445617132330367e-05, 'epoch': 61.11} {'loss': 0.0399, 'learning_rate': 1.944321845256371e-05, 'epoch': 61.11} {'loss': 0.0377, 'learning_rate': 1.9440819772797053e-05, 'epoch': 61.12} {'loss': 0.0377, 'learning_rate': 1.94384210930304e-05, 'epoch': 61.12} {'loss': 0.0396, 'learning_rate': 1.943602241326374e-05, 'epoch': 61.13} {'loss': 0.0398, 'learning_rate': 1.9433623733497084e-05, 'epoch': 61.13} {'loss': 0.0389, 'learning_rate': 1.943122505373043e-05, 'epoch': 61.14} {'loss': 0.0381, 'learning_rate': 1.942882637396377e-05, 'epoch': 61.14} {'loss': 0.041, 'learning_rate': 1.9426427694197112e-05, 'epoch': 61.15} {'loss': 0.0407, 'learning_rate': 1.9424029014430458e-05, 'epoch': 61.15} {'loss': 0.038, 'learning_rate': 1.94216303346638e-05, 'epoch': 61.16} {'loss': 0.039, 'learning_rate': 1.9419231654897147e-05, 'epoch': 61.16} {'loss': 0.0394, 'learning_rate': 1.941683297513049e-05, 'epoch': 61.17} {'loss': 0.0369, 'learning_rate': 1.9414434295363832e-05, 'epoch': 61.17} {'loss': 0.0395, 'learning_rate': 1.9412035615597175e-05, 'epoch': 61.18} {'loss': 0.0388, 'learning_rate': 1.9409636935830518e-05, 'epoch': 61.18} {'loss': 0.0394, 'learning_rate': 1.9407238256063864e-05, 'epoch': 61.19} {'loss': 0.0358, 'learning_rate': 1.9404839576297207e-05, 'epoch': 61.19} {'loss': 0.0376, 'learning_rate': 1.940244089653055e-05, 'epoch': 61.2} {'loss': 0.0385, 'learning_rate': 1.9400042216763895e-05, 'epoch': 61.2} {'loss': 0.0383, 'learning_rate': 1.9397643536997238e-05, 'epoch': 61.2} {'loss': 0.0384, 'learning_rate': 1.939524485723058e-05, 'epoch': 61.21} {'loss': 0.0397, 'learning_rate': 1.9392846177463924e-05, 'epoch': 61.21} {'loss': 0.0391, 'learning_rate': 1.9390447497697266e-05, 'epoch': 61.22} {'loss': 0.0373, 'learning_rate': 1.9388048817930612e-05, 'epoch': 61.22} {'loss': 0.0378, 'learning_rate': 1.9385650138163955e-05, 'epoch': 61.23} {'loss': 0.0388, 'learning_rate': 1.93832514583973e-05, 'epoch': 61.23} {'loss': 0.0398, 'learning_rate': 1.9380852778630644e-05, 'epoch': 61.24} {'loss': 0.0394, 'learning_rate': 1.9378454098863987e-05, 'epoch': 61.24} {'loss': 0.0384, 'learning_rate': 1.937605541909733e-05, 'epoch': 61.25} {'loss': 0.0384, 'learning_rate': 1.9373656739330672e-05, 'epoch': 61.25} {'loss': 0.0399, 'learning_rate': 1.9371258059564018e-05, 'epoch': 61.26} {'loss': 0.0381, 'learning_rate': 1.936885937979736e-05, 'epoch': 61.26} {'loss': 0.0382, 'learning_rate': 1.9366460700030703e-05, 'epoch': 61.27} {'loss': 0.0409, 'learning_rate': 1.936406202026405e-05, 'epoch': 61.27} {'loss': 0.0406, 'learning_rate': 1.9361663340497392e-05, 'epoch': 61.28} {'loss': 0.0393, 'learning_rate': 1.9359264660730735e-05, 'epoch': 61.28} {'loss': 0.0391, 'learning_rate': 1.9356865980964078e-05, 'epoch': 61.29} {'loss': 0.0395, 'learning_rate': 1.935446730119742e-05, 'epoch': 61.29} {'loss': 0.0379, 'learning_rate': 1.9352068621430766e-05, 'epoch': 61.3} {'loss': 0.0366, 'learning_rate': 1.934966994166411e-05, 'epoch': 61.3} {'loss': 0.0387, 'learning_rate': 1.9347271261897455e-05, 'epoch': 61.31} {'loss': 0.0369, 'learning_rate': 1.9344872582130798e-05, 'epoch': 61.31} {'loss': 0.0393, 'learning_rate': 1.9342473902364137e-05, 'epoch': 61.32} {'loss': 0.0375, 'learning_rate': 1.9340075222597483e-05, 'epoch': 61.32} {'loss': 0.0406, 'learning_rate': 1.9337676542830826e-05, 'epoch': 61.32} {'loss': 0.0391, 'learning_rate': 1.9335277863064172e-05, 'epoch': 61.33} {'loss': 0.0401, 'learning_rate': 1.9332879183297515e-05, 'epoch': 61.33} {'loss': 0.0383, 'learning_rate': 1.9330480503530858e-05, 'epoch': 61.34} {'loss': 0.0406, 'learning_rate': 1.9328081823764204e-05, 'epoch': 61.34} {'loss': 0.0389, 'learning_rate': 1.9325683143997543e-05, 'epoch': 61.35} {'loss': 0.0401, 'learning_rate': 1.9323284464230886e-05, 'epoch': 61.35} {'loss': 0.0399, 'learning_rate': 1.9320885784464232e-05, 'epoch': 61.36} {'loss': 0.0392, 'learning_rate': 1.9318487104697574e-05, 'epoch': 61.36} {'loss': 0.0391, 'learning_rate': 1.931608842493092e-05, 'epoch': 61.37} {'loss': 0.0395, 'learning_rate': 1.9313689745164263e-05, 'epoch': 61.37} {'loss': 0.0382, 'learning_rate': 1.9311291065397606e-05, 'epoch': 61.38} {'loss': 0.0387, 'learning_rate': 1.930889238563095e-05, 'epoch': 61.38} {'loss': 0.0396, 'learning_rate': 1.930649370586429e-05, 'epoch': 61.39} {'loss': 0.0388, 'learning_rate': 1.9304095026097637e-05, 'epoch': 61.39} {'loss': 0.0386, 'learning_rate': 1.930169634633098e-05, 'epoch': 61.4} {'loss': 0.0407, 'learning_rate': 1.9299297666564323e-05, 'epoch': 61.4} {'loss': 0.0403, 'learning_rate': 1.929689898679767e-05, 'epoch': 61.41} {'loss': 0.0391, 'learning_rate': 1.929450030703101e-05, 'epoch': 61.41} {'loss': 0.0398, 'learning_rate': 1.9292101627264354e-05, 'epoch': 61.42} {'loss': 0.0381, 'learning_rate': 1.9289702947497697e-05, 'epoch': 61.42} {'loss': 0.0384, 'learning_rate': 1.928730426773104e-05, 'epoch': 61.43} {'loss': 0.0397, 'learning_rate': 1.9284905587964386e-05, 'epoch': 61.43} {'loss': 0.0421, 'learning_rate': 1.928250690819773e-05, 'epoch': 61.43} {'loss': 0.0383, 'learning_rate': 1.9280108228431075e-05, 'epoch': 61.44} {'loss': 0.0391, 'learning_rate': 1.9277709548664417e-05, 'epoch': 61.44} {'loss': 0.0391, 'learning_rate': 1.927531086889776e-05, 'epoch': 61.45} {'loss': 0.0401, 'learning_rate': 1.9272912189131103e-05, 'epoch': 61.45} {'loss': 0.0393, 'learning_rate': 1.9270513509364445e-05, 'epoch': 61.46} {'loss': 0.0397, 'learning_rate': 1.926811482959779e-05, 'epoch': 61.46} {'loss': 0.0371, 'learning_rate': 1.9265716149831134e-05, 'epoch': 61.47} {'loss': 0.0378, 'learning_rate': 1.9263317470064477e-05, 'epoch': 61.47} {'loss': 0.0386, 'learning_rate': 1.9260918790297823e-05, 'epoch': 61.48} {'loss': 0.0384, 'learning_rate': 1.9258520110531166e-05, 'epoch': 61.48} {'loss': 0.039, 'learning_rate': 1.925612143076451e-05, 'epoch': 61.49} {'loss': 0.0404, 'learning_rate': 1.925372275099785e-05, 'epoch': 61.49} {'loss': 0.0402, 'learning_rate': 1.9251324071231194e-05, 'epoch': 61.5} {'loss': 0.0417, 'learning_rate': 1.924892539146454e-05, 'epoch': 61.5} {'loss': 0.0388, 'learning_rate': 1.9246526711697883e-05, 'epoch': 61.51} {'loss': 0.0395, 'learning_rate': 1.924412803193123e-05, 'epoch': 61.51} {'loss': 0.0408, 'learning_rate': 1.924172935216457e-05, 'epoch': 61.52} {'loss': 0.0404, 'learning_rate': 1.923933067239791e-05, 'epoch': 61.52} {'loss': 0.0384, 'learning_rate': 1.9236931992631257e-05, 'epoch': 61.53} {'loss': 0.0382, 'learning_rate': 1.92345333128646e-05, 'epoch': 61.53} {'loss': 0.0388, 'learning_rate': 1.9232134633097946e-05, 'epoch': 61.54} {'loss': 0.0387, 'learning_rate': 1.922973595333129e-05, 'epoch': 61.54} {'loss': 0.039, 'learning_rate': 1.922733727356463e-05, 'epoch': 61.55} {'loss': 0.0389, 'learning_rate': 1.9224938593797974e-05, 'epoch': 61.55} {'loss': 0.0373, 'learning_rate': 1.9222539914031316e-05, 'epoch': 61.55} {'loss': 0.038, 'learning_rate': 1.922014123426466e-05, 'epoch': 61.56} {'loss': 0.0383, 'learning_rate': 1.9217742554498005e-05, 'epoch': 61.56} {'loss': 0.0395, 'learning_rate': 1.9215343874731348e-05, 'epoch': 61.57} {'loss': 0.0369, 'learning_rate': 1.9212945194964694e-05, 'epoch': 61.57} {'loss': 0.0386, 'learning_rate': 1.9210546515198037e-05, 'epoch': 61.58} {'loss': 0.0391, 'learning_rate': 1.920814783543138e-05, 'epoch': 61.58} {'loss': 0.0391, 'learning_rate': 1.9205749155664722e-05, 'epoch': 61.59} {'loss': 0.0379, 'learning_rate': 1.9203350475898065e-05, 'epoch': 61.59} {'loss': 0.0389, 'learning_rate': 1.920095179613141e-05, 'epoch': 61.6} {'loss': 0.0372, 'learning_rate': 1.9198553116364754e-05, 'epoch': 61.6} {'loss': 0.0397, 'learning_rate': 1.9196154436598096e-05, 'epoch': 61.61} {'loss': 0.0381, 'learning_rate': 1.9193755756831442e-05, 'epoch': 61.61} {'loss': 0.0398, 'learning_rate': 1.9191357077064785e-05, 'epoch': 61.62} {'loss': 0.0391, 'learning_rate': 1.9188958397298128e-05, 'epoch': 61.62} {'loss': 0.0402, 'learning_rate': 1.918655971753147e-05, 'epoch': 61.63} {'loss': 0.0392, 'learning_rate': 1.9184161037764813e-05, 'epoch': 61.63} {'loss': 0.0381, 'learning_rate': 1.918176235799816e-05, 'epoch': 61.64} {'loss': 0.0402, 'learning_rate': 1.9179363678231502e-05, 'epoch': 61.64} {'loss': 0.0396, 'learning_rate': 1.9176964998464848e-05, 'epoch': 61.65} {'loss': 0.0375, 'learning_rate': 1.917456631869819e-05, 'epoch': 61.65} {'loss': 0.0409, 'learning_rate': 1.9172167638931534e-05, 'epoch': 61.66} {'loss': 0.0372, 'learning_rate': 1.9169768959164876e-05, 'epoch': 61.66} {'loss': 0.0392, 'learning_rate': 1.916737027939822e-05, 'epoch': 61.67} {'loss': 0.0385, 'learning_rate': 1.9164971599631565e-05, 'epoch': 61.67} {'loss': 0.0385, 'learning_rate': 1.9162572919864908e-05, 'epoch': 61.67} {'loss': 0.0387, 'learning_rate': 1.916017424009825e-05, 'epoch': 61.68} {'loss': 0.0382, 'learning_rate': 1.9157775560331597e-05, 'epoch': 61.68} {'loss': 0.0402, 'learning_rate': 1.9155376880564936e-05, 'epoch': 61.69} {'loss': 0.0383, 'learning_rate': 1.9152978200798282e-05, 'epoch': 61.69} {'loss': 0.0395, 'learning_rate': 1.9150579521031625e-05, 'epoch': 61.7} {'loss': 0.0388, 'learning_rate': 1.9148180841264967e-05, 'epoch': 61.7} {'loss': 0.0409, 'learning_rate': 1.9145782161498313e-05, 'epoch': 61.71} {'loss': 0.0398, 'learning_rate': 1.9143383481731656e-05, 'epoch': 61.71} {'loss': 0.0396, 'learning_rate': 1.9140984801965002e-05, 'epoch': 61.72} {'loss': 0.0402, 'learning_rate': 1.913858612219834e-05, 'epoch': 61.72} {'loss': 0.0382, 'learning_rate': 1.9136187442431684e-05, 'epoch': 61.73} {'loss': 0.0388, 'learning_rate': 1.913378876266503e-05, 'epoch': 61.73} {'loss': 0.0407, 'learning_rate': 1.9131390082898373e-05, 'epoch': 61.74} {'loss': 0.04, 'learning_rate': 1.912899140313172e-05, 'epoch': 61.74} {'loss': 0.0387, 'learning_rate': 1.9126592723365062e-05, 'epoch': 61.75} {'loss': 0.0394, 'learning_rate': 1.9124194043598405e-05, 'epoch': 61.75} {'loss': 0.0408, 'learning_rate': 1.9121795363831747e-05, 'epoch': 61.76} {'loss': 0.0386, 'learning_rate': 1.911939668406509e-05, 'epoch': 61.76} {'loss': 0.0393, 'learning_rate': 1.9116998004298433e-05, 'epoch': 61.77} {'loss': 0.0395, 'learning_rate': 1.911459932453178e-05, 'epoch': 61.77} {'loss': 0.039, 'learning_rate': 1.911220064476512e-05, 'epoch': 61.78} {'loss': 0.0379, 'learning_rate': 1.9109801964998468e-05, 'epoch': 61.78} {'loss': 0.0405, 'learning_rate': 1.910740328523181e-05, 'epoch': 61.79} {'loss': 0.0381, 'learning_rate': 1.9105004605465153e-05, 'epoch': 61.79} {'loss': 0.0411, 'learning_rate': 1.9102605925698496e-05, 'epoch': 61.79} {'loss': 0.0387, 'learning_rate': 1.910020724593184e-05, 'epoch': 61.8} {'loss': 0.0395, 'learning_rate': 1.9097808566165184e-05, 'epoch': 61.8} {'loss': 0.0397, 'learning_rate': 1.9095409886398527e-05, 'epoch': 61.81} {'loss': 0.0385, 'learning_rate': 1.909301120663187e-05, 'epoch': 61.81} {'loss': 0.04, 'learning_rate': 1.9090612526865216e-05, 'epoch': 61.82} {'loss': 0.0379, 'learning_rate': 1.908821384709856e-05, 'epoch': 61.82} {'loss': 0.0382, 'learning_rate': 1.90858151673319e-05, 'epoch': 61.83} {'loss': 0.0417, 'learning_rate': 1.9083416487565244e-05, 'epoch': 61.83} {'loss': 0.0389, 'learning_rate': 1.9081017807798587e-05, 'epoch': 61.84} {'loss': 0.039, 'learning_rate': 1.9078619128031933e-05, 'epoch': 61.84} {'loss': 0.0391, 'learning_rate': 1.9076220448265276e-05, 'epoch': 61.85} {'loss': 0.0399, 'learning_rate': 1.907382176849862e-05, 'epoch': 61.85} {'loss': 0.0376, 'learning_rate': 1.9071423088731964e-05, 'epoch': 61.86} {'loss': 0.0401, 'learning_rate': 1.9069024408965304e-05, 'epoch': 61.86} {'loss': 0.0401, 'learning_rate': 1.906662572919865e-05, 'epoch': 61.87} {'loss': 0.0397, 'learning_rate': 1.9064227049431992e-05, 'epoch': 61.87} {'loss': 0.0399, 'learning_rate': 1.906182836966534e-05, 'epoch': 61.88} {'loss': 0.0396, 'learning_rate': 1.905942968989868e-05, 'epoch': 61.88} {'loss': 0.0377, 'learning_rate': 1.9057031010132024e-05, 'epoch': 61.89} {'loss': 0.0375, 'learning_rate': 1.905463233036537e-05, 'epoch': 61.89} {'loss': 0.0384, 'learning_rate': 1.905223365059871e-05, 'epoch': 61.9} {'loss': 0.0371, 'learning_rate': 1.9049834970832055e-05, 'epoch': 61.9} {'loss': 0.0402, 'learning_rate': 1.9047436291065398e-05, 'epoch': 61.91} {'loss': 0.0391, 'learning_rate': 1.904503761129874e-05, 'epoch': 61.91} {'loss': 0.0394, 'learning_rate': 1.9042638931532087e-05, 'epoch': 61.91} {'loss': 0.0416, 'learning_rate': 1.904024025176543e-05, 'epoch': 61.92} {'loss': 0.0401, 'learning_rate': 1.9037841571998776e-05, 'epoch': 61.92} {'loss': 0.0378, 'learning_rate': 1.9035442892232115e-05, 'epoch': 61.93} {'loss': 0.039, 'learning_rate': 1.9033044212465458e-05, 'epoch': 61.93} {'loss': 0.0383, 'learning_rate': 1.9030645532698804e-05, 'epoch': 61.94} {'loss': 0.04, 'learning_rate': 1.9028246852932147e-05, 'epoch': 61.94} {'loss': 0.038, 'learning_rate': 1.9025848173165493e-05, 'epoch': 61.95} {'loss': 0.0403, 'learning_rate': 1.9023449493398835e-05, 'epoch': 61.95} {'loss': 0.0395, 'learning_rate': 1.9021050813632178e-05, 'epoch': 61.96} {'loss': 0.0407, 'learning_rate': 1.901865213386552e-05, 'epoch': 61.96} {'loss': 0.0412, 'learning_rate': 1.9016253454098863e-05, 'epoch': 61.97} {'loss': 0.0372, 'learning_rate': 1.9013854774332206e-05, 'epoch': 61.97} {'loss': 0.0397, 'learning_rate': 1.9011456094565552e-05, 'epoch': 61.98} {'loss': 0.0386, 'learning_rate': 1.9009057414798895e-05, 'epoch': 61.98} {'loss': 0.0398, 'learning_rate': 1.900665873503224e-05, 'epoch': 61.99} {'loss': 0.0439, 'learning_rate': 1.9004260055265584e-05, 'epoch': 61.99} {'loss': 0.0402, 'learning_rate': 1.9001861375498926e-05, 'epoch': 62.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.04092969000339508, 'eval_runtime': 733.9677, 'eval_samples_per_second': 568.002, 'eval_steps_per_second': 71.0, 'epoch': 62.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-6461888 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-6461888/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-6461888/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-6357664] due to args.save_total_limit {'loss': 0.0404, 'learning_rate': 1.899946269573227e-05, 'epoch': 62.0} {'loss': 0.0382, 'learning_rate': 1.8997064015965612e-05, 'epoch': 62.01} {'loss': 0.0369, 'learning_rate': 1.8994665336198958e-05, 'epoch': 62.01} {'loss': 0.0384, 'learning_rate': 1.89922666564323e-05, 'epoch': 62.02} {'loss': 0.0378, 'learning_rate': 1.8989867976665643e-05, 'epoch': 62.02} {'loss': 0.0381, 'learning_rate': 1.898746929689899e-05, 'epoch': 62.03} {'loss': 0.0392, 'learning_rate': 1.8985070617132332e-05, 'epoch': 62.03} {'loss': 0.0381, 'learning_rate': 1.8982671937365675e-05, 'epoch': 62.03} {'loss': 0.0385, 'learning_rate': 1.8980273257599018e-05, 'epoch': 62.04} {'loss': 0.0385, 'learning_rate': 1.897787457783236e-05, 'epoch': 62.04} {'loss': 0.0383, 'learning_rate': 1.8975475898065706e-05, 'epoch': 62.05} {'loss': 0.0397, 'learning_rate': 1.897307721829905e-05, 'epoch': 62.05} {'loss': 0.0374, 'learning_rate': 1.8970678538532395e-05, 'epoch': 62.06} {'loss': 0.04, 'learning_rate': 1.8968279858765738e-05, 'epoch': 62.06} {'loss': 0.0382, 'learning_rate': 1.8965881178999077e-05, 'epoch': 62.07} {'loss': 0.0377, 'learning_rate': 1.8963482499232423e-05, 'epoch': 62.07} {'loss': 0.0383, 'learning_rate': 1.8961083819465766e-05, 'epoch': 62.08} {'loss': 0.0402, 'learning_rate': 1.8958685139699112e-05, 'epoch': 62.08} {'loss': 0.0381, 'learning_rate': 1.8956286459932455e-05, 'epoch': 62.09} {'loss': 0.0391, 'learning_rate': 1.8953887780165797e-05, 'epoch': 62.09} {'loss': 0.0408, 'learning_rate': 1.895148910039914e-05, 'epoch': 62.1} {'loss': 0.04, 'learning_rate': 1.8949090420632483e-05, 'epoch': 62.1} {'loss': 0.0408, 'learning_rate': 1.894669174086583e-05, 'epoch': 62.11} {'loss': 0.0395, 'learning_rate': 1.894429306109917e-05, 'epoch': 62.11} {'loss': 0.0372, 'learning_rate': 1.8941894381332514e-05, 'epoch': 62.12} {'loss': 0.0392, 'learning_rate': 1.893949570156586e-05, 'epoch': 62.12} {'loss': 0.0377, 'learning_rate': 1.8937097021799203e-05, 'epoch': 62.13} {'loss': 0.0401, 'learning_rate': 1.8934698342032546e-05, 'epoch': 62.13} {'loss': 0.0375, 'learning_rate': 1.893229966226589e-05, 'epoch': 62.14} {'loss': 0.0395, 'learning_rate': 1.892990098249923e-05, 'epoch': 62.14} {'loss': 0.0389, 'learning_rate': 1.8927502302732577e-05, 'epoch': 62.14} {'loss': 0.0384, 'learning_rate': 1.892510362296592e-05, 'epoch': 62.15} {'loss': 0.04, 'learning_rate': 1.8922704943199266e-05, 'epoch': 62.15} {'loss': 0.0384, 'learning_rate': 1.892030626343261e-05, 'epoch': 62.16} {'loss': 0.0389, 'learning_rate': 1.891790758366595e-05, 'epoch': 62.16} {'loss': 0.0393, 'learning_rate': 1.8915508903899294e-05, 'epoch': 62.17} {'loss': 0.0397, 'learning_rate': 1.8913110224132637e-05, 'epoch': 62.17} {'loss': 0.0402, 'learning_rate': 1.8910711544365983e-05, 'epoch': 62.18} {'loss': 0.0396, 'learning_rate': 1.8908312864599326e-05, 'epoch': 62.18} {'loss': 0.0393, 'learning_rate': 1.890591418483267e-05, 'epoch': 62.19} {'loss': 0.0385, 'learning_rate': 1.8903515505066015e-05, 'epoch': 62.19} {'loss': 0.0387, 'learning_rate': 1.8901116825299357e-05, 'epoch': 62.2} {'loss': 0.0373, 'learning_rate': 1.88987181455327e-05, 'epoch': 62.2} {'loss': 0.0379, 'learning_rate': 1.8896319465766043e-05, 'epoch': 62.21} {'loss': 0.0401, 'learning_rate': 1.8893920785999385e-05, 'epoch': 62.21} {'loss': 0.0389, 'learning_rate': 1.889152210623273e-05, 'epoch': 62.22} {'loss': 0.0391, 'learning_rate': 1.8889123426466074e-05, 'epoch': 62.22} {'loss': 0.0401, 'learning_rate': 1.8886724746699417e-05, 'epoch': 62.23} {'loss': 0.0392, 'learning_rate': 1.8884326066932763e-05, 'epoch': 62.23} {'loss': 0.0396, 'learning_rate': 1.8881927387166106e-05, 'epoch': 62.24} {'loss': 0.0397, 'learning_rate': 1.887952870739945e-05, 'epoch': 62.24} {'loss': 0.0382, 'learning_rate': 1.887713002763279e-05, 'epoch': 62.25} {'loss': 0.0365, 'learning_rate': 1.8874731347866134e-05, 'epoch': 62.25} {'loss': 0.0387, 'learning_rate': 1.887233266809948e-05, 'epoch': 62.26} {'loss': 0.0392, 'learning_rate': 1.8869933988332823e-05, 'epoch': 62.26} {'loss': 0.038, 'learning_rate': 1.886753530856617e-05, 'epoch': 62.26} {'loss': 0.0389, 'learning_rate': 1.8865136628799508e-05, 'epoch': 62.27} {'loss': 0.0392, 'learning_rate': 1.886273794903285e-05, 'epoch': 62.27} {'loss': 0.0397, 'learning_rate': 1.8860339269266197e-05, 'epoch': 62.28} {'loss': 0.0388, 'learning_rate': 1.885794058949954e-05, 'epoch': 62.28} {'loss': 0.0375, 'learning_rate': 1.8855541909732886e-05, 'epoch': 62.29} {'loss': 0.0382, 'learning_rate': 1.8853143229966228e-05, 'epoch': 62.29} {'loss': 0.0399, 'learning_rate': 1.885074455019957e-05, 'epoch': 62.3} {'loss': 0.0378, 'learning_rate': 1.8848345870432914e-05, 'epoch': 62.3} {'loss': 0.0396, 'learning_rate': 1.8845947190666256e-05, 'epoch': 62.31} {'loss': 0.0394, 'learning_rate': 1.8843548510899602e-05, 'epoch': 62.31} {'loss': 0.0389, 'learning_rate': 1.8841149831132945e-05, 'epoch': 62.32} {'loss': 0.0409, 'learning_rate': 1.8838751151366288e-05, 'epoch': 62.32} {'loss': 0.0396, 'learning_rate': 1.8836352471599634e-05, 'epoch': 62.33} {'loss': 0.0383, 'learning_rate': 1.8833953791832977e-05, 'epoch': 62.33} {'loss': 0.0394, 'learning_rate': 1.883155511206632e-05, 'epoch': 62.34} {'loss': 0.0401, 'learning_rate': 1.8829156432299662e-05, 'epoch': 62.34} {'loss': 0.0398, 'learning_rate': 1.8826757752533005e-05, 'epoch': 62.35} {'loss': 0.0368, 'learning_rate': 1.882435907276635e-05, 'epoch': 62.35} {'loss': 0.0381, 'learning_rate': 1.8821960392999694e-05, 'epoch': 62.36} {'loss': 0.0393, 'learning_rate': 1.881956171323304e-05, 'epoch': 62.36} {'loss': 0.0391, 'learning_rate': 1.8817163033466382e-05, 'epoch': 62.37} {'loss': 0.0404, 'learning_rate': 1.8814764353699725e-05, 'epoch': 62.37} {'loss': 0.0387, 'learning_rate': 1.8812365673933068e-05, 'epoch': 62.38} {'loss': 0.0381, 'learning_rate': 1.880996699416641e-05, 'epoch': 62.38} {'loss': 0.0384, 'learning_rate': 1.8807568314399757e-05, 'epoch': 62.38} {'loss': 0.0377, 'learning_rate': 1.88051696346331e-05, 'epoch': 62.39} {'loss': 0.0385, 'learning_rate': 1.8802770954866442e-05, 'epoch': 62.39} {'loss': 0.0378, 'learning_rate': 1.8800372275099788e-05, 'epoch': 62.4} {'loss': 0.0397, 'learning_rate': 1.879797359533313e-05, 'epoch': 62.4} {'loss': 0.0397, 'learning_rate': 1.8795574915566473e-05, 'epoch': 62.41} {'loss': 0.0374, 'learning_rate': 1.8793176235799816e-05, 'epoch': 62.41} {'loss': 0.038, 'learning_rate': 1.879077755603316e-05, 'epoch': 62.42} {'loss': 0.0386, 'learning_rate': 1.8788378876266505e-05, 'epoch': 62.42} {'loss': 0.0396, 'learning_rate': 1.8785980196499848e-05, 'epoch': 62.43} {'loss': 0.0371, 'learning_rate': 1.878358151673319e-05, 'epoch': 62.43} {'loss': 0.0415, 'learning_rate': 1.8781182836966536e-05, 'epoch': 62.44} {'loss': 0.0378, 'learning_rate': 1.8778784157199876e-05, 'epoch': 62.44} {'loss': 0.0385, 'learning_rate': 1.8776385477433222e-05, 'epoch': 62.45} {'loss': 0.0397, 'learning_rate': 1.8773986797666565e-05, 'epoch': 62.45} {'loss': 0.0358, 'learning_rate': 1.8771588117899907e-05, 'epoch': 62.46} {'loss': 0.0386, 'learning_rate': 1.8769189438133253e-05, 'epoch': 62.46} {'loss': 0.0383, 'learning_rate': 1.8766790758366596e-05, 'epoch': 62.47} {'loss': 0.0375, 'learning_rate': 1.8764392078599942e-05, 'epoch': 62.47} {'loss': 0.0381, 'learning_rate': 1.876199339883328e-05, 'epoch': 62.48} {'loss': 0.0385, 'learning_rate': 1.8759594719066624e-05, 'epoch': 62.48} {'loss': 0.0383, 'learning_rate': 1.875719603929997e-05, 'epoch': 62.49} {'loss': 0.0415, 'learning_rate': 1.8754797359533313e-05, 'epoch': 62.49} {'loss': 0.0394, 'learning_rate': 1.875239867976666e-05, 'epoch': 62.5} {'loss': 0.0379, 'learning_rate': 1.8750000000000002e-05, 'epoch': 62.5} {'loss': 0.0362, 'learning_rate': 1.8747601320233344e-05, 'epoch': 62.5} {'loss': 0.0378, 'learning_rate': 1.8745202640466687e-05, 'epoch': 62.51} {'loss': 0.0383, 'learning_rate': 1.874280396070003e-05, 'epoch': 62.51} {'loss': 0.0371, 'learning_rate': 1.8740405280933376e-05, 'epoch': 62.52} {'loss': 0.0381, 'learning_rate': 1.873800660116672e-05, 'epoch': 62.52} {'loss': 0.0387, 'learning_rate': 1.873560792140006e-05, 'epoch': 62.53} {'loss': 0.0392, 'learning_rate': 1.8733209241633407e-05, 'epoch': 62.53} {'loss': 0.0387, 'learning_rate': 1.873081056186675e-05, 'epoch': 62.54} {'loss': 0.0393, 'learning_rate': 1.8728411882100093e-05, 'epoch': 62.54} {'loss': 0.0393, 'learning_rate': 1.8726013202333436e-05, 'epoch': 62.55} {'loss': 0.039, 'learning_rate': 1.8723614522566778e-05, 'epoch': 62.55} {'loss': 0.0395, 'learning_rate': 1.8721215842800124e-05, 'epoch': 62.56} {'loss': 0.0406, 'learning_rate': 1.8718817163033467e-05, 'epoch': 62.56} {'loss': 0.0394, 'learning_rate': 1.8716418483266813e-05, 'epoch': 62.57} {'loss': 0.0393, 'learning_rate': 1.8714019803500156e-05, 'epoch': 62.57} {'loss': 0.0381, 'learning_rate': 1.87116211237335e-05, 'epoch': 62.58} {'loss': 0.0397, 'learning_rate': 1.870922244396684e-05, 'epoch': 62.58} {'loss': 0.0373, 'learning_rate': 1.8706823764200184e-05, 'epoch': 62.59} {'loss': 0.0395, 'learning_rate': 1.870442508443353e-05, 'epoch': 62.59} {'loss': 0.0385, 'learning_rate': 1.8702026404666873e-05, 'epoch': 62.6} {'loss': 0.0387, 'learning_rate': 1.8699627724900215e-05, 'epoch': 62.6} {'loss': 0.0396, 'learning_rate': 1.869722904513356e-05, 'epoch': 62.61} {'loss': 0.0359, 'learning_rate': 1.8694830365366904e-05, 'epoch': 62.61} {'loss': 0.0392, 'learning_rate': 1.8692431685600244e-05, 'epoch': 62.62} {'loss': 0.0411, 'learning_rate': 1.869003300583359e-05, 'epoch': 62.62} {'loss': 0.038, 'learning_rate': 1.8687634326066932e-05, 'epoch': 62.62} {'loss': 0.0383, 'learning_rate': 1.868523564630028e-05, 'epoch': 62.63} {'loss': 0.0397, 'learning_rate': 1.868283696653362e-05, 'epoch': 62.63} {'loss': 0.0381, 'learning_rate': 1.8680438286766964e-05, 'epoch': 62.64} {'loss': 0.0383, 'learning_rate': 1.867803960700031e-05, 'epoch': 62.64} {'loss': 0.0393, 'learning_rate': 1.867564092723365e-05, 'epoch': 62.65} {'loss': 0.0392, 'learning_rate': 1.8673242247466995e-05, 'epoch': 62.65} {'loss': 0.0388, 'learning_rate': 1.8670843567700338e-05, 'epoch': 62.66} {'loss': 0.0382, 'learning_rate': 1.866844488793368e-05, 'epoch': 62.66} {'loss': 0.0385, 'learning_rate': 1.8666046208167027e-05, 'epoch': 62.67} {'loss': 0.0371, 'learning_rate': 1.866364752840037e-05, 'epoch': 62.67} {'loss': 0.0381, 'learning_rate': 1.8661248848633712e-05, 'epoch': 62.68} {'loss': 0.0393, 'learning_rate': 1.8658850168867055e-05, 'epoch': 62.68} {'loss': 0.0415, 'learning_rate': 1.8656451489100398e-05, 'epoch': 62.69} {'loss': 0.0386, 'learning_rate': 1.8654052809333744e-05, 'epoch': 62.69} {'loss': 0.0387, 'learning_rate': 1.8651654129567086e-05, 'epoch': 62.7} {'loss': 0.0384, 'learning_rate': 1.8649255449800433e-05, 'epoch': 62.7} {'loss': 0.0394, 'learning_rate': 1.8646856770033775e-05, 'epoch': 62.71} {'loss': 0.0386, 'learning_rate': 1.8644458090267118e-05, 'epoch': 62.71} {'loss': 0.0402, 'learning_rate': 1.864205941050046e-05, 'epoch': 62.72} {'loss': 0.0383, 'learning_rate': 1.8639660730733803e-05, 'epoch': 62.72} {'loss': 0.0394, 'learning_rate': 1.863726205096715e-05, 'epoch': 62.73} {'loss': 0.0363, 'learning_rate': 1.8634863371200492e-05, 'epoch': 62.73} {'loss': 0.0388, 'learning_rate': 1.8632464691433835e-05, 'epoch': 62.74} {'loss': 0.0381, 'learning_rate': 1.863006601166718e-05, 'epoch': 62.74} {'loss': 0.0395, 'learning_rate': 1.8627667331900524e-05, 'epoch': 62.74} {'loss': 0.0402, 'learning_rate': 1.8625268652133866e-05, 'epoch': 62.75} {'loss': 0.0402, 'learning_rate': 1.862286997236721e-05, 'epoch': 62.75} {'loss': 0.0389, 'learning_rate': 1.8620471292600552e-05, 'epoch': 62.76} {'loss': 0.0406, 'learning_rate': 1.8618072612833898e-05, 'epoch': 62.76} {'loss': 0.0384, 'learning_rate': 1.861567393306724e-05, 'epoch': 62.77} {'loss': 0.0409, 'learning_rate': 1.8613275253300587e-05, 'epoch': 62.77} {'loss': 0.0397, 'learning_rate': 1.861087657353393e-05, 'epoch': 62.78} {'loss': 0.0373, 'learning_rate': 1.8608477893767272e-05, 'epoch': 62.78} {'loss': 0.0393, 'learning_rate': 1.8606079214000615e-05, 'epoch': 62.79} {'loss': 0.0397, 'learning_rate': 1.8603680534233957e-05, 'epoch': 62.79} {'loss': 0.0389, 'learning_rate': 1.8601281854467304e-05, 'epoch': 62.8} {'loss': 0.0395, 'learning_rate': 1.8598883174700646e-05, 'epoch': 62.8} {'loss': 0.0397, 'learning_rate': 1.859648449493399e-05, 'epoch': 62.81} {'loss': 0.0398, 'learning_rate': 1.8594085815167335e-05, 'epoch': 62.81} {'loss': 0.0377, 'learning_rate': 1.8591687135400678e-05, 'epoch': 62.82} {'loss': 0.0385, 'learning_rate': 1.8589288455634017e-05, 'epoch': 62.82} {'loss': 0.0385, 'learning_rate': 1.8586889775867363e-05, 'epoch': 62.83} {'loss': 0.0371, 'learning_rate': 1.8584491096100706e-05, 'epoch': 62.83} {'loss': 0.0394, 'learning_rate': 1.8582092416334052e-05, 'epoch': 62.84} {'loss': 0.0395, 'learning_rate': 1.8579693736567395e-05, 'epoch': 62.84} {'loss': 0.0397, 'learning_rate': 1.8577295056800737e-05, 'epoch': 62.85} {'loss': 0.0392, 'learning_rate': 1.857489637703408e-05, 'epoch': 62.85} {'loss': 0.0389, 'learning_rate': 1.8572497697267423e-05, 'epoch': 62.86} {'loss': 0.0403, 'learning_rate': 1.857009901750077e-05, 'epoch': 62.86} {'loss': 0.0381, 'learning_rate': 1.856770033773411e-05, 'epoch': 62.86} {'loss': 0.038, 'learning_rate': 1.8565301657967454e-05, 'epoch': 62.87} {'loss': 0.0404, 'learning_rate': 1.85629029782008e-05, 'epoch': 62.87} {'loss': 0.0382, 'learning_rate': 1.8560504298434143e-05, 'epoch': 62.88} {'loss': 0.0388, 'learning_rate': 1.8558105618667486e-05, 'epoch': 62.88} {'loss': 0.0359, 'learning_rate': 1.855570693890083e-05, 'epoch': 62.89} {'loss': 0.0388, 'learning_rate': 1.855330825913417e-05, 'epoch': 62.89} {'loss': 0.0394, 'learning_rate': 1.8550909579367517e-05, 'epoch': 62.9} {'loss': 0.0376, 'learning_rate': 1.854851089960086e-05, 'epoch': 62.9} {'loss': 0.0385, 'learning_rate': 1.8546112219834206e-05, 'epoch': 62.91} {'loss': 0.0398, 'learning_rate': 1.854371354006755e-05, 'epoch': 62.91} {'loss': 0.0369, 'learning_rate': 1.854131486030089e-05, 'epoch': 62.92} {'loss': 0.0393, 'learning_rate': 1.8538916180534234e-05, 'epoch': 62.92} {'loss': 0.0393, 'learning_rate': 1.8536517500767577e-05, 'epoch': 62.93} {'loss': 0.0397, 'learning_rate': 1.8534118821000923e-05, 'epoch': 62.93} {'loss': 0.0396, 'learning_rate': 1.8531720141234266e-05, 'epoch': 62.94} {'loss': 0.0378, 'learning_rate': 1.852932146146761e-05, 'epoch': 62.94} {'loss': 0.0406, 'learning_rate': 1.8526922781700954e-05, 'epoch': 62.95} {'loss': 0.0385, 'learning_rate': 1.8524524101934297e-05, 'epoch': 62.95} {'loss': 0.0369, 'learning_rate': 1.852212542216764e-05, 'epoch': 62.96} {'loss': 0.0387, 'learning_rate': 1.8519726742400983e-05, 'epoch': 62.96} {'loss': 0.0399, 'learning_rate': 1.8517328062634325e-05, 'epoch': 62.97} {'loss': 0.0377, 'learning_rate': 1.851492938286767e-05, 'epoch': 62.97} {'loss': 0.0394, 'learning_rate': 1.8512530703101014e-05, 'epoch': 62.97} {'loss': 0.0396, 'learning_rate': 1.851013202333436e-05, 'epoch': 62.98} {'loss': 0.0376, 'learning_rate': 1.8507733343567703e-05, 'epoch': 62.98} {'loss': 0.038, 'learning_rate': 1.8505334663801042e-05, 'epoch': 62.99} {'loss': 0.0373, 'learning_rate': 1.8502935984034388e-05, 'epoch': 62.99} {'loss': 0.0372, 'learning_rate': 1.850053730426773e-05, 'epoch': 63.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03834186866879463, 'eval_runtime': 735.7043, 'eval_samples_per_second': 566.661, 'eval_steps_per_second': 70.833, 'epoch': 63.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-6566112 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-6566112/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-6566112/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-6461888] due to args.save_total_limit {'loss': 0.0358, 'learning_rate': 1.8498138624501077e-05, 'epoch': 63.0} {'loss': 0.0374, 'learning_rate': 1.849573994473442e-05, 'epoch': 63.01} {'loss': 0.0391, 'learning_rate': 1.8493341264967762e-05, 'epoch': 63.01} {'loss': 0.036, 'learning_rate': 1.849094258520111e-05, 'epoch': 63.02} {'loss': 0.0385, 'learning_rate': 1.8488543905434448e-05, 'epoch': 63.02} {'loss': 0.0376, 'learning_rate': 1.8486145225667794e-05, 'epoch': 63.03} {'loss': 0.0393, 'learning_rate': 1.8483746545901137e-05, 'epoch': 63.03} {'loss': 0.0382, 'learning_rate': 1.848134786613448e-05, 'epoch': 63.04} {'loss': 0.0376, 'learning_rate': 1.8478949186367825e-05, 'epoch': 63.04} {'loss': 0.0394, 'learning_rate': 1.8476550506601168e-05, 'epoch': 63.05} {'loss': 0.038, 'learning_rate': 1.847415182683451e-05, 'epoch': 63.05} {'loss': 0.0385, 'learning_rate': 1.8471753147067854e-05, 'epoch': 63.06} {'loss': 0.0387, 'learning_rate': 1.8469354467301196e-05, 'epoch': 63.06} {'loss': 0.0382, 'learning_rate': 1.8466955787534542e-05, 'epoch': 63.07} {'loss': 0.0394, 'learning_rate': 1.8464557107767885e-05, 'epoch': 63.07} {'loss': 0.0386, 'learning_rate': 1.8462158428001228e-05, 'epoch': 63.08} {'loss': 0.0396, 'learning_rate': 1.8459759748234574e-05, 'epoch': 63.08} {'loss': 0.0399, 'learning_rate': 1.8457361068467917e-05, 'epoch': 63.09} {'loss': 0.0382, 'learning_rate': 1.845496238870126e-05, 'epoch': 63.09} {'loss': 0.038, 'learning_rate': 1.8452563708934602e-05, 'epoch': 63.09} {'loss': 0.0389, 'learning_rate': 1.8450165029167945e-05, 'epoch': 63.1} {'loss': 0.0382, 'learning_rate': 1.844776634940129e-05, 'epoch': 63.1} {'loss': 0.0377, 'learning_rate': 1.8445367669634633e-05, 'epoch': 63.11} {'loss': 0.0387, 'learning_rate': 1.844296898986798e-05, 'epoch': 63.11} {'loss': 0.0384, 'learning_rate': 1.8440570310101322e-05, 'epoch': 63.12} {'loss': 0.0374, 'learning_rate': 1.8438171630334665e-05, 'epoch': 63.12} {'loss': 0.0373, 'learning_rate': 1.8435772950568008e-05, 'epoch': 63.13} {'loss': 0.0376, 'learning_rate': 1.843337427080135e-05, 'epoch': 63.13} {'loss': 0.0391, 'learning_rate': 1.8430975591034696e-05, 'epoch': 63.14} {'loss': 0.0371, 'learning_rate': 1.842857691126804e-05, 'epoch': 63.14} {'loss': 0.0374, 'learning_rate': 1.8426178231501382e-05, 'epoch': 63.15} {'loss': 0.0384, 'learning_rate': 1.8423779551734728e-05, 'epoch': 63.15} {'loss': 0.0394, 'learning_rate': 1.842138087196807e-05, 'epoch': 63.16} {'loss': 0.0377, 'learning_rate': 1.8418982192201413e-05, 'epoch': 63.16} {'loss': 0.0361, 'learning_rate': 1.8416583512434756e-05, 'epoch': 63.17} {'loss': 0.0389, 'learning_rate': 1.84141848326681e-05, 'epoch': 63.17} {'loss': 0.04, 'learning_rate': 1.8411786152901445e-05, 'epoch': 63.18} {'loss': 0.0374, 'learning_rate': 1.8409387473134788e-05, 'epoch': 63.18} {'loss': 0.0378, 'learning_rate': 1.8406988793368134e-05, 'epoch': 63.19} {'loss': 0.0384, 'learning_rate': 1.8404590113601476e-05, 'epoch': 63.19} {'loss': 0.0371, 'learning_rate': 1.8402191433834816e-05, 'epoch': 63.2} {'loss': 0.0389, 'learning_rate': 1.8399792754068162e-05, 'epoch': 63.2} {'loss': 0.0404, 'learning_rate': 1.8397394074301504e-05, 'epoch': 63.21} {'loss': 0.0386, 'learning_rate': 1.839499539453485e-05, 'epoch': 63.21} {'loss': 0.0376, 'learning_rate': 1.8392596714768193e-05, 'epoch': 63.21} {'loss': 0.0383, 'learning_rate': 1.8390198035001536e-05, 'epoch': 63.22} {'loss': 0.0372, 'learning_rate': 1.8387799355234882e-05, 'epoch': 63.22} {'loss': 0.0399, 'learning_rate': 1.838540067546822e-05, 'epoch': 63.23} {'loss': 0.0383, 'learning_rate': 1.8383001995701567e-05, 'epoch': 63.23} {'loss': 0.0373, 'learning_rate': 1.838060331593491e-05, 'epoch': 63.24} {'loss': 0.0387, 'learning_rate': 1.8378204636168253e-05, 'epoch': 63.24} {'loss': 0.0385, 'learning_rate': 1.83758059564016e-05, 'epoch': 63.25} {'loss': 0.0386, 'learning_rate': 1.837340727663494e-05, 'epoch': 63.25} {'loss': 0.0382, 'learning_rate': 1.8371008596868284e-05, 'epoch': 63.26} {'loss': 0.0383, 'learning_rate': 1.8368609917101627e-05, 'epoch': 63.26} {'loss': 0.0378, 'learning_rate': 1.836621123733497e-05, 'epoch': 63.27} {'loss': 0.0371, 'learning_rate': 1.8363812557568316e-05, 'epoch': 63.27} {'loss': 0.0402, 'learning_rate': 1.836141387780166e-05, 'epoch': 63.28} {'loss': 0.0391, 'learning_rate': 1.8359015198035e-05, 'epoch': 63.28} {'loss': 0.0387, 'learning_rate': 1.8356616518268347e-05, 'epoch': 63.29} {'loss': 0.0376, 'learning_rate': 1.835421783850169e-05, 'epoch': 63.29} {'loss': 0.0385, 'learning_rate': 1.8351819158735033e-05, 'epoch': 63.3} {'loss': 0.0386, 'learning_rate': 1.8349420478968375e-05, 'epoch': 63.3} {'loss': 0.0384, 'learning_rate': 1.8347021799201718e-05, 'epoch': 63.31} {'loss': 0.0382, 'learning_rate': 1.8344623119435064e-05, 'epoch': 63.31} {'loss': 0.0379, 'learning_rate': 1.8342224439668407e-05, 'epoch': 63.32} {'loss': 0.0375, 'learning_rate': 1.8339825759901753e-05, 'epoch': 63.32} {'loss': 0.0391, 'learning_rate': 1.8337427080135096e-05, 'epoch': 63.33} {'loss': 0.0402, 'learning_rate': 1.833502840036844e-05, 'epoch': 63.33} {'loss': 0.0373, 'learning_rate': 1.833262972060178e-05, 'epoch': 63.33} {'loss': 0.0391, 'learning_rate': 1.8330231040835124e-05, 'epoch': 63.34} {'loss': 0.0371, 'learning_rate': 1.832783236106847e-05, 'epoch': 63.34} {'loss': 0.0368, 'learning_rate': 1.8325433681301813e-05, 'epoch': 63.35} {'loss': 0.0391, 'learning_rate': 1.8323035001535155e-05, 'epoch': 63.35} {'loss': 0.0384, 'learning_rate': 1.83206363217685e-05, 'epoch': 63.36} {'loss': 0.0382, 'learning_rate': 1.8318237642001844e-05, 'epoch': 63.36} {'loss': 0.0402, 'learning_rate': 1.8315838962235187e-05, 'epoch': 63.37} {'loss': 0.0376, 'learning_rate': 1.831344028246853e-05, 'epoch': 63.37} {'loss': 0.0383, 'learning_rate': 1.8311041602701872e-05, 'epoch': 63.38} {'loss': 0.0395, 'learning_rate': 1.830864292293522e-05, 'epoch': 63.38} {'loss': 0.0395, 'learning_rate': 1.830624424316856e-05, 'epoch': 63.39} {'loss': 0.0409, 'learning_rate': 1.8303845563401907e-05, 'epoch': 63.39} {'loss': 0.0386, 'learning_rate': 1.8301446883635246e-05, 'epoch': 63.4} {'loss': 0.0389, 'learning_rate': 1.829904820386859e-05, 'epoch': 63.4} {'loss': 0.0406, 'learning_rate': 1.8296649524101935e-05, 'epoch': 63.41} {'loss': 0.0395, 'learning_rate': 1.8294250844335278e-05, 'epoch': 63.41} {'loss': 0.0403, 'learning_rate': 1.8291852164568624e-05, 'epoch': 63.42} {'loss': 0.0381, 'learning_rate': 1.8289453484801967e-05, 'epoch': 63.42} {'loss': 0.039, 'learning_rate': 1.828705480503531e-05, 'epoch': 63.43} {'loss': 0.0382, 'learning_rate': 1.8284656125268652e-05, 'epoch': 63.43} {'loss': 0.0376, 'learning_rate': 1.8282257445501995e-05, 'epoch': 63.44} {'loss': 0.0409, 'learning_rate': 1.827985876573534e-05, 'epoch': 63.44} {'loss': 0.0389, 'learning_rate': 1.8277460085968684e-05, 'epoch': 63.45} {'loss': 0.0394, 'learning_rate': 1.8275061406202026e-05, 'epoch': 63.45} {'loss': 0.0382, 'learning_rate': 1.8272662726435372e-05, 'epoch': 63.45} {'loss': 0.0383, 'learning_rate': 1.8270264046668715e-05, 'epoch': 63.46} {'loss': 0.0377, 'learning_rate': 1.8267865366902058e-05, 'epoch': 63.46} {'loss': 0.0378, 'learning_rate': 1.82654666871354e-05, 'epoch': 63.47} {'loss': 0.0383, 'learning_rate': 1.8263068007368743e-05, 'epoch': 63.47} {'loss': 0.0392, 'learning_rate': 1.826066932760209e-05, 'epoch': 63.48} {'loss': 0.0378, 'learning_rate': 1.8258270647835432e-05, 'epoch': 63.48} {'loss': 0.0381, 'learning_rate': 1.8255871968068775e-05, 'epoch': 63.49} {'loss': 0.0354, 'learning_rate': 1.825347328830212e-05, 'epoch': 63.49} {'loss': 0.0381, 'learning_rate': 1.8251074608535464e-05, 'epoch': 63.5} {'loss': 0.0391, 'learning_rate': 1.8248675928768806e-05, 'epoch': 63.5} {'loss': 0.0378, 'learning_rate': 1.824627724900215e-05, 'epoch': 63.51} {'loss': 0.0382, 'learning_rate': 1.824387856923549e-05, 'epoch': 63.51} {'loss': 0.0372, 'learning_rate': 1.8241479889468838e-05, 'epoch': 63.52} {'loss': 0.0399, 'learning_rate': 1.823908120970218e-05, 'epoch': 63.52} {'loss': 0.0391, 'learning_rate': 1.8236682529935527e-05, 'epoch': 63.53} {'loss': 0.0374, 'learning_rate': 1.823428385016887e-05, 'epoch': 63.53} {'loss': 0.0378, 'learning_rate': 1.8231885170402212e-05, 'epoch': 63.54} {'loss': 0.0383, 'learning_rate': 1.8229486490635555e-05, 'epoch': 63.54} {'loss': 0.0377, 'learning_rate': 1.8227087810868897e-05, 'epoch': 63.55} {'loss': 0.0389, 'learning_rate': 1.8224689131102243e-05, 'epoch': 63.55} {'loss': 0.0376, 'learning_rate': 1.8222290451335586e-05, 'epoch': 63.56} {'loss': 0.0376, 'learning_rate': 1.821989177156893e-05, 'epoch': 63.56} {'loss': 0.039, 'learning_rate': 1.8217493091802275e-05, 'epoch': 63.57} {'loss': 0.0389, 'learning_rate': 1.8215094412035614e-05, 'epoch': 63.57} {'loss': 0.0389, 'learning_rate': 1.821269573226896e-05, 'epoch': 63.57} {'loss': 0.0369, 'learning_rate': 1.8210297052502303e-05, 'epoch': 63.58} {'loss': 0.0379, 'learning_rate': 1.8207898372735646e-05, 'epoch': 63.58} {'loss': 0.0384, 'learning_rate': 1.8205499692968992e-05, 'epoch': 63.59} {'loss': 0.0396, 'learning_rate': 1.8203101013202335e-05, 'epoch': 63.59} {'loss': 0.0363, 'learning_rate': 1.820070233343568e-05, 'epoch': 63.6} {'loss': 0.0377, 'learning_rate': 1.819830365366902e-05, 'epoch': 63.6} {'loss': 0.0394, 'learning_rate': 1.8195904973902363e-05, 'epoch': 63.61} {'loss': 0.038, 'learning_rate': 1.819350629413571e-05, 'epoch': 63.61} {'loss': 0.0379, 'learning_rate': 1.819110761436905e-05, 'epoch': 63.62} {'loss': 0.0386, 'learning_rate': 1.8188708934602398e-05, 'epoch': 63.62} {'loss': 0.0402, 'learning_rate': 1.818631025483574e-05, 'epoch': 63.63} {'loss': 0.0396, 'learning_rate': 1.8183911575069083e-05, 'epoch': 63.63} {'loss': 0.0374, 'learning_rate': 1.8181512895302426e-05, 'epoch': 63.64} {'loss': 0.0374, 'learning_rate': 1.817911421553577e-05, 'epoch': 63.64} {'loss': 0.0385, 'learning_rate': 1.8176715535769114e-05, 'epoch': 63.65} {'loss': 0.0375, 'learning_rate': 1.8174316856002457e-05, 'epoch': 63.65} {'loss': 0.0399, 'learning_rate': 1.81719181762358e-05, 'epoch': 63.66} {'loss': 0.039, 'learning_rate': 1.8169519496469146e-05, 'epoch': 63.66} {'loss': 0.0374, 'learning_rate': 1.816712081670249e-05, 'epoch': 63.67} {'loss': 0.0367, 'learning_rate': 1.816472213693583e-05, 'epoch': 63.67} {'loss': 0.0369, 'learning_rate': 1.8162323457169174e-05, 'epoch': 63.68} {'loss': 0.0384, 'learning_rate': 1.8159924777402517e-05, 'epoch': 63.68} {'loss': 0.0375, 'learning_rate': 1.8157526097635863e-05, 'epoch': 63.68} {'loss': 0.0374, 'learning_rate': 1.8155127417869206e-05, 'epoch': 63.69} {'loss': 0.0398, 'learning_rate': 1.8152728738102548e-05, 'epoch': 63.69} {'loss': 0.0373, 'learning_rate': 1.8150330058335894e-05, 'epoch': 63.7} {'loss': 0.0386, 'learning_rate': 1.8147931378569237e-05, 'epoch': 63.7} {'loss': 0.0374, 'learning_rate': 1.814553269880258e-05, 'epoch': 63.71} {'loss': 0.0385, 'learning_rate': 1.8143134019035922e-05, 'epoch': 63.71} {'loss': 0.0399, 'learning_rate': 1.8140735339269265e-05, 'epoch': 63.72} {'loss': 0.0382, 'learning_rate': 1.813833665950261e-05, 'epoch': 63.72} {'loss': 0.0373, 'learning_rate': 1.8135937979735954e-05, 'epoch': 63.73} {'loss': 0.039, 'learning_rate': 1.81335392999693e-05, 'epoch': 63.73} {'loss': 0.0368, 'learning_rate': 1.8131140620202643e-05, 'epoch': 63.74} {'loss': 0.0388, 'learning_rate': 1.8128741940435982e-05, 'epoch': 63.74} {'loss': 0.0374, 'learning_rate': 1.8126343260669328e-05, 'epoch': 63.75} {'loss': 0.0373, 'learning_rate': 1.812394458090267e-05, 'epoch': 63.75} {'loss': 0.0362, 'learning_rate': 1.8121545901136017e-05, 'epoch': 63.76} {'loss': 0.0378, 'learning_rate': 1.811914722136936e-05, 'epoch': 63.76} {'loss': 0.0394, 'learning_rate': 1.8116748541602702e-05, 'epoch': 63.77} {'loss': 0.0386, 'learning_rate': 1.811434986183605e-05, 'epoch': 63.77} {'loss': 0.038, 'learning_rate': 1.8111951182069388e-05, 'epoch': 63.78} {'loss': 0.0383, 'learning_rate': 1.8109552502302734e-05, 'epoch': 63.78} {'loss': 0.0391, 'learning_rate': 1.8107153822536077e-05, 'epoch': 63.79} {'loss': 0.0368, 'learning_rate': 1.810475514276942e-05, 'epoch': 63.79} {'loss': 0.0376, 'learning_rate': 1.8102356463002765e-05, 'epoch': 63.8} {'loss': 0.0398, 'learning_rate': 1.8099957783236108e-05, 'epoch': 63.8} {'loss': 0.0374, 'learning_rate': 1.8097559103469454e-05, 'epoch': 63.8} {'loss': 0.0394, 'learning_rate': 1.8095160423702793e-05, 'epoch': 63.81} {'loss': 0.0384, 'learning_rate': 1.8092761743936136e-05, 'epoch': 63.81} {'loss': 0.0379, 'learning_rate': 1.8090363064169482e-05, 'epoch': 63.82} {'loss': 0.0372, 'learning_rate': 1.8087964384402825e-05, 'epoch': 63.82} {'loss': 0.0359, 'learning_rate': 1.808556570463617e-05, 'epoch': 63.83} {'loss': 0.0383, 'learning_rate': 1.8083167024869514e-05, 'epoch': 63.83} {'loss': 0.0395, 'learning_rate': 1.8080768345102856e-05, 'epoch': 63.84} {'loss': 0.0391, 'learning_rate': 1.80783696653362e-05, 'epoch': 63.84} {'loss': 0.038, 'learning_rate': 1.8075970985569542e-05, 'epoch': 63.85} {'loss': 0.0366, 'learning_rate': 1.8073572305802888e-05, 'epoch': 63.85} {'loss': 0.0378, 'learning_rate': 1.807117362603623e-05, 'epoch': 63.86} {'loss': 0.0382, 'learning_rate': 1.8068774946269573e-05, 'epoch': 63.86} {'loss': 0.0386, 'learning_rate': 1.806637626650292e-05, 'epoch': 63.87} {'loss': 0.039, 'learning_rate': 1.8063977586736262e-05, 'epoch': 63.87} {'loss': 0.0387, 'learning_rate': 1.8061578906969605e-05, 'epoch': 63.88} {'loss': 0.0392, 'learning_rate': 1.8059180227202948e-05, 'epoch': 63.88} {'loss': 0.0391, 'learning_rate': 1.805678154743629e-05, 'epoch': 63.89} {'loss': 0.0387, 'learning_rate': 1.8054382867669636e-05, 'epoch': 63.89} {'loss': 0.0406, 'learning_rate': 1.805198418790298e-05, 'epoch': 63.9} {'loss': 0.0367, 'learning_rate': 1.8049585508136322e-05, 'epoch': 63.9} {'loss': 0.0378, 'learning_rate': 1.8047186828369668e-05, 'epoch': 63.91} {'loss': 0.0385, 'learning_rate': 1.804478814860301e-05, 'epoch': 63.91} {'loss': 0.0381, 'learning_rate': 1.8042389468836353e-05, 'epoch': 63.92} {'loss': 0.0363, 'learning_rate': 1.8039990789069696e-05, 'epoch': 63.92} {'loss': 0.0365, 'learning_rate': 1.803759210930304e-05, 'epoch': 63.92} {'loss': 0.0388, 'learning_rate': 1.8035193429536385e-05, 'epoch': 63.93} {'loss': 0.0377, 'learning_rate': 1.8032794749769727e-05, 'epoch': 63.93} {'loss': 0.0409, 'learning_rate': 1.8030396070003074e-05, 'epoch': 63.94} {'loss': 0.0373, 'learning_rate': 1.8027997390236416e-05, 'epoch': 63.94} {'loss': 0.0375, 'learning_rate': 1.8025598710469756e-05, 'epoch': 63.95} {'loss': 0.0373, 'learning_rate': 1.8023200030703102e-05, 'epoch': 63.95} {'loss': 0.0395, 'learning_rate': 1.8020801350936444e-05, 'epoch': 63.96} {'loss': 0.0403, 'learning_rate': 1.801840267116979e-05, 'epoch': 63.96} {'loss': 0.0376, 'learning_rate': 1.8016003991403133e-05, 'epoch': 63.97} {'loss': 0.0399, 'learning_rate': 1.8013605311636476e-05, 'epoch': 63.97} {'loss': 0.0395, 'learning_rate': 1.801120663186982e-05, 'epoch': 63.98} {'loss': 0.0395, 'learning_rate': 1.800880795210316e-05, 'epoch': 63.98} {'loss': 0.0392, 'learning_rate': 1.8006409272336507e-05, 'epoch': 63.99} {'loss': 0.0392, 'learning_rate': 1.800401059256985e-05, 'epoch': 63.99} {'loss': 0.0402, 'learning_rate': 1.8001611912803193e-05, 'epoch': 64.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03774607926607132, 'eval_runtime': 766.7631, 'eval_samples_per_second': 543.708, 'eval_steps_per_second': 67.964, 'epoch': 64.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-6670336 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-6670336/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-6670336/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-6566112] due to args.save_total_limit {'loss': 0.0403, 'learning_rate': 1.799921323303654e-05, 'epoch': 64.0} {'loss': 0.0372, 'learning_rate': 1.799681455326988e-05, 'epoch': 64.01} {'loss': 0.0364, 'learning_rate': 1.7994415873503224e-05, 'epoch': 64.01} {'loss': 0.0385, 'learning_rate': 1.7992017193736567e-05, 'epoch': 64.02} {'loss': 0.0403, 'learning_rate': 1.798961851396991e-05, 'epoch': 64.02} {'loss': 0.0382, 'learning_rate': 1.7987219834203256e-05, 'epoch': 64.03} {'loss': 0.0373, 'learning_rate': 1.79848211544366e-05, 'epoch': 64.03} {'loss': 0.0381, 'learning_rate': 1.7982422474669945e-05, 'epoch': 64.04} {'loss': 0.0369, 'learning_rate': 1.7980023794903287e-05, 'epoch': 64.04} {'loss': 0.039, 'learning_rate': 1.797762511513663e-05, 'epoch': 64.04} {'loss': 0.0372, 'learning_rate': 1.7975226435369973e-05, 'epoch': 64.05} {'loss': 0.038, 'learning_rate': 1.7972827755603315e-05, 'epoch': 64.05} {'loss': 0.0361, 'learning_rate': 1.797042907583666e-05, 'epoch': 64.06} {'loss': 0.0371, 'learning_rate': 1.7968030396070004e-05, 'epoch': 64.06} {'loss': 0.0378, 'learning_rate': 1.7965631716303347e-05, 'epoch': 64.07} {'loss': 0.0374, 'learning_rate': 1.7963233036536693e-05, 'epoch': 64.07} {'loss': 0.0362, 'learning_rate': 1.7960834356770036e-05, 'epoch': 64.08} {'loss': 0.0385, 'learning_rate': 1.795843567700338e-05, 'epoch': 64.08} {'loss': 0.0386, 'learning_rate': 1.795603699723672e-05, 'epoch': 64.09} {'loss': 0.0359, 'learning_rate': 1.7953638317470064e-05, 'epoch': 64.09} {'loss': 0.0373, 'learning_rate': 1.795123963770341e-05, 'epoch': 64.1} {'loss': 0.039, 'learning_rate': 1.7948840957936753e-05, 'epoch': 64.1} {'loss': 0.0377, 'learning_rate': 1.7946442278170095e-05, 'epoch': 64.11} {'loss': 0.0393, 'learning_rate': 1.794404359840344e-05, 'epoch': 64.11} {'loss': 0.0383, 'learning_rate': 1.7941644918636784e-05, 'epoch': 64.12} {'loss': 0.0365, 'learning_rate': 1.7939246238870127e-05, 'epoch': 64.12} {'loss': 0.0375, 'learning_rate': 1.793684755910347e-05, 'epoch': 64.13} {'loss': 0.037, 'learning_rate': 1.7934448879336812e-05, 'epoch': 64.13} {'loss': 0.0386, 'learning_rate': 1.7932050199570158e-05, 'epoch': 64.14} {'loss': 0.0364, 'learning_rate': 1.79296515198035e-05, 'epoch': 64.14} {'loss': 0.0396, 'learning_rate': 1.7927252840036847e-05, 'epoch': 64.15} {'loss': 0.0389, 'learning_rate': 1.7924854160270186e-05, 'epoch': 64.15} {'loss': 0.039, 'learning_rate': 1.792245548050353e-05, 'epoch': 64.16} {'loss': 0.0392, 'learning_rate': 1.7920056800736875e-05, 'epoch': 64.16} {'loss': 0.0375, 'learning_rate': 1.7917658120970218e-05, 'epoch': 64.16} {'loss': 0.0391, 'learning_rate': 1.7915259441203564e-05, 'epoch': 64.17} {'loss': 0.0376, 'learning_rate': 1.7912860761436907e-05, 'epoch': 64.17} {'loss': 0.0385, 'learning_rate': 1.791046208167025e-05, 'epoch': 64.18} {'loss': 0.0371, 'learning_rate': 1.7908063401903592e-05, 'epoch': 64.18} {'loss': 0.0377, 'learning_rate': 1.7905664722136935e-05, 'epoch': 64.19} {'loss': 0.0397, 'learning_rate': 1.790326604237028e-05, 'epoch': 64.19} {'loss': 0.0369, 'learning_rate': 1.7900867362603624e-05, 'epoch': 64.2} {'loss': 0.0382, 'learning_rate': 1.7898468682836966e-05, 'epoch': 64.2} {'loss': 0.0382, 'learning_rate': 1.7896070003070312e-05, 'epoch': 64.21} {'loss': 0.0367, 'learning_rate': 1.7893671323303655e-05, 'epoch': 64.21} {'loss': 0.038, 'learning_rate': 1.7891272643536998e-05, 'epoch': 64.22} {'loss': 0.0375, 'learning_rate': 1.788887396377034e-05, 'epoch': 64.22} {'loss': 0.0371, 'learning_rate': 1.7886475284003683e-05, 'epoch': 64.23} {'loss': 0.0403, 'learning_rate': 1.788407660423703e-05, 'epoch': 64.23} {'loss': 0.0394, 'learning_rate': 1.7881677924470372e-05, 'epoch': 64.24} {'loss': 0.0393, 'learning_rate': 1.7879279244703718e-05, 'epoch': 64.24} {'loss': 0.0367, 'learning_rate': 1.787688056493706e-05, 'epoch': 64.25} {'loss': 0.0377, 'learning_rate': 1.7874481885170404e-05, 'epoch': 64.25} {'loss': 0.0392, 'learning_rate': 1.7872083205403746e-05, 'epoch': 64.26} {'loss': 0.0365, 'learning_rate': 1.786968452563709e-05, 'epoch': 64.26} {'loss': 0.0361, 'learning_rate': 1.7867285845870435e-05, 'epoch': 64.27} {'loss': 0.0388, 'learning_rate': 1.7864887166103778e-05, 'epoch': 64.27} {'loss': 0.0365, 'learning_rate': 1.786248848633712e-05, 'epoch': 64.28} {'loss': 0.0388, 'learning_rate': 1.7860089806570467e-05, 'epoch': 64.28} {'loss': 0.0378, 'learning_rate': 1.785769112680381e-05, 'epoch': 64.28} {'loss': 0.0397, 'learning_rate': 1.7855292447037152e-05, 'epoch': 64.29} {'loss': 0.0367, 'learning_rate': 1.7852893767270495e-05, 'epoch': 64.29} {'loss': 0.0383, 'learning_rate': 1.7850495087503837e-05, 'epoch': 64.3} {'loss': 0.0374, 'learning_rate': 1.7848096407737183e-05, 'epoch': 64.3} {'loss': 0.037, 'learning_rate': 1.7845697727970526e-05, 'epoch': 64.31} {'loss': 0.0384, 'learning_rate': 1.784329904820387e-05, 'epoch': 64.31} {'loss': 0.0381, 'learning_rate': 1.7840900368437215e-05, 'epoch': 64.32} {'loss': 0.0384, 'learning_rate': 1.7838501688670554e-05, 'epoch': 64.32} {'loss': 0.0372, 'learning_rate': 1.78361030089039e-05, 'epoch': 64.33} {'loss': 0.0395, 'learning_rate': 1.7833704329137243e-05, 'epoch': 64.33} {'loss': 0.0377, 'learning_rate': 1.7831305649370586e-05, 'epoch': 64.34} {'loss': 0.037, 'learning_rate': 1.7828906969603932e-05, 'epoch': 64.34} {'loss': 0.0364, 'learning_rate': 1.7826508289837275e-05, 'epoch': 64.35} {'loss': 0.0363, 'learning_rate': 1.782410961007062e-05, 'epoch': 64.35} {'loss': 0.038, 'learning_rate': 1.782171093030396e-05, 'epoch': 64.36} {'loss': 0.0378, 'learning_rate': 1.7819312250537303e-05, 'epoch': 64.36} {'loss': 0.0383, 'learning_rate': 1.781691357077065e-05, 'epoch': 64.37} {'loss': 0.0365, 'learning_rate': 1.781451489100399e-05, 'epoch': 64.37} {'loss': 0.0384, 'learning_rate': 1.7812116211237338e-05, 'epoch': 64.38} {'loss': 0.0387, 'learning_rate': 1.780971753147068e-05, 'epoch': 64.38} {'loss': 0.0363, 'learning_rate': 1.7807318851704023e-05, 'epoch': 64.39} {'loss': 0.0383, 'learning_rate': 1.7804920171937366e-05, 'epoch': 64.39} {'loss': 0.0373, 'learning_rate': 1.780252149217071e-05, 'epoch': 64.39} {'loss': 0.0375, 'learning_rate': 1.7800122812404054e-05, 'epoch': 64.4} {'loss': 0.0377, 'learning_rate': 1.7797724132637397e-05, 'epoch': 64.4} {'loss': 0.0401, 'learning_rate': 1.779532545287074e-05, 'epoch': 64.41} {'loss': 0.0373, 'learning_rate': 1.7792926773104086e-05, 'epoch': 64.41} {'loss': 0.0361, 'learning_rate': 1.779052809333743e-05, 'epoch': 64.42} {'loss': 0.0374, 'learning_rate': 1.778812941357077e-05, 'epoch': 64.42} {'loss': 0.0378, 'learning_rate': 1.7785730733804114e-05, 'epoch': 64.43} {'loss': 0.0385, 'learning_rate': 1.7783332054037457e-05, 'epoch': 64.43} {'loss': 0.0367, 'learning_rate': 1.7780933374270803e-05, 'epoch': 64.44} {'loss': 0.0372, 'learning_rate': 1.7778534694504146e-05, 'epoch': 64.44} {'loss': 0.0382, 'learning_rate': 1.777613601473749e-05, 'epoch': 64.45} {'loss': 0.038, 'learning_rate': 1.7773737334970834e-05, 'epoch': 64.45} {'loss': 0.0376, 'learning_rate': 1.7771338655204177e-05, 'epoch': 64.46} {'loss': 0.0376, 'learning_rate': 1.776893997543752e-05, 'epoch': 64.46} {'loss': 0.0393, 'learning_rate': 1.7766541295670862e-05, 'epoch': 64.47} {'loss': 0.0376, 'learning_rate': 1.776414261590421e-05, 'epoch': 64.47} {'loss': 0.038, 'learning_rate': 1.776174393613755e-05, 'epoch': 64.48} {'loss': 0.0376, 'learning_rate': 1.7759345256370894e-05, 'epoch': 64.48} {'loss': 0.0381, 'learning_rate': 1.775694657660424e-05, 'epoch': 64.49} {'loss': 0.0371, 'learning_rate': 1.7754547896837583e-05, 'epoch': 64.49} {'loss': 0.0378, 'learning_rate': 1.7752149217070925e-05, 'epoch': 64.5} {'loss': 0.0364, 'learning_rate': 1.7749750537304268e-05, 'epoch': 64.5} {'loss': 0.0382, 'learning_rate': 1.774735185753761e-05, 'epoch': 64.51} {'loss': 0.0384, 'learning_rate': 1.7744953177770957e-05, 'epoch': 64.51} {'loss': 0.039, 'learning_rate': 1.77425544980043e-05, 'epoch': 64.51} {'loss': 0.0373, 'learning_rate': 1.7740155818237642e-05, 'epoch': 64.52} {'loss': 0.0372, 'learning_rate': 1.773775713847099e-05, 'epoch': 64.52} {'loss': 0.0394, 'learning_rate': 1.7735358458704328e-05, 'epoch': 64.53} {'loss': 0.0366, 'learning_rate': 1.7732959778937674e-05, 'epoch': 64.53} {'loss': 0.038, 'learning_rate': 1.7730561099171017e-05, 'epoch': 64.54} {'loss': 0.0362, 'learning_rate': 1.772816241940436e-05, 'epoch': 64.54} {'loss': 0.0368, 'learning_rate': 1.7725763739637705e-05, 'epoch': 64.55} {'loss': 0.0388, 'learning_rate': 1.7723365059871048e-05, 'epoch': 64.55} {'loss': 0.0372, 'learning_rate': 1.772096638010439e-05, 'epoch': 64.56} {'loss': 0.0381, 'learning_rate': 1.7718567700337733e-05, 'epoch': 64.56} {'loss': 0.0401, 'learning_rate': 1.7716169020571076e-05, 'epoch': 64.57} {'loss': 0.0376, 'learning_rate': 1.7713770340804422e-05, 'epoch': 64.57} {'loss': 0.0368, 'learning_rate': 1.7711371661037765e-05, 'epoch': 64.58} {'loss': 0.038, 'learning_rate': 1.770897298127111e-05, 'epoch': 64.58} {'loss': 0.0369, 'learning_rate': 1.7706574301504454e-05, 'epoch': 64.59} {'loss': 0.0377, 'learning_rate': 1.7704175621737796e-05, 'epoch': 64.59} {'loss': 0.0406, 'learning_rate': 1.770177694197114e-05, 'epoch': 64.6} {'loss': 0.0367, 'learning_rate': 1.7699378262204482e-05, 'epoch': 64.6} {'loss': 0.0401, 'learning_rate': 1.7696979582437828e-05, 'epoch': 64.61} {'loss': 0.0395, 'learning_rate': 1.769458090267117e-05, 'epoch': 64.61} {'loss': 0.0361, 'learning_rate': 1.7692182222904513e-05, 'epoch': 64.62} {'loss': 0.0391, 'learning_rate': 1.768978354313786e-05, 'epoch': 64.62} {'loss': 0.0385, 'learning_rate': 1.7687384863371202e-05, 'epoch': 64.63} {'loss': 0.0377, 'learning_rate': 1.7684986183604545e-05, 'epoch': 64.63} {'loss': 0.037, 'learning_rate': 1.7682587503837888e-05, 'epoch': 64.63} {'loss': 0.0371, 'learning_rate': 1.768018882407123e-05, 'epoch': 64.64} {'loss': 0.0357, 'learning_rate': 1.7677790144304576e-05, 'epoch': 64.64} {'loss': 0.0358, 'learning_rate': 1.767539146453792e-05, 'epoch': 64.65} {'loss': 0.0383, 'learning_rate': 1.7672992784771265e-05, 'epoch': 64.65} {'loss': 0.0393, 'learning_rate': 1.7670594105004608e-05, 'epoch': 64.66} {'loss': 0.0376, 'learning_rate': 1.766819542523795e-05, 'epoch': 64.66} {'loss': 0.0376, 'learning_rate': 1.7665796745471293e-05, 'epoch': 64.67} {'loss': 0.0367, 'learning_rate': 1.7663398065704636e-05, 'epoch': 64.67} {'loss': 0.0393, 'learning_rate': 1.7660999385937982e-05, 'epoch': 64.68} {'loss': 0.0378, 'learning_rate': 1.7658600706171325e-05, 'epoch': 64.68} {'loss': 0.0366, 'learning_rate': 1.7656202026404667e-05, 'epoch': 64.69} {'loss': 0.0375, 'learning_rate': 1.7653803346638014e-05, 'epoch': 64.69} {'loss': 0.0383, 'learning_rate': 1.7651404666871353e-05, 'epoch': 64.7} {'loss': 0.0397, 'learning_rate': 1.76490059871047e-05, 'epoch': 64.7} {'loss': 0.0393, 'learning_rate': 1.764660730733804e-05, 'epoch': 64.71} {'loss': 0.0366, 'learning_rate': 1.7644208627571384e-05, 'epoch': 64.71} {'loss': 0.0388, 'learning_rate': 1.764180994780473e-05, 'epoch': 64.72} {'loss': 0.0374, 'learning_rate': 1.7639411268038073e-05, 'epoch': 64.72} {'loss': 0.0373, 'learning_rate': 1.7637012588271416e-05, 'epoch': 64.73} {'loss': 0.0383, 'learning_rate': 1.763461390850476e-05, 'epoch': 64.73} {'loss': 0.0375, 'learning_rate': 1.76322152287381e-05, 'epoch': 64.74} {'loss': 0.0389, 'learning_rate': 1.7629816548971447e-05, 'epoch': 64.74} {'loss': 0.0385, 'learning_rate': 1.762741786920479e-05, 'epoch': 64.75} {'loss': 0.0377, 'learning_rate': 1.7625019189438133e-05, 'epoch': 64.75} {'loss': 0.0375, 'learning_rate': 1.762262050967148e-05, 'epoch': 64.75} {'loss': 0.0387, 'learning_rate': 1.762022182990482e-05, 'epoch': 64.76} {'loss': 0.0365, 'learning_rate': 1.7617823150138164e-05, 'epoch': 64.76} {'loss': 0.0384, 'learning_rate': 1.7615424470371507e-05, 'epoch': 64.77} {'loss': 0.0385, 'learning_rate': 1.761302579060485e-05, 'epoch': 64.77} {'loss': 0.0372, 'learning_rate': 1.7610627110838196e-05, 'epoch': 64.78} {'loss': 0.0371, 'learning_rate': 1.760822843107154e-05, 'epoch': 64.78} {'loss': 0.0387, 'learning_rate': 1.7605829751304885e-05, 'epoch': 64.79} {'loss': 0.0381, 'learning_rate': 1.7603431071538227e-05, 'epoch': 64.79} {'loss': 0.0387, 'learning_rate': 1.760103239177157e-05, 'epoch': 64.8} {'loss': 0.039, 'learning_rate': 1.7598633712004913e-05, 'epoch': 64.8} {'loss': 0.0381, 'learning_rate': 1.7596235032238255e-05, 'epoch': 64.81} {'loss': 0.039, 'learning_rate': 1.75938363524716e-05, 'epoch': 64.81} {'loss': 0.0398, 'learning_rate': 1.7591437672704944e-05, 'epoch': 64.82} {'loss': 0.0369, 'learning_rate': 1.7589038992938287e-05, 'epoch': 64.82} {'loss': 0.039, 'learning_rate': 1.7586640313171633e-05, 'epoch': 64.83} {'loss': 0.0394, 'learning_rate': 1.7584241633404976e-05, 'epoch': 64.83} {'loss': 0.0389, 'learning_rate': 1.758184295363832e-05, 'epoch': 64.84} {'loss': 0.0389, 'learning_rate': 1.757944427387166e-05, 'epoch': 64.84} {'loss': 0.0399, 'learning_rate': 1.7577045594105004e-05, 'epoch': 64.85} {'loss': 0.0374, 'learning_rate': 1.757464691433835e-05, 'epoch': 64.85} {'loss': 0.0355, 'learning_rate': 1.7572248234571693e-05, 'epoch': 64.86} {'loss': 0.037, 'learning_rate': 1.756984955480504e-05, 'epoch': 64.86} {'loss': 0.0378, 'learning_rate': 1.756745087503838e-05, 'epoch': 64.87} {'loss': 0.0401, 'learning_rate': 1.756505219527172e-05, 'epoch': 64.87} {'loss': 0.0364, 'learning_rate': 1.7562653515505067e-05, 'epoch': 64.87} {'loss': 0.0392, 'learning_rate': 1.756025483573841e-05, 'epoch': 64.88} {'loss': 0.0369, 'learning_rate': 1.7557856155971756e-05, 'epoch': 64.88} {'loss': 0.0385, 'learning_rate': 1.7555457476205098e-05, 'epoch': 64.89} {'loss': 0.039, 'learning_rate': 1.755305879643844e-05, 'epoch': 64.89} {'loss': 0.0368, 'learning_rate': 1.7550660116671787e-05, 'epoch': 64.9} {'loss': 0.0388, 'learning_rate': 1.7548261436905126e-05, 'epoch': 64.9} {'loss': 0.0398, 'learning_rate': 1.7545862757138472e-05, 'epoch': 64.91} {'loss': 0.0384, 'learning_rate': 1.7543464077371815e-05, 'epoch': 64.91} {'loss': 0.0369, 'learning_rate': 1.7541065397605158e-05, 'epoch': 64.92} {'loss': 0.0385, 'learning_rate': 1.7538666717838504e-05, 'epoch': 64.92} {'loss': 0.039, 'learning_rate': 1.7536268038071847e-05, 'epoch': 64.93} {'loss': 0.0389, 'learning_rate': 1.753386935830519e-05, 'epoch': 64.93} {'loss': 0.0385, 'learning_rate': 1.7531470678538532e-05, 'epoch': 64.94} {'loss': 0.0372, 'learning_rate': 1.7529071998771875e-05, 'epoch': 64.94} {'loss': 0.0368, 'learning_rate': 1.752667331900522e-05, 'epoch': 64.95} {'loss': 0.0371, 'learning_rate': 1.7524274639238564e-05, 'epoch': 64.95} {'loss': 0.0378, 'learning_rate': 1.7521875959471906e-05, 'epoch': 64.96} {'loss': 0.0389, 'learning_rate': 1.7519477279705252e-05, 'epoch': 64.96} {'loss': 0.0403, 'learning_rate': 1.7517078599938595e-05, 'epoch': 64.97} {'loss': 0.0397, 'learning_rate': 1.7514679920171938e-05, 'epoch': 64.97} {'loss': 0.0357, 'learning_rate': 1.751228124040528e-05, 'epoch': 64.98} {'loss': 0.0393, 'learning_rate': 1.7509882560638623e-05, 'epoch': 64.98} {'loss': 0.0368, 'learning_rate': 1.750748388087197e-05, 'epoch': 64.99} {'loss': 0.038, 'learning_rate': 1.7505085201105312e-05, 'epoch': 64.99} {'loss': 0.0379, 'learning_rate': 1.7502686521338658e-05, 'epoch': 64.99} {'loss': 0.0375, 'learning_rate': 1.7500287841572e-05, 'epoch': 65.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03752722218632698, 'eval_runtime': 740.0494, 'eval_samples_per_second': 563.334, 'eval_steps_per_second': 70.417, 'epoch': 65.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-6774560 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-6774560/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-6774560/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-6670336] due to args.save_total_limit {'loss': 0.0388, 'learning_rate': 1.7497889161805343e-05, 'epoch': 65.0} {'loss': 0.0383, 'learning_rate': 1.7495490482038686e-05, 'epoch': 65.01} {'loss': 0.0362, 'learning_rate': 1.749309180227203e-05, 'epoch': 65.01} {'loss': 0.0382, 'learning_rate': 1.7490693122505375e-05, 'epoch': 65.02} {'loss': 0.0375, 'learning_rate': 1.7488294442738718e-05, 'epoch': 65.02} {'loss': 0.037, 'learning_rate': 1.748589576297206e-05, 'epoch': 65.03} {'loss': 0.037, 'learning_rate': 1.7483497083205406e-05, 'epoch': 65.03} {'loss': 0.0383, 'learning_rate': 1.748109840343875e-05, 'epoch': 65.04} {'loss': 0.0374, 'learning_rate': 1.7478699723672092e-05, 'epoch': 65.04} {'loss': 0.0365, 'learning_rate': 1.7476301043905435e-05, 'epoch': 65.05} {'loss': 0.0371, 'learning_rate': 1.7473902364138777e-05, 'epoch': 65.05} {'loss': 0.0376, 'learning_rate': 1.7471503684372123e-05, 'epoch': 65.06} {'loss': 0.0371, 'learning_rate': 1.7469105004605466e-05, 'epoch': 65.06} {'loss': 0.0361, 'learning_rate': 1.7466706324838812e-05, 'epoch': 65.07} {'loss': 0.0384, 'learning_rate': 1.7464307645072155e-05, 'epoch': 65.07} {'loss': 0.0376, 'learning_rate': 1.7461908965305494e-05, 'epoch': 65.08} {'loss': 0.0378, 'learning_rate': 1.745951028553884e-05, 'epoch': 65.08} {'loss': 0.0374, 'learning_rate': 1.7457111605772183e-05, 'epoch': 65.09} {'loss': 0.037, 'learning_rate': 1.745471292600553e-05, 'epoch': 65.09} {'loss': 0.0358, 'learning_rate': 1.7452314246238872e-05, 'epoch': 65.1} {'loss': 0.0379, 'learning_rate': 1.7449915566472214e-05, 'epoch': 65.1} {'loss': 0.0396, 'learning_rate': 1.744751688670556e-05, 'epoch': 65.1} {'loss': 0.0355, 'learning_rate': 1.74451182069389e-05, 'epoch': 65.11} {'loss': 0.0379, 'learning_rate': 1.7442719527172246e-05, 'epoch': 65.11} {'loss': 0.0372, 'learning_rate': 1.744032084740559e-05, 'epoch': 65.12} {'loss': 0.0377, 'learning_rate': 1.743792216763893e-05, 'epoch': 65.12} {'loss': 0.037, 'learning_rate': 1.7435523487872277e-05, 'epoch': 65.13} {'loss': 0.0382, 'learning_rate': 1.743312480810562e-05, 'epoch': 65.13} {'loss': 0.0377, 'learning_rate': 1.7430726128338963e-05, 'epoch': 65.14} {'loss': 0.0384, 'learning_rate': 1.7428327448572306e-05, 'epoch': 65.14} {'loss': 0.0365, 'learning_rate': 1.7425928768805648e-05, 'epoch': 65.15} {'loss': 0.0378, 'learning_rate': 1.7423530089038994e-05, 'epoch': 65.15} {'loss': 0.0372, 'learning_rate': 1.7421131409272337e-05, 'epoch': 65.16} {'loss': 0.0377, 'learning_rate': 1.741873272950568e-05, 'epoch': 65.16} {'loss': 0.0371, 'learning_rate': 1.7416334049739026e-05, 'epoch': 65.17} {'loss': 0.0386, 'learning_rate': 1.741393536997237e-05, 'epoch': 65.17} {'loss': 0.0371, 'learning_rate': 1.741153669020571e-05, 'epoch': 65.18} {'loss': 0.0371, 'learning_rate': 1.7409138010439054e-05, 'epoch': 65.18} {'loss': 0.0361, 'learning_rate': 1.7406739330672397e-05, 'epoch': 65.19} {'loss': 0.0385, 'learning_rate': 1.7404340650905743e-05, 'epoch': 65.19} {'loss': 0.0372, 'learning_rate': 1.7401941971139085e-05, 'epoch': 65.2} {'loss': 0.0378, 'learning_rate': 1.739954329137243e-05, 'epoch': 65.2} {'loss': 0.0383, 'learning_rate': 1.7397144611605774e-05, 'epoch': 65.21} {'loss': 0.0385, 'learning_rate': 1.7394745931839117e-05, 'epoch': 65.21} {'loss': 0.0353, 'learning_rate': 1.739234725207246e-05, 'epoch': 65.22} {'loss': 0.0362, 'learning_rate': 1.7389948572305802e-05, 'epoch': 65.22} {'loss': 0.0375, 'learning_rate': 1.738754989253915e-05, 'epoch': 65.22} {'loss': 0.0365, 'learning_rate': 1.738515121277249e-05, 'epoch': 65.23} {'loss': 0.0381, 'learning_rate': 1.7382752533005834e-05, 'epoch': 65.23} {'loss': 0.039, 'learning_rate': 1.738035385323918e-05, 'epoch': 65.24} {'loss': 0.0383, 'learning_rate': 1.7377955173472523e-05, 'epoch': 65.24} {'loss': 0.0356, 'learning_rate': 1.7375556493705865e-05, 'epoch': 65.25} {'loss': 0.0357, 'learning_rate': 1.7373157813939208e-05, 'epoch': 65.25} {'loss': 0.0384, 'learning_rate': 1.737075913417255e-05, 'epoch': 65.26} {'loss': 0.039, 'learning_rate': 1.7368360454405897e-05, 'epoch': 65.26} {'loss': 0.0385, 'learning_rate': 1.736596177463924e-05, 'epoch': 65.27} {'loss': 0.0356, 'learning_rate': 1.7363563094872586e-05, 'epoch': 65.27} {'loss': 0.0386, 'learning_rate': 1.7361164415105925e-05, 'epoch': 65.28} {'loss': 0.0362, 'learning_rate': 1.7358765735339268e-05, 'epoch': 65.28} {'loss': 0.037, 'learning_rate': 1.7356367055572614e-05, 'epoch': 65.29} {'loss': 0.037, 'learning_rate': 1.7353968375805956e-05, 'epoch': 65.29} {'loss': 0.0381, 'learning_rate': 1.7351569696039303e-05, 'epoch': 65.3} {'loss': 0.0389, 'learning_rate': 1.7349171016272645e-05, 'epoch': 65.3} {'loss': 0.0377, 'learning_rate': 1.7346772336505988e-05, 'epoch': 65.31} {'loss': 0.0383, 'learning_rate': 1.734437365673933e-05, 'epoch': 65.31} {'loss': 0.0361, 'learning_rate': 1.7341974976972673e-05, 'epoch': 65.32} {'loss': 0.037, 'learning_rate': 1.733957629720602e-05, 'epoch': 65.32} {'loss': 0.0381, 'learning_rate': 1.7337177617439362e-05, 'epoch': 65.33} {'loss': 0.0364, 'learning_rate': 1.7334778937672705e-05, 'epoch': 65.33} {'loss': 0.0369, 'learning_rate': 1.733238025790605e-05, 'epoch': 65.34} {'loss': 0.0383, 'learning_rate': 1.7329981578139394e-05, 'epoch': 65.34} {'loss': 0.0372, 'learning_rate': 1.7327582898372736e-05, 'epoch': 65.34} {'loss': 0.0362, 'learning_rate': 1.732518421860608e-05, 'epoch': 65.35} {'loss': 0.037, 'learning_rate': 1.7322785538839422e-05, 'epoch': 65.35} {'loss': 0.0378, 'learning_rate': 1.7320386859072768e-05, 'epoch': 65.36} {'loss': 0.0363, 'learning_rate': 1.731798817930611e-05, 'epoch': 65.36} {'loss': 0.0385, 'learning_rate': 1.7315589499539453e-05, 'epoch': 65.37} {'loss': 0.0388, 'learning_rate': 1.73131908197728e-05, 'epoch': 65.37} {'loss': 0.0378, 'learning_rate': 1.7310792140006142e-05, 'epoch': 65.38} {'loss': 0.0361, 'learning_rate': 1.7308393460239485e-05, 'epoch': 65.38} {'loss': 0.0367, 'learning_rate': 1.7305994780472827e-05, 'epoch': 65.39} {'loss': 0.0402, 'learning_rate': 1.730359610070617e-05, 'epoch': 65.39} {'loss': 0.0383, 'learning_rate': 1.7301197420939516e-05, 'epoch': 65.4} {'loss': 0.0371, 'learning_rate': 1.729879874117286e-05, 'epoch': 65.4} {'loss': 0.0395, 'learning_rate': 1.7296400061406205e-05, 'epoch': 65.41} {'loss': 0.0382, 'learning_rate': 1.7294001381639548e-05, 'epoch': 65.41} {'loss': 0.0366, 'learning_rate': 1.729160270187289e-05, 'epoch': 65.42} {'loss': 0.0388, 'learning_rate': 1.7289204022106233e-05, 'epoch': 65.42} {'loss': 0.0373, 'learning_rate': 1.7286805342339576e-05, 'epoch': 65.43} {'loss': 0.0367, 'learning_rate': 1.7284406662572922e-05, 'epoch': 65.43} {'loss': 0.0381, 'learning_rate': 1.7282007982806265e-05, 'epoch': 65.44} {'loss': 0.0376, 'learning_rate': 1.7279609303039607e-05, 'epoch': 65.44} {'loss': 0.0363, 'learning_rate': 1.7277210623272953e-05, 'epoch': 65.45} {'loss': 0.036, 'learning_rate': 1.7274811943506293e-05, 'epoch': 65.45} {'loss': 0.038, 'learning_rate': 1.727241326373964e-05, 'epoch': 65.46} {'loss': 0.0392, 'learning_rate': 1.727001458397298e-05, 'epoch': 65.46} {'loss': 0.0378, 'learning_rate': 1.7267615904206324e-05, 'epoch': 65.46} {'loss': 0.0373, 'learning_rate': 1.726521722443967e-05, 'epoch': 65.47} {'loss': 0.0378, 'learning_rate': 1.7262818544673013e-05, 'epoch': 65.47} {'loss': 0.0379, 'learning_rate': 1.726041986490636e-05, 'epoch': 65.48} {'loss': 0.0377, 'learning_rate': 1.72580211851397e-05, 'epoch': 65.48} {'loss': 0.0379, 'learning_rate': 1.725562250537304e-05, 'epoch': 65.49} {'loss': 0.0392, 'learning_rate': 1.7253223825606387e-05, 'epoch': 65.49} {'loss': 0.0374, 'learning_rate': 1.725082514583973e-05, 'epoch': 65.5} {'loss': 0.0375, 'learning_rate': 1.7248426466073076e-05, 'epoch': 65.5} {'loss': 0.0365, 'learning_rate': 1.724602778630642e-05, 'epoch': 65.51} {'loss': 0.0363, 'learning_rate': 1.724362910653976e-05, 'epoch': 65.51} {'loss': 0.0371, 'learning_rate': 1.7241230426773104e-05, 'epoch': 65.52} {'loss': 0.0371, 'learning_rate': 1.7238831747006447e-05, 'epoch': 65.52} {'loss': 0.0361, 'learning_rate': 1.7236433067239793e-05, 'epoch': 65.53} {'loss': 0.0372, 'learning_rate': 1.7234034387473136e-05, 'epoch': 65.53} {'loss': 0.0364, 'learning_rate': 1.723163570770648e-05, 'epoch': 65.54} {'loss': 0.0367, 'learning_rate': 1.7229237027939824e-05, 'epoch': 65.54} {'loss': 0.0377, 'learning_rate': 1.7226838348173167e-05, 'epoch': 65.55} {'loss': 0.0371, 'learning_rate': 1.722443966840651e-05, 'epoch': 65.55} {'loss': 0.0383, 'learning_rate': 1.7222040988639853e-05, 'epoch': 65.56} {'loss': 0.0374, 'learning_rate': 1.7219642308873195e-05, 'epoch': 65.56} {'loss': 0.0394, 'learning_rate': 1.721724362910654e-05, 'epoch': 65.57} {'loss': 0.0381, 'learning_rate': 1.7214844949339884e-05, 'epoch': 65.57} {'loss': 0.0364, 'learning_rate': 1.7212446269573227e-05, 'epoch': 65.58} {'loss': 0.0364, 'learning_rate': 1.7210047589806573e-05, 'epoch': 65.58} {'loss': 0.0361, 'learning_rate': 1.7207648910039916e-05, 'epoch': 65.58} {'loss': 0.04, 'learning_rate': 1.7205250230273258e-05, 'epoch': 65.59} {'loss': 0.0382, 'learning_rate': 1.72028515505066e-05, 'epoch': 65.59} {'loss': 0.0376, 'learning_rate': 1.7200452870739944e-05, 'epoch': 65.6} {'loss': 0.0368, 'learning_rate': 1.719805419097329e-05, 'epoch': 65.6} {'loss': 0.0378, 'learning_rate': 1.7195655511206632e-05, 'epoch': 65.61} {'loss': 0.0381, 'learning_rate': 1.719325683143998e-05, 'epoch': 65.61} {'loss': 0.037, 'learning_rate': 1.719085815167332e-05, 'epoch': 65.62} {'loss': 0.0376, 'learning_rate': 1.718845947190666e-05, 'epoch': 65.62} {'loss': 0.0365, 'learning_rate': 1.7186060792140007e-05, 'epoch': 65.63} {'loss': 0.038, 'learning_rate': 1.718366211237335e-05, 'epoch': 65.63} {'loss': 0.039, 'learning_rate': 1.7181263432606695e-05, 'epoch': 65.64} {'loss': 0.038, 'learning_rate': 1.7178864752840038e-05, 'epoch': 65.64} {'loss': 0.039, 'learning_rate': 1.717646607307338e-05, 'epoch': 65.65} {'loss': 0.0371, 'learning_rate': 1.7174067393306727e-05, 'epoch': 65.65} {'loss': 0.0372, 'learning_rate': 1.7171668713540066e-05, 'epoch': 65.66} {'loss': 0.0375, 'learning_rate': 1.7169270033773412e-05, 'epoch': 65.66} {'loss': 0.0378, 'learning_rate': 1.7166871354006755e-05, 'epoch': 65.67} {'loss': 0.0377, 'learning_rate': 1.7164472674240098e-05, 'epoch': 65.67} {'loss': 0.038, 'learning_rate': 1.7162073994473444e-05, 'epoch': 65.68} {'loss': 0.0376, 'learning_rate': 1.7159675314706787e-05, 'epoch': 65.68} {'loss': 0.0379, 'learning_rate': 1.715727663494013e-05, 'epoch': 65.69} {'loss': 0.0376, 'learning_rate': 1.7154877955173472e-05, 'epoch': 65.69} {'loss': 0.0386, 'learning_rate': 1.7152479275406815e-05, 'epoch': 65.7} {'loss': 0.0364, 'learning_rate': 1.715008059564016e-05, 'epoch': 65.7} {'loss': 0.039, 'learning_rate': 1.7147681915873503e-05, 'epoch': 65.7} {'loss': 0.0387, 'learning_rate': 1.714528323610685e-05, 'epoch': 65.71} {'loss': 0.0378, 'learning_rate': 1.7142884556340192e-05, 'epoch': 65.71} {'loss': 0.0373, 'learning_rate': 1.7140485876573535e-05, 'epoch': 65.72} {'loss': 0.0374, 'learning_rate': 1.7138087196806878e-05, 'epoch': 65.72} {'loss': 0.0386, 'learning_rate': 1.713568851704022e-05, 'epoch': 65.73} {'loss': 0.0362, 'learning_rate': 1.7133289837273566e-05, 'epoch': 65.73} {'loss': 0.0381, 'learning_rate': 1.713089115750691e-05, 'epoch': 65.74} {'loss': 0.0382, 'learning_rate': 1.7128492477740252e-05, 'epoch': 65.74} {'loss': 0.0382, 'learning_rate': 1.7126093797973598e-05, 'epoch': 65.75} {'loss': 0.0373, 'learning_rate': 1.712369511820694e-05, 'epoch': 65.75} {'loss': 0.0397, 'learning_rate': 1.7121296438440283e-05, 'epoch': 65.76} {'loss': 0.0389, 'learning_rate': 1.7118897758673626e-05, 'epoch': 65.76} {'loss': 0.0353, 'learning_rate': 1.711649907890697e-05, 'epoch': 65.77} {'loss': 0.0363, 'learning_rate': 1.7114100399140315e-05, 'epoch': 65.77} {'loss': 0.0375, 'learning_rate': 1.7111701719373658e-05, 'epoch': 65.78} {'loss': 0.037, 'learning_rate': 1.7109303039607e-05, 'epoch': 65.78} {'loss': 0.0366, 'learning_rate': 1.7106904359840346e-05, 'epoch': 65.79} {'loss': 0.0394, 'learning_rate': 1.710450568007369e-05, 'epoch': 65.79} {'loss': 0.0364, 'learning_rate': 1.7102107000307032e-05, 'epoch': 65.8} {'loss': 0.0353, 'learning_rate': 1.7099708320540374e-05, 'epoch': 65.8} {'loss': 0.0364, 'learning_rate': 1.7097309640773717e-05, 'epoch': 65.81} {'loss': 0.0375, 'learning_rate': 1.7094910961007063e-05, 'epoch': 65.81} {'loss': 0.0387, 'learning_rate': 1.7092512281240406e-05, 'epoch': 65.81} {'loss': 0.0375, 'learning_rate': 1.7090113601473752e-05, 'epoch': 65.82} {'loss': 0.0397, 'learning_rate': 1.7087714921707095e-05, 'epoch': 65.82} {'loss': 0.0387, 'learning_rate': 1.7085316241940434e-05, 'epoch': 65.83} {'loss': 0.0378, 'learning_rate': 1.708291756217378e-05, 'epoch': 65.83} {'loss': 0.0383, 'learning_rate': 1.7080518882407123e-05, 'epoch': 65.84} {'loss': 0.0378, 'learning_rate': 1.707812020264047e-05, 'epoch': 65.84} {'loss': 0.0362, 'learning_rate': 1.707572152287381e-05, 'epoch': 65.85} {'loss': 0.0376, 'learning_rate': 1.7073322843107154e-05, 'epoch': 65.85} {'loss': 0.0395, 'learning_rate': 1.7070924163340497e-05, 'epoch': 65.86} {'loss': 0.0356, 'learning_rate': 1.706852548357384e-05, 'epoch': 65.86} {'loss': 0.0365, 'learning_rate': 1.7066126803807186e-05, 'epoch': 65.87} {'loss': 0.0382, 'learning_rate': 1.706372812404053e-05, 'epoch': 65.87} {'loss': 0.0359, 'learning_rate': 1.706132944427387e-05, 'epoch': 65.88} {'loss': 0.0374, 'learning_rate': 1.7058930764507217e-05, 'epoch': 65.88} {'loss': 0.0358, 'learning_rate': 1.705653208474056e-05, 'epoch': 65.89} {'loss': 0.0377, 'learning_rate': 1.7054133404973903e-05, 'epoch': 65.89} {'loss': 0.0362, 'learning_rate': 1.7051734725207245e-05, 'epoch': 65.9} {'loss': 0.0387, 'learning_rate': 1.7049336045440588e-05, 'epoch': 65.9} {'loss': 0.0385, 'learning_rate': 1.7046937365673934e-05, 'epoch': 65.91} {'loss': 0.038, 'learning_rate': 1.7044538685907277e-05, 'epoch': 65.91} {'loss': 0.0369, 'learning_rate': 1.7042140006140623e-05, 'epoch': 65.92} {'loss': 0.0365, 'learning_rate': 1.7039741326373966e-05, 'epoch': 65.92} {'loss': 0.0359, 'learning_rate': 1.703734264660731e-05, 'epoch': 65.93} {'loss': 0.0378, 'learning_rate': 1.703494396684065e-05, 'epoch': 65.93} {'loss': 0.0392, 'learning_rate': 1.7032545287073994e-05, 'epoch': 65.93} {'loss': 0.037, 'learning_rate': 1.703014660730734e-05, 'epoch': 65.94} {'loss': 0.0358, 'learning_rate': 1.7027747927540683e-05, 'epoch': 65.94} {'loss': 0.0386, 'learning_rate': 1.7025349247774025e-05, 'epoch': 65.95} {'loss': 0.0367, 'learning_rate': 1.702295056800737e-05, 'epoch': 65.95} {'loss': 0.0361, 'learning_rate': 1.7020551888240714e-05, 'epoch': 65.96} {'loss': 0.0389, 'learning_rate': 1.7018153208474057e-05, 'epoch': 65.96} {'loss': 0.0363, 'learning_rate': 1.70157545287074e-05, 'epoch': 65.97} {'loss': 0.0383, 'learning_rate': 1.7013355848940742e-05, 'epoch': 65.97} {'loss': 0.039, 'learning_rate': 1.701095716917409e-05, 'epoch': 65.98} {'loss': 0.0368, 'learning_rate': 1.700855848940743e-05, 'epoch': 65.98} {'loss': 0.0375, 'learning_rate': 1.7006159809640774e-05, 'epoch': 65.99} {'loss': 0.0391, 'learning_rate': 1.700376112987412e-05, 'epoch': 65.99} {'loss': 0.0379, 'learning_rate': 1.700136245010746e-05, 'epoch': 66.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03755791857838631, 'eval_runtime': 735.7079, 'eval_samples_per_second': 566.658, 'eval_steps_per_second': 70.832, 'epoch': 66.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-6878784 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-6878784/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-6878784/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-6774560] due to args.save_total_limit {'loss': 0.0372, 'learning_rate': 1.6998963770340805e-05, 'epoch': 66.0} {'loss': 0.036, 'learning_rate': 1.6996565090574148e-05, 'epoch': 66.01} {'loss': 0.0361, 'learning_rate': 1.699416641080749e-05, 'epoch': 66.01} {'loss': 0.0379, 'learning_rate': 1.6991767731040837e-05, 'epoch': 66.02} {'loss': 0.037, 'learning_rate': 1.698936905127418e-05, 'epoch': 66.02} {'loss': 0.0374, 'learning_rate': 1.6986970371507526e-05, 'epoch': 66.03} {'loss': 0.0368, 'learning_rate': 1.6984571691740865e-05, 'epoch': 66.03} {'loss': 0.0375, 'learning_rate': 1.6982173011974208e-05, 'epoch': 66.04} {'loss': 0.0386, 'learning_rate': 1.6979774332207554e-05, 'epoch': 66.04} {'loss': 0.0377, 'learning_rate': 1.6977375652440896e-05, 'epoch': 66.05} {'loss': 0.0369, 'learning_rate': 1.6974976972674242e-05, 'epoch': 66.05} {'loss': 0.0382, 'learning_rate': 1.6972578292907585e-05, 'epoch': 66.05} {'loss': 0.0376, 'learning_rate': 1.6970179613140928e-05, 'epoch': 66.06} {'loss': 0.0346, 'learning_rate': 1.696778093337427e-05, 'epoch': 66.06} {'loss': 0.0381, 'learning_rate': 1.6965382253607613e-05, 'epoch': 66.07} {'loss': 0.0372, 'learning_rate': 1.696298357384096e-05, 'epoch': 66.07} {'loss': 0.0364, 'learning_rate': 1.6960584894074302e-05, 'epoch': 66.08} {'loss': 0.0351, 'learning_rate': 1.6958186214307645e-05, 'epoch': 66.08} {'loss': 0.0367, 'learning_rate': 1.695578753454099e-05, 'epoch': 66.09} {'loss': 0.0372, 'learning_rate': 1.6953388854774334e-05, 'epoch': 66.09} {'loss': 0.0369, 'learning_rate': 1.6950990175007676e-05, 'epoch': 66.1} {'loss': 0.0367, 'learning_rate': 1.694859149524102e-05, 'epoch': 66.1} {'loss': 0.0384, 'learning_rate': 1.694619281547436e-05, 'epoch': 66.11} {'loss': 0.0365, 'learning_rate': 1.6943794135707708e-05, 'epoch': 66.11} {'loss': 0.0379, 'learning_rate': 1.694139545594105e-05, 'epoch': 66.12} {'loss': 0.038, 'learning_rate': 1.6938996776174397e-05, 'epoch': 66.12} {'loss': 0.0381, 'learning_rate': 1.693659809640774e-05, 'epoch': 66.13} {'loss': 0.0375, 'learning_rate': 1.6934199416641082e-05, 'epoch': 66.13} {'loss': 0.0386, 'learning_rate': 1.6931800736874425e-05, 'epoch': 66.14} {'loss': 0.0355, 'learning_rate': 1.6929402057107767e-05, 'epoch': 66.14} {'loss': 0.0384, 'learning_rate': 1.6927003377341113e-05, 'epoch': 66.15} {'loss': 0.0374, 'learning_rate': 1.6924604697574456e-05, 'epoch': 66.15} {'loss': 0.0381, 'learning_rate': 1.69222060178078e-05, 'epoch': 66.16} {'loss': 0.0391, 'learning_rate': 1.6919807338041145e-05, 'epoch': 66.16} {'loss': 0.0367, 'learning_rate': 1.6917408658274488e-05, 'epoch': 66.17} {'loss': 0.038, 'learning_rate': 1.691500997850783e-05, 'epoch': 66.17} {'loss': 0.0358, 'learning_rate': 1.6912611298741173e-05, 'epoch': 66.17} {'loss': 0.0362, 'learning_rate': 1.6910212618974516e-05, 'epoch': 66.18} {'loss': 0.0363, 'learning_rate': 1.6907813939207862e-05, 'epoch': 66.18} {'loss': 0.0394, 'learning_rate': 1.6905415259441205e-05, 'epoch': 66.19} {'loss': 0.0354, 'learning_rate': 1.690301657967455e-05, 'epoch': 66.19} {'loss': 0.0371, 'learning_rate': 1.6900617899907893e-05, 'epoch': 66.2} {'loss': 0.0349, 'learning_rate': 1.6898219220141233e-05, 'epoch': 66.2} {'loss': 0.0366, 'learning_rate': 1.689582054037458e-05, 'epoch': 66.21} {'loss': 0.0366, 'learning_rate': 1.689342186060792e-05, 'epoch': 66.21} {'loss': 0.0396, 'learning_rate': 1.6891023180841264e-05, 'epoch': 66.22} {'loss': 0.0358, 'learning_rate': 1.688862450107461e-05, 'epoch': 66.22} {'loss': 0.0385, 'learning_rate': 1.6886225821307953e-05, 'epoch': 66.23} {'loss': 0.0362, 'learning_rate': 1.68838271415413e-05, 'epoch': 66.23} {'loss': 0.0355, 'learning_rate': 1.688142846177464e-05, 'epoch': 66.24} {'loss': 0.0356, 'learning_rate': 1.687902978200798e-05, 'epoch': 66.24} {'loss': 0.0364, 'learning_rate': 1.6876631102241327e-05, 'epoch': 66.25} {'loss': 0.0365, 'learning_rate': 1.687423242247467e-05, 'epoch': 66.25} {'loss': 0.0365, 'learning_rate': 1.6871833742708016e-05, 'epoch': 66.26} {'loss': 0.0391, 'learning_rate': 1.686943506294136e-05, 'epoch': 66.26} {'loss': 0.0378, 'learning_rate': 1.68670363831747e-05, 'epoch': 66.27} {'loss': 0.0375, 'learning_rate': 1.6864637703408044e-05, 'epoch': 66.27} {'loss': 0.0363, 'learning_rate': 1.6862239023641387e-05, 'epoch': 66.28} {'loss': 0.0365, 'learning_rate': 1.6859840343874733e-05, 'epoch': 66.28} {'loss': 0.0371, 'learning_rate': 1.6857441664108076e-05, 'epoch': 66.29} {'loss': 0.0361, 'learning_rate': 1.6855042984341418e-05, 'epoch': 66.29} {'loss': 0.0363, 'learning_rate': 1.6852644304574764e-05, 'epoch': 66.29} {'loss': 0.0364, 'learning_rate': 1.6850245624808107e-05, 'epoch': 66.3} {'loss': 0.0363, 'learning_rate': 1.684784694504145e-05, 'epoch': 66.3} {'loss': 0.0341, 'learning_rate': 1.6845448265274792e-05, 'epoch': 66.31} {'loss': 0.0379, 'learning_rate': 1.6843049585508135e-05, 'epoch': 66.31} {'loss': 0.0341, 'learning_rate': 1.684065090574148e-05, 'epoch': 66.32} {'loss': 0.0377, 'learning_rate': 1.6838252225974824e-05, 'epoch': 66.32} {'loss': 0.0377, 'learning_rate': 1.683585354620817e-05, 'epoch': 66.33} {'loss': 0.0365, 'learning_rate': 1.6833454866441513e-05, 'epoch': 66.33} {'loss': 0.0373, 'learning_rate': 1.6831056186674855e-05, 'epoch': 66.34} {'loss': 0.0342, 'learning_rate': 1.6828657506908198e-05, 'epoch': 66.34} {'loss': 0.0366, 'learning_rate': 1.682625882714154e-05, 'epoch': 66.35} {'loss': 0.0358, 'learning_rate': 1.6823860147374887e-05, 'epoch': 66.35} {'loss': 0.0381, 'learning_rate': 1.682146146760823e-05, 'epoch': 66.36} {'loss': 0.0373, 'learning_rate': 1.6819062787841572e-05, 'epoch': 66.36} {'loss': 0.0349, 'learning_rate': 1.681666410807492e-05, 'epoch': 66.37} {'loss': 0.0373, 'learning_rate': 1.681426542830826e-05, 'epoch': 66.37} {'loss': 0.0373, 'learning_rate': 1.6811866748541604e-05, 'epoch': 66.38} {'loss': 0.0385, 'learning_rate': 1.6809468068774947e-05, 'epoch': 66.38} {'loss': 0.0359, 'learning_rate': 1.680706938900829e-05, 'epoch': 66.39} {'loss': 0.0377, 'learning_rate': 1.6804670709241635e-05, 'epoch': 66.39} {'loss': 0.0394, 'learning_rate': 1.6802272029474978e-05, 'epoch': 66.4} {'loss': 0.0389, 'learning_rate': 1.6799873349708324e-05, 'epoch': 66.4} {'loss': 0.0378, 'learning_rate': 1.6797474669941667e-05, 'epoch': 66.41} {'loss': 0.0368, 'learning_rate': 1.6795075990175006e-05, 'epoch': 66.41} {'loss': 0.0374, 'learning_rate': 1.6792677310408352e-05, 'epoch': 66.41} {'loss': 0.0381, 'learning_rate': 1.6790278630641695e-05, 'epoch': 66.42} {'loss': 0.0381, 'learning_rate': 1.6787879950875038e-05, 'epoch': 66.42} {'loss': 0.0385, 'learning_rate': 1.6785481271108384e-05, 'epoch': 66.43} {'loss': 0.0363, 'learning_rate': 1.6783082591341726e-05, 'epoch': 66.43} {'loss': 0.0382, 'learning_rate': 1.678068391157507e-05, 'epoch': 66.44} {'loss': 0.0357, 'learning_rate': 1.6778285231808412e-05, 'epoch': 66.44} {'loss': 0.0376, 'learning_rate': 1.6775886552041755e-05, 'epoch': 66.45} {'loss': 0.039, 'learning_rate': 1.67734878722751e-05, 'epoch': 66.45} {'loss': 0.0377, 'learning_rate': 1.6771089192508443e-05, 'epoch': 66.46} {'loss': 0.0366, 'learning_rate': 1.676869051274179e-05, 'epoch': 66.46} {'loss': 0.0351, 'learning_rate': 1.6766291832975132e-05, 'epoch': 66.47} {'loss': 0.0379, 'learning_rate': 1.6763893153208475e-05, 'epoch': 66.47} {'loss': 0.0374, 'learning_rate': 1.6761494473441818e-05, 'epoch': 66.48} {'loss': 0.0383, 'learning_rate': 1.675909579367516e-05, 'epoch': 66.48} {'loss': 0.0367, 'learning_rate': 1.6756697113908506e-05, 'epoch': 66.49} {'loss': 0.0363, 'learning_rate': 1.675429843414185e-05, 'epoch': 66.49} {'loss': 0.0382, 'learning_rate': 1.6751899754375192e-05, 'epoch': 66.5} {'loss': 0.0374, 'learning_rate': 1.6749501074608538e-05, 'epoch': 66.5} {'loss': 0.0373, 'learning_rate': 1.674710239484188e-05, 'epoch': 66.51} {'loss': 0.0373, 'learning_rate': 1.6744703715075223e-05, 'epoch': 66.51} {'loss': 0.0366, 'learning_rate': 1.6742305035308566e-05, 'epoch': 66.52} {'loss': 0.0371, 'learning_rate': 1.673990635554191e-05, 'epoch': 66.52} {'loss': 0.0362, 'learning_rate': 1.6737507675775255e-05, 'epoch': 66.52} {'loss': 0.0358, 'learning_rate': 1.6735108996008597e-05, 'epoch': 66.53} {'loss': 0.0372, 'learning_rate': 1.6732710316241944e-05, 'epoch': 66.53} {'loss': 0.0384, 'learning_rate': 1.6730311636475286e-05, 'epoch': 66.54} {'loss': 0.0381, 'learning_rate': 1.672791295670863e-05, 'epoch': 66.54} {'loss': 0.0351, 'learning_rate': 1.672551427694197e-05, 'epoch': 66.55} {'loss': 0.0352, 'learning_rate': 1.6723115597175314e-05, 'epoch': 66.55} {'loss': 0.0384, 'learning_rate': 1.672071691740866e-05, 'epoch': 66.56} {'loss': 0.0368, 'learning_rate': 1.6718318237642003e-05, 'epoch': 66.56} {'loss': 0.0368, 'learning_rate': 1.6715919557875346e-05, 'epoch': 66.57} {'loss': 0.0363, 'learning_rate': 1.6713520878108692e-05, 'epoch': 66.57} {'loss': 0.0375, 'learning_rate': 1.671112219834203e-05, 'epoch': 66.58} {'loss': 0.0369, 'learning_rate': 1.6708723518575377e-05, 'epoch': 66.58} {'loss': 0.0373, 'learning_rate': 1.670632483880872e-05, 'epoch': 66.59} {'loss': 0.0374, 'learning_rate': 1.6703926159042063e-05, 'epoch': 66.59} {'loss': 0.0372, 'learning_rate': 1.670152747927541e-05, 'epoch': 66.6} {'loss': 0.0367, 'learning_rate': 1.669912879950875e-05, 'epoch': 66.6} {'loss': 0.0384, 'learning_rate': 1.6696730119742098e-05, 'epoch': 66.61} {'loss': 0.0359, 'learning_rate': 1.6694331439975437e-05, 'epoch': 66.61} {'loss': 0.0377, 'learning_rate': 1.669193276020878e-05, 'epoch': 66.62} {'loss': 0.0347, 'learning_rate': 1.6689534080442126e-05, 'epoch': 66.62} {'loss': 0.039, 'learning_rate': 1.668713540067547e-05, 'epoch': 66.63} {'loss': 0.0348, 'learning_rate': 1.668473672090881e-05, 'epoch': 66.63} {'loss': 0.039, 'learning_rate': 1.6682338041142157e-05, 'epoch': 66.64} {'loss': 0.0386, 'learning_rate': 1.66799393613755e-05, 'epoch': 66.64} {'loss': 0.037, 'learning_rate': 1.6677540681608843e-05, 'epoch': 66.64} {'loss': 0.0388, 'learning_rate': 1.6675142001842185e-05, 'epoch': 66.65} {'loss': 0.0377, 'learning_rate': 1.6672743322075528e-05, 'epoch': 66.65} {'loss': 0.0371, 'learning_rate': 1.6670344642308874e-05, 'epoch': 66.66} {'loss': 0.0371, 'learning_rate': 1.6667945962542217e-05, 'epoch': 66.66} {'loss': 0.0368, 'learning_rate': 1.6665547282775563e-05, 'epoch': 66.67} {'loss': 0.0374, 'learning_rate': 1.6663148603008906e-05, 'epoch': 66.67} {'loss': 0.0386, 'learning_rate': 1.666074992324225e-05, 'epoch': 66.68} {'loss': 0.0382, 'learning_rate': 1.665835124347559e-05, 'epoch': 66.68} {'loss': 0.0377, 'learning_rate': 1.6655952563708934e-05, 'epoch': 66.69} {'loss': 0.0359, 'learning_rate': 1.665355388394228e-05, 'epoch': 66.69} {'loss': 0.0379, 'learning_rate': 1.6651155204175623e-05, 'epoch': 66.7} {'loss': 0.0364, 'learning_rate': 1.6648756524408965e-05, 'epoch': 66.7} {'loss': 0.0369, 'learning_rate': 1.664635784464231e-05, 'epoch': 66.71} {'loss': 0.0363, 'learning_rate': 1.6643959164875654e-05, 'epoch': 66.71} {'loss': 0.0398, 'learning_rate': 1.6641560485108997e-05, 'epoch': 66.72} {'loss': 0.0368, 'learning_rate': 1.663916180534234e-05, 'epoch': 66.72} {'loss': 0.0342, 'learning_rate': 1.6636763125575682e-05, 'epoch': 66.73} {'loss': 0.038, 'learning_rate': 1.6634364445809028e-05, 'epoch': 66.73} {'loss': 0.0379, 'learning_rate': 1.663196576604237e-05, 'epoch': 66.74} {'loss': 0.0373, 'learning_rate': 1.6629567086275717e-05, 'epoch': 66.74} {'loss': 0.0387, 'learning_rate': 1.662716840650906e-05, 'epoch': 66.75} {'loss': 0.0359, 'learning_rate': 1.66247697267424e-05, 'epoch': 66.75} {'loss': 0.0377, 'learning_rate': 1.6622371046975745e-05, 'epoch': 66.76} {'loss': 0.0374, 'learning_rate': 1.6619972367209088e-05, 'epoch': 66.76} {'loss': 0.0358, 'learning_rate': 1.6617573687442434e-05, 'epoch': 66.76} {'loss': 0.0362, 'learning_rate': 1.6615175007675777e-05, 'epoch': 66.77} {'loss': 0.037, 'learning_rate': 1.661277632790912e-05, 'epoch': 66.77} {'loss': 0.0351, 'learning_rate': 1.6610377648142465e-05, 'epoch': 66.78} {'loss': 0.0363, 'learning_rate': 1.6607978968375805e-05, 'epoch': 66.78} {'loss': 0.0362, 'learning_rate': 1.660558028860915e-05, 'epoch': 66.79} {'loss': 0.0361, 'learning_rate': 1.6603181608842494e-05, 'epoch': 66.79} {'loss': 0.0366, 'learning_rate': 1.6600782929075836e-05, 'epoch': 66.8} {'loss': 0.0379, 'learning_rate': 1.6598384249309182e-05, 'epoch': 66.8} {'loss': 0.0379, 'learning_rate': 1.6595985569542525e-05, 'epoch': 66.81} {'loss': 0.0373, 'learning_rate': 1.659358688977587e-05, 'epoch': 66.81} {'loss': 0.0364, 'learning_rate': 1.659118821000921e-05, 'epoch': 66.82} {'loss': 0.0363, 'learning_rate': 1.6588789530242553e-05, 'epoch': 66.82} {'loss': 0.0377, 'learning_rate': 1.65863908504759e-05, 'epoch': 66.83} {'loss': 0.0385, 'learning_rate': 1.6583992170709242e-05, 'epoch': 66.83} {'loss': 0.0373, 'learning_rate': 1.6581593490942585e-05, 'epoch': 66.84} {'loss': 0.0367, 'learning_rate': 1.657919481117593e-05, 'epoch': 66.84} {'loss': 0.0376, 'learning_rate': 1.6576796131409273e-05, 'epoch': 66.85} {'loss': 0.0382, 'learning_rate': 1.6574397451642616e-05, 'epoch': 66.85} {'loss': 0.0376, 'learning_rate': 1.657199877187596e-05, 'epoch': 66.86} {'loss': 0.0378, 'learning_rate': 1.65696000921093e-05, 'epoch': 66.86} {'loss': 0.0369, 'learning_rate': 1.6567201412342648e-05, 'epoch': 66.87} {'loss': 0.0366, 'learning_rate': 1.656480273257599e-05, 'epoch': 66.87} {'loss': 0.0347, 'learning_rate': 1.6562404052809336e-05, 'epoch': 66.88} {'loss': 0.0374, 'learning_rate': 1.656000537304268e-05, 'epoch': 66.88} {'loss': 0.0372, 'learning_rate': 1.6557606693276022e-05, 'epoch': 66.88} {'loss': 0.0367, 'learning_rate': 1.6555208013509365e-05, 'epoch': 66.89} {'loss': 0.037, 'learning_rate': 1.6552809333742707e-05, 'epoch': 66.89} {'loss': 0.0369, 'learning_rate': 1.6550410653976053e-05, 'epoch': 66.9} {'loss': 0.037, 'learning_rate': 1.6548011974209396e-05, 'epoch': 66.9} {'loss': 0.037, 'learning_rate': 1.654561329444274e-05, 'epoch': 66.91} {'loss': 0.0358, 'learning_rate': 1.6543214614676085e-05, 'epoch': 66.91} {'loss': 0.0353, 'learning_rate': 1.6540815934909428e-05, 'epoch': 66.92} {'loss': 0.0355, 'learning_rate': 1.653841725514277e-05, 'epoch': 66.92} {'loss': 0.0356, 'learning_rate': 1.6536018575376113e-05, 'epoch': 66.93} {'loss': 0.0383, 'learning_rate': 1.6533619895609456e-05, 'epoch': 66.93} {'loss': 0.0366, 'learning_rate': 1.6531221215842802e-05, 'epoch': 66.94} {'loss': 0.0366, 'learning_rate': 1.6528822536076145e-05, 'epoch': 66.94} {'loss': 0.0401, 'learning_rate': 1.652642385630949e-05, 'epoch': 66.95} {'loss': 0.0381, 'learning_rate': 1.6524025176542833e-05, 'epoch': 66.95} {'loss': 0.0375, 'learning_rate': 1.6521626496776173e-05, 'epoch': 66.96} {'loss': 0.0367, 'learning_rate': 1.651922781700952e-05, 'epoch': 66.96} {'loss': 0.0371, 'learning_rate': 1.651682913724286e-05, 'epoch': 66.97} {'loss': 0.0357, 'learning_rate': 1.6514430457476207e-05, 'epoch': 66.97} {'loss': 0.0359, 'learning_rate': 1.651203177770955e-05, 'epoch': 66.98} {'loss': 0.0345, 'learning_rate': 1.6509633097942893e-05, 'epoch': 66.98} {'loss': 0.0385, 'learning_rate': 1.6507234418176236e-05, 'epoch': 66.99} {'loss': 0.0373, 'learning_rate': 1.650483573840958e-05, 'epoch': 66.99} {'loss': 0.0379, 'learning_rate': 1.6502437058642924e-05, 'epoch': 67.0} {'loss': 0.0378, 'learning_rate': 1.6500038378876267e-05, 'epoch': 67.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03649900481104851, 'eval_runtime': 735.6737, 'eval_samples_per_second': 566.685, 'eval_steps_per_second': 70.836, 'epoch': 67.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-6983008 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-6983008/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-6983008/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-6878784] due to args.save_total_limit {'loss': 0.0371, 'learning_rate': 1.649763969910961e-05, 'epoch': 67.0} {'loss': 0.0367, 'learning_rate': 1.6495241019342956e-05, 'epoch': 67.01} {'loss': 0.0366, 'learning_rate': 1.64928423395763e-05, 'epoch': 67.01} {'loss': 0.0392, 'learning_rate': 1.649044365980964e-05, 'epoch': 67.02} {'loss': 0.0377, 'learning_rate': 1.6488044980042984e-05, 'epoch': 67.02} {'loss': 0.038, 'learning_rate': 1.6485646300276327e-05, 'epoch': 67.03} {'loss': 0.0369, 'learning_rate': 1.6483247620509673e-05, 'epoch': 67.03} {'loss': 0.0355, 'learning_rate': 1.6480848940743016e-05, 'epoch': 67.04} {'loss': 0.0343, 'learning_rate': 1.6478450260976358e-05, 'epoch': 67.04} {'loss': 0.0357, 'learning_rate': 1.6476051581209704e-05, 'epoch': 67.05} {'loss': 0.0366, 'learning_rate': 1.6473652901443047e-05, 'epoch': 67.05} {'loss': 0.0371, 'learning_rate': 1.647125422167639e-05, 'epoch': 67.06} {'loss': 0.0354, 'learning_rate': 1.6468855541909732e-05, 'epoch': 67.06} {'loss': 0.0369, 'learning_rate': 1.6466456862143075e-05, 'epoch': 67.07} {'loss': 0.0362, 'learning_rate': 1.646405818237642e-05, 'epoch': 67.07} {'loss': 0.0363, 'learning_rate': 1.6461659502609764e-05, 'epoch': 67.08} {'loss': 0.0376, 'learning_rate': 1.645926082284311e-05, 'epoch': 67.08} {'loss': 0.0363, 'learning_rate': 1.6456862143076453e-05, 'epoch': 67.09} {'loss': 0.0356, 'learning_rate': 1.6454463463309795e-05, 'epoch': 67.09} {'loss': 0.0379, 'learning_rate': 1.6452064783543138e-05, 'epoch': 67.1} {'loss': 0.0371, 'learning_rate': 1.644966610377648e-05, 'epoch': 67.1} {'loss': 0.0364, 'learning_rate': 1.6447267424009827e-05, 'epoch': 67.11} {'loss': 0.0376, 'learning_rate': 1.644486874424317e-05, 'epoch': 67.11} {'loss': 0.0362, 'learning_rate': 1.6442470064476512e-05, 'epoch': 67.12} {'loss': 0.0361, 'learning_rate': 1.644007138470986e-05, 'epoch': 67.12} {'loss': 0.0362, 'learning_rate': 1.64376727049432e-05, 'epoch': 67.12} {'loss': 0.0377, 'learning_rate': 1.6435274025176544e-05, 'epoch': 67.13} {'loss': 0.037, 'learning_rate': 1.6432875345409887e-05, 'epoch': 67.13} {'loss': 0.0358, 'learning_rate': 1.643047666564323e-05, 'epoch': 67.14} {'loss': 0.0346, 'learning_rate': 1.6428077985876575e-05, 'epoch': 67.14} {'loss': 0.0354, 'learning_rate': 1.6425679306109918e-05, 'epoch': 67.15} {'loss': 0.0386, 'learning_rate': 1.6423280626343264e-05, 'epoch': 67.15} {'loss': 0.0359, 'learning_rate': 1.6420881946576603e-05, 'epoch': 67.16} {'loss': 0.037, 'learning_rate': 1.6418483266809946e-05, 'epoch': 67.16} {'loss': 0.0379, 'learning_rate': 1.6416084587043292e-05, 'epoch': 67.17} {'loss': 0.0361, 'learning_rate': 1.6413685907276635e-05, 'epoch': 67.17} {'loss': 0.0362, 'learning_rate': 1.641128722750998e-05, 'epoch': 67.18} {'loss': 0.0376, 'learning_rate': 1.6408888547743324e-05, 'epoch': 67.18} {'loss': 0.0351, 'learning_rate': 1.6406489867976666e-05, 'epoch': 67.19} {'loss': 0.0349, 'learning_rate': 1.640409118821001e-05, 'epoch': 67.19} {'loss': 0.037, 'learning_rate': 1.6401692508443352e-05, 'epoch': 67.2} {'loss': 0.0375, 'learning_rate': 1.6399293828676698e-05, 'epoch': 67.2} {'loss': 0.0361, 'learning_rate': 1.639689514891004e-05, 'epoch': 67.21} {'loss': 0.0364, 'learning_rate': 1.6394496469143383e-05, 'epoch': 67.21} {'loss': 0.0372, 'learning_rate': 1.639209778937673e-05, 'epoch': 67.22} {'loss': 0.0348, 'learning_rate': 1.6389699109610072e-05, 'epoch': 67.22} {'loss': 0.0366, 'learning_rate': 1.6387300429843415e-05, 'epoch': 67.23} {'loss': 0.0366, 'learning_rate': 1.6384901750076758e-05, 'epoch': 67.23} {'loss': 0.036, 'learning_rate': 1.63825030703101e-05, 'epoch': 67.23} {'loss': 0.0355, 'learning_rate': 1.6380104390543446e-05, 'epoch': 67.24} {'loss': 0.0369, 'learning_rate': 1.637770571077679e-05, 'epoch': 67.24} {'loss': 0.0361, 'learning_rate': 1.6375307031010135e-05, 'epoch': 67.25} {'loss': 0.0353, 'learning_rate': 1.6372908351243478e-05, 'epoch': 67.25} {'loss': 0.0369, 'learning_rate': 1.637050967147682e-05, 'epoch': 67.26} {'loss': 0.0384, 'learning_rate': 1.6368110991710163e-05, 'epoch': 67.26} {'loss': 0.0371, 'learning_rate': 1.6365712311943506e-05, 'epoch': 67.27} {'loss': 0.0375, 'learning_rate': 1.636331363217685e-05, 'epoch': 67.27} {'loss': 0.0373, 'learning_rate': 1.6360914952410195e-05, 'epoch': 67.28} {'loss': 0.0384, 'learning_rate': 1.6358516272643537e-05, 'epoch': 67.28} {'loss': 0.0358, 'learning_rate': 1.6356117592876884e-05, 'epoch': 67.29} {'loss': 0.0351, 'learning_rate': 1.6353718913110226e-05, 'epoch': 67.29} {'loss': 0.0387, 'learning_rate': 1.635132023334357e-05, 'epoch': 67.3} {'loss': 0.0364, 'learning_rate': 1.634892155357691e-05, 'epoch': 67.3} {'loss': 0.0354, 'learning_rate': 1.6346522873810254e-05, 'epoch': 67.31} {'loss': 0.0343, 'learning_rate': 1.63441241940436e-05, 'epoch': 67.31} {'loss': 0.0363, 'learning_rate': 1.6341725514276943e-05, 'epoch': 67.32} {'loss': 0.0384, 'learning_rate': 1.6339326834510286e-05, 'epoch': 67.32} {'loss': 0.0371, 'learning_rate': 1.6336928154743632e-05, 'epoch': 67.33} {'loss': 0.0364, 'learning_rate': 1.633452947497697e-05, 'epoch': 67.33} {'loss': 0.0365, 'learning_rate': 1.6332130795210317e-05, 'epoch': 67.34} {'loss': 0.0375, 'learning_rate': 1.632973211544366e-05, 'epoch': 67.34} {'loss': 0.0355, 'learning_rate': 1.6327333435677003e-05, 'epoch': 67.35} {'loss': 0.0353, 'learning_rate': 1.632493475591035e-05, 'epoch': 67.35} {'loss': 0.037, 'learning_rate': 1.632253607614369e-05, 'epoch': 67.35} {'loss': 0.0371, 'learning_rate': 1.6320137396377038e-05, 'epoch': 67.36} {'loss': 0.0365, 'learning_rate': 1.6317738716610377e-05, 'epoch': 67.36} {'loss': 0.0365, 'learning_rate': 1.631534003684372e-05, 'epoch': 67.37} {'loss': 0.0359, 'learning_rate': 1.6312941357077066e-05, 'epoch': 67.37} {'loss': 0.0351, 'learning_rate': 1.631054267731041e-05, 'epoch': 67.38} {'loss': 0.0361, 'learning_rate': 1.6308143997543755e-05, 'epoch': 67.38} {'loss': 0.0375, 'learning_rate': 1.6305745317777097e-05, 'epoch': 67.39} {'loss': 0.0371, 'learning_rate': 1.630334663801044e-05, 'epoch': 67.39} {'loss': 0.0358, 'learning_rate': 1.6300947958243783e-05, 'epoch': 67.4} {'loss': 0.0354, 'learning_rate': 1.6298549278477125e-05, 'epoch': 67.4} {'loss': 0.0366, 'learning_rate': 1.629615059871047e-05, 'epoch': 67.41} {'loss': 0.0371, 'learning_rate': 1.6293751918943814e-05, 'epoch': 67.41} {'loss': 0.0348, 'learning_rate': 1.6291353239177157e-05, 'epoch': 67.42} {'loss': 0.0371, 'learning_rate': 1.6288954559410503e-05, 'epoch': 67.42} {'loss': 0.0374, 'learning_rate': 1.6286555879643846e-05, 'epoch': 67.43} {'loss': 0.0368, 'learning_rate': 1.628415719987719e-05, 'epoch': 67.43} {'loss': 0.037, 'learning_rate': 1.628175852011053e-05, 'epoch': 67.44} {'loss': 0.0366, 'learning_rate': 1.6279359840343874e-05, 'epoch': 67.44} {'loss': 0.0365, 'learning_rate': 1.627696116057722e-05, 'epoch': 67.45} {'loss': 0.0364, 'learning_rate': 1.6274562480810563e-05, 'epoch': 67.45} {'loss': 0.0368, 'learning_rate': 1.627216380104391e-05, 'epoch': 67.46} {'loss': 0.0373, 'learning_rate': 1.626976512127725e-05, 'epoch': 67.46} {'loss': 0.0352, 'learning_rate': 1.6267366441510594e-05, 'epoch': 67.47} {'loss': 0.0357, 'learning_rate': 1.6264967761743937e-05, 'epoch': 67.47} {'loss': 0.0375, 'learning_rate': 1.626256908197728e-05, 'epoch': 67.47} {'loss': 0.038, 'learning_rate': 1.6260170402210622e-05, 'epoch': 67.48} {'loss': 0.0361, 'learning_rate': 1.6257771722443968e-05, 'epoch': 67.48} {'loss': 0.0365, 'learning_rate': 1.625537304267731e-05, 'epoch': 67.49} {'loss': 0.0379, 'learning_rate': 1.6252974362910657e-05, 'epoch': 67.49} {'loss': 0.0368, 'learning_rate': 1.6250575683144e-05, 'epoch': 67.5} {'loss': 0.0361, 'learning_rate': 1.624817700337734e-05, 'epoch': 67.5} {'loss': 0.0365, 'learning_rate': 1.6245778323610685e-05, 'epoch': 67.51} {'loss': 0.0358, 'learning_rate': 1.6243379643844028e-05, 'epoch': 67.51} {'loss': 0.0377, 'learning_rate': 1.6240980964077374e-05, 'epoch': 67.52} {'loss': 0.0374, 'learning_rate': 1.6238582284310717e-05, 'epoch': 67.52} {'loss': 0.0356, 'learning_rate': 1.623618360454406e-05, 'epoch': 67.53} {'loss': 0.0387, 'learning_rate': 1.6233784924777405e-05, 'epoch': 67.53} {'loss': 0.0359, 'learning_rate': 1.6231386245010745e-05, 'epoch': 67.54} {'loss': 0.0371, 'learning_rate': 1.622898756524409e-05, 'epoch': 67.54} {'loss': 0.038, 'learning_rate': 1.6226588885477434e-05, 'epoch': 67.55} {'loss': 0.0372, 'learning_rate': 1.6224190205710776e-05, 'epoch': 67.55} {'loss': 0.0388, 'learning_rate': 1.6221791525944122e-05, 'epoch': 67.56} {'loss': 0.0362, 'learning_rate': 1.6219392846177465e-05, 'epoch': 67.56} {'loss': 0.0358, 'learning_rate': 1.6216994166410808e-05, 'epoch': 67.57} {'loss': 0.0359, 'learning_rate': 1.621459548664415e-05, 'epoch': 67.57} {'loss': 0.0365, 'learning_rate': 1.6212196806877493e-05, 'epoch': 67.58} {'loss': 0.0394, 'learning_rate': 1.620979812711084e-05, 'epoch': 67.58} {'loss': 0.0376, 'learning_rate': 1.6207399447344182e-05, 'epoch': 67.59} {'loss': 0.036, 'learning_rate': 1.6205000767577528e-05, 'epoch': 67.59} {'loss': 0.0365, 'learning_rate': 1.620260208781087e-05, 'epoch': 67.59} {'loss': 0.0367, 'learning_rate': 1.6200203408044213e-05, 'epoch': 67.6} {'loss': 0.0359, 'learning_rate': 1.6197804728277556e-05, 'epoch': 67.6} {'loss': 0.0372, 'learning_rate': 1.61954060485109e-05, 'epoch': 67.61} {'loss': 0.0381, 'learning_rate': 1.6193007368744245e-05, 'epoch': 67.61} {'loss': 0.0378, 'learning_rate': 1.6190608688977588e-05, 'epoch': 67.62} {'loss': 0.0373, 'learning_rate': 1.618821000921093e-05, 'epoch': 67.62} {'loss': 0.0373, 'learning_rate': 1.6185811329444276e-05, 'epoch': 67.63} {'loss': 0.0357, 'learning_rate': 1.618341264967762e-05, 'epoch': 67.63} {'loss': 0.0353, 'learning_rate': 1.6181013969910962e-05, 'epoch': 67.64} {'loss': 0.035, 'learning_rate': 1.6178615290144305e-05, 'epoch': 67.64} {'loss': 0.0376, 'learning_rate': 1.6176216610377647e-05, 'epoch': 67.65} {'loss': 0.0364, 'learning_rate': 1.6173817930610993e-05, 'epoch': 67.65} {'loss': 0.0382, 'learning_rate': 1.6171419250844336e-05, 'epoch': 67.66} {'loss': 0.037, 'learning_rate': 1.6169020571077682e-05, 'epoch': 67.66} {'loss': 0.0366, 'learning_rate': 1.6166621891311025e-05, 'epoch': 67.67} {'loss': 0.038, 'learning_rate': 1.6164223211544368e-05, 'epoch': 67.67} {'loss': 0.0375, 'learning_rate': 1.616182453177771e-05, 'epoch': 67.68} {'loss': 0.0391, 'learning_rate': 1.6159425852011053e-05, 'epoch': 67.68} {'loss': 0.0376, 'learning_rate': 1.6157027172244396e-05, 'epoch': 67.69} {'loss': 0.0376, 'learning_rate': 1.6154628492477742e-05, 'epoch': 67.69} {'loss': 0.0358, 'learning_rate': 1.6152229812711084e-05, 'epoch': 67.7} {'loss': 0.0375, 'learning_rate': 1.614983113294443e-05, 'epoch': 67.7} {'loss': 0.0355, 'learning_rate': 1.6147432453177773e-05, 'epoch': 67.71} {'loss': 0.0387, 'learning_rate': 1.6145033773411113e-05, 'epoch': 67.71} {'loss': 0.0358, 'learning_rate': 1.614263509364446e-05, 'epoch': 67.71} {'loss': 0.0355, 'learning_rate': 1.61402364138778e-05, 'epoch': 67.72} {'loss': 0.0371, 'learning_rate': 1.6137837734111147e-05, 'epoch': 67.72} {'loss': 0.0384, 'learning_rate': 1.613543905434449e-05, 'epoch': 67.73} {'loss': 0.0344, 'learning_rate': 1.6133040374577833e-05, 'epoch': 67.73} {'loss': 0.0348, 'learning_rate': 1.6130641694811176e-05, 'epoch': 67.74} {'loss': 0.0359, 'learning_rate': 1.6128243015044518e-05, 'epoch': 67.74} {'loss': 0.0381, 'learning_rate': 1.6125844335277864e-05, 'epoch': 67.75} {'loss': 0.0363, 'learning_rate': 1.6123445655511207e-05, 'epoch': 67.75} {'loss': 0.0368, 'learning_rate': 1.612104697574455e-05, 'epoch': 67.76} {'loss': 0.038, 'learning_rate': 1.6118648295977896e-05, 'epoch': 67.76} {'loss': 0.0368, 'learning_rate': 1.611624961621124e-05, 'epoch': 67.77} {'loss': 0.0366, 'learning_rate': 1.611385093644458e-05, 'epoch': 67.77} {'loss': 0.0376, 'learning_rate': 1.6111452256677924e-05, 'epoch': 67.78} {'loss': 0.037, 'learning_rate': 1.6109053576911267e-05, 'epoch': 67.78} {'loss': 0.0364, 'learning_rate': 1.6106654897144613e-05, 'epoch': 67.79} {'loss': 0.0363, 'learning_rate': 1.6104256217377955e-05, 'epoch': 67.79} {'loss': 0.0372, 'learning_rate': 1.61018575376113e-05, 'epoch': 67.8} {'loss': 0.0366, 'learning_rate': 1.6099458857844644e-05, 'epoch': 67.8} {'loss': 0.0361, 'learning_rate': 1.6097060178077987e-05, 'epoch': 67.81} {'loss': 0.0362, 'learning_rate': 1.609466149831133e-05, 'epoch': 67.81} {'loss': 0.037, 'learning_rate': 1.6092262818544672e-05, 'epoch': 67.82} {'loss': 0.0355, 'learning_rate': 1.608986413877802e-05, 'epoch': 67.82} {'loss': 0.0368, 'learning_rate': 1.608746545901136e-05, 'epoch': 67.83} {'loss': 0.0382, 'learning_rate': 1.6085066779244704e-05, 'epoch': 67.83} {'loss': 0.0364, 'learning_rate': 1.608266809947805e-05, 'epoch': 67.83} {'loss': 0.0364, 'learning_rate': 1.6080269419711393e-05, 'epoch': 67.84} {'loss': 0.0364, 'learning_rate': 1.6077870739944735e-05, 'epoch': 67.84} {'loss': 0.036, 'learning_rate': 1.6075472060178078e-05, 'epoch': 67.85} {'loss': 0.0373, 'learning_rate': 1.607307338041142e-05, 'epoch': 67.85} {'loss': 0.0353, 'learning_rate': 1.6070674700644767e-05, 'epoch': 67.86} {'loss': 0.0366, 'learning_rate': 1.606827602087811e-05, 'epoch': 67.86} {'loss': 0.0371, 'learning_rate': 1.6065877341111456e-05, 'epoch': 67.87} {'loss': 0.037, 'learning_rate': 1.60634786613448e-05, 'epoch': 67.87} {'loss': 0.0368, 'learning_rate': 1.6061079981578138e-05, 'epoch': 67.88} {'loss': 0.0362, 'learning_rate': 1.6058681301811484e-05, 'epoch': 67.88} {'loss': 0.036, 'learning_rate': 1.6056282622044826e-05, 'epoch': 67.89} {'loss': 0.0373, 'learning_rate': 1.605388394227817e-05, 'epoch': 67.89} {'loss': 0.0366, 'learning_rate': 1.6051485262511515e-05, 'epoch': 67.9} {'loss': 0.0365, 'learning_rate': 1.6049086582744858e-05, 'epoch': 67.9} {'loss': 0.0368, 'learning_rate': 1.6046687902978204e-05, 'epoch': 67.91} {'loss': 0.0382, 'learning_rate': 1.6044289223211543e-05, 'epoch': 67.91} {'loss': 0.0356, 'learning_rate': 1.6041890543444886e-05, 'epoch': 67.92} {'loss': 0.0366, 'learning_rate': 1.6039491863678232e-05, 'epoch': 67.92} {'loss': 0.0371, 'learning_rate': 1.6037093183911575e-05, 'epoch': 67.93} {'loss': 0.0363, 'learning_rate': 1.603469450414492e-05, 'epoch': 67.93} {'loss': 0.0353, 'learning_rate': 1.6032295824378264e-05, 'epoch': 67.94} {'loss': 0.0361, 'learning_rate': 1.6029897144611606e-05, 'epoch': 67.94} {'loss': 0.0344, 'learning_rate': 1.602749846484495e-05, 'epoch': 67.95} {'loss': 0.0392, 'learning_rate': 1.6025099785078292e-05, 'epoch': 67.95} {'loss': 0.0342, 'learning_rate': 1.6022701105311638e-05, 'epoch': 67.95} {'loss': 0.0369, 'learning_rate': 1.602030242554498e-05, 'epoch': 67.96} {'loss': 0.0371, 'learning_rate': 1.6017903745778323e-05, 'epoch': 67.96} {'loss': 0.0383, 'learning_rate': 1.601550506601167e-05, 'epoch': 67.97} {'loss': 0.0373, 'learning_rate': 1.6013106386245012e-05, 'epoch': 67.97} {'loss': 0.0364, 'learning_rate': 1.6010707706478355e-05, 'epoch': 67.98} {'loss': 0.0379, 'learning_rate': 1.6008309026711697e-05, 'epoch': 67.98} {'loss': 0.0362, 'learning_rate': 1.600591034694504e-05, 'epoch': 67.99} {'loss': 0.0376, 'learning_rate': 1.6003511667178386e-05, 'epoch': 67.99} {'loss': 0.0366, 'learning_rate': 1.600111298741173e-05, 'epoch': 68.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03664158284664154, 'eval_runtime': 747.136, 'eval_samples_per_second': 557.991, 'eval_steps_per_second': 69.749, 'epoch': 68.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-7087232 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-7087232/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-7087232/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-6983008] due to args.save_total_limit {'loss': 0.0361, 'learning_rate': 1.5998714307645075e-05, 'epoch': 68.0} {'loss': 0.0368, 'learning_rate': 1.5996315627878418e-05, 'epoch': 68.01} {'loss': 0.0351, 'learning_rate': 1.599391694811176e-05, 'epoch': 68.01} {'loss': 0.0376, 'learning_rate': 1.5991518268345103e-05, 'epoch': 68.02} {'loss': 0.0375, 'learning_rate': 1.5989119588578446e-05, 'epoch': 68.02} {'loss': 0.035, 'learning_rate': 1.5986720908811792e-05, 'epoch': 68.03} {'loss': 0.0352, 'learning_rate': 1.5984322229045135e-05, 'epoch': 68.03} {'loss': 0.0353, 'learning_rate': 1.5981923549278477e-05, 'epoch': 68.04} {'loss': 0.0369, 'learning_rate': 1.5979524869511823e-05, 'epoch': 68.04} {'loss': 0.0349, 'learning_rate': 1.5977126189745166e-05, 'epoch': 68.05} {'loss': 0.0371, 'learning_rate': 1.597472750997851e-05, 'epoch': 68.05} {'loss': 0.0353, 'learning_rate': 1.597232883021185e-05, 'epoch': 68.06} {'loss': 0.0359, 'learning_rate': 1.5969930150445194e-05, 'epoch': 68.06} {'loss': 0.0356, 'learning_rate': 1.596753147067854e-05, 'epoch': 68.06} {'loss': 0.0358, 'learning_rate': 1.5965132790911883e-05, 'epoch': 68.07} {'loss': 0.0363, 'learning_rate': 1.596273411114523e-05, 'epoch': 68.07} {'loss': 0.0373, 'learning_rate': 1.5960335431378572e-05, 'epoch': 68.08} {'loss': 0.0358, 'learning_rate': 1.595793675161191e-05, 'epoch': 68.08} {'loss': 0.034, 'learning_rate': 1.5955538071845257e-05, 'epoch': 68.09} {'loss': 0.0375, 'learning_rate': 1.59531393920786e-05, 'epoch': 68.09} {'loss': 0.0372, 'learning_rate': 1.5950740712311943e-05, 'epoch': 68.1} {'loss': 0.0352, 'learning_rate': 1.594834203254529e-05, 'epoch': 68.1} {'loss': 0.0363, 'learning_rate': 1.594594335277863e-05, 'epoch': 68.11} {'loss': 0.0355, 'learning_rate': 1.5943544673011978e-05, 'epoch': 68.11} {'loss': 0.0374, 'learning_rate': 1.5941145993245317e-05, 'epoch': 68.12} {'loss': 0.0362, 'learning_rate': 1.593874731347866e-05, 'epoch': 68.12} {'loss': 0.0358, 'learning_rate': 1.5936348633712006e-05, 'epoch': 68.13} {'loss': 0.0362, 'learning_rate': 1.593394995394535e-05, 'epoch': 68.13} {'loss': 0.0365, 'learning_rate': 1.5931551274178694e-05, 'epoch': 68.14} {'loss': 0.0374, 'learning_rate': 1.5929152594412037e-05, 'epoch': 68.14} {'loss': 0.0351, 'learning_rate': 1.592675391464538e-05, 'epoch': 68.15} {'loss': 0.0353, 'learning_rate': 1.5924355234878723e-05, 'epoch': 68.15} {'loss': 0.0359, 'learning_rate': 1.5921956555112065e-05, 'epoch': 68.16} {'loss': 0.0349, 'learning_rate': 1.591955787534541e-05, 'epoch': 68.16} {'loss': 0.0353, 'learning_rate': 1.5917159195578754e-05, 'epoch': 68.17} {'loss': 0.0371, 'learning_rate': 1.5914760515812097e-05, 'epoch': 68.17} {'loss': 0.0379, 'learning_rate': 1.5912361836045443e-05, 'epoch': 68.18} {'loss': 0.0362, 'learning_rate': 1.5909963156278786e-05, 'epoch': 68.18} {'loss': 0.0366, 'learning_rate': 1.5907564476512128e-05, 'epoch': 68.18} {'loss': 0.0351, 'learning_rate': 1.590516579674547e-05, 'epoch': 68.19} {'loss': 0.0363, 'learning_rate': 1.5902767116978814e-05, 'epoch': 68.19} {'loss': 0.0355, 'learning_rate': 1.590036843721216e-05, 'epoch': 68.2} {'loss': 0.0371, 'learning_rate': 1.5897969757445502e-05, 'epoch': 68.2} {'loss': 0.037, 'learning_rate': 1.589557107767885e-05, 'epoch': 68.21} {'loss': 0.0362, 'learning_rate': 1.589317239791219e-05, 'epoch': 68.21} {'loss': 0.037, 'learning_rate': 1.5890773718145534e-05, 'epoch': 68.22} {'loss': 0.0361, 'learning_rate': 1.5888375038378877e-05, 'epoch': 68.22} {'loss': 0.0355, 'learning_rate': 1.588597635861222e-05, 'epoch': 68.23} {'loss': 0.0348, 'learning_rate': 1.5883577678845565e-05, 'epoch': 68.23} {'loss': 0.0361, 'learning_rate': 1.5881178999078908e-05, 'epoch': 68.24} {'loss': 0.0356, 'learning_rate': 1.587878031931225e-05, 'epoch': 68.24} {'loss': 0.0368, 'learning_rate': 1.5876381639545597e-05, 'epoch': 68.25} {'loss': 0.0344, 'learning_rate': 1.587398295977894e-05, 'epoch': 68.25} {'loss': 0.037, 'learning_rate': 1.5871584280012282e-05, 'epoch': 68.26} {'loss': 0.0347, 'learning_rate': 1.5869185600245625e-05, 'epoch': 68.26} {'loss': 0.036, 'learning_rate': 1.5866786920478968e-05, 'epoch': 68.27} {'loss': 0.0346, 'learning_rate': 1.5864388240712314e-05, 'epoch': 68.27} {'loss': 0.036, 'learning_rate': 1.5861989560945657e-05, 'epoch': 68.28} {'loss': 0.035, 'learning_rate': 1.5859590881179003e-05, 'epoch': 68.28} {'loss': 0.0358, 'learning_rate': 1.5857192201412342e-05, 'epoch': 68.29} {'loss': 0.0327, 'learning_rate': 1.5854793521645685e-05, 'epoch': 68.29} {'loss': 0.0356, 'learning_rate': 1.585239484187903e-05, 'epoch': 68.3} {'loss': 0.0374, 'learning_rate': 1.5849996162112373e-05, 'epoch': 68.3} {'loss': 0.0357, 'learning_rate': 1.584759748234572e-05, 'epoch': 68.3} {'loss': 0.0359, 'learning_rate': 1.5845198802579062e-05, 'epoch': 68.31} {'loss': 0.0376, 'learning_rate': 1.5842800122812405e-05, 'epoch': 68.31} {'loss': 0.0368, 'learning_rate': 1.5840401443045748e-05, 'epoch': 68.32} {'loss': 0.036, 'learning_rate': 1.583800276327909e-05, 'epoch': 68.32} {'loss': 0.0349, 'learning_rate': 1.5835604083512433e-05, 'epoch': 68.33} {'loss': 0.0354, 'learning_rate': 1.583320540374578e-05, 'epoch': 68.33} {'loss': 0.0343, 'learning_rate': 1.5830806723979122e-05, 'epoch': 68.34} {'loss': 0.0375, 'learning_rate': 1.5828408044212468e-05, 'epoch': 68.34} {'loss': 0.0349, 'learning_rate': 1.582600936444581e-05, 'epoch': 68.35} {'loss': 0.0364, 'learning_rate': 1.5823610684679153e-05, 'epoch': 68.35} {'loss': 0.0358, 'learning_rate': 1.5821212004912496e-05, 'epoch': 68.36} {'loss': 0.0351, 'learning_rate': 1.581881332514584e-05, 'epoch': 68.36} {'loss': 0.0368, 'learning_rate': 1.5816414645379185e-05, 'epoch': 68.37} {'loss': 0.0352, 'learning_rate': 1.5814015965612528e-05, 'epoch': 68.37} {'loss': 0.0372, 'learning_rate': 1.581161728584587e-05, 'epoch': 68.38} {'loss': 0.034, 'learning_rate': 1.5809218606079216e-05, 'epoch': 68.38} {'loss': 0.0365, 'learning_rate': 1.580681992631256e-05, 'epoch': 68.39} {'loss': 0.0356, 'learning_rate': 1.5804421246545902e-05, 'epoch': 68.39} {'loss': 0.0379, 'learning_rate': 1.5802022566779244e-05, 'epoch': 68.4} {'loss': 0.0362, 'learning_rate': 1.5799623887012587e-05, 'epoch': 68.4} {'loss': 0.0371, 'learning_rate': 1.5797225207245933e-05, 'epoch': 68.41} {'loss': 0.0342, 'learning_rate': 1.5794826527479276e-05, 'epoch': 68.41} {'loss': 0.0365, 'learning_rate': 1.5792427847712622e-05, 'epoch': 68.42} {'loss': 0.0357, 'learning_rate': 1.5790029167945965e-05, 'epoch': 68.42} {'loss': 0.0349, 'learning_rate': 1.5787630488179307e-05, 'epoch': 68.42} {'loss': 0.0354, 'learning_rate': 1.578523180841265e-05, 'epoch': 68.43} {'loss': 0.0394, 'learning_rate': 1.5782833128645993e-05, 'epoch': 68.43} {'loss': 0.0351, 'learning_rate': 1.578043444887934e-05, 'epoch': 68.44} {'loss': 0.0364, 'learning_rate': 1.577803576911268e-05, 'epoch': 68.44} {'loss': 0.0366, 'learning_rate': 1.5775637089346024e-05, 'epoch': 68.45} {'loss': 0.0372, 'learning_rate': 1.577323840957937e-05, 'epoch': 68.45} {'loss': 0.0366, 'learning_rate': 1.577083972981271e-05, 'epoch': 68.46} {'loss': 0.0381, 'learning_rate': 1.5768441050046056e-05, 'epoch': 68.46} {'loss': 0.0353, 'learning_rate': 1.57660423702794e-05, 'epoch': 68.47} {'loss': 0.0358, 'learning_rate': 1.576364369051274e-05, 'epoch': 68.47} {'loss': 0.0354, 'learning_rate': 1.5761245010746087e-05, 'epoch': 68.48} {'loss': 0.0368, 'learning_rate': 1.575884633097943e-05, 'epoch': 68.48} {'loss': 0.035, 'learning_rate': 1.5756447651212776e-05, 'epoch': 68.49} {'loss': 0.0366, 'learning_rate': 1.5754048971446115e-05, 'epoch': 68.49} {'loss': 0.037, 'learning_rate': 1.5751650291679458e-05, 'epoch': 68.5} {'loss': 0.0357, 'learning_rate': 1.5749251611912804e-05, 'epoch': 68.5} {'loss': 0.0362, 'learning_rate': 1.5746852932146147e-05, 'epoch': 68.51} {'loss': 0.0362, 'learning_rate': 1.5744454252379493e-05, 'epoch': 68.51} {'loss': 0.0364, 'learning_rate': 1.5742055572612836e-05, 'epoch': 68.52} {'loss': 0.0375, 'learning_rate': 1.573965689284618e-05, 'epoch': 68.52} {'loss': 0.0373, 'learning_rate': 1.573725821307952e-05, 'epoch': 68.53} {'loss': 0.039, 'learning_rate': 1.5734859533312864e-05, 'epoch': 68.53} {'loss': 0.0371, 'learning_rate': 1.5732460853546207e-05, 'epoch': 68.54} {'loss': 0.0358, 'learning_rate': 1.5730062173779553e-05, 'epoch': 68.54} {'loss': 0.0352, 'learning_rate': 1.5727663494012895e-05, 'epoch': 68.54} {'loss': 0.0361, 'learning_rate': 1.572526481424624e-05, 'epoch': 68.55} {'loss': 0.0364, 'learning_rate': 1.5722866134479584e-05, 'epoch': 68.55} {'loss': 0.0354, 'learning_rate': 1.5720467454712927e-05, 'epoch': 68.56} {'loss': 0.0359, 'learning_rate': 1.571806877494627e-05, 'epoch': 68.56} {'loss': 0.0355, 'learning_rate': 1.5715670095179612e-05, 'epoch': 68.57} {'loss': 0.0358, 'learning_rate': 1.571327141541296e-05, 'epoch': 68.57} {'loss': 0.0374, 'learning_rate': 1.57108727356463e-05, 'epoch': 68.58} {'loss': 0.0388, 'learning_rate': 1.5708474055879644e-05, 'epoch': 68.58} {'loss': 0.0363, 'learning_rate': 1.570607537611299e-05, 'epoch': 68.59} {'loss': 0.036, 'learning_rate': 1.5703676696346333e-05, 'epoch': 68.59} {'loss': 0.0382, 'learning_rate': 1.5701278016579675e-05, 'epoch': 68.6} {'loss': 0.0353, 'learning_rate': 1.5698879336813018e-05, 'epoch': 68.6} {'loss': 0.0344, 'learning_rate': 1.569648065704636e-05, 'epoch': 68.61} {'loss': 0.0366, 'learning_rate': 1.5694081977279707e-05, 'epoch': 68.61} {'loss': 0.0347, 'learning_rate': 1.569168329751305e-05, 'epoch': 68.62} {'loss': 0.0366, 'learning_rate': 1.5689284617746396e-05, 'epoch': 68.62} {'loss': 0.037, 'learning_rate': 1.5686885937979738e-05, 'epoch': 68.63} {'loss': 0.0344, 'learning_rate': 1.5684487258213078e-05, 'epoch': 68.63} {'loss': 0.0359, 'learning_rate': 1.5682088578446424e-05, 'epoch': 68.64} {'loss': 0.0352, 'learning_rate': 1.5679689898679766e-05, 'epoch': 68.64} {'loss': 0.0376, 'learning_rate': 1.5677291218913112e-05, 'epoch': 68.65} {'loss': 0.0358, 'learning_rate': 1.5674892539146455e-05, 'epoch': 68.65} {'loss': 0.0339, 'learning_rate': 1.5672493859379798e-05, 'epoch': 68.66} {'loss': 0.0357, 'learning_rate': 1.5670095179613144e-05, 'epoch': 68.66} {'loss': 0.0366, 'learning_rate': 1.5667696499846483e-05, 'epoch': 68.66} {'loss': 0.0351, 'learning_rate': 1.566529782007983e-05, 'epoch': 68.67} {'loss': 0.0334, 'learning_rate': 1.5662899140313172e-05, 'epoch': 68.67} {'loss': 0.0363, 'learning_rate': 1.5660500460546515e-05, 'epoch': 68.68} {'loss': 0.0354, 'learning_rate': 1.565810178077986e-05, 'epoch': 68.68} {'loss': 0.0347, 'learning_rate': 1.5655703101013204e-05, 'epoch': 68.69} {'loss': 0.0389, 'learning_rate': 1.5653304421246546e-05, 'epoch': 68.69} {'loss': 0.0368, 'learning_rate': 1.565090574147989e-05, 'epoch': 68.7} {'loss': 0.0367, 'learning_rate': 1.564850706171323e-05, 'epoch': 68.7} {'loss': 0.0365, 'learning_rate': 1.5646108381946578e-05, 'epoch': 68.71} {'loss': 0.0347, 'learning_rate': 1.564370970217992e-05, 'epoch': 68.71} {'loss': 0.0353, 'learning_rate': 1.5641311022413267e-05, 'epoch': 68.72} {'loss': 0.0337, 'learning_rate': 1.563891234264661e-05, 'epoch': 68.72} {'loss': 0.0366, 'learning_rate': 1.5636513662879952e-05, 'epoch': 68.73} {'loss': 0.0375, 'learning_rate': 1.5634114983113295e-05, 'epoch': 68.73} {'loss': 0.0347, 'learning_rate': 1.5631716303346637e-05, 'epoch': 68.74} {'loss': 0.0367, 'learning_rate': 1.562931762357998e-05, 'epoch': 68.74} {'loss': 0.0348, 'learning_rate': 1.5626918943813326e-05, 'epoch': 68.75} {'loss': 0.0368, 'learning_rate': 1.562452026404667e-05, 'epoch': 68.75} {'loss': 0.0356, 'learning_rate': 1.5622121584280015e-05, 'epoch': 68.76} {'loss': 0.035, 'learning_rate': 1.5619722904513358e-05, 'epoch': 68.76} {'loss': 0.035, 'learning_rate': 1.56173242247467e-05, 'epoch': 68.77} {'loss': 0.036, 'learning_rate': 1.5614925544980043e-05, 'epoch': 68.77} {'loss': 0.0356, 'learning_rate': 1.5612526865213386e-05, 'epoch': 68.77} {'loss': 0.0354, 'learning_rate': 1.5610128185446732e-05, 'epoch': 68.78} {'loss': 0.0383, 'learning_rate': 1.5607729505680075e-05, 'epoch': 68.78} {'loss': 0.0362, 'learning_rate': 1.5605330825913417e-05, 'epoch': 68.79} {'loss': 0.0376, 'learning_rate': 1.5602932146146763e-05, 'epoch': 68.79} {'loss': 0.0357, 'learning_rate': 1.5600533466380106e-05, 'epoch': 68.8} {'loss': 0.038, 'learning_rate': 1.559813478661345e-05, 'epoch': 68.8} {'loss': 0.0351, 'learning_rate': 1.559573610684679e-05, 'epoch': 68.81} {'loss': 0.0371, 'learning_rate': 1.5593337427080134e-05, 'epoch': 68.81} {'loss': 0.0354, 'learning_rate': 1.559093874731348e-05, 'epoch': 68.82} {'loss': 0.0374, 'learning_rate': 1.5588540067546823e-05, 'epoch': 68.82} {'loss': 0.0352, 'learning_rate': 1.558614138778017e-05, 'epoch': 68.83} {'loss': 0.0368, 'learning_rate': 1.5583742708013512e-05, 'epoch': 68.83} {'loss': 0.0356, 'learning_rate': 1.558134402824685e-05, 'epoch': 68.84} {'loss': 0.0361, 'learning_rate': 1.5578945348480197e-05, 'epoch': 68.84} {'loss': 0.0379, 'learning_rate': 1.557654666871354e-05, 'epoch': 68.85} {'loss': 0.0359, 'learning_rate': 1.5574147988946886e-05, 'epoch': 68.85} {'loss': 0.037, 'learning_rate': 1.557174930918023e-05, 'epoch': 68.86} {'loss': 0.0334, 'learning_rate': 1.556935062941357e-05, 'epoch': 68.86} {'loss': 0.0358, 'learning_rate': 1.5566951949646914e-05, 'epoch': 68.87} {'loss': 0.0351, 'learning_rate': 1.5564553269880257e-05, 'epoch': 68.87} {'loss': 0.0351, 'learning_rate': 1.5562154590113603e-05, 'epoch': 68.88} {'loss': 0.036, 'learning_rate': 1.5559755910346946e-05, 'epoch': 68.88} {'loss': 0.0374, 'learning_rate': 1.5557357230580288e-05, 'epoch': 68.89} {'loss': 0.037, 'learning_rate': 1.5554958550813634e-05, 'epoch': 68.89} {'loss': 0.0362, 'learning_rate': 1.5552559871046977e-05, 'epoch': 68.89} {'loss': 0.0352, 'learning_rate': 1.555016119128032e-05, 'epoch': 68.9} {'loss': 0.0368, 'learning_rate': 1.5547762511513662e-05, 'epoch': 68.9} {'loss': 0.0371, 'learning_rate': 1.5545363831747005e-05, 'epoch': 68.91} {'loss': 0.036, 'learning_rate': 1.554296515198035e-05, 'epoch': 68.91} {'loss': 0.0361, 'learning_rate': 1.5540566472213694e-05, 'epoch': 68.92} {'loss': 0.0371, 'learning_rate': 1.553816779244704e-05, 'epoch': 68.92} {'loss': 0.0357, 'learning_rate': 1.5535769112680383e-05, 'epoch': 68.93} {'loss': 0.0359, 'learning_rate': 1.5533370432913725e-05, 'epoch': 68.93} {'loss': 0.034, 'learning_rate': 1.5530971753147068e-05, 'epoch': 68.94} {'loss': 0.0355, 'learning_rate': 1.552857307338041e-05, 'epoch': 68.94} {'loss': 0.0348, 'learning_rate': 1.5526174393613754e-05, 'epoch': 68.95} {'loss': 0.0355, 'learning_rate': 1.55237757138471e-05, 'epoch': 68.95} {'loss': 0.037, 'learning_rate': 1.5521377034080442e-05, 'epoch': 68.96} {'loss': 0.0352, 'learning_rate': 1.551897835431379e-05, 'epoch': 68.96} {'loss': 0.0366, 'learning_rate': 1.551657967454713e-05, 'epoch': 68.97} {'loss': 0.0359, 'learning_rate': 1.5514180994780474e-05, 'epoch': 68.97} {'loss': 0.0351, 'learning_rate': 1.5511782315013817e-05, 'epoch': 68.98} {'loss': 0.037, 'learning_rate': 1.550938363524716e-05, 'epoch': 68.98} {'loss': 0.0368, 'learning_rate': 1.5506984955480505e-05, 'epoch': 68.99} {'loss': 0.0348, 'learning_rate': 1.5504586275713848e-05, 'epoch': 68.99} {'loss': 0.0351, 'learning_rate': 1.550218759594719e-05, 'epoch': 69.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.036572057753801346, 'eval_runtime': 751.2484, 'eval_samples_per_second': 554.936, 'eval_steps_per_second': 69.367, 'epoch': 69.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-7191456 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-7191456/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-7191456/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-7087232] due to args.save_total_limit {'loss': 0.0355, 'learning_rate': 1.5499788916180537e-05, 'epoch': 69.0} {'loss': 0.0356, 'learning_rate': 1.549739023641388e-05, 'epoch': 69.01} {'loss': 0.0361, 'learning_rate': 1.5494991556647222e-05, 'epoch': 69.01} {'loss': 0.0355, 'learning_rate': 1.5492592876880565e-05, 'epoch': 69.01} {'loss': 0.036, 'learning_rate': 1.5490194197113908e-05, 'epoch': 69.02} {'loss': 0.0386, 'learning_rate': 1.5487795517347254e-05, 'epoch': 69.02} {'loss': 0.0369, 'learning_rate': 1.5485396837580596e-05, 'epoch': 69.03} {'loss': 0.0357, 'learning_rate': 1.5482998157813943e-05, 'epoch': 69.03} {'loss': 0.0367, 'learning_rate': 1.5480599478047282e-05, 'epoch': 69.04} {'loss': 0.0357, 'learning_rate': 1.5478200798280625e-05, 'epoch': 69.04} {'loss': 0.0358, 'learning_rate': 1.547580211851397e-05, 'epoch': 69.05} {'loss': 0.0371, 'learning_rate': 1.5473403438747313e-05, 'epoch': 69.05} {'loss': 0.0363, 'learning_rate': 1.547100475898066e-05, 'epoch': 69.06} {'loss': 0.0376, 'learning_rate': 1.5468606079214002e-05, 'epoch': 69.06} {'loss': 0.0365, 'learning_rate': 1.5466207399447345e-05, 'epoch': 69.07} {'loss': 0.0356, 'learning_rate': 1.5463808719680688e-05, 'epoch': 69.07} {'loss': 0.0351, 'learning_rate': 1.546141003991403e-05, 'epoch': 69.08} {'loss': 0.037, 'learning_rate': 1.5459011360147376e-05, 'epoch': 69.08} {'loss': 0.0334, 'learning_rate': 1.545661268038072e-05, 'epoch': 69.09} {'loss': 0.0383, 'learning_rate': 1.5454214000614062e-05, 'epoch': 69.09} {'loss': 0.0369, 'learning_rate': 1.5451815320847408e-05, 'epoch': 69.1} {'loss': 0.0349, 'learning_rate': 1.544941664108075e-05, 'epoch': 69.1} {'loss': 0.0352, 'learning_rate': 1.5447017961314093e-05, 'epoch': 69.11} {'loss': 0.0356, 'learning_rate': 1.5444619281547436e-05, 'epoch': 69.11} {'loss': 0.036, 'learning_rate': 1.544222060178078e-05, 'epoch': 69.12} {'loss': 0.0347, 'learning_rate': 1.5439821922014125e-05, 'epoch': 69.12} {'loss': 0.0357, 'learning_rate': 1.5437423242247467e-05, 'epoch': 69.13} {'loss': 0.0389, 'learning_rate': 1.5435024562480814e-05, 'epoch': 69.13} {'loss': 0.0378, 'learning_rate': 1.5432625882714156e-05, 'epoch': 69.13} {'loss': 0.0362, 'learning_rate': 1.54302272029475e-05, 'epoch': 69.14} {'loss': 0.0346, 'learning_rate': 1.542782852318084e-05, 'epoch': 69.14} {'loss': 0.0336, 'learning_rate': 1.5425429843414184e-05, 'epoch': 69.15} {'loss': 0.0344, 'learning_rate': 1.5423031163647527e-05, 'epoch': 69.15} {'loss': 0.0352, 'learning_rate': 1.5420632483880873e-05, 'epoch': 69.16} {'loss': 0.0345, 'learning_rate': 1.5418233804114216e-05, 'epoch': 69.16} {'loss': 0.0345, 'learning_rate': 1.5415835124347562e-05, 'epoch': 69.17} {'loss': 0.0373, 'learning_rate': 1.5413436444580905e-05, 'epoch': 69.17} {'loss': 0.0329, 'learning_rate': 1.5411037764814244e-05, 'epoch': 69.18} {'loss': 0.0377, 'learning_rate': 1.540863908504759e-05, 'epoch': 69.18} {'loss': 0.0352, 'learning_rate': 1.5406240405280933e-05, 'epoch': 69.19} {'loss': 0.036, 'learning_rate': 1.540384172551428e-05, 'epoch': 69.19} {'loss': 0.0352, 'learning_rate': 1.540144304574762e-05, 'epoch': 69.2} {'loss': 0.0363, 'learning_rate': 1.5399044365980964e-05, 'epoch': 69.2} {'loss': 0.0352, 'learning_rate': 1.539664568621431e-05, 'epoch': 69.21} {'loss': 0.0353, 'learning_rate': 1.539424700644765e-05, 'epoch': 69.21} {'loss': 0.036, 'learning_rate': 1.5391848326680996e-05, 'epoch': 69.22} {'loss': 0.0358, 'learning_rate': 1.538944964691434e-05, 'epoch': 69.22} {'loss': 0.0361, 'learning_rate': 1.538705096714768e-05, 'epoch': 69.23} {'loss': 0.0341, 'learning_rate': 1.5384652287381027e-05, 'epoch': 69.23} {'loss': 0.0352, 'learning_rate': 1.538225360761437e-05, 'epoch': 69.24} {'loss': 0.0357, 'learning_rate': 1.5379854927847716e-05, 'epoch': 69.24} {'loss': 0.0336, 'learning_rate': 1.5377456248081055e-05, 'epoch': 69.25} {'loss': 0.0395, 'learning_rate': 1.5375057568314398e-05, 'epoch': 69.25} {'loss': 0.0364, 'learning_rate': 1.5372658888547744e-05, 'epoch': 69.25} {'loss': 0.0376, 'learning_rate': 1.5370260208781087e-05, 'epoch': 69.26} {'loss': 0.0356, 'learning_rate': 1.5367861529014433e-05, 'epoch': 69.26} {'loss': 0.0358, 'learning_rate': 1.5365462849247776e-05, 'epoch': 69.27} {'loss': 0.0357, 'learning_rate': 1.536306416948112e-05, 'epoch': 69.27} {'loss': 0.0351, 'learning_rate': 1.536066548971446e-05, 'epoch': 69.28} {'loss': 0.0354, 'learning_rate': 1.5358266809947804e-05, 'epoch': 69.28} {'loss': 0.0362, 'learning_rate': 1.535586813018115e-05, 'epoch': 69.29} {'loss': 0.0364, 'learning_rate': 1.5353469450414493e-05, 'epoch': 69.29} {'loss': 0.0337, 'learning_rate': 1.5351070770647835e-05, 'epoch': 69.3} {'loss': 0.0358, 'learning_rate': 1.534867209088118e-05, 'epoch': 69.3} {'loss': 0.0354, 'learning_rate': 1.5346273411114524e-05, 'epoch': 69.31} {'loss': 0.036, 'learning_rate': 1.5343874731347867e-05, 'epoch': 69.31} {'loss': 0.0361, 'learning_rate': 1.534147605158121e-05, 'epoch': 69.32} {'loss': 0.0347, 'learning_rate': 1.5339077371814552e-05, 'epoch': 69.32} {'loss': 0.0362, 'learning_rate': 1.5336678692047898e-05, 'epoch': 69.33} {'loss': 0.0377, 'learning_rate': 1.533428001228124e-05, 'epoch': 69.33} {'loss': 0.0352, 'learning_rate': 1.5331881332514587e-05, 'epoch': 69.34} {'loss': 0.0353, 'learning_rate': 1.532948265274793e-05, 'epoch': 69.34} {'loss': 0.0346, 'learning_rate': 1.5327083972981272e-05, 'epoch': 69.35} {'loss': 0.0364, 'learning_rate': 1.5324685293214615e-05, 'epoch': 69.35} {'loss': 0.0367, 'learning_rate': 1.5322286613447958e-05, 'epoch': 69.36} {'loss': 0.0368, 'learning_rate': 1.5319887933681304e-05, 'epoch': 69.36} {'loss': 0.035, 'learning_rate': 1.5317489253914647e-05, 'epoch': 69.37} {'loss': 0.0336, 'learning_rate': 1.531509057414799e-05, 'epoch': 69.37} {'loss': 0.0363, 'learning_rate': 1.5312691894381335e-05, 'epoch': 69.37} {'loss': 0.0347, 'learning_rate': 1.5310293214614678e-05, 'epoch': 69.38} {'loss': 0.0366, 'learning_rate': 1.5307894534848017e-05, 'epoch': 69.38} {'loss': 0.0372, 'learning_rate': 1.5305495855081364e-05, 'epoch': 69.39} {'loss': 0.0345, 'learning_rate': 1.5303097175314706e-05, 'epoch': 69.39} {'loss': 0.0334, 'learning_rate': 1.5300698495548052e-05, 'epoch': 69.4} {'loss': 0.0376, 'learning_rate': 1.5298299815781395e-05, 'epoch': 69.4} {'loss': 0.0342, 'learning_rate': 1.5295901136014738e-05, 'epoch': 69.41} {'loss': 0.0345, 'learning_rate': 1.5293502456248084e-05, 'epoch': 69.41} {'loss': 0.0343, 'learning_rate': 1.5291103776481423e-05, 'epoch': 69.42} {'loss': 0.0336, 'learning_rate': 1.528870509671477e-05, 'epoch': 69.42} {'loss': 0.034, 'learning_rate': 1.5286306416948112e-05, 'epoch': 69.43} {'loss': 0.0362, 'learning_rate': 1.5283907737181455e-05, 'epoch': 69.43} {'loss': 0.0362, 'learning_rate': 1.52815090574148e-05, 'epoch': 69.44} {'loss': 0.0344, 'learning_rate': 1.5279110377648143e-05, 'epoch': 69.44} {'loss': 0.0349, 'learning_rate': 1.5276711697881486e-05, 'epoch': 69.45} {'loss': 0.0356, 'learning_rate': 1.527431301811483e-05, 'epoch': 69.45} {'loss': 0.0359, 'learning_rate': 1.527191433834817e-05, 'epoch': 69.46} {'loss': 0.0377, 'learning_rate': 1.5269515658581518e-05, 'epoch': 69.46} {'loss': 0.0372, 'learning_rate': 1.526711697881486e-05, 'epoch': 69.47} {'loss': 0.0354, 'learning_rate': 1.5264718299048206e-05, 'epoch': 69.47} {'loss': 0.0358, 'learning_rate': 1.526231961928155e-05, 'epoch': 69.48} {'loss': 0.0355, 'learning_rate': 1.5259920939514892e-05, 'epoch': 69.48} {'loss': 0.0362, 'learning_rate': 1.5257522259748236e-05, 'epoch': 69.48} {'loss': 0.0367, 'learning_rate': 1.5255123579981579e-05, 'epoch': 69.49} {'loss': 0.0373, 'learning_rate': 1.5252724900214923e-05, 'epoch': 69.49} {'loss': 0.0365, 'learning_rate': 1.5250326220448266e-05, 'epoch': 69.5} {'loss': 0.0359, 'learning_rate': 1.5247927540681609e-05, 'epoch': 69.5} {'loss': 0.034, 'learning_rate': 1.5245528860914953e-05, 'epoch': 69.51} {'loss': 0.0341, 'learning_rate': 1.5243130181148296e-05, 'epoch': 69.51} {'loss': 0.0365, 'learning_rate': 1.5240731501381642e-05, 'epoch': 69.52} {'loss': 0.0366, 'learning_rate': 1.5238332821614985e-05, 'epoch': 69.52} {'loss': 0.0352, 'learning_rate': 1.5235934141848326e-05, 'epoch': 69.53} {'loss': 0.0347, 'learning_rate': 1.5233535462081672e-05, 'epoch': 69.53} {'loss': 0.0365, 'learning_rate': 1.5231136782315014e-05, 'epoch': 69.54} {'loss': 0.0348, 'learning_rate': 1.5228738102548359e-05, 'epoch': 69.54} {'loss': 0.0369, 'learning_rate': 1.5226339422781702e-05, 'epoch': 69.55} {'loss': 0.0353, 'learning_rate': 1.5223940743015044e-05, 'epoch': 69.55} {'loss': 0.0345, 'learning_rate': 1.522154206324839e-05, 'epoch': 69.56} {'loss': 0.0357, 'learning_rate': 1.5219143383481731e-05, 'epoch': 69.56} {'loss': 0.0363, 'learning_rate': 1.5216744703715077e-05, 'epoch': 69.57} {'loss': 0.0351, 'learning_rate': 1.521434602394842e-05, 'epoch': 69.57} {'loss': 0.0378, 'learning_rate': 1.5211947344181763e-05, 'epoch': 69.58} {'loss': 0.0342, 'learning_rate': 1.5209548664415107e-05, 'epoch': 69.58} {'loss': 0.0364, 'learning_rate': 1.520714998464845e-05, 'epoch': 69.59} {'loss': 0.0373, 'learning_rate': 1.5204751304881793e-05, 'epoch': 69.59} {'loss': 0.0361, 'learning_rate': 1.5202352625115137e-05, 'epoch': 69.6} {'loss': 0.0355, 'learning_rate': 1.519995394534848e-05, 'epoch': 69.6} {'loss': 0.0354, 'learning_rate': 1.5197555265581826e-05, 'epoch': 69.6} {'loss': 0.0376, 'learning_rate': 1.5195156585815169e-05, 'epoch': 69.61} {'loss': 0.0359, 'learning_rate': 1.519275790604851e-05, 'epoch': 69.61} {'loss': 0.034, 'learning_rate': 1.5190359226281856e-05, 'epoch': 69.62} {'loss': 0.0356, 'learning_rate': 1.5187960546515198e-05, 'epoch': 69.62} {'loss': 0.0362, 'learning_rate': 1.5185561866748543e-05, 'epoch': 69.63} {'loss': 0.0353, 'learning_rate': 1.5183163186981885e-05, 'epoch': 69.63} {'loss': 0.0345, 'learning_rate': 1.5180764507215228e-05, 'epoch': 69.64} {'loss': 0.0357, 'learning_rate': 1.5178365827448574e-05, 'epoch': 69.64} {'loss': 0.0366, 'learning_rate': 1.5175967147681915e-05, 'epoch': 69.65} {'loss': 0.0372, 'learning_rate': 1.5173568467915261e-05, 'epoch': 69.65} {'loss': 0.0345, 'learning_rate': 1.5171169788148604e-05, 'epoch': 69.66} {'loss': 0.0341, 'learning_rate': 1.5168771108381947e-05, 'epoch': 69.66} {'loss': 0.0355, 'learning_rate': 1.5166372428615291e-05, 'epoch': 69.67} {'loss': 0.035, 'learning_rate': 1.5163973748848634e-05, 'epoch': 69.67} {'loss': 0.0334, 'learning_rate': 1.5161575069081978e-05, 'epoch': 69.68} {'loss': 0.036, 'learning_rate': 1.5159176389315321e-05, 'epoch': 69.68} {'loss': 0.0368, 'learning_rate': 1.5156777709548664e-05, 'epoch': 69.69} {'loss': 0.0344, 'learning_rate': 1.515437902978201e-05, 'epoch': 69.69} {'loss': 0.035, 'learning_rate': 1.5151980350015352e-05, 'epoch': 69.7} {'loss': 0.0358, 'learning_rate': 1.5149581670248697e-05, 'epoch': 69.7} {'loss': 0.0344, 'learning_rate': 1.514718299048204e-05, 'epoch': 69.71} {'loss': 0.0352, 'learning_rate': 1.5144784310715382e-05, 'epoch': 69.71} {'loss': 0.0374, 'learning_rate': 1.5142385630948727e-05, 'epoch': 69.72} {'loss': 0.0346, 'learning_rate': 1.513998695118207e-05, 'epoch': 69.72} {'loss': 0.0352, 'learning_rate': 1.5137588271415415e-05, 'epoch': 69.72} {'loss': 0.0349, 'learning_rate': 1.5135189591648758e-05, 'epoch': 69.73} {'loss': 0.0352, 'learning_rate': 1.51327909118821e-05, 'epoch': 69.73} {'loss': 0.0347, 'learning_rate': 1.5130392232115445e-05, 'epoch': 69.74} {'loss': 0.0361, 'learning_rate': 1.5127993552348788e-05, 'epoch': 69.74} {'loss': 0.0372, 'learning_rate': 1.5125594872582132e-05, 'epoch': 69.75} {'loss': 0.0364, 'learning_rate': 1.5123196192815475e-05, 'epoch': 69.75} {'loss': 0.0354, 'learning_rate': 1.5120797513048818e-05, 'epoch': 69.76} {'loss': 0.0377, 'learning_rate': 1.5118398833282162e-05, 'epoch': 69.76} {'loss': 0.0355, 'learning_rate': 1.5116000153515505e-05, 'epoch': 69.77} {'loss': 0.0327, 'learning_rate': 1.5113601473748851e-05, 'epoch': 69.77} {'loss': 0.035, 'learning_rate': 1.5111202793982194e-05, 'epoch': 69.78} {'loss': 0.0363, 'learning_rate': 1.5108804114215536e-05, 'epoch': 69.78} {'loss': 0.0351, 'learning_rate': 1.510640543444888e-05, 'epoch': 69.79} {'loss': 0.0363, 'learning_rate': 1.5104006754682224e-05, 'epoch': 69.79} {'loss': 0.0359, 'learning_rate': 1.5101608074915566e-05, 'epoch': 69.8} {'loss': 0.0341, 'learning_rate': 1.509920939514891e-05, 'epoch': 69.8} {'loss': 0.0353, 'learning_rate': 1.5096810715382253e-05, 'epoch': 69.81} {'loss': 0.0356, 'learning_rate': 1.50944120356156e-05, 'epoch': 69.81} {'loss': 0.0358, 'learning_rate': 1.5092013355848942e-05, 'epoch': 69.82} {'loss': 0.0375, 'learning_rate': 1.5089614676082283e-05, 'epoch': 69.82} {'loss': 0.0342, 'learning_rate': 1.508721599631563e-05, 'epoch': 69.83} {'loss': 0.0361, 'learning_rate': 1.5084817316548972e-05, 'epoch': 69.83} {'loss': 0.0338, 'learning_rate': 1.5082418636782316e-05, 'epoch': 69.84} {'loss': 0.0365, 'learning_rate': 1.5080019957015659e-05, 'epoch': 69.84} {'loss': 0.0342, 'learning_rate': 1.5077621277249002e-05, 'epoch': 69.84} {'loss': 0.0365, 'learning_rate': 1.5075222597482346e-05, 'epoch': 69.85} {'loss': 0.0337, 'learning_rate': 1.5072823917715689e-05, 'epoch': 69.85} {'loss': 0.0359, 'learning_rate': 1.5070425237949035e-05, 'epoch': 69.86} {'loss': 0.0343, 'learning_rate': 1.5068026558182378e-05, 'epoch': 69.86} {'loss': 0.0357, 'learning_rate': 1.506562787841572e-05, 'epoch': 69.87} {'loss': 0.0356, 'learning_rate': 1.5063229198649065e-05, 'epoch': 69.87} {'loss': 0.0353, 'learning_rate': 1.5060830518882407e-05, 'epoch': 69.88} {'loss': 0.0361, 'learning_rate': 1.5058431839115752e-05, 'epoch': 69.88} {'loss': 0.0357, 'learning_rate': 1.5056033159349095e-05, 'epoch': 69.89} {'loss': 0.035, 'learning_rate': 1.5053634479582437e-05, 'epoch': 69.89} {'loss': 0.0364, 'learning_rate': 1.5051235799815783e-05, 'epoch': 69.9} {'loss': 0.0366, 'learning_rate': 1.5048837120049126e-05, 'epoch': 69.9} {'loss': 0.0357, 'learning_rate': 1.504643844028247e-05, 'epoch': 69.91} {'loss': 0.034, 'learning_rate': 1.5044039760515813e-05, 'epoch': 69.91} {'loss': 0.0346, 'learning_rate': 1.5041641080749156e-05, 'epoch': 69.92} {'loss': 0.0366, 'learning_rate': 1.50392424009825e-05, 'epoch': 69.92} {'loss': 0.0364, 'learning_rate': 1.5036843721215843e-05, 'epoch': 69.93} {'loss': 0.0364, 'learning_rate': 1.5034445041449189e-05, 'epoch': 69.93} {'loss': 0.0371, 'learning_rate': 1.503204636168253e-05, 'epoch': 69.94} {'loss': 0.0354, 'learning_rate': 1.5029647681915873e-05, 'epoch': 69.94} {'loss': 0.0338, 'learning_rate': 1.5027249002149219e-05, 'epoch': 69.95} {'loss': 0.0373, 'learning_rate': 1.5024850322382562e-05, 'epoch': 69.95} {'loss': 0.0339, 'learning_rate': 1.5022451642615906e-05, 'epoch': 69.96} {'loss': 0.0344, 'learning_rate': 1.5020052962849249e-05, 'epoch': 69.96} {'loss': 0.0345, 'learning_rate': 1.5017654283082591e-05, 'epoch': 69.96} {'loss': 0.0355, 'learning_rate': 1.5015255603315936e-05, 'epoch': 69.97} {'loss': 0.0347, 'learning_rate': 1.5012856923549278e-05, 'epoch': 69.97} {'loss': 0.036, 'learning_rate': 1.5010458243782625e-05, 'epoch': 69.98} {'loss': 0.0353, 'learning_rate': 1.5008059564015967e-05, 'epoch': 69.98} {'loss': 0.0353, 'learning_rate': 1.5005660884249308e-05, 'epoch': 69.99} {'loss': 0.0364, 'learning_rate': 1.5003262204482654e-05, 'epoch': 69.99} {'loss': 0.0354, 'learning_rate': 1.5000863524715997e-05, 'epoch': 70.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.0359753854572773, 'eval_runtime': 737.8016, 'eval_samples_per_second': 565.05, 'eval_steps_per_second': 70.631, 'epoch': 70.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-7295680 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-7295680/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-7295680/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-7191456] due to args.save_total_limit {'loss': 0.0361, 'learning_rate': 1.499846484494934e-05, 'epoch': 70.0} {'loss': 0.0367, 'learning_rate': 1.4996066165182684e-05, 'epoch': 70.01} {'loss': 0.0355, 'learning_rate': 1.4993667485416027e-05, 'epoch': 70.01} {'loss': 0.034, 'learning_rate': 1.4991268805649373e-05, 'epoch': 70.02} {'loss': 0.0359, 'learning_rate': 1.4988870125882714e-05, 'epoch': 70.02} {'loss': 0.0353, 'learning_rate': 1.4986471446116057e-05, 'epoch': 70.03} {'loss': 0.0348, 'learning_rate': 1.4984072766349403e-05, 'epoch': 70.03} {'loss': 0.0345, 'learning_rate': 1.4981674086582745e-05, 'epoch': 70.04} {'loss': 0.0357, 'learning_rate': 1.497927540681609e-05, 'epoch': 70.04} {'loss': 0.0357, 'learning_rate': 1.4976876727049433e-05, 'epoch': 70.05} {'loss': 0.0356, 'learning_rate': 1.4974478047282775e-05, 'epoch': 70.05} {'loss': 0.035, 'learning_rate': 1.497207936751612e-05, 'epoch': 70.06} {'loss': 0.0372, 'learning_rate': 1.4969680687749462e-05, 'epoch': 70.06} {'loss': 0.0364, 'learning_rate': 1.4967282007982808e-05, 'epoch': 70.07} {'loss': 0.0362, 'learning_rate': 1.4964883328216151e-05, 'epoch': 70.07} {'loss': 0.0353, 'learning_rate': 1.4962484648449492e-05, 'epoch': 70.08} {'loss': 0.0353, 'learning_rate': 1.4960085968682838e-05, 'epoch': 70.08} {'loss': 0.033, 'learning_rate': 1.4957687288916181e-05, 'epoch': 70.08} {'loss': 0.0354, 'learning_rate': 1.4955288609149525e-05, 'epoch': 70.09} {'loss': 0.0352, 'learning_rate': 1.4952889929382868e-05, 'epoch': 70.09} {'loss': 0.0362, 'learning_rate': 1.495049124961621e-05, 'epoch': 70.1} {'loss': 0.0332, 'learning_rate': 1.4948092569849557e-05, 'epoch': 70.1} {'loss': 0.0353, 'learning_rate': 1.4945693890082898e-05, 'epoch': 70.11} {'loss': 0.0359, 'learning_rate': 1.4943295210316244e-05, 'epoch': 70.11} {'loss': 0.0363, 'learning_rate': 1.4940896530549587e-05, 'epoch': 70.12} {'loss': 0.0338, 'learning_rate': 1.493849785078293e-05, 'epoch': 70.12} {'loss': 0.0356, 'learning_rate': 1.4936099171016274e-05, 'epoch': 70.13} {'loss': 0.0359, 'learning_rate': 1.4933700491249616e-05, 'epoch': 70.13} {'loss': 0.0338, 'learning_rate': 1.4931301811482963e-05, 'epoch': 70.14} {'loss': 0.0364, 'learning_rate': 1.4928903131716304e-05, 'epoch': 70.14} {'loss': 0.0352, 'learning_rate': 1.4926504451949646e-05, 'epoch': 70.15} {'loss': 0.0354, 'learning_rate': 1.4924105772182992e-05, 'epoch': 70.15} {'loss': 0.0364, 'learning_rate': 1.4921707092416335e-05, 'epoch': 70.16} {'loss': 0.0347, 'learning_rate': 1.491930841264968e-05, 'epoch': 70.16} {'loss': 0.0363, 'learning_rate': 1.4916909732883022e-05, 'epoch': 70.17} {'loss': 0.0349, 'learning_rate': 1.4914511053116365e-05, 'epoch': 70.17} {'loss': 0.0346, 'learning_rate': 1.491211237334971e-05, 'epoch': 70.18} {'loss': 0.0362, 'learning_rate': 1.4909713693583052e-05, 'epoch': 70.18} {'loss': 0.0367, 'learning_rate': 1.4907315013816398e-05, 'epoch': 70.19} {'loss': 0.0332, 'learning_rate': 1.490491633404974e-05, 'epoch': 70.19} {'loss': 0.0355, 'learning_rate': 1.4902517654283082e-05, 'epoch': 70.19} {'loss': 0.036, 'learning_rate': 1.4900118974516428e-05, 'epoch': 70.2} {'loss': 0.0339, 'learning_rate': 1.489772029474977e-05, 'epoch': 70.2} {'loss': 0.0338, 'learning_rate': 1.4895321614983113e-05, 'epoch': 70.21} {'loss': 0.0358, 'learning_rate': 1.4892922935216458e-05, 'epoch': 70.21} {'loss': 0.0349, 'learning_rate': 1.48905242554498e-05, 'epoch': 70.22} {'loss': 0.034, 'learning_rate': 1.4888125575683146e-05, 'epoch': 70.22} {'loss': 0.0357, 'learning_rate': 1.4885726895916487e-05, 'epoch': 70.23} {'loss': 0.036, 'learning_rate': 1.488332821614983e-05, 'epoch': 70.23} {'loss': 0.0342, 'learning_rate': 1.4880929536383176e-05, 'epoch': 70.24} {'loss': 0.036, 'learning_rate': 1.4878530856616519e-05, 'epoch': 70.24} {'loss': 0.0357, 'learning_rate': 1.4876132176849863e-05, 'epoch': 70.25} {'loss': 0.0359, 'learning_rate': 1.4873733497083206e-05, 'epoch': 70.25} {'loss': 0.0344, 'learning_rate': 1.4871334817316549e-05, 'epoch': 70.26} {'loss': 0.035, 'learning_rate': 1.4868936137549893e-05, 'epoch': 70.26} {'loss': 0.0336, 'learning_rate': 1.4866537457783236e-05, 'epoch': 70.27} {'loss': 0.0344, 'learning_rate': 1.4864138778016582e-05, 'epoch': 70.27} {'loss': 0.0353, 'learning_rate': 1.4861740098249925e-05, 'epoch': 70.28} {'loss': 0.0345, 'learning_rate': 1.4859341418483266e-05, 'epoch': 70.28} {'loss': 0.0356, 'learning_rate': 1.4856942738716612e-05, 'epoch': 70.29} {'loss': 0.0349, 'learning_rate': 1.4854544058949954e-05, 'epoch': 70.29} {'loss': 0.0355, 'learning_rate': 1.4852145379183299e-05, 'epoch': 70.3} {'loss': 0.0367, 'learning_rate': 1.4849746699416642e-05, 'epoch': 70.3} {'loss': 0.0381, 'learning_rate': 1.4847348019649984e-05, 'epoch': 70.31} {'loss': 0.0348, 'learning_rate': 1.484494933988333e-05, 'epoch': 70.31} {'loss': 0.0354, 'learning_rate': 1.4842550660116671e-05, 'epoch': 70.31} {'loss': 0.0362, 'learning_rate': 1.4840151980350017e-05, 'epoch': 70.32} {'loss': 0.0357, 'learning_rate': 1.483775330058336e-05, 'epoch': 70.32} {'loss': 0.0373, 'learning_rate': 1.4835354620816703e-05, 'epoch': 70.33} {'loss': 0.0358, 'learning_rate': 1.4832955941050047e-05, 'epoch': 70.33} {'loss': 0.036, 'learning_rate': 1.483055726128339e-05, 'epoch': 70.34} {'loss': 0.0352, 'learning_rate': 1.4828158581516734e-05, 'epoch': 70.34} {'loss': 0.0355, 'learning_rate': 1.4825759901750077e-05, 'epoch': 70.35} {'loss': 0.0346, 'learning_rate': 1.482336122198342e-05, 'epoch': 70.35} {'loss': 0.0347, 'learning_rate': 1.4820962542216766e-05, 'epoch': 70.36} {'loss': 0.0367, 'learning_rate': 1.4818563862450109e-05, 'epoch': 70.36} {'loss': 0.0366, 'learning_rate': 1.4816165182683453e-05, 'epoch': 70.37} {'loss': 0.0347, 'learning_rate': 1.4813766502916796e-05, 'epoch': 70.37} {'loss': 0.0356, 'learning_rate': 1.4811367823150138e-05, 'epoch': 70.38} {'loss': 0.0343, 'learning_rate': 1.4808969143383483e-05, 'epoch': 70.38} {'loss': 0.0364, 'learning_rate': 1.4806570463616825e-05, 'epoch': 70.39} {'loss': 0.0356, 'learning_rate': 1.4804171783850172e-05, 'epoch': 70.39} {'loss': 0.0339, 'learning_rate': 1.4801773104083513e-05, 'epoch': 70.4} {'loss': 0.0374, 'learning_rate': 1.4799374424316855e-05, 'epoch': 70.4} {'loss': 0.0374, 'learning_rate': 1.4796975744550201e-05, 'epoch': 70.41} {'loss': 0.0344, 'learning_rate': 1.4794577064783544e-05, 'epoch': 70.41} {'loss': 0.0338, 'learning_rate': 1.4792178385016888e-05, 'epoch': 70.42} {'loss': 0.0367, 'learning_rate': 1.4789779705250231e-05, 'epoch': 70.42} {'loss': 0.0362, 'learning_rate': 1.4787381025483574e-05, 'epoch': 70.43} {'loss': 0.0344, 'learning_rate': 1.4784982345716918e-05, 'epoch': 70.43} {'loss': 0.0353, 'learning_rate': 1.4782583665950261e-05, 'epoch': 70.43} {'loss': 0.0343, 'learning_rate': 1.4780184986183604e-05, 'epoch': 70.44} {'loss': 0.0345, 'learning_rate': 1.477778630641695e-05, 'epoch': 70.44} {'loss': 0.0376, 'learning_rate': 1.4775387626650292e-05, 'epoch': 70.45} {'loss': 0.035, 'learning_rate': 1.4772988946883637e-05, 'epoch': 70.45} {'loss': 0.0369, 'learning_rate': 1.477059026711698e-05, 'epoch': 70.46} {'loss': 0.0337, 'learning_rate': 1.4768191587350322e-05, 'epoch': 70.46} {'loss': 0.0339, 'learning_rate': 1.4765792907583667e-05, 'epoch': 70.47} {'loss': 0.0354, 'learning_rate': 1.476339422781701e-05, 'epoch': 70.47} {'loss': 0.0342, 'learning_rate': 1.4760995548050355e-05, 'epoch': 70.48} {'loss': 0.0356, 'learning_rate': 1.4758596868283696e-05, 'epoch': 70.48} {'loss': 0.0354, 'learning_rate': 1.4756198188517039e-05, 'epoch': 70.49} {'loss': 0.0363, 'learning_rate': 1.4753799508750385e-05, 'epoch': 70.49} {'loss': 0.0356, 'learning_rate': 1.4751400828983728e-05, 'epoch': 70.5} {'loss': 0.0354, 'learning_rate': 1.4749002149217072e-05, 'epoch': 70.5} {'loss': 0.035, 'learning_rate': 1.4746603469450415e-05, 'epoch': 70.51} {'loss': 0.0375, 'learning_rate': 1.4744204789683758e-05, 'epoch': 70.51} {'loss': 0.0364, 'learning_rate': 1.4741806109917102e-05, 'epoch': 70.52} {'loss': 0.0354, 'learning_rate': 1.4739407430150445e-05, 'epoch': 70.52} {'loss': 0.0349, 'learning_rate': 1.4737008750383791e-05, 'epoch': 70.53} {'loss': 0.0341, 'learning_rate': 1.4734610070617134e-05, 'epoch': 70.53} {'loss': 0.0357, 'learning_rate': 1.4732211390850476e-05, 'epoch': 70.54} {'loss': 0.0361, 'learning_rate': 1.472981271108382e-05, 'epoch': 70.54} {'loss': 0.0358, 'learning_rate': 1.4727414031317163e-05, 'epoch': 70.55} {'loss': 0.0352, 'learning_rate': 1.4725015351550508e-05, 'epoch': 70.55} {'loss': 0.0344, 'learning_rate': 1.472261667178385e-05, 'epoch': 70.55} {'loss': 0.0355, 'learning_rate': 1.4720217992017193e-05, 'epoch': 70.56} {'loss': 0.0335, 'learning_rate': 1.471781931225054e-05, 'epoch': 70.56} {'loss': 0.0368, 'learning_rate': 1.471542063248388e-05, 'epoch': 70.57} {'loss': 0.037, 'learning_rate': 1.4713021952717226e-05, 'epoch': 70.57} {'loss': 0.0357, 'learning_rate': 1.4710623272950569e-05, 'epoch': 70.58} {'loss': 0.0358, 'learning_rate': 1.4708224593183912e-05, 'epoch': 70.58} {'loss': 0.0356, 'learning_rate': 1.4705825913417256e-05, 'epoch': 70.59} {'loss': 0.0354, 'learning_rate': 1.4703427233650599e-05, 'epoch': 70.59} {'loss': 0.0341, 'learning_rate': 1.4701028553883945e-05, 'epoch': 70.6} {'loss': 0.036, 'learning_rate': 1.4698629874117286e-05, 'epoch': 70.6} {'loss': 0.0336, 'learning_rate': 1.4696231194350629e-05, 'epoch': 70.61} {'loss': 0.0355, 'learning_rate': 1.4693832514583975e-05, 'epoch': 70.61} {'loss': 0.034, 'learning_rate': 1.4691433834817318e-05, 'epoch': 70.62} {'loss': 0.0328, 'learning_rate': 1.4689035155050662e-05, 'epoch': 70.62} {'loss': 0.0359, 'learning_rate': 1.4686636475284005e-05, 'epoch': 70.63} {'loss': 0.0345, 'learning_rate': 1.4684237795517347e-05, 'epoch': 70.63} {'loss': 0.0371, 'learning_rate': 1.4681839115750692e-05, 'epoch': 70.64} {'loss': 0.0365, 'learning_rate': 1.4679440435984034e-05, 'epoch': 70.64} {'loss': 0.0359, 'learning_rate': 1.4677041756217377e-05, 'epoch': 70.65} {'loss': 0.0346, 'learning_rate': 1.4674643076450723e-05, 'epoch': 70.65} {'loss': 0.0345, 'learning_rate': 1.4672244396684064e-05, 'epoch': 70.66} {'loss': 0.0347, 'learning_rate': 1.466984571691741e-05, 'epoch': 70.66} {'loss': 0.037, 'learning_rate': 1.4667447037150753e-05, 'epoch': 70.67} {'loss': 0.0342, 'learning_rate': 1.4665048357384096e-05, 'epoch': 70.67} {'loss': 0.0368, 'learning_rate': 1.466264967761744e-05, 'epoch': 70.67} {'loss': 0.0344, 'learning_rate': 1.4660250997850783e-05, 'epoch': 70.68} {'loss': 0.0362, 'learning_rate': 1.4657852318084129e-05, 'epoch': 70.68} {'loss': 0.0351, 'learning_rate': 1.465545363831747e-05, 'epoch': 70.69} {'loss': 0.0373, 'learning_rate': 1.4653054958550813e-05, 'epoch': 70.69} {'loss': 0.0347, 'learning_rate': 1.4650656278784159e-05, 'epoch': 70.7} {'loss': 0.0372, 'learning_rate': 1.4648257599017501e-05, 'epoch': 70.7} {'loss': 0.0359, 'learning_rate': 1.4645858919250846e-05, 'epoch': 70.71} {'loss': 0.0372, 'learning_rate': 1.4643460239484189e-05, 'epoch': 70.71} {'loss': 0.0352, 'learning_rate': 1.4641061559717531e-05, 'epoch': 70.72} {'loss': 0.0361, 'learning_rate': 1.4638662879950876e-05, 'epoch': 70.72} {'loss': 0.0356, 'learning_rate': 1.4636264200184218e-05, 'epoch': 70.73} {'loss': 0.037, 'learning_rate': 1.4633865520417564e-05, 'epoch': 70.73} {'loss': 0.035, 'learning_rate': 1.4631466840650907e-05, 'epoch': 70.74} {'loss': 0.035, 'learning_rate': 1.4629068160884248e-05, 'epoch': 70.74} {'loss': 0.0354, 'learning_rate': 1.4626669481117594e-05, 'epoch': 70.75} {'loss': 0.0369, 'learning_rate': 1.4624270801350937e-05, 'epoch': 70.75} {'loss': 0.0356, 'learning_rate': 1.4621872121584281e-05, 'epoch': 70.76} {'loss': 0.0336, 'learning_rate': 1.4619473441817624e-05, 'epoch': 70.76} {'loss': 0.0335, 'learning_rate': 1.4617074762050967e-05, 'epoch': 70.77} {'loss': 0.0354, 'learning_rate': 1.4614676082284313e-05, 'epoch': 70.77} {'loss': 0.0368, 'learning_rate': 1.4612277402517654e-05, 'epoch': 70.78} {'loss': 0.0343, 'learning_rate': 1.4609878722751e-05, 'epoch': 70.78} {'loss': 0.0365, 'learning_rate': 1.4607480042984343e-05, 'epoch': 70.79} {'loss': 0.0343, 'learning_rate': 1.4605081363217685e-05, 'epoch': 70.79} {'loss': 0.0327, 'learning_rate': 1.460268268345103e-05, 'epoch': 70.79} {'loss': 0.0365, 'learning_rate': 1.4600284003684372e-05, 'epoch': 70.8} {'loss': 0.0351, 'learning_rate': 1.4597885323917719e-05, 'epoch': 70.8} {'loss': 0.0366, 'learning_rate': 1.459548664415106e-05, 'epoch': 70.81} {'loss': 0.0356, 'learning_rate': 1.4593087964384402e-05, 'epoch': 70.81} {'loss': 0.0353, 'learning_rate': 1.4590689284617748e-05, 'epoch': 70.82} {'loss': 0.0343, 'learning_rate': 1.4588290604851091e-05, 'epoch': 70.82} {'loss': 0.0332, 'learning_rate': 1.4585891925084435e-05, 'epoch': 70.83} {'loss': 0.0347, 'learning_rate': 1.4583493245317778e-05, 'epoch': 70.83} {'loss': 0.036, 'learning_rate': 1.458109456555112e-05, 'epoch': 70.84} {'loss': 0.0348, 'learning_rate': 1.4578695885784465e-05, 'epoch': 70.84} {'loss': 0.0328, 'learning_rate': 1.4576297206017808e-05, 'epoch': 70.85} {'loss': 0.0373, 'learning_rate': 1.457389852625115e-05, 'epoch': 70.85} {'loss': 0.0366, 'learning_rate': 1.4571499846484497e-05, 'epoch': 70.86} {'loss': 0.0361, 'learning_rate': 1.4569101166717838e-05, 'epoch': 70.86} {'loss': 0.0363, 'learning_rate': 1.4566702486951184e-05, 'epoch': 70.87} {'loss': 0.0323, 'learning_rate': 1.4564303807184527e-05, 'epoch': 70.87} {'loss': 0.0354, 'learning_rate': 1.456190512741787e-05, 'epoch': 70.88} {'loss': 0.0346, 'learning_rate': 1.4559506447651214e-05, 'epoch': 70.88} {'loss': 0.0337, 'learning_rate': 1.4557107767884556e-05, 'epoch': 70.89} {'loss': 0.0355, 'learning_rate': 1.45547090881179e-05, 'epoch': 70.89} {'loss': 0.034, 'learning_rate': 1.4552310408351243e-05, 'epoch': 70.9} {'loss': 0.0377, 'learning_rate': 1.4549911728584586e-05, 'epoch': 70.9} {'loss': 0.0337, 'learning_rate': 1.4547513048817932e-05, 'epoch': 70.9} {'loss': 0.0365, 'learning_rate': 1.4545114369051275e-05, 'epoch': 70.91} {'loss': 0.0369, 'learning_rate': 1.454271568928462e-05, 'epoch': 70.91} {'loss': 0.0345, 'learning_rate': 1.4540317009517962e-05, 'epoch': 70.92} {'loss': 0.036, 'learning_rate': 1.4537918329751305e-05, 'epoch': 70.92} {'loss': 0.034, 'learning_rate': 1.4535519649984649e-05, 'epoch': 70.93} {'loss': 0.0363, 'learning_rate': 1.4533120970217992e-05, 'epoch': 70.93} {'loss': 0.0357, 'learning_rate': 1.4530722290451338e-05, 'epoch': 70.94} {'loss': 0.035, 'learning_rate': 1.452832361068468e-05, 'epoch': 70.94} {'loss': 0.0326, 'learning_rate': 1.4525924930918022e-05, 'epoch': 70.95} {'loss': 0.0348, 'learning_rate': 1.4523526251151368e-05, 'epoch': 70.95} {'loss': 0.0352, 'learning_rate': 1.452112757138471e-05, 'epoch': 70.96} {'loss': 0.0375, 'learning_rate': 1.4518728891618055e-05, 'epoch': 70.96} {'loss': 0.0342, 'learning_rate': 1.4516330211851398e-05, 'epoch': 70.97} {'loss': 0.0375, 'learning_rate': 1.451393153208474e-05, 'epoch': 70.97} {'loss': 0.037, 'learning_rate': 1.4511532852318085e-05, 'epoch': 70.98} {'loss': 0.0352, 'learning_rate': 1.4509134172551427e-05, 'epoch': 70.98} {'loss': 0.0347, 'learning_rate': 1.4506735492784773e-05, 'epoch': 70.99} {'loss': 0.0353, 'learning_rate': 1.4504336813018116e-05, 'epoch': 70.99} {'loss': 0.0362, 'learning_rate': 1.4501938133251459e-05, 'epoch': 71.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.035800326615571976, 'eval_runtime': 739.5378, 'eval_samples_per_second': 563.724, 'eval_steps_per_second': 70.466, 'epoch': 71.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-7399904 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-7399904/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-7399904/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-7295680] due to args.save_total_limit {'loss': 0.0344, 'learning_rate': 1.4499539453484803e-05, 'epoch': 71.0} {'loss': 0.0352, 'learning_rate': 1.4497140773718146e-05, 'epoch': 71.01} {'loss': 0.0347, 'learning_rate': 1.449474209395149e-05, 'epoch': 71.01} {'loss': 0.0334, 'learning_rate': 1.4492343414184833e-05, 'epoch': 71.02} {'loss': 0.0342, 'learning_rate': 1.4489944734418176e-05, 'epoch': 71.02} {'loss': 0.0354, 'learning_rate': 1.4487546054651522e-05, 'epoch': 71.02} {'loss': 0.0342, 'learning_rate': 1.4485147374884865e-05, 'epoch': 71.03} {'loss': 0.0344, 'learning_rate': 1.4482748695118209e-05, 'epoch': 71.03} {'loss': 0.0346, 'learning_rate': 1.4480350015351552e-05, 'epoch': 71.04} {'loss': 0.0335, 'learning_rate': 1.4477951335584894e-05, 'epoch': 71.04} {'loss': 0.0342, 'learning_rate': 1.4475552655818239e-05, 'epoch': 71.05} {'loss': 0.034, 'learning_rate': 1.4473153976051581e-05, 'epoch': 71.05} {'loss': 0.0344, 'learning_rate': 1.4470755296284924e-05, 'epoch': 71.06} {'loss': 0.0343, 'learning_rate': 1.4468356616518269e-05, 'epoch': 71.06} {'loss': 0.0353, 'learning_rate': 1.4465957936751611e-05, 'epoch': 71.07} {'loss': 0.0321, 'learning_rate': 1.4463559256984957e-05, 'epoch': 71.07} {'loss': 0.0332, 'learning_rate': 1.44611605772183e-05, 'epoch': 71.08} {'loss': 0.0349, 'learning_rate': 1.4458761897451643e-05, 'epoch': 71.08} {'loss': 0.0347, 'learning_rate': 1.4456363217684987e-05, 'epoch': 71.09} {'loss': 0.0357, 'learning_rate': 1.445396453791833e-05, 'epoch': 71.09} {'loss': 0.033, 'learning_rate': 1.4451565858151674e-05, 'epoch': 71.1} {'loss': 0.0335, 'learning_rate': 1.4449167178385017e-05, 'epoch': 71.1} {'loss': 0.0361, 'learning_rate': 1.444676849861836e-05, 'epoch': 71.11} {'loss': 0.0356, 'learning_rate': 1.4444369818851706e-05, 'epoch': 71.11} {'loss': 0.0345, 'learning_rate': 1.4441971139085048e-05, 'epoch': 71.12} {'loss': 0.0361, 'learning_rate': 1.4439572459318393e-05, 'epoch': 71.12} {'loss': 0.0358, 'learning_rate': 1.4437173779551736e-05, 'epoch': 71.13} {'loss': 0.0341, 'learning_rate': 1.4434775099785078e-05, 'epoch': 71.13} {'loss': 0.0361, 'learning_rate': 1.4432376420018423e-05, 'epoch': 71.14} {'loss': 0.0335, 'learning_rate': 1.4429977740251765e-05, 'epoch': 71.14} {'loss': 0.0354, 'learning_rate': 1.4427579060485111e-05, 'epoch': 71.14} {'loss': 0.0378, 'learning_rate': 1.4425180380718452e-05, 'epoch': 71.15} {'loss': 0.0329, 'learning_rate': 1.4422781700951795e-05, 'epoch': 71.15} {'loss': 0.0343, 'learning_rate': 1.4420383021185141e-05, 'epoch': 71.16} {'loss': 0.0337, 'learning_rate': 1.4417984341418484e-05, 'epoch': 71.16} {'loss': 0.0373, 'learning_rate': 1.4415585661651828e-05, 'epoch': 71.17} {'loss': 0.0367, 'learning_rate': 1.4413186981885171e-05, 'epoch': 71.17} {'loss': 0.0357, 'learning_rate': 1.4410788302118514e-05, 'epoch': 71.18} {'loss': 0.0366, 'learning_rate': 1.4408389622351858e-05, 'epoch': 71.18} {'loss': 0.0344, 'learning_rate': 1.4405990942585201e-05, 'epoch': 71.19} {'loss': 0.0346, 'learning_rate': 1.4403592262818547e-05, 'epoch': 71.19} {'loss': 0.0346, 'learning_rate': 1.440119358305189e-05, 'epoch': 71.2} {'loss': 0.0346, 'learning_rate': 1.4398794903285232e-05, 'epoch': 71.2} {'loss': 0.0347, 'learning_rate': 1.4396396223518577e-05, 'epoch': 71.21} {'loss': 0.036, 'learning_rate': 1.439399754375192e-05, 'epoch': 71.21} {'loss': 0.0331, 'learning_rate': 1.4391598863985264e-05, 'epoch': 71.22} {'loss': 0.0356, 'learning_rate': 1.4389200184218607e-05, 'epoch': 71.22} {'loss': 0.0356, 'learning_rate': 1.438680150445195e-05, 'epoch': 71.23} {'loss': 0.0326, 'learning_rate': 1.4384402824685295e-05, 'epoch': 71.23} {'loss': 0.0358, 'learning_rate': 1.4382004144918636e-05, 'epoch': 71.24} {'loss': 0.0321, 'learning_rate': 1.4379605465151982e-05, 'epoch': 71.24} {'loss': 0.0344, 'learning_rate': 1.4377206785385325e-05, 'epoch': 71.25} {'loss': 0.035, 'learning_rate': 1.4374808105618668e-05, 'epoch': 71.25} {'loss': 0.0367, 'learning_rate': 1.4372409425852012e-05, 'epoch': 71.26} {'loss': 0.0349, 'learning_rate': 1.4370010746085355e-05, 'epoch': 71.26} {'loss': 0.0356, 'learning_rate': 1.4367612066318698e-05, 'epoch': 71.26} {'loss': 0.036, 'learning_rate': 1.4365213386552042e-05, 'epoch': 71.27} {'loss': 0.0355, 'learning_rate': 1.4362814706785385e-05, 'epoch': 71.27} {'loss': 0.0343, 'learning_rate': 1.436041602701873e-05, 'epoch': 71.28} {'loss': 0.0339, 'learning_rate': 1.4358017347252074e-05, 'epoch': 71.28} {'loss': 0.0346, 'learning_rate': 1.4355618667485415e-05, 'epoch': 71.29} {'loss': 0.0362, 'learning_rate': 1.435321998771876e-05, 'epoch': 71.29} {'loss': 0.0345, 'learning_rate': 1.4350821307952103e-05, 'epoch': 71.3} {'loss': 0.0348, 'learning_rate': 1.4348422628185448e-05, 'epoch': 71.3} {'loss': 0.0342, 'learning_rate': 1.434602394841879e-05, 'epoch': 71.31} {'loss': 0.0344, 'learning_rate': 1.4343625268652133e-05, 'epoch': 71.31} {'loss': 0.034, 'learning_rate': 1.434122658888548e-05, 'epoch': 71.32} {'loss': 0.0359, 'learning_rate': 1.433882790911882e-05, 'epoch': 71.32} {'loss': 0.034, 'learning_rate': 1.4336429229352166e-05, 'epoch': 71.33} {'loss': 0.0357, 'learning_rate': 1.4334030549585509e-05, 'epoch': 71.33} {'loss': 0.0343, 'learning_rate': 1.4331631869818852e-05, 'epoch': 71.34} {'loss': 0.0343, 'learning_rate': 1.4329233190052196e-05, 'epoch': 71.34} {'loss': 0.0362, 'learning_rate': 1.4326834510285539e-05, 'epoch': 71.35} {'loss': 0.0359, 'learning_rate': 1.4324435830518885e-05, 'epoch': 71.35} {'loss': 0.0346, 'learning_rate': 1.4322037150752226e-05, 'epoch': 71.36} {'loss': 0.0341, 'learning_rate': 1.4319638470985569e-05, 'epoch': 71.36} {'loss': 0.0344, 'learning_rate': 1.4317239791218915e-05, 'epoch': 71.37} {'loss': 0.0349, 'learning_rate': 1.4314841111452257e-05, 'epoch': 71.37} {'loss': 0.035, 'learning_rate': 1.4312442431685602e-05, 'epoch': 71.38} {'loss': 0.0344, 'learning_rate': 1.4310043751918945e-05, 'epoch': 71.38} {'loss': 0.037, 'learning_rate': 1.4307645072152287e-05, 'epoch': 71.38} {'loss': 0.0336, 'learning_rate': 1.4305246392385632e-05, 'epoch': 71.39} {'loss': 0.034, 'learning_rate': 1.4302847712618974e-05, 'epoch': 71.39} {'loss': 0.0365, 'learning_rate': 1.430044903285232e-05, 'epoch': 71.4} {'loss': 0.0354, 'learning_rate': 1.4298050353085663e-05, 'epoch': 71.4} {'loss': 0.0334, 'learning_rate': 1.4295651673319004e-05, 'epoch': 71.41} {'loss': 0.0364, 'learning_rate': 1.429325299355235e-05, 'epoch': 71.41} {'loss': 0.0359, 'learning_rate': 1.4290854313785693e-05, 'epoch': 71.42} {'loss': 0.0345, 'learning_rate': 1.4288455634019037e-05, 'epoch': 71.42} {'loss': 0.0346, 'learning_rate': 1.428605695425238e-05, 'epoch': 71.43} {'loss': 0.0359, 'learning_rate': 1.4283658274485723e-05, 'epoch': 71.43} {'loss': 0.0341, 'learning_rate': 1.4281259594719069e-05, 'epoch': 71.44} {'loss': 0.034, 'learning_rate': 1.427886091495241e-05, 'epoch': 71.44} {'loss': 0.0361, 'learning_rate': 1.4276462235185756e-05, 'epoch': 71.45} {'loss': 0.0343, 'learning_rate': 1.4274063555419099e-05, 'epoch': 71.45} {'loss': 0.035, 'learning_rate': 1.4271664875652441e-05, 'epoch': 71.46} {'loss': 0.035, 'learning_rate': 1.4269266195885786e-05, 'epoch': 71.46} {'loss': 0.0351, 'learning_rate': 1.4266867516119128e-05, 'epoch': 71.47} {'loss': 0.0349, 'learning_rate': 1.4264468836352473e-05, 'epoch': 71.47} {'loss': 0.034, 'learning_rate': 1.4262070156585816e-05, 'epoch': 71.48} {'loss': 0.0377, 'learning_rate': 1.4259671476819158e-05, 'epoch': 71.48} {'loss': 0.0349, 'learning_rate': 1.4257272797052504e-05, 'epoch': 71.49} {'loss': 0.035, 'learning_rate': 1.4254874117285847e-05, 'epoch': 71.49} {'loss': 0.0358, 'learning_rate': 1.4252475437519188e-05, 'epoch': 71.5} {'loss': 0.0358, 'learning_rate': 1.4250076757752534e-05, 'epoch': 71.5} {'loss': 0.0354, 'learning_rate': 1.4247678077985877e-05, 'epoch': 71.5} {'loss': 0.0352, 'learning_rate': 1.4245279398219221e-05, 'epoch': 71.51} {'loss': 0.0355, 'learning_rate': 1.4242880718452564e-05, 'epoch': 71.51} {'loss': 0.0347, 'learning_rate': 1.4240482038685907e-05, 'epoch': 71.52} {'loss': 0.0353, 'learning_rate': 1.4238083358919253e-05, 'epoch': 71.52} {'loss': 0.0358, 'learning_rate': 1.4235684679152594e-05, 'epoch': 71.53} {'loss': 0.0352, 'learning_rate': 1.423328599938594e-05, 'epoch': 71.53} {'loss': 0.0369, 'learning_rate': 1.4230887319619283e-05, 'epoch': 71.54} {'loss': 0.0371, 'learning_rate': 1.4228488639852625e-05, 'epoch': 71.54} {'loss': 0.0347, 'learning_rate': 1.422608996008597e-05, 'epoch': 71.55} {'loss': 0.0356, 'learning_rate': 1.4223691280319312e-05, 'epoch': 71.55} {'loss': 0.0343, 'learning_rate': 1.4221292600552657e-05, 'epoch': 71.56} {'loss': 0.034, 'learning_rate': 1.4218893920786e-05, 'epoch': 71.56} {'loss': 0.0355, 'learning_rate': 1.4216495241019342e-05, 'epoch': 71.57} {'loss': 0.0347, 'learning_rate': 1.4214096561252688e-05, 'epoch': 71.57} {'loss': 0.0349, 'learning_rate': 1.4211697881486031e-05, 'epoch': 71.58} {'loss': 0.035, 'learning_rate': 1.4209299201719375e-05, 'epoch': 71.58} {'loss': 0.0345, 'learning_rate': 1.4206900521952718e-05, 'epoch': 71.59} {'loss': 0.0344, 'learning_rate': 1.420450184218606e-05, 'epoch': 71.59} {'loss': 0.0343, 'learning_rate': 1.4202103162419405e-05, 'epoch': 71.6} {'loss': 0.0356, 'learning_rate': 1.4199704482652748e-05, 'epoch': 71.6} {'loss': 0.0356, 'learning_rate': 1.4197305802886094e-05, 'epoch': 71.61} {'loss': 0.0355, 'learning_rate': 1.4194907123119437e-05, 'epoch': 71.61} {'loss': 0.0342, 'learning_rate': 1.4192508443352778e-05, 'epoch': 71.61} {'loss': 0.0333, 'learning_rate': 1.4190109763586124e-05, 'epoch': 71.62} {'loss': 0.034, 'learning_rate': 1.4187711083819466e-05, 'epoch': 71.62} {'loss': 0.0338, 'learning_rate': 1.4185312404052811e-05, 'epoch': 71.63} {'loss': 0.0337, 'learning_rate': 1.4182913724286154e-05, 'epoch': 71.63} {'loss': 0.0358, 'learning_rate': 1.4180515044519496e-05, 'epoch': 71.64} {'loss': 0.0331, 'learning_rate': 1.417811636475284e-05, 'epoch': 71.64} {'loss': 0.0341, 'learning_rate': 1.4175717684986183e-05, 'epoch': 71.65} {'loss': 0.0362, 'learning_rate': 1.417331900521953e-05, 'epoch': 71.65} {'loss': 0.0354, 'learning_rate': 1.4170920325452872e-05, 'epoch': 71.66} {'loss': 0.035, 'learning_rate': 1.4168521645686215e-05, 'epoch': 71.66} {'loss': 0.0351, 'learning_rate': 1.416612296591956e-05, 'epoch': 71.67} {'loss': 0.0333, 'learning_rate': 1.4163724286152902e-05, 'epoch': 71.67} {'loss': 0.0346, 'learning_rate': 1.4161325606386246e-05, 'epoch': 71.68} {'loss': 0.0336, 'learning_rate': 1.4158926926619589e-05, 'epoch': 71.68} {'loss': 0.0344, 'learning_rate': 1.4156528246852932e-05, 'epoch': 71.69} {'loss': 0.036, 'learning_rate': 1.4154129567086278e-05, 'epoch': 71.69} {'loss': 0.0363, 'learning_rate': 1.4151730887319619e-05, 'epoch': 71.7} {'loss': 0.0353, 'learning_rate': 1.4149332207552962e-05, 'epoch': 71.7} {'loss': 0.035, 'learning_rate': 1.4146933527786308e-05, 'epoch': 71.71} {'loss': 0.0353, 'learning_rate': 1.414453484801965e-05, 'epoch': 71.71} {'loss': 0.0344, 'learning_rate': 1.4142136168252995e-05, 'epoch': 71.72} {'loss': 0.0343, 'learning_rate': 1.4139737488486337e-05, 'epoch': 71.72} {'loss': 0.0341, 'learning_rate': 1.413733880871968e-05, 'epoch': 71.73} {'loss': 0.0357, 'learning_rate': 1.4134940128953025e-05, 'epoch': 71.73} {'loss': 0.0357, 'learning_rate': 1.4132541449186367e-05, 'epoch': 71.73} {'loss': 0.0362, 'learning_rate': 1.4130142769419713e-05, 'epoch': 71.74} {'loss': 0.0333, 'learning_rate': 1.4127744089653056e-05, 'epoch': 71.74} {'loss': 0.0331, 'learning_rate': 1.4125345409886399e-05, 'epoch': 71.75} {'loss': 0.0334, 'learning_rate': 1.4122946730119743e-05, 'epoch': 71.75} {'loss': 0.035, 'learning_rate': 1.4120548050353086e-05, 'epoch': 71.76} {'loss': 0.0355, 'learning_rate': 1.411814937058643e-05, 'epoch': 71.76} {'loss': 0.0366, 'learning_rate': 1.4115750690819773e-05, 'epoch': 71.77} {'loss': 0.0356, 'learning_rate': 1.4113352011053116e-05, 'epoch': 71.77} {'loss': 0.0356, 'learning_rate': 1.4110953331286462e-05, 'epoch': 71.78} {'loss': 0.0345, 'learning_rate': 1.4108554651519803e-05, 'epoch': 71.78} {'loss': 0.0345, 'learning_rate': 1.4106155971753149e-05, 'epoch': 71.79} {'loss': 0.0333, 'learning_rate': 1.4103757291986492e-05, 'epoch': 71.79} {'loss': 0.0348, 'learning_rate': 1.4101358612219834e-05, 'epoch': 71.8} {'loss': 0.0359, 'learning_rate': 1.4098959932453179e-05, 'epoch': 71.8} {'loss': 0.0359, 'learning_rate': 1.4096561252686521e-05, 'epoch': 71.81} {'loss': 0.0365, 'learning_rate': 1.4094162572919867e-05, 'epoch': 71.81} {'loss': 0.0351, 'learning_rate': 1.4091763893153208e-05, 'epoch': 71.82} {'loss': 0.0353, 'learning_rate': 1.4089365213386551e-05, 'epoch': 71.82} {'loss': 0.0355, 'learning_rate': 1.4086966533619897e-05, 'epoch': 71.83} {'loss': 0.0341, 'learning_rate': 1.408456785385324e-05, 'epoch': 71.83} {'loss': 0.033, 'learning_rate': 1.4082169174086584e-05, 'epoch': 71.84} {'loss': 0.0344, 'learning_rate': 1.4079770494319927e-05, 'epoch': 71.84} {'loss': 0.0384, 'learning_rate': 1.407737181455327e-05, 'epoch': 71.85} {'loss': 0.0352, 'learning_rate': 1.4074973134786614e-05, 'epoch': 71.85} {'loss': 0.0341, 'learning_rate': 1.4072574455019957e-05, 'epoch': 71.85} {'loss': 0.0342, 'learning_rate': 1.4070175775253303e-05, 'epoch': 71.86} {'loss': 0.0367, 'learning_rate': 1.4067777095486646e-05, 'epoch': 71.86} {'loss': 0.0343, 'learning_rate': 1.4065378415719987e-05, 'epoch': 71.87} {'loss': 0.0338, 'learning_rate': 1.4062979735953333e-05, 'epoch': 71.87} {'loss': 0.0352, 'learning_rate': 1.4060581056186675e-05, 'epoch': 71.88} {'loss': 0.0363, 'learning_rate': 1.405818237642002e-05, 'epoch': 71.88} {'loss': 0.0375, 'learning_rate': 1.4055783696653363e-05, 'epoch': 71.89} {'loss': 0.0339, 'learning_rate': 1.4053385016886705e-05, 'epoch': 71.89} {'loss': 0.0362, 'learning_rate': 1.4050986337120051e-05, 'epoch': 71.9} {'loss': 0.0331, 'learning_rate': 1.4048587657353392e-05, 'epoch': 71.9} {'loss': 0.0361, 'learning_rate': 1.4046188977586735e-05, 'epoch': 71.91} {'loss': 0.0347, 'learning_rate': 1.4043790297820081e-05, 'epoch': 71.91} {'loss': 0.0344, 'learning_rate': 1.4041391618053424e-05, 'epoch': 71.92} {'loss': 0.0345, 'learning_rate': 1.4038992938286768e-05, 'epoch': 71.92} {'loss': 0.0328, 'learning_rate': 1.4036594258520111e-05, 'epoch': 71.93} {'loss': 0.0346, 'learning_rate': 1.4034195578753454e-05, 'epoch': 71.93} {'loss': 0.0353, 'learning_rate': 1.4031796898986798e-05, 'epoch': 71.94} {'loss': 0.0363, 'learning_rate': 1.402939821922014e-05, 'epoch': 71.94} {'loss': 0.0354, 'learning_rate': 1.4026999539453487e-05, 'epoch': 71.95} {'loss': 0.0366, 'learning_rate': 1.402460085968683e-05, 'epoch': 71.95} {'loss': 0.035, 'learning_rate': 1.402220217992017e-05, 'epoch': 71.96} {'loss': 0.0351, 'learning_rate': 1.4019803500153517e-05, 'epoch': 71.96} {'loss': 0.0335, 'learning_rate': 1.401740482038686e-05, 'epoch': 71.97} {'loss': 0.0354, 'learning_rate': 1.4015006140620204e-05, 'epoch': 71.97} {'loss': 0.0343, 'learning_rate': 1.4012607460853546e-05, 'epoch': 71.97} {'loss': 0.0325, 'learning_rate': 1.401020878108689e-05, 'epoch': 71.98} {'loss': 0.036, 'learning_rate': 1.4007810101320235e-05, 'epoch': 71.98} {'loss': 0.0346, 'learning_rate': 1.4005411421553576e-05, 'epoch': 71.99} {'loss': 0.0364, 'learning_rate': 1.4003012741786922e-05, 'epoch': 71.99} {'loss': 0.0343, 'learning_rate': 1.4000614062020265e-05, 'epoch': 72.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03581424057483673, 'eval_runtime': 732.4522, 'eval_samples_per_second': 569.177, 'eval_steps_per_second': 71.147, 'epoch': 72.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-7504128 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-7504128/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-7504128/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-7399904] due to args.save_total_limit {'loss': 0.0369, 'learning_rate': 1.3998215382253608e-05, 'epoch': 72.0} {'loss': 0.0357, 'learning_rate': 1.3995816702486952e-05, 'epoch': 72.01} {'loss': 0.037, 'learning_rate': 1.3993418022720295e-05, 'epoch': 72.01} {'loss': 0.0343, 'learning_rate': 1.3991019342953641e-05, 'epoch': 72.02} {'loss': 0.0365, 'learning_rate': 1.3988620663186982e-05, 'epoch': 72.02} {'loss': 0.0343, 'learning_rate': 1.3986221983420325e-05, 'epoch': 72.03} {'loss': 0.0341, 'learning_rate': 1.398382330365367e-05, 'epoch': 72.03} {'loss': 0.036, 'learning_rate': 1.3981424623887013e-05, 'epoch': 72.04} {'loss': 0.0327, 'learning_rate': 1.3979025944120358e-05, 'epoch': 72.04} {'loss': 0.0341, 'learning_rate': 1.39766272643537e-05, 'epoch': 72.05} {'loss': 0.0332, 'learning_rate': 1.3974228584587043e-05, 'epoch': 72.05} {'loss': 0.0349, 'learning_rate': 1.3971829904820388e-05, 'epoch': 72.06} {'loss': 0.0344, 'learning_rate': 1.396943122505373e-05, 'epoch': 72.06} {'loss': 0.0338, 'learning_rate': 1.3967032545287076e-05, 'epoch': 72.07} {'loss': 0.0336, 'learning_rate': 1.396463386552042e-05, 'epoch': 72.07} {'loss': 0.0358, 'learning_rate': 1.396223518575376e-05, 'epoch': 72.08} {'loss': 0.0335, 'learning_rate': 1.3959836505987106e-05, 'epoch': 72.08} {'loss': 0.0352, 'learning_rate': 1.3957437826220449e-05, 'epoch': 72.09} {'loss': 0.035, 'learning_rate': 1.3955039146453793e-05, 'epoch': 72.09} {'loss': 0.0334, 'learning_rate': 1.3952640466687136e-05, 'epoch': 72.09} {'loss': 0.0338, 'learning_rate': 1.3950241786920479e-05, 'epoch': 72.1} {'loss': 0.0338, 'learning_rate': 1.3947843107153825e-05, 'epoch': 72.1} {'loss': 0.0346, 'learning_rate': 1.3945444427387166e-05, 'epoch': 72.11} {'loss': 0.0333, 'learning_rate': 1.3943045747620509e-05, 'epoch': 72.11} {'loss': 0.0337, 'learning_rate': 1.3940647067853855e-05, 'epoch': 72.12} {'loss': 0.0355, 'learning_rate': 1.3938248388087197e-05, 'epoch': 72.12} {'loss': 0.0343, 'learning_rate': 1.3935849708320542e-05, 'epoch': 72.13} {'loss': 0.0344, 'learning_rate': 1.3933451028553884e-05, 'epoch': 72.13} {'loss': 0.0345, 'learning_rate': 1.3931052348787227e-05, 'epoch': 72.14} {'loss': 0.0361, 'learning_rate': 1.3928653669020572e-05, 'epoch': 72.14} {'loss': 0.0333, 'learning_rate': 1.3926254989253914e-05, 'epoch': 72.15} {'loss': 0.0336, 'learning_rate': 1.392385630948726e-05, 'epoch': 72.15} {'loss': 0.0335, 'learning_rate': 1.3921457629720603e-05, 'epoch': 72.16} {'loss': 0.0354, 'learning_rate': 1.3919058949953944e-05, 'epoch': 72.16} {'loss': 0.0346, 'learning_rate': 1.391666027018729e-05, 'epoch': 72.17} {'loss': 0.0351, 'learning_rate': 1.3914261590420633e-05, 'epoch': 72.17} {'loss': 0.0333, 'learning_rate': 1.3911862910653977e-05, 'epoch': 72.18} {'loss': 0.0344, 'learning_rate': 1.390946423088732e-05, 'epoch': 72.18} {'loss': 0.0353, 'learning_rate': 1.3907065551120663e-05, 'epoch': 72.19} {'loss': 0.0338, 'learning_rate': 1.3904666871354007e-05, 'epoch': 72.19} {'loss': 0.0354, 'learning_rate': 1.390226819158735e-05, 'epoch': 72.2} {'loss': 0.0347, 'learning_rate': 1.3899869511820696e-05, 'epoch': 72.2} {'loss': 0.0341, 'learning_rate': 1.3897470832054039e-05, 'epoch': 72.21} {'loss': 0.0342, 'learning_rate': 1.3895072152287381e-05, 'epoch': 72.21} {'loss': 0.0342, 'learning_rate': 1.3892673472520726e-05, 'epoch': 72.21} {'loss': 0.033, 'learning_rate': 1.3890274792754068e-05, 'epoch': 72.22} {'loss': 0.036, 'learning_rate': 1.3887876112987413e-05, 'epoch': 72.22} {'loss': 0.0341, 'learning_rate': 1.3885477433220755e-05, 'epoch': 72.23} {'loss': 0.034, 'learning_rate': 1.3883078753454098e-05, 'epoch': 72.23} {'loss': 0.0342, 'learning_rate': 1.3880680073687444e-05, 'epoch': 72.24} {'loss': 0.0354, 'learning_rate': 1.3878281393920787e-05, 'epoch': 72.24} {'loss': 0.0362, 'learning_rate': 1.3875882714154131e-05, 'epoch': 72.25} {'loss': 0.0346, 'learning_rate': 1.3873484034387474e-05, 'epoch': 72.25} {'loss': 0.0333, 'learning_rate': 1.3871085354620817e-05, 'epoch': 72.26} {'loss': 0.034, 'learning_rate': 1.3868686674854161e-05, 'epoch': 72.26} {'loss': 0.036, 'learning_rate': 1.3866287995087504e-05, 'epoch': 72.27} {'loss': 0.0364, 'learning_rate': 1.386388931532085e-05, 'epoch': 72.27} {'loss': 0.0338, 'learning_rate': 1.3861490635554191e-05, 'epoch': 72.28} {'loss': 0.0356, 'learning_rate': 1.3859091955787534e-05, 'epoch': 72.28} {'loss': 0.0339, 'learning_rate': 1.385669327602088e-05, 'epoch': 72.29} {'loss': 0.0344, 'learning_rate': 1.3854294596254222e-05, 'epoch': 72.29} {'loss': 0.0349, 'learning_rate': 1.3851895916487567e-05, 'epoch': 72.3} {'loss': 0.0354, 'learning_rate': 1.384949723672091e-05, 'epoch': 72.3} {'loss': 0.033, 'learning_rate': 1.3847098556954252e-05, 'epoch': 72.31} {'loss': 0.0347, 'learning_rate': 1.3844699877187597e-05, 'epoch': 72.31} {'loss': 0.0324, 'learning_rate': 1.384230119742094e-05, 'epoch': 72.32} {'loss': 0.0357, 'learning_rate': 1.3839902517654282e-05, 'epoch': 72.32} {'loss': 0.0346, 'learning_rate': 1.3837503837887628e-05, 'epoch': 72.32} {'loss': 0.0342, 'learning_rate': 1.3835105158120971e-05, 'epoch': 72.33} {'loss': 0.0352, 'learning_rate': 1.3832706478354315e-05, 'epoch': 72.33} {'loss': 0.0329, 'learning_rate': 1.3830307798587658e-05, 'epoch': 72.34} {'loss': 0.0309, 'learning_rate': 1.3827909118821e-05, 'epoch': 72.34} {'loss': 0.0353, 'learning_rate': 1.3825510439054345e-05, 'epoch': 72.35} {'loss': 0.0343, 'learning_rate': 1.3823111759287688e-05, 'epoch': 72.35} {'loss': 0.0362, 'learning_rate': 1.3820713079521034e-05, 'epoch': 72.36} {'loss': 0.036, 'learning_rate': 1.3818314399754375e-05, 'epoch': 72.36} {'loss': 0.0356, 'learning_rate': 1.3815915719987718e-05, 'epoch': 72.37} {'loss': 0.0336, 'learning_rate': 1.3813517040221064e-05, 'epoch': 72.37} {'loss': 0.0344, 'learning_rate': 1.3811118360454406e-05, 'epoch': 72.38} {'loss': 0.0351, 'learning_rate': 1.380871968068775e-05, 'epoch': 72.38} {'loss': 0.035, 'learning_rate': 1.3806321000921093e-05, 'epoch': 72.39} {'loss': 0.0338, 'learning_rate': 1.3803922321154436e-05, 'epoch': 72.39} {'loss': 0.0343, 'learning_rate': 1.380152364138778e-05, 'epoch': 72.4} {'loss': 0.0345, 'learning_rate': 1.3799124961621123e-05, 'epoch': 72.4} {'loss': 0.0336, 'learning_rate': 1.379672628185447e-05, 'epoch': 72.41} {'loss': 0.0351, 'learning_rate': 1.3794327602087812e-05, 'epoch': 72.41} {'loss': 0.0331, 'learning_rate': 1.3791928922321155e-05, 'epoch': 72.42} {'loss': 0.0333, 'learning_rate': 1.37895302425545e-05, 'epoch': 72.42} {'loss': 0.0361, 'learning_rate': 1.3787131562787842e-05, 'epoch': 72.43} {'loss': 0.0321, 'learning_rate': 1.3784732883021186e-05, 'epoch': 72.43} {'loss': 0.0349, 'learning_rate': 1.3782334203254529e-05, 'epoch': 72.44} {'loss': 0.0332, 'learning_rate': 1.3779935523487872e-05, 'epoch': 72.44} {'loss': 0.0341, 'learning_rate': 1.3777536843721218e-05, 'epoch': 72.44} {'loss': 0.0337, 'learning_rate': 1.3775138163954559e-05, 'epoch': 72.45} {'loss': 0.0362, 'learning_rate': 1.3772739484187905e-05, 'epoch': 72.45} {'loss': 0.0344, 'learning_rate': 1.3770340804421248e-05, 'epoch': 72.46} {'loss': 0.0329, 'learning_rate': 1.376794212465459e-05, 'epoch': 72.46} {'loss': 0.034, 'learning_rate': 1.3765543444887935e-05, 'epoch': 72.47} {'loss': 0.0356, 'learning_rate': 1.3763144765121277e-05, 'epoch': 72.47} {'loss': 0.0346, 'learning_rate': 1.3760746085354623e-05, 'epoch': 72.48} {'loss': 0.0351, 'learning_rate': 1.3758347405587964e-05, 'epoch': 72.48} {'loss': 0.0356, 'learning_rate': 1.3755948725821307e-05, 'epoch': 72.49} {'loss': 0.0341, 'learning_rate': 1.3753550046054653e-05, 'epoch': 72.49} {'loss': 0.0347, 'learning_rate': 1.3751151366287996e-05, 'epoch': 72.5} {'loss': 0.0342, 'learning_rate': 1.374875268652134e-05, 'epoch': 72.5} {'loss': 0.0334, 'learning_rate': 1.3746354006754683e-05, 'epoch': 72.51} {'loss': 0.0337, 'learning_rate': 1.3743955326988026e-05, 'epoch': 72.51} {'loss': 0.0321, 'learning_rate': 1.374155664722137e-05, 'epoch': 72.52} {'loss': 0.0352, 'learning_rate': 1.3739157967454713e-05, 'epoch': 72.52} {'loss': 0.0348, 'learning_rate': 1.3736759287688059e-05, 'epoch': 72.53} {'loss': 0.0361, 'learning_rate': 1.3734360607921402e-05, 'epoch': 72.53} {'loss': 0.0335, 'learning_rate': 1.3731961928154743e-05, 'epoch': 72.54} {'loss': 0.0331, 'learning_rate': 1.3729563248388089e-05, 'epoch': 72.54} {'loss': 0.0338, 'learning_rate': 1.3727164568621431e-05, 'epoch': 72.55} {'loss': 0.0344, 'learning_rate': 1.3724765888854774e-05, 'epoch': 72.55} {'loss': 0.033, 'learning_rate': 1.3722367209088119e-05, 'epoch': 72.56} {'loss': 0.0344, 'learning_rate': 1.3719968529321461e-05, 'epoch': 72.56} {'loss': 0.0344, 'learning_rate': 1.3717569849554807e-05, 'epoch': 72.56} {'loss': 0.0369, 'learning_rate': 1.3715171169788148e-05, 'epoch': 72.57} {'loss': 0.0336, 'learning_rate': 1.3712772490021491e-05, 'epoch': 72.57} {'loss': 0.0336, 'learning_rate': 1.3710373810254837e-05, 'epoch': 72.58} {'loss': 0.0346, 'learning_rate': 1.370797513048818e-05, 'epoch': 72.58} {'loss': 0.0336, 'learning_rate': 1.3705576450721524e-05, 'epoch': 72.59} {'loss': 0.0338, 'learning_rate': 1.3703177770954867e-05, 'epoch': 72.59} {'loss': 0.0343, 'learning_rate': 1.370077909118821e-05, 'epoch': 72.6} {'loss': 0.0345, 'learning_rate': 1.3698380411421554e-05, 'epoch': 72.6} {'loss': 0.0326, 'learning_rate': 1.3695981731654897e-05, 'epoch': 72.61} {'loss': 0.0358, 'learning_rate': 1.3693583051888243e-05, 'epoch': 72.61} {'loss': 0.0359, 'learning_rate': 1.3691184372121586e-05, 'epoch': 72.62} {'loss': 0.0355, 'learning_rate': 1.3688785692354927e-05, 'epoch': 72.62} {'loss': 0.0354, 'learning_rate': 1.3686387012588273e-05, 'epoch': 72.63} {'loss': 0.0358, 'learning_rate': 1.3683988332821615e-05, 'epoch': 72.63} {'loss': 0.0336, 'learning_rate': 1.368158965305496e-05, 'epoch': 72.64} {'loss': 0.0335, 'learning_rate': 1.3679190973288302e-05, 'epoch': 72.64} {'loss': 0.034, 'learning_rate': 1.3676792293521645e-05, 'epoch': 72.65} {'loss': 0.0338, 'learning_rate': 1.3674393613754991e-05, 'epoch': 72.65} {'loss': 0.0337, 'learning_rate': 1.3671994933988332e-05, 'epoch': 72.66} {'loss': 0.0337, 'learning_rate': 1.3669596254221678e-05, 'epoch': 72.66} {'loss': 0.0327, 'learning_rate': 1.3667197574455021e-05, 'epoch': 72.67} {'loss': 0.0348, 'learning_rate': 1.3664798894688364e-05, 'epoch': 72.67} {'loss': 0.0329, 'learning_rate': 1.3662400214921708e-05, 'epoch': 72.68} {'loss': 0.0344, 'learning_rate': 1.3660001535155051e-05, 'epoch': 72.68} {'loss': 0.0342, 'learning_rate': 1.3657602855388395e-05, 'epoch': 72.68} {'loss': 0.0351, 'learning_rate': 1.3655204175621738e-05, 'epoch': 72.69} {'loss': 0.0345, 'learning_rate': 1.365280549585508e-05, 'epoch': 72.69} {'loss': 0.0353, 'learning_rate': 1.3650406816088427e-05, 'epoch': 72.7} {'loss': 0.0329, 'learning_rate': 1.364800813632177e-05, 'epoch': 72.7} {'loss': 0.0328, 'learning_rate': 1.3645609456555114e-05, 'epoch': 72.71} {'loss': 0.036, 'learning_rate': 1.3643210776788457e-05, 'epoch': 72.71} {'loss': 0.0341, 'learning_rate': 1.36408120970218e-05, 'epoch': 72.72} {'loss': 0.0365, 'learning_rate': 1.3638413417255144e-05, 'epoch': 72.72} {'loss': 0.0331, 'learning_rate': 1.3636014737488486e-05, 'epoch': 72.73} {'loss': 0.0349, 'learning_rate': 1.3633616057721832e-05, 'epoch': 72.73} {'loss': 0.0342, 'learning_rate': 1.3631217377955175e-05, 'epoch': 72.74} {'loss': 0.0339, 'learning_rate': 1.3628818698188516e-05, 'epoch': 72.74} {'loss': 0.0342, 'learning_rate': 1.3626420018421862e-05, 'epoch': 72.75} {'loss': 0.0331, 'learning_rate': 1.3624021338655205e-05, 'epoch': 72.75} {'loss': 0.0318, 'learning_rate': 1.3621622658888548e-05, 'epoch': 72.76} {'loss': 0.0345, 'learning_rate': 1.3619223979121892e-05, 'epoch': 72.76} {'loss': 0.0342, 'learning_rate': 1.3616825299355235e-05, 'epoch': 72.77} {'loss': 0.033, 'learning_rate': 1.361442661958858e-05, 'epoch': 72.77} {'loss': 0.0341, 'learning_rate': 1.3612027939821922e-05, 'epoch': 72.78} {'loss': 0.0342, 'learning_rate': 1.3609629260055265e-05, 'epoch': 72.78} {'loss': 0.0355, 'learning_rate': 1.360723058028861e-05, 'epoch': 72.79} {'loss': 0.0354, 'learning_rate': 1.3604831900521953e-05, 'epoch': 72.79} {'loss': 0.0355, 'learning_rate': 1.3602433220755298e-05, 'epoch': 72.8} {'loss': 0.0357, 'learning_rate': 1.360003454098864e-05, 'epoch': 72.8} {'loss': 0.0339, 'learning_rate': 1.3597635861221983e-05, 'epoch': 72.8} {'loss': 0.034, 'learning_rate': 1.3595237181455328e-05, 'epoch': 72.81} {'loss': 0.0329, 'learning_rate': 1.359283850168867e-05, 'epoch': 72.81} {'loss': 0.0325, 'learning_rate': 1.3590439821922016e-05, 'epoch': 72.82} {'loss': 0.0345, 'learning_rate': 1.3588041142155359e-05, 'epoch': 72.82} {'loss': 0.0348, 'learning_rate': 1.35856424623887e-05, 'epoch': 72.83} {'loss': 0.0336, 'learning_rate': 1.3583243782622046e-05, 'epoch': 72.83} {'loss': 0.0337, 'learning_rate': 1.3580845102855389e-05, 'epoch': 72.84} {'loss': 0.0341, 'learning_rate': 1.3578446423088733e-05, 'epoch': 72.84} {'loss': 0.0346, 'learning_rate': 1.3576047743322076e-05, 'epoch': 72.85} {'loss': 0.034, 'learning_rate': 1.3573649063555419e-05, 'epoch': 72.85} {'loss': 0.0363, 'learning_rate': 1.3571250383788763e-05, 'epoch': 72.86} {'loss': 0.0346, 'learning_rate': 1.3568851704022106e-05, 'epoch': 72.86} {'loss': 0.0343, 'learning_rate': 1.3566453024255452e-05, 'epoch': 72.87} {'loss': 0.0331, 'learning_rate': 1.3564054344488795e-05, 'epoch': 72.87} {'loss': 0.0345, 'learning_rate': 1.3561655664722137e-05, 'epoch': 72.88} {'loss': 0.0334, 'learning_rate': 1.3559256984955482e-05, 'epoch': 72.88} {'loss': 0.0346, 'learning_rate': 1.3556858305188824e-05, 'epoch': 72.89} {'loss': 0.0359, 'learning_rate': 1.3554459625422169e-05, 'epoch': 72.89} {'loss': 0.033, 'learning_rate': 1.3552060945655512e-05, 'epoch': 72.9} {'loss': 0.0339, 'learning_rate': 1.3549662265888854e-05, 'epoch': 72.9} {'loss': 0.0372, 'learning_rate': 1.35472635861222e-05, 'epoch': 72.91} {'loss': 0.0345, 'learning_rate': 1.3544864906355543e-05, 'epoch': 72.91} {'loss': 0.0358, 'learning_rate': 1.3542466226588887e-05, 'epoch': 72.92} {'loss': 0.035, 'learning_rate': 1.354006754682223e-05, 'epoch': 72.92} {'loss': 0.0352, 'learning_rate': 1.3537668867055573e-05, 'epoch': 72.92} {'loss': 0.0348, 'learning_rate': 1.3535270187288917e-05, 'epoch': 72.93} {'loss': 0.0366, 'learning_rate': 1.353287150752226e-05, 'epoch': 72.93} {'loss': 0.0346, 'learning_rate': 1.3530472827755606e-05, 'epoch': 72.94} {'loss': 0.0333, 'learning_rate': 1.3528074147988947e-05, 'epoch': 72.94} {'loss': 0.0324, 'learning_rate': 1.352567546822229e-05, 'epoch': 72.95} {'loss': 0.0341, 'learning_rate': 1.3523276788455636e-05, 'epoch': 72.95} {'loss': 0.0322, 'learning_rate': 1.3520878108688979e-05, 'epoch': 72.96} {'loss': 0.0332, 'learning_rate': 1.3518479428922321e-05, 'epoch': 72.96} {'loss': 0.0356, 'learning_rate': 1.3516080749155666e-05, 'epoch': 72.97} {'loss': 0.0353, 'learning_rate': 1.3513682069389008e-05, 'epoch': 72.97} {'loss': 0.0339, 'learning_rate': 1.3511283389622353e-05, 'epoch': 72.98} {'loss': 0.0344, 'learning_rate': 1.3508884709855695e-05, 'epoch': 72.98} {'loss': 0.0354, 'learning_rate': 1.3506486030089038e-05, 'epoch': 72.99} {'loss': 0.0325, 'learning_rate': 1.3504087350322384e-05, 'epoch': 72.99} {'loss': 0.0335, 'learning_rate': 1.3501688670555725e-05, 'epoch': 73.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03507110849022865, 'eval_runtime': 735.4574, 'eval_samples_per_second': 566.851, 'eval_steps_per_second': 70.857, 'epoch': 73.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-7608352 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-7608352/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-7608352/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-7504128] due to args.save_total_limit {'loss': 0.0334, 'learning_rate': 1.3499289990789071e-05, 'epoch': 73.0} {'loss': 0.0325, 'learning_rate': 1.3496891311022414e-05, 'epoch': 73.01} {'loss': 0.0324, 'learning_rate': 1.3494492631255757e-05, 'epoch': 73.01} {'loss': 0.0344, 'learning_rate': 1.3492093951489101e-05, 'epoch': 73.02} {'loss': 0.0322, 'learning_rate': 1.3489695271722444e-05, 'epoch': 73.02} {'loss': 0.0333, 'learning_rate': 1.348729659195579e-05, 'epoch': 73.03} {'loss': 0.034, 'learning_rate': 1.3484897912189131e-05, 'epoch': 73.03} {'loss': 0.0339, 'learning_rate': 1.3482499232422474e-05, 'epoch': 73.04} {'loss': 0.0347, 'learning_rate': 1.348010055265582e-05, 'epoch': 73.04} {'loss': 0.0349, 'learning_rate': 1.3477701872889162e-05, 'epoch': 73.04} {'loss': 0.0336, 'learning_rate': 1.3475303193122507e-05, 'epoch': 73.05} {'loss': 0.0334, 'learning_rate': 1.347290451335585e-05, 'epoch': 73.05} {'loss': 0.0342, 'learning_rate': 1.3470505833589192e-05, 'epoch': 73.06} {'loss': 0.0348, 'learning_rate': 1.3468107153822537e-05, 'epoch': 73.06} {'loss': 0.0329, 'learning_rate': 1.346570847405588e-05, 'epoch': 73.07} {'loss': 0.0352, 'learning_rate': 1.3463309794289225e-05, 'epoch': 73.07} {'loss': 0.0338, 'learning_rate': 1.3460911114522568e-05, 'epoch': 73.08} {'loss': 0.0353, 'learning_rate': 1.3458512434755909e-05, 'epoch': 73.08} {'loss': 0.0337, 'learning_rate': 1.3456113754989255e-05, 'epoch': 73.09} {'loss': 0.0365, 'learning_rate': 1.3453715075222598e-05, 'epoch': 73.09} {'loss': 0.035, 'learning_rate': 1.3451316395455942e-05, 'epoch': 73.1} {'loss': 0.0326, 'learning_rate': 1.3448917715689285e-05, 'epoch': 73.1} {'loss': 0.0334, 'learning_rate': 1.3446519035922628e-05, 'epoch': 73.11} {'loss': 0.0336, 'learning_rate': 1.3444120356155974e-05, 'epoch': 73.11} {'loss': 0.0324, 'learning_rate': 1.3441721676389315e-05, 'epoch': 73.12} {'loss': 0.0326, 'learning_rate': 1.3439322996622661e-05, 'epoch': 73.12} {'loss': 0.0343, 'learning_rate': 1.3436924316856004e-05, 'epoch': 73.13} {'loss': 0.0334, 'learning_rate': 1.3434525637089346e-05, 'epoch': 73.13} {'loss': 0.0372, 'learning_rate': 1.343212695732269e-05, 'epoch': 73.14} {'loss': 0.0376, 'learning_rate': 1.3429728277556033e-05, 'epoch': 73.14} {'loss': 0.0341, 'learning_rate': 1.342732959778938e-05, 'epoch': 73.15} {'loss': 0.0347, 'learning_rate': 1.342493091802272e-05, 'epoch': 73.15} {'loss': 0.0349, 'learning_rate': 1.3422532238256063e-05, 'epoch': 73.15} {'loss': 0.034, 'learning_rate': 1.342013355848941e-05, 'epoch': 73.16} {'loss': 0.0346, 'learning_rate': 1.3417734878722752e-05, 'epoch': 73.16} {'loss': 0.033, 'learning_rate': 1.3415336198956093e-05, 'epoch': 73.17} {'loss': 0.0363, 'learning_rate': 1.3412937519189439e-05, 'epoch': 73.17} {'loss': 0.0348, 'learning_rate': 1.3410538839422782e-05, 'epoch': 73.18} {'loss': 0.032, 'learning_rate': 1.3408140159656126e-05, 'epoch': 73.18} {'loss': 0.0329, 'learning_rate': 1.3405741479889469e-05, 'epoch': 73.19} {'loss': 0.0352, 'learning_rate': 1.3403342800122812e-05, 'epoch': 73.19} {'loss': 0.0344, 'learning_rate': 1.3400944120356158e-05, 'epoch': 73.2} {'loss': 0.0337, 'learning_rate': 1.3398545440589499e-05, 'epoch': 73.2} {'loss': 0.0365, 'learning_rate': 1.3396146760822845e-05, 'epoch': 73.21} {'loss': 0.0331, 'learning_rate': 1.3393748081056188e-05, 'epoch': 73.21} {'loss': 0.035, 'learning_rate': 1.339134940128953e-05, 'epoch': 73.22} {'loss': 0.0333, 'learning_rate': 1.3388950721522875e-05, 'epoch': 73.22} {'loss': 0.0338, 'learning_rate': 1.3386552041756217e-05, 'epoch': 73.23} {'loss': 0.0338, 'learning_rate': 1.3384153361989563e-05, 'epoch': 73.23} {'loss': 0.0332, 'learning_rate': 1.3381754682222904e-05, 'epoch': 73.24} {'loss': 0.0362, 'learning_rate': 1.3379356002456247e-05, 'epoch': 73.24} {'loss': 0.0332, 'learning_rate': 1.3376957322689593e-05, 'epoch': 73.25} {'loss': 0.0337, 'learning_rate': 1.3374558642922936e-05, 'epoch': 73.25} {'loss': 0.0323, 'learning_rate': 1.337215996315628e-05, 'epoch': 73.26} {'loss': 0.0314, 'learning_rate': 1.3369761283389623e-05, 'epoch': 73.26} {'loss': 0.033, 'learning_rate': 1.3367362603622966e-05, 'epoch': 73.27} {'loss': 0.0324, 'learning_rate': 1.336496392385631e-05, 'epoch': 73.27} {'loss': 0.0341, 'learning_rate': 1.3362565244089653e-05, 'epoch': 73.27} {'loss': 0.0342, 'learning_rate': 1.3360166564322999e-05, 'epoch': 73.28} {'loss': 0.0334, 'learning_rate': 1.3357767884556342e-05, 'epoch': 73.28} {'loss': 0.0353, 'learning_rate': 1.3355369204789683e-05, 'epoch': 73.29} {'loss': 0.0318, 'learning_rate': 1.3352970525023029e-05, 'epoch': 73.29} {'loss': 0.0341, 'learning_rate': 1.3350571845256371e-05, 'epoch': 73.3} {'loss': 0.0356, 'learning_rate': 1.3348173165489716e-05, 'epoch': 73.3} {'loss': 0.0353, 'learning_rate': 1.3345774485723059e-05, 'epoch': 73.31} {'loss': 0.0362, 'learning_rate': 1.3343375805956401e-05, 'epoch': 73.31} {'loss': 0.0328, 'learning_rate': 1.3340977126189747e-05, 'epoch': 73.32} {'loss': 0.0348, 'learning_rate': 1.3338578446423088e-05, 'epoch': 73.32} {'loss': 0.0342, 'learning_rate': 1.3336179766656434e-05, 'epoch': 73.33} {'loss': 0.0337, 'learning_rate': 1.3333781086889777e-05, 'epoch': 73.33} {'loss': 0.0347, 'learning_rate': 1.333138240712312e-05, 'epoch': 73.34} {'loss': 0.0347, 'learning_rate': 1.3328983727356464e-05, 'epoch': 73.34} {'loss': 0.034, 'learning_rate': 1.3326585047589807e-05, 'epoch': 73.35} {'loss': 0.0348, 'learning_rate': 1.3324186367823151e-05, 'epoch': 73.35} {'loss': 0.0333, 'learning_rate': 1.3321787688056494e-05, 'epoch': 73.36} {'loss': 0.0361, 'learning_rate': 1.3319389008289837e-05, 'epoch': 73.36} {'loss': 0.0325, 'learning_rate': 1.3316990328523183e-05, 'epoch': 73.37} {'loss': 0.0351, 'learning_rate': 1.3314591648756526e-05, 'epoch': 73.37} {'loss': 0.0357, 'learning_rate': 1.3312192968989867e-05, 'epoch': 73.38} {'loss': 0.0354, 'learning_rate': 1.3309794289223213e-05, 'epoch': 73.38} {'loss': 0.0327, 'learning_rate': 1.3307395609456555e-05, 'epoch': 73.39} {'loss': 0.0336, 'learning_rate': 1.33049969296899e-05, 'epoch': 73.39} {'loss': 0.0337, 'learning_rate': 1.3302598249923242e-05, 'epoch': 73.39} {'loss': 0.0349, 'learning_rate': 1.3300199570156585e-05, 'epoch': 73.4} {'loss': 0.032, 'learning_rate': 1.3297800890389931e-05, 'epoch': 73.4} {'loss': 0.0343, 'learning_rate': 1.3295402210623272e-05, 'epoch': 73.41} {'loss': 0.0332, 'learning_rate': 1.3293003530856618e-05, 'epoch': 73.41} {'loss': 0.034, 'learning_rate': 1.3290604851089961e-05, 'epoch': 73.42} {'loss': 0.0358, 'learning_rate': 1.3288206171323304e-05, 'epoch': 73.42} {'loss': 0.0357, 'learning_rate': 1.3285807491556648e-05, 'epoch': 73.43} {'loss': 0.0328, 'learning_rate': 1.328340881178999e-05, 'epoch': 73.43} {'loss': 0.0348, 'learning_rate': 1.3281010132023335e-05, 'epoch': 73.44} {'loss': 0.0349, 'learning_rate': 1.3278611452256678e-05, 'epoch': 73.44} {'loss': 0.0354, 'learning_rate': 1.327621277249002e-05, 'epoch': 73.45} {'loss': 0.0332, 'learning_rate': 1.3273814092723367e-05, 'epoch': 73.45} {'loss': 0.0354, 'learning_rate': 1.327141541295671e-05, 'epoch': 73.46} {'loss': 0.0355, 'learning_rate': 1.3269016733190054e-05, 'epoch': 73.46} {'loss': 0.0357, 'learning_rate': 1.3266618053423397e-05, 'epoch': 73.47} {'loss': 0.0344, 'learning_rate': 1.326421937365674e-05, 'epoch': 73.47} {'loss': 0.0347, 'learning_rate': 1.3261820693890084e-05, 'epoch': 73.48} {'loss': 0.0357, 'learning_rate': 1.3259422014123426e-05, 'epoch': 73.48} {'loss': 0.0348, 'learning_rate': 1.3257023334356772e-05, 'epoch': 73.49} {'loss': 0.0358, 'learning_rate': 1.3254624654590113e-05, 'epoch': 73.49} {'loss': 0.034, 'learning_rate': 1.3252225974823456e-05, 'epoch': 73.5} {'loss': 0.0334, 'learning_rate': 1.3249827295056802e-05, 'epoch': 73.5} {'loss': 0.034, 'learning_rate': 1.3247428615290145e-05, 'epoch': 73.51} {'loss': 0.0346, 'learning_rate': 1.324502993552349e-05, 'epoch': 73.51} {'loss': 0.0334, 'learning_rate': 1.3242631255756832e-05, 'epoch': 73.51} {'loss': 0.0348, 'learning_rate': 1.3240232575990175e-05, 'epoch': 73.52} {'loss': 0.0339, 'learning_rate': 1.3237833896223519e-05, 'epoch': 73.52} {'loss': 0.0331, 'learning_rate': 1.3235435216456862e-05, 'epoch': 73.53} {'loss': 0.0329, 'learning_rate': 1.3233036536690208e-05, 'epoch': 73.53} {'loss': 0.0341, 'learning_rate': 1.323063785692355e-05, 'epoch': 73.54} {'loss': 0.0345, 'learning_rate': 1.3228239177156893e-05, 'epoch': 73.54} {'loss': 0.0335, 'learning_rate': 1.3225840497390238e-05, 'epoch': 73.55} {'loss': 0.034, 'learning_rate': 1.322344181762358e-05, 'epoch': 73.55} {'loss': 0.0349, 'learning_rate': 1.3221043137856925e-05, 'epoch': 73.56} {'loss': 0.0344, 'learning_rate': 1.3218644458090268e-05, 'epoch': 73.56} {'loss': 0.0321, 'learning_rate': 1.321624577832361e-05, 'epoch': 73.57} {'loss': 0.0352, 'learning_rate': 1.3213847098556956e-05, 'epoch': 73.57} {'loss': 0.0324, 'learning_rate': 1.3211448418790297e-05, 'epoch': 73.58} {'loss': 0.0315, 'learning_rate': 1.3209049739023643e-05, 'epoch': 73.58} {'loss': 0.0351, 'learning_rate': 1.3206651059256986e-05, 'epoch': 73.59} {'loss': 0.0326, 'learning_rate': 1.3204252379490329e-05, 'epoch': 73.59} {'loss': 0.0347, 'learning_rate': 1.3201853699723673e-05, 'epoch': 73.6} {'loss': 0.0363, 'learning_rate': 1.3199455019957016e-05, 'epoch': 73.6} {'loss': 0.0333, 'learning_rate': 1.3197056340190359e-05, 'epoch': 73.61} {'loss': 0.0351, 'learning_rate': 1.3194657660423703e-05, 'epoch': 73.61} {'loss': 0.0345, 'learning_rate': 1.3192258980657046e-05, 'epoch': 73.62} {'loss': 0.0338, 'learning_rate': 1.3189860300890392e-05, 'epoch': 73.62} {'loss': 0.0346, 'learning_rate': 1.3187461621123735e-05, 'epoch': 73.63} {'loss': 0.0339, 'learning_rate': 1.3185062941357077e-05, 'epoch': 73.63} {'loss': 0.0347, 'learning_rate': 1.3182664261590422e-05, 'epoch': 73.63} {'loss': 0.0352, 'learning_rate': 1.3180265581823764e-05, 'epoch': 73.64} {'loss': 0.0326, 'learning_rate': 1.3177866902057109e-05, 'epoch': 73.64} {'loss': 0.0337, 'learning_rate': 1.3175468222290451e-05, 'epoch': 73.65} {'loss': 0.0359, 'learning_rate': 1.3173069542523794e-05, 'epoch': 73.65} {'loss': 0.0343, 'learning_rate': 1.317067086275714e-05, 'epoch': 73.66} {'loss': 0.0353, 'learning_rate': 1.3168272182990481e-05, 'epoch': 73.66} {'loss': 0.0347, 'learning_rate': 1.3165873503223827e-05, 'epoch': 73.67} {'loss': 0.0341, 'learning_rate': 1.316347482345717e-05, 'epoch': 73.67} {'loss': 0.0329, 'learning_rate': 1.3161076143690513e-05, 'epoch': 73.68} {'loss': 0.033, 'learning_rate': 1.3158677463923857e-05, 'epoch': 73.68} {'loss': 0.0343, 'learning_rate': 1.31562787841572e-05, 'epoch': 73.69} {'loss': 0.0329, 'learning_rate': 1.3153880104390546e-05, 'epoch': 73.69} {'loss': 0.0358, 'learning_rate': 1.3151481424623887e-05, 'epoch': 73.7} {'loss': 0.0334, 'learning_rate': 1.314908274485723e-05, 'epoch': 73.7} {'loss': 0.0315, 'learning_rate': 1.3146684065090576e-05, 'epoch': 73.71} {'loss': 0.0328, 'learning_rate': 1.3144285385323918e-05, 'epoch': 73.71} {'loss': 0.0343, 'learning_rate': 1.3141886705557263e-05, 'epoch': 73.72} {'loss': 0.0354, 'learning_rate': 1.3139488025790606e-05, 'epoch': 73.72} {'loss': 0.0324, 'learning_rate': 1.3137089346023948e-05, 'epoch': 73.73} {'loss': 0.0317, 'learning_rate': 1.3134690666257293e-05, 'epoch': 73.73} {'loss': 0.0356, 'learning_rate': 1.3132291986490635e-05, 'epoch': 73.74} {'loss': 0.0341, 'learning_rate': 1.3129893306723981e-05, 'epoch': 73.74} {'loss': 0.0343, 'learning_rate': 1.3127494626957324e-05, 'epoch': 73.75} {'loss': 0.0332, 'learning_rate': 1.3125095947190665e-05, 'epoch': 73.75} {'loss': 0.0339, 'learning_rate': 1.3122697267424011e-05, 'epoch': 73.75} {'loss': 0.0326, 'learning_rate': 1.3120298587657354e-05, 'epoch': 73.76} {'loss': 0.0359, 'learning_rate': 1.3117899907890698e-05, 'epoch': 73.76} {'loss': 0.0338, 'learning_rate': 1.3115501228124041e-05, 'epoch': 73.77} {'loss': 0.0371, 'learning_rate': 1.3113102548357384e-05, 'epoch': 73.77} {'loss': 0.0344, 'learning_rate': 1.311070386859073e-05, 'epoch': 73.78} {'loss': 0.0338, 'learning_rate': 1.310830518882407e-05, 'epoch': 73.78} {'loss': 0.0335, 'learning_rate': 1.3105906509057417e-05, 'epoch': 73.79} {'loss': 0.0344, 'learning_rate': 1.310350782929076e-05, 'epoch': 73.79} {'loss': 0.0341, 'learning_rate': 1.3101109149524102e-05, 'epoch': 73.8} {'loss': 0.0347, 'learning_rate': 1.3098710469757447e-05, 'epoch': 73.8} {'loss': 0.0347, 'learning_rate': 1.309631178999079e-05, 'epoch': 73.81} {'loss': 0.0336, 'learning_rate': 1.3093913110224132e-05, 'epoch': 73.81} {'loss': 0.0355, 'learning_rate': 1.3091514430457477e-05, 'epoch': 73.82} {'loss': 0.0338, 'learning_rate': 1.308911575069082e-05, 'epoch': 73.82} {'loss': 0.0332, 'learning_rate': 1.3086717070924165e-05, 'epoch': 73.83} {'loss': 0.035, 'learning_rate': 1.3084318391157508e-05, 'epoch': 73.83} {'loss': 0.035, 'learning_rate': 1.3081919711390849e-05, 'epoch': 73.84} {'loss': 0.0325, 'learning_rate': 1.3079521031624195e-05, 'epoch': 73.84} {'loss': 0.0329, 'learning_rate': 1.3077122351857538e-05, 'epoch': 73.85} {'loss': 0.0341, 'learning_rate': 1.3074723672090882e-05, 'epoch': 73.85} {'loss': 0.0335, 'learning_rate': 1.3072324992324225e-05, 'epoch': 73.86} {'loss': 0.0337, 'learning_rate': 1.3069926312557568e-05, 'epoch': 73.86} {'loss': 0.036, 'learning_rate': 1.3067527632790914e-05, 'epoch': 73.86} {'loss': 0.0329, 'learning_rate': 1.3065128953024255e-05, 'epoch': 73.87} {'loss': 0.0346, 'learning_rate': 1.30627302732576e-05, 'epoch': 73.87} {'loss': 0.0359, 'learning_rate': 1.3060331593490944e-05, 'epoch': 73.88} {'loss': 0.0346, 'learning_rate': 1.3057932913724286e-05, 'epoch': 73.88} {'loss': 0.036, 'learning_rate': 1.305553423395763e-05, 'epoch': 73.89} {'loss': 0.0337, 'learning_rate': 1.3053135554190973e-05, 'epoch': 73.89} {'loss': 0.0343, 'learning_rate': 1.3050736874424318e-05, 'epoch': 73.9} {'loss': 0.0339, 'learning_rate': 1.304833819465766e-05, 'epoch': 73.9} {'loss': 0.0349, 'learning_rate': 1.3045939514891003e-05, 'epoch': 73.91} {'loss': 0.0332, 'learning_rate': 1.304354083512435e-05, 'epoch': 73.91} {'loss': 0.0336, 'learning_rate': 1.3041142155357692e-05, 'epoch': 73.92} {'loss': 0.0333, 'learning_rate': 1.3038743475591036e-05, 'epoch': 73.92} {'loss': 0.0342, 'learning_rate': 1.3036344795824379e-05, 'epoch': 73.93} {'loss': 0.034, 'learning_rate': 1.3033946116057722e-05, 'epoch': 73.93} {'loss': 0.0328, 'learning_rate': 1.3031547436291066e-05, 'epoch': 73.94} {'loss': 0.0338, 'learning_rate': 1.3029148756524409e-05, 'epoch': 73.94} {'loss': 0.0315, 'learning_rate': 1.3026750076757755e-05, 'epoch': 73.95} {'loss': 0.0316, 'learning_rate': 1.3024351396991098e-05, 'epoch': 73.95} {'loss': 0.035, 'learning_rate': 1.3021952717224439e-05, 'epoch': 73.96} {'loss': 0.0335, 'learning_rate': 1.3019554037457785e-05, 'epoch': 73.96} {'loss': 0.0326, 'learning_rate': 1.3017155357691127e-05, 'epoch': 73.97} {'loss': 0.0318, 'learning_rate': 1.3014756677924472e-05, 'epoch': 73.97} {'loss': 0.0318, 'learning_rate': 1.3012357998157815e-05, 'epoch': 73.98} {'loss': 0.0342, 'learning_rate': 1.3009959318391157e-05, 'epoch': 73.98} {'loss': 0.0338, 'learning_rate': 1.3007560638624502e-05, 'epoch': 73.98} {'loss': 0.0341, 'learning_rate': 1.3005161958857844e-05, 'epoch': 73.99} {'loss': 0.0328, 'learning_rate': 1.300276327909119e-05, 'epoch': 73.99} {'loss': 0.0329, 'learning_rate': 1.3000364599324533e-05, 'epoch': 74.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.035307105630636215, 'eval_runtime': 740.628, 'eval_samples_per_second': 562.894, 'eval_steps_per_second': 70.362, 'epoch': 74.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-7712576 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-7712576/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-7712576/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-7608352] due to args.save_total_limit {'loss': 0.0318, 'learning_rate': 1.2997965919557876e-05, 'epoch': 74.0} {'loss': 0.034, 'learning_rate': 1.299556723979122e-05, 'epoch': 74.01} {'loss': 0.0334, 'learning_rate': 1.2993168560024563e-05, 'epoch': 74.01} {'loss': 0.0339, 'learning_rate': 1.2990769880257906e-05, 'epoch': 74.02} {'loss': 0.0343, 'learning_rate': 1.298837120049125e-05, 'epoch': 74.02} {'loss': 0.0351, 'learning_rate': 1.2985972520724593e-05, 'epoch': 74.03} {'loss': 0.0329, 'learning_rate': 1.2983573840957939e-05, 'epoch': 74.03} {'loss': 0.0326, 'learning_rate': 1.2981175161191282e-05, 'epoch': 74.04} {'loss': 0.0315, 'learning_rate': 1.2978776481424623e-05, 'epoch': 74.04} {'loss': 0.0341, 'learning_rate': 1.2976377801657969e-05, 'epoch': 74.05} {'loss': 0.0363, 'learning_rate': 1.2973979121891311e-05, 'epoch': 74.05} {'loss': 0.0339, 'learning_rate': 1.2971580442124656e-05, 'epoch': 74.06} {'loss': 0.0339, 'learning_rate': 1.2969181762357998e-05, 'epoch': 74.06} {'loss': 0.0345, 'learning_rate': 1.2966783082591341e-05, 'epoch': 74.07} {'loss': 0.0344, 'learning_rate': 1.2964384402824686e-05, 'epoch': 74.07} {'loss': 0.0331, 'learning_rate': 1.2961985723058028e-05, 'epoch': 74.08} {'loss': 0.0332, 'learning_rate': 1.2959587043291374e-05, 'epoch': 74.08} {'loss': 0.0337, 'learning_rate': 1.2957188363524717e-05, 'epoch': 74.09} {'loss': 0.0344, 'learning_rate': 1.295478968375806e-05, 'epoch': 74.09} {'loss': 0.0333, 'learning_rate': 1.2952391003991404e-05, 'epoch': 74.1} {'loss': 0.0346, 'learning_rate': 1.2949992324224747e-05, 'epoch': 74.1} {'loss': 0.0332, 'learning_rate': 1.2947593644458091e-05, 'epoch': 74.1} {'loss': 0.0338, 'learning_rate': 1.2945194964691434e-05, 'epoch': 74.11} {'loss': 0.0341, 'learning_rate': 1.2942796284924777e-05, 'epoch': 74.11} {'loss': 0.0333, 'learning_rate': 1.2940397605158123e-05, 'epoch': 74.12} {'loss': 0.0337, 'learning_rate': 1.2937998925391465e-05, 'epoch': 74.12} {'loss': 0.0329, 'learning_rate': 1.293560024562481e-05, 'epoch': 74.13} {'loss': 0.0349, 'learning_rate': 1.2933201565858153e-05, 'epoch': 74.13} {'loss': 0.0343, 'learning_rate': 1.2930802886091495e-05, 'epoch': 74.14} {'loss': 0.0333, 'learning_rate': 1.292840420632484e-05, 'epoch': 74.14} {'loss': 0.0331, 'learning_rate': 1.2926005526558182e-05, 'epoch': 74.15} {'loss': 0.0339, 'learning_rate': 1.2923606846791528e-05, 'epoch': 74.15} {'loss': 0.0336, 'learning_rate': 1.292120816702487e-05, 'epoch': 74.16} {'loss': 0.0337, 'learning_rate': 1.2918809487258212e-05, 'epoch': 74.16} {'loss': 0.0326, 'learning_rate': 1.2916410807491558e-05, 'epoch': 74.17} {'loss': 0.0321, 'learning_rate': 1.2914012127724901e-05, 'epoch': 74.17} {'loss': 0.0351, 'learning_rate': 1.2911613447958245e-05, 'epoch': 74.18} {'loss': 0.0306, 'learning_rate': 1.2909214768191588e-05, 'epoch': 74.18} {'loss': 0.0336, 'learning_rate': 1.290681608842493e-05, 'epoch': 74.19} {'loss': 0.0333, 'learning_rate': 1.2904417408658275e-05, 'epoch': 74.19} {'loss': 0.035, 'learning_rate': 1.2902018728891618e-05, 'epoch': 74.2} {'loss': 0.0351, 'learning_rate': 1.2899620049124964e-05, 'epoch': 74.2} {'loss': 0.0333, 'learning_rate': 1.2897221369358307e-05, 'epoch': 74.21} {'loss': 0.0338, 'learning_rate': 1.289482268959165e-05, 'epoch': 74.21} {'loss': 0.0345, 'learning_rate': 1.2892424009824994e-05, 'epoch': 74.22} {'loss': 0.0331, 'learning_rate': 1.2890025330058336e-05, 'epoch': 74.22} {'loss': 0.034, 'learning_rate': 1.288762665029168e-05, 'epoch': 74.22} {'loss': 0.0328, 'learning_rate': 1.2885227970525024e-05, 'epoch': 74.23} {'loss': 0.032, 'learning_rate': 1.2882829290758366e-05, 'epoch': 74.23} {'loss': 0.0336, 'learning_rate': 1.2880430610991712e-05, 'epoch': 74.24} {'loss': 0.034, 'learning_rate': 1.2878031931225053e-05, 'epoch': 74.24} {'loss': 0.0344, 'learning_rate': 1.2875633251458396e-05, 'epoch': 74.25} {'loss': 0.0342, 'learning_rate': 1.2873234571691742e-05, 'epoch': 74.25} {'loss': 0.0336, 'learning_rate': 1.2870835891925085e-05, 'epoch': 74.26} {'loss': 0.0332, 'learning_rate': 1.286843721215843e-05, 'epoch': 74.26} {'loss': 0.0327, 'learning_rate': 1.2866038532391772e-05, 'epoch': 74.27} {'loss': 0.0331, 'learning_rate': 1.2863639852625115e-05, 'epoch': 74.27} {'loss': 0.0361, 'learning_rate': 1.2861241172858459e-05, 'epoch': 74.28} {'loss': 0.0359, 'learning_rate': 1.2858842493091802e-05, 'epoch': 74.28} {'loss': 0.0337, 'learning_rate': 1.2856443813325148e-05, 'epoch': 74.29} {'loss': 0.035, 'learning_rate': 1.285404513355849e-05, 'epoch': 74.29} {'loss': 0.0344, 'learning_rate': 1.2851646453791832e-05, 'epoch': 74.3} {'loss': 0.0319, 'learning_rate': 1.2849247774025178e-05, 'epoch': 74.3} {'loss': 0.0324, 'learning_rate': 1.284684909425852e-05, 'epoch': 74.31} {'loss': 0.0328, 'learning_rate': 1.2844450414491865e-05, 'epoch': 74.31} {'loss': 0.0346, 'learning_rate': 1.2842051734725207e-05, 'epoch': 74.32} {'loss': 0.0329, 'learning_rate': 1.283965305495855e-05, 'epoch': 74.32} {'loss': 0.0331, 'learning_rate': 1.2837254375191896e-05, 'epoch': 74.33} {'loss': 0.033, 'learning_rate': 1.2834855695425237e-05, 'epoch': 74.33} {'loss': 0.0334, 'learning_rate': 1.2832457015658583e-05, 'epoch': 74.34} {'loss': 0.0319, 'learning_rate': 1.2830058335891926e-05, 'epoch': 74.34} {'loss': 0.0327, 'learning_rate': 1.2827659656125269e-05, 'epoch': 74.34} {'loss': 0.0323, 'learning_rate': 1.2825260976358613e-05, 'epoch': 74.35} {'loss': 0.0337, 'learning_rate': 1.2822862296591956e-05, 'epoch': 74.35} {'loss': 0.0353, 'learning_rate': 1.2820463616825302e-05, 'epoch': 74.36} {'loss': 0.0354, 'learning_rate': 1.2818064937058643e-05, 'epoch': 74.36} {'loss': 0.0345, 'learning_rate': 1.2815666257291986e-05, 'epoch': 74.37} {'loss': 0.0342, 'learning_rate': 1.2813267577525332e-05, 'epoch': 74.37} {'loss': 0.0322, 'learning_rate': 1.2810868897758674e-05, 'epoch': 74.38} {'loss': 0.0348, 'learning_rate': 1.2808470217992019e-05, 'epoch': 74.38} {'loss': 0.033, 'learning_rate': 1.2806071538225362e-05, 'epoch': 74.39} {'loss': 0.0346, 'learning_rate': 1.2803672858458704e-05, 'epoch': 74.39} {'loss': 0.0313, 'learning_rate': 1.2801274178692049e-05, 'epoch': 74.4} {'loss': 0.0331, 'learning_rate': 1.2798875498925391e-05, 'epoch': 74.4} {'loss': 0.0324, 'learning_rate': 1.2796476819158737e-05, 'epoch': 74.41} {'loss': 0.034, 'learning_rate': 1.279407813939208e-05, 'epoch': 74.41} {'loss': 0.033, 'learning_rate': 1.2791679459625421e-05, 'epoch': 74.42} {'loss': 0.034, 'learning_rate': 1.2789280779858767e-05, 'epoch': 74.42} {'loss': 0.0334, 'learning_rate': 1.278688210009211e-05, 'epoch': 74.43} {'loss': 0.0315, 'learning_rate': 1.2784483420325453e-05, 'epoch': 74.43} {'loss': 0.0339, 'learning_rate': 1.2782084740558797e-05, 'epoch': 74.44} {'loss': 0.0339, 'learning_rate': 1.277968606079214e-05, 'epoch': 74.44} {'loss': 0.0351, 'learning_rate': 1.2777287381025486e-05, 'epoch': 74.45} {'loss': 0.0335, 'learning_rate': 1.2774888701258827e-05, 'epoch': 74.45} {'loss': 0.0344, 'learning_rate': 1.277249002149217e-05, 'epoch': 74.46} {'loss': 0.0321, 'learning_rate': 1.2770091341725516e-05, 'epoch': 74.46} {'loss': 0.034, 'learning_rate': 1.2767692661958858e-05, 'epoch': 74.46} {'loss': 0.0347, 'learning_rate': 1.2765293982192203e-05, 'epoch': 74.47} {'loss': 0.0336, 'learning_rate': 1.2762895302425545e-05, 'epoch': 74.47} {'loss': 0.0329, 'learning_rate': 1.2760496622658888e-05, 'epoch': 74.48} {'loss': 0.0315, 'learning_rate': 1.2758097942892233e-05, 'epoch': 74.48} {'loss': 0.0333, 'learning_rate': 1.2755699263125575e-05, 'epoch': 74.49} {'loss': 0.0345, 'learning_rate': 1.2753300583358921e-05, 'epoch': 74.49} {'loss': 0.0337, 'learning_rate': 1.2750901903592264e-05, 'epoch': 74.5} {'loss': 0.0327, 'learning_rate': 1.2748503223825605e-05, 'epoch': 74.5} {'loss': 0.0339, 'learning_rate': 1.2746104544058951e-05, 'epoch': 74.51} {'loss': 0.0338, 'learning_rate': 1.2743705864292294e-05, 'epoch': 74.51} {'loss': 0.0322, 'learning_rate': 1.2741307184525638e-05, 'epoch': 74.52} {'loss': 0.0334, 'learning_rate': 1.2738908504758981e-05, 'epoch': 74.52} {'loss': 0.034, 'learning_rate': 1.2736509824992324e-05, 'epoch': 74.53} {'loss': 0.0349, 'learning_rate': 1.273411114522567e-05, 'epoch': 74.53} {'loss': 0.0337, 'learning_rate': 1.273171246545901e-05, 'epoch': 74.54} {'loss': 0.0326, 'learning_rate': 1.2729313785692357e-05, 'epoch': 74.54} {'loss': 0.0334, 'learning_rate': 1.27269151059257e-05, 'epoch': 74.55} {'loss': 0.035, 'learning_rate': 1.2724516426159042e-05, 'epoch': 74.55} {'loss': 0.0333, 'learning_rate': 1.2722117746392387e-05, 'epoch': 74.56} {'loss': 0.0348, 'learning_rate': 1.271971906662573e-05, 'epoch': 74.56} {'loss': 0.0337, 'learning_rate': 1.2717320386859074e-05, 'epoch': 74.57} {'loss': 0.0337, 'learning_rate': 1.2714921707092416e-05, 'epoch': 74.57} {'loss': 0.0332, 'learning_rate': 1.271252302732576e-05, 'epoch': 74.57} {'loss': 0.0325, 'learning_rate': 1.2710124347559105e-05, 'epoch': 74.58} {'loss': 0.0347, 'learning_rate': 1.2707725667792448e-05, 'epoch': 74.58} {'loss': 0.0336, 'learning_rate': 1.2705326988025792e-05, 'epoch': 74.59} {'loss': 0.0328, 'learning_rate': 1.2702928308259135e-05, 'epoch': 74.59} {'loss': 0.0337, 'learning_rate': 1.2700529628492478e-05, 'epoch': 74.6} {'loss': 0.032, 'learning_rate': 1.2698130948725822e-05, 'epoch': 74.6} {'loss': 0.0359, 'learning_rate': 1.2695732268959165e-05, 'epoch': 74.61} {'loss': 0.0319, 'learning_rate': 1.2693333589192511e-05, 'epoch': 74.61} {'loss': 0.0335, 'learning_rate': 1.2690934909425854e-05, 'epoch': 74.62} {'loss': 0.0332, 'learning_rate': 1.2688536229659195e-05, 'epoch': 74.62} {'loss': 0.0343, 'learning_rate': 1.268613754989254e-05, 'epoch': 74.63} {'loss': 0.0343, 'learning_rate': 1.2683738870125883e-05, 'epoch': 74.63} {'loss': 0.0348, 'learning_rate': 1.2681340190359228e-05, 'epoch': 74.64} {'loss': 0.034, 'learning_rate': 1.267894151059257e-05, 'epoch': 74.64} {'loss': 0.0336, 'learning_rate': 1.2676542830825913e-05, 'epoch': 74.65} {'loss': 0.0337, 'learning_rate': 1.2674144151059258e-05, 'epoch': 74.65} {'loss': 0.0337, 'learning_rate': 1.26717454712926e-05, 'epoch': 74.66} {'loss': 0.0329, 'learning_rate': 1.2669346791525943e-05, 'epoch': 74.66} {'loss': 0.0335, 'learning_rate': 1.266694811175929e-05, 'epoch': 74.67} {'loss': 0.0318, 'learning_rate': 1.2664549431992632e-05, 'epoch': 74.67} {'loss': 0.036, 'learning_rate': 1.2662150752225976e-05, 'epoch': 74.68} {'loss': 0.0345, 'learning_rate': 1.2659752072459319e-05, 'epoch': 74.68} {'loss': 0.0341, 'learning_rate': 1.2657353392692662e-05, 'epoch': 74.69} {'loss': 0.0317, 'learning_rate': 1.2654954712926006e-05, 'epoch': 74.69} {'loss': 0.0332, 'learning_rate': 1.2652556033159349e-05, 'epoch': 74.69} {'loss': 0.0338, 'learning_rate': 1.2650157353392695e-05, 'epoch': 74.7} {'loss': 0.0343, 'learning_rate': 1.2647758673626038e-05, 'epoch': 74.7} {'loss': 0.0337, 'learning_rate': 1.2645359993859379e-05, 'epoch': 74.71} {'loss': 0.034, 'learning_rate': 1.2642961314092725e-05, 'epoch': 74.71} {'loss': 0.0328, 'learning_rate': 1.2640562634326067e-05, 'epoch': 74.72} {'loss': 0.0323, 'learning_rate': 1.2638163954559412e-05, 'epoch': 74.72} {'loss': 0.0332, 'learning_rate': 1.2635765274792754e-05, 'epoch': 74.73} {'loss': 0.0342, 'learning_rate': 1.2633366595026097e-05, 'epoch': 74.73} {'loss': 0.0353, 'learning_rate': 1.2630967915259442e-05, 'epoch': 74.74} {'loss': 0.0316, 'learning_rate': 1.2628569235492784e-05, 'epoch': 74.74} {'loss': 0.0339, 'learning_rate': 1.262617055572613e-05, 'epoch': 74.75} {'loss': 0.0324, 'learning_rate': 1.2623771875959473e-05, 'epoch': 74.75} {'loss': 0.0336, 'learning_rate': 1.2621373196192816e-05, 'epoch': 74.76} {'loss': 0.0331, 'learning_rate': 1.261897451642616e-05, 'epoch': 74.76} {'loss': 0.0328, 'learning_rate': 1.2616575836659503e-05, 'epoch': 74.77} {'loss': 0.0337, 'learning_rate': 1.2614177156892847e-05, 'epoch': 74.77} {'loss': 0.033, 'learning_rate': 1.261177847712619e-05, 'epoch': 74.78} {'loss': 0.0345, 'learning_rate': 1.2609379797359533e-05, 'epoch': 74.78} {'loss': 0.0347, 'learning_rate': 1.2606981117592879e-05, 'epoch': 74.79} {'loss': 0.0345, 'learning_rate': 1.260458243782622e-05, 'epoch': 74.79} {'loss': 0.0325, 'learning_rate': 1.2602183758059566e-05, 'epoch': 74.8} {'loss': 0.0335, 'learning_rate': 1.2599785078292909e-05, 'epoch': 74.8} {'loss': 0.0327, 'learning_rate': 1.2597386398526251e-05, 'epoch': 74.81} {'loss': 0.0335, 'learning_rate': 1.2594987718759596e-05, 'epoch': 74.81} {'loss': 0.0335, 'learning_rate': 1.2592589038992938e-05, 'epoch': 74.81} {'loss': 0.0338, 'learning_rate': 1.2590190359226284e-05, 'epoch': 74.82} {'loss': 0.0344, 'learning_rate': 1.2587791679459625e-05, 'epoch': 74.82} {'loss': 0.0348, 'learning_rate': 1.2585392999692968e-05, 'epoch': 74.83} {'loss': 0.0345, 'learning_rate': 1.2582994319926314e-05, 'epoch': 74.83} {'loss': 0.0334, 'learning_rate': 1.2580595640159657e-05, 'epoch': 74.84} {'loss': 0.0332, 'learning_rate': 1.2578196960393001e-05, 'epoch': 74.84} {'loss': 0.0356, 'learning_rate': 1.2575798280626344e-05, 'epoch': 74.85} {'loss': 0.034, 'learning_rate': 1.2573399600859687e-05, 'epoch': 74.85} {'loss': 0.034, 'learning_rate': 1.2571000921093031e-05, 'epoch': 74.86} {'loss': 0.0329, 'learning_rate': 1.2568602241326374e-05, 'epoch': 74.86} {'loss': 0.0327, 'learning_rate': 1.2566203561559717e-05, 'epoch': 74.87} {'loss': 0.0347, 'learning_rate': 1.2563804881793063e-05, 'epoch': 74.87} {'loss': 0.0343, 'learning_rate': 1.2561406202026404e-05, 'epoch': 74.88} {'loss': 0.0332, 'learning_rate': 1.255900752225975e-05, 'epoch': 74.88} {'loss': 0.0353, 'learning_rate': 1.2556608842493092e-05, 'epoch': 74.89} {'loss': 0.0327, 'learning_rate': 1.2554210162726435e-05, 'epoch': 74.89} {'loss': 0.0333, 'learning_rate': 1.255181148295978e-05, 'epoch': 74.9} {'loss': 0.0328, 'learning_rate': 1.2549412803193122e-05, 'epoch': 74.9} {'loss': 0.0328, 'learning_rate': 1.2547014123426468e-05, 'epoch': 74.91} {'loss': 0.033, 'learning_rate': 1.254461544365981e-05, 'epoch': 74.91} {'loss': 0.0328, 'learning_rate': 1.2542216763893152e-05, 'epoch': 74.92} {'loss': 0.0324, 'learning_rate': 1.2539818084126498e-05, 'epoch': 74.92} {'loss': 0.0336, 'learning_rate': 1.2537419404359841e-05, 'epoch': 74.93} {'loss': 0.032, 'learning_rate': 1.2535020724593185e-05, 'epoch': 74.93} {'loss': 0.0335, 'learning_rate': 1.2532622044826528e-05, 'epoch': 74.93} {'loss': 0.0361, 'learning_rate': 1.253022336505987e-05, 'epoch': 74.94} {'loss': 0.034, 'learning_rate': 1.2527824685293215e-05, 'epoch': 74.94} {'loss': 0.0339, 'learning_rate': 1.2525426005526558e-05, 'epoch': 74.95} {'loss': 0.0339, 'learning_rate': 1.2523027325759904e-05, 'epoch': 74.95} {'loss': 0.0332, 'learning_rate': 1.2520628645993247e-05, 'epoch': 74.96} {'loss': 0.0333, 'learning_rate': 1.2518229966226588e-05, 'epoch': 74.96} {'loss': 0.0347, 'learning_rate': 1.2515831286459934e-05, 'epoch': 74.97} {'loss': 0.0342, 'learning_rate': 1.2513432606693276e-05, 'epoch': 74.97} {'loss': 0.0359, 'learning_rate': 1.251103392692662e-05, 'epoch': 74.98} {'loss': 0.0341, 'learning_rate': 1.2508635247159963e-05, 'epoch': 74.98} {'loss': 0.0323, 'learning_rate': 1.2506236567393306e-05, 'epoch': 74.99} {'loss': 0.0333, 'learning_rate': 1.2503837887626652e-05, 'epoch': 74.99} {'loss': 0.0342, 'learning_rate': 1.2501439207859993e-05, 'epoch': 75.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.034549225121736526, 'eval_runtime': 900.2653, 'eval_samples_per_second': 463.08, 'eval_steps_per_second': 57.885, 'epoch': 75.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-7816800 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-7816800/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-7816800/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-7712576] due to args.save_total_limit {'loss': 0.0338, 'learning_rate': 1.2499040528093338e-05, 'epoch': 75.0} {'loss': 0.0321, 'learning_rate': 1.2496641848326682e-05, 'epoch': 75.01} {'loss': 0.032, 'learning_rate': 1.2494243168560025e-05, 'epoch': 75.01} {'loss': 0.0332, 'learning_rate': 1.2491844488793367e-05, 'epoch': 75.02} {'loss': 0.0316, 'learning_rate': 1.2489445809026712e-05, 'epoch': 75.02} {'loss': 0.0322, 'learning_rate': 1.2487047129260056e-05, 'epoch': 75.03} {'loss': 0.0338, 'learning_rate': 1.2484648449493399e-05, 'epoch': 75.03} {'loss': 0.0318, 'learning_rate': 1.2482249769726743e-05, 'epoch': 75.04} {'loss': 0.035, 'learning_rate': 1.2479851089960086e-05, 'epoch': 75.04} {'loss': 0.0352, 'learning_rate': 1.247745241019343e-05, 'epoch': 75.05} {'loss': 0.0327, 'learning_rate': 1.2475053730426773e-05, 'epoch': 75.05} {'loss': 0.0345, 'learning_rate': 1.2472655050660118e-05, 'epoch': 75.05} {'loss': 0.0321, 'learning_rate': 1.2470256370893462e-05, 'epoch': 75.06} {'loss': 0.0321, 'learning_rate': 1.2467857691126805e-05, 'epoch': 75.06} {'loss': 0.0331, 'learning_rate': 1.2465459011360147e-05, 'epoch': 75.07} {'loss': 0.033, 'learning_rate': 1.2463060331593492e-05, 'epoch': 75.07} {'loss': 0.0329, 'learning_rate': 1.2460661651826836e-05, 'epoch': 75.08} {'loss': 0.0329, 'learning_rate': 1.2458262972060179e-05, 'epoch': 75.08} {'loss': 0.0337, 'learning_rate': 1.2455864292293522e-05, 'epoch': 75.09} {'loss': 0.0332, 'learning_rate': 1.2453465612526866e-05, 'epoch': 75.09} {'loss': 0.0312, 'learning_rate': 1.2451066932760209e-05, 'epoch': 75.1} {'loss': 0.0343, 'learning_rate': 1.2448668252993553e-05, 'epoch': 75.1} {'loss': 0.0337, 'learning_rate': 1.2446269573226897e-05, 'epoch': 75.11} {'loss': 0.0324, 'learning_rate': 1.244387089346024e-05, 'epoch': 75.11} {'loss': 0.0324, 'learning_rate': 1.2441472213693583e-05, 'epoch': 75.12} {'loss': 0.0323, 'learning_rate': 1.2439073533926927e-05, 'epoch': 75.12} {'loss': 0.0329, 'learning_rate': 1.2436674854160272e-05, 'epoch': 75.13} {'loss': 0.0334, 'learning_rate': 1.2434276174393614e-05, 'epoch': 75.13} {'loss': 0.0342, 'learning_rate': 1.2431877494626957e-05, 'epoch': 75.14} {'loss': 0.032, 'learning_rate': 1.2429478814860301e-05, 'epoch': 75.14} {'loss': 0.0326, 'learning_rate': 1.2427080135093646e-05, 'epoch': 75.15} {'loss': 0.0323, 'learning_rate': 1.2424681455326989e-05, 'epoch': 75.15} {'loss': 0.034, 'learning_rate': 1.2422282775560331e-05, 'epoch': 75.16} {'loss': 0.0333, 'learning_rate': 1.2419884095793676e-05, 'epoch': 75.16} {'loss': 0.0335, 'learning_rate': 1.241748541602702e-05, 'epoch': 75.17} {'loss': 0.0337, 'learning_rate': 1.2415086736260363e-05, 'epoch': 75.17} {'loss': 0.0325, 'learning_rate': 1.2412688056493707e-05, 'epoch': 75.17} {'loss': 0.0326, 'learning_rate': 1.241028937672705e-05, 'epoch': 75.18} {'loss': 0.0326, 'learning_rate': 1.2407890696960393e-05, 'epoch': 75.18} {'loss': 0.0335, 'learning_rate': 1.2405492017193737e-05, 'epoch': 75.19} {'loss': 0.034, 'learning_rate': 1.2403093337427081e-05, 'epoch': 75.19} {'loss': 0.0331, 'learning_rate': 1.2400694657660424e-05, 'epoch': 75.2} {'loss': 0.0333, 'learning_rate': 1.2398295977893767e-05, 'epoch': 75.2} {'loss': 0.0324, 'learning_rate': 1.2395897298127111e-05, 'epoch': 75.21} {'loss': 0.0361, 'learning_rate': 1.2393498618360456e-05, 'epoch': 75.21} {'loss': 0.0312, 'learning_rate': 1.2391099938593798e-05, 'epoch': 75.22} {'loss': 0.0344, 'learning_rate': 1.2388701258827141e-05, 'epoch': 75.22} {'loss': 0.0321, 'learning_rate': 1.2386302579060485e-05, 'epoch': 75.23} {'loss': 0.0334, 'learning_rate': 1.238390389929383e-05, 'epoch': 75.23} {'loss': 0.0328, 'learning_rate': 1.2381505219527172e-05, 'epoch': 75.24} {'loss': 0.034, 'learning_rate': 1.2379106539760517e-05, 'epoch': 75.24} {'loss': 0.0322, 'learning_rate': 1.237670785999386e-05, 'epoch': 75.25} {'loss': 0.0331, 'learning_rate': 1.2374309180227204e-05, 'epoch': 75.25} {'loss': 0.0322, 'learning_rate': 1.2371910500460547e-05, 'epoch': 75.26} {'loss': 0.0341, 'learning_rate': 1.2369511820693891e-05, 'epoch': 75.26} {'loss': 0.0333, 'learning_rate': 1.2367113140927235e-05, 'epoch': 75.27} {'loss': 0.0324, 'learning_rate': 1.2364714461160576e-05, 'epoch': 75.27} {'loss': 0.0323, 'learning_rate': 1.2362315781393921e-05, 'epoch': 75.28} {'loss': 0.0325, 'learning_rate': 1.2359917101627265e-05, 'epoch': 75.28} {'loss': 0.0337, 'learning_rate': 1.2357518421860608e-05, 'epoch': 75.28} {'loss': 0.0335, 'learning_rate': 1.2355119742093952e-05, 'epoch': 75.29} {'loss': 0.0348, 'learning_rate': 1.2352721062327295e-05, 'epoch': 75.29} {'loss': 0.0332, 'learning_rate': 1.235032238256064e-05, 'epoch': 75.3} {'loss': 0.0315, 'learning_rate': 1.2347923702793982e-05, 'epoch': 75.3} {'loss': 0.0328, 'learning_rate': 1.2345525023027327e-05, 'epoch': 75.31} {'loss': 0.0322, 'learning_rate': 1.2343126343260671e-05, 'epoch': 75.31} {'loss': 0.0344, 'learning_rate': 1.2340727663494014e-05, 'epoch': 75.32} {'loss': 0.0341, 'learning_rate': 1.2338328983727356e-05, 'epoch': 75.32} {'loss': 0.0325, 'learning_rate': 1.23359303039607e-05, 'epoch': 75.33} {'loss': 0.0346, 'learning_rate': 1.2333531624194045e-05, 'epoch': 75.33} {'loss': 0.0331, 'learning_rate': 1.2331132944427388e-05, 'epoch': 75.34} {'loss': 0.0322, 'learning_rate': 1.232873426466073e-05, 'epoch': 75.34} {'loss': 0.0335, 'learning_rate': 1.2326335584894075e-05, 'epoch': 75.35} {'loss': 0.033, 'learning_rate': 1.232393690512742e-05, 'epoch': 75.35} {'loss': 0.033, 'learning_rate': 1.2321538225360762e-05, 'epoch': 75.36} {'loss': 0.0328, 'learning_rate': 1.2319139545594105e-05, 'epoch': 75.36} {'loss': 0.0331, 'learning_rate': 1.231674086582745e-05, 'epoch': 75.37} {'loss': 0.0337, 'learning_rate': 1.2314342186060792e-05, 'epoch': 75.37} {'loss': 0.0336, 'learning_rate': 1.2311943506294136e-05, 'epoch': 75.38} {'loss': 0.0324, 'learning_rate': 1.230954482652748e-05, 'epoch': 75.38} {'loss': 0.0324, 'learning_rate': 1.2307146146760823e-05, 'epoch': 75.39} {'loss': 0.0318, 'learning_rate': 1.2304747466994166e-05, 'epoch': 75.39} {'loss': 0.0336, 'learning_rate': 1.230234878722751e-05, 'epoch': 75.4} {'loss': 0.0324, 'learning_rate': 1.2299950107460855e-05, 'epoch': 75.4} {'loss': 0.033, 'learning_rate': 1.2297551427694198e-05, 'epoch': 75.4} {'loss': 0.0324, 'learning_rate': 1.229515274792754e-05, 'epoch': 75.41} {'loss': 0.0347, 'learning_rate': 1.2292754068160885e-05, 'epoch': 75.41} {'loss': 0.0337, 'learning_rate': 1.2290355388394229e-05, 'epoch': 75.42} {'loss': 0.0328, 'learning_rate': 1.2287956708627572e-05, 'epoch': 75.42} {'loss': 0.032, 'learning_rate': 1.2285558028860916e-05, 'epoch': 75.43} {'loss': 0.0334, 'learning_rate': 1.2283159349094259e-05, 'epoch': 75.43} {'loss': 0.0356, 'learning_rate': 1.2280760669327603e-05, 'epoch': 75.44} {'loss': 0.0337, 'learning_rate': 1.2278361989560946e-05, 'epoch': 75.44} {'loss': 0.0328, 'learning_rate': 1.227596330979429e-05, 'epoch': 75.45} {'loss': 0.0333, 'learning_rate': 1.2273564630027633e-05, 'epoch': 75.45} {'loss': 0.0313, 'learning_rate': 1.2271165950260976e-05, 'epoch': 75.46} {'loss': 0.0323, 'learning_rate': 1.226876727049432e-05, 'epoch': 75.46} {'loss': 0.0318, 'learning_rate': 1.2266368590727665e-05, 'epoch': 75.47} {'loss': 0.036, 'learning_rate': 1.2263969910961009e-05, 'epoch': 75.47} {'loss': 0.0349, 'learning_rate': 1.226157123119435e-05, 'epoch': 75.48} {'loss': 0.0341, 'learning_rate': 1.2259172551427694e-05, 'epoch': 75.48} {'loss': 0.0324, 'learning_rate': 1.2256773871661039e-05, 'epoch': 75.49} {'loss': 0.0314, 'learning_rate': 1.2254375191894381e-05, 'epoch': 75.49} {'loss': 0.0332, 'learning_rate': 1.2251976512127726e-05, 'epoch': 75.5} {'loss': 0.0327, 'learning_rate': 1.2249577832361069e-05, 'epoch': 75.5} {'loss': 0.0333, 'learning_rate': 1.2247179152594413e-05, 'epoch': 75.51} {'loss': 0.0336, 'learning_rate': 1.2244780472827756e-05, 'epoch': 75.51} {'loss': 0.0344, 'learning_rate': 1.22423817930611e-05, 'epoch': 75.52} {'loss': 0.0328, 'learning_rate': 1.2239983113294444e-05, 'epoch': 75.52} {'loss': 0.0337, 'learning_rate': 1.2237584433527787e-05, 'epoch': 75.52} {'loss': 0.0314, 'learning_rate': 1.223518575376113e-05, 'epoch': 75.53} {'loss': 0.0349, 'learning_rate': 1.2232787073994474e-05, 'epoch': 75.53} {'loss': 0.033, 'learning_rate': 1.2230388394227819e-05, 'epoch': 75.54} {'loss': 0.0317, 'learning_rate': 1.222798971446116e-05, 'epoch': 75.54} {'loss': 0.0357, 'learning_rate': 1.2225591034694504e-05, 'epoch': 75.55} {'loss': 0.0335, 'learning_rate': 1.2223192354927848e-05, 'epoch': 75.55} {'loss': 0.0337, 'learning_rate': 1.2220793675161193e-05, 'epoch': 75.56} {'loss': 0.0346, 'learning_rate': 1.2218394995394536e-05, 'epoch': 75.56} {'loss': 0.0323, 'learning_rate': 1.2215996315627878e-05, 'epoch': 75.57} {'loss': 0.0342, 'learning_rate': 1.2213597635861223e-05, 'epoch': 75.57} {'loss': 0.0333, 'learning_rate': 1.2211198956094565e-05, 'epoch': 75.58} {'loss': 0.0317, 'learning_rate': 1.220880027632791e-05, 'epoch': 75.58} {'loss': 0.0326, 'learning_rate': 1.2206401596561254e-05, 'epoch': 75.59} {'loss': 0.0332, 'learning_rate': 1.2204002916794597e-05, 'epoch': 75.59} {'loss': 0.0325, 'learning_rate': 1.220160423702794e-05, 'epoch': 75.6} {'loss': 0.0321, 'learning_rate': 1.2199205557261284e-05, 'epoch': 75.6} {'loss': 0.0319, 'learning_rate': 1.2196806877494628e-05, 'epoch': 75.61} {'loss': 0.0352, 'learning_rate': 1.2194408197727971e-05, 'epoch': 75.61} {'loss': 0.0311, 'learning_rate': 1.2192009517961314e-05, 'epoch': 75.62} {'loss': 0.0339, 'learning_rate': 1.2189610838194658e-05, 'epoch': 75.62} {'loss': 0.0341, 'learning_rate': 1.2187212158428003e-05, 'epoch': 75.63} {'loss': 0.033, 'learning_rate': 1.2184813478661345e-05, 'epoch': 75.63} {'loss': 0.0325, 'learning_rate': 1.218241479889469e-05, 'epoch': 75.64} {'loss': 0.0339, 'learning_rate': 1.2180016119128032e-05, 'epoch': 75.64} {'loss': 0.0316, 'learning_rate': 1.2177617439361375e-05, 'epoch': 75.64} {'loss': 0.0318, 'learning_rate': 1.217521875959472e-05, 'epoch': 75.65} {'loss': 0.0334, 'learning_rate': 1.2172820079828064e-05, 'epoch': 75.65} {'loss': 0.0349, 'learning_rate': 1.2170421400061407e-05, 'epoch': 75.66} {'loss': 0.0342, 'learning_rate': 1.216802272029475e-05, 'epoch': 75.66} {'loss': 0.0342, 'learning_rate': 1.2165624040528094e-05, 'epoch': 75.67} {'loss': 0.0319, 'learning_rate': 1.2163225360761438e-05, 'epoch': 75.67} {'loss': 0.0341, 'learning_rate': 1.216082668099478e-05, 'epoch': 75.68} {'loss': 0.0323, 'learning_rate': 1.2158428001228124e-05, 'epoch': 75.68} {'loss': 0.034, 'learning_rate': 1.2156029321461468e-05, 'epoch': 75.69} {'loss': 0.0331, 'learning_rate': 1.2153630641694812e-05, 'epoch': 75.69} {'loss': 0.0327, 'learning_rate': 1.2151231961928155e-05, 'epoch': 75.7} {'loss': 0.0319, 'learning_rate': 1.21488332821615e-05, 'epoch': 75.7} {'loss': 0.034, 'learning_rate': 1.2146434602394842e-05, 'epoch': 75.71} {'loss': 0.0338, 'learning_rate': 1.2144035922628187e-05, 'epoch': 75.71} {'loss': 0.0336, 'learning_rate': 1.214163724286153e-05, 'epoch': 75.72} {'loss': 0.0345, 'learning_rate': 1.2139238563094874e-05, 'epoch': 75.72} {'loss': 0.0349, 'learning_rate': 1.2136839883328218e-05, 'epoch': 75.73} {'loss': 0.032, 'learning_rate': 1.2134441203561559e-05, 'epoch': 75.73} {'loss': 0.0343, 'learning_rate': 1.2132042523794903e-05, 'epoch': 75.74} {'loss': 0.0322, 'learning_rate': 1.2129643844028248e-05, 'epoch': 75.74} {'loss': 0.0348, 'learning_rate': 1.2127245164261592e-05, 'epoch': 75.75} {'loss': 0.0326, 'learning_rate': 1.2124846484494933e-05, 'epoch': 75.75} {'loss': 0.0321, 'learning_rate': 1.2122447804728278e-05, 'epoch': 75.76} {'loss': 0.0334, 'learning_rate': 1.2120049124961622e-05, 'epoch': 75.76} {'loss': 0.0345, 'learning_rate': 1.2117650445194965e-05, 'epoch': 75.76} {'loss': 0.031, 'learning_rate': 1.2115251765428309e-05, 'epoch': 75.77} {'loss': 0.0321, 'learning_rate': 1.2112853085661652e-05, 'epoch': 75.77} {'loss': 0.0355, 'learning_rate': 1.2110454405894996e-05, 'epoch': 75.78} {'loss': 0.034, 'learning_rate': 1.2108055726128339e-05, 'epoch': 75.78} {'loss': 0.0324, 'learning_rate': 1.2105657046361683e-05, 'epoch': 75.79} {'loss': 0.0335, 'learning_rate': 1.2103258366595028e-05, 'epoch': 75.79} {'loss': 0.0325, 'learning_rate': 1.210085968682837e-05, 'epoch': 75.8} {'loss': 0.0324, 'learning_rate': 1.2098461007061713e-05, 'epoch': 75.8} {'loss': 0.0332, 'learning_rate': 1.2096062327295058e-05, 'epoch': 75.81} {'loss': 0.0327, 'learning_rate': 1.2093663647528402e-05, 'epoch': 75.81} {'loss': 0.0349, 'learning_rate': 1.2091264967761745e-05, 'epoch': 75.82} {'loss': 0.0349, 'learning_rate': 1.2088866287995087e-05, 'epoch': 75.82} {'loss': 0.0333, 'learning_rate': 1.2086467608228432e-05, 'epoch': 75.83} {'loss': 0.0346, 'learning_rate': 1.2084068928461776e-05, 'epoch': 75.83} {'loss': 0.0313, 'learning_rate': 1.2081670248695119e-05, 'epoch': 75.84} {'loss': 0.0345, 'learning_rate': 1.2079271568928463e-05, 'epoch': 75.84} {'loss': 0.0335, 'learning_rate': 1.2076872889161806e-05, 'epoch': 75.85} {'loss': 0.0329, 'learning_rate': 1.2074474209395149e-05, 'epoch': 75.85} {'loss': 0.0336, 'learning_rate': 1.2072075529628493e-05, 'epoch': 75.86} {'loss': 0.035, 'learning_rate': 1.2069676849861837e-05, 'epoch': 75.86} {'loss': 0.0333, 'learning_rate': 1.206727817009518e-05, 'epoch': 75.87} {'loss': 0.0349, 'learning_rate': 1.2064879490328523e-05, 'epoch': 75.87} {'loss': 0.035, 'learning_rate': 1.2062480810561867e-05, 'epoch': 75.88} {'loss': 0.0343, 'learning_rate': 1.2060082130795212e-05, 'epoch': 75.88} {'loss': 0.0334, 'learning_rate': 1.2057683451028554e-05, 'epoch': 75.88} {'loss': 0.032, 'learning_rate': 1.2055284771261897e-05, 'epoch': 75.89} {'loss': 0.0333, 'learning_rate': 1.2052886091495241e-05, 'epoch': 75.89} {'loss': 0.0327, 'learning_rate': 1.2050487411728586e-05, 'epoch': 75.9} {'loss': 0.0348, 'learning_rate': 1.2048088731961929e-05, 'epoch': 75.9} {'loss': 0.033, 'learning_rate': 1.2045690052195273e-05, 'epoch': 75.91} {'loss': 0.0333, 'learning_rate': 1.2043291372428616e-05, 'epoch': 75.91} {'loss': 0.0328, 'learning_rate': 1.204089269266196e-05, 'epoch': 75.92} {'loss': 0.0316, 'learning_rate': 1.2038494012895303e-05, 'epoch': 75.92} {'loss': 0.0341, 'learning_rate': 1.2036095333128647e-05, 'epoch': 75.93} {'loss': 0.0327, 'learning_rate': 1.2033696653361992e-05, 'epoch': 75.93} {'loss': 0.0316, 'learning_rate': 1.2031297973595333e-05, 'epoch': 75.94} {'loss': 0.0318, 'learning_rate': 1.2028899293828677e-05, 'epoch': 75.94} {'loss': 0.032, 'learning_rate': 1.2026500614062021e-05, 'epoch': 75.95} {'loss': 0.0329, 'learning_rate': 1.2024101934295364e-05, 'epoch': 75.95} {'loss': 0.0344, 'learning_rate': 1.2021703254528708e-05, 'epoch': 75.96} {'loss': 0.0319, 'learning_rate': 1.2019304574762051e-05, 'epoch': 75.96} {'loss': 0.0336, 'learning_rate': 1.2016905894995396e-05, 'epoch': 75.97} {'loss': 0.0339, 'learning_rate': 1.2014507215228738e-05, 'epoch': 75.97} {'loss': 0.0319, 'learning_rate': 1.2012108535462083e-05, 'epoch': 75.98} {'loss': 0.0334, 'learning_rate': 1.2009709855695425e-05, 'epoch': 75.98} {'loss': 0.0334, 'learning_rate': 1.200731117592877e-05, 'epoch': 75.99} {'loss': 0.0334, 'learning_rate': 1.2004912496162112e-05, 'epoch': 75.99} {'loss': 0.0321, 'learning_rate': 1.2002513816395457e-05, 'epoch': 75.99} {'loss': 0.0321, 'learning_rate': 1.2000115136628801e-05, 'epoch': 76.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.034190960228443146, 'eval_runtime': 735.9823, 'eval_samples_per_second': 566.447, 'eval_steps_per_second': 70.806, 'epoch': 76.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-7921024 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-7921024/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-7921024/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-7816800] due to args.save_total_limit {'loss': 0.0335, 'learning_rate': 1.1997716456862144e-05, 'epoch': 76.0} {'loss': 0.033, 'learning_rate': 1.1995317777095487e-05, 'epoch': 76.01} {'loss': 0.0328, 'learning_rate': 1.1992919097328831e-05, 'epoch': 76.01} {'loss': 0.0342, 'learning_rate': 1.1990520417562175e-05, 'epoch': 76.02} {'loss': 0.0317, 'learning_rate': 1.1988121737795518e-05, 'epoch': 76.02} {'loss': 0.0331, 'learning_rate': 1.198572305802886e-05, 'epoch': 76.03} {'loss': 0.0343, 'learning_rate': 1.1983324378262205e-05, 'epoch': 76.03} {'loss': 0.0335, 'learning_rate': 1.1980925698495548e-05, 'epoch': 76.04} {'loss': 0.0318, 'learning_rate': 1.1978527018728892e-05, 'epoch': 76.04} {'loss': 0.0316, 'learning_rate': 1.1976128338962237e-05, 'epoch': 76.05} {'loss': 0.0334, 'learning_rate': 1.197372965919558e-05, 'epoch': 76.05} {'loss': 0.0312, 'learning_rate': 1.1971330979428922e-05, 'epoch': 76.06} {'loss': 0.0336, 'learning_rate': 1.1968932299662267e-05, 'epoch': 76.06} {'loss': 0.0339, 'learning_rate': 1.1966533619895611e-05, 'epoch': 76.07} {'loss': 0.0324, 'learning_rate': 1.1964134940128954e-05, 'epoch': 76.07} {'loss': 0.0335, 'learning_rate': 1.1961736260362296e-05, 'epoch': 76.08} {'loss': 0.0323, 'learning_rate': 1.195933758059564e-05, 'epoch': 76.08} {'loss': 0.0316, 'learning_rate': 1.1956938900828985e-05, 'epoch': 76.09} {'loss': 0.0325, 'learning_rate': 1.1954540221062328e-05, 'epoch': 76.09} {'loss': 0.0317, 'learning_rate': 1.195214154129567e-05, 'epoch': 76.1} {'loss': 0.0315, 'learning_rate': 1.1949742861529015e-05, 'epoch': 76.1} {'loss': 0.0332, 'learning_rate': 1.194734418176236e-05, 'epoch': 76.11} {'loss': 0.0332, 'learning_rate': 1.1944945501995702e-05, 'epoch': 76.11} {'loss': 0.033, 'learning_rate': 1.1942546822229046e-05, 'epoch': 76.11} {'loss': 0.0341, 'learning_rate': 1.1940148142462389e-05, 'epoch': 76.12} {'loss': 0.0329, 'learning_rate': 1.1937749462695732e-05, 'epoch': 76.12} {'loss': 0.0328, 'learning_rate': 1.1935350782929076e-05, 'epoch': 76.13} {'loss': 0.0336, 'learning_rate': 1.193295210316242e-05, 'epoch': 76.13} {'loss': 0.0329, 'learning_rate': 1.1930553423395763e-05, 'epoch': 76.14} {'loss': 0.0337, 'learning_rate': 1.1928154743629106e-05, 'epoch': 76.14} {'loss': 0.0328, 'learning_rate': 1.192575606386245e-05, 'epoch': 76.15} {'loss': 0.0316, 'learning_rate': 1.1923357384095795e-05, 'epoch': 76.15} {'loss': 0.0324, 'learning_rate': 1.1920958704329138e-05, 'epoch': 76.16} {'loss': 0.0326, 'learning_rate': 1.1918560024562482e-05, 'epoch': 76.16} {'loss': 0.0339, 'learning_rate': 1.1916161344795825e-05, 'epoch': 76.17} {'loss': 0.0323, 'learning_rate': 1.1913762665029169e-05, 'epoch': 76.17} {'loss': 0.0308, 'learning_rate': 1.1911363985262512e-05, 'epoch': 76.18} {'loss': 0.0324, 'learning_rate': 1.1908965305495856e-05, 'epoch': 76.18} {'loss': 0.0326, 'learning_rate': 1.1906566625729199e-05, 'epoch': 76.19} {'loss': 0.0318, 'learning_rate': 1.1904167945962543e-05, 'epoch': 76.19} {'loss': 0.0333, 'learning_rate': 1.1901769266195886e-05, 'epoch': 76.2} {'loss': 0.0317, 'learning_rate': 1.189937058642923e-05, 'epoch': 76.2} {'loss': 0.0314, 'learning_rate': 1.1896971906662575e-05, 'epoch': 76.21} {'loss': 0.0358, 'learning_rate': 1.1894573226895916e-05, 'epoch': 76.21} {'loss': 0.0353, 'learning_rate': 1.189217454712926e-05, 'epoch': 76.22} {'loss': 0.0333, 'learning_rate': 1.1889775867362605e-05, 'epoch': 76.22} {'loss': 0.0338, 'learning_rate': 1.1887377187595947e-05, 'epoch': 76.23} {'loss': 0.0326, 'learning_rate': 1.1884978507829292e-05, 'epoch': 76.23} {'loss': 0.033, 'learning_rate': 1.1882579828062634e-05, 'epoch': 76.23} {'loss': 0.033, 'learning_rate': 1.1880181148295979e-05, 'epoch': 76.24} {'loss': 0.0337, 'learning_rate': 1.1877782468529321e-05, 'epoch': 76.24} {'loss': 0.0329, 'learning_rate': 1.1875383788762666e-05, 'epoch': 76.25} {'loss': 0.0333, 'learning_rate': 1.187298510899601e-05, 'epoch': 76.25} {'loss': 0.034, 'learning_rate': 1.1870586429229353e-05, 'epoch': 76.26} {'loss': 0.0308, 'learning_rate': 1.1868187749462696e-05, 'epoch': 76.26} {'loss': 0.0318, 'learning_rate': 1.186578906969604e-05, 'epoch': 76.27} {'loss': 0.0334, 'learning_rate': 1.1863390389929384e-05, 'epoch': 76.27} {'loss': 0.0335, 'learning_rate': 1.1860991710162727e-05, 'epoch': 76.28} {'loss': 0.0337, 'learning_rate': 1.185859303039607e-05, 'epoch': 76.28} {'loss': 0.0314, 'learning_rate': 1.1856194350629414e-05, 'epoch': 76.29} {'loss': 0.0335, 'learning_rate': 1.1853795670862759e-05, 'epoch': 76.29} {'loss': 0.035, 'learning_rate': 1.1851396991096101e-05, 'epoch': 76.3} {'loss': 0.0339, 'learning_rate': 1.1848998311329444e-05, 'epoch': 76.3} {'loss': 0.0321, 'learning_rate': 1.1846599631562788e-05, 'epoch': 76.31} {'loss': 0.0303, 'learning_rate': 1.1844200951796131e-05, 'epoch': 76.31} {'loss': 0.0342, 'learning_rate': 1.1841802272029476e-05, 'epoch': 76.32} {'loss': 0.0313, 'learning_rate': 1.183940359226282e-05, 'epoch': 76.32} {'loss': 0.0337, 'learning_rate': 1.1837004912496163e-05, 'epoch': 76.33} {'loss': 0.0326, 'learning_rate': 1.1834606232729505e-05, 'epoch': 76.33} {'loss': 0.0315, 'learning_rate': 1.183220755296285e-05, 'epoch': 76.34} {'loss': 0.0314, 'learning_rate': 1.1829808873196194e-05, 'epoch': 76.34} {'loss': 0.032, 'learning_rate': 1.1827410193429537e-05, 'epoch': 76.35} {'loss': 0.0329, 'learning_rate': 1.182501151366288e-05, 'epoch': 76.35} {'loss': 0.0331, 'learning_rate': 1.1822612833896224e-05, 'epoch': 76.35} {'loss': 0.0334, 'learning_rate': 1.1820214154129568e-05, 'epoch': 76.36} {'loss': 0.0329, 'learning_rate': 1.1817815474362911e-05, 'epoch': 76.36} {'loss': 0.0316, 'learning_rate': 1.1815416794596255e-05, 'epoch': 76.37} {'loss': 0.0325, 'learning_rate': 1.1813018114829598e-05, 'epoch': 76.37} {'loss': 0.0328, 'learning_rate': 1.1810619435062943e-05, 'epoch': 76.38} {'loss': 0.0331, 'learning_rate': 1.1808220755296285e-05, 'epoch': 76.38} {'loss': 0.0332, 'learning_rate': 1.180582207552963e-05, 'epoch': 76.39} {'loss': 0.0315, 'learning_rate': 1.1803423395762972e-05, 'epoch': 76.39} {'loss': 0.0331, 'learning_rate': 1.1801024715996315e-05, 'epoch': 76.4} {'loss': 0.0333, 'learning_rate': 1.179862603622966e-05, 'epoch': 76.4} {'loss': 0.0317, 'learning_rate': 1.1796227356463004e-05, 'epoch': 76.41} {'loss': 0.035, 'learning_rate': 1.1793828676696348e-05, 'epoch': 76.41} {'loss': 0.0331, 'learning_rate': 1.179142999692969e-05, 'epoch': 76.42} {'loss': 0.0328, 'learning_rate': 1.1789031317163034e-05, 'epoch': 76.42} {'loss': 0.0332, 'learning_rate': 1.1786632637396378e-05, 'epoch': 76.43} {'loss': 0.0332, 'learning_rate': 1.178423395762972e-05, 'epoch': 76.43} {'loss': 0.032, 'learning_rate': 1.1781835277863065e-05, 'epoch': 76.44} {'loss': 0.0326, 'learning_rate': 1.1779436598096408e-05, 'epoch': 76.44} {'loss': 0.0326, 'learning_rate': 1.1777037918329752e-05, 'epoch': 76.45} {'loss': 0.0336, 'learning_rate': 1.1774639238563095e-05, 'epoch': 76.45} {'loss': 0.0321, 'learning_rate': 1.177224055879644e-05, 'epoch': 76.46} {'loss': 0.0326, 'learning_rate': 1.1769841879029784e-05, 'epoch': 76.46} {'loss': 0.0333, 'learning_rate': 1.1767443199263126e-05, 'epoch': 76.47} {'loss': 0.031, 'learning_rate': 1.1765044519496469e-05, 'epoch': 76.47} {'loss': 0.0336, 'learning_rate': 1.1762645839729814e-05, 'epoch': 76.47} {'loss': 0.032, 'learning_rate': 1.1760247159963158e-05, 'epoch': 76.48} {'loss': 0.0329, 'learning_rate': 1.17578484801965e-05, 'epoch': 76.48} {'loss': 0.032, 'learning_rate': 1.1755449800429843e-05, 'epoch': 76.49} {'loss': 0.0316, 'learning_rate': 1.1753051120663188e-05, 'epoch': 76.49} {'loss': 0.033, 'learning_rate': 1.175065244089653e-05, 'epoch': 76.5} {'loss': 0.0318, 'learning_rate': 1.1748253761129875e-05, 'epoch': 76.5} {'loss': 0.0311, 'learning_rate': 1.1745855081363218e-05, 'epoch': 76.51} {'loss': 0.0313, 'learning_rate': 1.1743456401596562e-05, 'epoch': 76.51} {'loss': 0.0333, 'learning_rate': 1.1741057721829905e-05, 'epoch': 76.52} {'loss': 0.0327, 'learning_rate': 1.1738659042063249e-05, 'epoch': 76.52} {'loss': 0.0314, 'learning_rate': 1.1736260362296593e-05, 'epoch': 76.53} {'loss': 0.0322, 'learning_rate': 1.1733861682529936e-05, 'epoch': 76.53} {'loss': 0.0326, 'learning_rate': 1.1731463002763279e-05, 'epoch': 76.54} {'loss': 0.0335, 'learning_rate': 1.1729064322996623e-05, 'epoch': 76.54} {'loss': 0.0327, 'learning_rate': 1.1726665643229968e-05, 'epoch': 76.55} {'loss': 0.0323, 'learning_rate': 1.172426696346331e-05, 'epoch': 76.55} {'loss': 0.0337, 'learning_rate': 1.1721868283696653e-05, 'epoch': 76.56} {'loss': 0.0335, 'learning_rate': 1.1719469603929997e-05, 'epoch': 76.56} {'loss': 0.0319, 'learning_rate': 1.1717070924163342e-05, 'epoch': 76.57} {'loss': 0.0313, 'learning_rate': 1.1714672244396685e-05, 'epoch': 76.57} {'loss': 0.0329, 'learning_rate': 1.1712273564630029e-05, 'epoch': 76.58} {'loss': 0.0325, 'learning_rate': 1.1709874884863372e-05, 'epoch': 76.58} {'loss': 0.0321, 'learning_rate': 1.1707476205096714e-05, 'epoch': 76.59} {'loss': 0.0315, 'learning_rate': 1.1705077525330059e-05, 'epoch': 76.59} {'loss': 0.0335, 'learning_rate': 1.1702678845563403e-05, 'epoch': 76.59} {'loss': 0.0335, 'learning_rate': 1.1700280165796746e-05, 'epoch': 76.6} {'loss': 0.0339, 'learning_rate': 1.1697881486030089e-05, 'epoch': 76.6} {'loss': 0.0326, 'learning_rate': 1.1695482806263433e-05, 'epoch': 76.61} {'loss': 0.0319, 'learning_rate': 1.1693084126496777e-05, 'epoch': 76.61} {'loss': 0.032, 'learning_rate': 1.169068544673012e-05, 'epoch': 76.62} {'loss': 0.0316, 'learning_rate': 1.1688286766963463e-05, 'epoch': 76.62} {'loss': 0.0329, 'learning_rate': 1.1685888087196807e-05, 'epoch': 76.63} {'loss': 0.0337, 'learning_rate': 1.1683489407430152e-05, 'epoch': 76.63} {'loss': 0.0333, 'learning_rate': 1.1681090727663494e-05, 'epoch': 76.64} {'loss': 0.0355, 'learning_rate': 1.1678692047896839e-05, 'epoch': 76.64} {'loss': 0.0317, 'learning_rate': 1.1676293368130181e-05, 'epoch': 76.65} {'loss': 0.0335, 'learning_rate': 1.1673894688363526e-05, 'epoch': 76.65} {'loss': 0.0317, 'learning_rate': 1.1671496008596868e-05, 'epoch': 76.66} {'loss': 0.0328, 'learning_rate': 1.1669097328830213e-05, 'epoch': 76.66} {'loss': 0.0315, 'learning_rate': 1.1666698649063557e-05, 'epoch': 76.67} {'loss': 0.033, 'learning_rate': 1.1664299969296898e-05, 'epoch': 76.67} {'loss': 0.0348, 'learning_rate': 1.1661901289530243e-05, 'epoch': 76.68} {'loss': 0.0329, 'learning_rate': 1.1659502609763587e-05, 'epoch': 76.68} {'loss': 0.0328, 'learning_rate': 1.1657103929996931e-05, 'epoch': 76.69} {'loss': 0.0337, 'learning_rate': 1.1654705250230274e-05, 'epoch': 76.69} {'loss': 0.032, 'learning_rate': 1.1652306570463617e-05, 'epoch': 76.7} {'loss': 0.0324, 'learning_rate': 1.1649907890696961e-05, 'epoch': 76.7} {'loss': 0.034, 'learning_rate': 1.1647509210930304e-05, 'epoch': 76.7} {'loss': 0.0324, 'learning_rate': 1.1645110531163648e-05, 'epoch': 76.71} {'loss': 0.0315, 'learning_rate': 1.1642711851396991e-05, 'epoch': 76.71} {'loss': 0.0319, 'learning_rate': 1.1640313171630335e-05, 'epoch': 76.72} {'loss': 0.0332, 'learning_rate': 1.1637914491863678e-05, 'epoch': 76.72} {'loss': 0.0328, 'learning_rate': 1.1635515812097023e-05, 'epoch': 76.73} {'loss': 0.0324, 'learning_rate': 1.1633117132330367e-05, 'epoch': 76.73} {'loss': 0.0326, 'learning_rate': 1.163071845256371e-05, 'epoch': 76.74} {'loss': 0.0317, 'learning_rate': 1.1628319772797052e-05, 'epoch': 76.74} {'loss': 0.0337, 'learning_rate': 1.1625921093030397e-05, 'epoch': 76.75} {'loss': 0.0333, 'learning_rate': 1.1623522413263741e-05, 'epoch': 76.75} {'loss': 0.033, 'learning_rate': 1.1621123733497084e-05, 'epoch': 76.76} {'loss': 0.0332, 'learning_rate': 1.1618725053730427e-05, 'epoch': 76.76} {'loss': 0.0334, 'learning_rate': 1.1616326373963771e-05, 'epoch': 76.77} {'loss': 0.0362, 'learning_rate': 1.1613927694197115e-05, 'epoch': 76.77} {'loss': 0.0307, 'learning_rate': 1.1611529014430458e-05, 'epoch': 76.78} {'loss': 0.0329, 'learning_rate': 1.1609130334663802e-05, 'epoch': 76.78} {'loss': 0.0325, 'learning_rate': 1.1606731654897145e-05, 'epoch': 76.79} {'loss': 0.0326, 'learning_rate': 1.1604332975130488e-05, 'epoch': 76.79} {'loss': 0.0341, 'learning_rate': 1.1601934295363832e-05, 'epoch': 76.8} {'loss': 0.0324, 'learning_rate': 1.1599535615597177e-05, 'epoch': 76.8} {'loss': 0.033, 'learning_rate': 1.159713693583052e-05, 'epoch': 76.81} {'loss': 0.0335, 'learning_rate': 1.1594738256063862e-05, 'epoch': 76.81} {'loss': 0.0323, 'learning_rate': 1.1592339576297206e-05, 'epoch': 76.82} {'loss': 0.0303, 'learning_rate': 1.158994089653055e-05, 'epoch': 76.82} {'loss': 0.0332, 'learning_rate': 1.1587542216763894e-05, 'epoch': 76.82} {'loss': 0.033, 'learning_rate': 1.1585143536997236e-05, 'epoch': 76.83} {'loss': 0.0314, 'learning_rate': 1.158274485723058e-05, 'epoch': 76.83} {'loss': 0.0331, 'learning_rate': 1.1580346177463925e-05, 'epoch': 76.84} {'loss': 0.034, 'learning_rate': 1.1577947497697268e-05, 'epoch': 76.84} {'loss': 0.0331, 'learning_rate': 1.1575548817930612e-05, 'epoch': 76.85} {'loss': 0.0311, 'learning_rate': 1.1573150138163955e-05, 'epoch': 76.85} {'loss': 0.0336, 'learning_rate': 1.15707514583973e-05, 'epoch': 76.86} {'loss': 0.0329, 'learning_rate': 1.1568352778630642e-05, 'epoch': 76.86} {'loss': 0.0327, 'learning_rate': 1.1565954098863986e-05, 'epoch': 76.87} {'loss': 0.0324, 'learning_rate': 1.156355541909733e-05, 'epoch': 76.87} {'loss': 0.0345, 'learning_rate': 1.1561156739330672e-05, 'epoch': 76.88} {'loss': 0.0328, 'learning_rate': 1.1558758059564016e-05, 'epoch': 76.88} {'loss': 0.0336, 'learning_rate': 1.155635937979736e-05, 'epoch': 76.89} {'loss': 0.0309, 'learning_rate': 1.1553960700030703e-05, 'epoch': 76.89} {'loss': 0.0328, 'learning_rate': 1.1551562020264048e-05, 'epoch': 76.9} {'loss': 0.0324, 'learning_rate': 1.154916334049739e-05, 'epoch': 76.9} {'loss': 0.0327, 'learning_rate': 1.1546764660730735e-05, 'epoch': 76.91} {'loss': 0.0334, 'learning_rate': 1.1544365980964077e-05, 'epoch': 76.91} {'loss': 0.034, 'learning_rate': 1.1541967301197422e-05, 'epoch': 76.92} {'loss': 0.0334, 'learning_rate': 1.1539568621430765e-05, 'epoch': 76.92} {'loss': 0.0323, 'learning_rate': 1.1537169941664109e-05, 'epoch': 76.93} {'loss': 0.0326, 'learning_rate': 1.1534771261897452e-05, 'epoch': 76.93} {'loss': 0.0356, 'learning_rate': 1.1532372582130796e-05, 'epoch': 76.94} {'loss': 0.0328, 'learning_rate': 1.152997390236414e-05, 'epoch': 76.94} {'loss': 0.0318, 'learning_rate': 1.1527575222597481e-05, 'epoch': 76.94} {'loss': 0.0331, 'learning_rate': 1.1525176542830826e-05, 'epoch': 76.95} {'loss': 0.0324, 'learning_rate': 1.152277786306417e-05, 'epoch': 76.95} {'loss': 0.0314, 'learning_rate': 1.1520379183297515e-05, 'epoch': 76.96} {'loss': 0.0313, 'learning_rate': 1.1517980503530857e-05, 'epoch': 76.96} {'loss': 0.0316, 'learning_rate': 1.15155818237642e-05, 'epoch': 76.97} {'loss': 0.0339, 'learning_rate': 1.1513183143997544e-05, 'epoch': 76.97} {'loss': 0.032, 'learning_rate': 1.1510784464230887e-05, 'epoch': 76.98} {'loss': 0.0312, 'learning_rate': 1.1508385784464232e-05, 'epoch': 76.98} {'loss': 0.0294, 'learning_rate': 1.1505987104697576e-05, 'epoch': 76.99} {'loss': 0.0339, 'learning_rate': 1.1503588424930919e-05, 'epoch': 76.99} {'loss': 0.0318, 'learning_rate': 1.1501189745164261e-05, 'epoch': 77.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03421929106116295, 'eval_runtime': 863.735, 'eval_samples_per_second': 482.665, 'eval_steps_per_second': 60.333, 'epoch': 77.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-8025248 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-8025248/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-8025248/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-7921024] due to args.save_total_limit {'loss': 0.0314, 'learning_rate': 1.1498791065397606e-05, 'epoch': 77.0} {'loss': 0.0307, 'learning_rate': 1.149639238563095e-05, 'epoch': 77.01} {'loss': 0.0321, 'learning_rate': 1.1493993705864293e-05, 'epoch': 77.01} {'loss': 0.0327, 'learning_rate': 1.1491595026097636e-05, 'epoch': 77.02} {'loss': 0.0322, 'learning_rate': 1.148919634633098e-05, 'epoch': 77.02} {'loss': 0.0318, 'learning_rate': 1.1486797666564324e-05, 'epoch': 77.03} {'loss': 0.0322, 'learning_rate': 1.1484398986797667e-05, 'epoch': 77.03} {'loss': 0.0303, 'learning_rate': 1.148200030703101e-05, 'epoch': 77.04} {'loss': 0.032, 'learning_rate': 1.1479601627264354e-05, 'epoch': 77.04} {'loss': 0.0313, 'learning_rate': 1.1477202947497699e-05, 'epoch': 77.05} {'loss': 0.032, 'learning_rate': 1.1474804267731041e-05, 'epoch': 77.05} {'loss': 0.0318, 'learning_rate': 1.1472405587964386e-05, 'epoch': 77.06} {'loss': 0.0312, 'learning_rate': 1.1470006908197728e-05, 'epoch': 77.06} {'loss': 0.0326, 'learning_rate': 1.1467608228431071e-05, 'epoch': 77.06} {'loss': 0.0319, 'learning_rate': 1.1465209548664415e-05, 'epoch': 77.07} {'loss': 0.0323, 'learning_rate': 1.146281086889776e-05, 'epoch': 77.07} {'loss': 0.0325, 'learning_rate': 1.1460412189131103e-05, 'epoch': 77.08} {'loss': 0.0324, 'learning_rate': 1.1458013509364445e-05, 'epoch': 77.08} {'loss': 0.0328, 'learning_rate': 1.145561482959779e-05, 'epoch': 77.09} {'loss': 0.034, 'learning_rate': 1.1453216149831134e-05, 'epoch': 77.09} {'loss': 0.0338, 'learning_rate': 1.1450817470064477e-05, 'epoch': 77.1} {'loss': 0.0312, 'learning_rate': 1.1448418790297821e-05, 'epoch': 77.1} {'loss': 0.0325, 'learning_rate': 1.1446020110531164e-05, 'epoch': 77.11} {'loss': 0.0316, 'learning_rate': 1.1443621430764508e-05, 'epoch': 77.11} {'loss': 0.0325, 'learning_rate': 1.1441222750997851e-05, 'epoch': 77.12} {'loss': 0.0325, 'learning_rate': 1.1438824071231195e-05, 'epoch': 77.12} {'loss': 0.0334, 'learning_rate': 1.1436425391464538e-05, 'epoch': 77.13} {'loss': 0.0327, 'learning_rate': 1.1434026711697882e-05, 'epoch': 77.13} {'loss': 0.0321, 'learning_rate': 1.1431628031931225e-05, 'epoch': 77.14} {'loss': 0.0328, 'learning_rate': 1.142922935216457e-05, 'epoch': 77.14} {'loss': 0.0328, 'learning_rate': 1.1426830672397914e-05, 'epoch': 77.15} {'loss': 0.0326, 'learning_rate': 1.1424431992631255e-05, 'epoch': 77.15} {'loss': 0.0331, 'learning_rate': 1.14220333128646e-05, 'epoch': 77.16} {'loss': 0.0315, 'learning_rate': 1.1419634633097944e-05, 'epoch': 77.16} {'loss': 0.0317, 'learning_rate': 1.1417235953331286e-05, 'epoch': 77.17} {'loss': 0.0312, 'learning_rate': 1.1414837273564631e-05, 'epoch': 77.17} {'loss': 0.0308, 'learning_rate': 1.1412438593797974e-05, 'epoch': 77.18} {'loss': 0.0306, 'learning_rate': 1.1410039914031318e-05, 'epoch': 77.18} {'loss': 0.0341, 'learning_rate': 1.140764123426466e-05, 'epoch': 77.18} {'loss': 0.0314, 'learning_rate': 1.1405242554498005e-05, 'epoch': 77.19} {'loss': 0.0335, 'learning_rate': 1.140284387473135e-05, 'epoch': 77.19} {'loss': 0.0324, 'learning_rate': 1.1400445194964692e-05, 'epoch': 77.2} {'loss': 0.0311, 'learning_rate': 1.1398046515198035e-05, 'epoch': 77.2} {'loss': 0.0313, 'learning_rate': 1.139564783543138e-05, 'epoch': 77.21} {'loss': 0.0328, 'learning_rate': 1.1393249155664724e-05, 'epoch': 77.21} {'loss': 0.0328, 'learning_rate': 1.1390850475898066e-05, 'epoch': 77.22} {'loss': 0.0329, 'learning_rate': 1.1388451796131409e-05, 'epoch': 77.22} {'loss': 0.0311, 'learning_rate': 1.1386053116364753e-05, 'epoch': 77.23} {'loss': 0.031, 'learning_rate': 1.1383654436598098e-05, 'epoch': 77.23} {'loss': 0.0326, 'learning_rate': 1.138125575683144e-05, 'epoch': 77.24} {'loss': 0.0329, 'learning_rate': 1.1378857077064783e-05, 'epoch': 77.24} {'loss': 0.0318, 'learning_rate': 1.1376458397298128e-05, 'epoch': 77.25} {'loss': 0.0332, 'learning_rate': 1.137405971753147e-05, 'epoch': 77.25} {'loss': 0.0327, 'learning_rate': 1.1371661037764815e-05, 'epoch': 77.26} {'loss': 0.0316, 'learning_rate': 1.136926235799816e-05, 'epoch': 77.26} {'loss': 0.0331, 'learning_rate': 1.1366863678231502e-05, 'epoch': 77.27} {'loss': 0.0315, 'learning_rate': 1.1364464998464845e-05, 'epoch': 77.27} {'loss': 0.0329, 'learning_rate': 1.1362066318698189e-05, 'epoch': 77.28} {'loss': 0.0334, 'learning_rate': 1.1359667638931533e-05, 'epoch': 77.28} {'loss': 0.0323, 'learning_rate': 1.1357268959164876e-05, 'epoch': 77.29} {'loss': 0.0323, 'learning_rate': 1.1354870279398219e-05, 'epoch': 77.29} {'loss': 0.0341, 'learning_rate': 1.1352471599631563e-05, 'epoch': 77.3} {'loss': 0.0325, 'learning_rate': 1.1350072919864908e-05, 'epoch': 77.3} {'loss': 0.032, 'learning_rate': 1.134767424009825e-05, 'epoch': 77.3} {'loss': 0.0334, 'learning_rate': 1.1345275560331595e-05, 'epoch': 77.31} {'loss': 0.0328, 'learning_rate': 1.1342876880564937e-05, 'epoch': 77.31} {'loss': 0.0323, 'learning_rate': 1.1340478200798282e-05, 'epoch': 77.32} {'loss': 0.0324, 'learning_rate': 1.1338079521031624e-05, 'epoch': 77.32} {'loss': 0.0318, 'learning_rate': 1.1335680841264969e-05, 'epoch': 77.33} {'loss': 0.0325, 'learning_rate': 1.1333282161498312e-05, 'epoch': 77.33} {'loss': 0.0335, 'learning_rate': 1.1330883481731654e-05, 'epoch': 77.34} {'loss': 0.033, 'learning_rate': 1.1328484801964999e-05, 'epoch': 77.34} {'loss': 0.0323, 'learning_rate': 1.1326086122198343e-05, 'epoch': 77.35} {'loss': 0.0305, 'learning_rate': 1.1323687442431687e-05, 'epoch': 77.35} {'loss': 0.0331, 'learning_rate': 1.1321288762665028e-05, 'epoch': 77.36} {'loss': 0.0327, 'learning_rate': 1.1318890082898373e-05, 'epoch': 77.36} {'loss': 0.0323, 'learning_rate': 1.1316491403131717e-05, 'epoch': 77.37} {'loss': 0.0297, 'learning_rate': 1.131409272336506e-05, 'epoch': 77.37} {'loss': 0.031, 'learning_rate': 1.1311694043598404e-05, 'epoch': 77.38} {'loss': 0.0325, 'learning_rate': 1.1309295363831747e-05, 'epoch': 77.38} {'loss': 0.0335, 'learning_rate': 1.1306896684065091e-05, 'epoch': 77.39} {'loss': 0.0317, 'learning_rate': 1.1304498004298434e-05, 'epoch': 77.39} {'loss': 0.0309, 'learning_rate': 1.1302099324531779e-05, 'epoch': 77.4} {'loss': 0.0318, 'learning_rate': 1.1299700644765123e-05, 'epoch': 77.4} {'loss': 0.0327, 'learning_rate': 1.1297301964998466e-05, 'epoch': 77.41} {'loss': 0.032, 'learning_rate': 1.1294903285231808e-05, 'epoch': 77.41} {'loss': 0.0308, 'learning_rate': 1.1292504605465153e-05, 'epoch': 77.41} {'loss': 0.0318, 'learning_rate': 1.1290105925698497e-05, 'epoch': 77.42} {'loss': 0.03, 'learning_rate': 1.128770724593184e-05, 'epoch': 77.42} {'loss': 0.0318, 'learning_rate': 1.1285308566165183e-05, 'epoch': 77.43} {'loss': 0.0343, 'learning_rate': 1.1282909886398527e-05, 'epoch': 77.43} {'loss': 0.0321, 'learning_rate': 1.128051120663187e-05, 'epoch': 77.44} {'loss': 0.0321, 'learning_rate': 1.1278112526865214e-05, 'epoch': 77.44} {'loss': 0.0317, 'learning_rate': 1.1275713847098557e-05, 'epoch': 77.45} {'loss': 0.0331, 'learning_rate': 1.1273315167331901e-05, 'epoch': 77.45} {'loss': 0.0314, 'learning_rate': 1.1270916487565244e-05, 'epoch': 77.46} {'loss': 0.0311, 'learning_rate': 1.1268517807798588e-05, 'epoch': 77.46} {'loss': 0.0328, 'learning_rate': 1.1266119128031933e-05, 'epoch': 77.47} {'loss': 0.0317, 'learning_rate': 1.1263720448265275e-05, 'epoch': 77.47} {'loss': 0.032, 'learning_rate': 1.1261321768498618e-05, 'epoch': 77.48} {'loss': 0.0326, 'learning_rate': 1.1258923088731962e-05, 'epoch': 77.48} {'loss': 0.0307, 'learning_rate': 1.1256524408965307e-05, 'epoch': 77.49} {'loss': 0.0305, 'learning_rate': 1.125412572919865e-05, 'epoch': 77.49} {'loss': 0.0329, 'learning_rate': 1.1251727049431992e-05, 'epoch': 77.5} {'loss': 0.0339, 'learning_rate': 1.1249328369665337e-05, 'epoch': 77.5} {'loss': 0.034, 'learning_rate': 1.1246929689898681e-05, 'epoch': 77.51} {'loss': 0.0323, 'learning_rate': 1.1244531010132024e-05, 'epoch': 77.51} {'loss': 0.032, 'learning_rate': 1.1242132330365368e-05, 'epoch': 77.52} {'loss': 0.0321, 'learning_rate': 1.1239733650598711e-05, 'epoch': 77.52} {'loss': 0.0328, 'learning_rate': 1.1237334970832054e-05, 'epoch': 77.53} {'loss': 0.0331, 'learning_rate': 1.1234936291065398e-05, 'epoch': 77.53} {'loss': 0.0315, 'learning_rate': 1.1232537611298742e-05, 'epoch': 77.53} {'loss': 0.0344, 'learning_rate': 1.1230138931532087e-05, 'epoch': 77.54} {'loss': 0.0317, 'learning_rate': 1.1227740251765428e-05, 'epoch': 77.54} {'loss': 0.0338, 'learning_rate': 1.1225341571998772e-05, 'epoch': 77.55} {'loss': 0.0328, 'learning_rate': 1.1222942892232117e-05, 'epoch': 77.55} {'loss': 0.0328, 'learning_rate': 1.122054421246546e-05, 'epoch': 77.56} {'loss': 0.0344, 'learning_rate': 1.1218145532698802e-05, 'epoch': 77.56} {'loss': 0.0326, 'learning_rate': 1.1215746852932146e-05, 'epoch': 77.57} {'loss': 0.0331, 'learning_rate': 1.121334817316549e-05, 'epoch': 77.57} {'loss': 0.0326, 'learning_rate': 1.1210949493398833e-05, 'epoch': 77.58} {'loss': 0.0341, 'learning_rate': 1.1208550813632178e-05, 'epoch': 77.58} {'loss': 0.033, 'learning_rate': 1.120615213386552e-05, 'epoch': 77.59} {'loss': 0.0303, 'learning_rate': 1.1203753454098865e-05, 'epoch': 77.59} {'loss': 0.0345, 'learning_rate': 1.1201354774332208e-05, 'epoch': 77.6} {'loss': 0.032, 'learning_rate': 1.1198956094565552e-05, 'epoch': 77.6} {'loss': 0.0322, 'learning_rate': 1.1196557414798896e-05, 'epoch': 77.61} {'loss': 0.0321, 'learning_rate': 1.1194158735032237e-05, 'epoch': 77.61} {'loss': 0.0329, 'learning_rate': 1.1191760055265582e-05, 'epoch': 77.62} {'loss': 0.0336, 'learning_rate': 1.1189361375498926e-05, 'epoch': 77.62} {'loss': 0.0323, 'learning_rate': 1.118696269573227e-05, 'epoch': 77.63} {'loss': 0.0327, 'learning_rate': 1.1184564015965613e-05, 'epoch': 77.63} {'loss': 0.0333, 'learning_rate': 1.1182165336198956e-05, 'epoch': 77.64} {'loss': 0.0346, 'learning_rate': 1.11797666564323e-05, 'epoch': 77.64} {'loss': 0.0314, 'learning_rate': 1.1177367976665643e-05, 'epoch': 77.65} {'loss': 0.0326, 'learning_rate': 1.1174969296898988e-05, 'epoch': 77.65} {'loss': 0.0316, 'learning_rate': 1.117257061713233e-05, 'epoch': 77.65} {'loss': 0.0329, 'learning_rate': 1.1170171937365675e-05, 'epoch': 77.66} {'loss': 0.034, 'learning_rate': 1.1167773257599017e-05, 'epoch': 77.66} {'loss': 0.0327, 'learning_rate': 1.1165374577832362e-05, 'epoch': 77.67} {'loss': 0.0314, 'learning_rate': 1.1162975898065706e-05, 'epoch': 77.67} {'loss': 0.031, 'learning_rate': 1.1160577218299049e-05, 'epoch': 77.68} {'loss': 0.0333, 'learning_rate': 1.1158178538532392e-05, 'epoch': 77.68} {'loss': 0.0332, 'learning_rate': 1.1155779858765736e-05, 'epoch': 77.69} {'loss': 0.032, 'learning_rate': 1.115338117899908e-05, 'epoch': 77.69} {'loss': 0.0327, 'learning_rate': 1.1150982499232423e-05, 'epoch': 77.7} {'loss': 0.0327, 'learning_rate': 1.1148583819465766e-05, 'epoch': 77.7} {'loss': 0.03, 'learning_rate': 1.114618513969911e-05, 'epoch': 77.71} {'loss': 0.0329, 'learning_rate': 1.1143786459932455e-05, 'epoch': 77.71} {'loss': 0.0325, 'learning_rate': 1.1141387780165797e-05, 'epoch': 77.72} {'loss': 0.0311, 'learning_rate': 1.1138989100399142e-05, 'epoch': 77.72} {'loss': 0.0328, 'learning_rate': 1.1136590420632484e-05, 'epoch': 77.73} {'loss': 0.0315, 'learning_rate': 1.1134191740865827e-05, 'epoch': 77.73} {'loss': 0.0314, 'learning_rate': 1.1131793061099171e-05, 'epoch': 77.74} {'loss': 0.0328, 'learning_rate': 1.1129394381332516e-05, 'epoch': 77.74} {'loss': 0.0308, 'learning_rate': 1.1126995701565859e-05, 'epoch': 77.75} {'loss': 0.0332, 'learning_rate': 1.1124597021799201e-05, 'epoch': 77.75} {'loss': 0.0319, 'learning_rate': 1.1122198342032546e-05, 'epoch': 77.76} {'loss': 0.0316, 'learning_rate': 1.111979966226589e-05, 'epoch': 77.76} {'loss': 0.0323, 'learning_rate': 1.1117400982499233e-05, 'epoch': 77.77} {'loss': 0.032, 'learning_rate': 1.1115002302732575e-05, 'epoch': 77.77} {'loss': 0.0331, 'learning_rate': 1.111260362296592e-05, 'epoch': 77.77} {'loss': 0.032, 'learning_rate': 1.1110204943199264e-05, 'epoch': 77.78} {'loss': 0.0337, 'learning_rate': 1.1107806263432607e-05, 'epoch': 77.78} {'loss': 0.0319, 'learning_rate': 1.1105407583665951e-05, 'epoch': 77.79} {'loss': 0.033, 'learning_rate': 1.1103008903899294e-05, 'epoch': 77.79} {'loss': 0.0339, 'learning_rate': 1.1100610224132637e-05, 'epoch': 77.8} {'loss': 0.0318, 'learning_rate': 1.1098211544365981e-05, 'epoch': 77.8} {'loss': 0.031, 'learning_rate': 1.1095812864599326e-05, 'epoch': 77.81} {'loss': 0.0318, 'learning_rate': 1.109341418483267e-05, 'epoch': 77.81} {'loss': 0.0322, 'learning_rate': 1.1091015505066011e-05, 'epoch': 77.82} {'loss': 0.0327, 'learning_rate': 1.1088616825299355e-05, 'epoch': 77.82} {'loss': 0.033, 'learning_rate': 1.10862181455327e-05, 'epoch': 77.83} {'loss': 0.034, 'learning_rate': 1.1083819465766042e-05, 'epoch': 77.83} {'loss': 0.032, 'learning_rate': 1.1081420785999387e-05, 'epoch': 77.84} {'loss': 0.033, 'learning_rate': 1.107902210623273e-05, 'epoch': 77.84} {'loss': 0.031, 'learning_rate': 1.1076623426466074e-05, 'epoch': 77.85} {'loss': 0.0307, 'learning_rate': 1.1074224746699417e-05, 'epoch': 77.85} {'loss': 0.0324, 'learning_rate': 1.1071826066932761e-05, 'epoch': 77.86} {'loss': 0.0321, 'learning_rate': 1.1069427387166104e-05, 'epoch': 77.86} {'loss': 0.0313, 'learning_rate': 1.1067028707399448e-05, 'epoch': 77.87} {'loss': 0.0313, 'learning_rate': 1.1064630027632791e-05, 'epoch': 77.87} {'loss': 0.0302, 'learning_rate': 1.1062231347866135e-05, 'epoch': 77.88} {'loss': 0.0325, 'learning_rate': 1.105983266809948e-05, 'epoch': 77.88} {'loss': 0.0309, 'learning_rate': 1.105743398833282e-05, 'epoch': 77.89} {'loss': 0.0323, 'learning_rate': 1.1055035308566165e-05, 'epoch': 77.89} {'loss': 0.0332, 'learning_rate': 1.105263662879951e-05, 'epoch': 77.89} {'loss': 0.0327, 'learning_rate': 1.1050237949032854e-05, 'epoch': 77.9} {'loss': 0.0319, 'learning_rate': 1.1047839269266197e-05, 'epoch': 77.9} {'loss': 0.0319, 'learning_rate': 1.104544058949954e-05, 'epoch': 77.91} {'loss': 0.0316, 'learning_rate': 1.1043041909732884e-05, 'epoch': 77.91} {'loss': 0.0335, 'learning_rate': 1.1040643229966226e-05, 'epoch': 77.92} {'loss': 0.033, 'learning_rate': 1.103824455019957e-05, 'epoch': 77.92} {'loss': 0.033, 'learning_rate': 1.1035845870432915e-05, 'epoch': 77.93} {'loss': 0.0319, 'learning_rate': 1.1033447190666258e-05, 'epoch': 77.93} {'loss': 0.0323, 'learning_rate': 1.10310485108996e-05, 'epoch': 77.94} {'loss': 0.0334, 'learning_rate': 1.1028649831132945e-05, 'epoch': 77.94} {'loss': 0.0311, 'learning_rate': 1.102625115136629e-05, 'epoch': 77.95} {'loss': 0.0329, 'learning_rate': 1.1023852471599632e-05, 'epoch': 77.95} {'loss': 0.0307, 'learning_rate': 1.1021453791832975e-05, 'epoch': 77.96} {'loss': 0.0338, 'learning_rate': 1.101905511206632e-05, 'epoch': 77.96} {'loss': 0.0327, 'learning_rate': 1.1016656432299664e-05, 'epoch': 77.97} {'loss': 0.0336, 'learning_rate': 1.1014257752533006e-05, 'epoch': 77.97} {'loss': 0.0313, 'learning_rate': 1.1011859072766349e-05, 'epoch': 77.98} {'loss': 0.0341, 'learning_rate': 1.1009460392999693e-05, 'epoch': 77.98} {'loss': 0.0318, 'learning_rate': 1.1007061713233038e-05, 'epoch': 77.99} {'loss': 0.0317, 'learning_rate': 1.100466303346638e-05, 'epoch': 77.99} {'loss': 0.0308, 'learning_rate': 1.1002264353699725e-05, 'epoch': 78.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03409431502223015, 'eval_runtime': 739.9261, 'eval_samples_per_second': 563.428, 'eval_steps_per_second': 70.429, 'epoch': 78.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-8129472 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-8129472/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-8129472/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-8025248] due to args.save_total_limit {'loss': 0.0311, 'learning_rate': 1.0999865673933068e-05, 'epoch': 78.0} {'loss': 0.0332, 'learning_rate': 1.099746699416641e-05, 'epoch': 78.01} {'loss': 0.0315, 'learning_rate': 1.0995068314399755e-05, 'epoch': 78.01} {'loss': 0.0311, 'learning_rate': 1.0992669634633099e-05, 'epoch': 78.01} {'loss': 0.0318, 'learning_rate': 1.0990270954866442e-05, 'epoch': 78.02} {'loss': 0.031, 'learning_rate': 1.0987872275099784e-05, 'epoch': 78.02} {'loss': 0.0296, 'learning_rate': 1.0985473595333129e-05, 'epoch': 78.03} {'loss': 0.0322, 'learning_rate': 1.0983074915566473e-05, 'epoch': 78.03} {'loss': 0.0325, 'learning_rate': 1.0980676235799816e-05, 'epoch': 78.04} {'loss': 0.0322, 'learning_rate': 1.097827755603316e-05, 'epoch': 78.04} {'loss': 0.0317, 'learning_rate': 1.0975878876266503e-05, 'epoch': 78.05} {'loss': 0.0312, 'learning_rate': 1.0973480196499847e-05, 'epoch': 78.05} {'loss': 0.0325, 'learning_rate': 1.097108151673319e-05, 'epoch': 78.06} {'loss': 0.0307, 'learning_rate': 1.0968682836966535e-05, 'epoch': 78.06} {'loss': 0.0326, 'learning_rate': 1.0966284157199879e-05, 'epoch': 78.07} {'loss': 0.0316, 'learning_rate': 1.0963885477433222e-05, 'epoch': 78.07} {'loss': 0.0304, 'learning_rate': 1.0961486797666564e-05, 'epoch': 78.08} {'loss': 0.0326, 'learning_rate': 1.0959088117899909e-05, 'epoch': 78.08} {'loss': 0.032, 'learning_rate': 1.0956689438133253e-05, 'epoch': 78.09} {'loss': 0.0311, 'learning_rate': 1.0954290758366594e-05, 'epoch': 78.09} {'loss': 0.0327, 'learning_rate': 1.0951892078599939e-05, 'epoch': 78.1} {'loss': 0.0331, 'learning_rate': 1.0949493398833283e-05, 'epoch': 78.1} {'loss': 0.0326, 'learning_rate': 1.0947094719066626e-05, 'epoch': 78.11} {'loss': 0.0314, 'learning_rate': 1.094469603929997e-05, 'epoch': 78.11} {'loss': 0.0302, 'learning_rate': 1.0942297359533313e-05, 'epoch': 78.12} {'loss': 0.031, 'learning_rate': 1.0939898679766657e-05, 'epoch': 78.12} {'loss': 0.0319, 'learning_rate': 1.09375e-05, 'epoch': 78.12} {'loss': 0.0315, 'learning_rate': 1.0935101320233344e-05, 'epoch': 78.13} {'loss': 0.0324, 'learning_rate': 1.0932702640466689e-05, 'epoch': 78.13} {'loss': 0.0327, 'learning_rate': 1.0930303960700031e-05, 'epoch': 78.14} {'loss': 0.0333, 'learning_rate': 1.0927905280933374e-05, 'epoch': 78.14} {'loss': 0.0289, 'learning_rate': 1.0925506601166718e-05, 'epoch': 78.15} {'loss': 0.0332, 'learning_rate': 1.0923107921400063e-05, 'epoch': 78.15} {'loss': 0.0318, 'learning_rate': 1.0920709241633406e-05, 'epoch': 78.16} {'loss': 0.0324, 'learning_rate': 1.0918310561866748e-05, 'epoch': 78.16} {'loss': 0.0316, 'learning_rate': 1.0915911882100093e-05, 'epoch': 78.17} {'loss': 0.0313, 'learning_rate': 1.0913513202333437e-05, 'epoch': 78.17} {'loss': 0.0323, 'learning_rate': 1.091111452256678e-05, 'epoch': 78.18} {'loss': 0.0323, 'learning_rate': 1.0908715842800122e-05, 'epoch': 78.18} {'loss': 0.032, 'learning_rate': 1.0906317163033467e-05, 'epoch': 78.19} {'loss': 0.0327, 'learning_rate': 1.090391848326681e-05, 'epoch': 78.19} {'loss': 0.0317, 'learning_rate': 1.0901519803500154e-05, 'epoch': 78.2} {'loss': 0.032, 'learning_rate': 1.0899121123733498e-05, 'epoch': 78.2} {'loss': 0.0311, 'learning_rate': 1.0896722443966841e-05, 'epoch': 78.21} {'loss': 0.0313, 'learning_rate': 1.0894323764200184e-05, 'epoch': 78.21} {'loss': 0.0314, 'learning_rate': 1.0891925084433528e-05, 'epoch': 78.22} {'loss': 0.0296, 'learning_rate': 1.0889526404666873e-05, 'epoch': 78.22} {'loss': 0.0322, 'learning_rate': 1.0887127724900215e-05, 'epoch': 78.23} {'loss': 0.0323, 'learning_rate': 1.0884729045133558e-05, 'epoch': 78.23} {'loss': 0.0308, 'learning_rate': 1.0882330365366902e-05, 'epoch': 78.24} {'loss': 0.032, 'learning_rate': 1.0879931685600247e-05, 'epoch': 78.24} {'loss': 0.0338, 'learning_rate': 1.087753300583359e-05, 'epoch': 78.24} {'loss': 0.0311, 'learning_rate': 1.0875134326066934e-05, 'epoch': 78.25} {'loss': 0.0325, 'learning_rate': 1.0872735646300277e-05, 'epoch': 78.25} {'loss': 0.0315, 'learning_rate': 1.0870336966533621e-05, 'epoch': 78.26} {'loss': 0.0322, 'learning_rate': 1.0867938286766964e-05, 'epoch': 78.26} {'loss': 0.0346, 'learning_rate': 1.0865539607000308e-05, 'epoch': 78.27} {'loss': 0.0304, 'learning_rate': 1.0863140927233652e-05, 'epoch': 78.27} {'loss': 0.0325, 'learning_rate': 1.0860742247466993e-05, 'epoch': 78.28} {'loss': 0.0325, 'learning_rate': 1.0858343567700338e-05, 'epoch': 78.28} {'loss': 0.0308, 'learning_rate': 1.0855944887933682e-05, 'epoch': 78.29} {'loss': 0.032, 'learning_rate': 1.0853546208167025e-05, 'epoch': 78.29} {'loss': 0.0326, 'learning_rate': 1.0851147528400368e-05, 'epoch': 78.3} {'loss': 0.0315, 'learning_rate': 1.0848748848633712e-05, 'epoch': 78.3} {'loss': 0.0331, 'learning_rate': 1.0846350168867056e-05, 'epoch': 78.31} {'loss': 0.0322, 'learning_rate': 1.08439514891004e-05, 'epoch': 78.31} {'loss': 0.0316, 'learning_rate': 1.0841552809333744e-05, 'epoch': 78.32} {'loss': 0.0309, 'learning_rate': 1.0839154129567086e-05, 'epoch': 78.32} {'loss': 0.0323, 'learning_rate': 1.083675544980043e-05, 'epoch': 78.33} {'loss': 0.0326, 'learning_rate': 1.0834356770033773e-05, 'epoch': 78.33} {'loss': 0.0317, 'learning_rate': 1.0831958090267118e-05, 'epoch': 78.34} {'loss': 0.0308, 'learning_rate': 1.0829559410500462e-05, 'epoch': 78.34} {'loss': 0.0325, 'learning_rate': 1.0827160730733805e-05, 'epoch': 78.35} {'loss': 0.0322, 'learning_rate': 1.0824762050967148e-05, 'epoch': 78.35} {'loss': 0.0307, 'learning_rate': 1.0822363371200492e-05, 'epoch': 78.36} {'loss': 0.0325, 'learning_rate': 1.0819964691433836e-05, 'epoch': 78.36} {'loss': 0.032, 'learning_rate': 1.0817566011667179e-05, 'epoch': 78.36} {'loss': 0.0314, 'learning_rate': 1.0815167331900522e-05, 'epoch': 78.37} {'loss': 0.0313, 'learning_rate': 1.0812768652133866e-05, 'epoch': 78.37} {'loss': 0.0305, 'learning_rate': 1.0810369972367209e-05, 'epoch': 78.38} {'loss': 0.031, 'learning_rate': 1.0807971292600553e-05, 'epoch': 78.38} {'loss': 0.033, 'learning_rate': 1.0805572612833898e-05, 'epoch': 78.39} {'loss': 0.0318, 'learning_rate': 1.080317393306724e-05, 'epoch': 78.39} {'loss': 0.0316, 'learning_rate': 1.0800775253300583e-05, 'epoch': 78.4} {'loss': 0.0305, 'learning_rate': 1.0798376573533927e-05, 'epoch': 78.4} {'loss': 0.0325, 'learning_rate': 1.0795977893767272e-05, 'epoch': 78.41} {'loss': 0.0313, 'learning_rate': 1.0793579214000615e-05, 'epoch': 78.41} {'loss': 0.0337, 'learning_rate': 1.0791180534233957e-05, 'epoch': 78.42} {'loss': 0.0319, 'learning_rate': 1.0788781854467302e-05, 'epoch': 78.42} {'loss': 0.0318, 'learning_rate': 1.0786383174700646e-05, 'epoch': 78.43} {'loss': 0.0329, 'learning_rate': 1.0783984494933989e-05, 'epoch': 78.43} {'loss': 0.0323, 'learning_rate': 1.0781585815167332e-05, 'epoch': 78.44} {'loss': 0.0324, 'learning_rate': 1.0779187135400676e-05, 'epoch': 78.44} {'loss': 0.0309, 'learning_rate': 1.077678845563402e-05, 'epoch': 78.45} {'loss': 0.0316, 'learning_rate': 1.0774389775867363e-05, 'epoch': 78.45} {'loss': 0.0317, 'learning_rate': 1.0771991096100707e-05, 'epoch': 78.46} {'loss': 0.0314, 'learning_rate': 1.076959241633405e-05, 'epoch': 78.46} {'loss': 0.0318, 'learning_rate': 1.0767193736567393e-05, 'epoch': 78.47} {'loss': 0.0307, 'learning_rate': 1.0764795056800737e-05, 'epoch': 78.47} {'loss': 0.0312, 'learning_rate': 1.0762396377034082e-05, 'epoch': 78.48} {'loss': 0.0308, 'learning_rate': 1.0759997697267426e-05, 'epoch': 78.48} {'loss': 0.032, 'learning_rate': 1.0757599017500767e-05, 'epoch': 78.48} {'loss': 0.0301, 'learning_rate': 1.0755200337734111e-05, 'epoch': 78.49} {'loss': 0.0308, 'learning_rate': 1.0752801657967456e-05, 'epoch': 78.49} {'loss': 0.0327, 'learning_rate': 1.0750402978200799e-05, 'epoch': 78.5} {'loss': 0.0305, 'learning_rate': 1.0748004298434141e-05, 'epoch': 78.5} {'loss': 0.0309, 'learning_rate': 1.0745605618667486e-05, 'epoch': 78.51} {'loss': 0.0303, 'learning_rate': 1.074320693890083e-05, 'epoch': 78.51} {'loss': 0.0308, 'learning_rate': 1.0740808259134173e-05, 'epoch': 78.52} {'loss': 0.0315, 'learning_rate': 1.0738409579367517e-05, 'epoch': 78.52} {'loss': 0.0333, 'learning_rate': 1.073601089960086e-05, 'epoch': 78.53} {'loss': 0.0316, 'learning_rate': 1.0733612219834204e-05, 'epoch': 78.53} {'loss': 0.0308, 'learning_rate': 1.0731213540067547e-05, 'epoch': 78.54} {'loss': 0.0302, 'learning_rate': 1.0728814860300891e-05, 'epoch': 78.54} {'loss': 0.033, 'learning_rate': 1.0726416180534236e-05, 'epoch': 78.55} {'loss': 0.0329, 'learning_rate': 1.0724017500767577e-05, 'epoch': 78.55} {'loss': 0.0309, 'learning_rate': 1.0721618821000921e-05, 'epoch': 78.56} {'loss': 0.0334, 'learning_rate': 1.0719220141234266e-05, 'epoch': 78.56} {'loss': 0.0311, 'learning_rate': 1.071682146146761e-05, 'epoch': 78.57} {'loss': 0.0322, 'learning_rate': 1.0714422781700953e-05, 'epoch': 78.57} {'loss': 0.032, 'learning_rate': 1.0712024101934295e-05, 'epoch': 78.58} {'loss': 0.0315, 'learning_rate': 1.070962542216764e-05, 'epoch': 78.58} {'loss': 0.0299, 'learning_rate': 1.0707226742400982e-05, 'epoch': 78.59} {'loss': 0.0324, 'learning_rate': 1.0704828062634327e-05, 'epoch': 78.59} {'loss': 0.0335, 'learning_rate': 1.0702429382867671e-05, 'epoch': 78.6} {'loss': 0.031, 'learning_rate': 1.0700030703101014e-05, 'epoch': 78.6} {'loss': 0.0311, 'learning_rate': 1.0697632023334357e-05, 'epoch': 78.6} {'loss': 0.0316, 'learning_rate': 1.0695233343567701e-05, 'epoch': 78.61} {'loss': 0.0339, 'learning_rate': 1.0692834663801045e-05, 'epoch': 78.61} {'loss': 0.0326, 'learning_rate': 1.0690435984034388e-05, 'epoch': 78.62} {'loss': 0.0311, 'learning_rate': 1.068803730426773e-05, 'epoch': 78.62} {'loss': 0.0315, 'learning_rate': 1.0685638624501075e-05, 'epoch': 78.63} {'loss': 0.0322, 'learning_rate': 1.068323994473442e-05, 'epoch': 78.63} {'loss': 0.0307, 'learning_rate': 1.0680841264967762e-05, 'epoch': 78.64} {'loss': 0.0323, 'learning_rate': 1.0678442585201105e-05, 'epoch': 78.64} {'loss': 0.0316, 'learning_rate': 1.067604390543445e-05, 'epoch': 78.65} {'loss': 0.0339, 'learning_rate': 1.0673645225667794e-05, 'epoch': 78.65} {'loss': 0.0321, 'learning_rate': 1.0671246545901137e-05, 'epoch': 78.66} {'loss': 0.0314, 'learning_rate': 1.0668847866134481e-05, 'epoch': 78.66} {'loss': 0.0308, 'learning_rate': 1.0666449186367824e-05, 'epoch': 78.67} {'loss': 0.0334, 'learning_rate': 1.0664050506601166e-05, 'epoch': 78.67} {'loss': 0.0335, 'learning_rate': 1.066165182683451e-05, 'epoch': 78.68} {'loss': 0.031, 'learning_rate': 1.0659253147067855e-05, 'epoch': 78.68} {'loss': 0.0314, 'learning_rate': 1.0656854467301198e-05, 'epoch': 78.69} {'loss': 0.03, 'learning_rate': 1.065445578753454e-05, 'epoch': 78.69} {'loss': 0.0312, 'learning_rate': 1.0652057107767885e-05, 'epoch': 78.7} {'loss': 0.0302, 'learning_rate': 1.064965842800123e-05, 'epoch': 78.7} {'loss': 0.0313, 'learning_rate': 1.0647259748234572e-05, 'epoch': 78.71} {'loss': 0.0309, 'learning_rate': 1.0644861068467915e-05, 'epoch': 78.71} {'loss': 0.0315, 'learning_rate': 1.0642462388701259e-05, 'epoch': 78.72} {'loss': 0.0321, 'learning_rate': 1.0640063708934604e-05, 'epoch': 78.72} {'loss': 0.031, 'learning_rate': 1.0637665029167946e-05, 'epoch': 78.72} {'loss': 0.0323, 'learning_rate': 1.063526634940129e-05, 'epoch': 78.73} {'loss': 0.03, 'learning_rate': 1.0632867669634633e-05, 'epoch': 78.73} {'loss': 0.032, 'learning_rate': 1.0630468989867976e-05, 'epoch': 78.74} {'loss': 0.0327, 'learning_rate': 1.062807031010132e-05, 'epoch': 78.74} {'loss': 0.031, 'learning_rate': 1.0625671630334665e-05, 'epoch': 78.75} {'loss': 0.0308, 'learning_rate': 1.062327295056801e-05, 'epoch': 78.75} {'loss': 0.0321, 'learning_rate': 1.062087427080135e-05, 'epoch': 78.76} {'loss': 0.033, 'learning_rate': 1.0618475591034695e-05, 'epoch': 78.76} {'loss': 0.0323, 'learning_rate': 1.0616076911268039e-05, 'epoch': 78.77} {'loss': 0.0315, 'learning_rate': 1.0613678231501382e-05, 'epoch': 78.77} {'loss': 0.0315, 'learning_rate': 1.0611279551734726e-05, 'epoch': 78.78} {'loss': 0.0327, 'learning_rate': 1.0608880871968069e-05, 'epoch': 78.78} {'loss': 0.0332, 'learning_rate': 1.0606482192201413e-05, 'epoch': 78.79} {'loss': 0.0326, 'learning_rate': 1.0604083512434756e-05, 'epoch': 78.79} {'loss': 0.0319, 'learning_rate': 1.06016848326681e-05, 'epoch': 78.8} {'loss': 0.0328, 'learning_rate': 1.0599286152901445e-05, 'epoch': 78.8} {'loss': 0.0316, 'learning_rate': 1.0596887473134787e-05, 'epoch': 78.81} {'loss': 0.0319, 'learning_rate': 1.059448879336813e-05, 'epoch': 78.81} {'loss': 0.0321, 'learning_rate': 1.0592090113601475e-05, 'epoch': 78.82} {'loss': 0.0291, 'learning_rate': 1.0589691433834819e-05, 'epoch': 78.82} {'loss': 0.0323, 'learning_rate': 1.058729275406816e-05, 'epoch': 78.83} {'loss': 0.0331, 'learning_rate': 1.0584894074301504e-05, 'epoch': 78.83} {'loss': 0.0305, 'learning_rate': 1.0582495394534849e-05, 'epoch': 78.84} {'loss': 0.0305, 'learning_rate': 1.0580096714768193e-05, 'epoch': 78.84} {'loss': 0.032, 'learning_rate': 1.0577698035001536e-05, 'epoch': 78.84} {'loss': 0.0325, 'learning_rate': 1.0575299355234879e-05, 'epoch': 78.85} {'loss': 0.032, 'learning_rate': 1.0572900675468223e-05, 'epoch': 78.85} {'loss': 0.0318, 'learning_rate': 1.0570501995701566e-05, 'epoch': 78.86} {'loss': 0.0337, 'learning_rate': 1.056810331593491e-05, 'epoch': 78.86} {'loss': 0.034, 'learning_rate': 1.0565704636168254e-05, 'epoch': 78.87} {'loss': 0.0325, 'learning_rate': 1.0563305956401597e-05, 'epoch': 78.87} {'loss': 0.032, 'learning_rate': 1.056090727663494e-05, 'epoch': 78.88} {'loss': 0.031, 'learning_rate': 1.0558508596868284e-05, 'epoch': 78.88} {'loss': 0.0333, 'learning_rate': 1.0556109917101629e-05, 'epoch': 78.89} {'loss': 0.0311, 'learning_rate': 1.0553711237334971e-05, 'epoch': 78.89} {'loss': 0.0312, 'learning_rate': 1.0551312557568314e-05, 'epoch': 78.9} {'loss': 0.0319, 'learning_rate': 1.0548913877801658e-05, 'epoch': 78.9} {'loss': 0.0326, 'learning_rate': 1.0546515198035003e-05, 'epoch': 78.91} {'loss': 0.0305, 'learning_rate': 1.0544116518268346e-05, 'epoch': 78.91} {'loss': 0.0329, 'learning_rate': 1.054171783850169e-05, 'epoch': 78.92} {'loss': 0.0313, 'learning_rate': 1.0539319158735033e-05, 'epoch': 78.92} {'loss': 0.0311, 'learning_rate': 1.0536920478968377e-05, 'epoch': 78.93} {'loss': 0.0304, 'learning_rate': 1.053452179920172e-05, 'epoch': 78.93} {'loss': 0.0332, 'learning_rate': 1.0532123119435064e-05, 'epoch': 78.94} {'loss': 0.032, 'learning_rate': 1.0529724439668407e-05, 'epoch': 78.94} {'loss': 0.0326, 'learning_rate': 1.052732575990175e-05, 'epoch': 78.95} {'loss': 0.0324, 'learning_rate': 1.0524927080135094e-05, 'epoch': 78.95} {'loss': 0.0315, 'learning_rate': 1.0522528400368438e-05, 'epoch': 78.95} {'loss': 0.0338, 'learning_rate': 1.0520129720601781e-05, 'epoch': 78.96} {'loss': 0.0289, 'learning_rate': 1.0517731040835124e-05, 'epoch': 78.96} {'loss': 0.0313, 'learning_rate': 1.0515332361068468e-05, 'epoch': 78.97} {'loss': 0.0336, 'learning_rate': 1.0512933681301813e-05, 'epoch': 78.97} {'loss': 0.0326, 'learning_rate': 1.0510535001535155e-05, 'epoch': 78.98} {'loss': 0.031, 'learning_rate': 1.05081363217685e-05, 'epoch': 78.98} {'loss': 0.0311, 'learning_rate': 1.0505737642001842e-05, 'epoch': 78.99} {'loss': 0.0324, 'learning_rate': 1.0503338962235187e-05, 'epoch': 78.99} {'loss': 0.0323, 'learning_rate': 1.050094028246853e-05, 'epoch': 79.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.0332673080265522, 'eval_runtime': 887.5137, 'eval_samples_per_second': 469.734, 'eval_steps_per_second': 58.717, 'epoch': 79.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-8233696 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-8233696/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-8233696/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-8129472] due to args.save_total_limit {'loss': 0.0302, 'learning_rate': 1.0498541602701874e-05, 'epoch': 79.0} {'loss': 0.0323, 'learning_rate': 1.0496142922935218e-05, 'epoch': 79.01} {'loss': 0.0329, 'learning_rate': 1.0493744243168561e-05, 'epoch': 79.01} {'loss': 0.0318, 'learning_rate': 1.0491345563401904e-05, 'epoch': 79.02} {'loss': 0.0301, 'learning_rate': 1.0488946883635248e-05, 'epoch': 79.02} {'loss': 0.033, 'learning_rate': 1.0486548203868592e-05, 'epoch': 79.03} {'loss': 0.0308, 'learning_rate': 1.0484149524101933e-05, 'epoch': 79.03} {'loss': 0.0312, 'learning_rate': 1.0481750844335278e-05, 'epoch': 79.04} {'loss': 0.0333, 'learning_rate': 1.0479352164568622e-05, 'epoch': 79.04} {'loss': 0.0315, 'learning_rate': 1.0476953484801965e-05, 'epoch': 79.05} {'loss': 0.0318, 'learning_rate': 1.047455480503531e-05, 'epoch': 79.05} {'loss': 0.0291, 'learning_rate': 1.0472156125268652e-05, 'epoch': 79.06} {'loss': 0.0317, 'learning_rate': 1.0469757445501996e-05, 'epoch': 79.06} {'loss': 0.0324, 'learning_rate': 1.0467358765735339e-05, 'epoch': 79.07} {'loss': 0.0309, 'learning_rate': 1.0464960085968684e-05, 'epoch': 79.07} {'loss': 0.0301, 'learning_rate': 1.0462561406202028e-05, 'epoch': 79.07} {'loss': 0.0319, 'learning_rate': 1.046016272643537e-05, 'epoch': 79.08} {'loss': 0.0309, 'learning_rate': 1.0457764046668713e-05, 'epoch': 79.08} {'loss': 0.03, 'learning_rate': 1.0455365366902058e-05, 'epoch': 79.09} {'loss': 0.0332, 'learning_rate': 1.0452966687135402e-05, 'epoch': 79.09} {'loss': 0.0305, 'learning_rate': 1.0450568007368745e-05, 'epoch': 79.1} {'loss': 0.0319, 'learning_rate': 1.0448169327602088e-05, 'epoch': 79.1} {'loss': 0.0314, 'learning_rate': 1.0445770647835432e-05, 'epoch': 79.11} {'loss': 0.0319, 'learning_rate': 1.0443371968068776e-05, 'epoch': 79.11} {'loss': 0.031, 'learning_rate': 1.0440973288302119e-05, 'epoch': 79.12} {'loss': 0.0295, 'learning_rate': 1.0438574608535463e-05, 'epoch': 79.12} {'loss': 0.0331, 'learning_rate': 1.0436175928768806e-05, 'epoch': 79.13} {'loss': 0.0319, 'learning_rate': 1.0433777249002149e-05, 'epoch': 79.13} {'loss': 0.0313, 'learning_rate': 1.0431378569235493e-05, 'epoch': 79.14} {'loss': 0.0311, 'learning_rate': 1.0428979889468838e-05, 'epoch': 79.14} {'loss': 0.0309, 'learning_rate': 1.042658120970218e-05, 'epoch': 79.15} {'loss': 0.0313, 'learning_rate': 1.0424182529935523e-05, 'epoch': 79.15} {'loss': 0.0324, 'learning_rate': 1.0421783850168867e-05, 'epoch': 79.16} {'loss': 0.0321, 'learning_rate': 1.0419385170402212e-05, 'epoch': 79.16} {'loss': 0.0326, 'learning_rate': 1.0416986490635555e-05, 'epoch': 79.17} {'loss': 0.0308, 'learning_rate': 1.0414587810868897e-05, 'epoch': 79.17} {'loss': 0.0322, 'learning_rate': 1.0412189131102242e-05, 'epoch': 79.18} {'loss': 0.0307, 'learning_rate': 1.0409790451335586e-05, 'epoch': 79.18} {'loss': 0.0328, 'learning_rate': 1.0407391771568929e-05, 'epoch': 79.19} {'loss': 0.0326, 'learning_rate': 1.0404993091802273e-05, 'epoch': 79.19} {'loss': 0.0313, 'learning_rate': 1.0402594412035616e-05, 'epoch': 79.19} {'loss': 0.0302, 'learning_rate': 1.040019573226896e-05, 'epoch': 79.2} {'loss': 0.0329, 'learning_rate': 1.0397797052502303e-05, 'epoch': 79.2} {'loss': 0.0318, 'learning_rate': 1.0395398372735647e-05, 'epoch': 79.21} {'loss': 0.0306, 'learning_rate': 1.0392999692968992e-05, 'epoch': 79.21} {'loss': 0.0305, 'learning_rate': 1.0390601013202333e-05, 'epoch': 79.22} {'loss': 0.0318, 'learning_rate': 1.0388202333435677e-05, 'epoch': 79.22} {'loss': 0.0325, 'learning_rate': 1.0385803653669022e-05, 'epoch': 79.23} {'loss': 0.0319, 'learning_rate': 1.0383404973902364e-05, 'epoch': 79.23} {'loss': 0.0316, 'learning_rate': 1.0381006294135707e-05, 'epoch': 79.24} {'loss': 0.0316, 'learning_rate': 1.0378607614369051e-05, 'epoch': 79.24} {'loss': 0.0307, 'learning_rate': 1.0376208934602396e-05, 'epoch': 79.25} {'loss': 0.0311, 'learning_rate': 1.0373810254835738e-05, 'epoch': 79.25} {'loss': 0.031, 'learning_rate': 1.0371411575069083e-05, 'epoch': 79.26} {'loss': 0.0313, 'learning_rate': 1.0369012895302426e-05, 'epoch': 79.26} {'loss': 0.0294, 'learning_rate': 1.036661421553577e-05, 'epoch': 79.27} {'loss': 0.0311, 'learning_rate': 1.0364215535769113e-05, 'epoch': 79.27} {'loss': 0.0328, 'learning_rate': 1.0361816856002457e-05, 'epoch': 79.28} {'loss': 0.0321, 'learning_rate': 1.0359418176235801e-05, 'epoch': 79.28} {'loss': 0.0307, 'learning_rate': 1.0357019496469144e-05, 'epoch': 79.29} {'loss': 0.032, 'learning_rate': 1.0354620816702487e-05, 'epoch': 79.29} {'loss': 0.0303, 'learning_rate': 1.0352222136935831e-05, 'epoch': 79.3} {'loss': 0.0323, 'learning_rate': 1.0349823457169176e-05, 'epoch': 79.3} {'loss': 0.032, 'learning_rate': 1.0347424777402518e-05, 'epoch': 79.31} {'loss': 0.0308, 'learning_rate': 1.0345026097635861e-05, 'epoch': 79.31} {'loss': 0.0337, 'learning_rate': 1.0342627417869205e-05, 'epoch': 79.31} {'loss': 0.0308, 'learning_rate': 1.0340228738102548e-05, 'epoch': 79.32} {'loss': 0.0316, 'learning_rate': 1.0337830058335893e-05, 'epoch': 79.32} {'loss': 0.0294, 'learning_rate': 1.0335431378569237e-05, 'epoch': 79.33} {'loss': 0.0328, 'learning_rate': 1.033303269880258e-05, 'epoch': 79.33} {'loss': 0.0321, 'learning_rate': 1.0330634019035922e-05, 'epoch': 79.34} {'loss': 0.0319, 'learning_rate': 1.0328235339269267e-05, 'epoch': 79.34} {'loss': 0.0302, 'learning_rate': 1.0325836659502611e-05, 'epoch': 79.35} {'loss': 0.032, 'learning_rate': 1.0323437979735954e-05, 'epoch': 79.35} {'loss': 0.032, 'learning_rate': 1.0321039299969297e-05, 'epoch': 79.36} {'loss': 0.0305, 'learning_rate': 1.0318640620202641e-05, 'epoch': 79.36} {'loss': 0.0315, 'learning_rate': 1.0316241940435985e-05, 'epoch': 79.37} {'loss': 0.0311, 'learning_rate': 1.0313843260669328e-05, 'epoch': 79.37} {'loss': 0.0316, 'learning_rate': 1.031144458090267e-05, 'epoch': 79.38} {'loss': 0.0315, 'learning_rate': 1.0309045901136015e-05, 'epoch': 79.38} {'loss': 0.0334, 'learning_rate': 1.030664722136936e-05, 'epoch': 79.39} {'loss': 0.0306, 'learning_rate': 1.0304248541602702e-05, 'epoch': 79.39} {'loss': 0.0319, 'learning_rate': 1.0301849861836047e-05, 'epoch': 79.4} {'loss': 0.0315, 'learning_rate': 1.029945118206939e-05, 'epoch': 79.4} {'loss': 0.0303, 'learning_rate': 1.0297052502302732e-05, 'epoch': 79.41} {'loss': 0.03, 'learning_rate': 1.0294653822536076e-05, 'epoch': 79.41} {'loss': 0.0308, 'learning_rate': 1.029225514276942e-05, 'epoch': 79.42} {'loss': 0.0295, 'learning_rate': 1.0289856463002765e-05, 'epoch': 79.42} {'loss': 0.0325, 'learning_rate': 1.0287457783236106e-05, 'epoch': 79.43} {'loss': 0.0297, 'learning_rate': 1.028505910346945e-05, 'epoch': 79.43} {'loss': 0.0323, 'learning_rate': 1.0282660423702795e-05, 'epoch': 79.43} {'loss': 0.029, 'learning_rate': 1.0280261743936138e-05, 'epoch': 79.44} {'loss': 0.0328, 'learning_rate': 1.0277863064169482e-05, 'epoch': 79.44} {'loss': 0.0344, 'learning_rate': 1.0275464384402825e-05, 'epoch': 79.45} {'loss': 0.0316, 'learning_rate': 1.027306570463617e-05, 'epoch': 79.45} {'loss': 0.032, 'learning_rate': 1.0270667024869512e-05, 'epoch': 79.46} {'loss': 0.0316, 'learning_rate': 1.0268268345102856e-05, 'epoch': 79.46} {'loss': 0.0322, 'learning_rate': 1.0265869665336199e-05, 'epoch': 79.47} {'loss': 0.0326, 'learning_rate': 1.0263470985569543e-05, 'epoch': 79.47} {'loss': 0.0324, 'learning_rate': 1.0261072305802886e-05, 'epoch': 79.48} {'loss': 0.0298, 'learning_rate': 1.025867362603623e-05, 'epoch': 79.48} {'loss': 0.0325, 'learning_rate': 1.0256274946269575e-05, 'epoch': 79.49} {'loss': 0.0306, 'learning_rate': 1.0253876266502916e-05, 'epoch': 79.49} {'loss': 0.032, 'learning_rate': 1.025147758673626e-05, 'epoch': 79.5} {'loss': 0.031, 'learning_rate': 1.0249078906969605e-05, 'epoch': 79.5} {'loss': 0.0315, 'learning_rate': 1.0246680227202949e-05, 'epoch': 79.51} {'loss': 0.0311, 'learning_rate': 1.0244281547436292e-05, 'epoch': 79.51} {'loss': 0.0328, 'learning_rate': 1.0241882867669635e-05, 'epoch': 79.52} {'loss': 0.0307, 'learning_rate': 1.0239484187902979e-05, 'epoch': 79.52} {'loss': 0.03, 'learning_rate': 1.0237085508136322e-05, 'epoch': 79.53} {'loss': 0.0311, 'learning_rate': 1.0234686828369666e-05, 'epoch': 79.53} {'loss': 0.0337, 'learning_rate': 1.023228814860301e-05, 'epoch': 79.54} {'loss': 0.0319, 'learning_rate': 1.0229889468836353e-05, 'epoch': 79.54} {'loss': 0.0289, 'learning_rate': 1.0227490789069696e-05, 'epoch': 79.55} {'loss': 0.0319, 'learning_rate': 1.022509210930304e-05, 'epoch': 79.55} {'loss': 0.0321, 'learning_rate': 1.0222693429536385e-05, 'epoch': 79.55} {'loss': 0.0327, 'learning_rate': 1.0220294749769727e-05, 'epoch': 79.56} {'loss': 0.0318, 'learning_rate': 1.021789607000307e-05, 'epoch': 79.56} {'loss': 0.0314, 'learning_rate': 1.0215497390236414e-05, 'epoch': 79.57} {'loss': 0.0304, 'learning_rate': 1.0213098710469759e-05, 'epoch': 79.57} {'loss': 0.0306, 'learning_rate': 1.0210700030703102e-05, 'epoch': 79.58} {'loss': 0.0332, 'learning_rate': 1.0208301350936444e-05, 'epoch': 79.58} {'loss': 0.0322, 'learning_rate': 1.0205902671169789e-05, 'epoch': 79.59} {'loss': 0.0314, 'learning_rate': 1.0203503991403131e-05, 'epoch': 79.59} {'loss': 0.0322, 'learning_rate': 1.0201105311636476e-05, 'epoch': 79.6} {'loss': 0.032, 'learning_rate': 1.019870663186982e-05, 'epoch': 79.6} {'loss': 0.031, 'learning_rate': 1.0196307952103163e-05, 'epoch': 79.61} {'loss': 0.0309, 'learning_rate': 1.0193909272336506e-05, 'epoch': 79.61} {'loss': 0.0305, 'learning_rate': 1.019151059256985e-05, 'epoch': 79.62} {'loss': 0.0311, 'learning_rate': 1.0189111912803194e-05, 'epoch': 79.62} {'loss': 0.0317, 'learning_rate': 1.0186713233036537e-05, 'epoch': 79.63} {'loss': 0.0337, 'learning_rate': 1.018431455326988e-05, 'epoch': 79.63} {'loss': 0.0327, 'learning_rate': 1.0181915873503224e-05, 'epoch': 79.64} {'loss': 0.0319, 'learning_rate': 1.0179517193736569e-05, 'epoch': 79.64} {'loss': 0.032, 'learning_rate': 1.0177118513969911e-05, 'epoch': 79.65} {'loss': 0.0311, 'learning_rate': 1.0174719834203256e-05, 'epoch': 79.65} {'loss': 0.0329, 'learning_rate': 1.0172321154436598e-05, 'epoch': 79.66} {'loss': 0.0323, 'learning_rate': 1.0169922474669943e-05, 'epoch': 79.66} {'loss': 0.0314, 'learning_rate': 1.0167523794903285e-05, 'epoch': 79.66} {'loss': 0.0321, 'learning_rate': 1.016512511513663e-05, 'epoch': 79.67} {'loss': 0.0332, 'learning_rate': 1.0162726435369973e-05, 'epoch': 79.67} {'loss': 0.0323, 'learning_rate': 1.0160327755603315e-05, 'epoch': 79.68} {'loss': 0.0299, 'learning_rate': 1.015792907583666e-05, 'epoch': 79.68} {'loss': 0.0305, 'learning_rate': 1.0155530396070004e-05, 'epoch': 79.69} {'loss': 0.03, 'learning_rate': 1.0153131716303348e-05, 'epoch': 79.69} {'loss': 0.0314, 'learning_rate': 1.015073303653669e-05, 'epoch': 79.7} {'loss': 0.0338, 'learning_rate': 1.0148334356770034e-05, 'epoch': 79.7} {'loss': 0.0337, 'learning_rate': 1.0145935677003378e-05, 'epoch': 79.71} {'loss': 0.0309, 'learning_rate': 1.0143536997236721e-05, 'epoch': 79.71} {'loss': 0.0291, 'learning_rate': 1.0141138317470065e-05, 'epoch': 79.72} {'loss': 0.0322, 'learning_rate': 1.0138739637703408e-05, 'epoch': 79.72} {'loss': 0.0299, 'learning_rate': 1.0136340957936752e-05, 'epoch': 79.73} {'loss': 0.0299, 'learning_rate': 1.0133942278170095e-05, 'epoch': 79.73} {'loss': 0.0293, 'learning_rate': 1.013154359840344e-05, 'epoch': 79.74} {'loss': 0.0329, 'learning_rate': 1.0129144918636784e-05, 'epoch': 79.74} {'loss': 0.0303, 'learning_rate': 1.0126746238870127e-05, 'epoch': 79.75} {'loss': 0.0309, 'learning_rate': 1.012434755910347e-05, 'epoch': 79.75} {'loss': 0.0327, 'learning_rate': 1.0121948879336814e-05, 'epoch': 79.76} {'loss': 0.0311, 'learning_rate': 1.0119550199570158e-05, 'epoch': 79.76} {'loss': 0.0311, 'learning_rate': 1.0117151519803499e-05, 'epoch': 79.77} {'loss': 0.0311, 'learning_rate': 1.0114752840036844e-05, 'epoch': 79.77} {'loss': 0.0312, 'learning_rate': 1.0112354160270188e-05, 'epoch': 79.78} {'loss': 0.0317, 'learning_rate': 1.0109955480503532e-05, 'epoch': 79.78} {'loss': 0.0315, 'learning_rate': 1.0107556800736875e-05, 'epoch': 79.78} {'loss': 0.0324, 'learning_rate': 1.0105158120970218e-05, 'epoch': 79.79} {'loss': 0.0315, 'learning_rate': 1.0102759441203562e-05, 'epoch': 79.79} {'loss': 0.0305, 'learning_rate': 1.0100360761436905e-05, 'epoch': 79.8} {'loss': 0.0335, 'learning_rate': 1.009796208167025e-05, 'epoch': 79.8} {'loss': 0.0316, 'learning_rate': 1.0095563401903594e-05, 'epoch': 79.81} {'loss': 0.0321, 'learning_rate': 1.0093164722136936e-05, 'epoch': 79.81} {'loss': 0.0307, 'learning_rate': 1.0090766042370279e-05, 'epoch': 79.82} {'loss': 0.0312, 'learning_rate': 1.0088367362603623e-05, 'epoch': 79.82} {'loss': 0.0324, 'learning_rate': 1.0085968682836968e-05, 'epoch': 79.83} {'loss': 0.0328, 'learning_rate': 1.008357000307031e-05, 'epoch': 79.83} {'loss': 0.0306, 'learning_rate': 1.0081171323303653e-05, 'epoch': 79.84} {'loss': 0.0302, 'learning_rate': 1.0078772643536998e-05, 'epoch': 79.84} {'loss': 0.0296, 'learning_rate': 1.0076373963770342e-05, 'epoch': 79.85} {'loss': 0.0296, 'learning_rate': 1.0073975284003685e-05, 'epoch': 79.85} {'loss': 0.0314, 'learning_rate': 1.0071576604237029e-05, 'epoch': 79.86} {'loss': 0.0326, 'learning_rate': 1.0069177924470372e-05, 'epoch': 79.86} {'loss': 0.0325, 'learning_rate': 1.0066779244703716e-05, 'epoch': 79.87} {'loss': 0.0329, 'learning_rate': 1.0064380564937059e-05, 'epoch': 79.87} {'loss': 0.0303, 'learning_rate': 1.0061981885170403e-05, 'epoch': 79.88} {'loss': 0.0306, 'learning_rate': 1.0059583205403746e-05, 'epoch': 79.88} {'loss': 0.0321, 'learning_rate': 1.0057184525637089e-05, 'epoch': 79.89} {'loss': 0.0301, 'learning_rate': 1.0054785845870433e-05, 'epoch': 79.89} {'loss': 0.0313, 'learning_rate': 1.0052387166103778e-05, 'epoch': 79.9} {'loss': 0.0331, 'learning_rate': 1.004998848633712e-05, 'epoch': 79.9} {'loss': 0.0294, 'learning_rate': 1.0047589806570463e-05, 'epoch': 79.9} {'loss': 0.032, 'learning_rate': 1.0045191126803807e-05, 'epoch': 79.91} {'loss': 0.0303, 'learning_rate': 1.0042792447037152e-05, 'epoch': 79.91} {'loss': 0.0323, 'learning_rate': 1.0040393767270494e-05, 'epoch': 79.92} {'loss': 0.0317, 'learning_rate': 1.0037995087503839e-05, 'epoch': 79.92} {'loss': 0.0314, 'learning_rate': 1.0035596407737182e-05, 'epoch': 79.93} {'loss': 0.0325, 'learning_rate': 1.0033197727970526e-05, 'epoch': 79.93} {'loss': 0.0309, 'learning_rate': 1.0030799048203869e-05, 'epoch': 79.94} {'loss': 0.032, 'learning_rate': 1.0028400368437213e-05, 'epoch': 79.94} {'loss': 0.0322, 'learning_rate': 1.0026001688670557e-05, 'epoch': 79.95} {'loss': 0.0296, 'learning_rate': 1.00236030089039e-05, 'epoch': 79.95} {'loss': 0.0324, 'learning_rate': 1.0021204329137243e-05, 'epoch': 79.96} {'loss': 0.0311, 'learning_rate': 1.0018805649370587e-05, 'epoch': 79.96} {'loss': 0.0298, 'learning_rate': 1.0016406969603932e-05, 'epoch': 79.97} {'loss': 0.0319, 'learning_rate': 1.0014008289837274e-05, 'epoch': 79.97} {'loss': 0.0309, 'learning_rate': 1.0011609610070617e-05, 'epoch': 79.98} {'loss': 0.0311, 'learning_rate': 1.0009210930303961e-05, 'epoch': 79.98} {'loss': 0.0332, 'learning_rate': 1.0006812250537304e-05, 'epoch': 79.99} {'loss': 0.0311, 'learning_rate': 1.0004413570770649e-05, 'epoch': 79.99} {'loss': 0.0317, 'learning_rate': 1.0002014891003991e-05, 'epoch': 80.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.0332452766597271, 'eval_runtime': 748.5476, 'eval_samples_per_second': 556.939, 'eval_steps_per_second': 69.617, 'epoch': 80.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-8337920 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-8337920/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-8337920/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-8233696] due to args.save_total_limit {'loss': 0.0318, 'learning_rate': 9.999616211237336e-06, 'epoch': 80.0} {'loss': 0.033, 'learning_rate': 9.997217531470678e-06, 'epoch': 80.01} {'loss': 0.0307, 'learning_rate': 9.994818851704023e-06, 'epoch': 80.01} {'loss': 0.0313, 'learning_rate': 9.992420171937367e-06, 'epoch': 80.02} {'loss': 0.0311, 'learning_rate': 9.99002149217071e-06, 'epoch': 80.02} {'loss': 0.0311, 'learning_rate': 9.987622812404053e-06, 'epoch': 80.02} {'loss': 0.0309, 'learning_rate': 9.985224132637397e-06, 'epoch': 80.03} {'loss': 0.0296, 'learning_rate': 9.982825452870741e-06, 'epoch': 80.03} {'loss': 0.0309, 'learning_rate': 9.980426773104084e-06, 'epoch': 80.04} {'loss': 0.0326, 'learning_rate': 9.978028093337427e-06, 'epoch': 80.04} {'loss': 0.0304, 'learning_rate': 9.975629413570771e-06, 'epoch': 80.05} {'loss': 0.0295, 'learning_rate': 9.973230733804116e-06, 'epoch': 80.05} {'loss': 0.0305, 'learning_rate': 9.970832054037458e-06, 'epoch': 80.06} {'loss': 0.0312, 'learning_rate': 9.968433374270803e-06, 'epoch': 80.06} {'loss': 0.0297, 'learning_rate': 9.966034694504145e-06, 'epoch': 80.07} {'loss': 0.031, 'learning_rate': 9.963636014737488e-06, 'epoch': 80.07} {'loss': 0.0335, 'learning_rate': 9.961237334970832e-06, 'epoch': 80.08} {'loss': 0.0311, 'learning_rate': 9.958838655204177e-06, 'epoch': 80.08} {'loss': 0.0318, 'learning_rate': 9.95643997543752e-06, 'epoch': 80.09} {'loss': 0.0309, 'learning_rate': 9.954041295670862e-06, 'epoch': 80.09} {'loss': 0.0325, 'learning_rate': 9.951642615904207e-06, 'epoch': 80.1} {'loss': 0.03, 'learning_rate': 9.949243936137551e-06, 'epoch': 80.1} {'loss': 0.0322, 'learning_rate': 9.946845256370894e-06, 'epoch': 80.11} {'loss': 0.0327, 'learning_rate': 9.944446576604236e-06, 'epoch': 80.11} {'loss': 0.0308, 'learning_rate': 9.942047896837581e-06, 'epoch': 80.12} {'loss': 0.0297, 'learning_rate': 9.939649217070925e-06, 'epoch': 80.12} {'loss': 0.0302, 'learning_rate': 9.937250537304268e-06, 'epoch': 80.13} {'loss': 0.0314, 'learning_rate': 9.934851857537612e-06, 'epoch': 80.13} {'loss': 0.0301, 'learning_rate': 9.932453177770955e-06, 'epoch': 80.14} {'loss': 0.0307, 'learning_rate': 9.9300544980043e-06, 'epoch': 80.14} {'loss': 0.0307, 'learning_rate': 9.927655818237642e-06, 'epoch': 80.14} {'loss': 0.0311, 'learning_rate': 9.925257138470987e-06, 'epoch': 80.15} {'loss': 0.03, 'learning_rate': 9.922858458704331e-06, 'epoch': 80.15} {'loss': 0.0297, 'learning_rate': 9.920459778937672e-06, 'epoch': 80.16} {'loss': 0.0313, 'learning_rate': 9.918061099171016e-06, 'epoch': 80.16} {'loss': 0.03, 'learning_rate': 9.91566241940436e-06, 'epoch': 80.17} {'loss': 0.0311, 'learning_rate': 9.913263739637703e-06, 'epoch': 80.17} {'loss': 0.0306, 'learning_rate': 9.910865059871048e-06, 'epoch': 80.18} {'loss': 0.0305, 'learning_rate': 9.90846638010439e-06, 'epoch': 80.18} {'loss': 0.0298, 'learning_rate': 9.906067700337735e-06, 'epoch': 80.19} {'loss': 0.0318, 'learning_rate': 9.903669020571078e-06, 'epoch': 80.19} {'loss': 0.0313, 'learning_rate': 9.901270340804422e-06, 'epoch': 80.2} {'loss': 0.0313, 'learning_rate': 9.898871661037765e-06, 'epoch': 80.2} {'loss': 0.0307, 'learning_rate': 9.89647298127111e-06, 'epoch': 80.21} {'loss': 0.0326, 'learning_rate': 9.894074301504452e-06, 'epoch': 80.21} {'loss': 0.0306, 'learning_rate': 9.891675621737796e-06, 'epoch': 80.22} {'loss': 0.0319, 'learning_rate': 9.88927694197114e-06, 'epoch': 80.22} {'loss': 0.0315, 'learning_rate': 9.886878262204483e-06, 'epoch': 80.23} {'loss': 0.0321, 'learning_rate': 9.884479582437826e-06, 'epoch': 80.23} {'loss': 0.0327, 'learning_rate': 9.88208090267117e-06, 'epoch': 80.24} {'loss': 0.0293, 'learning_rate': 9.879682222904515e-06, 'epoch': 80.24} {'loss': 0.0299, 'learning_rate': 9.877283543137858e-06, 'epoch': 80.25} {'loss': 0.0306, 'learning_rate': 9.8748848633712e-06, 'epoch': 80.25} {'loss': 0.0291, 'learning_rate': 9.872486183604545e-06, 'epoch': 80.26} {'loss': 0.0327, 'learning_rate': 9.870087503837887e-06, 'epoch': 80.26} {'loss': 0.0302, 'learning_rate': 9.867688824071232e-06, 'epoch': 80.26} {'loss': 0.0303, 'learning_rate': 9.865290144304576e-06, 'epoch': 80.27} {'loss': 0.0314, 'learning_rate': 9.862891464537919e-06, 'epoch': 80.27} {'loss': 0.0312, 'learning_rate': 9.860492784771262e-06, 'epoch': 80.28} {'loss': 0.0314, 'learning_rate': 9.858094105004606e-06, 'epoch': 80.28} {'loss': 0.0308, 'learning_rate': 9.85569542523795e-06, 'epoch': 80.29} {'loss': 0.0325, 'learning_rate': 9.853296745471293e-06, 'epoch': 80.29} {'loss': 0.0304, 'learning_rate': 9.850898065704636e-06, 'epoch': 80.3} {'loss': 0.0323, 'learning_rate': 9.84849938593798e-06, 'epoch': 80.3} {'loss': 0.0312, 'learning_rate': 9.846100706171325e-06, 'epoch': 80.31} {'loss': 0.0306, 'learning_rate': 9.843702026404667e-06, 'epoch': 80.31} {'loss': 0.0309, 'learning_rate': 9.84130334663801e-06, 'epoch': 80.32} {'loss': 0.0309, 'learning_rate': 9.838904666871354e-06, 'epoch': 80.32} {'loss': 0.0307, 'learning_rate': 9.836505987104699e-06, 'epoch': 80.33} {'loss': 0.0307, 'learning_rate': 9.834107307338041e-06, 'epoch': 80.33} {'loss': 0.0319, 'learning_rate': 9.831708627571386e-06, 'epoch': 80.34} {'loss': 0.0304, 'learning_rate': 9.829309947804729e-06, 'epoch': 80.34} {'loss': 0.0315, 'learning_rate': 9.826911268038071e-06, 'epoch': 80.35} {'loss': 0.0314, 'learning_rate': 9.824512588271416e-06, 'epoch': 80.35} {'loss': 0.0301, 'learning_rate': 9.82211390850476e-06, 'epoch': 80.36} {'loss': 0.0323, 'learning_rate': 9.819715228738104e-06, 'epoch': 80.36} {'loss': 0.0322, 'learning_rate': 9.817316548971445e-06, 'epoch': 80.37} {'loss': 0.0307, 'learning_rate': 9.81491786920479e-06, 'epoch': 80.37} {'loss': 0.0342, 'learning_rate': 9.812519189438134e-06, 'epoch': 80.37} {'loss': 0.0313, 'learning_rate': 9.810120509671477e-06, 'epoch': 80.38} {'loss': 0.0287, 'learning_rate': 9.807721829904821e-06, 'epoch': 80.38} {'loss': 0.0311, 'learning_rate': 9.805323150138164e-06, 'epoch': 80.39} {'loss': 0.0324, 'learning_rate': 9.802924470371508e-06, 'epoch': 80.39} {'loss': 0.0308, 'learning_rate': 9.800525790604851e-06, 'epoch': 80.4} {'loss': 0.0298, 'learning_rate': 9.798127110838196e-06, 'epoch': 80.4} {'loss': 0.0323, 'learning_rate': 9.795728431071538e-06, 'epoch': 80.41} {'loss': 0.0296, 'learning_rate': 9.793329751304883e-06, 'epoch': 80.41} {'loss': 0.0308, 'learning_rate': 9.790931071538225e-06, 'epoch': 80.42} {'loss': 0.0313, 'learning_rate': 9.78853239177157e-06, 'epoch': 80.42} {'loss': 0.0301, 'learning_rate': 9.786133712004914e-06, 'epoch': 80.43} {'loss': 0.0301, 'learning_rate': 9.783735032238255e-06, 'epoch': 80.43} {'loss': 0.0297, 'learning_rate': 9.7813363524716e-06, 'epoch': 80.44} {'loss': 0.0291, 'learning_rate': 9.778937672704944e-06, 'epoch': 80.44} {'loss': 0.0311, 'learning_rate': 9.776538992938287e-06, 'epoch': 80.45} {'loss': 0.0309, 'learning_rate': 9.774140313171631e-06, 'epoch': 80.45} {'loss': 0.0305, 'learning_rate': 9.771741633404974e-06, 'epoch': 80.46} {'loss': 0.0298, 'learning_rate': 9.769342953638318e-06, 'epoch': 80.46} {'loss': 0.0294, 'learning_rate': 9.766944273871661e-06, 'epoch': 80.47} {'loss': 0.034, 'learning_rate': 9.764545594105005e-06, 'epoch': 80.47} {'loss': 0.0318, 'learning_rate': 9.76214691433835e-06, 'epoch': 80.48} {'loss': 0.0317, 'learning_rate': 9.759748234571692e-06, 'epoch': 80.48} {'loss': 0.0324, 'learning_rate': 9.757349554805035e-06, 'epoch': 80.49} {'loss': 0.0309, 'learning_rate': 9.75495087503838e-06, 'epoch': 80.49} {'loss': 0.0311, 'learning_rate': 9.752552195271724e-06, 'epoch': 80.49} {'loss': 0.0315, 'learning_rate': 9.750153515505067e-06, 'epoch': 80.5} {'loss': 0.0298, 'learning_rate': 9.74775483573841e-06, 'epoch': 80.5} {'loss': 0.0303, 'learning_rate': 9.745356155971754e-06, 'epoch': 80.51} {'loss': 0.0318, 'learning_rate': 9.742957476205098e-06, 'epoch': 80.51} {'loss': 0.0309, 'learning_rate': 9.74055879643844e-06, 'epoch': 80.52} {'loss': 0.0312, 'learning_rate': 9.738160116671783e-06, 'epoch': 80.52} {'loss': 0.03, 'learning_rate': 9.735761436905128e-06, 'epoch': 80.53} {'loss': 0.0326, 'learning_rate': 9.73336275713847e-06, 'epoch': 80.53} {'loss': 0.0314, 'learning_rate': 9.730964077371815e-06, 'epoch': 80.54} {'loss': 0.031, 'learning_rate': 9.72856539760516e-06, 'epoch': 80.54} {'loss': 0.0316, 'learning_rate': 9.726166717838502e-06, 'epoch': 80.55} {'loss': 0.0311, 'learning_rate': 9.723768038071845e-06, 'epoch': 80.55} {'loss': 0.0324, 'learning_rate': 9.72136935830519e-06, 'epoch': 80.56} {'loss': 0.0316, 'learning_rate': 9.718970678538534e-06, 'epoch': 80.56} {'loss': 0.0303, 'learning_rate': 9.716571998771876e-06, 'epoch': 80.57} {'loss': 0.0316, 'learning_rate': 9.714173319005219e-06, 'epoch': 80.57} {'loss': 0.0302, 'learning_rate': 9.711774639238563e-06, 'epoch': 80.58} {'loss': 0.0302, 'learning_rate': 9.709375959471908e-06, 'epoch': 80.58} {'loss': 0.0321, 'learning_rate': 9.70697727970525e-06, 'epoch': 80.59} {'loss': 0.032, 'learning_rate': 9.704578599938595e-06, 'epoch': 80.59} {'loss': 0.0303, 'learning_rate': 9.702179920171938e-06, 'epoch': 80.6} {'loss': 0.0323, 'learning_rate': 9.699781240405282e-06, 'epoch': 80.6} {'loss': 0.0311, 'learning_rate': 9.697382560638625e-06, 'epoch': 80.61} {'loss': 0.0315, 'learning_rate': 9.694983880871969e-06, 'epoch': 80.61} {'loss': 0.03, 'learning_rate': 9.692585201105312e-06, 'epoch': 80.61} {'loss': 0.0309, 'learning_rate': 9.690186521338654e-06, 'epoch': 80.62} {'loss': 0.031, 'learning_rate': 9.687787841571999e-06, 'epoch': 80.62} {'loss': 0.0312, 'learning_rate': 9.685389161805343e-06, 'epoch': 80.63} {'loss': 0.0304, 'learning_rate': 9.682990482038688e-06, 'epoch': 80.63} {'loss': 0.0306, 'learning_rate': 9.680591802272029e-06, 'epoch': 80.64} {'loss': 0.0305, 'learning_rate': 9.678193122505373e-06, 'epoch': 80.64} {'loss': 0.031, 'learning_rate': 9.675794442738717e-06, 'epoch': 80.65} {'loss': 0.0302, 'learning_rate': 9.67339576297206e-06, 'epoch': 80.65} {'loss': 0.0315, 'learning_rate': 9.670997083205405e-06, 'epoch': 80.66} {'loss': 0.0321, 'learning_rate': 9.668598403438747e-06, 'epoch': 80.66} {'loss': 0.0305, 'learning_rate': 9.666199723672092e-06, 'epoch': 80.67} {'loss': 0.0315, 'learning_rate': 9.663801043905434e-06, 'epoch': 80.67} {'loss': 0.0302, 'learning_rate': 9.661402364138779e-06, 'epoch': 80.68} {'loss': 0.0312, 'learning_rate': 9.659003684372123e-06, 'epoch': 80.68} {'loss': 0.0301, 'learning_rate': 9.656605004605466e-06, 'epoch': 80.69} {'loss': 0.0312, 'learning_rate': 9.654206324838809e-06, 'epoch': 80.69} {'loss': 0.0312, 'learning_rate': 9.651807645072153e-06, 'epoch': 80.7} {'loss': 0.0311, 'learning_rate': 9.649408965305497e-06, 'epoch': 80.7} {'loss': 0.0305, 'learning_rate': 9.64701028553884e-06, 'epoch': 80.71} {'loss': 0.032, 'learning_rate': 9.644611605772183e-06, 'epoch': 80.71} {'loss': 0.0303, 'learning_rate': 9.642212926005527e-06, 'epoch': 80.72} {'loss': 0.0316, 'learning_rate': 9.639814246238872e-06, 'epoch': 80.72} {'loss': 0.0298, 'learning_rate': 9.637415566472214e-06, 'epoch': 80.73} {'loss': 0.031, 'learning_rate': 9.635016886705557e-06, 'epoch': 80.73} {'loss': 0.031, 'learning_rate': 9.632618206938901e-06, 'epoch': 80.73} {'loss': 0.0313, 'learning_rate': 9.630219527172244e-06, 'epoch': 80.74} {'loss': 0.0301, 'learning_rate': 9.627820847405588e-06, 'epoch': 80.74} {'loss': 0.03, 'learning_rate': 9.625422167638933e-06, 'epoch': 80.75} {'loss': 0.0314, 'learning_rate': 9.623023487872276e-06, 'epoch': 80.75} {'loss': 0.0303, 'learning_rate': 9.620624808105618e-06, 'epoch': 80.76} {'loss': 0.0317, 'learning_rate': 9.618226128338963e-06, 'epoch': 80.76} {'loss': 0.0305, 'learning_rate': 9.615827448572307e-06, 'epoch': 80.77} {'loss': 0.031, 'learning_rate': 9.61342876880565e-06, 'epoch': 80.77} {'loss': 0.0312, 'learning_rate': 9.611030089038992e-06, 'epoch': 80.78} {'loss': 0.0304, 'learning_rate': 9.608631409272337e-06, 'epoch': 80.78} {'loss': 0.032, 'learning_rate': 9.606232729505681e-06, 'epoch': 80.79} {'loss': 0.0304, 'learning_rate': 9.603834049739024e-06, 'epoch': 80.79} {'loss': 0.0302, 'learning_rate': 9.601435369972368e-06, 'epoch': 80.8} {'loss': 0.0302, 'learning_rate': 9.599036690205711e-06, 'epoch': 80.8} {'loss': 0.0311, 'learning_rate': 9.596638010439055e-06, 'epoch': 80.81} {'loss': 0.0323, 'learning_rate': 9.594239330672398e-06, 'epoch': 80.81} {'loss': 0.0298, 'learning_rate': 9.591840650905743e-06, 'epoch': 80.82} {'loss': 0.0309, 'learning_rate': 9.589441971139085e-06, 'epoch': 80.82} {'loss': 0.0324, 'learning_rate': 9.587043291372428e-06, 'epoch': 80.83} {'loss': 0.0337, 'learning_rate': 9.584644611605772e-06, 'epoch': 80.83} {'loss': 0.0312, 'learning_rate': 9.582245931839117e-06, 'epoch': 80.84} {'loss': 0.0294, 'learning_rate': 9.57984725207246e-06, 'epoch': 80.84} {'loss': 0.0319, 'learning_rate': 9.577448572305802e-06, 'epoch': 80.85} {'loss': 0.0328, 'learning_rate': 9.575049892539147e-06, 'epoch': 80.85} {'loss': 0.0319, 'learning_rate': 9.572651212772491e-06, 'epoch': 80.85} {'loss': 0.0304, 'learning_rate': 9.570252533005834e-06, 'epoch': 80.86} {'loss': 0.0314, 'learning_rate': 9.567853853239178e-06, 'epoch': 80.86} {'loss': 0.0301, 'learning_rate': 9.56545517347252e-06, 'epoch': 80.87} {'loss': 0.031, 'learning_rate': 9.563056493705865e-06, 'epoch': 80.87} {'loss': 0.03, 'learning_rate': 9.560657813939208e-06, 'epoch': 80.88} {'loss': 0.0304, 'learning_rate': 9.558259134172552e-06, 'epoch': 80.88} {'loss': 0.0316, 'learning_rate': 9.555860454405897e-06, 'epoch': 80.89} {'loss': 0.0296, 'learning_rate': 9.553461774639238e-06, 'epoch': 80.89} {'loss': 0.0299, 'learning_rate': 9.551063094872582e-06, 'epoch': 80.9} {'loss': 0.0322, 'learning_rate': 9.548664415105926e-06, 'epoch': 80.9} {'loss': 0.032, 'learning_rate': 9.546265735339271e-06, 'epoch': 80.91} {'loss': 0.0295, 'learning_rate': 9.543867055572614e-06, 'epoch': 80.91} {'loss': 0.0306, 'learning_rate': 9.541468375805956e-06, 'epoch': 80.92} {'loss': 0.0313, 'learning_rate': 9.5390696960393e-06, 'epoch': 80.92} {'loss': 0.0326, 'learning_rate': 9.536671016272643e-06, 'epoch': 80.93} {'loss': 0.0295, 'learning_rate': 9.534272336505988e-06, 'epoch': 80.93} {'loss': 0.0311, 'learning_rate': 9.53187365673933e-06, 'epoch': 80.94} {'loss': 0.0327, 'learning_rate': 9.529474976972675e-06, 'epoch': 80.94} {'loss': 0.0315, 'learning_rate': 9.527076297206018e-06, 'epoch': 80.95} {'loss': 0.0304, 'learning_rate': 9.524677617439362e-06, 'epoch': 80.95} {'loss': 0.0307, 'learning_rate': 9.522278937672706e-06, 'epoch': 80.96} {'loss': 0.0325, 'learning_rate': 9.519880257906049e-06, 'epoch': 80.96} {'loss': 0.0305, 'learning_rate': 9.517481578139392e-06, 'epoch': 80.97} {'loss': 0.029, 'learning_rate': 9.515082898372736e-06, 'epoch': 80.97} {'loss': 0.0297, 'learning_rate': 9.51268421860608e-06, 'epoch': 80.97} {'loss': 0.0299, 'learning_rate': 9.510285538839423e-06, 'epoch': 80.98} {'loss': 0.0302, 'learning_rate': 9.507886859072766e-06, 'epoch': 80.98} {'loss': 0.0317, 'learning_rate': 9.50548817930611e-06, 'epoch': 80.99} {'loss': 0.0304, 'learning_rate': 9.503089499539455e-06, 'epoch': 80.99} {'loss': 0.0289, 'learning_rate': 9.500690819772797e-06, 'epoch': 81.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.032721616327762604, 'eval_runtime': 742.1157, 'eval_samples_per_second': 561.765, 'eval_steps_per_second': 70.221, 'epoch': 81.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-8442144 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-8442144/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-8442144/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-8337920] due to args.save_total_limit {'loss': 0.03, 'learning_rate': 9.498292140006142e-06, 'epoch': 81.0} {'loss': 0.0305, 'learning_rate': 9.495893460239485e-06, 'epoch': 81.01} {'loss': 0.0303, 'learning_rate': 9.493494780472827e-06, 'epoch': 81.01} {'loss': 0.0307, 'learning_rate': 9.491096100706172e-06, 'epoch': 81.02} {'loss': 0.0314, 'learning_rate': 9.488697420939516e-06, 'epoch': 81.02} {'loss': 0.0301, 'learning_rate': 9.486298741172859e-06, 'epoch': 81.03} {'loss': 0.0303, 'learning_rate': 9.483900061406201e-06, 'epoch': 81.03} {'loss': 0.0303, 'learning_rate': 9.481501381639546e-06, 'epoch': 81.04} {'loss': 0.0288, 'learning_rate': 9.47910270187289e-06, 'epoch': 81.04} {'loss': 0.0312, 'learning_rate': 9.476704022106233e-06, 'epoch': 81.05} {'loss': 0.0305, 'learning_rate': 9.474305342339576e-06, 'epoch': 81.05} {'loss': 0.0308, 'learning_rate': 9.47190666257292e-06, 'epoch': 81.06} {'loss': 0.0302, 'learning_rate': 9.469507982806264e-06, 'epoch': 81.06} {'loss': 0.0305, 'learning_rate': 9.467109303039607e-06, 'epoch': 81.07} {'loss': 0.031, 'learning_rate': 9.464710623272952e-06, 'epoch': 81.07} {'loss': 0.0295, 'learning_rate': 9.462311943506294e-06, 'epoch': 81.08} {'loss': 0.0302, 'learning_rate': 9.459913263739639e-06, 'epoch': 81.08} {'loss': 0.0327, 'learning_rate': 9.457514583972981e-06, 'epoch': 81.08} {'loss': 0.0298, 'learning_rate': 9.455115904206326e-06, 'epoch': 81.09} {'loss': 0.0329, 'learning_rate': 9.45271722443967e-06, 'epoch': 81.09} {'loss': 0.0301, 'learning_rate': 9.450318544673011e-06, 'epoch': 81.1} {'loss': 0.0283, 'learning_rate': 9.447919864906356e-06, 'epoch': 81.1} {'loss': 0.0301, 'learning_rate': 9.4455211851397e-06, 'epoch': 81.11} {'loss': 0.0298, 'learning_rate': 9.443122505373043e-06, 'epoch': 81.11} {'loss': 0.0298, 'learning_rate': 9.440723825606387e-06, 'epoch': 81.12} {'loss': 0.0289, 'learning_rate': 9.43832514583973e-06, 'epoch': 81.12} {'loss': 0.0302, 'learning_rate': 9.435926466073074e-06, 'epoch': 81.13} {'loss': 0.0305, 'learning_rate': 9.433527786306417e-06, 'epoch': 81.13} {'loss': 0.0304, 'learning_rate': 9.431129106539761e-06, 'epoch': 81.14} {'loss': 0.0307, 'learning_rate': 9.428730426773104e-06, 'epoch': 81.14} {'loss': 0.0317, 'learning_rate': 9.426331747006448e-06, 'epoch': 81.15} {'loss': 0.0302, 'learning_rate': 9.423933067239791e-06, 'epoch': 81.15} {'loss': 0.0287, 'learning_rate': 9.421534387473135e-06, 'epoch': 81.16} {'loss': 0.0319, 'learning_rate': 9.41913570770648e-06, 'epoch': 81.16} {'loss': 0.0301, 'learning_rate': 9.416737027939823e-06, 'epoch': 81.17} {'loss': 0.0308, 'learning_rate': 9.414338348173165e-06, 'epoch': 81.17} {'loss': 0.03, 'learning_rate': 9.41193966840651e-06, 'epoch': 81.18} {'loss': 0.0303, 'learning_rate': 9.409540988639854e-06, 'epoch': 81.18} {'loss': 0.0306, 'learning_rate': 9.407142308873197e-06, 'epoch': 81.19} {'loss': 0.0305, 'learning_rate': 9.40474362910654e-06, 'epoch': 81.19} {'loss': 0.0315, 'learning_rate': 9.402344949339884e-06, 'epoch': 81.2} {'loss': 0.0304, 'learning_rate': 9.399946269573227e-06, 'epoch': 81.2} {'loss': 0.0291, 'learning_rate': 9.397547589806571e-06, 'epoch': 81.2} {'loss': 0.0297, 'learning_rate': 9.395148910039915e-06, 'epoch': 81.21} {'loss': 0.0305, 'learning_rate': 9.392750230273258e-06, 'epoch': 81.21} {'loss': 0.0313, 'learning_rate': 9.3903515505066e-06, 'epoch': 81.22} {'loss': 0.0285, 'learning_rate': 9.387952870739945e-06, 'epoch': 81.22} {'loss': 0.0288, 'learning_rate': 9.38555419097329e-06, 'epoch': 81.23} {'loss': 0.0305, 'learning_rate': 9.383155511206632e-06, 'epoch': 81.23} {'loss': 0.0294, 'learning_rate': 9.380756831439975e-06, 'epoch': 81.24} {'loss': 0.0311, 'learning_rate': 9.37835815167332e-06, 'epoch': 81.24} {'loss': 0.0305, 'learning_rate': 9.375959471906664e-06, 'epoch': 81.25} {'loss': 0.0309, 'learning_rate': 9.373560792140006e-06, 'epoch': 81.25} {'loss': 0.0295, 'learning_rate': 9.37116211237335e-06, 'epoch': 81.26} {'loss': 0.0302, 'learning_rate': 9.368763432606694e-06, 'epoch': 81.26} {'loss': 0.0305, 'learning_rate': 9.366364752840038e-06, 'epoch': 81.27} {'loss': 0.0299, 'learning_rate': 9.36396607307338e-06, 'epoch': 81.27} {'loss': 0.0315, 'learning_rate': 9.361567393306725e-06, 'epoch': 81.28} {'loss': 0.031, 'learning_rate': 9.359168713540068e-06, 'epoch': 81.28} {'loss': 0.0302, 'learning_rate': 9.35677003377341e-06, 'epoch': 81.29} {'loss': 0.0303, 'learning_rate': 9.354371354006755e-06, 'epoch': 81.29} {'loss': 0.0309, 'learning_rate': 9.3519726742401e-06, 'epoch': 81.3} {'loss': 0.0311, 'learning_rate': 9.349573994473442e-06, 'epoch': 81.3} {'loss': 0.03, 'learning_rate': 9.347175314706785e-06, 'epoch': 81.31} {'loss': 0.0303, 'learning_rate': 9.344776634940129e-06, 'epoch': 81.31} {'loss': 0.03, 'learning_rate': 9.342377955173473e-06, 'epoch': 81.32} {'loss': 0.0293, 'learning_rate': 9.339979275406816e-06, 'epoch': 81.32} {'loss': 0.0315, 'learning_rate': 9.33758059564016e-06, 'epoch': 81.32} {'loss': 0.0296, 'learning_rate': 9.335181915873503e-06, 'epoch': 81.33} {'loss': 0.031, 'learning_rate': 9.332783236106848e-06, 'epoch': 81.33} {'loss': 0.0297, 'learning_rate': 9.33038455634019e-06, 'epoch': 81.34} {'loss': 0.0314, 'learning_rate': 9.327985876573535e-06, 'epoch': 81.34} {'loss': 0.0305, 'learning_rate': 9.325587196806877e-06, 'epoch': 81.35} {'loss': 0.0325, 'learning_rate': 9.323188517040222e-06, 'epoch': 81.35} {'loss': 0.0304, 'learning_rate': 9.320789837273565e-06, 'epoch': 81.36} {'loss': 0.0311, 'learning_rate': 9.318391157506909e-06, 'epoch': 81.36} {'loss': 0.0292, 'learning_rate': 9.315992477740253e-06, 'epoch': 81.37} {'loss': 0.0298, 'learning_rate': 9.313593797973594e-06, 'epoch': 81.37} {'loss': 0.0307, 'learning_rate': 9.311195118206939e-06, 'epoch': 81.38} {'loss': 0.0303, 'learning_rate': 9.308796438440283e-06, 'epoch': 81.38} {'loss': 0.0327, 'learning_rate': 9.306397758673626e-06, 'epoch': 81.39} {'loss': 0.0311, 'learning_rate': 9.30399907890697e-06, 'epoch': 81.39} {'loss': 0.0286, 'learning_rate': 9.301600399140313e-06, 'epoch': 81.4} {'loss': 0.0295, 'learning_rate': 9.299201719373657e-06, 'epoch': 81.4} {'loss': 0.0315, 'learning_rate': 9.296803039607e-06, 'epoch': 81.41} {'loss': 0.0316, 'learning_rate': 9.294404359840344e-06, 'epoch': 81.41} {'loss': 0.0307, 'learning_rate': 9.292005680073689e-06, 'epoch': 81.42} {'loss': 0.03, 'learning_rate': 9.289607000307032e-06, 'epoch': 81.42} {'loss': 0.031, 'learning_rate': 9.287208320540374e-06, 'epoch': 81.43} {'loss': 0.0288, 'learning_rate': 9.284809640773719e-06, 'epoch': 81.43} {'loss': 0.0295, 'learning_rate': 9.282410961007063e-06, 'epoch': 81.44} {'loss': 0.0296, 'learning_rate': 9.280012281240406e-06, 'epoch': 81.44} {'loss': 0.0283, 'learning_rate': 9.277613601473749e-06, 'epoch': 81.44} {'loss': 0.0329, 'learning_rate': 9.275214921707093e-06, 'epoch': 81.45} {'loss': 0.0309, 'learning_rate': 9.272816241940437e-06, 'epoch': 81.45} {'loss': 0.0303, 'learning_rate': 9.27041756217378e-06, 'epoch': 81.46} {'loss': 0.0314, 'learning_rate': 9.268018882407123e-06, 'epoch': 81.46} {'loss': 0.0305, 'learning_rate': 9.265620202640467e-06, 'epoch': 81.47} {'loss': 0.0303, 'learning_rate': 9.26322152287381e-06, 'epoch': 81.47} {'loss': 0.0307, 'learning_rate': 9.260822843107154e-06, 'epoch': 81.48} {'loss': 0.0296, 'learning_rate': 9.258424163340499e-06, 'epoch': 81.48} {'loss': 0.0304, 'learning_rate': 9.256025483573841e-06, 'epoch': 81.49} {'loss': 0.0304, 'learning_rate': 9.253626803807184e-06, 'epoch': 81.49} {'loss': 0.0305, 'learning_rate': 9.251228124040528e-06, 'epoch': 81.5} {'loss': 0.0306, 'learning_rate': 9.248829444273873e-06, 'epoch': 81.5} {'loss': 0.0287, 'learning_rate': 9.246430764507216e-06, 'epoch': 81.51} {'loss': 0.0299, 'learning_rate': 9.244032084740558e-06, 'epoch': 81.51} {'loss': 0.031, 'learning_rate': 9.241633404973903e-06, 'epoch': 81.52} {'loss': 0.031, 'learning_rate': 9.239234725207247e-06, 'epoch': 81.52} {'loss': 0.0305, 'learning_rate': 9.23683604544059e-06, 'epoch': 81.53} {'loss': 0.0305, 'learning_rate': 9.234437365673934e-06, 'epoch': 81.53} {'loss': 0.0304, 'learning_rate': 9.232038685907277e-06, 'epoch': 81.54} {'loss': 0.0299, 'learning_rate': 9.229640006140621e-06, 'epoch': 81.54} {'loss': 0.0325, 'learning_rate': 9.227241326373964e-06, 'epoch': 81.55} {'loss': 0.03, 'learning_rate': 9.224842646607308e-06, 'epoch': 81.55} {'loss': 0.0314, 'learning_rate': 9.222443966840653e-06, 'epoch': 81.56} {'loss': 0.0324, 'learning_rate': 9.220045287073994e-06, 'epoch': 81.56} {'loss': 0.0298, 'learning_rate': 9.217646607307338e-06, 'epoch': 81.56} {'loss': 0.0326, 'learning_rate': 9.215247927540683e-06, 'epoch': 81.57} {'loss': 0.0308, 'learning_rate': 9.212849247774027e-06, 'epoch': 81.57} {'loss': 0.0306, 'learning_rate': 9.210450568007368e-06, 'epoch': 81.58} {'loss': 0.0301, 'learning_rate': 9.208051888240712e-06, 'epoch': 81.58} {'loss': 0.0327, 'learning_rate': 9.205653208474057e-06, 'epoch': 81.59} {'loss': 0.03, 'learning_rate': 9.2032545287074e-06, 'epoch': 81.59} {'loss': 0.0308, 'learning_rate': 9.200855848940744e-06, 'epoch': 81.6} {'loss': 0.0312, 'learning_rate': 9.198457169174087e-06, 'epoch': 81.6} {'loss': 0.0293, 'learning_rate': 9.196058489407431e-06, 'epoch': 81.61} {'loss': 0.0317, 'learning_rate': 9.193659809640774e-06, 'epoch': 81.61} {'loss': 0.031, 'learning_rate': 9.191261129874118e-06, 'epoch': 81.62} {'loss': 0.0313, 'learning_rate': 9.188862450107462e-06, 'epoch': 81.62} {'loss': 0.0296, 'learning_rate': 9.186463770340805e-06, 'epoch': 81.63} {'loss': 0.033, 'learning_rate': 9.184065090574148e-06, 'epoch': 81.63} {'loss': 0.0314, 'learning_rate': 9.181666410807492e-06, 'epoch': 81.64} {'loss': 0.0303, 'learning_rate': 9.179267731040837e-06, 'epoch': 81.64} {'loss': 0.0289, 'learning_rate': 9.17686905127418e-06, 'epoch': 81.65} {'loss': 0.0316, 'learning_rate': 9.174470371507522e-06, 'epoch': 81.65} {'loss': 0.0301, 'learning_rate': 9.172071691740866e-06, 'epoch': 81.66} {'loss': 0.0304, 'learning_rate': 9.16967301197421e-06, 'epoch': 81.66} {'loss': 0.0302, 'learning_rate': 9.167274332207554e-06, 'epoch': 81.67} {'loss': 0.0296, 'learning_rate': 9.164875652440896e-06, 'epoch': 81.67} {'loss': 0.0307, 'learning_rate': 9.16247697267424e-06, 'epoch': 81.68} {'loss': 0.0308, 'learning_rate': 9.160078292907583e-06, 'epoch': 81.68} {'loss': 0.0299, 'learning_rate': 9.157679613140928e-06, 'epoch': 81.68} {'loss': 0.0317, 'learning_rate': 9.155280933374272e-06, 'epoch': 81.69} {'loss': 0.0306, 'learning_rate': 9.152882253607615e-06, 'epoch': 81.69} {'loss': 0.0311, 'learning_rate': 9.150483573840958e-06, 'epoch': 81.7} {'loss': 0.0299, 'learning_rate': 9.148084894074302e-06, 'epoch': 81.7} {'loss': 0.0298, 'learning_rate': 9.145686214307646e-06, 'epoch': 81.71} {'loss': 0.0323, 'learning_rate': 9.143287534540989e-06, 'epoch': 81.71} {'loss': 0.0317, 'learning_rate': 9.140888854774332e-06, 'epoch': 81.72} {'loss': 0.0316, 'learning_rate': 9.138490175007676e-06, 'epoch': 81.72} {'loss': 0.0298, 'learning_rate': 9.13609149524102e-06, 'epoch': 81.73} {'loss': 0.0313, 'learning_rate': 9.133692815474363e-06, 'epoch': 81.73} {'loss': 0.0309, 'learning_rate': 9.131294135707708e-06, 'epoch': 81.74} {'loss': 0.0301, 'learning_rate': 9.12889545594105e-06, 'epoch': 81.74} {'loss': 0.029, 'learning_rate': 9.126496776174393e-06, 'epoch': 81.75} {'loss': 0.0292, 'learning_rate': 9.124098096407737e-06, 'epoch': 81.75} {'loss': 0.0308, 'learning_rate': 9.121699416641082e-06, 'epoch': 81.76} {'loss': 0.0288, 'learning_rate': 9.119300736874426e-06, 'epoch': 81.76} {'loss': 0.0325, 'learning_rate': 9.116902057107767e-06, 'epoch': 81.77} {'loss': 0.0302, 'learning_rate': 9.114503377341112e-06, 'epoch': 81.77} {'loss': 0.0296, 'learning_rate': 9.112104697574456e-06, 'epoch': 81.78} {'loss': 0.0321, 'learning_rate': 9.109706017807799e-06, 'epoch': 81.78} {'loss': 0.0298, 'learning_rate': 9.107307338041141e-06, 'epoch': 81.79} {'loss': 0.0305, 'learning_rate': 9.104908658274486e-06, 'epoch': 81.79} {'loss': 0.0307, 'learning_rate': 9.10250997850783e-06, 'epoch': 81.79} {'loss': 0.029, 'learning_rate': 9.100111298741173e-06, 'epoch': 81.8} {'loss': 0.0322, 'learning_rate': 9.097712618974517e-06, 'epoch': 81.8} {'loss': 0.0322, 'learning_rate': 9.09531393920786e-06, 'epoch': 81.81} {'loss': 0.0314, 'learning_rate': 9.092915259441204e-06, 'epoch': 81.81} {'loss': 0.0307, 'learning_rate': 9.090516579674547e-06, 'epoch': 81.82} {'loss': 0.0309, 'learning_rate': 9.088117899907892e-06, 'epoch': 81.82} {'loss': 0.032, 'learning_rate': 9.085719220141236e-06, 'epoch': 81.83} {'loss': 0.0297, 'learning_rate': 9.083320540374577e-06, 'epoch': 81.83} {'loss': 0.0313, 'learning_rate': 9.080921860607921e-06, 'epoch': 81.84} {'loss': 0.0309, 'learning_rate': 9.078523180841266e-06, 'epoch': 81.84} {'loss': 0.0313, 'learning_rate': 9.07612450107461e-06, 'epoch': 81.85} {'loss': 0.0305, 'learning_rate': 9.073725821307953e-06, 'epoch': 81.85} {'loss': 0.0298, 'learning_rate': 9.071327141541296e-06, 'epoch': 81.86} {'loss': 0.0308, 'learning_rate': 9.06892846177464e-06, 'epoch': 81.86} {'loss': 0.0306, 'learning_rate': 9.066529782007983e-06, 'epoch': 81.87} {'loss': 0.0301, 'learning_rate': 9.064131102241327e-06, 'epoch': 81.87} {'loss': 0.0286, 'learning_rate': 9.06173242247467e-06, 'epoch': 81.88} {'loss': 0.032, 'learning_rate': 9.059333742708014e-06, 'epoch': 81.88} {'loss': 0.0311, 'learning_rate': 9.056935062941357e-06, 'epoch': 81.89} {'loss': 0.031, 'learning_rate': 9.054536383174701e-06, 'epoch': 81.89} {'loss': 0.0312, 'learning_rate': 9.052137703408046e-06, 'epoch': 81.9} {'loss': 0.0303, 'learning_rate': 9.049739023641388e-06, 'epoch': 81.9} {'loss': 0.03, 'learning_rate': 9.047340343874731e-06, 'epoch': 81.91} {'loss': 0.0301, 'learning_rate': 9.044941664108075e-06, 'epoch': 81.91} {'loss': 0.0291, 'learning_rate': 9.04254298434142e-06, 'epoch': 81.91} {'loss': 0.0305, 'learning_rate': 9.040144304574763e-06, 'epoch': 81.92} {'loss': 0.0294, 'learning_rate': 9.037745624808105e-06, 'epoch': 81.92} {'loss': 0.0317, 'learning_rate': 9.03534694504145e-06, 'epoch': 81.93} {'loss': 0.0293, 'learning_rate': 9.032948265274794e-06, 'epoch': 81.93} {'loss': 0.0307, 'learning_rate': 9.030549585508137e-06, 'epoch': 81.94} {'loss': 0.029, 'learning_rate': 9.028150905741481e-06, 'epoch': 81.94} {'loss': 0.0297, 'learning_rate': 9.025752225974824e-06, 'epoch': 81.95} {'loss': 0.0311, 'learning_rate': 9.023353546208167e-06, 'epoch': 81.95} {'loss': 0.0313, 'learning_rate': 9.020954866441511e-06, 'epoch': 81.96} {'loss': 0.0308, 'learning_rate': 9.018556186674855e-06, 'epoch': 81.96} {'loss': 0.0302, 'learning_rate': 9.016157506908198e-06, 'epoch': 81.97} {'loss': 0.0285, 'learning_rate': 9.01375882714154e-06, 'epoch': 81.97} {'loss': 0.0312, 'learning_rate': 9.011360147374885e-06, 'epoch': 81.98} {'loss': 0.031, 'learning_rate': 9.00896146760823e-06, 'epoch': 81.98} {'loss': 0.0288, 'learning_rate': 9.006562787841572e-06, 'epoch': 81.99} {'loss': 0.0298, 'learning_rate': 9.004164108074915e-06, 'epoch': 81.99} {'loss': 0.032, 'learning_rate': 9.00176542830826e-06, 'epoch': 82.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.032143734395504, 'eval_runtime': 736.4535, 'eval_samples_per_second': 566.085, 'eval_steps_per_second': 70.761, 'epoch': 82.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-8546368 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-8546368/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-8546368/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-8442144] due to args.save_total_limit {'loss': 0.0298, 'learning_rate': 8.999366748541604e-06, 'epoch': 82.0} {'loss': 0.0296, 'learning_rate': 8.996968068774946e-06, 'epoch': 82.01} {'loss': 0.0308, 'learning_rate': 8.99456938900829e-06, 'epoch': 82.01} {'loss': 0.0308, 'learning_rate': 8.992170709241634e-06, 'epoch': 82.02} {'loss': 0.033, 'learning_rate': 8.989772029474978e-06, 'epoch': 82.02} {'loss': 0.0302, 'learning_rate': 8.98737334970832e-06, 'epoch': 82.03} {'loss': 0.0307, 'learning_rate': 8.984974669941665e-06, 'epoch': 82.03} {'loss': 0.0311, 'learning_rate': 8.98257599017501e-06, 'epoch': 82.03} {'loss': 0.0292, 'learning_rate': 8.98017731040835e-06, 'epoch': 82.04} {'loss': 0.0306, 'learning_rate': 8.977778630641695e-06, 'epoch': 82.04} {'loss': 0.0304, 'learning_rate': 8.97537995087504e-06, 'epoch': 82.05} {'loss': 0.0307, 'learning_rate': 8.972981271108382e-06, 'epoch': 82.05} {'loss': 0.0303, 'learning_rate': 8.970582591341726e-06, 'epoch': 82.06} {'loss': 0.031, 'learning_rate': 8.968183911575069e-06, 'epoch': 82.06} {'loss': 0.0304, 'learning_rate': 8.965785231808413e-06, 'epoch': 82.07} {'loss': 0.0306, 'learning_rate': 8.963386552041756e-06, 'epoch': 82.07} {'loss': 0.0298, 'learning_rate': 8.9609878722751e-06, 'epoch': 82.08} {'loss': 0.0312, 'learning_rate': 8.958589192508445e-06, 'epoch': 82.08} {'loss': 0.0306, 'learning_rate': 8.956190512741788e-06, 'epoch': 82.09} {'loss': 0.0288, 'learning_rate': 8.95379183297513e-06, 'epoch': 82.09} {'loss': 0.0296, 'learning_rate': 8.951393153208475e-06, 'epoch': 82.1} {'loss': 0.0309, 'learning_rate': 8.948994473441819e-06, 'epoch': 82.1} {'loss': 0.03, 'learning_rate': 8.946595793675162e-06, 'epoch': 82.11} {'loss': 0.0306, 'learning_rate': 8.944197113908505e-06, 'epoch': 82.11} {'loss': 0.0305, 'learning_rate': 8.941798434141849e-06, 'epoch': 82.12} {'loss': 0.0295, 'learning_rate': 8.939399754375193e-06, 'epoch': 82.12} {'loss': 0.0308, 'learning_rate': 8.937001074608536e-06, 'epoch': 82.13} {'loss': 0.0303, 'learning_rate': 8.934602394841879e-06, 'epoch': 82.13} {'loss': 0.0295, 'learning_rate': 8.932203715075223e-06, 'epoch': 82.14} {'loss': 0.0327, 'learning_rate': 8.929805035308566e-06, 'epoch': 82.14} {'loss': 0.029, 'learning_rate': 8.92740635554191e-06, 'epoch': 82.15} {'loss': 0.0297, 'learning_rate': 8.925007675775255e-06, 'epoch': 82.15} {'loss': 0.0279, 'learning_rate': 8.922608996008597e-06, 'epoch': 82.15} {'loss': 0.0297, 'learning_rate': 8.92021031624194e-06, 'epoch': 82.16} {'loss': 0.0303, 'learning_rate': 8.917811636475284e-06, 'epoch': 82.16} {'loss': 0.0293, 'learning_rate': 8.915412956708629e-06, 'epoch': 82.17} {'loss': 0.0304, 'learning_rate': 8.913014276941972e-06, 'epoch': 82.17} {'loss': 0.0293, 'learning_rate': 8.910615597175314e-06, 'epoch': 82.18} {'loss': 0.0296, 'learning_rate': 8.908216917408659e-06, 'epoch': 82.18} {'loss': 0.0287, 'learning_rate': 8.905818237642003e-06, 'epoch': 82.19} {'loss': 0.0315, 'learning_rate': 8.903419557875346e-06, 'epoch': 82.19} {'loss': 0.0279, 'learning_rate': 8.901020878108688e-06, 'epoch': 82.2} {'loss': 0.0298, 'learning_rate': 8.898622198342033e-06, 'epoch': 82.2} {'loss': 0.0312, 'learning_rate': 8.896223518575377e-06, 'epoch': 82.21} {'loss': 0.0315, 'learning_rate': 8.89382483880872e-06, 'epoch': 82.21} {'loss': 0.0302, 'learning_rate': 8.891426159042064e-06, 'epoch': 82.22} {'loss': 0.0306, 'learning_rate': 8.889027479275407e-06, 'epoch': 82.22} {'loss': 0.0299, 'learning_rate': 8.88662879950875e-06, 'epoch': 82.23} {'loss': 0.0302, 'learning_rate': 8.884230119742094e-06, 'epoch': 82.23} {'loss': 0.0307, 'learning_rate': 8.881831439975439e-06, 'epoch': 82.24} {'loss': 0.0302, 'learning_rate': 8.879432760208781e-06, 'epoch': 82.24} {'loss': 0.0311, 'learning_rate': 8.877034080442124e-06, 'epoch': 82.25} {'loss': 0.0284, 'learning_rate': 8.874635400675468e-06, 'epoch': 82.25} {'loss': 0.03, 'learning_rate': 8.872236720908813e-06, 'epoch': 82.26} {'loss': 0.0316, 'learning_rate': 8.869838041142155e-06, 'epoch': 82.26} {'loss': 0.0304, 'learning_rate': 8.8674393613755e-06, 'epoch': 82.27} {'loss': 0.031, 'learning_rate': 8.865040681608843e-06, 'epoch': 82.27} {'loss': 0.0294, 'learning_rate': 8.862642001842187e-06, 'epoch': 82.27} {'loss': 0.0296, 'learning_rate': 8.86024332207553e-06, 'epoch': 82.28} {'loss': 0.0303, 'learning_rate': 8.857844642308874e-06, 'epoch': 82.28} {'loss': 0.0309, 'learning_rate': 8.855445962542218e-06, 'epoch': 82.29} {'loss': 0.0328, 'learning_rate': 8.853047282775561e-06, 'epoch': 82.29} {'loss': 0.0302, 'learning_rate': 8.850648603008904e-06, 'epoch': 82.3} {'loss': 0.0277, 'learning_rate': 8.848249923242248e-06, 'epoch': 82.3} {'loss': 0.0299, 'learning_rate': 8.845851243475593e-06, 'epoch': 82.31} {'loss': 0.0312, 'learning_rate': 8.843452563708934e-06, 'epoch': 82.31} {'loss': 0.0321, 'learning_rate': 8.841053883942278e-06, 'epoch': 82.32} {'loss': 0.0303, 'learning_rate': 8.838655204175622e-06, 'epoch': 82.32} {'loss': 0.031, 'learning_rate': 8.836256524408965e-06, 'epoch': 82.33} {'loss': 0.0317, 'learning_rate': 8.83385784464231e-06, 'epoch': 82.33} {'loss': 0.0296, 'learning_rate': 8.831459164875652e-06, 'epoch': 82.34} {'loss': 0.031, 'learning_rate': 8.829060485108997e-06, 'epoch': 82.34} {'loss': 0.0307, 'learning_rate': 8.82666180534234e-06, 'epoch': 82.35} {'loss': 0.0296, 'learning_rate': 8.824263125575684e-06, 'epoch': 82.35} {'loss': 0.0292, 'learning_rate': 8.821864445809028e-06, 'epoch': 82.36} {'loss': 0.0289, 'learning_rate': 8.81946576604237e-06, 'epoch': 82.36} {'loss': 0.0306, 'learning_rate': 8.817067086275714e-06, 'epoch': 82.37} {'loss': 0.0293, 'learning_rate': 8.814668406509058e-06, 'epoch': 82.37} {'loss': 0.03, 'learning_rate': 8.812269726742402e-06, 'epoch': 82.38} {'loss': 0.0293, 'learning_rate': 8.809871046975745e-06, 'epoch': 82.38} {'loss': 0.0301, 'learning_rate': 8.807472367209088e-06, 'epoch': 82.39} {'loss': 0.0303, 'learning_rate': 8.805073687442432e-06, 'epoch': 82.39} {'loss': 0.0312, 'learning_rate': 8.802675007675777e-06, 'epoch': 82.39} {'loss': 0.0293, 'learning_rate': 8.80027632790912e-06, 'epoch': 82.4} {'loss': 0.0306, 'learning_rate': 8.797877648142462e-06, 'epoch': 82.4} {'loss': 0.03, 'learning_rate': 8.795478968375806e-06, 'epoch': 82.41} {'loss': 0.0306, 'learning_rate': 8.793080288609149e-06, 'epoch': 82.41} {'loss': 0.0294, 'learning_rate': 8.790681608842493e-06, 'epoch': 82.42} {'loss': 0.0284, 'learning_rate': 8.788282929075838e-06, 'epoch': 82.42} {'loss': 0.0329, 'learning_rate': 8.78588424930918e-06, 'epoch': 82.43} {'loss': 0.0305, 'learning_rate': 8.783485569542523e-06, 'epoch': 82.43} {'loss': 0.0288, 'learning_rate': 8.781086889775868e-06, 'epoch': 82.44} {'loss': 0.0305, 'learning_rate': 8.778688210009212e-06, 'epoch': 82.44} {'loss': 0.0323, 'learning_rate': 8.776289530242555e-06, 'epoch': 82.45} {'loss': 0.0303, 'learning_rate': 8.773890850475897e-06, 'epoch': 82.45} {'loss': 0.0293, 'learning_rate': 8.771492170709242e-06, 'epoch': 82.46} {'loss': 0.0292, 'learning_rate': 8.769093490942586e-06, 'epoch': 82.46} {'loss': 0.0312, 'learning_rate': 8.766694811175929e-06, 'epoch': 82.47} {'loss': 0.0287, 'learning_rate': 8.764296131409273e-06, 'epoch': 82.47} {'loss': 0.0311, 'learning_rate': 8.761897451642616e-06, 'epoch': 82.48} {'loss': 0.0301, 'learning_rate': 8.75949877187596e-06, 'epoch': 82.48} {'loss': 0.0285, 'learning_rate': 8.757100092109303e-06, 'epoch': 82.49} {'loss': 0.0294, 'learning_rate': 8.754701412342648e-06, 'epoch': 82.49} {'loss': 0.0302, 'learning_rate': 8.752302732575992e-06, 'epoch': 82.5} {'loss': 0.0309, 'learning_rate': 8.749904052809333e-06, 'epoch': 82.5} {'loss': 0.0287, 'learning_rate': 8.747505373042677e-06, 'epoch': 82.5} {'loss': 0.0316, 'learning_rate': 8.745106693276022e-06, 'epoch': 82.51} {'loss': 0.0304, 'learning_rate': 8.742708013509366e-06, 'epoch': 82.51} {'loss': 0.0305, 'learning_rate': 8.740309333742707e-06, 'epoch': 82.52} {'loss': 0.0289, 'learning_rate': 8.737910653976052e-06, 'epoch': 82.52} {'loss': 0.0311, 'learning_rate': 8.735511974209396e-06, 'epoch': 82.53} {'loss': 0.0307, 'learning_rate': 8.733113294442739e-06, 'epoch': 82.53} {'loss': 0.03, 'learning_rate': 8.730714614676083e-06, 'epoch': 82.54} {'loss': 0.0295, 'learning_rate': 8.728315934909426e-06, 'epoch': 82.54} {'loss': 0.0292, 'learning_rate': 8.72591725514277e-06, 'epoch': 82.55} {'loss': 0.0311, 'learning_rate': 8.723518575376113e-06, 'epoch': 82.55} {'loss': 0.0288, 'learning_rate': 8.721119895609457e-06, 'epoch': 82.56} {'loss': 0.0296, 'learning_rate': 8.718721215842802e-06, 'epoch': 82.56} {'loss': 0.0295, 'learning_rate': 8.716322536076144e-06, 'epoch': 82.57} {'loss': 0.0322, 'learning_rate': 8.713923856309487e-06, 'epoch': 82.57} {'loss': 0.0301, 'learning_rate': 8.711525176542831e-06, 'epoch': 82.58} {'loss': 0.0304, 'learning_rate': 8.709126496776176e-06, 'epoch': 82.58} {'loss': 0.0308, 'learning_rate': 8.706727817009519e-06, 'epoch': 82.59} {'loss': 0.0314, 'learning_rate': 8.704329137242861e-06, 'epoch': 82.59} {'loss': 0.0304, 'learning_rate': 8.701930457476206e-06, 'epoch': 82.6} {'loss': 0.0282, 'learning_rate': 8.69953177770955e-06, 'epoch': 82.6} {'loss': 0.0303, 'learning_rate': 8.697133097942893e-06, 'epoch': 82.61} {'loss': 0.0314, 'learning_rate': 8.694734418176237e-06, 'epoch': 82.61} {'loss': 0.0291, 'learning_rate': 8.69233573840958e-06, 'epoch': 82.62} {'loss': 0.0306, 'learning_rate': 8.689937058642923e-06, 'epoch': 82.62} {'loss': 0.0326, 'learning_rate': 8.687538378876267e-06, 'epoch': 82.62} {'loss': 0.0294, 'learning_rate': 8.685139699109611e-06, 'epoch': 82.63} {'loss': 0.031, 'learning_rate': 8.682741019342954e-06, 'epoch': 82.63} {'loss': 0.0311, 'learning_rate': 8.680342339576297e-06, 'epoch': 82.64} {'loss': 0.0307, 'learning_rate': 8.677943659809641e-06, 'epoch': 82.64} {'loss': 0.03, 'learning_rate': 8.675544980042986e-06, 'epoch': 82.65} {'loss': 0.0299, 'learning_rate': 8.673146300276328e-06, 'epoch': 82.65} {'loss': 0.0295, 'learning_rate': 8.670747620509671e-06, 'epoch': 82.66} {'loss': 0.0292, 'learning_rate': 8.668348940743015e-06, 'epoch': 82.66} {'loss': 0.0298, 'learning_rate': 8.66595026097636e-06, 'epoch': 82.67} {'loss': 0.0304, 'learning_rate': 8.663551581209702e-06, 'epoch': 82.67} {'loss': 0.0306, 'learning_rate': 8.661152901443047e-06, 'epoch': 82.68} {'loss': 0.0288, 'learning_rate': 8.65875422167639e-06, 'epoch': 82.68} {'loss': 0.0323, 'learning_rate': 8.656355541909732e-06, 'epoch': 82.69} {'loss': 0.0297, 'learning_rate': 8.653956862143077e-06, 'epoch': 82.69} {'loss': 0.0305, 'learning_rate': 8.651558182376421e-06, 'epoch': 82.7} {'loss': 0.0292, 'learning_rate': 8.649159502609765e-06, 'epoch': 82.7} {'loss': 0.0307, 'learning_rate': 8.646760822843106e-06, 'epoch': 82.71} {'loss': 0.0312, 'learning_rate': 8.64436214307645e-06, 'epoch': 82.71} {'loss': 0.0309, 'learning_rate': 8.641963463309795e-06, 'epoch': 82.72} {'loss': 0.0316, 'learning_rate': 8.639564783543138e-06, 'epoch': 82.72} {'loss': 0.0303, 'learning_rate': 8.63716610377648e-06, 'epoch': 82.73} {'loss': 0.0311, 'learning_rate': 8.634767424009825e-06, 'epoch': 82.73} {'loss': 0.028, 'learning_rate': 8.63236874424317e-06, 'epoch': 82.74} {'loss': 0.0308, 'learning_rate': 8.629970064476512e-06, 'epoch': 82.74} {'loss': 0.0315, 'learning_rate': 8.627571384709857e-06, 'epoch': 82.74} {'loss': 0.0311, 'learning_rate': 8.6251727049432e-06, 'epoch': 82.75} {'loss': 0.0279, 'learning_rate': 8.622774025176544e-06, 'epoch': 82.75} {'loss': 0.0293, 'learning_rate': 8.620375345409886e-06, 'epoch': 82.76} {'loss': 0.0288, 'learning_rate': 8.61797666564323e-06, 'epoch': 82.76} {'loss': 0.0305, 'learning_rate': 8.615577985876575e-06, 'epoch': 82.77} {'loss': 0.0301, 'learning_rate': 8.613179306109916e-06, 'epoch': 82.77} {'loss': 0.0299, 'learning_rate': 8.61078062634326e-06, 'epoch': 82.78} {'loss': 0.0285, 'learning_rate': 8.608381946576605e-06, 'epoch': 82.78} {'loss': 0.0297, 'learning_rate': 8.60598326680995e-06, 'epoch': 82.79} {'loss': 0.0302, 'learning_rate': 8.603584587043292e-06, 'epoch': 82.79} {'loss': 0.0288, 'learning_rate': 8.601185907276635e-06, 'epoch': 82.8} {'loss': 0.03, 'learning_rate': 8.598787227509979e-06, 'epoch': 82.8} {'loss': 0.0304, 'learning_rate': 8.596388547743322e-06, 'epoch': 82.81} {'loss': 0.0292, 'learning_rate': 8.593989867976666e-06, 'epoch': 82.81} {'loss': 0.0316, 'learning_rate': 8.59159118821001e-06, 'epoch': 82.82} {'loss': 0.0303, 'learning_rate': 8.589192508443353e-06, 'epoch': 82.82} {'loss': 0.0301, 'learning_rate': 8.586793828676696e-06, 'epoch': 82.83} {'loss': 0.0298, 'learning_rate': 8.58439514891004e-06, 'epoch': 82.83} {'loss': 0.0308, 'learning_rate': 8.581996469143385e-06, 'epoch': 82.84} {'loss': 0.0292, 'learning_rate': 8.579597789376728e-06, 'epoch': 82.84} {'loss': 0.0297, 'learning_rate': 8.57719910961007e-06, 'epoch': 82.85} {'loss': 0.0294, 'learning_rate': 8.574800429843415e-06, 'epoch': 82.85} {'loss': 0.0317, 'learning_rate': 8.572401750076759e-06, 'epoch': 82.86} {'loss': 0.0306, 'learning_rate': 8.570003070310102e-06, 'epoch': 82.86} {'loss': 0.0302, 'learning_rate': 8.567604390543444e-06, 'epoch': 82.86} {'loss': 0.0303, 'learning_rate': 8.565205710776789e-06, 'epoch': 82.87} {'loss': 0.0291, 'learning_rate': 8.562807031010133e-06, 'epoch': 82.87} {'loss': 0.0292, 'learning_rate': 8.560408351243476e-06, 'epoch': 82.88} {'loss': 0.0306, 'learning_rate': 8.55800967147682e-06, 'epoch': 82.88} {'loss': 0.03, 'learning_rate': 8.555610991710163e-06, 'epoch': 82.89} {'loss': 0.0293, 'learning_rate': 8.553212311943506e-06, 'epoch': 82.89} {'loss': 0.0306, 'learning_rate': 8.55081363217685e-06, 'epoch': 82.9} {'loss': 0.0307, 'learning_rate': 8.548414952410195e-06, 'epoch': 82.9} {'loss': 0.0285, 'learning_rate': 8.546016272643537e-06, 'epoch': 82.91} {'loss': 0.0317, 'learning_rate': 8.54361759287688e-06, 'epoch': 82.91} {'loss': 0.0301, 'learning_rate': 8.541218913110224e-06, 'epoch': 82.92} {'loss': 0.029, 'learning_rate': 8.538820233343569e-06, 'epoch': 82.92} {'loss': 0.0295, 'learning_rate': 8.536421553576911e-06, 'epoch': 82.93} {'loss': 0.028, 'learning_rate': 8.534022873810254e-06, 'epoch': 82.93} {'loss': 0.0293, 'learning_rate': 8.531624194043599e-06, 'epoch': 82.94} {'loss': 0.031, 'learning_rate': 8.529225514276943e-06, 'epoch': 82.94} {'loss': 0.0298, 'learning_rate': 8.526826834510286e-06, 'epoch': 82.95} {'loss': 0.0318, 'learning_rate': 8.52442815474363e-06, 'epoch': 82.95} {'loss': 0.0321, 'learning_rate': 8.522029474976973e-06, 'epoch': 82.96} {'loss': 0.0309, 'learning_rate': 8.519630795210317e-06, 'epoch': 82.96} {'loss': 0.0308, 'learning_rate': 8.51723211544366e-06, 'epoch': 82.97} {'loss': 0.0308, 'learning_rate': 8.514833435677004e-06, 'epoch': 82.97} {'loss': 0.0298, 'learning_rate': 8.512434755910349e-06, 'epoch': 82.98} {'loss': 0.0306, 'learning_rate': 8.51003607614369e-06, 'epoch': 82.98} {'loss': 0.0307, 'learning_rate': 8.507637396377034e-06, 'epoch': 82.98} {'loss': 0.0299, 'learning_rate': 8.505238716610378e-06, 'epoch': 82.99} {'loss': 0.0298, 'learning_rate': 8.502840036843721e-06, 'epoch': 82.99} {'loss': 0.03, 'learning_rate': 8.500441357077066e-06, 'epoch': 83.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03253113850951195, 'eval_runtime': 738.2313, 'eval_samples_per_second': 564.721, 'eval_steps_per_second': 70.59, 'epoch': 83.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-8650592 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-8650592/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-8650592/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-8546368] due to args.save_total_limit {'loss': 0.0291, 'learning_rate': 8.498042677310408e-06, 'epoch': 83.0} {'loss': 0.0291, 'learning_rate': 8.495643997543753e-06, 'epoch': 83.01} {'loss': 0.0289, 'learning_rate': 8.493245317777095e-06, 'epoch': 83.01} {'loss': 0.0306, 'learning_rate': 8.49084663801044e-06, 'epoch': 83.02} {'loss': 0.0289, 'learning_rate': 8.488447958243784e-06, 'epoch': 83.02} {'loss': 0.0302, 'learning_rate': 8.486049278477127e-06, 'epoch': 83.03} {'loss': 0.0302, 'learning_rate': 8.48365059871047e-06, 'epoch': 83.03} {'loss': 0.0307, 'learning_rate': 8.481251918943814e-06, 'epoch': 83.04} {'loss': 0.0296, 'learning_rate': 8.478853239177158e-06, 'epoch': 83.04} {'loss': 0.0303, 'learning_rate': 8.4764545594105e-06, 'epoch': 83.05} {'loss': 0.0291, 'learning_rate': 8.474055879643844e-06, 'epoch': 83.05} {'loss': 0.0303, 'learning_rate': 8.471657199877188e-06, 'epoch': 83.06} {'loss': 0.03, 'learning_rate': 8.469258520110533e-06, 'epoch': 83.06} {'loss': 0.0274, 'learning_rate': 8.466859840343875e-06, 'epoch': 83.07} {'loss': 0.0282, 'learning_rate': 8.464461160577218e-06, 'epoch': 83.07} {'loss': 0.0297, 'learning_rate': 8.462062480810562e-06, 'epoch': 83.08} {'loss': 0.0298, 'learning_rate': 8.459663801043905e-06, 'epoch': 83.08} {'loss': 0.0287, 'learning_rate': 8.45726512127725e-06, 'epoch': 83.09} {'loss': 0.03, 'learning_rate': 8.454866441510594e-06, 'epoch': 83.09} {'loss': 0.0287, 'learning_rate': 8.452467761743937e-06, 'epoch': 83.1} {'loss': 0.0284, 'learning_rate': 8.45006908197728e-06, 'epoch': 83.1} {'loss': 0.0286, 'learning_rate': 8.447670402210624e-06, 'epoch': 83.1} {'loss': 0.03, 'learning_rate': 8.445271722443968e-06, 'epoch': 83.11} {'loss': 0.028, 'learning_rate': 8.44287304267731e-06, 'epoch': 83.11} {'loss': 0.0308, 'learning_rate': 8.440474362910653e-06, 'epoch': 83.12} {'loss': 0.0304, 'learning_rate': 8.438075683143998e-06, 'epoch': 83.12} {'loss': 0.0309, 'learning_rate': 8.435677003377342e-06, 'epoch': 83.13} {'loss': 0.0301, 'learning_rate': 8.433278323610685e-06, 'epoch': 83.13} {'loss': 0.028, 'learning_rate': 8.43087964384403e-06, 'epoch': 83.14} {'loss': 0.0292, 'learning_rate': 8.428480964077372e-06, 'epoch': 83.14} {'loss': 0.0295, 'learning_rate': 8.426082284310716e-06, 'epoch': 83.15} {'loss': 0.0278, 'learning_rate': 8.42368360454406e-06, 'epoch': 83.15} {'loss': 0.0311, 'learning_rate': 8.421284924777404e-06, 'epoch': 83.16} {'loss': 0.0299, 'learning_rate': 8.418886245010746e-06, 'epoch': 83.16} {'loss': 0.0288, 'learning_rate': 8.416487565244089e-06, 'epoch': 83.17} {'loss': 0.0301, 'learning_rate': 8.414088885477433e-06, 'epoch': 83.17} {'loss': 0.0304, 'learning_rate': 8.411690205710778e-06, 'epoch': 83.18} {'loss': 0.03, 'learning_rate': 8.40929152594412e-06, 'epoch': 83.18} {'loss': 0.0292, 'learning_rate': 8.406892846177463e-06, 'epoch': 83.19} {'loss': 0.03, 'learning_rate': 8.404494166410808e-06, 'epoch': 83.19} {'loss': 0.031, 'learning_rate': 8.402095486644152e-06, 'epoch': 83.2} {'loss': 0.0303, 'learning_rate': 8.399696806877495e-06, 'epoch': 83.2} {'loss': 0.029, 'learning_rate': 8.397298127110839e-06, 'epoch': 83.21} {'loss': 0.0302, 'learning_rate': 8.394899447344182e-06, 'epoch': 83.21} {'loss': 0.0293, 'learning_rate': 8.392500767577526e-06, 'epoch': 83.21} {'loss': 0.0296, 'learning_rate': 8.390102087810869e-06, 'epoch': 83.22} {'loss': 0.0285, 'learning_rate': 8.387703408044213e-06, 'epoch': 83.22} {'loss': 0.0311, 'learning_rate': 8.385304728277558e-06, 'epoch': 83.23} {'loss': 0.0298, 'learning_rate': 8.3829060485109e-06, 'epoch': 83.23} {'loss': 0.03, 'learning_rate': 8.380507368744243e-06, 'epoch': 83.24} {'loss': 0.0298, 'learning_rate': 8.378108688977587e-06, 'epoch': 83.24} {'loss': 0.0291, 'learning_rate': 8.375710009210932e-06, 'epoch': 83.25} {'loss': 0.0308, 'learning_rate': 8.373311329444273e-06, 'epoch': 83.25} {'loss': 0.0287, 'learning_rate': 8.370912649677617e-06, 'epoch': 83.26} {'loss': 0.0293, 'learning_rate': 8.368513969910962e-06, 'epoch': 83.26} {'loss': 0.0302, 'learning_rate': 8.366115290144304e-06, 'epoch': 83.27} {'loss': 0.0295, 'learning_rate': 8.363716610377649e-06, 'epoch': 83.27} {'loss': 0.0304, 'learning_rate': 8.361317930610991e-06, 'epoch': 83.28} {'loss': 0.0305, 'learning_rate': 8.358919250844336e-06, 'epoch': 83.28} {'loss': 0.0278, 'learning_rate': 8.356520571077679e-06, 'epoch': 83.29} {'loss': 0.0293, 'learning_rate': 8.354121891311023e-06, 'epoch': 83.29} {'loss': 0.0321, 'learning_rate': 8.351723211544367e-06, 'epoch': 83.3} {'loss': 0.0288, 'learning_rate': 8.34932453177771e-06, 'epoch': 83.3} {'loss': 0.0307, 'learning_rate': 8.346925852011053e-06, 'epoch': 83.31} {'loss': 0.0299, 'learning_rate': 8.344527172244397e-06, 'epoch': 83.31} {'loss': 0.0303, 'learning_rate': 8.342128492477742e-06, 'epoch': 83.32} {'loss': 0.031, 'learning_rate': 8.339729812711084e-06, 'epoch': 83.32} {'loss': 0.0307, 'learning_rate': 8.337331132944427e-06, 'epoch': 83.33} {'loss': 0.0293, 'learning_rate': 8.334932453177771e-06, 'epoch': 83.33} {'loss': 0.0288, 'learning_rate': 8.332533773411116e-06, 'epoch': 83.33} {'loss': 0.0305, 'learning_rate': 8.330135093644458e-06, 'epoch': 83.34} {'loss': 0.0286, 'learning_rate': 8.327736413877803e-06, 'epoch': 83.34} {'loss': 0.0296, 'learning_rate': 8.325337734111146e-06, 'epoch': 83.35} {'loss': 0.0298, 'learning_rate': 8.322939054344488e-06, 'epoch': 83.35} {'loss': 0.0301, 'learning_rate': 8.320540374577833e-06, 'epoch': 83.36} {'loss': 0.0298, 'learning_rate': 8.318141694811177e-06, 'epoch': 83.36} {'loss': 0.0294, 'learning_rate': 8.31574301504452e-06, 'epoch': 83.37} {'loss': 0.0312, 'learning_rate': 8.313344335277862e-06, 'epoch': 83.37} {'loss': 0.0292, 'learning_rate': 8.310945655511207e-06, 'epoch': 83.38} {'loss': 0.0292, 'learning_rate': 8.308546975744551e-06, 'epoch': 83.38} {'loss': 0.0291, 'learning_rate': 8.306148295977894e-06, 'epoch': 83.39} {'loss': 0.0301, 'learning_rate': 8.303749616211237e-06, 'epoch': 83.39} {'loss': 0.0307, 'learning_rate': 8.301350936444581e-06, 'epoch': 83.4} {'loss': 0.0309, 'learning_rate': 8.298952256677925e-06, 'epoch': 83.4} {'loss': 0.0291, 'learning_rate': 8.296553576911268e-06, 'epoch': 83.41} {'loss': 0.0309, 'learning_rate': 8.294154897144613e-06, 'epoch': 83.41} {'loss': 0.0303, 'learning_rate': 8.291756217377955e-06, 'epoch': 83.42} {'loss': 0.031, 'learning_rate': 8.2893575376113e-06, 'epoch': 83.42} {'loss': 0.0313, 'learning_rate': 8.286958857844642e-06, 'epoch': 83.43} {'loss': 0.0295, 'learning_rate': 8.284560178077987e-06, 'epoch': 83.43} {'loss': 0.0304, 'learning_rate': 8.282161498311331e-06, 'epoch': 83.44} {'loss': 0.0286, 'learning_rate': 8.279762818544672e-06, 'epoch': 83.44} {'loss': 0.0287, 'learning_rate': 8.277364138778017e-06, 'epoch': 83.45} {'loss': 0.0298, 'learning_rate': 8.274965459011361e-06, 'epoch': 83.45} {'loss': 0.028, 'learning_rate': 8.272566779244705e-06, 'epoch': 83.45} {'loss': 0.0311, 'learning_rate': 8.270168099478046e-06, 'epoch': 83.46} {'loss': 0.0311, 'learning_rate': 8.26776941971139e-06, 'epoch': 83.46} {'loss': 0.0306, 'learning_rate': 8.265370739944735e-06, 'epoch': 83.47} {'loss': 0.0316, 'learning_rate': 8.262972060178078e-06, 'epoch': 83.47} {'loss': 0.0295, 'learning_rate': 8.260573380411422e-06, 'epoch': 83.48} {'loss': 0.0285, 'learning_rate': 8.258174700644765e-06, 'epoch': 83.48} {'loss': 0.0281, 'learning_rate': 8.25577602087811e-06, 'epoch': 83.49} {'loss': 0.0285, 'learning_rate': 8.253377341111452e-06, 'epoch': 83.49} {'loss': 0.0287, 'learning_rate': 8.250978661344796e-06, 'epoch': 83.5} {'loss': 0.0281, 'learning_rate': 8.248579981578141e-06, 'epoch': 83.5} {'loss': 0.0311, 'learning_rate': 8.246181301811484e-06, 'epoch': 83.51} {'loss': 0.0313, 'learning_rate': 8.243782622044826e-06, 'epoch': 83.51} {'loss': 0.0297, 'learning_rate': 8.24138394227817e-06, 'epoch': 83.52} {'loss': 0.0318, 'learning_rate': 8.238985262511515e-06, 'epoch': 83.52} {'loss': 0.0313, 'learning_rate': 8.236586582744858e-06, 'epoch': 83.53} {'loss': 0.0302, 'learning_rate': 8.2341879029782e-06, 'epoch': 83.53} {'loss': 0.0287, 'learning_rate': 8.231789223211545e-06, 'epoch': 83.54} {'loss': 0.0295, 'learning_rate': 8.229390543444888e-06, 'epoch': 83.54} {'loss': 0.0304, 'learning_rate': 8.226991863678232e-06, 'epoch': 83.55} {'loss': 0.0301, 'learning_rate': 8.224593183911576e-06, 'epoch': 83.55} {'loss': 0.0286, 'learning_rate': 8.222194504144919e-06, 'epoch': 83.56} {'loss': 0.029, 'learning_rate': 8.219795824378262e-06, 'epoch': 83.56} {'loss': 0.0285, 'learning_rate': 8.217397144611606e-06, 'epoch': 83.57} {'loss': 0.0299, 'learning_rate': 8.21499846484495e-06, 'epoch': 83.57} {'loss': 0.031, 'learning_rate': 8.212599785078293e-06, 'epoch': 83.57} {'loss': 0.0306, 'learning_rate': 8.210201105311636e-06, 'epoch': 83.58} {'loss': 0.03, 'learning_rate': 8.20780242554498e-06, 'epoch': 83.58} {'loss': 0.0288, 'learning_rate': 8.205403745778325e-06, 'epoch': 83.59} {'loss': 0.0293, 'learning_rate': 8.203005066011667e-06, 'epoch': 83.59} {'loss': 0.0289, 'learning_rate': 8.20060638624501e-06, 'epoch': 83.6} {'loss': 0.0305, 'learning_rate': 8.198207706478355e-06, 'epoch': 83.6} {'loss': 0.029, 'learning_rate': 8.195809026711699e-06, 'epoch': 83.61} {'loss': 0.0304, 'learning_rate': 8.193410346945042e-06, 'epoch': 83.61} {'loss': 0.0299, 'learning_rate': 8.191011667178386e-06, 'epoch': 83.62} {'loss': 0.0297, 'learning_rate': 8.188612987411729e-06, 'epoch': 83.62} {'loss': 0.0281, 'learning_rate': 8.186214307645071e-06, 'epoch': 83.63} {'loss': 0.0298, 'learning_rate': 8.183815627878416e-06, 'epoch': 83.63} {'loss': 0.0301, 'learning_rate': 8.18141694811176e-06, 'epoch': 83.64} {'loss': 0.0311, 'learning_rate': 8.179018268345105e-06, 'epoch': 83.64} {'loss': 0.0287, 'learning_rate': 8.176619588578446e-06, 'epoch': 83.65} {'loss': 0.0308, 'learning_rate': 8.17422090881179e-06, 'epoch': 83.65} {'loss': 0.0304, 'learning_rate': 8.171822229045134e-06, 'epoch': 83.66} {'loss': 0.0278, 'learning_rate': 8.169423549278477e-06, 'epoch': 83.66} {'loss': 0.0318, 'learning_rate': 8.167024869511822e-06, 'epoch': 83.67} {'loss': 0.0297, 'learning_rate': 8.164626189745164e-06, 'epoch': 83.67} {'loss': 0.0295, 'learning_rate': 8.162227509978509e-06, 'epoch': 83.68} {'loss': 0.0293, 'learning_rate': 8.159828830211851e-06, 'epoch': 83.68} {'loss': 0.0316, 'learning_rate': 8.157430150445196e-06, 'epoch': 83.69} {'loss': 0.0299, 'learning_rate': 8.155031470678538e-06, 'epoch': 83.69} {'loss': 0.0281, 'learning_rate': 8.152632790911883e-06, 'epoch': 83.69} {'loss': 0.03, 'learning_rate': 8.150234111145226e-06, 'epoch': 83.7} {'loss': 0.031, 'learning_rate': 8.14783543137857e-06, 'epoch': 83.7} {'loss': 0.0269, 'learning_rate': 8.145436751611914e-06, 'epoch': 83.71} {'loss': 0.0296, 'learning_rate': 8.143038071845255e-06, 'epoch': 83.71} {'loss': 0.03, 'learning_rate': 8.1406393920786e-06, 'epoch': 83.72} {'loss': 0.03, 'learning_rate': 8.138240712311944e-06, 'epoch': 83.72} {'loss': 0.0299, 'learning_rate': 8.135842032545289e-06, 'epoch': 83.73} {'loss': 0.0313, 'learning_rate': 8.133443352778631e-06, 'epoch': 83.73} {'loss': 0.029, 'learning_rate': 8.131044673011974e-06, 'epoch': 83.74} {'loss': 0.0296, 'learning_rate': 8.128645993245318e-06, 'epoch': 83.74} {'loss': 0.0309, 'learning_rate': 8.126247313478661e-06, 'epoch': 83.75} {'loss': 0.0303, 'learning_rate': 8.123848633712005e-06, 'epoch': 83.75} {'loss': 0.0297, 'learning_rate': 8.12144995394535e-06, 'epoch': 83.76} {'loss': 0.0289, 'learning_rate': 8.119051274178693e-06, 'epoch': 83.76} {'loss': 0.0294, 'learning_rate': 8.116652594412035e-06, 'epoch': 83.77} {'loss': 0.0307, 'learning_rate': 8.11425391464538e-06, 'epoch': 83.77} {'loss': 0.0309, 'learning_rate': 8.111855234878724e-06, 'epoch': 83.78} {'loss': 0.0292, 'learning_rate': 8.109456555112067e-06, 'epoch': 83.78} {'loss': 0.03, 'learning_rate': 8.10705787534541e-06, 'epoch': 83.79} {'loss': 0.0303, 'learning_rate': 8.104659195578754e-06, 'epoch': 83.79} {'loss': 0.0304, 'learning_rate': 8.102260515812098e-06, 'epoch': 83.8} {'loss': 0.0306, 'learning_rate': 8.099861836045441e-06, 'epoch': 83.8} {'loss': 0.0292, 'learning_rate': 8.097463156278784e-06, 'epoch': 83.81} {'loss': 0.0271, 'learning_rate': 8.095064476512128e-06, 'epoch': 83.81} {'loss': 0.0293, 'learning_rate': 8.092665796745472e-06, 'epoch': 83.81} {'loss': 0.0292, 'learning_rate': 8.090267116978815e-06, 'epoch': 83.82} {'loss': 0.0287, 'learning_rate': 8.08786843721216e-06, 'epoch': 83.82} {'loss': 0.0291, 'learning_rate': 8.085469757445502e-06, 'epoch': 83.83} {'loss': 0.0304, 'learning_rate': 8.083071077678845e-06, 'epoch': 83.83} {'loss': 0.0301, 'learning_rate': 8.08067239791219e-06, 'epoch': 83.84} {'loss': 0.0312, 'learning_rate': 8.078273718145534e-06, 'epoch': 83.84} {'loss': 0.0292, 'learning_rate': 8.075875038378876e-06, 'epoch': 83.85} {'loss': 0.0295, 'learning_rate': 8.07347635861222e-06, 'epoch': 83.85} {'loss': 0.0298, 'learning_rate': 8.071077678845564e-06, 'epoch': 83.86} {'loss': 0.029, 'learning_rate': 8.068678999078908e-06, 'epoch': 83.86} {'loss': 0.0283, 'learning_rate': 8.06628031931225e-06, 'epoch': 83.87} {'loss': 0.0306, 'learning_rate': 8.063881639545595e-06, 'epoch': 83.87} {'loss': 0.0302, 'learning_rate': 8.061482959778938e-06, 'epoch': 83.88} {'loss': 0.0289, 'learning_rate': 8.059084280012282e-06, 'epoch': 83.88} {'loss': 0.0288, 'learning_rate': 8.056685600245625e-06, 'epoch': 83.89} {'loss': 0.0305, 'learning_rate': 8.05428692047897e-06, 'epoch': 83.89} {'loss': 0.0298, 'learning_rate': 8.051888240712312e-06, 'epoch': 83.9} {'loss': 0.0307, 'learning_rate': 8.049489560945656e-06, 'epoch': 83.9} {'loss': 0.0294, 'learning_rate': 8.047090881178999e-06, 'epoch': 83.91} {'loss': 0.0297, 'learning_rate': 8.044692201412343e-06, 'epoch': 83.91} {'loss': 0.0301, 'learning_rate': 8.042293521645688e-06, 'epoch': 83.92} {'loss': 0.0295, 'learning_rate': 8.039894841879029e-06, 'epoch': 83.92} {'loss': 0.0314, 'learning_rate': 8.037496162112373e-06, 'epoch': 83.93} {'loss': 0.0291, 'learning_rate': 8.035097482345718e-06, 'epoch': 83.93} {'loss': 0.0308, 'learning_rate': 8.03269880257906e-06, 'epoch': 83.93} {'loss': 0.0302, 'learning_rate': 8.030300122812405e-06, 'epoch': 83.94} {'loss': 0.0296, 'learning_rate': 8.027901443045747e-06, 'epoch': 83.94} {'loss': 0.0307, 'learning_rate': 8.025502763279092e-06, 'epoch': 83.95} {'loss': 0.0297, 'learning_rate': 8.023104083512435e-06, 'epoch': 83.95} {'loss': 0.0299, 'learning_rate': 8.020705403745779e-06, 'epoch': 83.96} {'loss': 0.0318, 'learning_rate': 8.018306723979123e-06, 'epoch': 83.96} {'loss': 0.0305, 'learning_rate': 8.015908044212466e-06, 'epoch': 83.97} {'loss': 0.0294, 'learning_rate': 8.013509364445809e-06, 'epoch': 83.97} {'loss': 0.0296, 'learning_rate': 8.011110684679153e-06, 'epoch': 83.98} {'loss': 0.0294, 'learning_rate': 8.008712004912498e-06, 'epoch': 83.98} {'loss': 0.0283, 'learning_rate': 8.006313325145839e-06, 'epoch': 83.99} {'loss': 0.0287, 'learning_rate': 8.003914645379183e-06, 'epoch': 83.99} {'loss': 0.0291, 'learning_rate': 8.001515965612527e-06, 'epoch': 84.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.032104406505823135, 'eval_runtime': 736.077, 'eval_samples_per_second': 566.374, 'eval_steps_per_second': 70.797, 'epoch': 84.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-8754816 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-8754816/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-8754816/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-8650592] due to args.save_total_limit {'loss': 0.03, 'learning_rate': 7.999117285845872e-06, 'epoch': 84.0} {'loss': 0.0284, 'learning_rate': 7.996718606079214e-06, 'epoch': 84.01} {'loss': 0.0301, 'learning_rate': 7.994319926312557e-06, 'epoch': 84.01} {'loss': 0.0281, 'learning_rate': 7.991921246545902e-06, 'epoch': 84.02} {'loss': 0.0298, 'learning_rate': 7.989522566779244e-06, 'epoch': 84.02} {'loss': 0.0288, 'learning_rate': 7.987123887012589e-06, 'epoch': 84.03} {'loss': 0.0313, 'learning_rate': 7.984725207245933e-06, 'epoch': 84.03} {'loss': 0.0283, 'learning_rate': 7.982326527479276e-06, 'epoch': 84.04} {'loss': 0.0284, 'learning_rate': 7.979927847712618e-06, 'epoch': 84.04} {'loss': 0.0277, 'learning_rate': 7.977529167945963e-06, 'epoch': 84.04} {'loss': 0.0289, 'learning_rate': 7.975130488179307e-06, 'epoch': 84.05} {'loss': 0.0303, 'learning_rate': 7.97273180841265e-06, 'epoch': 84.05} {'loss': 0.0292, 'learning_rate': 7.970333128645993e-06, 'epoch': 84.06} {'loss': 0.031, 'learning_rate': 7.967934448879337e-06, 'epoch': 84.06} {'loss': 0.0285, 'learning_rate': 7.965535769112681e-06, 'epoch': 84.07} {'loss': 0.0321, 'learning_rate': 7.963137089346024e-06, 'epoch': 84.07} {'loss': 0.0281, 'learning_rate': 7.960738409579369e-06, 'epoch': 84.08} {'loss': 0.0282, 'learning_rate': 7.958339729812711e-06, 'epoch': 84.08} {'loss': 0.0294, 'learning_rate': 7.955941050046056e-06, 'epoch': 84.09} {'loss': 0.0299, 'learning_rate': 7.953542370279398e-06, 'epoch': 84.09} {'loss': 0.0294, 'learning_rate': 7.951143690512743e-06, 'epoch': 84.1} {'loss': 0.0291, 'learning_rate': 7.948745010746085e-06, 'epoch': 84.1} {'loss': 0.0287, 'learning_rate': 7.946346330979428e-06, 'epoch': 84.11} {'loss': 0.0287, 'learning_rate': 7.943947651212773e-06, 'epoch': 84.11} {'loss': 0.0298, 'learning_rate': 7.941548971446117e-06, 'epoch': 84.12} {'loss': 0.0308, 'learning_rate': 7.93915029167946e-06, 'epoch': 84.12} {'loss': 0.0283, 'learning_rate': 7.936751611912802e-06, 'epoch': 84.13} {'loss': 0.0284, 'learning_rate': 7.934352932146147e-06, 'epoch': 84.13} {'loss': 0.0297, 'learning_rate': 7.931954252379491e-06, 'epoch': 84.14} {'loss': 0.031, 'learning_rate': 7.929555572612834e-06, 'epoch': 84.14} {'loss': 0.0288, 'learning_rate': 7.927156892846178e-06, 'epoch': 84.15} {'loss': 0.0293, 'learning_rate': 7.924758213079521e-06, 'epoch': 84.15} {'loss': 0.0298, 'learning_rate': 7.922359533312865e-06, 'epoch': 84.16} {'loss': 0.0295, 'learning_rate': 7.919960853546208e-06, 'epoch': 84.16} {'loss': 0.029, 'learning_rate': 7.917562173779552e-06, 'epoch': 84.16} {'loss': 0.0299, 'learning_rate': 7.915163494012897e-06, 'epoch': 84.17} {'loss': 0.0284, 'learning_rate': 7.91276481424624e-06, 'epoch': 84.17} {'loss': 0.0294, 'learning_rate': 7.910366134479582e-06, 'epoch': 84.18} {'loss': 0.0311, 'learning_rate': 7.907967454712927e-06, 'epoch': 84.18} {'loss': 0.0309, 'learning_rate': 7.905568774946271e-06, 'epoch': 84.19} {'loss': 0.0287, 'learning_rate': 7.903170095179614e-06, 'epoch': 84.19} {'loss': 0.0286, 'learning_rate': 7.900771415412956e-06, 'epoch': 84.2} {'loss': 0.0299, 'learning_rate': 7.898372735646301e-06, 'epoch': 84.2} {'loss': 0.0274, 'learning_rate': 7.895974055879644e-06, 'epoch': 84.21} {'loss': 0.0294, 'learning_rate': 7.893575376112988e-06, 'epoch': 84.21} {'loss': 0.0294, 'learning_rate': 7.89117669634633e-06, 'epoch': 84.22} {'loss': 0.0286, 'learning_rate': 7.888778016579675e-06, 'epoch': 84.22} {'loss': 0.0299, 'learning_rate': 7.886379336813018e-06, 'epoch': 84.23} {'loss': 0.0306, 'learning_rate': 7.883980657046362e-06, 'epoch': 84.23} {'loss': 0.0286, 'learning_rate': 7.881581977279707e-06, 'epoch': 84.24} {'loss': 0.0291, 'learning_rate': 7.87918329751305e-06, 'epoch': 84.24} {'loss': 0.0307, 'learning_rate': 7.876784617746392e-06, 'epoch': 84.25} {'loss': 0.0297, 'learning_rate': 7.874385937979736e-06, 'epoch': 84.25} {'loss': 0.0305, 'learning_rate': 7.87198725821308e-06, 'epoch': 84.26} {'loss': 0.0298, 'learning_rate': 7.869588578446423e-06, 'epoch': 84.26} {'loss': 0.028, 'learning_rate': 7.867189898679766e-06, 'epoch': 84.27} {'loss': 0.0305, 'learning_rate': 7.86479121891311e-06, 'epoch': 84.27} {'loss': 0.0283, 'learning_rate': 7.862392539146455e-06, 'epoch': 84.28} {'loss': 0.0299, 'learning_rate': 7.859993859379798e-06, 'epoch': 84.28} {'loss': 0.0287, 'learning_rate': 7.857595179613142e-06, 'epoch': 84.28} {'loss': 0.029, 'learning_rate': 7.855196499846485e-06, 'epoch': 84.29} {'loss': 0.0302, 'learning_rate': 7.852797820079828e-06, 'epoch': 84.29} {'loss': 0.0266, 'learning_rate': 7.850399140313172e-06, 'epoch': 84.3} {'loss': 0.0279, 'learning_rate': 7.848000460546516e-06, 'epoch': 84.3} {'loss': 0.0286, 'learning_rate': 7.845601780779859e-06, 'epoch': 84.31} {'loss': 0.0297, 'learning_rate': 7.843203101013202e-06, 'epoch': 84.31} {'loss': 0.0277, 'learning_rate': 7.840804421246546e-06, 'epoch': 84.32} {'loss': 0.0312, 'learning_rate': 7.83840574147989e-06, 'epoch': 84.32} {'loss': 0.0283, 'learning_rate': 7.836007061713233e-06, 'epoch': 84.33} {'loss': 0.0276, 'learning_rate': 7.833608381946576e-06, 'epoch': 84.33} {'loss': 0.0293, 'learning_rate': 7.83120970217992e-06, 'epoch': 84.34} {'loss': 0.029, 'learning_rate': 7.828811022413265e-06, 'epoch': 84.34} {'loss': 0.0288, 'learning_rate': 7.826412342646607e-06, 'epoch': 84.35} {'loss': 0.0302, 'learning_rate': 7.824013662879952e-06, 'epoch': 84.35} {'loss': 0.0297, 'learning_rate': 7.821614983113295e-06, 'epoch': 84.36} {'loss': 0.0288, 'learning_rate': 7.819216303346639e-06, 'epoch': 84.36} {'loss': 0.0301, 'learning_rate': 7.816817623579982e-06, 'epoch': 84.37} {'loss': 0.0289, 'learning_rate': 7.814418943813326e-06, 'epoch': 84.37} {'loss': 0.0303, 'learning_rate': 7.81202026404667e-06, 'epoch': 84.38} {'loss': 0.0277, 'learning_rate': 7.809621584280011e-06, 'epoch': 84.38} {'loss': 0.0285, 'learning_rate': 7.807222904513356e-06, 'epoch': 84.39} {'loss': 0.0283, 'learning_rate': 7.8048242247467e-06, 'epoch': 84.39} {'loss': 0.0284, 'learning_rate': 7.802425544980043e-06, 'epoch': 84.4} {'loss': 0.0275, 'learning_rate': 7.800026865213387e-06, 'epoch': 84.4} {'loss': 0.0317, 'learning_rate': 7.79762818544673e-06, 'epoch': 84.4} {'loss': 0.0287, 'learning_rate': 7.795229505680074e-06, 'epoch': 84.41} {'loss': 0.0293, 'learning_rate': 7.792830825913417e-06, 'epoch': 84.41} {'loss': 0.027, 'learning_rate': 7.790432146146762e-06, 'epoch': 84.42} {'loss': 0.0289, 'learning_rate': 7.788033466380104e-06, 'epoch': 84.42} {'loss': 0.03, 'learning_rate': 7.785634786613449e-06, 'epoch': 84.43} {'loss': 0.0307, 'learning_rate': 7.783236106846791e-06, 'epoch': 84.43} {'loss': 0.0288, 'learning_rate': 7.780837427080136e-06, 'epoch': 84.44} {'loss': 0.0289, 'learning_rate': 7.77843874731348e-06, 'epoch': 84.44} {'loss': 0.0289, 'learning_rate': 7.776040067546823e-06, 'epoch': 84.45} {'loss': 0.0293, 'learning_rate': 7.773641387780166e-06, 'epoch': 84.45} {'loss': 0.0297, 'learning_rate': 7.77124270801351e-06, 'epoch': 84.46} {'loss': 0.0298, 'learning_rate': 7.768844028246854e-06, 'epoch': 84.46} {'loss': 0.0298, 'learning_rate': 7.766445348480197e-06, 'epoch': 84.47} {'loss': 0.0302, 'learning_rate': 7.76404666871354e-06, 'epoch': 84.47} {'loss': 0.0279, 'learning_rate': 7.761647988946884e-06, 'epoch': 84.48} {'loss': 0.0305, 'learning_rate': 7.759249309180227e-06, 'epoch': 84.48} {'loss': 0.0284, 'learning_rate': 7.756850629413571e-06, 'epoch': 84.49} {'loss': 0.0296, 'learning_rate': 7.754451949646916e-06, 'epoch': 84.49} {'loss': 0.0294, 'learning_rate': 7.752053269880258e-06, 'epoch': 84.5} {'loss': 0.0309, 'learning_rate': 7.749654590113601e-06, 'epoch': 84.5} {'loss': 0.0298, 'learning_rate': 7.747255910346945e-06, 'epoch': 84.51} {'loss': 0.0285, 'learning_rate': 7.74485723058029e-06, 'epoch': 84.51} {'loss': 0.0284, 'learning_rate': 7.742458550813633e-06, 'epoch': 84.52} {'loss': 0.0294, 'learning_rate': 7.740059871046975e-06, 'epoch': 84.52} {'loss': 0.0304, 'learning_rate': 7.73766119128032e-06, 'epoch': 84.52} {'loss': 0.0286, 'learning_rate': 7.735262511513664e-06, 'epoch': 84.53} {'loss': 0.0299, 'learning_rate': 7.732863831747007e-06, 'epoch': 84.53} {'loss': 0.0273, 'learning_rate': 7.73046515198035e-06, 'epoch': 84.54} {'loss': 0.0288, 'learning_rate': 7.728066472213694e-06, 'epoch': 84.54} {'loss': 0.0302, 'learning_rate': 7.725667792447038e-06, 'epoch': 84.55} {'loss': 0.0305, 'learning_rate': 7.723269112680381e-06, 'epoch': 84.55} {'loss': 0.0311, 'learning_rate': 7.720870432913725e-06, 'epoch': 84.56} {'loss': 0.0303, 'learning_rate': 7.718471753147068e-06, 'epoch': 84.56} {'loss': 0.0306, 'learning_rate': 7.71607307338041e-06, 'epoch': 84.57} {'loss': 0.0275, 'learning_rate': 7.713674393613755e-06, 'epoch': 84.57} {'loss': 0.0286, 'learning_rate': 7.7112757138471e-06, 'epoch': 84.58} {'loss': 0.0295, 'learning_rate': 7.708877034080444e-06, 'epoch': 84.58} {'loss': 0.0271, 'learning_rate': 7.706478354313785e-06, 'epoch': 84.59} {'loss': 0.029, 'learning_rate': 7.70407967454713e-06, 'epoch': 84.59} {'loss': 0.0268, 'learning_rate': 7.701680994780474e-06, 'epoch': 84.6} {'loss': 0.029, 'learning_rate': 7.699282315013816e-06, 'epoch': 84.6} {'loss': 0.0295, 'learning_rate': 7.69688363524716e-06, 'epoch': 84.61} {'loss': 0.0294, 'learning_rate': 7.694484955480504e-06, 'epoch': 84.61} {'loss': 0.0295, 'learning_rate': 7.692086275713848e-06, 'epoch': 84.62} {'loss': 0.0293, 'learning_rate': 7.68968759594719e-06, 'epoch': 84.62} {'loss': 0.0296, 'learning_rate': 7.687288916180535e-06, 'epoch': 84.63} {'loss': 0.0276, 'learning_rate': 7.684890236413878e-06, 'epoch': 84.63} {'loss': 0.0298, 'learning_rate': 7.682491556647222e-06, 'epoch': 84.64} {'loss': 0.029, 'learning_rate': 7.680092876880565e-06, 'epoch': 84.64} {'loss': 0.0273, 'learning_rate': 7.67769419711391e-06, 'epoch': 84.64} {'loss': 0.0276, 'learning_rate': 7.675295517347254e-06, 'epoch': 84.65} {'loss': 0.03, 'learning_rate': 7.672896837580595e-06, 'epoch': 84.65} {'loss': 0.0291, 'learning_rate': 7.670498157813939e-06, 'epoch': 84.66} {'loss': 0.0269, 'learning_rate': 7.668099478047283e-06, 'epoch': 84.66} {'loss': 0.0304, 'learning_rate': 7.665700798280628e-06, 'epoch': 84.67} {'loss': 0.0295, 'learning_rate': 7.66330211851397e-06, 'epoch': 84.67} {'loss': 0.0304, 'learning_rate': 7.660903438747313e-06, 'epoch': 84.68} {'loss': 0.028, 'learning_rate': 7.658504758980658e-06, 'epoch': 84.68} {'loss': 0.0292, 'learning_rate': 7.656106079214e-06, 'epoch': 84.69} {'loss': 0.0279, 'learning_rate': 7.653707399447345e-06, 'epoch': 84.69} {'loss': 0.0305, 'learning_rate': 7.651308719680689e-06, 'epoch': 84.7} {'loss': 0.0284, 'learning_rate': 7.648910039914032e-06, 'epoch': 84.7} {'loss': 0.0298, 'learning_rate': 7.646511360147375e-06, 'epoch': 84.71} {'loss': 0.0296, 'learning_rate': 7.644112680380719e-06, 'epoch': 84.71} {'loss': 0.0277, 'learning_rate': 7.641714000614063e-06, 'epoch': 84.72} {'loss': 0.0294, 'learning_rate': 7.639315320847406e-06, 'epoch': 84.72} {'loss': 0.0297, 'learning_rate': 7.636916641080749e-06, 'epoch': 84.73} {'loss': 0.0299, 'learning_rate': 7.634517961314093e-06, 'epoch': 84.73} {'loss': 0.0284, 'learning_rate': 7.632119281547438e-06, 'epoch': 84.74} {'loss': 0.0289, 'learning_rate': 7.62972060178078e-06, 'epoch': 84.74} {'loss': 0.0295, 'learning_rate': 7.627321922014123e-06, 'epoch': 84.75} {'loss': 0.0295, 'learning_rate': 7.624923242247467e-06, 'epoch': 84.75} {'loss': 0.0293, 'learning_rate': 7.622524562480811e-06, 'epoch': 84.75} {'loss': 0.0291, 'learning_rate': 7.620125882714154e-06, 'epoch': 84.76} {'loss': 0.0292, 'learning_rate': 7.617727202947499e-06, 'epoch': 84.76} {'loss': 0.0307, 'learning_rate': 7.615328523180841e-06, 'epoch': 84.77} {'loss': 0.03, 'learning_rate': 7.612929843414185e-06, 'epoch': 84.77} {'loss': 0.0283, 'learning_rate': 7.610531163647529e-06, 'epoch': 84.78} {'loss': 0.0281, 'learning_rate': 7.608132483880873e-06, 'epoch': 84.78} {'loss': 0.0281, 'learning_rate': 7.6057338041142166e-06, 'epoch': 84.79} {'loss': 0.029, 'learning_rate': 7.603335124347559e-06, 'epoch': 84.79} {'loss': 0.0307, 'learning_rate': 7.600936444580903e-06, 'epoch': 84.8} {'loss': 0.0313, 'learning_rate': 7.598537764814246e-06, 'epoch': 84.8} {'loss': 0.0296, 'learning_rate': 7.596139085047591e-06, 'epoch': 84.81} {'loss': 0.0286, 'learning_rate': 7.593740405280934e-06, 'epoch': 84.81} {'loss': 0.029, 'learning_rate': 7.591341725514277e-06, 'epoch': 84.82} {'loss': 0.0296, 'learning_rate': 7.5889430457476206e-06, 'epoch': 84.82} {'loss': 0.0301, 'learning_rate': 7.586544365980965e-06, 'epoch': 84.83} {'loss': 0.0284, 'learning_rate': 7.5841456862143085e-06, 'epoch': 84.83} {'loss': 0.0288, 'learning_rate': 7.581747006447651e-06, 'epoch': 84.84} {'loss': 0.0295, 'learning_rate': 7.579348326680995e-06, 'epoch': 84.84} {'loss': 0.0297, 'learning_rate': 7.576949646914338e-06, 'epoch': 84.85} {'loss': 0.0288, 'learning_rate': 7.574550967147683e-06, 'epoch': 84.85} {'loss': 0.0273, 'learning_rate': 7.572152287381026e-06, 'epoch': 84.86} {'loss': 0.0293, 'learning_rate': 7.569753607614369e-06, 'epoch': 84.86} {'loss': 0.0303, 'learning_rate': 7.5673549278477125e-06, 'epoch': 84.87} {'loss': 0.0308, 'learning_rate': 7.564956248081057e-06, 'epoch': 84.87} {'loss': 0.0286, 'learning_rate': 7.5625575683144005e-06, 'epoch': 84.87} {'loss': 0.0308, 'learning_rate': 7.560158888547744e-06, 'epoch': 84.88} {'loss': 0.0279, 'learning_rate': 7.557760208781087e-06, 'epoch': 84.88} {'loss': 0.0306, 'learning_rate': 7.55536152901443e-06, 'epoch': 84.89} {'loss': 0.0302, 'learning_rate': 7.552962849247775e-06, 'epoch': 84.89} {'loss': 0.0309, 'learning_rate': 7.550564169481118e-06, 'epoch': 84.9} {'loss': 0.0277, 'learning_rate': 7.548165489714462e-06, 'epoch': 84.9} {'loss': 0.0284, 'learning_rate': 7.5457668099478045e-06, 'epoch': 84.91} {'loss': 0.0306, 'learning_rate': 7.543368130181149e-06, 'epoch': 84.91} {'loss': 0.029, 'learning_rate': 7.540969450414492e-06, 'epoch': 84.92} {'loss': 0.0301, 'learning_rate': 7.538570770647836e-06, 'epoch': 84.92} {'loss': 0.0276, 'learning_rate': 7.53617209088118e-06, 'epoch': 84.93} {'loss': 0.0281, 'learning_rate': 7.533773411114522e-06, 'epoch': 84.93} {'loss': 0.03, 'learning_rate': 7.531374731347867e-06, 'epoch': 84.94} {'loss': 0.0296, 'learning_rate': 7.52897605158121e-06, 'epoch': 84.94} {'loss': 0.0313, 'learning_rate': 7.526577371814554e-06, 'epoch': 84.95} {'loss': 0.0283, 'learning_rate': 7.5241786920478964e-06, 'epoch': 84.95} {'loss': 0.0302, 'learning_rate': 7.521780012281241e-06, 'epoch': 84.96} {'loss': 0.028, 'learning_rate': 7.519381332514584e-06, 'epoch': 84.96} {'loss': 0.0297, 'learning_rate': 7.516982652747928e-06, 'epoch': 84.97} {'loss': 0.0292, 'learning_rate': 7.514583972981272e-06, 'epoch': 84.97} {'loss': 0.03, 'learning_rate': 7.512185293214614e-06, 'epoch': 84.98} {'loss': 0.0303, 'learning_rate': 7.5097866134479586e-06, 'epoch': 84.98} {'loss': 0.0295, 'learning_rate': 7.507387933681302e-06, 'epoch': 84.99} {'loss': 0.029, 'learning_rate': 7.504989253914646e-06, 'epoch': 84.99} {'loss': 0.0286, 'learning_rate': 7.50259057414799e-06, 'epoch': 84.99} {'loss': 0.0314, 'learning_rate': 7.500191894381333e-06, 'epoch': 85.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03162547945976257, 'eval_runtime': 741.0171, 'eval_samples_per_second': 562.598, 'eval_steps_per_second': 70.325, 'epoch': 85.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-8859040 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-8859040/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-8859040/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-8754816] due to args.save_total_limit {'loss': 0.027, 'learning_rate': 7.497793214614676e-06, 'epoch': 85.0} {'loss': 0.0276, 'learning_rate': 7.49539453484802e-06, 'epoch': 85.01} {'loss': 0.0303, 'learning_rate': 7.492995855081364e-06, 'epoch': 85.01} {'loss': 0.0295, 'learning_rate': 7.490597175314708e-06, 'epoch': 85.02} {'loss': 0.0278, 'learning_rate': 7.4881984955480505e-06, 'epoch': 85.02} {'loss': 0.029, 'learning_rate': 7.485799815781394e-06, 'epoch': 85.03} {'loss': 0.0273, 'learning_rate': 7.483401136014738e-06, 'epoch': 85.03} {'loss': 0.03, 'learning_rate': 7.481002456248082e-06, 'epoch': 85.04} {'loss': 0.0285, 'learning_rate': 7.478603776481424e-06, 'epoch': 85.04} {'loss': 0.0283, 'learning_rate': 7.476205096714768e-06, 'epoch': 85.05} {'loss': 0.029, 'learning_rate': 7.473806416948112e-06, 'epoch': 85.05} {'loss': 0.0277, 'learning_rate': 7.471407737181456e-06, 'epoch': 85.06} {'loss': 0.0288, 'learning_rate': 7.4690090574148e-06, 'epoch': 85.06} {'loss': 0.0288, 'learning_rate': 7.4666103776481425e-06, 'epoch': 85.07} {'loss': 0.0278, 'learning_rate': 7.464211697881486e-06, 'epoch': 85.07} {'loss': 0.0311, 'learning_rate': 7.46181301811483e-06, 'epoch': 85.08} {'loss': 0.0288, 'learning_rate': 7.459414338348174e-06, 'epoch': 85.08} {'loss': 0.0279, 'learning_rate': 7.4570156585815175e-06, 'epoch': 85.09} {'loss': 0.028, 'learning_rate': 7.45461697881486e-06, 'epoch': 85.09} {'loss': 0.0305, 'learning_rate': 7.452218299048204e-06, 'epoch': 85.1} {'loss': 0.0285, 'learning_rate': 7.449819619281548e-06, 'epoch': 85.1} {'loss': 0.0283, 'learning_rate': 7.447420939514892e-06, 'epoch': 85.11} {'loss': 0.0303, 'learning_rate': 7.445022259748235e-06, 'epoch': 85.11} {'loss': 0.0301, 'learning_rate': 7.442623579981578e-06, 'epoch': 85.11} {'loss': 0.0287, 'learning_rate': 7.4402249002149215e-06, 'epoch': 85.12} {'loss': 0.0289, 'learning_rate': 7.437826220448266e-06, 'epoch': 85.12} {'loss': 0.0286, 'learning_rate': 7.4354275406816095e-06, 'epoch': 85.13} {'loss': 0.0288, 'learning_rate': 7.433028860914953e-06, 'epoch': 85.13} {'loss': 0.0288, 'learning_rate': 7.430630181148296e-06, 'epoch': 85.14} {'loss': 0.0295, 'learning_rate': 7.42823150138164e-06, 'epoch': 85.14} {'loss': 0.0279, 'learning_rate': 7.425832821614984e-06, 'epoch': 85.15} {'loss': 0.0281, 'learning_rate': 7.423434141848327e-06, 'epoch': 85.15} {'loss': 0.0295, 'learning_rate': 7.42103546208167e-06, 'epoch': 85.16} {'loss': 0.0293, 'learning_rate': 7.4186367823150135e-06, 'epoch': 85.16} {'loss': 0.0286, 'learning_rate': 7.416238102548358e-06, 'epoch': 85.17} {'loss': 0.0292, 'learning_rate': 7.4138394227817014e-06, 'epoch': 85.17} {'loss': 0.0289, 'learning_rate': 7.411440743015045e-06, 'epoch': 85.18} {'loss': 0.0282, 'learning_rate': 7.409042063248388e-06, 'epoch': 85.18} {'loss': 0.0289, 'learning_rate': 7.406643383481732e-06, 'epoch': 85.19} {'loss': 0.0289, 'learning_rate': 7.404244703715076e-06, 'epoch': 85.19} {'loss': 0.0286, 'learning_rate': 7.401846023948419e-06, 'epoch': 85.2} {'loss': 0.0287, 'learning_rate': 7.399447344181764e-06, 'epoch': 85.2} {'loss': 0.0301, 'learning_rate': 7.3970486644151054e-06, 'epoch': 85.21} {'loss': 0.0287, 'learning_rate': 7.39464998464845e-06, 'epoch': 85.21} {'loss': 0.0297, 'learning_rate': 7.392251304881793e-06, 'epoch': 85.22} {'loss': 0.0284, 'learning_rate': 7.389852625115137e-06, 'epoch': 85.22} {'loss': 0.0299, 'learning_rate': 7.387453945348481e-06, 'epoch': 85.23} {'loss': 0.0287, 'learning_rate': 7.385055265581824e-06, 'epoch': 85.23} {'loss': 0.0288, 'learning_rate': 7.382656585815168e-06, 'epoch': 85.23} {'loss': 0.029, 'learning_rate': 7.380257906048511e-06, 'epoch': 85.24} {'loss': 0.0293, 'learning_rate': 7.3778592262818555e-06, 'epoch': 85.24} {'loss': 0.029, 'learning_rate': 7.375460546515199e-06, 'epoch': 85.25} {'loss': 0.0275, 'learning_rate': 7.373061866748542e-06, 'epoch': 85.25} {'loss': 0.0293, 'learning_rate': 7.370663186981885e-06, 'epoch': 85.26} {'loss': 0.0274, 'learning_rate': 7.368264507215229e-06, 'epoch': 85.26} {'loss': 0.0277, 'learning_rate': 7.365865827448573e-06, 'epoch': 85.27} {'loss': 0.0286, 'learning_rate': 7.363467147681916e-06, 'epoch': 85.27} {'loss': 0.0278, 'learning_rate': 7.3610684679152595e-06, 'epoch': 85.28} {'loss': 0.0282, 'learning_rate': 7.358669788148603e-06, 'epoch': 85.28} {'loss': 0.0299, 'learning_rate': 7.3562711083819475e-06, 'epoch': 85.29} {'loss': 0.0277, 'learning_rate': 7.353872428615291e-06, 'epoch': 85.29} {'loss': 0.0289, 'learning_rate': 7.351473748848634e-06, 'epoch': 85.3} {'loss': 0.0286, 'learning_rate': 7.349075069081977e-06, 'epoch': 85.3} {'loss': 0.0291, 'learning_rate': 7.346676389315321e-06, 'epoch': 85.31} {'loss': 0.0303, 'learning_rate': 7.344277709548665e-06, 'epoch': 85.31} {'loss': 0.029, 'learning_rate': 7.341879029782009e-06, 'epoch': 85.32} {'loss': 0.0305, 'learning_rate': 7.3394803500153515e-06, 'epoch': 85.32} {'loss': 0.0285, 'learning_rate': 7.337081670248695e-06, 'epoch': 85.33} {'loss': 0.0299, 'learning_rate': 7.3346829904820394e-06, 'epoch': 85.33} {'loss': 0.0311, 'learning_rate': 7.332284310715383e-06, 'epoch': 85.34} {'loss': 0.0301, 'learning_rate': 7.3298856309487265e-06, 'epoch': 85.34} {'loss': 0.0284, 'learning_rate': 7.327486951182069e-06, 'epoch': 85.35} {'loss': 0.0302, 'learning_rate': 7.325088271415413e-06, 'epoch': 85.35} {'loss': 0.0295, 'learning_rate': 7.322689591648757e-06, 'epoch': 85.35} {'loss': 0.0286, 'learning_rate': 7.320290911882101e-06, 'epoch': 85.36} {'loss': 0.0282, 'learning_rate': 7.3178922321154434e-06, 'epoch': 85.36} {'loss': 0.0287, 'learning_rate': 7.315493552348787e-06, 'epoch': 85.37} {'loss': 0.0289, 'learning_rate': 7.313094872582131e-06, 'epoch': 85.37} {'loss': 0.0286, 'learning_rate': 7.310696192815475e-06, 'epoch': 85.38} {'loss': 0.0285, 'learning_rate': 7.3082975130488185e-06, 'epoch': 85.38} {'loss': 0.0304, 'learning_rate': 7.305898833282161e-06, 'epoch': 85.39} {'loss': 0.0283, 'learning_rate': 7.303500153515505e-06, 'epoch': 85.39} {'loss': 0.0276, 'learning_rate': 7.301101473748849e-06, 'epoch': 85.4} {'loss': 0.0285, 'learning_rate': 7.298702793982193e-06, 'epoch': 85.4} {'loss': 0.029, 'learning_rate': 7.296304114215537e-06, 'epoch': 85.41} {'loss': 0.0301, 'learning_rate': 7.293905434448879e-06, 'epoch': 85.41} {'loss': 0.0306, 'learning_rate': 7.291506754682223e-06, 'epoch': 85.42} {'loss': 0.0286, 'learning_rate': 7.289108074915567e-06, 'epoch': 85.42} {'loss': 0.0303, 'learning_rate': 7.2867093951489104e-06, 'epoch': 85.43} {'loss': 0.0284, 'learning_rate': 7.284310715382255e-06, 'epoch': 85.43} {'loss': 0.0293, 'learning_rate': 7.281912035615597e-06, 'epoch': 85.44} {'loss': 0.0282, 'learning_rate': 7.279513355848941e-06, 'epoch': 85.44} {'loss': 0.0292, 'learning_rate': 7.277114676082285e-06, 'epoch': 85.45} {'loss': 0.0287, 'learning_rate': 7.274715996315628e-06, 'epoch': 85.45} {'loss': 0.028, 'learning_rate': 7.272317316548973e-06, 'epoch': 85.46} {'loss': 0.0297, 'learning_rate': 7.269918636782315e-06, 'epoch': 85.46} {'loss': 0.0288, 'learning_rate': 7.267519957015659e-06, 'epoch': 85.46} {'loss': 0.0292, 'learning_rate': 7.265121277249002e-06, 'epoch': 85.47} {'loss': 0.0291, 'learning_rate': 7.262722597482347e-06, 'epoch': 85.47} {'loss': 0.0301, 'learning_rate': 7.260323917715689e-06, 'epoch': 85.48} {'loss': 0.0293, 'learning_rate': 7.257925237949033e-06, 'epoch': 85.48} {'loss': 0.0287, 'learning_rate': 7.255526558182377e-06, 'epoch': 85.49} {'loss': 0.0294, 'learning_rate': 7.25312787841572e-06, 'epoch': 85.49} {'loss': 0.0268, 'learning_rate': 7.2507291986490645e-06, 'epoch': 85.5} {'loss': 0.03, 'learning_rate': 7.248330518882407e-06, 'epoch': 85.5} {'loss': 0.0285, 'learning_rate': 7.245931839115751e-06, 'epoch': 85.51} {'loss': 0.0266, 'learning_rate': 7.243533159349094e-06, 'epoch': 85.51} {'loss': 0.0302, 'learning_rate': 7.241134479582439e-06, 'epoch': 85.52} {'loss': 0.0305, 'learning_rate': 7.238735799815782e-06, 'epoch': 85.52} {'loss': 0.0277, 'learning_rate': 7.236337120049125e-06, 'epoch': 85.53} {'loss': 0.0293, 'learning_rate': 7.2339384402824685e-06, 'epoch': 85.53} {'loss': 0.0279, 'learning_rate': 7.231539760515812e-06, 'epoch': 85.54} {'loss': 0.0292, 'learning_rate': 7.2291410807491565e-06, 'epoch': 85.54} {'loss': 0.0294, 'learning_rate': 7.2267424009825e-06, 'epoch': 85.55} {'loss': 0.029, 'learning_rate': 7.224343721215843e-06, 'epoch': 85.55} {'loss': 0.0284, 'learning_rate': 7.221945041449186e-06, 'epoch': 85.56} {'loss': 0.0283, 'learning_rate': 7.219546361682531e-06, 'epoch': 85.56} {'loss': 0.0295, 'learning_rate': 7.217147681915874e-06, 'epoch': 85.57} {'loss': 0.0303, 'learning_rate': 7.214749002149217e-06, 'epoch': 85.57} {'loss': 0.0296, 'learning_rate': 7.2123503223825605e-06, 'epoch': 85.58} {'loss': 0.0286, 'learning_rate': 7.209951642615904e-06, 'epoch': 85.58} {'loss': 0.0294, 'learning_rate': 7.2075529628492484e-06, 'epoch': 85.58} {'loss': 0.0272, 'learning_rate': 7.205154283082592e-06, 'epoch': 85.59} {'loss': 0.0285, 'learning_rate': 7.202755603315935e-06, 'epoch': 85.59} {'loss': 0.0285, 'learning_rate': 7.200356923549278e-06, 'epoch': 85.6} {'loss': 0.0278, 'learning_rate': 7.197958243782623e-06, 'epoch': 85.6} {'loss': 0.029, 'learning_rate': 7.195559564015966e-06, 'epoch': 85.61} {'loss': 0.0292, 'learning_rate': 7.19316088424931e-06, 'epoch': 85.61} {'loss': 0.0275, 'learning_rate': 7.1907622044826524e-06, 'epoch': 85.62} {'loss': 0.0279, 'learning_rate': 7.188363524715996e-06, 'epoch': 85.62} {'loss': 0.0297, 'learning_rate': 7.18596484494934e-06, 'epoch': 85.63} {'loss': 0.0282, 'learning_rate': 7.183566165182684e-06, 'epoch': 85.63} {'loss': 0.0298, 'learning_rate': 7.181167485416028e-06, 'epoch': 85.64} {'loss': 0.0286, 'learning_rate': 7.17876880564937e-06, 'epoch': 85.64} {'loss': 0.0305, 'learning_rate': 7.176370125882715e-06, 'epoch': 85.65} {'loss': 0.0293, 'learning_rate': 7.173971446116058e-06, 'epoch': 85.65} {'loss': 0.0303, 'learning_rate': 7.171572766349402e-06, 'epoch': 85.66} {'loss': 0.0307, 'learning_rate': 7.169174086582746e-06, 'epoch': 85.66} {'loss': 0.0303, 'learning_rate': 7.166775406816088e-06, 'epoch': 85.67} {'loss': 0.0317, 'learning_rate': 7.164376727049432e-06, 'epoch': 85.67} {'loss': 0.0316, 'learning_rate': 7.161978047282776e-06, 'epoch': 85.68} {'loss': 0.0322, 'learning_rate': 7.15957936751612e-06, 'epoch': 85.68} {'loss': 0.0286, 'learning_rate': 7.157180687749462e-06, 'epoch': 85.69} {'loss': 0.0293, 'learning_rate': 7.1547820079828065e-06, 'epoch': 85.69} {'loss': 0.0268, 'learning_rate': 7.15238332821615e-06, 'epoch': 85.7} {'loss': 0.03, 'learning_rate': 7.149984648449494e-06, 'epoch': 85.7} {'loss': 0.0287, 'learning_rate': 7.147585968682838e-06, 'epoch': 85.7} {'loss': 0.0276, 'learning_rate': 7.14518728891618e-06, 'epoch': 85.71} {'loss': 0.0299, 'learning_rate': 7.142788609149524e-06, 'epoch': 85.71} {'loss': 0.0287, 'learning_rate': 7.140389929382868e-06, 'epoch': 85.72} {'loss': 0.029, 'learning_rate': 7.137991249616212e-06, 'epoch': 85.72} {'loss': 0.0289, 'learning_rate': 7.135592569849556e-06, 'epoch': 85.73} {'loss': 0.0298, 'learning_rate': 7.1331938900828985e-06, 'epoch': 85.73} {'loss': 0.03, 'learning_rate': 7.130795210316242e-06, 'epoch': 85.74} {'loss': 0.0288, 'learning_rate': 7.128396530549586e-06, 'epoch': 85.74} {'loss': 0.0291, 'learning_rate': 7.12599785078293e-06, 'epoch': 85.75} {'loss': 0.0292, 'learning_rate': 7.1235991710162735e-06, 'epoch': 85.75} {'loss': 0.0282, 'learning_rate': 7.121200491249616e-06, 'epoch': 85.76} {'loss': 0.0288, 'learning_rate': 7.11880181148296e-06, 'epoch': 85.76} {'loss': 0.0295, 'learning_rate': 7.116403131716304e-06, 'epoch': 85.77} {'loss': 0.0284, 'learning_rate': 7.114004451949648e-06, 'epoch': 85.77} {'loss': 0.0277, 'learning_rate': 7.111605772182991e-06, 'epoch': 85.78} {'loss': 0.0283, 'learning_rate': 7.109207092416334e-06, 'epoch': 85.78} {'loss': 0.0297, 'learning_rate': 7.1068084126496776e-06, 'epoch': 85.79} {'loss': 0.0293, 'learning_rate': 7.104409732883022e-06, 'epoch': 85.79} {'loss': 0.0297, 'learning_rate': 7.1020110531163655e-06, 'epoch': 85.8} {'loss': 0.0285, 'learning_rate': 7.099612373349708e-06, 'epoch': 85.8} {'loss': 0.0283, 'learning_rate': 7.097213693583052e-06, 'epoch': 85.81} {'loss': 0.0283, 'learning_rate': 7.094815013816396e-06, 'epoch': 85.81} {'loss': 0.0298, 'learning_rate': 7.09241633404974e-06, 'epoch': 85.82} {'loss': 0.0288, 'learning_rate': 7.090017654283083e-06, 'epoch': 85.82} {'loss': 0.0284, 'learning_rate': 7.087618974516426e-06, 'epoch': 85.82} {'loss': 0.029, 'learning_rate': 7.0852202947497695e-06, 'epoch': 85.83} {'loss': 0.0285, 'learning_rate': 7.082821614983114e-06, 'epoch': 85.83} {'loss': 0.0302, 'learning_rate': 7.0804229352164575e-06, 'epoch': 85.84} {'loss': 0.0296, 'learning_rate': 7.078024255449801e-06, 'epoch': 85.84} {'loss': 0.0275, 'learning_rate': 7.075625575683144e-06, 'epoch': 85.85} {'loss': 0.0283, 'learning_rate': 7.073226895916488e-06, 'epoch': 85.85} {'loss': 0.0291, 'learning_rate': 7.070828216149832e-06, 'epoch': 85.86} {'loss': 0.0309, 'learning_rate': 7.068429536383175e-06, 'epoch': 85.86} {'loss': 0.0279, 'learning_rate': 7.06603085661652e-06, 'epoch': 85.87} {'loss': 0.0278, 'learning_rate': 7.0636321768498615e-06, 'epoch': 85.87} {'loss': 0.0287, 'learning_rate': 7.061233497083206e-06, 'epoch': 85.88} {'loss': 0.0296, 'learning_rate': 7.058834817316549e-06, 'epoch': 85.88} {'loss': 0.0288, 'learning_rate': 7.056436137549893e-06, 'epoch': 85.89} {'loss': 0.0297, 'learning_rate': 7.054037457783236e-06, 'epoch': 85.89} {'loss': 0.0284, 'learning_rate': 7.051638778016579e-06, 'epoch': 85.9} {'loss': 0.0301, 'learning_rate': 7.049240098249924e-06, 'epoch': 85.9} {'loss': 0.0299, 'learning_rate': 7.046841418483267e-06, 'epoch': 85.91} {'loss': 0.0304, 'learning_rate': 7.0444427387166116e-06, 'epoch': 85.91} {'loss': 0.0288, 'learning_rate': 7.042044058949953e-06, 'epoch': 85.92} {'loss': 0.0284, 'learning_rate': 7.039645379183298e-06, 'epoch': 85.92} {'loss': 0.0312, 'learning_rate': 7.037246699416641e-06, 'epoch': 85.93} {'loss': 0.0278, 'learning_rate': 7.034848019649985e-06, 'epoch': 85.93} {'loss': 0.0285, 'learning_rate': 7.032449339883329e-06, 'epoch': 85.94} {'loss': 0.0288, 'learning_rate': 7.030050660116671e-06, 'epoch': 85.94} {'loss': 0.0286, 'learning_rate': 7.0276519803500156e-06, 'epoch': 85.94} {'loss': 0.028, 'learning_rate': 7.025253300583359e-06, 'epoch': 85.95} {'loss': 0.0277, 'learning_rate': 7.0228546208167035e-06, 'epoch': 85.95} {'loss': 0.0276, 'learning_rate': 7.020455941050047e-06, 'epoch': 85.96} {'loss': 0.029, 'learning_rate': 7.01805726128339e-06, 'epoch': 85.96} {'loss': 0.0283, 'learning_rate': 7.015658581516733e-06, 'epoch': 85.97} {'loss': 0.0297, 'learning_rate': 7.013259901750077e-06, 'epoch': 85.97} {'loss': 0.0301, 'learning_rate': 7.010861221983421e-06, 'epoch': 85.98} {'loss': 0.0281, 'learning_rate': 7.008462542216765e-06, 'epoch': 85.98} {'loss': 0.0301, 'learning_rate': 7.0060638624501075e-06, 'epoch': 85.99} {'loss': 0.0273, 'learning_rate': 7.003665182683451e-06, 'epoch': 85.99} {'loss': 0.0274, 'learning_rate': 7.0012665029167955e-06, 'epoch': 86.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03160565719008446, 'eval_runtime': 782.0355, 'eval_samples_per_second': 533.09, 'eval_steps_per_second': 66.636, 'epoch': 86.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-8963264 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-8963264/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-8963264/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-8859040] due to args.save_total_limit {'loss': 0.0283, 'learning_rate': 6.998867823150139e-06, 'epoch': 86.0} {'loss': 0.0281, 'learning_rate': 6.996469143383482e-06, 'epoch': 86.01} {'loss': 0.0299, 'learning_rate': 6.994070463616825e-06, 'epoch': 86.01} {'loss': 0.0286, 'learning_rate': 6.991671783850169e-06, 'epoch': 86.02} {'loss': 0.0269, 'learning_rate': 6.989273104083513e-06, 'epoch': 86.02} {'loss': 0.0295, 'learning_rate': 6.986874424316857e-06, 'epoch': 86.03} {'loss': 0.0274, 'learning_rate': 6.9844757445501995e-06, 'epoch': 86.03} {'loss': 0.0267, 'learning_rate': 6.982077064783543e-06, 'epoch': 86.04} {'loss': 0.0298, 'learning_rate': 6.979678385016887e-06, 'epoch': 86.04} {'loss': 0.0289, 'learning_rate': 6.977279705250231e-06, 'epoch': 86.05} {'loss': 0.0302, 'learning_rate': 6.9748810254835745e-06, 'epoch': 86.05} {'loss': 0.0278, 'learning_rate': 6.972482345716917e-06, 'epoch': 86.06} {'loss': 0.0274, 'learning_rate': 6.970083665950261e-06, 'epoch': 86.06} {'loss': 0.029, 'learning_rate': 6.967684986183605e-06, 'epoch': 86.06} {'loss': 0.0287, 'learning_rate': 6.965286306416949e-06, 'epoch': 86.07} {'loss': 0.0287, 'learning_rate': 6.962887626650292e-06, 'epoch': 86.07} {'loss': 0.0275, 'learning_rate': 6.960488946883635e-06, 'epoch': 86.08} {'loss': 0.029, 'learning_rate': 6.958090267116979e-06, 'epoch': 86.08} {'loss': 0.0272, 'learning_rate': 6.955691587350323e-06, 'epoch': 86.09} {'loss': 0.0276, 'learning_rate': 6.9532929075836665e-06, 'epoch': 86.09} {'loss': 0.0273, 'learning_rate': 6.950894227817009e-06, 'epoch': 86.1} {'loss': 0.0291, 'learning_rate': 6.948495548050353e-06, 'epoch': 86.1} {'loss': 0.0274, 'learning_rate': 6.946096868283697e-06, 'epoch': 86.11} {'loss': 0.0271, 'learning_rate': 6.943698188517041e-06, 'epoch': 86.11} {'loss': 0.0301, 'learning_rate': 6.941299508750384e-06, 'epoch': 86.12} {'loss': 0.0289, 'learning_rate': 6.938900828983727e-06, 'epoch': 86.12} {'loss': 0.0282, 'learning_rate': 6.936502149217071e-06, 'epoch': 86.13} {'loss': 0.0283, 'learning_rate': 6.934103469450415e-06, 'epoch': 86.13} {'loss': 0.0297, 'learning_rate': 6.931704789683758e-06, 'epoch': 86.14} {'loss': 0.0285, 'learning_rate': 6.929306109917103e-06, 'epoch': 86.14} {'loss': 0.0287, 'learning_rate': 6.926907430150445e-06, 'epoch': 86.15} {'loss': 0.0274, 'learning_rate': 6.924508750383789e-06, 'epoch': 86.15} {'loss': 0.0291, 'learning_rate': 6.922110070617133e-06, 'epoch': 86.16} {'loss': 0.0301, 'learning_rate': 6.919711390850476e-06, 'epoch': 86.16} {'loss': 0.0286, 'learning_rate': 6.9173127110838206e-06, 'epoch': 86.17} {'loss': 0.0276, 'learning_rate': 6.914914031317163e-06, 'epoch': 86.17} {'loss': 0.028, 'learning_rate': 6.912515351550507e-06, 'epoch': 86.17} {'loss': 0.0289, 'learning_rate': 6.91011667178385e-06, 'epoch': 86.18} {'loss': 0.0286, 'learning_rate': 6.907717992017195e-06, 'epoch': 86.18} {'loss': 0.0285, 'learning_rate': 6.905319312250538e-06, 'epoch': 86.19} {'loss': 0.0282, 'learning_rate': 6.902920632483881e-06, 'epoch': 86.19} {'loss': 0.0283, 'learning_rate': 6.9005219527172246e-06, 'epoch': 86.2} {'loss': 0.0278, 'learning_rate': 6.898123272950568e-06, 'epoch': 86.2} {'loss': 0.0296, 'learning_rate': 6.8957245931839125e-06, 'epoch': 86.21} {'loss': 0.0272, 'learning_rate': 6.893325913417255e-06, 'epoch': 86.21} {'loss': 0.029, 'learning_rate': 6.890927233650599e-06, 'epoch': 86.22} {'loss': 0.0295, 'learning_rate': 6.888528553883942e-06, 'epoch': 86.22} {'loss': 0.028, 'learning_rate': 6.886129874117287e-06, 'epoch': 86.23} {'loss': 0.0297, 'learning_rate': 6.88373119435063e-06, 'epoch': 86.23} {'loss': 0.0276, 'learning_rate': 6.881332514583973e-06, 'epoch': 86.24} {'loss': 0.0295, 'learning_rate': 6.8789338348173165e-06, 'epoch': 86.24} {'loss': 0.028, 'learning_rate': 6.87653515505066e-06, 'epoch': 86.25} {'loss': 0.0304, 'learning_rate': 6.8741364752840045e-06, 'epoch': 86.25} {'loss': 0.0282, 'learning_rate': 6.871737795517348e-06, 'epoch': 86.26} {'loss': 0.0289, 'learning_rate': 6.869339115750691e-06, 'epoch': 86.26} {'loss': 0.0284, 'learning_rate': 6.866940435984034e-06, 'epoch': 86.27} {'loss': 0.0287, 'learning_rate': 6.864541756217379e-06, 'epoch': 86.27} {'loss': 0.0298, 'learning_rate': 6.862143076450722e-06, 'epoch': 86.28} {'loss': 0.0291, 'learning_rate': 6.859744396684066e-06, 'epoch': 86.28} {'loss': 0.0308, 'learning_rate': 6.8573457169174085e-06, 'epoch': 86.29} {'loss': 0.0293, 'learning_rate': 6.854947037150752e-06, 'epoch': 86.29} {'loss': 0.0294, 'learning_rate': 6.852548357384096e-06, 'epoch': 86.29} {'loss': 0.0286, 'learning_rate': 6.85014967761744e-06, 'epoch': 86.3} {'loss': 0.0277, 'learning_rate': 6.847750997850784e-06, 'epoch': 86.3} {'loss': 0.0288, 'learning_rate': 6.845352318084126e-06, 'epoch': 86.31} {'loss': 0.0276, 'learning_rate': 6.842953638317471e-06, 'epoch': 86.31} {'loss': 0.0316, 'learning_rate': 6.840554958550814e-06, 'epoch': 86.32} {'loss': 0.027, 'learning_rate': 6.838156278784158e-06, 'epoch': 86.32} {'loss': 0.0292, 'learning_rate': 6.8357575990175e-06, 'epoch': 86.33} {'loss': 0.0307, 'learning_rate': 6.833358919250844e-06, 'epoch': 86.33} {'loss': 0.0269, 'learning_rate': 6.830960239484188e-06, 'epoch': 86.34} {'loss': 0.0286, 'learning_rate': 6.828561559717532e-06, 'epoch': 86.34} {'loss': 0.0288, 'learning_rate': 6.8261628799508755e-06, 'epoch': 86.35} {'loss': 0.0295, 'learning_rate': 6.823764200184218e-06, 'epoch': 86.35} {'loss': 0.0298, 'learning_rate': 6.8213655204175626e-06, 'epoch': 86.36} {'loss': 0.0284, 'learning_rate': 6.818966840650906e-06, 'epoch': 86.36} {'loss': 0.0289, 'learning_rate': 6.81656816088425e-06, 'epoch': 86.37} {'loss': 0.0294, 'learning_rate': 6.814169481117594e-06, 'epoch': 86.37} {'loss': 0.0288, 'learning_rate': 6.811770801350936e-06, 'epoch': 86.38} {'loss': 0.0286, 'learning_rate': 6.80937212158428e-06, 'epoch': 86.38} {'loss': 0.0292, 'learning_rate': 6.806973441817624e-06, 'epoch': 86.39} {'loss': 0.0289, 'learning_rate': 6.804574762050967e-06, 'epoch': 86.39} {'loss': 0.0277, 'learning_rate': 6.802176082284312e-06, 'epoch': 86.4} {'loss': 0.0265, 'learning_rate': 6.7997774025176545e-06, 'epoch': 86.4} {'loss': 0.0283, 'learning_rate': 6.797378722750998e-06, 'epoch': 86.41} {'loss': 0.0286, 'learning_rate': 6.794980042984342e-06, 'epoch': 86.41} {'loss': 0.0285, 'learning_rate': 6.792581363217686e-06, 'epoch': 86.41} {'loss': 0.0286, 'learning_rate': 6.790182683451028e-06, 'epoch': 86.42} {'loss': 0.0286, 'learning_rate': 6.787784003684372e-06, 'epoch': 86.42} {'loss': 0.0263, 'learning_rate': 6.785385323917716e-06, 'epoch': 86.43} {'loss': 0.0291, 'learning_rate': 6.782986644151059e-06, 'epoch': 86.43} {'loss': 0.0278, 'learning_rate': 6.780587964384404e-06, 'epoch': 86.44} {'loss': 0.0296, 'learning_rate': 6.7781892846177465e-06, 'epoch': 86.44} {'loss': 0.0294, 'learning_rate': 6.77579060485109e-06, 'epoch': 86.45} {'loss': 0.0298, 'learning_rate': 6.7733919250844336e-06, 'epoch': 86.45} {'loss': 0.028, 'learning_rate': 6.770993245317778e-06, 'epoch': 86.46} {'loss': 0.0269, 'learning_rate': 6.7685945655511215e-06, 'epoch': 86.46} {'loss': 0.0276, 'learning_rate': 6.766195885784464e-06, 'epoch': 86.47} {'loss': 0.0272, 'learning_rate': 6.763797206017808e-06, 'epoch': 86.47} {'loss': 0.0285, 'learning_rate': 6.761398526251151e-06, 'epoch': 86.48} {'loss': 0.0282, 'learning_rate': 6.758999846484496e-06, 'epoch': 86.48} {'loss': 0.0283, 'learning_rate': 6.756601166717839e-06, 'epoch': 86.49} {'loss': 0.0285, 'learning_rate': 6.754202486951182e-06, 'epoch': 86.49} {'loss': 0.0292, 'learning_rate': 6.7518038071845255e-06, 'epoch': 86.5} {'loss': 0.0296, 'learning_rate': 6.74940512741787e-06, 'epoch': 86.5} {'loss': 0.0296, 'learning_rate': 6.7470064476512135e-06, 'epoch': 86.51} {'loss': 0.0291, 'learning_rate': 6.744607767884557e-06, 'epoch': 86.51} {'loss': 0.0283, 'learning_rate': 6.7422090881179e-06, 'epoch': 86.52} {'loss': 0.0276, 'learning_rate': 6.739810408351243e-06, 'epoch': 86.52} {'loss': 0.0311, 'learning_rate': 6.737411728584588e-06, 'epoch': 86.53} {'loss': 0.0283, 'learning_rate': 6.735013048817931e-06, 'epoch': 86.53} {'loss': 0.028, 'learning_rate': 6.732614369051274e-06, 'epoch': 86.53} {'loss': 0.0297, 'learning_rate': 6.7302156892846175e-06, 'epoch': 86.54} {'loss': 0.0286, 'learning_rate': 6.727817009517962e-06, 'epoch': 86.54} {'loss': 0.0288, 'learning_rate': 6.7254183297513054e-06, 'epoch': 86.55} {'loss': 0.0262, 'learning_rate': 6.723019649984649e-06, 'epoch': 86.55} {'loss': 0.0275, 'learning_rate': 6.720620970217992e-06, 'epoch': 86.56} {'loss': 0.027, 'learning_rate': 6.718222290451335e-06, 'epoch': 86.56} {'loss': 0.0284, 'learning_rate': 6.71582361068468e-06, 'epoch': 86.57} {'loss': 0.0293, 'learning_rate': 6.713424930918023e-06, 'epoch': 86.57} {'loss': 0.0304, 'learning_rate': 6.7110262511513676e-06, 'epoch': 86.58} {'loss': 0.0304, 'learning_rate': 6.7086275713847094e-06, 'epoch': 86.58} {'loss': 0.0273, 'learning_rate': 6.706228891618054e-06, 'epoch': 86.59} {'loss': 0.0282, 'learning_rate': 6.703830211851397e-06, 'epoch': 86.59} {'loss': 0.0285, 'learning_rate': 6.701431532084741e-06, 'epoch': 86.6} {'loss': 0.0284, 'learning_rate': 6.699032852318085e-06, 'epoch': 86.6} {'loss': 0.0286, 'learning_rate': 6.696634172551427e-06, 'epoch': 86.61} {'loss': 0.0293, 'learning_rate': 6.694235492784772e-06, 'epoch': 86.61} {'loss': 0.0285, 'learning_rate': 6.691836813018115e-06, 'epoch': 86.62} {'loss': 0.0304, 'learning_rate': 6.6894381332514595e-06, 'epoch': 86.62} {'loss': 0.0271, 'learning_rate': 6.687039453484801e-06, 'epoch': 86.63} {'loss': 0.0296, 'learning_rate': 6.684640773718146e-06, 'epoch': 86.63} {'loss': 0.0267, 'learning_rate': 6.682242093951489e-06, 'epoch': 86.64} {'loss': 0.0271, 'learning_rate': 6.679843414184833e-06, 'epoch': 86.64} {'loss': 0.0282, 'learning_rate': 6.677444734418177e-06, 'epoch': 86.65} {'loss': 0.03, 'learning_rate': 6.675046054651519e-06, 'epoch': 86.65} {'loss': 0.0286, 'learning_rate': 6.6726473748848635e-06, 'epoch': 86.65} {'loss': 0.0301, 'learning_rate': 6.670248695118207e-06, 'epoch': 86.66} {'loss': 0.0293, 'learning_rate': 6.6678500153515515e-06, 'epoch': 86.66} {'loss': 0.028, 'learning_rate': 6.665451335584895e-06, 'epoch': 86.67} {'loss': 0.0288, 'learning_rate': 6.663052655818238e-06, 'epoch': 86.67} {'loss': 0.029, 'learning_rate': 6.660653976051581e-06, 'epoch': 86.68} {'loss': 0.0287, 'learning_rate': 6.658255296284925e-06, 'epoch': 86.68} {'loss': 0.0282, 'learning_rate': 6.655856616518269e-06, 'epoch': 86.69} {'loss': 0.028, 'learning_rate': 6.653457936751613e-06, 'epoch': 86.69} {'loss': 0.0281, 'learning_rate': 6.6510592569849555e-06, 'epoch': 86.7} {'loss': 0.0289, 'learning_rate': 6.648660577218299e-06, 'epoch': 86.7} {'loss': 0.0288, 'learning_rate': 6.6462618974516434e-06, 'epoch': 86.71} {'loss': 0.0288, 'learning_rate': 6.643863217684987e-06, 'epoch': 86.71} {'loss': 0.029, 'learning_rate': 6.6414645379183305e-06, 'epoch': 86.72} {'loss': 0.029, 'learning_rate': 6.639065858151673e-06, 'epoch': 86.72} {'loss': 0.0281, 'learning_rate': 6.636667178385017e-06, 'epoch': 86.73} {'loss': 0.0302, 'learning_rate': 6.634268498618361e-06, 'epoch': 86.73} {'loss': 0.0282, 'learning_rate': 6.631869818851705e-06, 'epoch': 86.74} {'loss': 0.0276, 'learning_rate': 6.6294711390850474e-06, 'epoch': 86.74} {'loss': 0.0276, 'learning_rate': 6.627072459318391e-06, 'epoch': 86.75} {'loss': 0.029, 'learning_rate': 6.624673779551735e-06, 'epoch': 86.75} {'loss': 0.029, 'learning_rate': 6.622275099785079e-06, 'epoch': 86.76} {'loss': 0.0297, 'learning_rate': 6.6198764200184225e-06, 'epoch': 86.76} {'loss': 0.0295, 'learning_rate': 6.617477740251765e-06, 'epoch': 86.77} {'loss': 0.028, 'learning_rate': 6.615079060485109e-06, 'epoch': 86.77} {'loss': 0.0263, 'learning_rate': 6.612680380718453e-06, 'epoch': 86.77} {'loss': 0.0292, 'learning_rate': 6.610281700951797e-06, 'epoch': 86.78} {'loss': 0.028, 'learning_rate': 6.60788302118514e-06, 'epoch': 86.78} {'loss': 0.0272, 'learning_rate': 6.605484341418483e-06, 'epoch': 86.79} {'loss': 0.0286, 'learning_rate': 6.6030856616518265e-06, 'epoch': 86.79} {'loss': 0.0276, 'learning_rate': 6.600686981885171e-06, 'epoch': 86.8} {'loss': 0.0288, 'learning_rate': 6.5982883021185144e-06, 'epoch': 86.8} {'loss': 0.0292, 'learning_rate': 6.595889622351859e-06, 'epoch': 86.81} {'loss': 0.0291, 'learning_rate': 6.593490942585201e-06, 'epoch': 86.81} {'loss': 0.0286, 'learning_rate': 6.591092262818545e-06, 'epoch': 86.82} {'loss': 0.0294, 'learning_rate': 6.588693583051889e-06, 'epoch': 86.82} {'loss': 0.0288, 'learning_rate': 6.586294903285232e-06, 'epoch': 86.83} {'loss': 0.0288, 'learning_rate': 6.583896223518577e-06, 'epoch': 86.83} {'loss': 0.0285, 'learning_rate': 6.5814975437519184e-06, 'epoch': 86.84} {'loss': 0.028, 'learning_rate': 6.579098863985263e-06, 'epoch': 86.84} {'loss': 0.0304, 'learning_rate': 6.576700184218606e-06, 'epoch': 86.85} {'loss': 0.0299, 'learning_rate': 6.574301504451951e-06, 'epoch': 86.85} {'loss': 0.0285, 'learning_rate': 6.571902824685293e-06, 'epoch': 86.86} {'loss': 0.0297, 'learning_rate': 6.569504144918637e-06, 'epoch': 86.86} {'loss': 0.0272, 'learning_rate': 6.567105465151981e-06, 'epoch': 86.87} {'loss': 0.0269, 'learning_rate': 6.564706785385324e-06, 'epoch': 86.87} {'loss': 0.0269, 'learning_rate': 6.5623081056186685e-06, 'epoch': 86.88} {'loss': 0.0281, 'learning_rate': 6.55990942585201e-06, 'epoch': 86.88} {'loss': 0.0277, 'learning_rate': 6.557510746085355e-06, 'epoch': 86.88} {'loss': 0.0263, 'learning_rate': 6.555112066318698e-06, 'epoch': 86.89} {'loss': 0.0307, 'learning_rate': 6.552713386552043e-06, 'epoch': 86.89} {'loss': 0.028, 'learning_rate': 6.550314706785386e-06, 'epoch': 86.9} {'loss': 0.0301, 'learning_rate': 6.547916027018729e-06, 'epoch': 86.9} {'loss': 0.0296, 'learning_rate': 6.5455173472520725e-06, 'epoch': 86.91} {'loss': 0.0287, 'learning_rate': 6.543118667485416e-06, 'epoch': 86.91} {'loss': 0.0276, 'learning_rate': 6.5407199877187605e-06, 'epoch': 86.92} {'loss': 0.0282, 'learning_rate': 6.538321307952104e-06, 'epoch': 86.92} {'loss': 0.0302, 'learning_rate': 6.535922628185447e-06, 'epoch': 86.93} {'loss': 0.0288, 'learning_rate': 6.53352394841879e-06, 'epoch': 86.93} {'loss': 0.0305, 'learning_rate': 6.531125268652135e-06, 'epoch': 86.94} {'loss': 0.0285, 'learning_rate': 6.528726588885478e-06, 'epoch': 86.94} {'loss': 0.0289, 'learning_rate': 6.526327909118821e-06, 'epoch': 86.95} {'loss': 0.0275, 'learning_rate': 6.5239292293521645e-06, 'epoch': 86.95} {'loss': 0.029, 'learning_rate': 6.521530549585508e-06, 'epoch': 86.96} {'loss': 0.0289, 'learning_rate': 6.5191318698188524e-06, 'epoch': 86.96} {'loss': 0.0291, 'learning_rate': 6.516733190052196e-06, 'epoch': 86.97} {'loss': 0.0298, 'learning_rate': 6.514334510285539e-06, 'epoch': 86.97} {'loss': 0.0287, 'learning_rate': 6.511935830518882e-06, 'epoch': 86.98} {'loss': 0.0286, 'learning_rate': 6.509537150752227e-06, 'epoch': 86.98} {'loss': 0.0287, 'learning_rate': 6.50713847098557e-06, 'epoch': 86.99} {'loss': 0.0283, 'learning_rate': 6.504739791218914e-06, 'epoch': 86.99} {'loss': 0.0264, 'learning_rate': 6.5023411114522564e-06, 'epoch': 87.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.031326863914728165, 'eval_runtime': 757.3673, 'eval_samples_per_second': 550.453, 'eval_steps_per_second': 68.807, 'epoch': 87.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-9067488 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-9067488/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-9067488/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-8963264] due to args.save_total_limit {'loss': 0.03, 'learning_rate': 6.4999424316856e-06, 'epoch': 87.0} {'loss': 0.0273, 'learning_rate': 6.497543751918944e-06, 'epoch': 87.0} {'loss': 0.0291, 'learning_rate': 6.495145072152288e-06, 'epoch': 87.01} {'loss': 0.0282, 'learning_rate': 6.4927463923856315e-06, 'epoch': 87.01} {'loss': 0.0278, 'learning_rate': 6.490347712618974e-06, 'epoch': 87.02} {'loss': 0.0266, 'learning_rate': 6.487949032852319e-06, 'epoch': 87.02} {'loss': 0.027, 'learning_rate': 6.485550353085662e-06, 'epoch': 87.03} {'loss': 0.0291, 'learning_rate': 6.483151673319006e-06, 'epoch': 87.03} {'loss': 0.028, 'learning_rate': 6.48075299355235e-06, 'epoch': 87.04} {'loss': 0.028, 'learning_rate': 6.478354313785692e-06, 'epoch': 87.04} {'loss': 0.0269, 'learning_rate': 6.475955634019036e-06, 'epoch': 87.05} {'loss': 0.0285, 'learning_rate': 6.47355695425238e-06, 'epoch': 87.05} {'loss': 0.0276, 'learning_rate': 6.4711582744857234e-06, 'epoch': 87.06} {'loss': 0.0281, 'learning_rate': 6.468759594719066e-06, 'epoch': 87.06} {'loss': 0.0286, 'learning_rate': 6.4663609149524105e-06, 'epoch': 87.07} {'loss': 0.0289, 'learning_rate': 6.463962235185754e-06, 'epoch': 87.07} {'loss': 0.0286, 'learning_rate': 6.461563555419098e-06, 'epoch': 87.08} {'loss': 0.0284, 'learning_rate': 6.459164875652442e-06, 'epoch': 87.08} {'loss': 0.028, 'learning_rate': 6.456766195885784e-06, 'epoch': 87.09} {'loss': 0.0285, 'learning_rate': 6.454367516119128e-06, 'epoch': 87.09} {'loss': 0.0262, 'learning_rate': 6.451968836352472e-06, 'epoch': 87.1} {'loss': 0.0275, 'learning_rate': 6.449570156585815e-06, 'epoch': 87.1} {'loss': 0.0295, 'learning_rate': 6.44717147681916e-06, 'epoch': 87.11} {'loss': 0.0278, 'learning_rate': 6.4447727970525025e-06, 'epoch': 87.11} {'loss': 0.0282, 'learning_rate': 6.442374117285846e-06, 'epoch': 87.12} {'loss': 0.0284, 'learning_rate': 6.43997543751919e-06, 'epoch': 87.12} {'loss': 0.028, 'learning_rate': 6.437576757752534e-06, 'epoch': 87.12} {'loss': 0.0305, 'learning_rate': 6.4351780779858775e-06, 'epoch': 87.13} {'loss': 0.0277, 'learning_rate': 6.43277939821922e-06, 'epoch': 87.13} {'loss': 0.0273, 'learning_rate': 6.430380718452564e-06, 'epoch': 87.14} {'loss': 0.0298, 'learning_rate': 6.427982038685907e-06, 'epoch': 87.14} {'loss': 0.0282, 'learning_rate': 6.425583358919252e-06, 'epoch': 87.15} {'loss': 0.0287, 'learning_rate': 6.4231846791525944e-06, 'epoch': 87.15} {'loss': 0.0272, 'learning_rate': 6.420785999385938e-06, 'epoch': 87.16} {'loss': 0.0285, 'learning_rate': 6.4183873196192815e-06, 'epoch': 87.16} {'loss': 0.027, 'learning_rate': 6.415988639852626e-06, 'epoch': 87.17} {'loss': 0.0268, 'learning_rate': 6.4135899600859695e-06, 'epoch': 87.17} {'loss': 0.0283, 'learning_rate': 6.411191280319312e-06, 'epoch': 87.18} {'loss': 0.028, 'learning_rate': 6.408792600552656e-06, 'epoch': 87.18} {'loss': 0.0276, 'learning_rate': 6.406393920785999e-06, 'epoch': 87.19} {'loss': 0.0286, 'learning_rate': 6.403995241019344e-06, 'epoch': 87.19} {'loss': 0.0275, 'learning_rate': 6.401596561252687e-06, 'epoch': 87.2} {'loss': 0.0279, 'learning_rate': 6.39919788148603e-06, 'epoch': 87.2} {'loss': 0.0293, 'learning_rate': 6.3967992017193735e-06, 'epoch': 87.21} {'loss': 0.0278, 'learning_rate': 6.394400521952718e-06, 'epoch': 87.21} {'loss': 0.0285, 'learning_rate': 6.3920018421860614e-06, 'epoch': 87.22} {'loss': 0.0286, 'learning_rate': 6.389603162419405e-06, 'epoch': 87.22} {'loss': 0.0289, 'learning_rate': 6.387204482652748e-06, 'epoch': 87.23} {'loss': 0.0288, 'learning_rate': 6.384805802886091e-06, 'epoch': 87.23} {'loss': 0.0271, 'learning_rate': 6.382407123119436e-06, 'epoch': 87.24} {'loss': 0.0289, 'learning_rate': 6.380008443352779e-06, 'epoch': 87.24} {'loss': 0.0285, 'learning_rate': 6.377609763586123e-06, 'epoch': 87.24} {'loss': 0.0281, 'learning_rate': 6.3752110838194655e-06, 'epoch': 87.25} {'loss': 0.0269, 'learning_rate': 6.37281240405281e-06, 'epoch': 87.25} {'loss': 0.0287, 'learning_rate': 6.370413724286153e-06, 'epoch': 87.26} {'loss': 0.0287, 'learning_rate': 6.368015044519497e-06, 'epoch': 87.26} {'loss': 0.0282, 'learning_rate': 6.36561636475284e-06, 'epoch': 87.27} {'loss': 0.0282, 'learning_rate': 6.363217684986183e-06, 'epoch': 87.27} {'loss': 0.0261, 'learning_rate': 6.360819005219528e-06, 'epoch': 87.28} {'loss': 0.0276, 'learning_rate': 6.358420325452871e-06, 'epoch': 87.28} {'loss': 0.0262, 'learning_rate': 6.356021645686215e-06, 'epoch': 87.29} {'loss': 0.0294, 'learning_rate': 6.353622965919557e-06, 'epoch': 87.29} {'loss': 0.0279, 'learning_rate': 6.351224286152902e-06, 'epoch': 87.3} {'loss': 0.029, 'learning_rate': 6.348825606386245e-06, 'epoch': 87.3} {'loss': 0.028, 'learning_rate': 6.346426926619589e-06, 'epoch': 87.31} {'loss': 0.0281, 'learning_rate': 6.344028246852933e-06, 'epoch': 87.31} {'loss': 0.0286, 'learning_rate': 6.341629567086275e-06, 'epoch': 87.32} {'loss': 0.0272, 'learning_rate': 6.3392308873196196e-06, 'epoch': 87.32} {'loss': 0.0277, 'learning_rate': 6.336832207552963e-06, 'epoch': 87.33} {'loss': 0.0275, 'learning_rate': 6.334433527786307e-06, 'epoch': 87.33} {'loss': 0.0294, 'learning_rate': 6.332034848019651e-06, 'epoch': 87.34} {'loss': 0.0274, 'learning_rate': 6.329636168252994e-06, 'epoch': 87.34} {'loss': 0.0271, 'learning_rate': 6.327237488486337e-06, 'epoch': 87.35} {'loss': 0.0287, 'learning_rate': 6.324838808719681e-06, 'epoch': 87.35} {'loss': 0.0276, 'learning_rate': 6.322440128953025e-06, 'epoch': 87.36} {'loss': 0.0296, 'learning_rate': 6.320041449186369e-06, 'epoch': 87.36} {'loss': 0.029, 'learning_rate': 6.3176427694197115e-06, 'epoch': 87.36} {'loss': 0.0289, 'learning_rate': 6.315244089653055e-06, 'epoch': 87.37} {'loss': 0.0289, 'learning_rate': 6.312845409886399e-06, 'epoch': 87.37} {'loss': 0.0289, 'learning_rate': 6.310446730119743e-06, 'epoch': 87.38} {'loss': 0.0275, 'learning_rate': 6.308048050353086e-06, 'epoch': 87.38} {'loss': 0.0284, 'learning_rate': 6.305649370586429e-06, 'epoch': 87.39} {'loss': 0.0271, 'learning_rate': 6.303250690819773e-06, 'epoch': 87.39} {'loss': 0.0284, 'learning_rate': 6.300852011053117e-06, 'epoch': 87.4} {'loss': 0.0285, 'learning_rate': 6.298453331286461e-06, 'epoch': 87.4} {'loss': 0.0276, 'learning_rate': 6.2960546515198035e-06, 'epoch': 87.41} {'loss': 0.0272, 'learning_rate': 6.293655971753147e-06, 'epoch': 87.41} {'loss': 0.0283, 'learning_rate': 6.2912572919864906e-06, 'epoch': 87.42} {'loss': 0.0268, 'learning_rate': 6.288858612219835e-06, 'epoch': 87.42} {'loss': 0.0287, 'learning_rate': 6.2864599324531785e-06, 'epoch': 87.43} {'loss': 0.0279, 'learning_rate': 6.284061252686521e-06, 'epoch': 87.43} {'loss': 0.0271, 'learning_rate': 6.281662572919865e-06, 'epoch': 87.44} {'loss': 0.0273, 'learning_rate': 6.279263893153209e-06, 'epoch': 87.44} {'loss': 0.0277, 'learning_rate': 6.276865213386553e-06, 'epoch': 87.45} {'loss': 0.0281, 'learning_rate': 6.274466533619896e-06, 'epoch': 87.45} {'loss': 0.0264, 'learning_rate': 6.272067853853239e-06, 'epoch': 87.46} {'loss': 0.0293, 'learning_rate': 6.2696691740865825e-06, 'epoch': 87.46} {'loss': 0.0304, 'learning_rate': 6.267270494319927e-06, 'epoch': 87.47} {'loss': 0.0277, 'learning_rate': 6.2648718145532705e-06, 'epoch': 87.47} {'loss': 0.0272, 'learning_rate': 6.262473134786613e-06, 'epoch': 87.48} {'loss': 0.0292, 'learning_rate': 6.260074455019957e-06, 'epoch': 87.48} {'loss': 0.0286, 'learning_rate': 6.257675775253301e-06, 'epoch': 87.48} {'loss': 0.0282, 'learning_rate': 6.255277095486645e-06, 'epoch': 87.49} {'loss': 0.0272, 'learning_rate': 6.252878415719988e-06, 'epoch': 87.49} {'loss': 0.0291, 'learning_rate': 6.250479735953331e-06, 'epoch': 87.5} {'loss': 0.0293, 'learning_rate': 6.2480810561866745e-06, 'epoch': 87.5} {'loss': 0.0285, 'learning_rate': 6.245682376420019e-06, 'epoch': 87.51} {'loss': 0.0276, 'learning_rate': 6.243283696653362e-06, 'epoch': 87.51} {'loss': 0.0288, 'learning_rate': 6.240885016886706e-06, 'epoch': 87.52} {'loss': 0.0275, 'learning_rate': 6.2384863371200495e-06, 'epoch': 87.52} {'loss': 0.027, 'learning_rate': 6.236087657353393e-06, 'epoch': 87.53} {'loss': 0.0287, 'learning_rate': 6.233688977586737e-06, 'epoch': 87.53} {'loss': 0.029, 'learning_rate': 6.23129029782008e-06, 'epoch': 87.54} {'loss': 0.0268, 'learning_rate': 6.228891618053424e-06, 'epoch': 87.54} {'loss': 0.0272, 'learning_rate': 6.226492938286767e-06, 'epoch': 87.55} {'loss': 0.0282, 'learning_rate': 6.224094258520111e-06, 'epoch': 87.55} {'loss': 0.027, 'learning_rate': 6.221695578753454e-06, 'epoch': 87.56} {'loss': 0.0273, 'learning_rate': 6.219296898986798e-06, 'epoch': 87.56} {'loss': 0.0302, 'learning_rate': 6.2168982192201415e-06, 'epoch': 87.57} {'loss': 0.0282, 'learning_rate': 6.214499539453485e-06, 'epoch': 87.57} {'loss': 0.0284, 'learning_rate': 6.2121008596868286e-06, 'epoch': 87.58} {'loss': 0.0283, 'learning_rate': 6.209702179920172e-06, 'epoch': 87.58} {'loss': 0.0278, 'learning_rate': 6.207303500153516e-06, 'epoch': 87.59} {'loss': 0.0252, 'learning_rate': 6.204904820386859e-06, 'epoch': 87.59} {'loss': 0.031, 'learning_rate': 6.202506140620204e-06, 'epoch': 87.59} {'loss': 0.0264, 'learning_rate': 6.200107460853546e-06, 'epoch': 87.6} {'loss': 0.0275, 'learning_rate': 6.197708781086891e-06, 'epoch': 87.6} {'loss': 0.0285, 'learning_rate': 6.195310101320233e-06, 'epoch': 87.61} {'loss': 0.0296, 'learning_rate': 6.192911421553577e-06, 'epoch': 87.61} {'loss': 0.0291, 'learning_rate': 6.1905127417869205e-06, 'epoch': 87.62} {'loss': 0.0274, 'learning_rate': 6.188114062020264e-06, 'epoch': 87.62} {'loss': 0.0274, 'learning_rate': 6.1857153822536085e-06, 'epoch': 87.63} {'loss': 0.031, 'learning_rate': 6.183316702486951e-06, 'epoch': 87.63} {'loss': 0.0291, 'learning_rate': 6.1809180227202956e-06, 'epoch': 87.64} {'loss': 0.0286, 'learning_rate': 6.178519342953638e-06, 'epoch': 87.64} {'loss': 0.0286, 'learning_rate': 6.176120663186982e-06, 'epoch': 87.65} {'loss': 0.0262, 'learning_rate': 6.173721983420326e-06, 'epoch': 87.65} {'loss': 0.0272, 'learning_rate': 6.171323303653669e-06, 'epoch': 87.66} {'loss': 0.0295, 'learning_rate': 6.168924623887013e-06, 'epoch': 87.66} {'loss': 0.0282, 'learning_rate': 6.166525944120356e-06, 'epoch': 87.67} {'loss': 0.0293, 'learning_rate': 6.1641272643537e-06, 'epoch': 87.67} {'loss': 0.0262, 'learning_rate': 6.161728584587043e-06, 'epoch': 87.68} {'loss': 0.028, 'learning_rate': 6.1593299048203875e-06, 'epoch': 87.68} {'loss': 0.0266, 'learning_rate': 6.156931225053731e-06, 'epoch': 87.69} {'loss': 0.0284, 'learning_rate': 6.154532545287074e-06, 'epoch': 87.69} {'loss': 0.0295, 'learning_rate': 6.152133865520418e-06, 'epoch': 87.7} {'loss': 0.0282, 'learning_rate': 6.149735185753761e-06, 'epoch': 87.7} {'loss': 0.0272, 'learning_rate': 6.147336505987105e-06, 'epoch': 87.71} {'loss': 0.028, 'learning_rate': 6.144937826220448e-06, 'epoch': 87.71} {'loss': 0.0291, 'learning_rate': 6.142539146453792e-06, 'epoch': 87.71} {'loss': 0.0292, 'learning_rate': 6.140140466687136e-06, 'epoch': 87.72} {'loss': 0.0293, 'learning_rate': 6.1377417869204795e-06, 'epoch': 87.72} {'loss': 0.0283, 'learning_rate': 6.135343107153823e-06, 'epoch': 87.73} {'loss': 0.0287, 'learning_rate': 6.132944427387166e-06, 'epoch': 87.73} {'loss': 0.0278, 'learning_rate': 6.13054574762051e-06, 'epoch': 87.74} {'loss': 0.0283, 'learning_rate': 6.128147067853854e-06, 'epoch': 87.74} {'loss': 0.0292, 'learning_rate': 6.125748388087197e-06, 'epoch': 87.75} {'loss': 0.0275, 'learning_rate': 6.123349708320541e-06, 'epoch': 87.75} {'loss': 0.0278, 'learning_rate': 6.120951028553884e-06, 'epoch': 87.76} {'loss': 0.0294, 'learning_rate': 6.118552348787228e-06, 'epoch': 87.76} {'loss': 0.0274, 'learning_rate': 6.116153669020571e-06, 'epoch': 87.77} {'loss': 0.029, 'learning_rate': 6.113754989253915e-06, 'epoch': 87.77} {'loss': 0.0282, 'learning_rate': 6.1113563094872585e-06, 'epoch': 87.78} {'loss': 0.0263, 'learning_rate': 6.108957629720602e-06, 'epoch': 87.78} {'loss': 0.0303, 'learning_rate': 6.106558949953946e-06, 'epoch': 87.79} {'loss': 0.0295, 'learning_rate': 6.104160270187289e-06, 'epoch': 87.79} {'loss': 0.0268, 'learning_rate': 6.101761590420633e-06, 'epoch': 87.8} {'loss': 0.028, 'learning_rate': 6.099362910653976e-06, 'epoch': 87.8} {'loss': 0.0279, 'learning_rate': 6.09696423088732e-06, 'epoch': 87.81} {'loss': 0.0284, 'learning_rate': 6.094565551120663e-06, 'epoch': 87.81} {'loss': 0.0282, 'learning_rate': 6.092166871354007e-06, 'epoch': 87.82} {'loss': 0.0274, 'learning_rate': 6.0897681915873505e-06, 'epoch': 87.82} {'loss': 0.0289, 'learning_rate': 6.087369511820694e-06, 'epoch': 87.83} {'loss': 0.0274, 'learning_rate': 6.0849708320540376e-06, 'epoch': 87.83} {'loss': 0.0274, 'learning_rate': 6.082572152287382e-06, 'epoch': 87.83} {'loss': 0.0274, 'learning_rate': 6.080173472520725e-06, 'epoch': 87.84} {'loss': 0.0282, 'learning_rate': 6.077774792754068e-06, 'epoch': 87.84} {'loss': 0.0277, 'learning_rate': 6.075376112987412e-06, 'epoch': 87.85} {'loss': 0.0276, 'learning_rate': 6.072977433220755e-06, 'epoch': 87.85} {'loss': 0.0289, 'learning_rate': 6.0705787534541e-06, 'epoch': 87.86} {'loss': 0.0264, 'learning_rate': 6.068180073687442e-06, 'epoch': 87.86} {'loss': 0.0282, 'learning_rate': 6.065781393920787e-06, 'epoch': 87.87} {'loss': 0.0275, 'learning_rate': 6.0633827141541295e-06, 'epoch': 87.87} {'loss': 0.0291, 'learning_rate': 6.060984034387474e-06, 'epoch': 87.88} {'loss': 0.0284, 'learning_rate': 6.058585354620817e-06, 'epoch': 87.88} {'loss': 0.0278, 'learning_rate': 6.05618667485416e-06, 'epoch': 87.89} {'loss': 0.0284, 'learning_rate': 6.0537879950875046e-06, 'epoch': 87.89} {'loss': 0.0281, 'learning_rate': 6.051389315320847e-06, 'epoch': 87.9} {'loss': 0.0289, 'learning_rate': 6.048990635554192e-06, 'epoch': 87.9} {'loss': 0.0286, 'learning_rate': 6.046591955787534e-06, 'epoch': 87.91} {'loss': 0.0279, 'learning_rate': 6.044193276020879e-06, 'epoch': 87.91} {'loss': 0.0297, 'learning_rate': 6.041794596254222e-06, 'epoch': 87.92} {'loss': 0.0292, 'learning_rate': 6.039395916487566e-06, 'epoch': 87.92} {'loss': 0.0279, 'learning_rate': 6.036997236720909e-06, 'epoch': 87.93} {'loss': 0.0303, 'learning_rate': 6.034598556954252e-06, 'epoch': 87.93} {'loss': 0.0296, 'learning_rate': 6.0321998771875965e-06, 'epoch': 87.94} {'loss': 0.0271, 'learning_rate': 6.029801197420939e-06, 'epoch': 87.94} {'loss': 0.029, 'learning_rate': 6.027402517654284e-06, 'epoch': 87.95} {'loss': 0.0283, 'learning_rate': 6.025003837887627e-06, 'epoch': 87.95} {'loss': 0.0275, 'learning_rate': 6.022605158120971e-06, 'epoch': 87.95} {'loss': 0.0277, 'learning_rate': 6.020206478354314e-06, 'epoch': 87.96} {'loss': 0.027, 'learning_rate': 6.017807798587658e-06, 'epoch': 87.96} {'loss': 0.0271, 'learning_rate': 6.015409118821001e-06, 'epoch': 87.97} {'loss': 0.027, 'learning_rate': 6.013010439054344e-06, 'epoch': 87.97} {'loss': 0.0287, 'learning_rate': 6.0106117592876885e-06, 'epoch': 87.98} {'loss': 0.0274, 'learning_rate': 6.008213079521032e-06, 'epoch': 87.98} {'loss': 0.0289, 'learning_rate': 6.0058143997543756e-06, 'epoch': 87.99} {'loss': 0.0269, 'learning_rate': 6.003415719987719e-06, 'epoch': 87.99} {'loss': 0.0274, 'learning_rate': 6.001017040221063e-06, 'epoch': 88.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03139509633183479, 'eval_runtime': 764.3188, 'eval_samples_per_second': 545.446, 'eval_steps_per_second': 68.181, 'epoch': 88.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-9171712 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-9171712/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-9171712/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-9067488] due to args.save_total_limit {'loss': 0.027, 'learning_rate': 5.998618360454406e-06, 'epoch': 88.0} {'loss': 0.0276, 'learning_rate': 5.99621968068775e-06, 'epoch': 88.01} {'loss': 0.0289, 'learning_rate': 5.993821000921093e-06, 'epoch': 88.01} {'loss': 0.0278, 'learning_rate': 5.991422321154437e-06, 'epoch': 88.02} {'loss': 0.0278, 'learning_rate': 5.9890236413877804e-06, 'epoch': 88.02} {'loss': 0.0273, 'learning_rate': 5.986624961621124e-06, 'epoch': 88.03} {'loss': 0.0277, 'learning_rate': 5.9842262818544675e-06, 'epoch': 88.03} {'loss': 0.0273, 'learning_rate': 5.981827602087811e-06, 'epoch': 88.04} {'loss': 0.0292, 'learning_rate': 5.979428922321155e-06, 'epoch': 88.04} {'loss': 0.0267, 'learning_rate': 5.977030242554498e-06, 'epoch': 88.05} {'loss': 0.0285, 'learning_rate': 5.974631562787842e-06, 'epoch': 88.05} {'loss': 0.0281, 'learning_rate': 5.972232883021185e-06, 'epoch': 88.06} {'loss': 0.0301, 'learning_rate': 5.969834203254529e-06, 'epoch': 88.06} {'loss': 0.0282, 'learning_rate': 5.967435523487873e-06, 'epoch': 88.07} {'loss': 0.0272, 'learning_rate': 5.965036843721216e-06, 'epoch': 88.07} {'loss': 0.0279, 'learning_rate': 5.9626381639545595e-06, 'epoch': 88.07} {'loss': 0.0273, 'learning_rate': 5.960239484187903e-06, 'epoch': 88.08} {'loss': 0.0258, 'learning_rate': 5.957840804421247e-06, 'epoch': 88.08} {'loss': 0.0271, 'learning_rate': 5.95544212465459e-06, 'epoch': 88.09} {'loss': 0.0281, 'learning_rate': 5.953043444887934e-06, 'epoch': 88.09} {'loss': 0.029, 'learning_rate': 5.950644765121278e-06, 'epoch': 88.1} {'loss': 0.0284, 'learning_rate': 5.948246085354621e-06, 'epoch': 88.1} {'loss': 0.0269, 'learning_rate': 5.945847405587965e-06, 'epoch': 88.11} {'loss': 0.0265, 'learning_rate': 5.943448725821308e-06, 'epoch': 88.11} {'loss': 0.0268, 'learning_rate': 5.9410500460546514e-06, 'epoch': 88.12} {'loss': 0.0297, 'learning_rate': 5.938651366287996e-06, 'epoch': 88.12} {'loss': 0.0272, 'learning_rate': 5.9362526865213385e-06, 'epoch': 88.13} {'loss': 0.027, 'learning_rate': 5.933854006754683e-06, 'epoch': 88.13} {'loss': 0.0288, 'learning_rate': 5.931455326988026e-06, 'epoch': 88.14} {'loss': 0.0269, 'learning_rate': 5.92905664722137e-06, 'epoch': 88.14} {'loss': 0.0285, 'learning_rate': 5.926657967454713e-06, 'epoch': 88.15} {'loss': 0.0286, 'learning_rate': 5.924259287688057e-06, 'epoch': 88.15} {'loss': 0.027, 'learning_rate': 5.921860607921401e-06, 'epoch': 88.16} {'loss': 0.0286, 'learning_rate': 5.919461928154743e-06, 'epoch': 88.16} {'loss': 0.028, 'learning_rate': 5.917063248388088e-06, 'epoch': 88.17} {'loss': 0.0288, 'learning_rate': 5.9146645686214305e-06, 'epoch': 88.17} {'loss': 0.0296, 'learning_rate': 5.912265888854775e-06, 'epoch': 88.18} {'loss': 0.0282, 'learning_rate': 5.9098672090881184e-06, 'epoch': 88.18} {'loss': 0.0288, 'learning_rate': 5.907468529321462e-06, 'epoch': 88.19} {'loss': 0.0282, 'learning_rate': 5.9050698495548055e-06, 'epoch': 88.19} {'loss': 0.0263, 'learning_rate': 5.902671169788149e-06, 'epoch': 88.19} {'loss': 0.03, 'learning_rate': 5.900272490021493e-06, 'epoch': 88.2} {'loss': 0.0298, 'learning_rate': 5.897873810254835e-06, 'epoch': 88.2} {'loss': 0.0282, 'learning_rate': 5.89547513048818e-06, 'epoch': 88.21} {'loss': 0.0261, 'learning_rate': 5.893076450721523e-06, 'epoch': 88.21} {'loss': 0.029, 'learning_rate': 5.890677770954867e-06, 'epoch': 88.22} {'loss': 0.0273, 'learning_rate': 5.88827909118821e-06, 'epoch': 88.22} {'loss': 0.0281, 'learning_rate': 5.885880411421554e-06, 'epoch': 88.23} {'loss': 0.028, 'learning_rate': 5.8834817316548975e-06, 'epoch': 88.23} {'loss': 0.029, 'learning_rate': 5.881083051888241e-06, 'epoch': 88.24} {'loss': 0.0284, 'learning_rate': 5.878684372121585e-06, 'epoch': 88.24} {'loss': 0.028, 'learning_rate': 5.876285692354928e-06, 'epoch': 88.25} {'loss': 0.0273, 'learning_rate': 5.873887012588272e-06, 'epoch': 88.25} {'loss': 0.0278, 'learning_rate': 5.871488332821615e-06, 'epoch': 88.26} {'loss': 0.0284, 'learning_rate': 5.869089653054959e-06, 'epoch': 88.26} {'loss': 0.0281, 'learning_rate': 5.866690973288302e-06, 'epoch': 88.27} {'loss': 0.0279, 'learning_rate': 5.864292293521646e-06, 'epoch': 88.27} {'loss': 0.0265, 'learning_rate': 5.8618936137549894e-06, 'epoch': 88.28} {'loss': 0.028, 'learning_rate': 5.859494933988333e-06, 'epoch': 88.28} {'loss': 0.0283, 'learning_rate': 5.8570962542216765e-06, 'epoch': 88.29} {'loss': 0.0289, 'learning_rate': 5.85469757445502e-06, 'epoch': 88.29} {'loss': 0.0261, 'learning_rate': 5.852298894688364e-06, 'epoch': 88.3} {'loss': 0.0265, 'learning_rate': 5.849900214921707e-06, 'epoch': 88.3} {'loss': 0.0275, 'learning_rate': 5.847501535155052e-06, 'epoch': 88.3} {'loss': 0.0278, 'learning_rate': 5.845102855388394e-06, 'epoch': 88.31} {'loss': 0.0266, 'learning_rate': 5.842704175621738e-06, 'epoch': 88.31} {'loss': 0.0282, 'learning_rate': 5.840305495855081e-06, 'epoch': 88.32} {'loss': 0.0282, 'learning_rate': 5.837906816088425e-06, 'epoch': 88.32} {'loss': 0.027, 'learning_rate': 5.835508136321769e-06, 'epoch': 88.33} {'loss': 0.0302, 'learning_rate': 5.833109456555112e-06, 'epoch': 88.33} {'loss': 0.0276, 'learning_rate': 5.8307107767884564e-06, 'epoch': 88.34} {'loss': 0.0269, 'learning_rate': 5.828312097021799e-06, 'epoch': 88.34} {'loss': 0.029, 'learning_rate': 5.8259134172551435e-06, 'epoch': 88.35} {'loss': 0.0268, 'learning_rate': 5.823514737488486e-06, 'epoch': 88.35} {'loss': 0.027, 'learning_rate': 5.82111605772183e-06, 'epoch': 88.36} {'loss': 0.0295, 'learning_rate': 5.818717377955174e-06, 'epoch': 88.36} {'loss': 0.0282, 'learning_rate': 5.816318698188517e-06, 'epoch': 88.37} {'loss': 0.0278, 'learning_rate': 5.813920018421861e-06, 'epoch': 88.37} {'loss': 0.0284, 'learning_rate': 5.811521338655204e-06, 'epoch': 88.38} {'loss': 0.028, 'learning_rate': 5.809122658888548e-06, 'epoch': 88.38} {'loss': 0.0295, 'learning_rate': 5.806723979121892e-06, 'epoch': 88.39} {'loss': 0.0294, 'learning_rate': 5.8043252993552355e-06, 'epoch': 88.39} {'loss': 0.0278, 'learning_rate': 5.801926619588579e-06, 'epoch': 88.4} {'loss': 0.029, 'learning_rate': 5.799527939821922e-06, 'epoch': 88.4} {'loss': 0.0268, 'learning_rate': 5.797129260055266e-06, 'epoch': 88.41} {'loss': 0.0289, 'learning_rate': 5.794730580288609e-06, 'epoch': 88.41} {'loss': 0.0262, 'learning_rate': 5.792331900521953e-06, 'epoch': 88.42} {'loss': 0.0282, 'learning_rate': 5.789933220755297e-06, 'epoch': 88.42} {'loss': 0.0272, 'learning_rate': 5.78753454098864e-06, 'epoch': 88.42} {'loss': 0.0274, 'learning_rate': 5.785135861221984e-06, 'epoch': 88.43} {'loss': 0.0268, 'learning_rate': 5.7827371814553274e-06, 'epoch': 88.43} {'loss': 0.027, 'learning_rate': 5.780338501688671e-06, 'epoch': 88.44} {'loss': 0.0279, 'learning_rate': 5.7779398219220145e-06, 'epoch': 88.44} {'loss': 0.0283, 'learning_rate': 5.775541142155358e-06, 'epoch': 88.45} {'loss': 0.0284, 'learning_rate': 5.773142462388702e-06, 'epoch': 88.45} {'loss': 0.0294, 'learning_rate': 5.770743782622045e-06, 'epoch': 88.46} {'loss': 0.0268, 'learning_rate': 5.768345102855389e-06, 'epoch': 88.46} {'loss': 0.0263, 'learning_rate': 5.765946423088732e-06, 'epoch': 88.47} {'loss': 0.0266, 'learning_rate': 5.763547743322076e-06, 'epoch': 88.47} {'loss': 0.0286, 'learning_rate': 5.761149063555419e-06, 'epoch': 88.48} {'loss': 0.0265, 'learning_rate': 5.758750383788763e-06, 'epoch': 88.48} {'loss': 0.0281, 'learning_rate': 5.7563517040221065e-06, 'epoch': 88.49} {'loss': 0.0283, 'learning_rate': 5.75395302425545e-06, 'epoch': 88.49} {'loss': 0.0293, 'learning_rate': 5.751554344488794e-06, 'epoch': 88.5} {'loss': 0.028, 'learning_rate': 5.749155664722137e-06, 'epoch': 88.5} {'loss': 0.0286, 'learning_rate': 5.746756984955481e-06, 'epoch': 88.51} {'loss': 0.0283, 'learning_rate': 5.744358305188824e-06, 'epoch': 88.51} {'loss': 0.0278, 'learning_rate': 5.741959625422168e-06, 'epoch': 88.52} {'loss': 0.0262, 'learning_rate': 5.739560945655511e-06, 'epoch': 88.52} {'loss': 0.0283, 'learning_rate': 5.737162265888855e-06, 'epoch': 88.53} {'loss': 0.0279, 'learning_rate': 5.7347635861221984e-06, 'epoch': 88.53} {'loss': 0.0293, 'learning_rate': 5.732364906355543e-06, 'epoch': 88.54} {'loss': 0.0287, 'learning_rate': 5.7299662265888855e-06, 'epoch': 88.54} {'loss': 0.027, 'learning_rate': 5.727567546822229e-06, 'epoch': 88.54} {'loss': 0.0269, 'learning_rate': 5.725168867055573e-06, 'epoch': 88.55} {'loss': 0.0285, 'learning_rate': 5.722770187288916e-06, 'epoch': 88.55} {'loss': 0.0267, 'learning_rate': 5.72037150752226e-06, 'epoch': 88.56} {'loss': 0.0263, 'learning_rate': 5.717972827755603e-06, 'epoch': 88.56} {'loss': 0.0269, 'learning_rate': 5.715574147988948e-06, 'epoch': 88.57} {'loss': 0.0285, 'learning_rate': 5.71317546822229e-06, 'epoch': 88.57} {'loss': 0.0282, 'learning_rate': 5.710776788455635e-06, 'epoch': 88.58} {'loss': 0.0273, 'learning_rate': 5.7083781086889775e-06, 'epoch': 88.58} {'loss': 0.0272, 'learning_rate': 5.705979428922321e-06, 'epoch': 88.59} {'loss': 0.0261, 'learning_rate': 5.7035807491556654e-06, 'epoch': 88.59} {'loss': 0.0288, 'learning_rate': 5.701182069389008e-06, 'epoch': 88.6} {'loss': 0.0285, 'learning_rate': 5.6987833896223525e-06, 'epoch': 88.6} {'loss': 0.0264, 'learning_rate': 5.696384709855695e-06, 'epoch': 88.61} {'loss': 0.0278, 'learning_rate': 5.69398603008904e-06, 'epoch': 88.61} {'loss': 0.0257, 'learning_rate': 5.691587350322382e-06, 'epoch': 88.62} {'loss': 0.0279, 'learning_rate': 5.689188670555727e-06, 'epoch': 88.62} {'loss': 0.0266, 'learning_rate': 5.68678999078907e-06, 'epoch': 88.63} {'loss': 0.029, 'learning_rate': 5.684391311022413e-06, 'epoch': 88.63} {'loss': 0.027, 'learning_rate': 5.681992631255757e-06, 'epoch': 88.64} {'loss': 0.0285, 'learning_rate': 5.6795939514891e-06, 'epoch': 88.64} {'loss': 0.0269, 'learning_rate': 5.6771952717224445e-06, 'epoch': 88.65} {'loss': 0.0283, 'learning_rate': 5.674796591955788e-06, 'epoch': 88.65} {'loss': 0.0272, 'learning_rate': 5.672397912189132e-06, 'epoch': 88.66} {'loss': 0.0279, 'learning_rate': 5.669999232422475e-06, 'epoch': 88.66} {'loss': 0.0278, 'learning_rate': 5.667600552655819e-06, 'epoch': 88.66} {'loss': 0.028, 'learning_rate': 5.665201872889162e-06, 'epoch': 88.67} {'loss': 0.0278, 'learning_rate': 5.662803193122505e-06, 'epoch': 88.67} {'loss': 0.0291, 'learning_rate': 5.660404513355849e-06, 'epoch': 88.68} {'loss': 0.0252, 'learning_rate': 5.658005833589193e-06, 'epoch': 88.68} {'loss': 0.0276, 'learning_rate': 5.6556071538225365e-06, 'epoch': 88.69} {'loss': 0.0274, 'learning_rate': 5.65320847405588e-06, 'epoch': 88.69} {'loss': 0.0262, 'learning_rate': 5.6508097942892236e-06, 'epoch': 88.7} {'loss': 0.0271, 'learning_rate': 5.648411114522567e-06, 'epoch': 88.7} {'loss': 0.0273, 'learning_rate': 5.646012434755911e-06, 'epoch': 88.71} {'loss': 0.0265, 'learning_rate': 5.643613754989254e-06, 'epoch': 88.71} {'loss': 0.0273, 'learning_rate': 5.641215075222598e-06, 'epoch': 88.72} {'loss': 0.0281, 'learning_rate': 5.638816395455941e-06, 'epoch': 88.72} {'loss': 0.0271, 'learning_rate': 5.636417715689285e-06, 'epoch': 88.73} {'loss': 0.0284, 'learning_rate': 5.634019035922628e-06, 'epoch': 88.73} {'loss': 0.027, 'learning_rate': 5.631620356155972e-06, 'epoch': 88.74} {'loss': 0.0281, 'learning_rate': 5.6292216763893155e-06, 'epoch': 88.74} {'loss': 0.0266, 'learning_rate': 5.626822996622659e-06, 'epoch': 88.75} {'loss': 0.0278, 'learning_rate': 5.624424316856003e-06, 'epoch': 88.75} {'loss': 0.0283, 'learning_rate': 5.622025637089346e-06, 'epoch': 88.76} {'loss': 0.0263, 'learning_rate': 5.61962695732269e-06, 'epoch': 88.76} {'loss': 0.0293, 'learning_rate': 5.617228277556033e-06, 'epoch': 88.77} {'loss': 0.0278, 'learning_rate': 5.614829597789377e-06, 'epoch': 88.77} {'loss': 0.0268, 'learning_rate': 5.612430918022721e-06, 'epoch': 88.78} {'loss': 0.0281, 'learning_rate': 5.610032238256064e-06, 'epoch': 88.78} {'loss': 0.0287, 'learning_rate': 5.6076335584894075e-06, 'epoch': 88.78} {'loss': 0.0274, 'learning_rate': 5.605234878722751e-06, 'epoch': 88.79} {'loss': 0.0273, 'learning_rate': 5.6028361989560946e-06, 'epoch': 88.79} {'loss': 0.028, 'learning_rate': 5.600437519189439e-06, 'epoch': 88.8} {'loss': 0.0286, 'learning_rate': 5.598038839422782e-06, 'epoch': 88.8} {'loss': 0.028, 'learning_rate': 5.595640159656126e-06, 'epoch': 88.81} {'loss': 0.0275, 'learning_rate': 5.593241479889469e-06, 'epoch': 88.81} {'loss': 0.0258, 'learning_rate': 5.590842800122813e-06, 'epoch': 88.82} {'loss': 0.0291, 'learning_rate': 5.588444120356156e-06, 'epoch': 88.82} {'loss': 0.0269, 'learning_rate': 5.586045440589499e-06, 'epoch': 88.83} {'loss': 0.029, 'learning_rate': 5.583646760822844e-06, 'epoch': 88.83} {'loss': 0.0285, 'learning_rate': 5.5812480810561865e-06, 'epoch': 88.84} {'loss': 0.0302, 'learning_rate': 5.578849401289531e-06, 'epoch': 88.84} {'loss': 0.0274, 'learning_rate': 5.576450721522874e-06, 'epoch': 88.85} {'loss': 0.028, 'learning_rate': 5.574052041756218e-06, 'epoch': 88.85} {'loss': 0.0263, 'learning_rate': 5.5716533619895616e-06, 'epoch': 88.86} {'loss': 0.0278, 'learning_rate': 5.569254682222905e-06, 'epoch': 88.86} {'loss': 0.0264, 'learning_rate': 5.566856002456249e-06, 'epoch': 88.87} {'loss': 0.0288, 'learning_rate': 5.564457322689591e-06, 'epoch': 88.87} {'loss': 0.0273, 'learning_rate': 5.562058642922936e-06, 'epoch': 88.88} {'loss': 0.0285, 'learning_rate': 5.5596599631562785e-06, 'epoch': 88.88} {'loss': 0.0287, 'learning_rate': 5.557261283389623e-06, 'epoch': 88.89} {'loss': 0.0293, 'learning_rate': 5.554862603622966e-06, 'epoch': 88.89} {'loss': 0.0266, 'learning_rate': 5.55246392385631e-06, 'epoch': 88.9} {'loss': 0.0262, 'learning_rate': 5.5500652440896535e-06, 'epoch': 88.9} {'loss': 0.0284, 'learning_rate': 5.547666564322997e-06, 'epoch': 88.9} {'loss': 0.0268, 'learning_rate': 5.545267884556341e-06, 'epoch': 88.91} {'loss': 0.0288, 'learning_rate': 5.542869204789684e-06, 'epoch': 88.91} {'loss': 0.0275, 'learning_rate': 5.540470525023028e-06, 'epoch': 88.92} {'loss': 0.0282, 'learning_rate': 5.538071845256371e-06, 'epoch': 88.92} {'loss': 0.0266, 'learning_rate': 5.535673165489715e-06, 'epoch': 88.93} {'loss': 0.0269, 'learning_rate': 5.533274485723058e-06, 'epoch': 88.93} {'loss': 0.0281, 'learning_rate': 5.530875805956402e-06, 'epoch': 88.94} {'loss': 0.0285, 'learning_rate': 5.5284771261897455e-06, 'epoch': 88.94} {'loss': 0.0277, 'learning_rate': 5.526078446423089e-06, 'epoch': 88.95} {'loss': 0.0279, 'learning_rate': 5.5236797666564326e-06, 'epoch': 88.95} {'loss': 0.0277, 'learning_rate': 5.521281086889776e-06, 'epoch': 88.96} {'loss': 0.0279, 'learning_rate': 5.51888240712312e-06, 'epoch': 88.96} {'loss': 0.0275, 'learning_rate': 5.516483727356463e-06, 'epoch': 88.97} {'loss': 0.0267, 'learning_rate': 5.514085047589807e-06, 'epoch': 88.97} {'loss': 0.0276, 'learning_rate': 5.51168636782315e-06, 'epoch': 88.98} {'loss': 0.0289, 'learning_rate': 5.509287688056494e-06, 'epoch': 88.98} {'loss': 0.0287, 'learning_rate': 5.506889008289837e-06, 'epoch': 88.99} {'loss': 0.0287, 'learning_rate': 5.504490328523181e-06, 'epoch': 88.99} {'loss': 0.0275, 'learning_rate': 5.5020916487565245e-06, 'epoch': 89.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03120056726038456, 'eval_runtime': 746.9978, 'eval_samples_per_second': 558.094, 'eval_steps_per_second': 69.762, 'epoch': 89.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-9275936 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-9275936/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-9275936/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-9171712] due to args.save_total_limit {'loss': 0.0283, 'learning_rate': 5.499692968989868e-06, 'epoch': 89.0} {'loss': 0.0281, 'learning_rate': 5.4972942892232125e-06, 'epoch': 89.01} {'loss': 0.027, 'learning_rate': 5.494895609456555e-06, 'epoch': 89.01} {'loss': 0.0278, 'learning_rate': 5.492496929689899e-06, 'epoch': 89.02} {'loss': 0.0271, 'learning_rate': 5.490098249923242e-06, 'epoch': 89.02} {'loss': 0.0273, 'learning_rate': 5.487699570156586e-06, 'epoch': 89.02} {'loss': 0.0269, 'learning_rate': 5.485300890389929e-06, 'epoch': 89.03} {'loss': 0.0261, 'learning_rate': 5.482902210623273e-06, 'epoch': 89.03} {'loss': 0.027, 'learning_rate': 5.480503530856617e-06, 'epoch': 89.04} {'loss': 0.0272, 'learning_rate': 5.47810485108996e-06, 'epoch': 89.04} {'loss': 0.0282, 'learning_rate': 5.475706171323304e-06, 'epoch': 89.05} {'loss': 0.0266, 'learning_rate': 5.473307491556647e-06, 'epoch': 89.05} {'loss': 0.027, 'learning_rate': 5.470908811789991e-06, 'epoch': 89.06} {'loss': 0.0274, 'learning_rate': 5.468510132023335e-06, 'epoch': 89.06} {'loss': 0.0269, 'learning_rate': 5.466111452256678e-06, 'epoch': 89.07} {'loss': 0.0274, 'learning_rate': 5.463712772490022e-06, 'epoch': 89.07} {'loss': 0.0275, 'learning_rate': 5.461314092723365e-06, 'epoch': 89.08} {'loss': 0.0292, 'learning_rate': 5.458915412956709e-06, 'epoch': 89.08} {'loss': 0.0277, 'learning_rate': 5.456516733190052e-06, 'epoch': 89.09} {'loss': 0.0269, 'learning_rate': 5.454118053423396e-06, 'epoch': 89.09} {'loss': 0.0267, 'learning_rate': 5.45171937365674e-06, 'epoch': 89.1} {'loss': 0.0253, 'learning_rate': 5.449320693890083e-06, 'epoch': 89.1} {'loss': 0.0276, 'learning_rate': 5.446922014123427e-06, 'epoch': 89.11} {'loss': 0.0275, 'learning_rate': 5.44452333435677e-06, 'epoch': 89.11} {'loss': 0.0279, 'learning_rate': 5.442124654590114e-06, 'epoch': 89.12} {'loss': 0.0276, 'learning_rate': 5.439725974823458e-06, 'epoch': 89.12} {'loss': 0.0262, 'learning_rate': 5.437327295056801e-06, 'epoch': 89.13} {'loss': 0.0287, 'learning_rate': 5.434928615290145e-06, 'epoch': 89.13} {'loss': 0.0272, 'learning_rate': 5.432529935523488e-06, 'epoch': 89.13} {'loss': 0.028, 'learning_rate': 5.430131255756832e-06, 'epoch': 89.14} {'loss': 0.0277, 'learning_rate': 5.4277325759901746e-06, 'epoch': 89.14} {'loss': 0.0281, 'learning_rate': 5.425333896223519e-06, 'epoch': 89.15} {'loss': 0.0272, 'learning_rate': 5.4229352164568625e-06, 'epoch': 89.15} {'loss': 0.0282, 'learning_rate': 5.420536536690206e-06, 'epoch': 89.16} {'loss': 0.0267, 'learning_rate': 5.41813785692355e-06, 'epoch': 89.16} {'loss': 0.0266, 'learning_rate': 5.415739177156893e-06, 'epoch': 89.17} {'loss': 0.0268, 'learning_rate': 5.413340497390237e-06, 'epoch': 89.17} {'loss': 0.0269, 'learning_rate': 5.41094181762358e-06, 'epoch': 89.18} {'loss': 0.0258, 'learning_rate': 5.408543137856924e-06, 'epoch': 89.18} {'loss': 0.0275, 'learning_rate': 5.406144458090267e-06, 'epoch': 89.19} {'loss': 0.0284, 'learning_rate': 5.403745778323611e-06, 'epoch': 89.19} {'loss': 0.0269, 'learning_rate': 5.4013470985569545e-06, 'epoch': 89.2} {'loss': 0.028, 'learning_rate': 5.398948418790298e-06, 'epoch': 89.2} {'loss': 0.0275, 'learning_rate': 5.3965497390236416e-06, 'epoch': 89.21} {'loss': 0.0264, 'learning_rate': 5.394151059256985e-06, 'epoch': 89.21} {'loss': 0.0265, 'learning_rate': 5.391752379490329e-06, 'epoch': 89.22} {'loss': 0.0271, 'learning_rate': 5.389353699723672e-06, 'epoch': 89.22} {'loss': 0.0271, 'learning_rate': 5.386955019957016e-06, 'epoch': 89.23} {'loss': 0.0281, 'learning_rate': 5.384556340190359e-06, 'epoch': 89.23} {'loss': 0.0289, 'learning_rate': 5.382157660423704e-06, 'epoch': 89.24} {'loss': 0.0279, 'learning_rate': 5.379758980657046e-06, 'epoch': 89.24} {'loss': 0.0292, 'learning_rate': 5.377360300890391e-06, 'epoch': 89.25} {'loss': 0.0251, 'learning_rate': 5.3749616211237335e-06, 'epoch': 89.25} {'loss': 0.0294, 'learning_rate': 5.372562941357077e-06, 'epoch': 89.25} {'loss': 0.0254, 'learning_rate': 5.370164261590421e-06, 'epoch': 89.26} {'loss': 0.0287, 'learning_rate': 5.367765581823764e-06, 'epoch': 89.26} {'loss': 0.0293, 'learning_rate': 5.3653669020571086e-06, 'epoch': 89.27} {'loss': 0.0277, 'learning_rate': 5.362968222290451e-06, 'epoch': 89.27} {'loss': 0.0277, 'learning_rate': 5.360569542523796e-06, 'epoch': 89.28} {'loss': 0.0278, 'learning_rate': 5.358170862757138e-06, 'epoch': 89.28} {'loss': 0.0273, 'learning_rate': 5.355772182990483e-06, 'epoch': 89.29} {'loss': 0.0295, 'learning_rate': 5.3533735032238255e-06, 'epoch': 89.29} {'loss': 0.0261, 'learning_rate': 5.350974823457169e-06, 'epoch': 89.3} {'loss': 0.0257, 'learning_rate': 5.348576143690513e-06, 'epoch': 89.3} {'loss': 0.0282, 'learning_rate': 5.346177463923856e-06, 'epoch': 89.31} {'loss': 0.0264, 'learning_rate': 5.3437787841572005e-06, 'epoch': 89.31} {'loss': 0.0262, 'learning_rate': 5.341380104390543e-06, 'epoch': 89.32} {'loss': 0.0276, 'learning_rate': 5.338981424623888e-06, 'epoch': 89.32} {'loss': 0.0283, 'learning_rate': 5.336582744857231e-06, 'epoch': 89.33} {'loss': 0.0276, 'learning_rate': 5.334184065090575e-06, 'epoch': 89.33} {'loss': 0.0271, 'learning_rate': 5.331785385323918e-06, 'epoch': 89.34} {'loss': 0.0274, 'learning_rate': 5.329386705557261e-06, 'epoch': 89.34} {'loss': 0.0274, 'learning_rate': 5.326988025790605e-06, 'epoch': 89.35} {'loss': 0.0266, 'learning_rate': 5.324589346023948e-06, 'epoch': 89.35} {'loss': 0.0286, 'learning_rate': 5.3221906662572925e-06, 'epoch': 89.36} {'loss': 0.0272, 'learning_rate': 5.319791986490636e-06, 'epoch': 89.36} {'loss': 0.0275, 'learning_rate': 5.3173933067239796e-06, 'epoch': 89.37} {'loss': 0.0269, 'learning_rate': 5.314994626957323e-06, 'epoch': 89.37} {'loss': 0.0274, 'learning_rate': 5.312595947190667e-06, 'epoch': 89.37} {'loss': 0.0266, 'learning_rate': 5.31019726742401e-06, 'epoch': 89.38} {'loss': 0.0286, 'learning_rate': 5.307798587657354e-06, 'epoch': 89.38} {'loss': 0.0272, 'learning_rate': 5.305399907890697e-06, 'epoch': 89.39} {'loss': 0.0274, 'learning_rate': 5.303001228124041e-06, 'epoch': 89.39} {'loss': 0.0264, 'learning_rate': 5.3006025483573844e-06, 'epoch': 89.4} {'loss': 0.0266, 'learning_rate': 5.298203868590728e-06, 'epoch': 89.4} {'loss': 0.028, 'learning_rate': 5.2958051888240715e-06, 'epoch': 89.41} {'loss': 0.0269, 'learning_rate': 5.293406509057415e-06, 'epoch': 89.41} {'loss': 0.0275, 'learning_rate': 5.291007829290759e-06, 'epoch': 89.42} {'loss': 0.0277, 'learning_rate': 5.288609149524102e-06, 'epoch': 89.42} {'loss': 0.0288, 'learning_rate': 5.286210469757446e-06, 'epoch': 89.43} {'loss': 0.0261, 'learning_rate': 5.283811789990789e-06, 'epoch': 89.43} {'loss': 0.0275, 'learning_rate': 5.281413110224133e-06, 'epoch': 89.44} {'loss': 0.0293, 'learning_rate': 5.279014430457476e-06, 'epoch': 89.44} {'loss': 0.0267, 'learning_rate': 5.27661575069082e-06, 'epoch': 89.45} {'loss': 0.0285, 'learning_rate': 5.2742170709241635e-06, 'epoch': 89.45} {'loss': 0.027, 'learning_rate': 5.271818391157507e-06, 'epoch': 89.46} {'loss': 0.0274, 'learning_rate': 5.269419711390851e-06, 'epoch': 89.46} {'loss': 0.0274, 'learning_rate': 5.267021031624194e-06, 'epoch': 89.47} {'loss': 0.026, 'learning_rate': 5.264622351857538e-06, 'epoch': 89.47} {'loss': 0.0258, 'learning_rate': 5.262223672090882e-06, 'epoch': 89.48} {'loss': 0.0292, 'learning_rate': 5.259824992324225e-06, 'epoch': 89.48} {'loss': 0.0272, 'learning_rate': 5.257426312557568e-06, 'epoch': 89.49} {'loss': 0.0273, 'learning_rate': 5.255027632790912e-06, 'epoch': 89.49} {'loss': 0.0251, 'learning_rate': 5.2526289530242554e-06, 'epoch': 89.49} {'loss': 0.0265, 'learning_rate': 5.2502302732576e-06, 'epoch': 89.5} {'loss': 0.0282, 'learning_rate': 5.2478315934909425e-06, 'epoch': 89.5} {'loss': 0.0267, 'learning_rate': 5.245432913724287e-06, 'epoch': 89.51} {'loss': 0.0269, 'learning_rate': 5.24303423395763e-06, 'epoch': 89.51} {'loss': 0.0268, 'learning_rate': 5.240635554190974e-06, 'epoch': 89.52} {'loss': 0.0263, 'learning_rate': 5.238236874424317e-06, 'epoch': 89.52} {'loss': 0.0284, 'learning_rate': 5.23583819465766e-06, 'epoch': 89.53} {'loss': 0.0289, 'learning_rate': 5.233439514891005e-06, 'epoch': 89.53} {'loss': 0.0274, 'learning_rate': 5.231040835124347e-06, 'epoch': 89.54} {'loss': 0.0292, 'learning_rate': 5.228642155357692e-06, 'epoch': 89.54} {'loss': 0.027, 'learning_rate': 5.2262434755910345e-06, 'epoch': 89.55} {'loss': 0.0279, 'learning_rate': 5.223844795824379e-06, 'epoch': 89.55} {'loss': 0.0281, 'learning_rate': 5.221446116057722e-06, 'epoch': 89.56} {'loss': 0.0251, 'learning_rate': 5.219047436291066e-06, 'epoch': 89.56} {'loss': 0.0262, 'learning_rate': 5.2166487565244095e-06, 'epoch': 89.57} {'loss': 0.0284, 'learning_rate': 5.214250076757752e-06, 'epoch': 89.57} {'loss': 0.0271, 'learning_rate': 5.211851396991097e-06, 'epoch': 89.58} {'loss': 0.0269, 'learning_rate': 5.209452717224439e-06, 'epoch': 89.58} {'loss': 0.0268, 'learning_rate': 5.207054037457784e-06, 'epoch': 89.59} {'loss': 0.0278, 'learning_rate': 5.204655357691127e-06, 'epoch': 89.59} {'loss': 0.0259, 'learning_rate': 5.202256677924471e-06, 'epoch': 89.6} {'loss': 0.0275, 'learning_rate': 5.199857998157814e-06, 'epoch': 89.6} {'loss': 0.0298, 'learning_rate': 5.197459318391158e-06, 'epoch': 89.61} {'loss': 0.0268, 'learning_rate': 5.1950606386245015e-06, 'epoch': 89.61} {'loss': 0.027, 'learning_rate': 5.192661958857844e-06, 'epoch': 89.61} {'loss': 0.0282, 'learning_rate': 5.190263279091189e-06, 'epoch': 89.62} {'loss': 0.0258, 'learning_rate': 5.187864599324532e-06, 'epoch': 89.62} {'loss': 0.0272, 'learning_rate': 5.185465919557876e-06, 'epoch': 89.63} {'loss': 0.0271, 'learning_rate': 5.183067239791219e-06, 'epoch': 89.63} {'loss': 0.028, 'learning_rate': 5.180668560024563e-06, 'epoch': 89.64} {'loss': 0.027, 'learning_rate': 5.178269880257906e-06, 'epoch': 89.64} {'loss': 0.0262, 'learning_rate': 5.17587120049125e-06, 'epoch': 89.65} {'loss': 0.0258, 'learning_rate': 5.1734725207245934e-06, 'epoch': 89.65} {'loss': 0.028, 'learning_rate': 5.171073840957937e-06, 'epoch': 89.66} {'loss': 0.0259, 'learning_rate': 5.1686751611912805e-06, 'epoch': 89.66} {'loss': 0.0271, 'learning_rate': 5.166276481424624e-06, 'epoch': 89.67} {'loss': 0.0279, 'learning_rate': 5.163877801657968e-06, 'epoch': 89.67} {'loss': 0.0291, 'learning_rate': 5.161479121891311e-06, 'epoch': 89.68} {'loss': 0.027, 'learning_rate': 5.159080442124655e-06, 'epoch': 89.68} {'loss': 0.0283, 'learning_rate': 5.156681762357998e-06, 'epoch': 89.69} {'loss': 0.0278, 'learning_rate': 5.154283082591342e-06, 'epoch': 89.69} {'loss': 0.028, 'learning_rate': 5.151884402824685e-06, 'epoch': 89.7} {'loss': 0.0266, 'learning_rate': 5.149485723058029e-06, 'epoch': 89.7} {'loss': 0.0271, 'learning_rate': 5.147087043291373e-06, 'epoch': 89.71} {'loss': 0.0276, 'learning_rate': 5.144688363524716e-06, 'epoch': 89.71} {'loss': 0.0279, 'learning_rate': 5.1422896837580604e-06, 'epoch': 89.72} {'loss': 0.0269, 'learning_rate': 5.139891003991403e-06, 'epoch': 89.72} {'loss': 0.0263, 'learning_rate': 5.137492324224747e-06, 'epoch': 89.73} {'loss': 0.0303, 'learning_rate': 5.13509364445809e-06, 'epoch': 89.73} {'loss': 0.0264, 'learning_rate': 5.132694964691434e-06, 'epoch': 89.73} {'loss': 0.0274, 'learning_rate': 5.130296284924778e-06, 'epoch': 89.74} {'loss': 0.028, 'learning_rate': 5.127897605158121e-06, 'epoch': 89.74} {'loss': 0.0274, 'learning_rate': 5.125498925391465e-06, 'epoch': 89.75} {'loss': 0.0276, 'learning_rate': 5.123100245624808e-06, 'epoch': 89.75} {'loss': 0.0275, 'learning_rate': 5.120701565858152e-06, 'epoch': 89.76} {'loss': 0.0273, 'learning_rate': 5.118302886091496e-06, 'epoch': 89.76} {'loss': 0.0276, 'learning_rate': 5.115904206324839e-06, 'epoch': 89.77} {'loss': 0.0275, 'learning_rate': 5.113505526558183e-06, 'epoch': 89.77} {'loss': 0.0254, 'learning_rate': 5.111106846791526e-06, 'epoch': 89.78} {'loss': 0.027, 'learning_rate': 5.10870816702487e-06, 'epoch': 89.78} {'loss': 0.0277, 'learning_rate': 5.106309487258213e-06, 'epoch': 89.79} {'loss': 0.0268, 'learning_rate': 5.103910807491557e-06, 'epoch': 89.79} {'loss': 0.0274, 'learning_rate': 5.101512127724901e-06, 'epoch': 89.8} {'loss': 0.0276, 'learning_rate': 5.099113447958244e-06, 'epoch': 89.8} {'loss': 0.0277, 'learning_rate': 5.096714768191588e-06, 'epoch': 89.81} {'loss': 0.029, 'learning_rate': 5.094316088424931e-06, 'epoch': 89.81} {'loss': 0.0248, 'learning_rate': 5.091917408658275e-06, 'epoch': 89.82} {'loss': 0.0272, 'learning_rate': 5.089518728891618e-06, 'epoch': 89.82} {'loss': 0.0281, 'learning_rate': 5.087120049124962e-06, 'epoch': 89.83} {'loss': 0.0267, 'learning_rate': 5.084721369358306e-06, 'epoch': 89.83} {'loss': 0.0262, 'learning_rate': 5.082322689591649e-06, 'epoch': 89.84} {'loss': 0.029, 'learning_rate': 5.079924009824993e-06, 'epoch': 89.84} {'loss': 0.0282, 'learning_rate': 5.0775253300583354e-06, 'epoch': 89.84} {'loss': 0.0268, 'learning_rate': 5.07512665029168e-06, 'epoch': 89.85} {'loss': 0.0283, 'learning_rate': 5.072727970525023e-06, 'epoch': 89.85} {'loss': 0.0264, 'learning_rate': 5.070329290758367e-06, 'epoch': 89.86} {'loss': 0.0263, 'learning_rate': 5.0679306109917105e-06, 'epoch': 89.86} {'loss': 0.028, 'learning_rate': 5.065531931225054e-06, 'epoch': 89.87} {'loss': 0.0269, 'learning_rate': 5.063133251458398e-06, 'epoch': 89.87} {'loss': 0.0278, 'learning_rate': 5.060734571691741e-06, 'epoch': 89.88} {'loss': 0.0271, 'learning_rate': 5.058335891925085e-06, 'epoch': 89.88} {'loss': 0.0269, 'learning_rate': 5.055937212158428e-06, 'epoch': 89.89} {'loss': 0.0269, 'learning_rate': 5.053538532391772e-06, 'epoch': 89.89} {'loss': 0.0258, 'learning_rate': 5.051139852625115e-06, 'epoch': 89.9} {'loss': 0.0279, 'learning_rate': 5.048741172858459e-06, 'epoch': 89.9} {'loss': 0.0266, 'learning_rate': 5.0463424930918024e-06, 'epoch': 89.91} {'loss': 0.0289, 'learning_rate': 5.043943813325146e-06, 'epoch': 89.91} {'loss': 0.0281, 'learning_rate': 5.0415451335584895e-06, 'epoch': 89.92} {'loss': 0.0286, 'learning_rate': 5.039146453791833e-06, 'epoch': 89.92} {'loss': 0.0271, 'learning_rate': 5.036747774025177e-06, 'epoch': 89.93} {'loss': 0.0275, 'learning_rate': 5.03434909425852e-06, 'epoch': 89.93} {'loss': 0.0277, 'learning_rate': 5.031950414491864e-06, 'epoch': 89.94} {'loss': 0.0276, 'learning_rate': 5.029551734725207e-06, 'epoch': 89.94} {'loss': 0.0284, 'learning_rate': 5.027153054958552e-06, 'epoch': 89.95} {'loss': 0.0282, 'learning_rate': 5.024754375191894e-06, 'epoch': 89.95} {'loss': 0.029, 'learning_rate': 5.022355695425238e-06, 'epoch': 89.96} {'loss': 0.0283, 'learning_rate': 5.0199570156585815e-06, 'epoch': 89.96} {'loss': 0.0278, 'learning_rate': 5.017558335891925e-06, 'epoch': 89.96} {'loss': 0.0261, 'learning_rate': 5.0151596561252694e-06, 'epoch': 89.97} {'loss': 0.0263, 'learning_rate': 5.012760976358612e-06, 'epoch': 89.97} {'loss': 0.0281, 'learning_rate': 5.0103622965919565e-06, 'epoch': 89.98} {'loss': 0.027, 'learning_rate': 5.007963616825299e-06, 'epoch': 89.98} {'loss': 0.0266, 'learning_rate': 5.005564937058644e-06, 'epoch': 89.99} {'loss': 0.027, 'learning_rate': 5.003166257291986e-06, 'epoch': 89.99} {'loss': 0.0279, 'learning_rate': 5.00076757752533e-06, 'epoch': 90.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8 {'eval_loss': 0.03057316690683365, 'eval_runtime': 757.4934, 'eval_samples_per_second': 550.361, 'eval_steps_per_second': 68.795, 'epoch': 90.0} Saving model checkpoint to ./saved_models/run0-set30_saved_model/checkpoint-9380160 Configuration saved in ./saved_models/run0-set30_saved_model/checkpoint-9380160/config.json Model weights saved in ./saved_models/run0-set30_saved_model/checkpoint-9380160/pytorch_model.bin Deleting older checkpoint [saved_models/run0-set30_saved_model/checkpoint-9275936] due to args.save_total_limit {'loss': 0.0276, 'learning_rate': 4.998368897758674e-06, 'epoch': 90.0} {'loss': 0.0272, 'learning_rate': 4.995970217992017e-06, 'epoch': 90.01} {'loss': 0.0278, 'learning_rate': 4.993571538225361e-06, 'epoch': 90.01} {'loss': 0.0266, 'learning_rate': 4.991172858458704e-06, 'epoch': 90.02} {'loss': 0.0272, 'learning_rate': 4.9887741786920485e-06, 'epoch': 90.02} {'loss': 0.0266, 'learning_rate': 4.986375498925392e-06, 'epoch': 90.03} {'loss': 0.0273, 'learning_rate': 4.983976819158736e-06, 'epoch': 90.03} {'loss': 0.0261, 'learning_rate': 4.981578139392079e-06, 'epoch': 90.04} {'loss': 0.0268, 'learning_rate': 4.979179459625422e-06, 'epoch': 90.04} {'loss': 0.0264, 'learning_rate': 4.976780779858766e-06, 'epoch': 90.05} {'loss': 0.0279, 'learning_rate': 4.974382100092109e-06, 'epoch': 90.05} {'loss': 0.0262, 'learning_rate': 4.971983420325453e-06, 'epoch': 90.06} {'loss': 0.0272, 'learning_rate': 4.969584740558797e-06, 'epoch': 90.06} {'loss': 0.0278, 'learning_rate': 4.9671860607921404e-06, 'epoch': 90.07} {'loss': 0.0257, 'learning_rate': 4.964787381025484e-06, 'epoch': 90.07} {'loss': 0.0264, 'learning_rate': 4.9623887012588275e-06, 'epoch': 90.08} {'loss': 0.0283, 'learning_rate': 4.959990021492171e-06, 'epoch': 90.08} {'loss': 0.0252, 'learning_rate': 4.957591341725514e-06, 'epoch': 90.08} {'loss': 0.0272, 'learning_rate': 4.955192661958858e-06, 'epoch': 90.09} {'loss': 0.0267, 'learning_rate': 4.952793982192202e-06, 'epoch': 90.09} {'loss': 0.026, 'learning_rate': 4.950395302425545e-06, 'epoch': 90.1} {'loss': 0.0262, 'learning_rate': 4.947996622658889e-06, 'epoch': 90.1} {'loss': 0.0273, 'learning_rate': 4.945597942892232e-06, 'epoch': 90.11} {'loss': 0.0281, 'learning_rate': 4.943199263125576e-06, 'epoch': 90.11} {'loss': 0.0258, 'learning_rate': 4.9408005833589195e-06, 'epoch': 90.12} {'loss': 0.0262, 'learning_rate': 4.938401903592263e-06, 'epoch': 90.12} {'loss': 0.0263, 'learning_rate': 4.936003223825607e-06, 'epoch': 90.13} {'loss': 0.028, 'learning_rate': 4.93360454405895e-06, 'epoch': 90.13} {'loss': 0.0262, 'learning_rate': 4.931205864292294e-06, 'epoch': 90.14} {'loss': 0.0268, 'learning_rate': 4.928807184525637e-06, 'epoch': 90.14} {'loss': 0.0285, 'learning_rate': 4.926408504758981e-06, 'epoch': 90.15} {'loss': 0.0262, 'learning_rate': 4.924009824992324e-06, 'epoch': 90.15} {'loss': 0.0275, 'learning_rate': 4.921611145225668e-06, 'epoch': 90.16} {'loss': 0.026, 'learning_rate': 4.9192124654590115e-06, 'epoch': 90.16} {'loss': 0.0283, 'learning_rate': 4.916813785692355e-06, 'epoch': 90.17} {'loss': 0.0274, 'learning_rate': 4.9144151059256986e-06, 'epoch': 90.17} {'loss': 0.0277, 'learning_rate': 4.912016426159043e-06, 'epoch': 90.18} {'loss': 0.0259, 'learning_rate': 4.909617746392386e-06, 'epoch': 90.18} {'loss': 0.0272, 'learning_rate': 4.90721906662573e-06, 'epoch': 90.19} {'loss': 0.0284, 'learning_rate': 4.904820386859073e-06, 'epoch': 90.19} {'loss': 0.028, 'learning_rate': 4.902421707092416e-06, 'epoch': 90.2} {'loss': 0.027, 'learning_rate': 4.90002302732576e-06, 'epoch': 90.2} {'loss': 0.0276, 'learning_rate': 4.897624347559103e-06, 'epoch': 90.2} {'loss': 0.0273, 'learning_rate': 4.895225667792448e-06, 'epoch': 90.21} {'loss': 0.0275, 'learning_rate': 4.8928269880257905e-06, 'epoch': 90.21} {'loss': 0.0256, 'learning_rate': 4.890428308259135e-06, 'epoch': 90.22} {'loss': 0.0265, 'learning_rate': 4.888029628492478e-06, 'epoch': 90.22} {'loss': 0.0277, 'learning_rate': 4.885630948725822e-06, 'epoch': 90.23} {'loss': 0.0267, 'learning_rate': 4.8832322689591656e-06, 'epoch': 90.23} {'loss': 0.025, 'learning_rate': 4.880833589192508e-06, 'epoch': 90.24} {'loss': 0.0264, 'learning_rate': 4.878434909425853e-06, 'epoch': 90.24} {'loss': 0.0276, 'learning_rate': 4.876036229659195e-06, 'epoch': 90.25} {'loss': 0.028, 'learning_rate': 4.87363754989254e-06, 'epoch': 90.25} {'loss': 0.0275, 'learning_rate': 4.8712388701258825e-06, 'epoch': 90.26} {'loss': 0.0264, 'learning_rate': 4.868840190359227e-06, 'epoch': 90.26} {'loss': 0.0284, 'learning_rate': 4.86644151059257e-06, 'epoch': 90.27} {'loss': 0.0272, 'learning_rate': 4.864042830825913e-06, 'epoch': 90.27} {'loss': 0.0272, 'learning_rate': 4.8616441510592575e-06, 'epoch': 90.28} {'loss': 0.027, 'learning_rate': 4.8592454712926e-06, 'epoch': 90.28} {'loss': 0.0258, 'learning_rate': 4.856846791525945e-06, 'epoch': 90.29} {'loss': 0.0267, 'learning_rate': 4.854448111759288e-06, 'epoch': 90.29} {'loss': 0.0274, 'learning_rate': 4.852049431992632e-06, 'epoch': 90.3} {'loss': 0.0255, 'learning_rate': 4.849650752225975e-06, 'epoch': 90.3} {'loss': 0.0257, 'learning_rate': 4.847252072459319e-06, 'epoch': 90.31} {'loss': 0.0281, 'learning_rate': 4.844853392692662e-06, 'epoch': 90.31} {'loss': 0.0293, 'learning_rate': 4.842454712926005e-06, 'epoch': 90.32} {'loss': 0.0277, 'learning_rate': 4.8400560331593495e-06, 'epoch': 90.32} {'loss': 0.0287, 'learning_rate': 4.837657353392693e-06, 'epoch': 90.32} {'loss': 0.0264, 'learning_rate': 4.8352586736260366e-06, 'epoch': 90.33} {'loss': 0.0264, 'learning_rate': 4.83285999385938e-06, 'epoch': 90.33} {'loss': 0.0274, 'learning_rate': 4.830461314092724e-06, 'epoch': 90.34} {'loss': 0.027, 'learning_rate': 4.828062634326067e-06, 'epoch': 90.34} {'loss': 0.0282, 'learning_rate': 4.825663954559411e-06, 'epoch': 90.35} {'loss': 0.0267, 'learning_rate': 4.823265274792754e-06, 'epoch': 90.35} {'loss': 0.0274, 'learning_rate': 4.820866595026098e-06, 'epoch': 90.36} {'loss': 0.0264, 'learning_rate': 4.818467915259441e-06, 'epoch': 90.36} {'loss': 0.0264, 'learning_rate': 4.816069235492785e-06, 'epoch': 90.37} {'loss': 0.0271, 'learning_rate': 4.8136705557261285e-06, 'epoch': 90.37} {'loss': 0.0265, 'learning_rate': 4.811271875959472e-06, 'epoch': 90.38} {'loss': 0.0279, 'learning_rate': 4.808873196192816e-06, 'epoch': 90.38} {'loss': 0.0276, 'learning_rate': 4.806474516426159e-06, 'epoch': 90.39} {'loss': 0.0279, 'learning_rate': 4.804075836659503e-06, 'epoch': 90.39} {'loss': 0.0285, 'learning_rate': 4.801677156892846e-06, 'epoch': 90.4} {'loss': 0.0256, 'learning_rate': 4.79927847712619e-06, 'epoch': 90.4} {'loss': 0.028, 'learning_rate': 4.796879797359533e-06, 'epoch': 90.41} {'loss': 0.0268, 'learning_rate': 4.794481117592877e-06, 'epoch': 90.41} {'loss': 0.0266, 'learning_rate': 4.792082437826221e-06, 'epoch': 90.42} {'loss': 0.0284, 'learning_rate': 4.789683758059564e-06, 'epoch': 90.42} {'loss': 0.0258, 'learning_rate': 4.7872850782929076e-06, 'epoch': 90.43} {'loss': 0.0273, 'learning_rate': 4.784886398526251e-06, 'epoch': 90.43} {'loss': 0.0265, 'learning_rate': 4.782487718759595e-06, 'epoch': 90.44} {'loss': 0.0279, 'learning_rate': 4.780089038992939e-06, 'epoch': 90.44} {'loss': 0.0265, 'learning_rate': 4.777690359226282e-06, 'epoch': 90.44} {'loss': 0.0249, 'learning_rate': 4.775291679459626e-06, 'epoch': 90.45} {'loss': 0.0271, 'learning_rate': 4.772892999692969e-06, 'epoch': 90.45} {'loss': 0.0268, 'learning_rate': 4.770494319926313e-06, 'epoch': 90.46} {'loss': 0.0269, 'learning_rate': 4.768095640159656e-06, 'epoch': 90.46} {'loss': 0.0266, 'learning_rate': 4.7656969603929995e-06, 'epoch': 90.47} {'loss': 0.0279, 'learning_rate': 4.763298280626344e-06, 'epoch': 90.47} {'loss': 0.0273, 'learning_rate': 4.760899600859687e-06, 'epoch': 90.48} {'loss': 0.0276, 'learning_rate': 4.758500921093031e-06, 'epoch': 90.48} {'loss': 0.0274, 'learning_rate': 4.756102241326374e-06, 'epoch': 90.49} {'loss': 0.0262, 'learning_rate': 4.753703561559718e-06, 'epoch': 90.49} {'loss': 0.0256, 'learning_rate': 4.751304881793062e-06, 'epoch': 90.5} {'loss': 0.0258, 'learning_rate': 4.748906202026405e-06, 'epoch': 90.5} {'loss': 0.0284, 'learning_rate': 4.746507522259749e-06, 'epoch': 90.51} {'loss': 0.0274, 'learning_rate': 4.7441088424930915e-06, 'epoch': 90.51} {'loss': 0.0267, 'learning_rate': 4.741710162726436e-06, 'epoch': 90.52} {'loss': 0.0254, 'learning_rate': 4.7393114829597786e-06, 'epoch': 90.52} {'loss': 0.0265, 'learning_rate': 4.736912803193123e-06, 'epoch': 90.53} {'loss': 0.028, 'learning_rate': 4.7345141234264665e-06, 'epoch': 90.53} {'loss': 0.0262, 'learning_rate': 4.73211544365981e-06, 'epoch': 90.54} {'loss': 0.0278, 'learning_rate': 4.729716763893154e-06, 'epoch': 90.54} {'loss': 0.0276, 'learning_rate': 4.727318084126497e-06, 'epoch': 90.55} {'loss': 0.0263, 'learning_rate': 4.724919404359841e-06, 'epoch': 90.55} {'loss': 0.0257, 'learning_rate': 4.722520724593184e-06, 'epoch': 90.55} {'loss': 0.0272, 'learning_rate': 4.720122044826528e-06, 'epoch': 90.56} {'loss': 0.0256, 'learning_rate': 4.717723365059871e-06, 'epoch': 90.56} {'loss': 0.0267, 'learning_rate': 4.715324685293215e-06, 'epoch': 90.57} {'loss': 0.0282, 'learning_rate': 4.7129260055265585e-06, 'epoch': 90.57} {'loss': 0.0266, 'learning_rate': 4.710527325759902e-06, 'epoch': 90.58} {'loss': 0.0272, 'learning_rate': 4.7081286459932456e-06, 'epoch': 90.58} {'loss': 0.0278, 'learning_rate': 4.705729966226589e-06, 'epoch': 90.59} {'loss': 0.0285, 'learning_rate': 4.703331286459933e-06, 'epoch': 90.59} {'loss': 0.0286, 'learning_rate': 4.700932606693276e-06, 'epoch': 90.6} {'loss': 0.0272, 'learning_rate': 4.69853392692662e-06, 'epoch': 90.6} {'loss': 0.0289, 'learning_rate': 4.696135247159963e-06, 'epoch': 90.61} {'loss': 0.0269, 'learning_rate': 4.693736567393307e-06, 'epoch': 90.61} {'loss': 0.026, 'learning_rate': 4.69133788762665e-06, 'epoch': 90.62} {'loss': 0.028, 'learning_rate': 4.688939207859994e-06, 'epoch': 90.62} {'loss': 0.0273, 'learning_rate': 4.6865405280933375e-06, 'epoch': 90.63} {'loss': 0.0274, 'learning_rate': 4.684141848326681e-06, 'epoch': 90.63} {'loss': 0.0282, 'learning_rate': 4.681743168560025e-06, 'epoch': 90.64} {'loss': 0.0268, 'learning_rate': 4.679344488793368e-06, 'epoch': 90.64} {'loss': 0.0253, 'learning_rate': 4.6769458090267126e-06, 'epoch': 90.65} {'loss': 0.0266, 'learning_rate': 4.674547129260055e-06, 'epoch': 90.65} {'loss': 0.0259, 'learning_rate': 4.6721484494934e-06, 'epoch': 90.66} {'loss': 0.0262, 'learning_rate': 4.669749769726742e-06, 'epoch': 90.66} {'loss': 0.0267, 'learning_rate': 4.667351089960086e-06, 'epoch': 90.67} {'loss': 0.0279, 'learning_rate': 4.6649524101934295e-06, 'epoch': 90.67} {'loss': 0.028, 'learning_rate': 4.662553730426773e-06, 'epoch': 90.67} {'loss': 0.0277, 'learning_rate': 4.660155050660117e-06, 'epoch': 90.68} {'loss': 0.0268, 'learning_rate': 4.65775637089346e-06, 'epoch': 90.68} {'loss': 0.0262, 'learning_rate': 4.6553576911268045e-06, 'epoch': 90.69} {'loss': 0.0273, 'learning_rate': 4.652959011360147e-06, 'epoch': 90.69} {'loss': 0.0277, 'learning_rate': 4.650560331593491e-06, 'epoch': 90.7} {'loss': 0.0269, 'learning_rate': 4.648161651826835e-06, 'epoch': 90.7} {'loss': 0.0264, 'learning_rate': 4.645762972060178e-06, 'epoch': 90.71} {'loss': 0.0267, 'learning_rate': 4.643364292293522e-06, 'epoch': 90.71} {'loss': 0.0272, 'learning_rate': 4.640965612526865e-06, 'epoch': 90.72} {'loss': 0.0249, 'learning_rate': 4.638566932760209e-06, 'epoch': 90.72} {'loss': 0.0266, 'learning_rate': 4.636168252993552e-06, 'epoch': 90.73} {'loss': 0.024, 'learning_rate': 4.6337695732268965e-06, 'epoch': 90.73} {'loss': 0.0262, 'learning_rate': 4.63137089346024e-06, 'epoch': 90.74} {'loss': 0.0287, 'learning_rate': 4.628972213693583e-06, 'epoch': 90.74} {'loss': 0.0262, 'learning_rate': 4.626573533926927e-06, 'epoch': 90.75} {'loss': 0.0252, 'learning_rate': 4.62417485416027e-06, 'epoch': 90.75} {'loss': 0.0276, 'learning_rate': 4.621776174393614e-06, 'epoch': 90.76} {'loss': 0.0267, 'learning_rate': 4.619377494626958e-06, 'epoch': 90.76} {'loss': 0.0263, 'learning_rate': 4.616978814860301e-06, 'epoch': 90.77} {'loss': 0.0265, 'learning_rate': 4.614580135093645e-06, 'epoch': 90.77} {'loss': 0.0284, 'learning_rate': 4.612181455326988e-06, 'epoch': 90.78} {'loss': 0.0253, 'learning_rate': 4.609782775560332e-06, 'epoch': 90.78} {'loss': 0.0275, 'learning_rate': 4.607384095793675e-06, 'epoch': 90.79} {'loss': 0.0279, 'learning_rate': 4.604985416027019e-06, 'epoch': 90.79} {'loss': 0.0275, 'learning_rate': 4.602586736260363e-06, 'epoch': 90.79} {'loss': 0.0267, 'learning_rate': 4.600188056493706e-06, 'epoch': 90.8} {'loss': 0.0282, 'learning_rate': 4.59778937672705e-06, 'epoch': 90.8} {'loss': 0.0259, 'learning_rate': 4.595390696960393e-06, 'epoch': 90.81} {'loss': 0.0277, 'learning_rate': 4.592992017193737e-06, 'epoch': 90.81} {'loss': 0.027, 'learning_rate': 4.59059333742708e-06, 'epoch': 90.82} {'loss': 0.0255, 'learning_rate': 4.588194657660424e-06, 'epoch': 90.82} {'loss': 0.0273, 'learning_rate': 4.5857959778937675e-06, 'epoch': 90.83} {'loss': 0.0275, 'learning_rate': 4.583397298127111e-06, 'epoch': 90.83} {'loss': 0.0279, 'learning_rate': 4.5809986183604546e-06, 'epoch': 90.84} {'loss': 0.026, 'learning_rate': 4.578599938593798e-06, 'epoch': 90.84} {'loss': 0.0267, 'learning_rate': 4.576201258827142e-06, 'epoch': 90.85} {'loss': 0.0273, 'learning_rate': 4.573802579060485e-06, 'epoch': 90.85} {'loss': 0.0265, 'learning_rate': 4.571403899293829e-06, 'epoch': 90.86} {'loss': 0.0272, 'learning_rate': 4.569005219527172e-06, 'epoch': 90.86} {'loss': 0.0277, 'learning_rate': 4.566606539760516e-06, 'epoch': 90.87} {'loss': 0.0275, 'learning_rate': 4.5642078599938594e-06, 'epoch': 90.87} {'loss': 0.0276, 'learning_rate': 4.561809180227203e-06, 'epoch': 90.88} {'loss': 0.0265, 'learning_rate': 4.5594105004605465e-06, 'epoch': 90.88} {'loss': 0.0285, 'learning_rate': 4.557011820693891e-06, 'epoch': 90.89} {'loss': 0.0259, 'learning_rate': 4.554613140927234e-06, 'epoch': 90.89} {'loss': 0.0283, 'learning_rate': 4.552214461160577e-06, 'epoch': 90.9} {'loss': 0.0267, 'learning_rate': 4.549815781393921e-06, 'epoch': 90.9} {'loss': 0.0268, 'learning_rate': 4.547417101627264e-06, 'epoch': 90.91} {'loss': 0.0279, 'learning_rate': 4.545018421860609e-06, 'epoch': 90.91} {'loss': 0.0273, 'learning_rate': 4.542619742093951e-06, 'epoch': 90.91} {'loss': 0.0273, 'learning_rate': 4.540221062327296e-06, 'epoch': 90.92} {'loss': 0.0262, 'learning_rate': 4.5378223825606385e-06, 'epoch': 90.92} {'loss': 0.0294, 'learning_rate': 4.535423702793983e-06, 'epoch': 90.93} {'loss': 0.0266, 'learning_rate': 4.533025023027326e-06, 'epoch': 90.93} {'loss': 0.0276, 'learning_rate': 4.530626343260669e-06, 'epoch': 90.94} {'loss': 0.0265, 'learning_rate': 4.5282276634940135e-06, 'epoch': 90.94} {'loss': 0.0263, 'learning_rate': 4.525828983727356e-06, 'epoch': 90.95} {'loss': 0.0274, 'learning_rate': 4.523430303960701e-06, 'epoch': 90.95} {'loss': 0.0282, 'learning_rate': 4.521031624194043e-06, 'epoch': 90.96} {'loss': 0.0256, 'learning_rate': 4.518632944427388e-06, 'epoch': 90.96} {'loss': 0.0279, 'learning_rate': 4.516234264660731e-06, 'epoch': 90.97} {'loss': 0.0277, 'learning_rate': 4.513835584894075e-06, 'epoch': 90.97} {'loss': 0.0271, 'learning_rate': 4.511436905127418e-06, 'epoch': 90.98} {'loss': 0.0262, 'learning_rate': 4.509038225360761e-06, 'epoch': 90.98} {'loss': 0.0264, 'learning_rate': 4.5066395455941055e-06, 'epoch': 90.99} {'loss': 0.0266, 'learning_rate': 4.504240865827448e-06, 'epoch': 90.99} {'loss': 0.0273, 'learning_rate': 4.501842186060793e-06, 'epoch': 91.0} ***** Running Evaluation ***** Num examples = 416895 Batch size = 8