{'loss': 4.6573, 'learning_rate': 9.940286624203822e-07, 'epoch': 0.1} {'loss': 4.1908, 'learning_rate': 9.84076433121019e-07, 'epoch': 0.2} {'loss': 4.1363, 'learning_rate': 9.74124203821656e-07, 'epoch': 0.3} {'loss': 4.0949, 'learning_rate': 9.64171974522293e-07, 'epoch': 0.4} {'eval_loss': 4.065090656280518, 'eval_runtime': 956.8029, 'eval_samples_per_second': 42.309, 'eval_steps_per_second': 2.645, 'epoch': 0.4} {'loss': 4.0574, 'learning_rate': 9.542197452229298e-07, 'epoch': 0.5} {'loss': 4.0203, 'learning_rate': 9.442675159235668e-07, 'epoch': 0.59} {'loss': 4.0018, 'learning_rate': 9.343152866242037e-07, 'epoch': 0.69} {'loss': 3.9827, 'learning_rate': 9.243630573248408e-07, 'epoch': 0.79} {'eval_loss': 3.9990909099578857, 'eval_runtime': 956.511, 'eval_samples_per_second': 42.322, 'eval_steps_per_second': 2.646, 'epoch': 0.79} {'loss': 3.9639, 'learning_rate': 9.144108280254777e-07, 'epoch': 0.89} {'loss': 3.9332, 'learning_rate': 9.044585987261146e-07, 'epoch': 0.99} {'loss': 3.9176, 'learning_rate': 8.945063694267515e-07, 'epoch': 1.09} {'loss': 3.9053, 'learning_rate': 8.845541401273885e-07, 'epoch': 1.19} {'eval_loss': 3.9662063121795654, 'eval_runtime': 956.3954, 'eval_samples_per_second': 42.327, 'eval_steps_per_second': 2.646, 'epoch': 1.19} {'loss': 3.8901, 'learning_rate': 8.746019108280255e-07, 'epoch': 1.29} {'loss': 3.8773, 'learning_rate': 8.646496815286623e-07, 'epoch': 1.39} {'loss': 3.8635, 'learning_rate': 8.546974522292994e-07, 'epoch': 1.49} {'loss': 3.8504, 'learning_rate': 8.447452229299363e-07, 'epoch': 1.59} {'eval_loss': 3.947122097015381, 'eval_runtime': 958.2407, 'eval_samples_per_second': 42.245, 'eval_steps_per_second': 2.641, 'epoch': 1.59} {'loss': 3.8412, 'learning_rate': 8.347929936305732e-07, 'epoch': 1.69} {'loss': 3.8197, 'learning_rate': 8.248407643312102e-07, 'epoch': 1.78} {'loss': 3.8104, 'learning_rate': 8.148885350318471e-07, 'epoch': 1.88} {'loss': 3.8018, 'learning_rate': 8.04936305732484e-07, 'epoch': 1.98} {'eval_loss': 3.934990406036377, 'eval_runtime': 958.0564, 'eval_samples_per_second': 42.253, 'eval_steps_per_second': 2.642, 'epoch': 1.98} {'loss': 3.7856, 'learning_rate': 7.949840764331209e-07, 'epoch': 2.08} {'loss': 3.7865, 'learning_rate': 7.85031847133758e-07, 'epoch': 2.18} {'loss': 3.7726, 'learning_rate': 7.750796178343949e-07, 'epoch': 2.28} {'loss': 3.7621, 'learning_rate': 7.651273885350318e-07, 'epoch': 2.38} {'eval_loss': 3.9279017448425293, 'eval_runtime': 958.1895, 'eval_samples_per_second': 42.247, 'eval_steps_per_second': 2.641, 'epoch': 2.38} {'loss': 3.7631, 'learning_rate': 7.551751592356688e-07, 'epoch': 2.48} {'loss': 3.7393, 'learning_rate': 7.452229299363056e-07, 'epoch': 2.58} {'loss': 3.7422, 'learning_rate': 7.352707006369426e-07, 'epoch': 2.68} {'loss': 3.7288, 'learning_rate': 7.253184713375796e-07, 'epoch': 2.78} {'eval_loss': 3.923462152481079, 'eval_runtime': 957.9842, 'eval_samples_per_second': 42.256, 'eval_steps_per_second': 2.642, 'epoch': 2.78} {'loss': 3.7287, 'learning_rate': 7.153662420382165e-07, 'epoch': 2.87} {'loss': 3.7216, 'learning_rate': 7.054140127388535e-07, 'epoch': 2.97} {'loss': 3.7013, 'learning_rate': 6.954617834394905e-07, 'epoch': 3.07} {'loss': 3.7045, 'learning_rate': 6.855095541401274e-07, 'epoch': 3.17} {'eval_loss': 3.9206576347351074, 'eval_runtime': 958.4728, 'eval_samples_per_second': 42.235, 'eval_steps_per_second': 2.641, 'epoch': 3.17} {'loss': 3.6973, 'learning_rate': 6.755573248407643e-07, 'epoch': 3.27} {'loss': 3.6875, 'learning_rate': 6.656050955414012e-07, 'epoch': 3.37} {'loss': 3.6816, 'learning_rate': 6.556528662420382e-07, 'epoch': 3.47} {'loss': 3.6757, 'learning_rate': 6.457006369426751e-07, 'epoch': 3.57} {'eval_loss': 3.9188361167907715, 'eval_runtime': 958.2286, 'eval_samples_per_second': 42.246, 'eval_steps_per_second': 2.641, 'epoch': 3.57} {'loss': 3.6654, 'learning_rate': 6.35748407643312e-07, 'epoch': 3.67} {'loss': 3.6676, 'learning_rate': 6.257961783439491e-07, 'epoch': 3.77} {'loss': 3.6625, 'learning_rate': 6.158439490445859e-07, 'epoch': 3.87} {'loss': 3.6562, 'learning_rate': 6.058917197452229e-07, 'epoch': 3.97} {'eval_loss': 3.9182815551757812, 'eval_runtime': 958.585, 'eval_samples_per_second': 42.23, 'eval_steps_per_second': 2.64, 'epoch': 3.97} {'loss': 3.645, 'learning_rate': 5.959394904458599e-07, 'epoch': 4.06} {'loss': 3.6396, 'learning_rate': 5.859872611464968e-07, 'epoch': 4.16} {'loss': 3.6316, 'learning_rate': 5.760350318471337e-07, 'epoch': 4.26} {'loss': 3.6261, 'learning_rate': 5.660828025477706e-07, 'epoch': 4.36} {'eval_loss': 3.917975902557373, 'eval_runtime': 958.056, 'eval_samples_per_second': 42.253, 'eval_steps_per_second': 2.642, 'epoch': 4.36} {'loss': 3.628, 'learning_rate': 5.561305732484077e-07, 'epoch': 4.46} {'loss': 3.6237, 'learning_rate': 5.461783439490446e-07, 'epoch': 4.56} {'loss': 3.6239, 'learning_rate': 5.362261146496815e-07, 'epoch': 4.66} {'loss': 3.6161, 'learning_rate': 5.262738853503185e-07, 'epoch': 4.76} {'eval_loss': 3.9181969165802, 'eval_runtime': 958.635, 'eval_samples_per_second': 42.228, 'eval_steps_per_second': 2.64, 'epoch': 4.76} {'loss': 3.612, 'learning_rate': 5.163216560509553e-07, 'epoch': 4.86} {'loss': 3.6078, 'learning_rate': 5.063694267515923e-07, 'epoch': 4.96} {'loss': 3.6014, 'learning_rate': 4.964171974522292e-07, 'epoch': 5.06} {'loss': 3.5983, 'learning_rate': 4.864649681528662e-07, 'epoch': 5.15} {'eval_loss': 3.9187488555908203, 'eval_runtime': 960.0986, 'eval_samples_per_second': 42.163, 'eval_steps_per_second': 2.636, 'epoch': 5.15} {'loss': 3.5933, 'learning_rate': 4.7651273885350317e-07, 'epoch': 5.25} {'loss': 3.5858, 'learning_rate': 4.6656050955414013e-07, 'epoch': 5.35} {'loss': 3.5839, 'learning_rate': 4.5660828025477705e-07, 'epoch': 5.45} {'loss': 3.5827, 'learning_rate': 4.4665605095541396e-07, 'epoch': 5.55} {'eval_loss': 3.919233798980713, 'eval_runtime': 958.3254, 'eval_samples_per_second': 42.241, 'eval_steps_per_second': 2.641, 'epoch': 5.55} {'loss': 3.5799, 'learning_rate': 4.367038216560509e-07, 'epoch': 5.65} {'loss': 3.5683, 'learning_rate': 4.267515923566879e-07, 'epoch': 5.75} {'loss': 3.567, 'learning_rate': 4.1679936305732485e-07, 'epoch': 5.85} {'loss': 3.5641, 'learning_rate': 4.0684713375796176e-07, 'epoch': 5.95} {'eval_loss': 3.919787883758545, 'eval_runtime': 958.2729, 'eval_samples_per_second': 42.244, 'eval_steps_per_second': 2.641, 'epoch': 5.95} {'loss': 3.5636, 'learning_rate': 3.968949044585987e-07, 'epoch': 6.05} {'loss': 3.5607, 'learning_rate': 3.869426751592357e-07, 'epoch': 6.15} {'loss': 3.5583, 'learning_rate': 3.769904458598726e-07, 'epoch': 6.25} {'loss': 3.558, 'learning_rate': 3.670382165605095e-07, 'epoch': 6.34} {'eval_loss': 3.92071270942688, 'eval_runtime': 958.5576, 'eval_samples_per_second': 42.231, 'eval_steps_per_second': 2.64, 'epoch': 6.34} {'loss': 3.5481, 'learning_rate': 3.570859872611465e-07, 'epoch': 6.44} {'loss': 3.5491, 'learning_rate': 3.471337579617834e-07, 'epoch': 6.54} {'loss': 3.5458, 'learning_rate': 3.371815286624204e-07, 'epoch': 6.64} {'loss': 3.544, 'learning_rate': 3.272292993630573e-07, 'epoch': 6.74} {'eval_loss': 3.9213366508483887, 'eval_runtime': 958.1408, 'eval_samples_per_second': 42.25, 'eval_steps_per_second': 2.642, 'epoch': 6.74} {'loss': 3.5444, 'learning_rate': 3.1727707006369424e-07, 'epoch': 6.84} {'loss': 3.5384, 'learning_rate': 3.073248407643312e-07, 'epoch': 6.94} {'loss': 3.5322, 'learning_rate': 2.973726114649681e-07, 'epoch': 7.04} {'loss': 3.5243, 'learning_rate': 2.874203821656051e-07, 'epoch': 7.14} {'eval_loss': 3.9221251010894775, 'eval_runtime': 958.7155, 'eval_samples_per_second': 42.224, 'eval_steps_per_second': 2.64, 'epoch': 7.14} {'loss': 3.5364, 'learning_rate': 2.7746815286624204e-07, 'epoch': 7.24} {'loss': 3.5269, 'learning_rate': 2.6751592356687895e-07, 'epoch': 7.34} {'loss': 3.5259, 'learning_rate': 2.575636942675159e-07, 'epoch': 7.43} {'loss': 3.5246, 'learning_rate': 2.4761146496815283e-07, 'epoch': 7.53} {'eval_loss': 3.9223663806915283, 'eval_runtime': 958.3632, 'eval_samples_per_second': 42.24, 'eval_steps_per_second': 2.641, 'epoch': 7.53} {'loss': 3.5249, 'learning_rate': 2.376592356687898e-07, 'epoch': 7.63} {'loss': 3.5216, 'learning_rate': 2.2770700636942673e-07, 'epoch': 7.73} {'loss': 3.5242, 'learning_rate': 2.1775477707006367e-07, 'epoch': 7.83} {'loss': 3.5265, 'learning_rate': 2.0780254777070064e-07, 'epoch': 7.93} {'eval_loss': 3.922888994216919, 'eval_runtime': 956.7286, 'eval_samples_per_second': 42.312, 'eval_steps_per_second': 2.645, 'epoch': 7.93} {'loss': 3.514, 'learning_rate': 1.9785031847133758e-07, 'epoch': 8.03} {'loss': 3.5125, 'learning_rate': 1.8789808917197454e-07, 'epoch': 8.13} {'loss': 3.5122, 'learning_rate': 1.7794585987261145e-07, 'epoch': 8.23} {'loss': 3.5147, 'learning_rate': 1.679936305732484e-07, 'epoch': 8.33} {'eval_loss': 3.923583745956421, 'eval_runtime': 956.6212, 'eval_samples_per_second': 42.317, 'eval_steps_per_second': 2.646, 'epoch': 8.33} {'loss': 3.5081, 'learning_rate': 1.5804140127388535e-07, 'epoch': 8.43} {'loss': 3.5144, 'learning_rate': 1.480891719745223e-07, 'epoch': 8.52} {'loss': 3.516, 'learning_rate': 1.3813694267515923e-07, 'epoch': 8.62} {'loss': 3.5094, 'learning_rate': 1.2818471337579617e-07, 'epoch': 8.72} {'eval_loss': 3.923804521560669, 'eval_runtime': 956.9079, 'eval_samples_per_second': 42.304, 'eval_steps_per_second': 2.645, 'epoch': 8.72} {'loss': 3.5069, 'learning_rate': 1.1823248407643312e-07, 'epoch': 8.82} {'loss': 3.4921, 'learning_rate': 1.0828025477707006e-07, 'epoch': 8.92} {'loss': 3.5038, 'learning_rate': 9.832802547770701e-08, 'epoch': 9.02} {'loss': 3.5071, 'learning_rate': 8.837579617834394e-08, 'epoch': 9.12} {'eval_loss': 3.924133062362671, 'eval_runtime': 956.9513, 'eval_samples_per_second': 42.302, 'eval_steps_per_second': 2.645, 'epoch': 9.12} {'loss': 3.4962, 'learning_rate': 7.842356687898089e-08, 'epoch': 9.22} {'loss': 3.5045, 'learning_rate': 6.847133757961783e-08, 'epoch': 9.32} {'loss': 3.5056, 'learning_rate': 5.851910828025478e-08, 'epoch': 9.42} {'loss': 3.5073, 'learning_rate': 4.856687898089172e-08, 'epoch': 9.52}