{'loss': 4.1429, 'learning_rate': 1.9880573248407645e-05, 'epoch': 0.1} {'loss': 3.7366, 'learning_rate': 1.9681528662420383e-05, 'epoch': 0.2} {'loss': 3.5836, 'learning_rate': 1.9482484076433124e-05, 'epoch': 0.3} {'loss': 3.4588, 'learning_rate': 1.9283439490445862e-05, 'epoch': 0.4} {'eval_loss': 3.926462411880493, 'eval_runtime': 958.5106, 'eval_samples_per_second': 42.233, 'eval_steps_per_second': 2.641, 'epoch': 0.4} {'loss': 3.3359, 'learning_rate': 1.90843949044586e-05, 'epoch': 0.5} {'loss': 3.2161, 'learning_rate': 1.8885350318471337e-05, 'epoch': 0.59} {'loss': 3.122, 'learning_rate': 1.868630573248408e-05, 'epoch': 0.69} {'loss': 3.0293, 'learning_rate': 1.8487261146496816e-05, 'epoch': 0.79} {'eval_loss': 4.006344795227051, 'eval_runtime': 958.9036, 'eval_samples_per_second': 42.216, 'eval_steps_per_second': 2.639, 'epoch': 0.79} {'loss': 2.9397, 'learning_rate': 1.8288216560509554e-05, 'epoch': 0.89} {'loss': 2.8495, 'learning_rate': 1.8089171974522295e-05, 'epoch': 0.99} {'loss': 2.7033, 'learning_rate': 1.7890127388535033e-05, 'epoch': 1.09} {'loss': 2.6331, 'learning_rate': 1.769108280254777e-05, 'epoch': 1.19} {'eval_loss': 4.1308207511901855, 'eval_runtime': 958.6456, 'eval_samples_per_second': 42.227, 'eval_steps_per_second': 2.64, 'epoch': 1.19} {'loss': 2.5481, 'learning_rate': 1.7492038216560512e-05, 'epoch': 1.29} {'loss': 2.4854, 'learning_rate': 1.729299363057325e-05, 'epoch': 1.39} {'loss': 2.4066, 'learning_rate': 1.7093949044585988e-05, 'epoch': 1.49} {'loss': 2.3432, 'learning_rate': 1.6894904458598726e-05, 'epoch': 1.59} {'eval_loss': 4.2555365562438965, 'eval_runtime': 959.2942, 'eval_samples_per_second': 42.199, 'eval_steps_per_second': 2.638, 'epoch': 1.59} {'loss': 2.2699, 'learning_rate': 1.6695859872611467e-05, 'epoch': 1.69} {'loss': 2.1978, 'learning_rate': 1.6496815286624205e-05, 'epoch': 1.78} {'loss': 2.1452, 'learning_rate': 1.6297770700636943e-05, 'epoch': 1.88} {'loss': 2.0791, 'learning_rate': 1.6098726114649684e-05, 'epoch': 1.98} {'eval_loss': 4.388513088226318, 'eval_runtime': 958.7919, 'eval_samples_per_second': 42.221, 'eval_steps_per_second': 2.64, 'epoch': 1.98} {'loss': 1.9673, 'learning_rate': 1.589968152866242e-05, 'epoch': 2.08} {'loss': 1.9147, 'learning_rate': 1.570063694267516e-05, 'epoch': 2.18} {'loss': 1.8628, 'learning_rate': 1.55015923566879e-05, 'epoch': 2.28} {'loss': 1.7991, 'learning_rate': 1.530254777070064e-05, 'epoch': 2.38} {'eval_loss': 4.536414623260498, 'eval_runtime': 958.7918, 'eval_samples_per_second': 42.221, 'eval_steps_per_second': 2.64, 'epoch': 2.38} {'loss': 1.755, 'learning_rate': 1.5103503184713378e-05, 'epoch': 2.48} {'loss': 1.699, 'learning_rate': 1.4904458598726114e-05, 'epoch': 2.58} {'loss': 1.6565, 'learning_rate': 1.4705414012738855e-05, 'epoch': 2.68} {'loss': 1.6005, 'learning_rate': 1.4506369426751595e-05, 'epoch': 2.78} {'eval_loss': 4.665872097015381, 'eval_runtime': 958.5203, 'eval_samples_per_second': 42.233, 'eval_steps_per_second': 2.641, 'epoch': 2.78} {'loss': 1.5739, 'learning_rate': 1.4307324840764331e-05, 'epoch': 2.87} {'loss': 1.5312, 'learning_rate': 1.4108280254777072e-05, 'epoch': 2.97} {'loss': 1.4352, 'learning_rate': 1.3909235668789812e-05, 'epoch': 3.07} {'loss': 1.4018, 'learning_rate': 1.371019108280255e-05, 'epoch': 3.17} {'eval_loss': 4.807626724243164, 'eval_runtime': 959.3471, 'eval_samples_per_second': 42.196, 'eval_steps_per_second': 2.638, 'epoch': 3.17} {'loss': 1.362, 'learning_rate': 1.3511146496815289e-05, 'epoch': 3.27} {'loss': 1.3312, 'learning_rate': 1.3312101910828025e-05, 'epoch': 3.37} {'loss': 1.2996, 'learning_rate': 1.3113057324840766e-05, 'epoch': 3.47} {'loss': 1.2584, 'learning_rate': 1.2914012738853506e-05, 'epoch': 3.57} {'eval_loss': 4.938758373260498, 'eval_runtime': 959.0042, 'eval_samples_per_second': 42.211, 'eval_steps_per_second': 2.639, 'epoch': 3.57} {'loss': 1.2251, 'learning_rate': 1.2714968152866244e-05, 'epoch': 3.67} {'loss': 1.1985, 'learning_rate': 1.2515923566878983e-05, 'epoch': 3.77} {'loss': 1.1689, 'learning_rate': 1.231687898089172e-05, 'epoch': 3.87} {'loss': 1.1476, 'learning_rate': 1.211783439490446e-05, 'epoch': 3.97} {'eval_loss': 5.052674293518066, 'eval_runtime': 959.1305, 'eval_samples_per_second': 42.206, 'eval_steps_per_second': 2.639, 'epoch': 3.97} {'loss': 1.0804, 'learning_rate': 1.19187898089172e-05, 'epoch': 4.06} {'loss': 1.0489, 'learning_rate': 1.1719745222929938e-05, 'epoch': 4.16} {'loss': 1.0267, 'learning_rate': 1.1520700636942677e-05, 'epoch': 4.26} {'loss': 1.0043, 'learning_rate': 1.1321656050955413e-05, 'epoch': 4.36} {'eval_loss': 5.172101974487305, 'eval_runtime': 958.8916, 'eval_samples_per_second': 42.216, 'eval_steps_per_second': 2.64, 'epoch': 4.36} {'loss': 0.989, 'learning_rate': 1.1122611464968155e-05, 'epoch': 4.46} {'loss': 0.9617, 'learning_rate': 1.0923566878980894e-05, 'epoch': 4.56} {'loss': 0.9621, 'learning_rate': 1.0724522292993632e-05, 'epoch': 4.66} {'loss': 0.9271, 'learning_rate': 1.0525477707006371e-05, 'epoch': 4.76} {'eval_loss': 5.2821364402771, 'eval_runtime': 959.4888, 'eval_samples_per_second': 42.19, 'eval_steps_per_second': 2.638, 'epoch': 4.76} {'loss': 0.8991, 'learning_rate': 1.0326433121019107e-05, 'epoch': 4.86} {'loss': 0.8971, 'learning_rate': 1.0127388535031849e-05, 'epoch': 4.96} {'loss': 0.8486, 'learning_rate': 9.928343949044586e-06, 'epoch': 5.06} {'loss': 0.8291, 'learning_rate': 9.729299363057324e-06, 'epoch': 5.15} {'eval_loss': 5.384232521057129, 'eval_runtime': 958.7754, 'eval_samples_per_second': 42.222, 'eval_steps_per_second': 2.64, 'epoch': 5.15} {'loss': 0.8108, 'learning_rate': 9.530254777070066e-06, 'epoch': 5.25} {'loss': 0.7972, 'learning_rate': 9.331210191082803e-06, 'epoch': 5.35} {'loss': 0.7845, 'learning_rate': 9.132165605095543e-06, 'epoch': 5.45} {'loss': 0.776, 'learning_rate': 8.93312101910828e-06, 'epoch': 5.55} {'eval_loss': 5.476274490356445, 'eval_runtime': 959.1462, 'eval_samples_per_second': 42.205, 'eval_steps_per_second': 2.639, 'epoch': 5.55} {'loss': 0.76, 'learning_rate': 8.734076433121018e-06, 'epoch': 5.65} {'loss': 0.7445, 'learning_rate': 8.53503184713376e-06, 'epoch': 5.75} {'loss': 0.731, 'learning_rate': 8.335987261146497e-06, 'epoch': 5.85} {'loss': 0.7241, 'learning_rate': 8.136942675159237e-06, 'epoch': 5.95} {'eval_loss': 5.554164886474609, 'eval_runtime': 958.7676, 'eval_samples_per_second': 42.222, 'eval_steps_per_second': 2.64, 'epoch': 5.95} {'loss': 0.7027, 'learning_rate': 7.937898089171975e-06, 'epoch': 6.05} {'loss': 0.6773, 'learning_rate': 7.738853503184714e-06, 'epoch': 6.15} {'loss': 0.6782, 'learning_rate': 7.539808917197453e-06, 'epoch': 6.25} {'loss': 0.6602, 'learning_rate': 7.340764331210192e-06, 'epoch': 6.34} {'eval_loss': 5.626761436462402, 'eval_runtime': 959.3904, 'eval_samples_per_second': 42.195, 'eval_steps_per_second': 2.638, 'epoch': 6.34} {'loss': 0.6511, 'learning_rate': 7.14171974522293e-06, 'epoch': 6.44} {'loss': 0.6436, 'learning_rate': 6.942675159235669e-06, 'epoch': 6.54} {'loss': 0.6435, 'learning_rate': 6.7436305732484085e-06, 'epoch': 6.64} {'loss': 0.635, 'learning_rate': 6.544585987261147e-06, 'epoch': 6.74} {'eval_loss': 5.690598011016846, 'eval_runtime': 958.9891, 'eval_samples_per_second': 42.212, 'eval_steps_per_second': 2.639, 'epoch': 6.74} {'loss': 0.6306, 'learning_rate': 6.345541401273886e-06, 'epoch': 6.84} {'loss': 0.6146, 'learning_rate': 6.1464968152866244e-06, 'epoch': 6.94} {'loss': 0.5998, 'learning_rate': 5.947452229299363e-06, 'epoch': 7.04} {'loss': 0.5837, 'learning_rate': 5.748407643312103e-06, 'epoch': 7.14}