{'loss': 1.4053, 'grad_norm': 96.79701232910156, 'learning_rate': 9.816176470588235e-05, 'epoch': 0.18}                                                   
{'eval_loss': 1.3573765754699707, 'eval_runtime': 116.0267, 'eval_samples_per_second': 41.594, 'eval_steps_per_second': 20.797, 'epoch': 0.18}            
{'loss': 1.3129, 'grad_norm': 61.9161491394043, 'learning_rate': 9.632352941176472e-05, 'epoch': 0.37}                                                    
{'eval_loss': 1.3341882228851318, 'eval_runtime': 115.8791, 'eval_samples_per_second': 41.647, 'eval_steps_per_second': 20.823, 'epoch': 0.37}            
{'loss': 1.2777, 'grad_norm': 96.54769134521484, 'learning_rate': 9.448529411764707e-05, 'epoch': 0.55}                                                   
{'eval_loss': 1.3152097463607788, 'eval_runtime': 115.9906, 'eval_samples_per_second': 41.607, 'eval_steps_per_second': 20.803, 'epoch': 0.55}            
{'loss': 1.2403, 'grad_norm': 106.12042999267578, 'learning_rate': 9.264705882352942e-05, 'epoch': 0.74}                                                  
{'eval_loss': 1.3023375272750854, 'eval_runtime': 116.029, 'eval_samples_per_second': 41.593, 'eval_steps_per_second': 20.797, 'epoch': 0.74}             
{'loss': 1.2155, 'grad_norm': 67.17801666259766, 'learning_rate': 9.080882352941177e-05, 'epoch': 0.92}                                                   
{'eval_loss': 1.2906817197799683, 'eval_runtime': 115.9297, 'eval_samples_per_second': 41.629, 'eval_steps_per_second': 20.814, 'epoch': 0.92}            
{'loss': 1.1858, 'grad_norm': 57.83748245239258, 'learning_rate': 8.897058823529412e-05, 'epoch': 1.1}                                                    
{'eval_loss': 1.2834607362747192, 'eval_runtime': 115.7904, 'eval_samples_per_second': 41.679, 'eval_steps_per_second': 20.839, 'epoch': 1.1}             
{'loss': 1.1591, 'grad_norm': 104.54215240478516, 'learning_rate': 8.713235294117648e-05, 'epoch': 1.29}                                                  
{'eval_loss': 1.274283766746521, 'eval_runtime': 116.0184, 'eval_samples_per_second': 41.597, 'eval_steps_per_second': 20.798, 'epoch': 1.29}             
{'loss': 1.1408, 'grad_norm': 85.3061294555664, 'learning_rate': 8.529411764705883e-05, 'epoch': 1.47}                                                    
{'eval_loss': 1.2692538499832153, 'eval_runtime': 116.0932, 'eval_samples_per_second': 41.57, 'eval_steps_per_second': 20.785, 'epoch': 1.47}             
{'loss': 1.1256, 'grad_norm': 72.23489379882812, 'learning_rate': 8.345588235294118e-05, 'epoch': 1.65}                                                   
{'eval_loss': 1.2617342472076416, 'eval_runtime': 116.0634, 'eval_samples_per_second': 41.581, 'eval_steps_per_second': 20.79, 'epoch': 1.65}             
{'loss': 1.1098, 'grad_norm': 65.63114929199219, 'learning_rate': 8.161764705882353e-05, 'epoch': 1.84}                                                   
{'eval_loss': 1.2621153593063354, 'eval_runtime': 115.9613, 'eval_samples_per_second': 41.617, 'eval_steps_per_second': 20.809, 'epoch': 1.84}            
{'loss': 1.0919, 'grad_norm': 45.61464309692383, 'learning_rate': 7.977941176470589e-05, 'epoch': 2.02}                                                   
{'eval_loss': 1.2552005052566528, 'eval_runtime': 117.239, 'eval_samples_per_second': 41.164, 'eval_steps_per_second': 20.582, 'epoch': 2.02}             
{'loss': 1.0693, 'grad_norm': 59.019195556640625, 'learning_rate': 7.794117647058824e-05, 'epoch': 2.21}                                                  
{'eval_loss': 1.2541062831878662, 'eval_runtime': 115.9595, 'eval_samples_per_second': 41.618, 'eval_steps_per_second': 20.809, 'epoch': 2.21}            
{'loss': 1.0562, 'grad_norm': 43.13253402709961, 'learning_rate': 7.610294117647059e-05, 'epoch': 2.39}                                                   
{'eval_loss': 1.2531682252883911, 'eval_runtime': 116.101, 'eval_samples_per_second': 41.567, 'eval_steps_per_second': 20.784, 'epoch': 2.39}             
{'loss': 1.048, 'grad_norm': 59.197181701660156, 'learning_rate': 7.426470588235294e-05, 'epoch': 2.57}                                                   
{'eval_loss': 1.2469751834869385, 'eval_runtime': 115.9924, 'eval_samples_per_second': 41.606, 'eval_steps_per_second': 20.803, 'epoch': 2.57}            
{'eval_loss': 1.2469751834869385, 'eval_runtime': 115.9924, 'eval_samples_per_second': 41.606, 'eval_steps_per_second': 20.803, 'epoch': 2.57}            
{'loss': 1.0436, 'grad_norm': 75.58405303955078, 'learning_rate': 7.242647058823529e-05, 'epoch': 2.76}                                                   
{'eval_loss': 1.2442747354507446, 'eval_runtime': 116.1229, 'eval_samples_per_second': 41.559, 'eval_steps_per_second': 20.78, 'epoch': 2.76}             
{'loss': 1.0327, 'grad_norm': 80.94259643554688, 'learning_rate': 7.058823529411765e-05, 'epoch': 2.94}                                                   
{'eval_loss': 1.2350915670394897, 'eval_runtime': 116.1113, 'eval_samples_per_second': 41.564, 'eval_steps_per_second': 20.782, 'epoch': 2.94}            
{'loss': 1.0081, 'grad_norm': 48.83946990966797, 'learning_rate': 6.875e-05, 'epoch': 3.12}                                                               
{'eval_loss': 1.2360025644302368, 'eval_runtime': 116.1076, 'eval_samples_per_second': 41.565, 'eval_steps_per_second': 20.782, 'epoch': 3.12}            
{'loss': 0.9992, 'grad_norm': 59.597232818603516, 'learning_rate': 6.691176470588235e-05, 'epoch': 3.31}                                                  
{'eval_loss': 1.2394022941589355, 'eval_runtime': 115.8965, 'eval_samples_per_second': 41.641, 'eval_steps_per_second': 20.82, 'epoch': 3.31}             
{'loss': 0.9943, 'grad_norm': 49.224666595458984, 'learning_rate': 6.507352941176472e-05, 'epoch': 3.49}                                                  
{'eval_loss': 1.235238790512085, 'eval_runtime': 116.2683, 'eval_samples_per_second': 41.507, 'eval_steps_per_second': 20.754, 'epoch': 3.49}             
{'loss': 0.9868, 'grad_norm': 65.07023620605469, 'learning_rate': 6.323529411764705e-05, 'epoch': 3.68}                                                   
{'eval_loss': 1.23443603515625, 'eval_runtime': 116.2562, 'eval_samples_per_second': 41.512, 'eval_steps_per_second': 20.756, 'epoch': 3.68}              
{'loss': 0.9781, 'grad_norm': 49.963409423828125, 'learning_rate': 6.139705882352942e-05, 'epoch': 3.86}                                                  
{'eval_loss': 1.232906460762024, 'eval_runtime': 116.0309, 'eval_samples_per_second': 41.592, 'eval_steps_per_second': 20.796, 'epoch': 3.86}             
{'loss': 0.9697, 'grad_norm': 57.1251335144043, 'learning_rate': 5.9558823529411766e-05, 'epoch': 4.04}                                                   
{'eval_loss': 1.2329473495483398, 'eval_runtime': 117.8798, 'eval_samples_per_second': 40.94, 'eval_steps_per_second': 20.47, 'epoch': 4.04}              
{'loss': 0.9499, 'grad_norm': 47.962928771972656, 'learning_rate': 5.7720588235294116e-05, 'epoch': 4.23}                                                 
{'eval_loss': 1.2345472574234009, 'eval_runtime': 115.8584, 'eval_samples_per_second': 41.654, 'eval_steps_per_second': 20.827, 'epoch': 4.23}            
{'loss': 0.9447, 'grad_norm': 43.172767639160156, 'learning_rate': 5.588235294117647e-05, 'epoch': 4.41}                                                  
{'eval_loss': 1.2309461832046509, 'eval_runtime': 116.0943, 'eval_samples_per_second': 41.57, 'eval_steps_per_second': 20.785, 'epoch': 4.41}             
{'loss': 0.9384, 'grad_norm': 89.4483413696289, 'learning_rate': 5.404411764705882e-05, 'epoch': 4.6}                                                     
{'eval_loss': 1.2274333238601685, 'eval_runtime': 116.0025, 'eval_samples_per_second': 41.603, 'eval_steps_per_second': 20.801, 'epoch': 4.6}             
{'loss': 0.9369, 'grad_norm': 61.61293029785156, 'learning_rate': 5.2205882352941185e-05, 'epoch': 4.78}                                                  
{'eval_loss': 1.2256300449371338, 'eval_runtime': 115.8928, 'eval_samples_per_second': 41.642, 'eval_steps_per_second': 20.821, 'epoch': 4.78}            
{'loss': 0.9301, 'grad_norm': 73.70500946044922, 'learning_rate': 5.036764705882353e-05, 'epoch': 4.96}                                                   
{'eval_loss': 1.2280672788619995, 'eval_runtime': 116.1193, 'eval_samples_per_second': 41.561, 'eval_steps_per_second': 20.78, 'epoch': 4.96}             
{'loss': 0.9172, 'grad_norm': 71.07781219482422, 'learning_rate': 4.8529411764705885e-05, 'epoch': 5.15}                                                  
{'eval_loss': 1.2280040979385376, 'eval_runtime': 116.2535, 'eval_samples_per_second': 41.513, 'eval_steps_per_second': 20.756, 'epoch': 5.15}            
{'loss': 0.9067, 'grad_norm': 59.39795684814453, 'learning_rate': 4.669117647058824e-05, 'epoch': 5.33}                                                   
{'eval_loss': 1.2288336753845215, 'eval_runtime': 115.8973, 'eval_samples_per_second': 41.64, 'eval_steps_per_second': 20.82, 'epoch': 5.33}              
{'loss': 0.9004, 'grad_norm': 55.501617431640625, 'learning_rate': 4.485294117647059e-05, 'epoch': 5.51}                                                  
{'eval_loss': 1.2262146472930908, 'eval_runtime': 115.9478, 'eval_samples_per_second': 41.622, 'eval_steps_per_second': 20.811, 'epoch': 5.51}            
{'loss': 0.9035, 'grad_norm': 69.02213287353516, 'learning_rate': 4.301470588235295e-05, 'epoch': 5.7}                                                    
{'eval_loss': 1.2236130237579346, 'eval_runtime': 116.1221, 'eval_samples_per_second': 41.56, 'eval_steps_per_second': 20.78, 'epoch': 5.7}               
{'loss': 0.8962, 'grad_norm': 45.09730529785156, 'learning_rate': 4.11764705882353e-05, 'epoch': 5.88}                                                    
{'eval_loss': 1.2278504371643066, 'eval_runtime': 115.9916, 'eval_samples_per_second': 41.606, 'eval_steps_per_second': 20.803, 'epoch': 5.88}            
{'loss': 0.8925, 'grad_norm': 47.59389877319336, 'learning_rate': 3.933823529411765e-05, 'epoch': 6.07}                                                   
{'eval_loss': 1.2326780557632446, 'eval_runtime': 116.7248, 'eval_samples_per_second': 41.345, 'eval_steps_per_second': 20.673, 'epoch': 6.07}            
{'loss': 0.8771, 'grad_norm': 45.18083190917969, 'learning_rate': 3.7500000000000003e-05, 'epoch': 6.25}                                                  
{'eval_loss': 1.2302526235580444, 'eval_runtime': 115.8769, 'eval_samples_per_second': 41.648, 'eval_steps_per_second': 20.824, 'epoch': 6.25}            
{'loss': 0.8743, 'grad_norm': 40.455318450927734, 'learning_rate': 3.566176470588235e-05, 'epoch': 6.43}                                                  
{'eval_loss': 1.2299398183822632, 'eval_runtime': 115.9106, 'eval_samples_per_second': 41.636, 'eval_steps_per_second': 20.818, 'epoch': 6.43}            
{'loss': 0.8735, 'grad_norm': 61.713111877441406, 'learning_rate': 3.382352941176471e-05, 'epoch': 6.62}                                                  
{'eval_loss': 1.2240906953811646, 'eval_runtime': 116.0411, 'eval_samples_per_second': 41.589, 'eval_steps_per_second': 20.794, 'epoch': 6.62}            
{'loss': 0.8648, 'grad_norm': 69.22649383544922, 'learning_rate': 3.198529411764706e-05, 'epoch': 6.8}                                                    
{'eval_loss': 1.2253305912017822, 'eval_runtime': 115.8996, 'eval_samples_per_second': 41.639, 'eval_steps_per_second': 20.82, 'epoch': 6.8}              
{'loss': 0.8649, 'grad_norm': 65.4384994506836, 'learning_rate': 3.0147058823529413e-05, 'epoch': 6.98}                                                   
{'eval_loss': 1.2292358875274658, 'eval_runtime': 116.0285, 'eval_samples_per_second': 41.593, 'eval_steps_per_second': 20.797, 'epoch': 6.98}            
{'loss': 0.8475, 'grad_norm': 46.392173767089844, 'learning_rate': 2.8308823529411766e-05, 'epoch': 7.17}                                                 
{'eval_loss': 1.2355010509490967, 'eval_runtime': 116.0581, 'eval_samples_per_second': 41.583, 'eval_steps_per_second': 20.791, 'epoch': 7.17}            
{'loss': 0.8496, 'grad_norm': 64.82035827636719, 'learning_rate': 2.647058823529412e-05, 'epoch': 7.35}                                                   
{'eval_loss': 1.2320975065231323, 'eval_runtime': 115.9151, 'eval_samples_per_second': 41.634, 'eval_steps_per_second': 20.817, 'epoch': 7.35}            
{'loss': 0.8452, 'grad_norm': 46.27527618408203, 'learning_rate': 2.4632352941176472e-05, 'epoch': 7.54}                                                  
{'eval_loss': 1.2323057651519775, 'eval_runtime': 115.981, 'eval_samples_per_second': 41.61, 'eval_steps_per_second': 20.805, 'epoch': 7.54}              
{'loss': 0.8423, 'grad_norm': 52.665435791015625, 'learning_rate': 2.2794117647058825e-05, 'epoch': 7.72}                                                 
{'eval_loss': 1.2322068214416504, 'eval_runtime': 115.9188, 'eval_samples_per_second': 41.633, 'eval_steps_per_second': 20.816, 'epoch': 7.72}            
{'loss': 0.8421, 'grad_norm': 74.63914489746094, 'learning_rate': 2.0955882352941178e-05, 'epoch': 7.9}                                                   
{'eval_loss': 1.2284280061721802, 'eval_runtime': 115.8808, 'eval_samples_per_second': 41.646, 'eval_steps_per_second': 20.823, 'epoch': 7.9}             
{'loss': 0.8363, 'grad_norm': 45.93680191040039, 'learning_rate': 1.9117647058823528e-05, 'epoch': 8.09}                                                  
{'eval_loss': 1.2366794347763062, 'eval_runtime': 115.7882, 'eval_samples_per_second': 41.68, 'eval_steps_per_second': 20.84, 'epoch': 8.09}              
{'loss': 0.8333, 'grad_norm': 73.48126983642578, 'learning_rate': 1.7279411764705884e-05, 'epoch': 8.27}                                                  
{'eval_loss': 1.2330245971679688, 'eval_runtime': 115.848, 'eval_samples_per_second': 41.658, 'eval_steps_per_second': 20.829, 'epoch': 8.27}             
{'loss': 0.8267, 'grad_norm': 76.98050689697266, 'learning_rate': 1.5441176470588237e-05, 'epoch': 8.45}                                                  
{'eval_loss': 1.2376160621643066, 'eval_runtime': 115.9174, 'eval_samples_per_second': 41.633, 'eval_steps_per_second': 20.817, 'epoch': 8.45}            
{'loss': 0.8217, 'grad_norm': 128.97714233398438, 'learning_rate': 1.3602941176470587e-05, 'epoch': 8.64}                                                 
{'eval_loss': 1.2340155839920044, 'eval_runtime': 115.9099, 'eval_samples_per_second': 41.636, 'eval_steps_per_second': 20.818, 'epoch': 8.64}            
{'loss': 0.8221, 'grad_norm': 55.4945182800293, 'learning_rate': 1.1764705882352942e-05, 'epoch': 8.82}                                                   
{'eval_loss': 1.2404063940048218, 'eval_runtime': 116.0058, 'eval_samples_per_second': 41.601, 'eval_steps_per_second': 20.801, 'epoch': 8.82}            
{'loss': 0.8202, 'grad_norm': 69.84994506835938, 'learning_rate': 9.926470588235293e-06, 'epoch': 9.01}                                                   
{'eval_loss': 1.2383702993392944, 'eval_runtime': 116.7345, 'eval_samples_per_second': 41.342, 'eval_steps_per_second': 20.671, 'epoch': 9.01}            
{'loss': 0.8143, 'grad_norm': 75.23961639404297, 'learning_rate': 8.088235294117648e-06, 'epoch': 9.19}                                                   
{'eval_loss': 1.236066460609436, 'eval_runtime': 115.996, 'eval_samples_per_second': 41.605, 'eval_steps_per_second': 20.802, 'epoch': 9.19}              
{'loss': 0.8106, 'grad_norm': 62.9267692565918, 'learning_rate': 6.25e-06, 'epoch': 9.37}                                                                 
{'eval_loss': 1.23640775680542, 'eval_runtime': 115.848, 'eval_samples_per_second': 41.658, 'eval_steps_per_second': 20.829, 'epoch': 9.37}               
{'loss': 0.8144, 'grad_norm': 54.76566696166992, 'learning_rate': 4.411764705882353e-06, 'epoch': 9.56}                                                   
{'eval_loss': 1.2419943809509277, 'eval_runtime': 116.0232, 'eval_samples_per_second': 41.595, 'eval_steps_per_second': 20.798, 'epoch': 9.56}            
{'loss': 0.8061, 'grad_norm': 51.20401382446289, 'learning_rate': 2.573529411764706e-06, 'epoch': 9.74}                                                   
{'eval_loss': 1.2368206977844238, 'eval_runtime': 116.069, 'eval_samples_per_second': 41.579, 'eval_steps_per_second': 20.789, 'epoch': 9.74}             
{'loss': 0.8122, 'grad_norm': 52.51292419433594, 'learning_rate': 7.352941176470589e-07, 'epoch': 9.93}                                                   
{'eval_loss': 1.2355531454086304, 'eval_runtime': 116.1057, 'eval_samples_per_second': 41.566, 'eval_steps_per_second': 20.783, 'epoch': 9.93}            
{'train_runtime': 35492.1038, 'train_samples_per_second': 9.811, 'train_steps_per_second': 0.077, 'train_loss': 0.9649048559805926, 'epoch': 10.0}