{'loss': 1.4007, 'grad_norm': 1.7373141050338745, 'learning_rate': 4.991249562478124e-05, 'epoch': 0.09} {'loss': 1.3979, 'grad_norm': 1.4521712064743042, 'learning_rate': 4.982499124956248e-05, 'epoch': 0.18} {'loss': 1.396, 'grad_norm': 1.4701424837112427, 'learning_rate': 4.973748687434372e-05, 'epoch': 0.26} {'loss': 1.3946, 'grad_norm': 1.407281756401062, 'learning_rate': 4.964998249912496e-05, 'epoch': 0.35} {'loss': 1.3936, 'grad_norm': 1.4591513872146606, 'learning_rate': 4.95624781239062e-05, 'epoch': 0.44} {'loss': 1.3905, 'grad_norm': 1.5211539268493652, 'learning_rate': 4.947497374868744e-05, 'epoch': 0.53} {'loss': 1.391, 'grad_norm': 1.1787604093551636, 'learning_rate': 4.9387469373468674e-05, 'epoch': 0.61} {'loss': 1.3908, 'grad_norm': 1.2173224687576294, 'learning_rate': 4.929996499824991e-05, 'epoch': 0.7} {'loss': 1.3912, 'grad_norm': 1.7298877239227295, 'learning_rate': 4.9212460623031155e-05, 'epoch': 0.79} {'loss': 1.3908, 'grad_norm': 1.3088189363479614, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.88} {'loss': 1.3908, 'grad_norm': 1.181019902229309, 'learning_rate': 4.903745187259363e-05, 'epoch': 0.96} [0 3 3 ... 1 3 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.26225197226870667, 'eval_runtime': 31.3578, 'eval_samples_per_second': 133.396, 'eval_steps_per_second': 4.178, 'epoch': 1.0} {'loss': 1.3908, 'grad_norm': 1.2417933940887451, 'learning_rate': 4.894994749737487e-05, 'epoch': 1.05} {'loss': 1.3898, 'grad_norm': 1.142290711402893, 'learning_rate': 4.886244312215611e-05, 'epoch': 1.14} {'loss': 1.3904, 'grad_norm': 1.1469066143035889, 'learning_rate': 4.8774938746937346e-05, 'epoch': 1.23} {'loss': 1.3889, 'grad_norm': 1.1493582725524902, 'learning_rate': 4.868743437171859e-05, 'epoch': 1.31} {'loss': 1.3892, 'grad_norm': 0.8555408120155334, 'learning_rate': 4.859992999649983e-05, 'epoch': 1.4} {'loss': 1.3894, 'grad_norm': 1.3826375007629395, 'learning_rate': 4.8512425621281064e-05, 'epoch': 1.49} {'loss': 1.3891, 'grad_norm': 1.3947253227233887, 'learning_rate': 4.842492124606231e-05, 'epoch': 1.58} {'loss': 1.3889, 'grad_norm': 1.001010537147522, 'learning_rate': 4.8337416870843544e-05, 'epoch': 1.66} {'loss': 1.3888, 'grad_norm': 1.0130168199539185, 'learning_rate': 4.824991249562478e-05, 'epoch': 1.75} {'loss': 1.3887, 'grad_norm': 1.1529325246810913, 'learning_rate': 4.8162408120406025e-05, 'epoch': 1.84} {'loss': 1.3872, 'grad_norm': 0.9424309730529785, 'learning_rate': 4.807490374518726e-05, 'epoch': 1.93} [0 1 2 ... 1 0 3] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.28065981353095865, 'eval_runtime': 31.2992, 'eval_samples_per_second': 133.645, 'eval_steps_per_second': 4.185, 'epoch': 2.0} {'loss': 1.3886, 'grad_norm': 1.0133026838302612, 'learning_rate': 4.79873993699685e-05, 'epoch': 2.01} {'loss': 1.3882, 'grad_norm': 0.962411105632782, 'learning_rate': 4.7899894994749736e-05, 'epoch': 2.1} {'loss': 1.389, 'grad_norm': 1.1512991189956665, 'learning_rate': 4.781239061953098e-05, 'epoch': 2.19} {'loss': 1.3888, 'grad_norm': 1.0319995880126953, 'learning_rate': 4.7724886244312216e-05, 'epoch': 2.28} {'loss': 1.3875, 'grad_norm': 1.1164413690567017, 'learning_rate': 4.763738186909345e-05, 'epoch': 2.36} {'loss': 1.3883, 'grad_norm': 1.0944055318832397, 'learning_rate': 4.75498774938747e-05, 'epoch': 2.45} {'loss': 1.3878, 'grad_norm': 0.987811803817749, 'learning_rate': 4.7462373118655934e-05, 'epoch': 2.54} {'loss': 1.3882, 'grad_norm': 0.9401206374168396, 'learning_rate': 4.737486874343717e-05, 'epoch': 2.63} {'loss': 1.389, 'grad_norm': 1.3271900415420532, 'learning_rate': 4.7287364368218414e-05, 'epoch': 2.71} {'loss': 1.3881, 'grad_norm': 0.982054591178894, 'learning_rate': 4.719985999299965e-05, 'epoch': 2.8} {'loss': 1.3879, 'grad_norm': 0.9409103393554688, 'learning_rate': 4.711235561778089e-05, 'epoch': 2.89} {'loss': 1.388, 'grad_norm': 0.8260275721549988, 'learning_rate': 4.702485124256213e-05, 'epoch': 2.98} [0 0 2 ... 0 3 1] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.2534066459478843, 'eval_runtime': 31.7996, 'eval_samples_per_second': 131.542, 'eval_steps_per_second': 4.12, 'epoch': 3.0} {'loss': 1.3875, 'grad_norm': 1.1651508808135986, 'learning_rate': 4.693734686734337e-05, 'epoch': 3.06} {'loss': 1.3875, 'grad_norm': 0.9445706009864807, 'learning_rate': 4.6849842492124606e-05, 'epoch': 3.15} {'loss': 1.3877, 'grad_norm': 1.1367888450622559, 'learning_rate': 4.676233811690585e-05, 'epoch': 3.24} {'loss': 1.3878, 'grad_norm': 1.238919734954834, 'learning_rate': 4.6674833741687086e-05, 'epoch': 3.33} {'loss': 1.3881, 'grad_norm': 0.9354468584060669, 'learning_rate': 4.658732936646832e-05, 'epoch': 3.41} {'loss': 1.3872, 'grad_norm': 0.9502829909324646, 'learning_rate': 4.649982499124956e-05, 'epoch': 3.5} {'loss': 1.3868, 'grad_norm': 0.9989140033721924, 'learning_rate': 4.6412320616030804e-05, 'epoch': 3.59} {'loss': 1.3881, 'grad_norm': 0.9745475053787231, 'learning_rate': 4.632481624081204e-05, 'epoch': 3.68} {'loss': 1.3877, 'grad_norm': 0.9343527555465698, 'learning_rate': 4.623731186559328e-05, 'epoch': 3.76} {'loss': 1.3877, 'grad_norm': 1.1528387069702148, 'learning_rate': 4.614980749037452e-05, 'epoch': 3.85} {'loss': 1.3874, 'grad_norm': 1.1041843891143799, 'learning_rate': 4.606230311515576e-05, 'epoch': 3.94} [0 0 2 ... 1 3 2] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.26870666985417163, 'eval_runtime': 31.4075, 'eval_samples_per_second': 133.185, 'eval_steps_per_second': 4.171, 'epoch': 4.0} {'loss': 1.3877, 'grad_norm': 0.8944958448410034, 'learning_rate': 4.5974798739936995e-05, 'epoch': 4.03} {'loss': 1.3874, 'grad_norm': 1.0343414545059204, 'learning_rate': 4.588729436471824e-05, 'epoch': 4.11} {'loss': 1.3868, 'grad_norm': 0.8568887710571289, 'learning_rate': 4.5799789989499476e-05, 'epoch': 4.2} {'loss': 1.3874, 'grad_norm': 1.1150667667388916, 'learning_rate': 4.571228561428071e-05, 'epoch': 4.29} {'loss': 1.3866, 'grad_norm': 0.8998913168907166, 'learning_rate': 4.5624781239061956e-05, 'epoch': 4.38} {'loss': 1.3873, 'grad_norm': 1.167543649673462, 'learning_rate': 4.553727686384319e-05, 'epoch': 4.46} {'loss': 1.3874, 'grad_norm': 1.0913959741592407, 'learning_rate': 4.544977248862443e-05, 'epoch': 4.55} {'loss': 1.3873, 'grad_norm': 1.2033382654190063, 'learning_rate': 4.5362268113405674e-05, 'epoch': 4.64} {'loss': 1.3867, 'grad_norm': 1.049830436706543, 'learning_rate': 4.527476373818691e-05, 'epoch': 4.73} {'loss': 1.387, 'grad_norm': 1.111740231513977, 'learning_rate': 4.518725936296815e-05, 'epoch': 4.81} {'loss': 1.3875, 'grad_norm': 0.9205018281936646, 'learning_rate': 4.5099754987749384e-05, 'epoch': 4.9} {'loss': 1.3872, 'grad_norm': 0.9673327207565308, 'learning_rate': 4.501225061253063e-05, 'epoch': 4.99} [3 1 3 ... 2 3 2] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.2703801099689218, 'eval_runtime': 31.2595, 'eval_samples_per_second': 133.815, 'eval_steps_per_second': 4.191, 'epoch': 5.0} {'loss': 1.3867, 'grad_norm': 1.0343459844589233, 'learning_rate': 4.4924746237311865e-05, 'epoch': 5.08} {'loss': 1.3872, 'grad_norm': 1.0328655242919922, 'learning_rate': 4.48372418620931e-05, 'epoch': 5.16} {'loss': 1.3871, 'grad_norm': 1.1707868576049805, 'learning_rate': 4.4749737486874346e-05, 'epoch': 5.25} {'loss': 1.388, 'grad_norm': 1.3357250690460205, 'learning_rate': 4.466223311165558e-05, 'epoch': 5.34} {'loss': 1.3869, 'grad_norm': 1.2094460725784302, 'learning_rate': 4.457472873643682e-05, 'epoch': 5.43} {'loss': 1.3879, 'grad_norm': 1.6010318994522095, 'learning_rate': 4.448722436121806e-05, 'epoch': 5.51} {'loss': 1.3876, 'grad_norm': 1.4410781860351562, 'learning_rate': 4.43997199859993e-05, 'epoch': 5.6} {'loss': 1.3874, 'grad_norm': 1.585825800895691, 'learning_rate': 4.431221561078054e-05, 'epoch': 5.69} {'loss': 1.387, 'grad_norm': 1.2249019145965576, 'learning_rate': 4.422471123556178e-05, 'epoch': 5.78} {'loss': 1.3869, 'grad_norm': 1.5273207426071167, 'learning_rate': 4.413720686034302e-05, 'epoch': 5.86} {'loss': 1.3877, 'grad_norm': 1.5296709537506104, 'learning_rate': 4.4049702485124255e-05, 'epoch': 5.95} [0 0 0 ... 0 0 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.2935692087018886, 'eval_runtime': 31.3874, 'eval_samples_per_second': 133.27, 'eval_steps_per_second': 4.174, 'epoch': 6.0} {'loss': 1.3875, 'grad_norm': 1.3554401397705078, 'learning_rate': 4.396219810990549e-05, 'epoch': 6.04} {'loss': 1.3874, 'grad_norm': 1.367832064628601, 'learning_rate': 4.3874693734686735e-05, 'epoch': 6.13} {'loss': 1.3872, 'grad_norm': 1.668521523475647, 'learning_rate': 4.378718935946797e-05, 'epoch': 6.21} {'loss': 1.3875, 'grad_norm': 1.4914822578430176, 'learning_rate': 4.3699684984249216e-05, 'epoch': 6.3} {'loss': 1.3876, 'grad_norm': 1.329606294631958, 'learning_rate': 4.361218060903046e-05, 'epoch': 6.39} {'loss': 1.3869, 'grad_norm': 1.4597110748291016, 'learning_rate': 4.3524676233811696e-05, 'epoch': 6.48} {'loss': 1.3872, 'grad_norm': 1.3522239923477173, 'learning_rate': 4.343717185859293e-05, 'epoch': 6.56} {'loss': 1.387, 'grad_norm': 1.4124177694320679, 'learning_rate': 4.334966748337417e-05, 'epoch': 6.65} {'loss': 1.3863, 'grad_norm': 1.5860718488693237, 'learning_rate': 4.3262163108155414e-05, 'epoch': 6.74} {'loss': 1.3874, 'grad_norm': 1.58013117313385, 'learning_rate': 4.317465873293665e-05, 'epoch': 6.83} {'loss': 1.3874, 'grad_norm': 1.1720224618911743, 'learning_rate': 4.308715435771789e-05, 'epoch': 6.91} [0 0 0 ... 0 0 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.3213005020320344, 'eval_runtime': 31.6095, 'eval_samples_per_second': 132.333, 'eval_steps_per_second': 4.144, 'epoch': 7.0} {'loss': 1.3872, 'grad_norm': 1.2224329710006714, 'learning_rate': 4.299964998249913e-05, 'epoch': 7.0} {'loss': 1.3872, 'grad_norm': 1.3096520900726318, 'learning_rate': 4.291214560728037e-05, 'epoch': 7.09} {'loss': 1.3875, 'grad_norm': 1.5711919069290161, 'learning_rate': 4.2824641232061605e-05, 'epoch': 7.18} {'loss': 1.3867, 'grad_norm': 1.485144853591919, 'learning_rate': 4.273713685684285e-05, 'epoch': 7.26} {'loss': 1.3872, 'grad_norm': 1.2670478820800781, 'learning_rate': 4.2649632481624086e-05, 'epoch': 7.35} {'loss': 1.3869, 'grad_norm': 1.5671718120574951, 'learning_rate': 4.256212810640532e-05, 'epoch': 7.44} {'loss': 1.3869, 'grad_norm': 1.4426175355911255, 'learning_rate': 4.2474623731186566e-05, 'epoch': 7.53} {'loss': 1.3871, 'grad_norm': 1.7244657278060913, 'learning_rate': 4.23871193559678e-05, 'epoch': 7.61} {'loss': 1.3866, 'grad_norm': 1.3160103559494019, 'learning_rate': 4.229961498074904e-05, 'epoch': 7.7} {'loss': 1.387, 'grad_norm': 1.683153748512268, 'learning_rate': 4.2212110605530284e-05, 'epoch': 7.79} {'loss': 1.3871, 'grad_norm': 1.4620964527130127, 'learning_rate': 4.212460623031152e-05, 'epoch': 7.88} {'loss': 1.3867, 'grad_norm': 1.6366734504699707, 'learning_rate': 4.203710185509276e-05, 'epoch': 7.96} [0 0 0 ... 1 0 1] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.29572077456371026, 'eval_runtime': 31.3116, 'eval_samples_per_second': 133.592, 'eval_steps_per_second': 4.184, 'epoch': 8.0} {'loss': 1.3869, 'grad_norm': 1.6228718757629395, 'learning_rate': 4.1949597479873995e-05, 'epoch': 8.05} {'loss': 1.3877, 'grad_norm': 1.4833662509918213, 'learning_rate': 4.186209310465524e-05, 'epoch': 8.14} {'loss': 1.387, 'grad_norm': 1.3040786981582642, 'learning_rate': 4.1774588729436475e-05, 'epoch': 8.23} {'loss': 1.3867, 'grad_norm': 1.5207374095916748, 'learning_rate': 4.168708435421771e-05, 'epoch': 8.31} {'loss': 1.3865, 'grad_norm': 1.493599534034729, 'learning_rate': 4.1599579978998956e-05, 'epoch': 8.4} {'loss': 1.3865, 'grad_norm': 1.5036178827285767, 'learning_rate': 4.151207560378019e-05, 'epoch': 8.49} {'loss': 1.3868, 'grad_norm': 1.4251501560211182, 'learning_rate': 4.142457122856143e-05, 'epoch': 8.58} {'loss': 1.3867, 'grad_norm': 1.3690111637115479, 'learning_rate': 4.133706685334267e-05, 'epoch': 8.66} {'loss': 1.387, 'grad_norm': 1.3479729890823364, 'learning_rate': 4.124956247812391e-05, 'epoch': 8.75} {'loss': 1.3869, 'grad_norm': 1.4524887800216675, 'learning_rate': 4.116205810290515e-05, 'epoch': 8.84} {'loss': 1.3874, 'grad_norm': 1.6909964084625244, 'learning_rate': 4.107455372768639e-05, 'epoch': 8.93} [2 0 1 ... 0 0 1] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.27611761893377956, 'eval_runtime': 31.7029, 'eval_samples_per_second': 131.944, 'eval_steps_per_second': 4.132, 'epoch': 9.0} {'loss': 1.3864, 'grad_norm': 1.6411044597625732, 'learning_rate': 4.098704935246763e-05, 'epoch': 9.01} {'loss': 1.3868, 'grad_norm': 1.6581811904907227, 'learning_rate': 4.0899544977248865e-05, 'epoch': 9.1} {'loss': 1.3873, 'grad_norm': 1.4471980333328247, 'learning_rate': 4.081204060203011e-05, 'epoch': 9.19} {'loss': 1.3873, 'grad_norm': 1.5096768140792847, 'learning_rate': 4.0724536226811345e-05, 'epoch': 9.28} {'loss': 1.3866, 'grad_norm': 1.6396162509918213, 'learning_rate': 4.063703185159258e-05, 'epoch': 9.36} {'loss': 1.3867, 'grad_norm': 1.6626267433166504, 'learning_rate': 4.054952747637382e-05, 'epoch': 9.45} {'loss': 1.3872, 'grad_norm': 1.378581166267395, 'learning_rate': 4.046202310115506e-05, 'epoch': 9.54} {'loss': 1.3869, 'grad_norm': 1.6200608015060425, 'learning_rate': 4.03745187259363e-05, 'epoch': 9.63} {'loss': 1.3869, 'grad_norm': 1.3675824403762817, 'learning_rate': 4.0287014350717536e-05, 'epoch': 9.71} {'loss': 1.3867, 'grad_norm': 1.5027799606323242, 'learning_rate': 4.019950997549878e-05, 'epoch': 9.8} {'loss': 1.3865, 'grad_norm': 1.6200268268585205, 'learning_rate': 4.011200560028002e-05, 'epoch': 9.89} {'loss': 1.3868, 'grad_norm': 1.5721412897109985, 'learning_rate': 4.0024501225061254e-05, 'epoch': 9.98} [1 0 0 ... 0 0 1] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.30337078651685395, 'eval_runtime': 31.2617, 'eval_samples_per_second': 133.806, 'eval_steps_per_second': 4.19, 'epoch': 10.0} {'loss': 1.3866, 'grad_norm': 1.355176568031311, 'learning_rate': 3.99369968498425e-05, 'epoch': 10.06} {'loss': 1.3869, 'grad_norm': 1.5548807382583618, 'learning_rate': 3.9849492474623735e-05, 'epoch': 10.15} {'loss': 1.3868, 'grad_norm': 1.3698440790176392, 'learning_rate': 3.976198809940497e-05, 'epoch': 10.24} {'loss': 1.3871, 'grad_norm': 1.686001181602478, 'learning_rate': 3.9674483724186215e-05, 'epoch': 10.33} {'loss': 1.3869, 'grad_norm': 1.5848819017410278, 'learning_rate': 3.958697934896745e-05, 'epoch': 10.41} {'loss': 1.3872, 'grad_norm': 1.4722261428833008, 'learning_rate': 3.949947497374869e-05, 'epoch': 10.5} {'loss': 1.3862, 'grad_norm': 1.4515795707702637, 'learning_rate': 3.9411970598529926e-05, 'epoch': 10.59} {'loss': 1.3869, 'grad_norm': 1.8516024351119995, 'learning_rate': 3.932446622331117e-05, 'epoch': 10.68} {'loss': 1.387, 'grad_norm': 1.6413313150405884, 'learning_rate': 3.9236961848092406e-05, 'epoch': 10.76} {'loss': 1.3864, 'grad_norm': 1.5505764484405518, 'learning_rate': 3.914945747287364e-05, 'epoch': 10.85} {'loss': 1.3866, 'grad_norm': 1.60427987575531, 'learning_rate': 3.906195309765489e-05, 'epoch': 10.94} [0 0 0 ... 0 2 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.2773129333014583, 'eval_runtime': 31.5172, 'eval_samples_per_second': 132.721, 'eval_steps_per_second': 4.156, 'epoch': 11.0} {'loss': 1.3869, 'grad_norm': 1.7129335403442383, 'learning_rate': 3.8974448722436124e-05, 'epoch': 11.03} {'loss': 1.3863, 'grad_norm': 1.2940468788146973, 'learning_rate': 3.888694434721736e-05, 'epoch': 11.11} {'loss': 1.3864, 'grad_norm': 1.6037455797195435, 'learning_rate': 3.8799439971998605e-05, 'epoch': 11.2} {'loss': 1.3872, 'grad_norm': 1.6535574197769165, 'learning_rate': 3.871193559677984e-05, 'epoch': 11.29} {'loss': 1.3864, 'grad_norm': 1.4949287176132202, 'learning_rate': 3.862443122156108e-05, 'epoch': 11.38} {'loss': 1.387, 'grad_norm': 1.5116932392120361, 'learning_rate': 3.853692684634232e-05, 'epoch': 11.46} {'loss': 1.3866, 'grad_norm': 1.4328763484954834, 'learning_rate': 3.844942247112356e-05, 'epoch': 11.55} {'loss': 1.3869, 'grad_norm': 1.5736273527145386, 'learning_rate': 3.8361918095904796e-05, 'epoch': 11.64} {'loss': 1.3867, 'grad_norm': 1.7489657402038574, 'learning_rate': 3.827441372068604e-05, 'epoch': 11.73} {'loss': 1.3866, 'grad_norm': 1.4763479232788086, 'learning_rate': 3.8186909345467276e-05, 'epoch': 11.81} {'loss': 1.3868, 'grad_norm': 1.4320505857467651, 'learning_rate': 3.809940497024851e-05, 'epoch': 11.9} {'loss': 1.3869, 'grad_norm': 1.6347980499267578, 'learning_rate': 3.801190059502975e-05, 'epoch': 11.99} [0 0 0 ... 0 0 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.3160411188142481, 'eval_runtime': 31.2795, 'eval_samples_per_second': 133.73, 'eval_steps_per_second': 4.188, 'epoch': 12.0} {'loss': 1.3869, 'grad_norm': 1.5249700546264648, 'learning_rate': 3.7924396219810994e-05, 'epoch': 12.08} {'loss': 1.387, 'grad_norm': 1.2788211107254028, 'learning_rate': 3.783689184459223e-05, 'epoch': 12.16} {'loss': 1.3868, 'grad_norm': 1.6066429615020752, 'learning_rate': 3.774938746937347e-05, 'epoch': 12.25} {'loss': 1.3869, 'grad_norm': 1.2969735860824585, 'learning_rate': 3.766188309415471e-05, 'epoch': 12.34} {'loss': 1.3867, 'grad_norm': 1.5080153942108154, 'learning_rate': 3.757437871893595e-05, 'epoch': 12.43} {'loss': 1.387, 'grad_norm': 1.6393741369247437, 'learning_rate': 3.7486874343717185e-05, 'epoch': 12.51} {'loss': 1.3866, 'grad_norm': 1.464860439300537, 'learning_rate': 3.739936996849843e-05, 'epoch': 12.6} {'loss': 1.3869, 'grad_norm': 1.5701706409454346, 'learning_rate': 3.7311865593279666e-05, 'epoch': 12.69} {'loss': 1.3863, 'grad_norm': 1.479953408241272, 'learning_rate': 3.72243612180609e-05, 'epoch': 12.78} {'loss': 1.3865, 'grad_norm': 1.6790354251861572, 'learning_rate': 3.7136856842842146e-05, 'epoch': 12.86} {'loss': 1.3867, 'grad_norm': 1.5029643774032593, 'learning_rate': 3.7049352467623383e-05, 'epoch': 12.95}