{'loss': 1.3809, 'grad_norm': 1.1363270282745361, 'learning_rate': 4.97083187492708e-05, 'epoch': 0.09} {'loss': 1.3713, 'grad_norm': 1.4474607706069946, 'learning_rate': 4.9416637498541595e-05, 'epoch': 0.18} {'loss': 1.3594, 'grad_norm': 0.9098652005195618, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.26} {'loss': 1.3502, 'grad_norm': 1.1167092323303223, 'learning_rate': 4.883327499708319e-05, 'epoch': 0.35} {'loss': 1.3453, 'grad_norm': 2.2667481899261475, 'learning_rate': 4.8541593746353985e-05, 'epoch': 0.44} {'loss': 1.3434, 'grad_norm': 1.9075201749801636, 'learning_rate': 4.824991249562478e-05, 'epoch': 0.53} {'loss': 1.3335, 'grad_norm': 2.0711045265197754, 'learning_rate': 4.795823124489558e-05, 'epoch': 0.61} {'loss': 1.3225, 'grad_norm': 1.7113029956817627, 'learning_rate': 4.7666549994166374e-05, 'epoch': 0.7} {'loss': 1.3195, 'grad_norm': 1.9234343767166138, 'learning_rate': 4.737486874343717e-05, 'epoch': 0.79} {'loss': 1.3105, 'grad_norm': 2.1175739765167236, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.88} {'loss': 1.2998, 'grad_norm': 2.521505117416382, 'learning_rate': 4.6791506241978764e-05, 'epoch': 0.96} [0 3 2 ... 1 0 2] [0 0 2 ... 0 1 0] {'eval_loss': 1.3409068584442139, 'eval_accuracy': 0.34185990915610803, 'eval_runtime': 6.4784, 'eval_samples_per_second': 645.688, 'eval_steps_per_second': 20.221, 'epoch': 1.0} {'loss': 1.2528, 'grad_norm': 4.092164039611816, 'learning_rate': 4.649982499124956e-05, 'epoch': 1.05} {'loss': 1.1967, 'grad_norm': 6.143226623535156, 'learning_rate': 4.6208143740520357e-05, 'epoch': 1.14} {'loss': 1.1974, 'grad_norm': 4.76519250869751, 'learning_rate': 4.591646248979116e-05, 'epoch': 1.23} {'loss': 1.1884, 'grad_norm': 5.0817179679870605, 'learning_rate': 4.5624781239061956e-05, 'epoch': 1.31} {'loss': 1.182, 'grad_norm': 4.871830463409424, 'learning_rate': 4.533309998833275e-05, 'epoch': 1.4} {'loss': 1.1814, 'grad_norm': 5.66860818862915, 'learning_rate': 4.504141873760355e-05, 'epoch': 1.49} {'loss': 1.1712, 'grad_norm': 5.154982089996338, 'learning_rate': 4.4749737486874346e-05, 'epoch': 1.58} {'loss': 1.1556, 'grad_norm': 6.135748863220215, 'learning_rate': 4.445805623614514e-05, 'epoch': 1.66} {'loss': 1.1503, 'grad_norm': 4.793179035186768, 'learning_rate': 4.416637498541594e-05, 'epoch': 1.75} {'loss': 1.1562, 'grad_norm': 5.454382419586182, 'learning_rate': 4.3874693734686735e-05, 'epoch': 1.84} {'loss': 1.1366, 'grad_norm': 4.958292484283447, 'learning_rate': 4.358301248395754e-05, 'epoch': 1.93} [0 0 3 ... 1 2 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.3753255605697632, 'eval_accuracy': 0.36337556777432467, 'eval_runtime': 6.416, 'eval_samples_per_second': 651.964, 'eval_steps_per_second': 20.418, 'epoch': 2.0} {'loss': 1.0888, 'grad_norm': 7.227815628051758, 'learning_rate': 4.3291331233228335e-05, 'epoch': 2.01} {'loss': 0.92, 'grad_norm': 7.727498531341553, 'learning_rate': 4.299964998249913e-05, 'epoch': 2.1} {'loss': 0.9166, 'grad_norm': 6.4145636558532715, 'learning_rate': 4.270796873176993e-05, 'epoch': 2.19} {'loss': 0.9126, 'grad_norm': 7.5823974609375, 'learning_rate': 4.2416287481040724e-05, 'epoch': 2.28} {'loss': 0.9083, 'grad_norm': 7.961126327514648, 'learning_rate': 4.212460623031152e-05, 'epoch': 2.36} {'loss': 0.928, 'grad_norm': 9.727679252624512, 'learning_rate': 4.183292497958232e-05, 'epoch': 2.45} {'loss': 0.9128, 'grad_norm': 6.986959934234619, 'learning_rate': 4.1541243728853114e-05, 'epoch': 2.54} {'loss': 0.9124, 'grad_norm': 11.424525260925293, 'learning_rate': 4.124956247812391e-05, 'epoch': 2.63} {'loss': 0.9054, 'grad_norm': 7.206017971038818, 'learning_rate': 4.0957881227394707e-05, 'epoch': 2.71} {'loss': 0.8958, 'grad_norm': 6.930673122406006, 'learning_rate': 4.06661999766655e-05, 'epoch': 2.8} {'loss': 0.9066, 'grad_norm': 7.441983222961426, 'learning_rate': 4.03745187259363e-05, 'epoch': 2.89} {'loss': 0.9035, 'grad_norm': 8.201363563537598, 'learning_rate': 4.0082837475207096e-05, 'epoch': 2.98} [2 2 2 ... 2 2 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.4999252557754517, 'eval_accuracy': 0.3793927803012192, 'eval_runtime': 6.454, 'eval_samples_per_second': 648.13, 'eval_steps_per_second': 20.298, 'epoch': 3.0} {'loss': 0.7189, 'grad_norm': 11.725881576538086, 'learning_rate': 3.979115622447789e-05, 'epoch': 3.06} {'loss': 0.6632, 'grad_norm': 13.215302467346191, 'learning_rate': 3.949947497374869e-05, 'epoch': 3.15} {'loss': 0.6687, 'grad_norm': 10.268899917602539, 'learning_rate': 3.9207793723019485e-05, 'epoch': 3.24} {'loss': 0.667, 'grad_norm': 8.265130043029785, 'learning_rate': 3.891611247229028e-05, 'epoch': 3.33} {'loss': 0.6665, 'grad_norm': 12.575718879699707, 'learning_rate': 3.862443122156108e-05, 'epoch': 3.41} {'loss': 0.6859, 'grad_norm': 14.319367408752441, 'learning_rate': 3.8332749970831875e-05, 'epoch': 3.5} {'loss': 0.6866, 'grad_norm': 11.042840957641602, 'learning_rate': 3.804106872010267e-05, 'epoch': 3.59} {'loss': 0.6859, 'grad_norm': 12.115802764892578, 'learning_rate': 3.774938746937347e-05, 'epoch': 3.68} {'loss': 0.6788, 'grad_norm': 9.712413787841797, 'learning_rate': 3.7457706218644264e-05, 'epoch': 3.76} {'loss': 0.6904, 'grad_norm': 9.902729034423828, 'learning_rate': 3.716602496791506e-05, 'epoch': 3.85} {'loss': 0.6883, 'grad_norm': 9.378089904785156, 'learning_rate': 3.6874343717185864e-05, 'epoch': 3.94} [2 2 2 ... 1 2 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.746778964996338, 'eval_accuracy': 0.390628735357399, 'eval_runtime': 6.927, 'eval_samples_per_second': 603.869, 'eval_steps_per_second': 18.912, 'epoch': 4.0} {'loss': 0.6161, 'grad_norm': 12.395198822021484, 'learning_rate': 3.658266246645666e-05, 'epoch': 4.03} {'loss': 0.468, 'grad_norm': 9.029620170593262, 'learning_rate': 3.629098121572746e-05, 'epoch': 4.11} {'loss': 0.4725, 'grad_norm': 17.127229690551758, 'learning_rate': 3.5999299964998253e-05, 'epoch': 4.2} {'loss': 0.4869, 'grad_norm': 11.913525581359863, 'learning_rate': 3.570761871426905e-05, 'epoch': 4.29} {'loss': 0.4966, 'grad_norm': 16.005084991455078, 'learning_rate': 3.5415937463539846e-05, 'epoch': 4.38} {'loss': 0.4975, 'grad_norm': 11.576833724975586, 'learning_rate': 3.512425621281064e-05, 'epoch': 4.46} {'loss': 0.5007, 'grad_norm': 15.484545707702637, 'learning_rate': 3.483257496208144e-05, 'epoch': 4.55} {'loss': 0.5047, 'grad_norm': 12.12447738647461, 'learning_rate': 3.4540893711352236e-05, 'epoch': 4.64} {'loss': 0.515, 'grad_norm': 11.281113624572754, 'learning_rate': 3.424921246062303e-05, 'epoch': 4.73} {'loss': 0.4967, 'grad_norm': 12.152961730957031, 'learning_rate': 3.395753120989383e-05, 'epoch': 4.81} {'loss': 0.5114, 'grad_norm': 14.874109268188477, 'learning_rate': 3.3665849959164625e-05, 'epoch': 4.9} {'loss': 0.5177, 'grad_norm': 13.78496265411377, 'learning_rate': 3.337416870843542e-05, 'epoch': 4.99} [1 3 2 ... 1 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 2.1010797023773193, 'eval_accuracy': 0.3997131245517571, 'eval_runtime': 6.5875, 'eval_samples_per_second': 634.995, 'eval_steps_per_second': 19.886, 'epoch': 5.0} {'loss': 0.3604, 'grad_norm': 11.036005020141602, 'learning_rate': 3.308248745770622e-05, 'epoch': 5.08} {'loss': 0.3446, 'grad_norm': 10.067902565002441, 'learning_rate': 3.2790806206977015e-05, 'epoch': 5.16} {'loss': 0.354, 'grad_norm': 11.869844436645508, 'learning_rate': 3.249912495624781e-05, 'epoch': 5.25} {'loss': 0.3668, 'grad_norm': 14.416504859924316, 'learning_rate': 3.220744370551861e-05, 'epoch': 5.34} {'loss': 0.3694, 'grad_norm': 17.454008102416992, 'learning_rate': 3.1915762454789404e-05, 'epoch': 5.43} {'loss': 0.3688, 'grad_norm': 11.404752731323242, 'learning_rate': 3.16240812040602e-05, 'epoch': 5.51} {'loss': 0.3708, 'grad_norm': 13.581445693969727, 'learning_rate': 3.1332399953331e-05, 'epoch': 5.6} {'loss': 0.3658, 'grad_norm': 14.196109771728516, 'learning_rate': 3.10407187026018e-05, 'epoch': 5.69} {'loss': 0.3802, 'grad_norm': 14.382953643798828, 'learning_rate': 3.07490374518726e-05, 'epoch': 5.78} {'loss': 0.3861, 'grad_norm': 7.7172627449035645, 'learning_rate': 3.0457356201143393e-05, 'epoch': 5.86} {'loss': 0.3968, 'grad_norm': 13.746389389038086, 'learning_rate': 3.016567495041419e-05, 'epoch': 5.95} [0 2 2 ... 1 2 1] [0 0 2 ... 0 1 0] {'eval_loss': 2.290968179702759, 'eval_accuracy': 0.40090843891943584, 'eval_runtime': 6.2537, 'eval_samples_per_second': 668.883, 'eval_steps_per_second': 20.948, 'epoch': 6.0} {'loss': 0.3242, 'grad_norm': 5.355894565582275, 'learning_rate': 2.987399369968499e-05, 'epoch': 6.04} {'loss': 0.2491, 'grad_norm': 11.969722747802734, 'learning_rate': 2.9582312448955786e-05, 'epoch': 6.13} {'loss': 0.2627, 'grad_norm': 10.806496620178223, 'learning_rate': 2.9290631198226582e-05, 'epoch': 6.21} {'loss': 0.2674, 'grad_norm': 11.133452415466309, 'learning_rate': 2.899894994749738e-05, 'epoch': 6.3} {'loss': 0.2795, 'grad_norm': 10.295939445495605, 'learning_rate': 2.8707268696768175e-05, 'epoch': 6.39} {'loss': 0.28, 'grad_norm': 16.589740753173828, 'learning_rate': 2.8415587446038972e-05, 'epoch': 6.48} {'loss': 0.28, 'grad_norm': 21.517580032348633, 'learning_rate': 2.812390619530977e-05, 'epoch': 6.56} {'loss': 0.2861, 'grad_norm': 14.851978302001953, 'learning_rate': 2.7832224944580565e-05, 'epoch': 6.65} {'loss': 0.2945, 'grad_norm': 10.245756149291992, 'learning_rate': 2.754054369385136e-05, 'epoch': 6.74} {'loss': 0.2869, 'grad_norm': 12.929959297180176, 'learning_rate': 2.7248862443122158e-05, 'epoch': 6.83} {'loss': 0.2936, 'grad_norm': 7.713830471038818, 'learning_rate': 2.6957181192392954e-05, 'epoch': 6.91}