{'loss': 6619.536, 'grad_norm': 570995.875, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.18}
{'loss': 41.9051, 'grad_norm': 50093.546875, 'learning_rate': 4.416637498541594e-05, 'epoch': 0.35}
{'loss': 12.3949, 'grad_norm': 30450.115234375, 'learning_rate': 4.124956247812391e-05, 'epoch': 0.53}
{'loss': 2.3106, 'grad_norm': 2060.141845703125, 'learning_rate': 3.8332749970831875e-05, 'epoch': 0.7}
{'loss': 3.8107, 'grad_norm': 1.1463676691055298, 'learning_rate': 3.5415937463539846e-05, 'epoch': 0.88}
[0 0 2 ... 2 0 2] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3584738969802856, 'eval_accuracy': 0.30815204398756874, 'eval_runtime': 15.7773, 'eval_samples_per_second': 265.128, 'eval_steps_per_second': 4.183, 'epoch': 1.0}
{'loss': 1.363, 'grad_norm': 1.3876523971557617, 'learning_rate': 3.249912495624781e-05, 'epoch': 1.05}
{'loss': 1.349, 'grad_norm': 1.3187861442565918, 'learning_rate': 2.9582312448955786e-05, 'epoch': 1.23}
{'loss': 1.3429, 'grad_norm': 1.5460926294326782, 'learning_rate': 2.666549994166375e-05, 'epoch': 1.4}
{'loss': 1.3365, 'grad_norm': 2.3026928901672363, 'learning_rate': 2.374868743437172e-05, 'epoch': 1.58}
{'loss': 1.3277, 'grad_norm': 1.6010768413543701, 'learning_rate': 2.083187492707969e-05, 'epoch': 1.75}
{'loss': 1.3233, 'grad_norm': 1.8152786493301392, 'learning_rate': 1.7915062419787655e-05, 'epoch': 1.93}
[0 0 3 ... 1 0 2] [0 0 2 ... 0 1 0]
{'eval_loss': 1.345216989517212, 'eval_accuracy': 0.3296677026057853, 'eval_runtime': 16.0379, 'eval_samples_per_second': 260.819, 'eval_steps_per_second': 4.115, 'epoch': 2.0}
{'loss': 1.3059, 'grad_norm': 2.303391456604004, 'learning_rate': 1.4998249912495627e-05, 'epoch': 2.1}
{'loss': 1.2857, 'grad_norm': 2.5327250957489014, 'learning_rate': 1.2081437405203595e-05, 'epoch': 2.28}
{'loss': 1.2841, 'grad_norm': 2.771071434020996, 'learning_rate': 9.164624897911563e-06, 'epoch': 2.45}
{'loss': 1.2811, 'grad_norm': 3.016386032104492, 'learning_rate': 6.247812390619531e-06, 'epoch': 2.63}
{'loss': 1.2806, 'grad_norm': 2.3957359790802, 'learning_rate': 3.3309998833275e-06, 'epoch': 2.8}
{'loss': 1.2776, 'grad_norm': 2.706343412399292, 'learning_rate': 4.141873760354685e-07, 'epoch': 2.98}