{'loss': 1.3821, 'grad_norm': 6.3022990226745605, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.18}
{'loss': 1.3743, 'grad_norm': 1.8511253595352173, 'learning_rate': 4.416637498541594e-05, 'epoch': 0.35}
{'loss': 1.3663, 'grad_norm': 1.645703673362732, 'learning_rate': 4.124956247812391e-05, 'epoch': 0.53}
{'loss': 1.3633, 'grad_norm': 2.9196035861968994, 'learning_rate': 3.8332749970831875e-05, 'epoch': 0.7}
{'loss': 1.3578, 'grad_norm': 1.4776370525360107, 'learning_rate': 3.5415937463539846e-05, 'epoch': 0.88}
[1 3 2 ... 0 0 2] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3571314811706543, 'eval_accuracy': 0.3181926846760698, 'eval_runtime': 8.271, 'eval_samples_per_second': 505.743, 'eval_steps_per_second': 7.98, 'epoch': 1.0}
{'loss': 1.3474, 'grad_norm': 1.2619247436523438, 'learning_rate': 3.249912495624781e-05, 'epoch': 1.05}
{'loss': 1.3287, 'grad_norm': 1.382459044456482, 'learning_rate': 2.9582312448955786e-05, 'epoch': 1.23}
{'loss': 1.3249, 'grad_norm': 1.304494023323059, 'learning_rate': 2.666549994166375e-05, 'epoch': 1.4}
{'loss': 1.3171, 'grad_norm': 2.3711297512054443, 'learning_rate': 2.374868743437172e-05, 'epoch': 1.58}
{'loss': 1.3069, 'grad_norm': 1.860498309135437, 'learning_rate': 2.083187492707969e-05, 'epoch': 1.75}
{'loss': 1.3025, 'grad_norm': 2.2095441818237305, 'learning_rate': 1.7915062419787655e-05, 'epoch': 1.93}
[1 3 3 ... 0 0 2] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3674310445785522, 'eval_accuracy': 0.32273487927324884, 'eval_runtime': 8.2466, 'eval_samples_per_second': 507.241, 'eval_steps_per_second': 8.003, 'epoch': 2.0}
{'loss': 1.2689, 'grad_norm': 2.625206470489502, 'learning_rate': 1.4998249912495627e-05, 'epoch': 2.1}
{'loss': 1.2396, 'grad_norm': 2.433244466781616, 'learning_rate': 1.2081437405203595e-05, 'epoch': 2.28}
{'loss': 1.2346, 'grad_norm': 3.3627963066101074, 'learning_rate': 9.164624897911563e-06, 'epoch': 2.45}
{'loss': 1.2303, 'grad_norm': 3.6004717350006104, 'learning_rate': 6.247812390619531e-06, 'epoch': 2.63}
{'loss': 1.2189, 'grad_norm': 2.9925692081451416, 'learning_rate': 3.3309998833275e-06, 'epoch': 2.8}
{'loss': 1.2192, 'grad_norm': 2.977858781814575, 'learning_rate': 4.141873760354685e-07, 'epoch': 2.98}