{'loss': 1.3866, 'grad_norm': 0.25656482577323914, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.18}
{'loss': 1.3856, 'grad_norm': 0.15997980535030365, 'learning_rate': 4.416637498541594e-05, 'epoch': 0.35}
{'loss': 1.3868, 'grad_norm': 0.17803697288036346, 'learning_rate': 4.124956247812391e-05, 'epoch': 0.53}
{'loss': 1.3868, 'grad_norm': 0.15967394411563873, 'learning_rate': 3.8332749970831875e-05, 'epoch': 0.7}
{'loss': 1.3866, 'grad_norm': 0.14670728147029877, 'learning_rate': 3.5415937463539846e-05, 'epoch': 0.88}
[2 0 1 ... 0 0 0] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3862944841384888, 'eval_accuracy': 0.23213005020320343, 'eval_runtime': 10.8823, 'eval_samples_per_second': 384.387, 'eval_steps_per_second': 6.065, 'epoch': 1.0}
{'loss': 1.3866, 'grad_norm': 0.16719762980937958, 'learning_rate': 3.249912495624781e-05, 'epoch': 1.05}
{'loss': 1.3864, 'grad_norm': 0.15575970709323883, 'learning_rate': 2.9582312448955786e-05, 'epoch': 1.23}
{'loss': 1.3866, 'grad_norm': 0.1441808044910431, 'learning_rate': 2.666549994166375e-05, 'epoch': 1.4}
{'loss': 1.3867, 'grad_norm': 0.15964549779891968, 'learning_rate': 2.374868743437172e-05, 'epoch': 1.58}
{'loss': 1.3864, 'grad_norm': 0.1460782140493393, 'learning_rate': 2.083187492707969e-05, 'epoch': 1.75}
{'loss': 1.3863, 'grad_norm': 0.13421306014060974, 'learning_rate': 1.7915062419787655e-05, 'epoch': 1.93}
[0 3 1 ... 3 0 3] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.22758785560602438, 'eval_runtime': 10.7384, 'eval_samples_per_second': 389.538, 'eval_steps_per_second': 6.146, 'epoch': 2.0}
{'loss': 1.3867, 'grad_norm': 0.1433960497379303, 'learning_rate': 1.4998249912495627e-05, 'epoch': 2.1}
{'loss': 1.3866, 'grad_norm': 0.16756704449653625, 'learning_rate': 1.2081437405203595e-05, 'epoch': 2.28}
{'loss': 1.3864, 'grad_norm': 0.1544477492570877, 'learning_rate': 9.164624897911563e-06, 'epoch': 2.45}
{'loss': 1.3865, 'grad_norm': 0.15031203627586365, 'learning_rate': 6.247812390619531e-06, 'epoch': 2.63}
{'loss': 1.3866, 'grad_norm': 0.15873222053050995, 'learning_rate': 3.3309998833275e-06, 'epoch': 2.8}
{'loss': 1.3865, 'grad_norm': 0.1451587975025177, 'learning_rate': 4.141873760354685e-07, 'epoch': 2.98}