{'loss': 1.3703, 'grad_norm': 0.9787009954452515, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.18}
{'loss': 1.3523, 'grad_norm': 1.3269044160842896, 'learning_rate': 4.416637498541594e-05, 'epoch': 0.35}
{'loss': 1.3357, 'grad_norm': 1.7331138849258423, 'learning_rate': 4.124956247812391e-05, 'epoch': 0.53}
{'loss': 1.3207, 'grad_norm': 1.8865785598754883, 'learning_rate': 3.8332749970831875e-05, 'epoch': 0.7}
{'loss': 1.3072, 'grad_norm': 2.1460351943969727, 'learning_rate': 3.5415937463539846e-05, 'epoch': 0.88}
[0 0 2 ... 1 0 1] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3386119604110718, 'eval_accuracy': 0.35022710972985893, 'eval_runtime': 5.0592, 'eval_samples_per_second': 826.812, 'eval_steps_per_second': 13.046, 'epoch': 1.0}
{'loss': 1.2643, 'grad_norm': 3.9819090366363525, 'learning_rate': 3.249912495624781e-05, 'epoch': 1.05}
{'loss': 1.1853, 'grad_norm': 4.385595798492432, 'learning_rate': 2.9582312448955786e-05, 'epoch': 1.23}
{'loss': 1.1782, 'grad_norm': 5.296832084655762, 'learning_rate': 2.666549994166375e-05, 'epoch': 1.4}
{'loss': 1.1629, 'grad_norm': 4.78546667098999, 'learning_rate': 2.374868743437172e-05, 'epoch': 1.58}
{'loss': 1.1465, 'grad_norm': 4.77510404586792, 'learning_rate': 2.083187492707969e-05, 'epoch': 1.75}
{'loss': 1.1357, 'grad_norm': 4.6081061363220215, 'learning_rate': 1.7915062419787655e-05, 'epoch': 1.93}
[0 0 3 ... 1 0 0] [0 0 2 ... 0 1 0]
{'eval_loss': 1.4090018272399902, 'eval_accuracy': 0.36361463064786037, 'eval_runtime': 5.1889, 'eval_samples_per_second': 806.146, 'eval_steps_per_second': 12.719, 'epoch': 2.0}
{'loss': 1.0433, 'grad_norm': 6.610624313354492, 'learning_rate': 1.4998249912495627e-05, 'epoch': 2.1}
{'loss': 0.9796, 'grad_norm': 6.079750061035156, 'learning_rate': 1.2081437405203595e-05, 'epoch': 2.28}
{'loss': 0.9752, 'grad_norm': 7.637790679931641, 'learning_rate': 9.164624897911563e-06, 'epoch': 2.45}
{'loss': 0.9685, 'grad_norm': 8.67606258392334, 'learning_rate': 6.247812390619531e-06, 'epoch': 2.63}
{'loss': 0.96, 'grad_norm': 6.474532604217529, 'learning_rate': 3.3309998833275e-06, 'epoch': 2.8}
{'loss': 0.9615, 'grad_norm': 6.684673309326172, 'learning_rate': 4.141873760354685e-07, 'epoch': 2.98}