{'loss': 1.3778, 'grad_norm': 1.3111883401870728, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.18}
{'loss': 1.3648, 'grad_norm': 1.043687343597412, 'learning_rate': 4.416637498541594e-05, 'epoch': 0.35}
{'loss': 1.3534, 'grad_norm': 2.075117349624634, 'learning_rate': 4.124956247812391e-05, 'epoch': 0.53}
{'loss': 1.3456, 'grad_norm': 1.4736918210983276, 'learning_rate': 3.8332749970831875e-05, 'epoch': 0.7}
{'loss': 1.34, 'grad_norm': 1.3887734413146973, 'learning_rate': 3.5415937463539846e-05, 'epoch': 0.88}
[0 0 2 ... 2 0 3] [0 0 2 ... 0 1 0]
{'eval_loss': 1.35463285446167, 'eval_accuracy': 0.3258426966292135, 'eval_runtime': 10.8752, 'eval_samples_per_second': 384.635, 'eval_steps_per_second': 6.069, 'epoch': 1.0}
{'loss': 1.3191, 'grad_norm': 1.941873550415039, 'learning_rate': 3.249912495624781e-05, 'epoch': 1.05}
{'loss': 1.2832, 'grad_norm': 2.6923511028289795, 'learning_rate': 2.9582312448955786e-05, 'epoch': 1.23}
{'loss': 1.277, 'grad_norm': 2.989945888519287, 'learning_rate': 2.666549994166375e-05, 'epoch': 1.4}
{'loss': 1.2656, 'grad_norm': 2.5964572429656982, 'learning_rate': 2.374868743437172e-05, 'epoch': 1.58}
{'loss': 1.2562, 'grad_norm': 3.4812798500061035, 'learning_rate': 2.083187492707969e-05, 'epoch': 1.75}
{'loss': 1.2482, 'grad_norm': 3.2859387397766113, 'learning_rate': 1.7915062419787655e-05, 'epoch': 1.93}
[3 0 1 ... 1 0 3] [0 0 2 ... 0 1 0]
{'eval_loss': 1.401915431022644, 'eval_accuracy': 0.33779584030600046, 'eval_runtime': 10.8234, 'eval_samples_per_second': 386.477, 'eval_steps_per_second': 6.098, 'epoch': 2.0}
{'loss': 1.1868, 'grad_norm': 5.413194179534912, 'learning_rate': 1.4998249912495627e-05, 'epoch': 2.1}
{'loss': 1.1311, 'grad_norm': 4.631208896636963, 'learning_rate': 1.2081437405203595e-05, 'epoch': 2.28}
{'loss': 1.1264, 'grad_norm': 6.384730815887451, 'learning_rate': 9.164624897911563e-06, 'epoch': 2.45}
{'loss': 1.1167, 'grad_norm': 6.548458576202393, 'learning_rate': 6.247812390619531e-06, 'epoch': 2.63}
{'loss': 1.1112, 'grad_norm': 5.751729965209961, 'learning_rate': 3.3309998833275e-06, 'epoch': 2.8}
{'loss': 1.1038, 'grad_norm': 6.997654438018799, 'learning_rate': 4.141873760354685e-07, 'epoch': 2.98}