{'loss': 1.3871, 'grad_norm': 0.4026632010936737, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.18} {'loss': 1.3877, 'grad_norm': 0.37113893032073975, 'learning_rate': 4.416637498541594e-05, 'epoch': 0.35} {'loss': 1.3878, 'grad_norm': 0.4988824129104614, 'learning_rate': 4.124956247812391e-05, 'epoch': 0.53} {'loss': 1.3874, 'grad_norm': 0.3485355079174042, 'learning_rate': 3.8332749970831875e-05, 'epoch': 0.7} {'loss': 1.3874, 'grad_norm': 0.37410062551498413, 'learning_rate': 3.5415937463539846e-05, 'epoch': 0.88} [0 2 2 ... 3 0 1] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862943649291992, 'eval_accuracy': 0.26942385847477884, 'eval_runtime': 8.8328, 'eval_samples_per_second': 473.577, 'eval_steps_per_second': 7.472, 'epoch': 1.0} {'loss': 1.3869, 'grad_norm': 0.4474199414253235, 'learning_rate': 3.249912495624781e-05, 'epoch': 1.05} {'loss': 1.3873, 'grad_norm': 0.3728373944759369, 'learning_rate': 2.9582312448955786e-05, 'epoch': 1.23} {'loss': 1.3874, 'grad_norm': 0.25491100549697876, 'learning_rate': 2.666549994166375e-05, 'epoch': 1.4} {'loss': 1.387, 'grad_norm': 0.3263598084449768, 'learning_rate': 2.374868743437172e-05, 'epoch': 1.58} {'loss': 1.387, 'grad_norm': 0.49747857451438904, 'learning_rate': 2.083187492707969e-05, 'epoch': 1.75} {'loss': 1.3869, 'grad_norm': 0.42442792654037476, 'learning_rate': 1.7915062419787655e-05, 'epoch': 1.93} [0 1 2 ... 3 3 2] [0 0 2 ... 0 1 0] {'eval_loss': 1.3862944841384888, 'eval_accuracy': 0.2816160650251016, 'eval_runtime': 8.68, 'eval_samples_per_second': 481.91, 'eval_steps_per_second': 7.604, 'epoch': 2.0} {'loss': 1.387, 'grad_norm': 0.3492703139781952, 'learning_rate': 1.4998249912495627e-05, 'epoch': 2.1} {'loss': 1.3871, 'grad_norm': 0.41146495938301086, 'learning_rate': 1.2081437405203595e-05, 'epoch': 2.28} {'loss': 1.387, 'grad_norm': 0.43965476751327515, 'learning_rate': 9.164624897911563e-06, 'epoch': 2.45} {'loss': 1.3866, 'grad_norm': 0.28787338733673096, 'learning_rate': 6.247812390619531e-06, 'epoch': 2.63} {'loss': 1.3867, 'grad_norm': 0.36737778782844543, 'learning_rate': 3.3309998833275e-06, 'epoch': 2.8} {'loss': 1.3868, 'grad_norm': 0.3487311601638794, 'learning_rate': 4.141873760354685e-07, 'epoch': 2.98}