daze-unlv's picture
Training in progress, epoch 3
b28da77 verified
{'loss': 1.3816, 'grad_norm': 1.4503111839294434, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.18}
{'loss': 1.3642, 'grad_norm': 1.2277671098709106, 'learning_rate': 4.416637498541594e-05, 'epoch': 0.35}
{'loss': 1.3505, 'grad_norm': 1.8225963115692139, 'learning_rate': 4.124956247812391e-05, 'epoch': 0.53}
{'loss': 1.3362, 'grad_norm': 1.5222986936569214, 'learning_rate': 3.8332749970831875e-05, 'epoch': 0.7}
{'loss': 1.321, 'grad_norm': 2.3339385986328125, 'learning_rate': 3.5415937463539846e-05, 'epoch': 0.88}
[3 3 3 ... 0 0 3] [0 0 2 ... 0 1 0]
{'eval_loss': 1.357659935951233, 'eval_accuracy': 0.32010518766435575, 'eval_runtime': 9.2676, 'eval_samples_per_second': 451.359, 'eval_steps_per_second': 7.122, 'epoch': 1.0}
{'loss': 1.286, 'grad_norm': 3.8302462100982666, 'learning_rate': 3.249912495624781e-05, 'epoch': 1.05}
{'loss': 1.2242, 'grad_norm': 3.969923496246338, 'learning_rate': 2.9582312448955786e-05, 'epoch': 1.23}
{'loss': 1.2051, 'grad_norm': 4.184803009033203, 'learning_rate': 2.666549994166375e-05, 'epoch': 1.4}
{'loss': 1.1927, 'grad_norm': 4.891911029815674, 'learning_rate': 2.374868743437172e-05, 'epoch': 1.58}
{'loss': 1.1693, 'grad_norm': 4.698267936706543, 'learning_rate': 2.083187492707969e-05, 'epoch': 1.75}
{'loss': 1.1604, 'grad_norm': 5.036068439483643, 'learning_rate': 1.7915062419787655e-05, 'epoch': 1.93}
[3 3 3 ... 0 0 1] [0 0 2 ... 0 1 0]
{'eval_loss': 1.4321914911270142, 'eval_accuracy': 0.349270858235716, 'eval_runtime': 9.2733, 'eval_samples_per_second': 451.081, 'eval_steps_per_second': 7.117, 'epoch': 2.0}
{'loss': 1.067, 'grad_norm': 8.549752235412598, 'learning_rate': 1.4998249912495627e-05, 'epoch': 2.1}
{'loss': 0.9953, 'grad_norm': 8.00672721862793, 'learning_rate': 1.2081437405203595e-05, 'epoch': 2.28}
{'loss': 0.9925, 'grad_norm': 8.322041511535645, 'learning_rate': 9.164624897911563e-06, 'epoch': 2.45}
{'loss': 0.9878, 'grad_norm': 7.179974555969238, 'learning_rate': 6.247812390619531e-06, 'epoch': 2.63}
{'loss': 0.9789, 'grad_norm': 7.508288860321045, 'learning_rate': 3.3309998833275e-06, 'epoch': 2.8}
{'loss': 0.9724, 'grad_norm': 7.802349090576172, 'learning_rate': 4.141873760354685e-07, 'epoch': 2.98}