daze-unlv's picture
Training in progress, epoch 3
afd6dc5 verified
{'loss': 1.3888, 'grad_norm': 0.8246173858642578, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.18}
{'loss': 1.3894, 'grad_norm': 0.4272172749042511, 'learning_rate': 4.416637498541594e-05, 'epoch': 0.35}
{'loss': 1.3884, 'grad_norm': 0.5441191792488098, 'learning_rate': 4.124956247812391e-05, 'epoch': 0.53}
{'loss': 1.3884, 'grad_norm': 0.9024211764335632, 'learning_rate': 3.8332749970831875e-05, 'epoch': 0.7}
{'loss': 1.3883, 'grad_norm': 0.8354799151420593, 'learning_rate': 3.5415937463539846e-05, 'epoch': 0.88}
[2 0 3 ... 0 1 0] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3862948417663574, 'eval_accuracy': 0.23045661008845325, 'eval_runtime': 12.4876, 'eval_samples_per_second': 334.972, 'eval_steps_per_second': 5.285, 'epoch': 1.0}
{'loss': 1.3884, 'grad_norm': 0.49840041995048523, 'learning_rate': 3.249912495624781e-05, 'epoch': 1.05}
{'loss': 1.3879, 'grad_norm': 0.5608851909637451, 'learning_rate': 2.9582312448955786e-05, 'epoch': 1.23}
{'loss': 1.3879, 'grad_norm': 0.4618963599205017, 'learning_rate': 2.666549994166375e-05, 'epoch': 1.4}
{'loss': 1.3874, 'grad_norm': 0.5867350697517395, 'learning_rate': 2.374868743437172e-05, 'epoch': 1.58}
{'loss': 1.3878, 'grad_norm': 0.516469419002533, 'learning_rate': 2.083187492707969e-05, 'epoch': 1.75}
{'loss': 1.3871, 'grad_norm': 0.4514859616756439, 'learning_rate': 1.7915062419787655e-05, 'epoch': 1.93}
[2 0 3 ... 0 1 0] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.22973942146784604, 'eval_runtime': 12.7723, 'eval_samples_per_second': 327.505, 'eval_steps_per_second': 5.167, 'epoch': 2.0}
{'loss': 1.3874, 'grad_norm': 0.6036933064460754, 'learning_rate': 1.4998249912495627e-05, 'epoch': 2.1}
{'loss': 1.3876, 'grad_norm': 0.5512823462486267, 'learning_rate': 1.2081437405203595e-05, 'epoch': 2.28}
{'loss': 1.3872, 'grad_norm': 0.556095540523529, 'learning_rate': 9.164624897911563e-06, 'epoch': 2.45}
{'loss': 1.3869, 'grad_norm': 0.47949934005737305, 'learning_rate': 6.247812390619531e-06, 'epoch': 2.63}
{'loss': 1.3871, 'grad_norm': 0.45945364236831665, 'learning_rate': 3.3309998833275e-06, 'epoch': 2.8}
{'loss': 1.3869, 'grad_norm': 0.48113781213760376, 'learning_rate': 4.141873760354685e-07, 'epoch': 2.98}