daze-unlv's picture
Training in progress, epoch 3
b918c45 verified
{'loss': 1.3895, 'grad_norm': 0.917380154132843, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.18}
{'loss': 1.3891, 'grad_norm': 0.43125149607658386, 'learning_rate': 4.416637498541594e-05, 'epoch': 0.35}
{'loss': 1.3883, 'grad_norm': 0.3787681758403778, 'learning_rate': 4.124956247812391e-05, 'epoch': 0.53}
{'loss': 1.3882, 'grad_norm': 0.400529682636261, 'learning_rate': 3.8332749970831875e-05, 'epoch': 0.7}
{'loss': 1.3882, 'grad_norm': 0.31423699855804443, 'learning_rate': 3.5415937463539846e-05, 'epoch': 0.88}
[1 2 0 ... 0 0 0] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.26918479560124314, 'eval_runtime': 75.8958, 'eval_samples_per_second': 55.115, 'eval_steps_per_second': 0.87, 'epoch': 1.0}
{'loss': 1.3876, 'grad_norm': 0.4648111164569855, 'learning_rate': 3.249912495624781e-05, 'epoch': 1.05}
{'loss': 1.3877, 'grad_norm': 0.4174533486366272, 'learning_rate': 2.9582312448955786e-05, 'epoch': 1.23}
{'loss': 1.3871, 'grad_norm': 0.45143911242485046, 'learning_rate': 2.666549994166375e-05, 'epoch': 1.4}
{'loss': 1.3871, 'grad_norm': 0.31001031398773193, 'learning_rate': 2.374868743437172e-05, 'epoch': 1.58}
{'loss': 1.3868, 'grad_norm': 0.42602482438087463, 'learning_rate': 2.083187492707969e-05, 'epoch': 1.75}
{'loss': 1.3869, 'grad_norm': 0.3930872082710266, 'learning_rate': 1.7915062419787655e-05, 'epoch': 1.93}
[2 3 0 ... 2 3 3] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.24719101123595505, 'eval_runtime': 77.7478, 'eval_samples_per_second': 53.802, 'eval_steps_per_second': 0.849, 'epoch': 2.0}
{'loss': 1.3867, 'grad_norm': 0.4311763346195221, 'learning_rate': 1.4998249912495627e-05, 'epoch': 2.1}
{'loss': 1.3865, 'grad_norm': 0.6534976959228516, 'learning_rate': 1.2081437405203595e-05, 'epoch': 2.28}
{'loss': 1.3867, 'grad_norm': 0.467381089925766, 'learning_rate': 9.164624897911563e-06, 'epoch': 2.45}
{'loss': 1.3869, 'grad_norm': 0.329230397939682, 'learning_rate': 6.247812390619531e-06, 'epoch': 2.63}
{'loss': 1.3866, 'grad_norm': 0.5836042761802673, 'learning_rate': 3.3309998833275e-06, 'epoch': 2.8}
{'loss': 1.3865, 'grad_norm': 0.42997097969055176, 'learning_rate': 4.141873760354685e-07, 'epoch': 2.98}