Training in progress, epoch 6

7883cab verified 4 months ago

No virus

4.61 kB

	{'loss': 1.3761, 'grad_norm': 0.7730531692504883, 'learning_rate': 4.9416637498541595e-05, 'epoch': 0.18}
	{'loss': 1.3555, 'grad_norm': 1.0094777345657349, 'learning_rate': 4.883327499708319e-05, 'epoch': 0.35}
	{'loss': 1.3407, 'grad_norm': 1.4118744134902954, 'learning_rate': 4.824991249562478e-05, 'epoch': 0.53}
	{'loss': 1.3239, 'grad_norm': 1.75937819480896, 'learning_rate': 4.7666549994166374e-05, 'epoch': 0.7}
	{'loss': 1.3078, 'grad_norm': 2.0291476249694824, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.88}
	[3 0 2 ... 1 0 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3425624370574951, 'eval_accuracy': 0.3356442744441788, 'eval_runtime': 5.0243, 'eval_samples_per_second': 832.548, 'eval_steps_per_second': 13.136, 'epoch': 1.0}
	{'loss': 1.2699, 'grad_norm': 3.673710584640503, 'learning_rate': 4.649982499124956e-05, 'epoch': 1.05}
	{'loss': 1.1936, 'grad_norm': 4.002831935882568, 'learning_rate': 4.591646248979116e-05, 'epoch': 1.23}
	{'loss': 1.18, 'grad_norm': 4.384771347045898, 'learning_rate': 4.533309998833275e-05, 'epoch': 1.4}
	{'loss': 1.1671, 'grad_norm': 4.2930779457092285, 'learning_rate': 4.4749737486874346e-05, 'epoch': 1.58}
	{'loss': 1.1474, 'grad_norm': 4.147246360778809, 'learning_rate': 4.416637498541594e-05, 'epoch': 1.75}
	{'loss': 1.1327, 'grad_norm': 3.8827412128448486, 'learning_rate': 4.358301248395754e-05, 'epoch': 1.93}
	[3 0 3 ... 1 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.4079196453094482, 'eval_accuracy': 0.3559646186947167, 'eval_runtime': 5.2105, 'eval_samples_per_second': 802.8, 'eval_steps_per_second': 12.667, 'epoch': 2.0}
	{'loss': 1.0111, 'grad_norm': 7.289278984069824, 'learning_rate': 4.299964998249913e-05, 'epoch': 2.1}
	{'loss': 0.922, 'grad_norm': 5.99396276473999, 'learning_rate': 4.2416287481040724e-05, 'epoch': 2.28}
	{'loss': 0.9247, 'grad_norm': 7.640910625457764, 'learning_rate': 4.183292497958232e-05, 'epoch': 2.45}
	{'loss': 0.9288, 'grad_norm': 7.306181907653809, 'learning_rate': 4.124956247812391e-05, 'epoch': 2.63}
	{'loss': 0.9135, 'grad_norm': 7.07468318939209, 'learning_rate': 4.06661999766655e-05, 'epoch': 2.8}
	{'loss': 0.911, 'grad_norm': 7.503607273101807, 'learning_rate': 4.0082837475207096e-05, 'epoch': 2.98}
	[1 3 2 ... 2 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.5413333177566528, 'eval_accuracy': 0.37891465455414775, 'eval_runtime': 5.0548, 'eval_samples_per_second': 827.538, 'eval_steps_per_second': 13.057, 'epoch': 3.0}
	{'loss': 0.7285, 'grad_norm': 8.317388534545898, 'learning_rate': 3.949947497374869e-05, 'epoch': 3.15}
	{'loss': 0.7047, 'grad_norm': 7.8821024894714355, 'learning_rate': 3.891611247229028e-05, 'epoch': 3.33}
	{'loss': 0.7098, 'grad_norm': 8.3794584274292, 'learning_rate': 3.8332749970831875e-05, 'epoch': 3.5}
	{'loss': 0.7054, 'grad_norm': 7.861841678619385, 'learning_rate': 3.774938746937347e-05, 'epoch': 3.68}
	{'loss': 0.7139, 'grad_norm': 7.322680950164795, 'learning_rate': 3.716602496791506e-05, 'epoch': 3.85}
	[0 3 2 ... 1 0 3] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.7088218927383423, 'eval_accuracy': 0.3942146784604351, 'eval_runtime': 4.8304, 'eval_samples_per_second': 865.981, 'eval_steps_per_second': 13.664, 'epoch': 4.0}
	{'loss': 0.6896, 'grad_norm': 11.274810791015625, 'learning_rate': 3.658266246645666e-05, 'epoch': 4.03}
	{'loss': 0.5212, 'grad_norm': 7.982595920562744, 'learning_rate': 3.5999299964998253e-05, 'epoch': 4.2}
	{'loss': 0.541, 'grad_norm': 9.061874389648438, 'learning_rate': 3.5415937463539846e-05, 'epoch': 4.38}
	{'loss': 0.5457, 'grad_norm': 10.760665893554688, 'learning_rate': 3.483257496208144e-05, 'epoch': 4.55}
	{'loss': 0.5594, 'grad_norm': 9.166933059692383, 'learning_rate': 3.424921246062303e-05, 'epoch': 4.73}
	{'loss': 0.548, 'grad_norm': 7.9511590003967285, 'learning_rate': 3.3665849959164625e-05, 'epoch': 4.9}
	[3 3 2 ... 2 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.9117132425308228, 'eval_accuracy': 0.3901506096103275, 'eval_runtime': 5.2105, 'eval_samples_per_second': 802.804, 'eval_steps_per_second': 12.667, 'epoch': 5.0}
	{'loss': 0.4888, 'grad_norm': 9.013420104980469, 'learning_rate': 3.308248745770622e-05, 'epoch': 5.08}
	{'loss': 0.4091, 'grad_norm': 7.150439739227295, 'learning_rate': 3.249912495624781e-05, 'epoch': 5.25}
	{'loss': 0.4203, 'grad_norm': 12.627585411071777, 'learning_rate': 3.1915762454789404e-05, 'epoch': 5.43}
	{'loss': 0.4193, 'grad_norm': 12.276535034179688, 'learning_rate': 3.1332399953331e-05, 'epoch': 5.6}
	{'loss': 0.4366, 'grad_norm': 9.403146743774414, 'learning_rate': 3.07490374518726e-05, 'epoch': 5.78}
	{'loss': 0.4389, 'grad_norm': 10.061423301696777, 'learning_rate': 3.016567495041419e-05, 'epoch': 5.95}