ES_corlec / stdout-2e-05.slurm

Training in progress, step 2000

d2ec230 almost 2 years ago

No virus

7.59 kB

	{'loss': 4.1429, 'learning_rate': 1.9880573248407645e-05, 'epoch': 0.1}
	{'loss': 3.7366, 'learning_rate': 1.9681528662420383e-05, 'epoch': 0.2}
	{'loss': 3.5836, 'learning_rate': 1.9482484076433124e-05, 'epoch': 0.3}
	{'loss': 3.4588, 'learning_rate': 1.9283439490445862e-05, 'epoch': 0.4}
	{'eval_loss': 3.926462411880493, 'eval_runtime': 958.5106, 'eval_samples_per_second': 42.233, 'eval_steps_per_second': 2.641, 'epoch': 0.4}
	{'loss': 3.3359, 'learning_rate': 1.90843949044586e-05, 'epoch': 0.5}
	{'loss': 3.2161, 'learning_rate': 1.8885350318471337e-05, 'epoch': 0.59}
	{'loss': 3.122, 'learning_rate': 1.868630573248408e-05, 'epoch': 0.69}
	{'loss': 3.0293, 'learning_rate': 1.8487261146496816e-05, 'epoch': 0.79}
	{'eval_loss': 4.006344795227051, 'eval_runtime': 958.9036, 'eval_samples_per_second': 42.216, 'eval_steps_per_second': 2.639, 'epoch': 0.79}
	{'loss': 2.9397, 'learning_rate': 1.8288216560509554e-05, 'epoch': 0.89}
	{'loss': 2.8495, 'learning_rate': 1.8089171974522295e-05, 'epoch': 0.99}
	{'loss': 2.7033, 'learning_rate': 1.7890127388535033e-05, 'epoch': 1.09}
	{'loss': 2.6331, 'learning_rate': 1.769108280254777e-05, 'epoch': 1.19}
	{'eval_loss': 4.1308207511901855, 'eval_runtime': 958.6456, 'eval_samples_per_second': 42.227, 'eval_steps_per_second': 2.64, 'epoch': 1.19}
	{'loss': 2.5481, 'learning_rate': 1.7492038216560512e-05, 'epoch': 1.29}
	{'loss': 2.4854, 'learning_rate': 1.729299363057325e-05, 'epoch': 1.39}
	{'loss': 2.4066, 'learning_rate': 1.7093949044585988e-05, 'epoch': 1.49}
	{'loss': 2.3432, 'learning_rate': 1.6894904458598726e-05, 'epoch': 1.59}
	{'eval_loss': 4.2555365562438965, 'eval_runtime': 959.2942, 'eval_samples_per_second': 42.199, 'eval_steps_per_second': 2.638, 'epoch': 1.59}
	{'loss': 2.2699, 'learning_rate': 1.6695859872611467e-05, 'epoch': 1.69}
	{'loss': 2.1978, 'learning_rate': 1.6496815286624205e-05, 'epoch': 1.78}
	{'loss': 2.1452, 'learning_rate': 1.6297770700636943e-05, 'epoch': 1.88}
	{'loss': 2.0791, 'learning_rate': 1.6098726114649684e-05, 'epoch': 1.98}
	{'eval_loss': 4.388513088226318, 'eval_runtime': 958.7919, 'eval_samples_per_second': 42.221, 'eval_steps_per_second': 2.64, 'epoch': 1.98}
	{'loss': 1.9673, 'learning_rate': 1.589968152866242e-05, 'epoch': 2.08}
	{'loss': 1.9147, 'learning_rate': 1.570063694267516e-05, 'epoch': 2.18}
	{'loss': 1.8628, 'learning_rate': 1.55015923566879e-05, 'epoch': 2.28}
	{'loss': 1.7991, 'learning_rate': 1.530254777070064e-05, 'epoch': 2.38}
	{'eval_loss': 4.536414623260498, 'eval_runtime': 958.7918, 'eval_samples_per_second': 42.221, 'eval_steps_per_second': 2.64, 'epoch': 2.38}
	{'loss': 1.755, 'learning_rate': 1.5103503184713378e-05, 'epoch': 2.48}
	{'loss': 1.699, 'learning_rate': 1.4904458598726114e-05, 'epoch': 2.58}
	{'loss': 1.6565, 'learning_rate': 1.4705414012738855e-05, 'epoch': 2.68}
	{'loss': 1.6005, 'learning_rate': 1.4506369426751595e-05, 'epoch': 2.78}
	{'eval_loss': 4.665872097015381, 'eval_runtime': 958.5203, 'eval_samples_per_second': 42.233, 'eval_steps_per_second': 2.641, 'epoch': 2.78}
	{'loss': 1.5739, 'learning_rate': 1.4307324840764331e-05, 'epoch': 2.87}
	{'loss': 1.5312, 'learning_rate': 1.4108280254777072e-05, 'epoch': 2.97}
	{'loss': 1.4352, 'learning_rate': 1.3909235668789812e-05, 'epoch': 3.07}
	{'loss': 1.4018, 'learning_rate': 1.371019108280255e-05, 'epoch': 3.17}
	{'eval_loss': 4.807626724243164, 'eval_runtime': 959.3471, 'eval_samples_per_second': 42.196, 'eval_steps_per_second': 2.638, 'epoch': 3.17}
	{'loss': 1.362, 'learning_rate': 1.3511146496815289e-05, 'epoch': 3.27}
	{'loss': 1.3312, 'learning_rate': 1.3312101910828025e-05, 'epoch': 3.37}
	{'loss': 1.2996, 'learning_rate': 1.3113057324840766e-05, 'epoch': 3.47}
	{'loss': 1.2584, 'learning_rate': 1.2914012738853506e-05, 'epoch': 3.57}
	{'eval_loss': 4.938758373260498, 'eval_runtime': 959.0042, 'eval_samples_per_second': 42.211, 'eval_steps_per_second': 2.639, 'epoch': 3.57}
	{'loss': 1.2251, 'learning_rate': 1.2714968152866244e-05, 'epoch': 3.67}
	{'loss': 1.1985, 'learning_rate': 1.2515923566878983e-05, 'epoch': 3.77}
	{'loss': 1.1689, 'learning_rate': 1.231687898089172e-05, 'epoch': 3.87}
	{'loss': 1.1476, 'learning_rate': 1.211783439490446e-05, 'epoch': 3.97}
	{'eval_loss': 5.052674293518066, 'eval_runtime': 959.1305, 'eval_samples_per_second': 42.206, 'eval_steps_per_second': 2.639, 'epoch': 3.97}
	{'loss': 1.0804, 'learning_rate': 1.19187898089172e-05, 'epoch': 4.06}
	{'loss': 1.0489, 'learning_rate': 1.1719745222929938e-05, 'epoch': 4.16}
	{'loss': 1.0267, 'learning_rate': 1.1520700636942677e-05, 'epoch': 4.26}
	{'loss': 1.0043, 'learning_rate': 1.1321656050955413e-05, 'epoch': 4.36}
	{'eval_loss': 5.172101974487305, 'eval_runtime': 958.8916, 'eval_samples_per_second': 42.216, 'eval_steps_per_second': 2.64, 'epoch': 4.36}
	{'loss': 0.989, 'learning_rate': 1.1122611464968155e-05, 'epoch': 4.46}
	{'loss': 0.9617, 'learning_rate': 1.0923566878980894e-05, 'epoch': 4.56}
	{'loss': 0.9621, 'learning_rate': 1.0724522292993632e-05, 'epoch': 4.66}
	{'loss': 0.9271, 'learning_rate': 1.0525477707006371e-05, 'epoch': 4.76}
	{'eval_loss': 5.2821364402771, 'eval_runtime': 959.4888, 'eval_samples_per_second': 42.19, 'eval_steps_per_second': 2.638, 'epoch': 4.76}
	{'loss': 0.8991, 'learning_rate': 1.0326433121019107e-05, 'epoch': 4.86}
	{'loss': 0.8971, 'learning_rate': 1.0127388535031849e-05, 'epoch': 4.96}
	{'loss': 0.8486, 'learning_rate': 9.928343949044586e-06, 'epoch': 5.06}
	{'loss': 0.8291, 'learning_rate': 9.729299363057324e-06, 'epoch': 5.15}
	{'eval_loss': 5.384232521057129, 'eval_runtime': 958.7754, 'eval_samples_per_second': 42.222, 'eval_steps_per_second': 2.64, 'epoch': 5.15}
	{'loss': 0.8108, 'learning_rate': 9.530254777070066e-06, 'epoch': 5.25}
	{'loss': 0.7972, 'learning_rate': 9.331210191082803e-06, 'epoch': 5.35}
	{'loss': 0.7845, 'learning_rate': 9.132165605095543e-06, 'epoch': 5.45}
	{'loss': 0.776, 'learning_rate': 8.93312101910828e-06, 'epoch': 5.55}
	{'eval_loss': 5.476274490356445, 'eval_runtime': 959.1462, 'eval_samples_per_second': 42.205, 'eval_steps_per_second': 2.639, 'epoch': 5.55}
	{'loss': 0.76, 'learning_rate': 8.734076433121018e-06, 'epoch': 5.65}
	{'loss': 0.7445, 'learning_rate': 8.53503184713376e-06, 'epoch': 5.75}
	{'loss': 0.731, 'learning_rate': 8.335987261146497e-06, 'epoch': 5.85}
	{'loss': 0.7241, 'learning_rate': 8.136942675159237e-06, 'epoch': 5.95}
	{'eval_loss': 5.554164886474609, 'eval_runtime': 958.7676, 'eval_samples_per_second': 42.222, 'eval_steps_per_second': 2.64, 'epoch': 5.95}
	{'loss': 0.7027, 'learning_rate': 7.937898089171975e-06, 'epoch': 6.05}
	{'loss': 0.6773, 'learning_rate': 7.738853503184714e-06, 'epoch': 6.15}
	{'loss': 0.6782, 'learning_rate': 7.539808917197453e-06, 'epoch': 6.25}
	{'loss': 0.6602, 'learning_rate': 7.340764331210192e-06, 'epoch': 6.34}
	{'eval_loss': 5.626761436462402, 'eval_runtime': 959.3904, 'eval_samples_per_second': 42.195, 'eval_steps_per_second': 2.638, 'epoch': 6.34}
	{'loss': 0.6511, 'learning_rate': 7.14171974522293e-06, 'epoch': 6.44}
	{'loss': 0.6436, 'learning_rate': 6.942675159235669e-06, 'epoch': 6.54}
	{'loss': 0.6435, 'learning_rate': 6.7436305732484085e-06, 'epoch': 6.64}
	{'loss': 0.635, 'learning_rate': 6.544585987261147e-06, 'epoch': 6.74}
	{'eval_loss': 5.690598011016846, 'eval_runtime': 958.9891, 'eval_samples_per_second': 42.212, 'eval_steps_per_second': 2.639, 'epoch': 6.74}
	{'loss': 0.6306, 'learning_rate': 6.345541401273886e-06, 'epoch': 6.84}
	{'loss': 0.6146, 'learning_rate': 6.1464968152866244e-06, 'epoch': 6.94}
	{'loss': 0.5998, 'learning_rate': 5.947452229299363e-06, 'epoch': 7.04}
	{'loss': 0.5837, 'learning_rate': 5.748407643312103e-06, 'epoch': 7.14}