Saving weights at step 180k, loss 1.489, acc 0.684

66661d5 about 2 years ago

No virus

428 Bytes

	INFO:__main__: Optimizer = adafactor
	INFO:__main__: Learning rate (peak) = 0.005
	INFO:__main__: Num examples = 94558172
	INFO:__main__: Num tokenized group examples 109037136
	INFO:__main__: Num Epochs = 1
	INFO:__main__: Instantaneous batch size per device = 16
	INFO:__main__: Total train batch size (w. parallel & grad accum) = 128
	INFO:__main__: Steps per epoch = 851852
	INFO:__main__: Total optimization steps = 851852