global_step,perplexity,eval_loss,train_loss 500,tensor(25.1785),3.2259899893803383,3.6148972511291504 802,tensor(22.6947),3.1221308005389883,3.169919490814209 1000,tensor(22.7527),3.1246853328462856,3.259542226791382 1500,tensor(21.0915),3.048868253159879,3.178443670272827 1604,tensor(21.8677),3.0850108301461634,2.92553448677063 2000,tensor(20.7868),3.0343171469311216,3.652672529220581 2406,tensor(21.0332),3.0461017578395446,3.4821979999542236 2500,tensor(19.8329),2.9873445879167586,2.780447244644165 3000,tensor(20.1747),3.004430653443977,3.060286045074463 3208,tensor(18.9665),2.9426718407602452,2.771437644958496 3500,tensor(18.8871),2.938477090045587,3.5695018768310547 4000,tensor(18.9398),2.941264520830183,2.701347827911377 4010,tensor(18.8755),2.9378651843142154,2.8873403072357178 4500,tensor(18.4492),2.9150228042211106,2.8361315727233887 4812,tensor(18.0082),2.8908277509817437,2.683300495147705 5000,tensor(17.9844),2.889506740356559,2.5590286254882812 5500,tensor(17.6953),2.8732976900107823,2.92236065864563 5614,tensor(17.8995),2.884773777492011,2.635545253753662 6000,tensor(17.8156),2.8800762188968374,3.0371944904327393 6416,tensor(18.1821),2.9004396787330284,2.3266353607177734