global_step,perplexity,eval_loss,train_loss
500,tensor(25.1785),3.2259899893803383,3.6148972511291504
802,tensor(22.6947),3.1221308005389883,3.169919490814209
1000,tensor(22.7527),3.1246853328462856,3.259542226791382
1500,tensor(21.0915),3.048868253159879,3.178443670272827
1604,tensor(21.8677),3.0850108301461634,2.92553448677063
2000,tensor(20.7868),3.0343171469311216,3.652672529220581
2406,tensor(21.0332),3.0461017578395446,3.4821979999542236
2500,tensor(19.8329),2.9873445879167586,2.780447244644165
3000,tensor(20.1747),3.004430653443977,3.060286045074463
3208,tensor(18.9665),2.9426718407602452,2.771437644958496
3500,tensor(18.8871),2.938477090045587,3.5695018768310547
4000,tensor(18.9398),2.941264520830183,2.701347827911377
4010,tensor(18.8755),2.9378651843142154,2.8873403072357178
4500,tensor(18.4492),2.9150228042211106,2.8361315727233887
4812,tensor(18.0082),2.8908277509817437,2.683300495147705
5000,tensor(17.9844),2.889506740356559,2.5590286254882812
5500,tensor(17.6953),2.8732976900107823,2.92236065864563
5614,tensor(17.8995),2.884773777492011,2.635545253753662
6000,tensor(17.8156),2.8800762188968374,3.0371944904327393
6416,tensor(18.1821),2.9004396787330284,2.3266353607177734