global_step,perplexity,eval_loss,train_loss 33469,tensor(495.9851),6.20654563341468,5.897248268127441 66938,tensor(168.4102),5.126402866097105,4.590975284576416 70000,tensor(80.6666),4.390325209321234,3.7873992919921875 100407,tensor(21.6076),3.0730473043666247,2.3850345611572266 133876,tensor(15.5963),2.7470345135873617,2.2173330783843994 140000,tensor(15.0608),2.7120934600355313,2.068357467651367 167345,tensor(13.4429),2.598450262515426,2.157835006713867 200814,tensor(12.2196),2.503041290542594,1.883992314338684 210000,tensor(11.8532),2.4726015753277033,1.8340803384780884 234283,tensor(11.3319),2.4276199680327677,1.8948110342025757 267752,tensor(10.7101),2.3711857266360403,1.6326630115509033 280000,tensor(10.5675),2.3577842654497396,1.7336448431015015 301221,tensor(10.3335),2.335391764582615,2.0111379623413086 334690,tensor(9.9195),2.2945015443270194,1.8034934997558594 350000,tensor(9.7949),2.2818656015246312,1.4923876523971558 368159,tensor(9.6421),2.2661435398259218,1.703298807144165 401628,tensor(9.3831),2.238909857998498,1.773614764213562 420000,tensor(9.2530),2.224950270643552,1.617546796798706 435097,tensor(9.1846),2.217525634185423,1.5115395784378052 468566,tensor(8.9720),2.194107189911353,1.1986712217330933 490000,tensor(8.8782),2.1836008869576076,1.4819477796554565 502035,tensor(8.8325),2.1784429578691245,1.4174996614456177 535504,tensor(8.6801),2.161031563812664,1.6201128959655762 560000,tensor(8.5960),2.151301508107699,1.6956605911254883 568973,tensor(8.5537),2.146366256599325,1.7156400680541992 602442,tensor(8.4695),2.1364745169431476,1.6572712659835815 630000,tensor(8.4023),2.128499818847858,1.428807258605957 635911,tensor(8.3994),2.1281595396903357,1.6430681943893433 669380,tensor(8.3442),2.1215673249634412,1.7592811584472656