|
global_step,perplexity,eval_loss,train_loss |
|
33469,tensor(495.9851),6.20654563341468,5.897248268127441 |
|
66938,tensor(168.4102),5.126402866097105,4.590975284576416 |
|
70000,tensor(80.6666),4.390325209321234,3.7873992919921875 |
|
100407,tensor(21.6076),3.0730473043666247,2.3850345611572266 |
|
133876,tensor(15.5963),2.7470345135873617,2.2173330783843994 |
|
140000,tensor(15.0608),2.7120934600355313,2.068357467651367 |
|
167345,tensor(13.4429),2.598450262515426,2.157835006713867 |
|
200814,tensor(12.2196),2.503041290542594,1.883992314338684 |
|
210000,tensor(11.8532),2.4726015753277033,1.8340803384780884 |
|
234283,tensor(11.3319),2.4276199680327677,1.8948110342025757 |
|
267752,tensor(10.7101),2.3711857266360403,1.6326630115509033 |
|
280000,tensor(10.5675),2.3577842654497396,1.7336448431015015 |
|
301221,tensor(10.3335),2.335391764582615,2.0111379623413086 |
|
334690,tensor(9.9195),2.2945015443270194,1.8034934997558594 |
|
350000,tensor(9.7949),2.2818656015246312,1.4923876523971558 |
|
368159,tensor(9.6421),2.2661435398259218,1.703298807144165 |
|
401628,tensor(9.3831),2.238909857998498,1.773614764213562 |
|
420000,tensor(9.2530),2.224950270643552,1.617546796798706 |
|
435097,tensor(9.1846),2.217525634185423,1.5115395784378052 |
|
468566,tensor(8.9720),2.194107189911353,1.1986712217330933 |
|
490000,tensor(8.8782),2.1836008869576076,1.4819477796554565 |
|
502035,tensor(8.8325),2.1784429578691245,1.4174996614456177 |
|
535504,tensor(8.6801),2.161031563812664,1.6201128959655762 |
|
560000,tensor(8.5960),2.151301508107699,1.6956605911254883 |
|
568973,tensor(8.5537),2.146366256599325,1.7156400680541992 |
|
602442,tensor(8.4695),2.1364745169431476,1.6572712659835815 |
|
630000,tensor(8.4023),2.128499818847858,1.428807258605957 |
|
635911,tensor(8.3994),2.1281595396903357,1.6430681943893433 |
|
669380,tensor(8.3442),2.1215673249634412,1.7592811584472656 |
|
|