|
global_step,perplexity,eval_loss,train_loss |
|
500,tensor(25.1785),3.2259899893803383,3.6148972511291504 |
|
802,tensor(22.6947),3.1221308005389883,3.169919490814209 |
|
1000,tensor(22.7527),3.1246853328462856,3.259542226791382 |
|
1500,tensor(21.0915),3.048868253159879,3.178443670272827 |
|
1604,tensor(21.8677),3.0850108301461634,2.92553448677063 |
|
2000,tensor(20.7868),3.0343171469311216,3.652672529220581 |
|
2406,tensor(21.0332),3.0461017578395446,3.4821979999542236 |
|
2500,tensor(19.8329),2.9873445879167586,2.780447244644165 |
|
3000,tensor(20.1747),3.004430653443977,3.060286045074463 |
|
3208,tensor(18.9665),2.9426718407602452,2.771437644958496 |
|
3500,tensor(18.8871),2.938477090045587,3.5695018768310547 |
|
4000,tensor(18.9398),2.941264520830183,2.701347827911377 |
|
4010,tensor(18.8755),2.9378651843142154,2.8873403072357178 |
|
4500,tensor(18.4492),2.9150228042211106,2.8361315727233887 |
|
4812,tensor(18.0082),2.8908277509817437,2.683300495147705 |
|
5000,tensor(17.9844),2.889506740356559,2.5590286254882812 |
|
5500,tensor(17.6953),2.8732976900107823,2.92236065864563 |
|
5614,tensor(17.8995),2.884773777492011,2.635545253753662 |
|
6000,tensor(17.8156),2.8800762188968374,3.0371944904327393 |
|
6416,tensor(18.1821),2.9004396787330284,2.3266353607177734 |
|
|