Saving weights and logs of epoch 1 - step 2307

83d5832 over 2 years ago

No virus

23.7 kB

	Epoch... (1/30 \| Step: 10 \| Loss: 3.4405534267425537, Learning Rate: 2.999609750986565e-05)
	Epoch... (1/30 \| Step: 20 \| Loss: 3.218325614929199, Learning Rate: 2.9991762858117e-05)
	Epoch... (1/30 \| Step: 30 \| Loss: 3.1018149852752686, Learning Rate: 2.998742820636835e-05)
	Epoch... (1/30 \| Step: 40 \| Loss: 3.022020101547241, Learning Rate: 2.99830935546197e-05)
	Epoch... (1/30 \| Step: 50 \| Loss: 2.981201648712158, Learning Rate: 2.997875890287105e-05)
	Epoch... (1/30 \| Step: 60 \| Loss: 2.8424253463745117, Learning Rate: 2.9974426070111804e-05)
	Epoch... (1/30 \| Step: 70 \| Loss: 2.907778263092041, Learning Rate: 2.9970091418363154e-05)
	Epoch... (1/30 \| Step: 80 \| Loss: 2.7866015434265137, Learning Rate: 2.9965756766614504e-05)
	Epoch... (1/30 \| Step: 90 \| Loss: 2.8242785930633545, Learning Rate: 2.996142029587645e-05)
	Epoch... (1/30 \| Step: 100 \| Loss: 2.706552028656006, Learning Rate: 2.99570856441278e-05)
	Epoch... (1/30 \| Step: 110 \| Loss: 2.611888885498047, Learning Rate: 2.995275099237915e-05)
	Epoch... (1/30 \| Step: 120 \| Loss: 2.595040798187256, Learning Rate: 2.99484163406305e-05)
	Epoch... (1/30 \| Step: 130 \| Loss: 2.6346092224121094, Learning Rate: 2.9944081688881852e-05)
	Epoch... (1/30 \| Step: 140 \| Loss: 2.608229160308838, Learning Rate: 2.9939747037133202e-05)
	Epoch... (1/30 \| Step: 150 \| Loss: 2.628932476043701, Learning Rate: 2.9935414204373956e-05)
	Epoch... (1/30 \| Step: 160 \| Loss: 2.4869046211242676, Learning Rate: 2.9931079552625306e-05)
	Epoch... (1/30 \| Step: 170 \| Loss: 2.5518672466278076, Learning Rate: 2.9926744900876656e-05)
	Epoch... (1/30 \| Step: 180 \| Loss: 2.475501298904419, Learning Rate: 2.9922410249128006e-05)
	Epoch... (1/30 \| Step: 190 \| Loss: 2.7231974601745605, Learning Rate: 2.9918073778389953e-05)
	Epoch... (1/30 \| Step: 200 \| Loss: 2.500187873840332, Learning Rate: 2.9913739126641303e-05)
	Epoch... (1/30 \| Step: 210 \| Loss: 2.5470097064971924, Learning Rate: 2.9909404474892654e-05)
	Epoch... (1/30 \| Step: 220 \| Loss: 2.3819117546081543, Learning Rate: 2.9905069823144004e-05)
	Epoch... (1/30 \| Step: 230 \| Loss: 2.5723557472229004, Learning Rate: 2.9900735171395354e-05)
	Epoch... (1/30 \| Step: 240 \| Loss: 2.440537929534912, Learning Rate: 2.9896402338636108e-05)
	Epoch... (1/30 \| Step: 250 \| Loss: 2.559695243835449, Learning Rate: 2.9892067686887458e-05)
	Epoch... (1/30 \| Step: 260 \| Loss: 2.5182833671569824, Learning Rate: 2.9887733035138808e-05)
	Epoch... (1/30 \| Step: 270 \| Loss: 2.405858039855957, Learning Rate: 2.988339838339016e-05)
	Epoch... (1/30 \| Step: 280 \| Loss: 2.4234917163848877, Learning Rate: 2.987906373164151e-05)
	Epoch... (1/30 \| Step: 290 \| Loss: 2.36462140083313, Learning Rate: 2.9874727260903455e-05)
	Epoch... (1/30 \| Step: 300 \| Loss: 2.4654769897460938, Learning Rate: 2.9870392609154806e-05)
	Epoch... (1/30 \| Step: 300 \| Loss: 2.4654769897460938, Learning Rate: 2.9870392609154806e-05)
	Epoch... (1/30 \| Step: 300 \| Eval Loss: 2.3369832038879395 \| Eval rouge1: 36.6481 \| Eval rouge2: 12.0172 \| Eval rougeL: 33.4031 \| Eval rougeLsum: 33.4031 \| Eval gen_len: 10.6758 \|)
	Epoch... (1/30 \| Step: 310 \| Loss: 2.2441658973693848, Learning Rate: 2.9866057957406156e-05)
	Epoch... (1/30 \| Step: 320 \| Loss: 2.381657361984253, Learning Rate: 2.986172512464691e-05)
	Epoch... (1/30 \| Step: 330 \| Loss: 2.39951753616333, Learning Rate: 2.985739047289826e-05)
	Epoch... (1/30 \| Step: 340 \| Loss: 2.4004015922546387, Learning Rate: 2.985305582114961e-05)
	Epoch... (1/30 \| Step: 350 \| Loss: 2.3319690227508545, Learning Rate: 2.984872116940096e-05)
	Epoch... (1/30 \| Step: 360 \| Loss: 2.3237192630767822, Learning Rate: 2.984438651765231e-05)
	Epoch... (1/30 \| Step: 370 \| Loss: 2.381218671798706, Learning Rate: 2.984005186590366e-05)
	Epoch... (1/30 \| Step: 380 \| Loss: 2.309722900390625, Learning Rate: 2.9835715395165607e-05)
	Epoch... (1/30 \| Step: 390 \| Loss: 2.3941807746887207, Learning Rate: 2.9831380743416958e-05)
	Epoch... (1/30 \| Step: 400 \| Loss: 2.3451006412506104, Learning Rate: 2.9827046091668308e-05)
	Epoch... (1/30 \| Step: 410 \| Loss: 2.278620719909668, Learning Rate: 2.982271325890906e-05)
	Epoch... (1/30 \| Step: 420 \| Loss: 2.258894920349121, Learning Rate: 2.9818378607160412e-05)
	Epoch... (1/30 \| Step: 430 \| Loss: 2.334801197052002, Learning Rate: 2.9814043955411762e-05)
	Epoch... (1/30 \| Step: 440 \| Loss: 2.358175754547119, Learning Rate: 2.9809709303663112e-05)
	Epoch... (1/30 \| Step: 450 \| Loss: 2.342679977416992, Learning Rate: 2.9805374651914462e-05)
	Epoch... (1/30 \| Step: 460 \| Loss: 2.3427581787109375, Learning Rate: 2.9801040000165813e-05)
	Epoch... (1/30 \| Step: 470 \| Loss: 2.2662670612335205, Learning Rate: 2.9796705348417163e-05)
	Epoch... (1/30 \| Step: 480 \| Loss: 2.3363449573516846, Learning Rate: 2.979236887767911e-05)
	Epoch... (1/30 \| Step: 490 \| Loss: 2.3524205684661865, Learning Rate: 2.978803422593046e-05)
	Epoch... (1/30 \| Step: 500 \| Loss: 2.33699369430542, Learning Rate: 2.9783701393171214e-05)
	Epoch... (1/30 \| Step: 510 \| Loss: 2.254800319671631, Learning Rate: 2.9779366741422564e-05)
	Epoch... (1/30 \| Step: 520 \| Loss: 2.2564821243286133, Learning Rate: 2.9775032089673914e-05)
	Epoch... (1/30 \| Step: 530 \| Loss: 2.312403678894043, Learning Rate: 2.9770697437925264e-05)
	Epoch... (1/30 \| Step: 540 \| Loss: 2.361353874206543, Learning Rate: 2.9766362786176614e-05)
	Epoch... (1/30 \| Step: 550 \| Loss: 2.231563091278076, Learning Rate: 2.9762028134427965e-05)
	Epoch... (1/30 \| Step: 560 \| Loss: 2.23984956741333, Learning Rate: 2.9757693482679315e-05)
	Epoch... (1/30 \| Step: 570 \| Loss: 2.294980049133301, Learning Rate: 2.9753358830930665e-05)
	Epoch... (1/30 \| Step: 580 \| Loss: 2.234550952911377, Learning Rate: 2.9749022360192612e-05)
	Epoch... (1/30 \| Step: 590 \| Loss: 2.2543816566467285, Learning Rate: 2.9744689527433366e-05)
	Epoch... (1/30 \| Step: 600 \| Loss: 2.249704360961914, Learning Rate: 2.9740354875684716e-05)
	Epoch... (1/30 \| Step: 600 \| Loss: 2.249704360961914, Learning Rate: 2.9740354875684716e-05)
	Epoch... (1/30 \| Step: 600 \| Eval Loss: 2.2133584022521973 \| Eval rouge1: 38.2794 \| Eval rouge2: 13.1501 \| Eval rougeL: 34.8961 \| Eval rougeLsum: 34.8948 \| Eval gen_len: 11.0128 \|)
	Epoch... (1/30 \| Step: 610 \| Loss: 2.2616004943847656, Learning Rate: 2.9736020223936066e-05)
	Epoch... (1/30 \| Step: 620 \| Loss: 2.280752658843994, Learning Rate: 2.9731685572187416e-05)
	Epoch... (1/30 \| Step: 630 \| Loss: 2.1695902347564697, Learning Rate: 2.9727350920438766e-05)
	Epoch... (1/30 \| Step: 640 \| Loss: 2.3159074783325195, Learning Rate: 2.9723016268690117e-05)
	Epoch... (1/30 \| Step: 650 \| Loss: 2.2354726791381836, Learning Rate: 2.9718681616941467e-05)
	Epoch... (1/30 \| Step: 660 \| Loss: 2.2967095375061035, Learning Rate: 2.9714346965192817e-05)
	Epoch... (1/30 \| Step: 670 \| Loss: 2.3010551929473877, Learning Rate: 2.9710012313444167e-05)
	Epoch... (1/30 \| Step: 680 \| Loss: 2.292668342590332, Learning Rate: 2.9705677661695518e-05)
	Epoch... (1/30 \| Step: 690 \| Loss: 2.195081949234009, Learning Rate: 2.9701343009946868e-05)
	Epoch... (1/30 \| Step: 700 \| Loss: 2.296633720397949, Learning Rate: 2.9697008358198218e-05)
	Epoch... (1/30 \| Step: 710 \| Loss: 2.149764060974121, Learning Rate: 2.9692673706449568e-05)
	Epoch... (1/30 \| Step: 720 \| Loss: 2.2461729049682617, Learning Rate: 2.968833905470092e-05)
	Epoch... (1/30 \| Step: 730 \| Loss: 2.2976291179656982, Learning Rate: 2.968400440295227e-05)
	Epoch... (1/30 \| Step: 740 \| Loss: 2.2700982093811035, Learning Rate: 2.967966975120362e-05)
	Epoch... (1/30 \| Step: 750 \| Loss: 2.2898383140563965, Learning Rate: 2.967533509945497e-05)
	Epoch... (1/30 \| Step: 760 \| Loss: 2.2785892486572266, Learning Rate: 2.967100044770632e-05)
	Epoch... (1/30 \| Step: 770 \| Loss: 2.1977713108062744, Learning Rate: 2.966666579595767e-05)
	Epoch... (1/30 \| Step: 780 \| Loss: 2.214864730834961, Learning Rate: 2.966233114420902e-05)
	Epoch... (1/30 \| Step: 790 \| Loss: 2.2334184646606445, Learning Rate: 2.965799649246037e-05)
	Epoch... (1/30 \| Step: 800 \| Loss: 2.2037973403930664, Learning Rate: 2.965366184071172e-05)
	Epoch... (1/30 \| Step: 810 \| Loss: 2.174184560775757, Learning Rate: 2.964932718896307e-05)
	Epoch... (1/30 \| Step: 820 \| Loss: 2.2716355323791504, Learning Rate: 2.964499253721442e-05)
	Epoch... (1/30 \| Step: 830 \| Loss: 2.193842887878418, Learning Rate: 2.964065788546577e-05)
	Epoch... (1/30 \| Step: 840 \| Loss: 2.249634265899658, Learning Rate: 2.963632323371712e-05)
	Epoch... (1/30 \| Step: 850 \| Loss: 2.237217426300049, Learning Rate: 2.963198858196847e-05)
	Epoch... (1/30 \| Step: 860 \| Loss: 2.172455310821533, Learning Rate: 2.9627655749209225e-05)
	Epoch... (1/30 \| Step: 870 \| Loss: 2.05983829498291, Learning Rate: 2.9623319278471172e-05)
	Epoch... (1/30 \| Step: 880 \| Loss: 2.3632073402404785, Learning Rate: 2.9618984626722522e-05)
	Epoch... (1/30 \| Step: 890 \| Loss: 2.254265785217285, Learning Rate: 2.9614649974973872e-05)
	Epoch... (1/30 \| Step: 900 \| Loss: 2.2401223182678223, Learning Rate: 2.9610315323225223e-05)
	Epoch... (1/30 \| Step: 900 \| Loss: 2.2401223182678223, Learning Rate: 2.9610315323225223e-05)
	Epoch... (1/30 \| Step: 900 \| Eval Loss: 2.152062177658081 \| Eval rouge1: 39.5335 \| Eval rouge2: 14.3557 \| Eval rougeL: 35.8974 \| Eval rougeLsum: 35.9057 \| Eval gen_len: 10.8698 \|)
	Epoch... (1/30 \| Step: 910 \| Loss: 2.145946979522705, Learning Rate: 2.9605980671476573e-05)
	Epoch... (1/30 \| Step: 920 \| Loss: 2.0916032791137695, Learning Rate: 2.9601646019727923e-05)
	Epoch... (1/30 \| Step: 930 \| Loss: 2.1092920303344727, Learning Rate: 2.9597311367979273e-05)
	Epoch... (1/30 \| Step: 940 \| Loss: 2.2093448638916016, Learning Rate: 2.9592976716230623e-05)
	Epoch... (1/30 \| Step: 950 \| Loss: 2.1340670585632324, Learning Rate: 2.9588643883471377e-05)
	Epoch... (1/30 \| Step: 960 \| Loss: 2.104341506958008, Learning Rate: 2.9584309231722727e-05)
	Epoch... (1/30 \| Step: 970 \| Loss: 2.1689233779907227, Learning Rate: 2.9579972760984674e-05)
	Epoch... (1/30 \| Step: 980 \| Loss: 2.1623427867889404, Learning Rate: 2.9575638109236024e-05)
	Epoch... (1/30 \| Step: 990 \| Loss: 2.050921678543091, Learning Rate: 2.9571303457487375e-05)
	Epoch... (1/30 \| Step: 1000 \| Loss: 2.2413523197174072, Learning Rate: 2.9566968805738725e-05)
	Epoch... (1/30 \| Step: 1010 \| Loss: 2.143608570098877, Learning Rate: 2.9562634153990075e-05)
	Epoch... (1/30 \| Step: 1020 \| Loss: 2.1761255264282227, Learning Rate: 2.9558299502241425e-05)
	Epoch... (1/30 \| Step: 1030 \| Loss: 2.2119503021240234, Learning Rate: 2.955396666948218e-05)
	Epoch... (1/30 \| Step: 1040 \| Loss: 2.071683645248413, Learning Rate: 2.954963201773353e-05)
	Epoch... (1/30 \| Step: 1050 \| Loss: 2.2042810916900635, Learning Rate: 2.954529736598488e-05)
	Epoch... (1/30 \| Step: 1060 \| Loss: 2.1775331497192383, Learning Rate: 2.954096271423623e-05)
	Epoch... (1/30 \| Step: 1070 \| Loss: 2.0984702110290527, Learning Rate: 2.9536626243498176e-05)
	Epoch... (1/30 \| Step: 1080 \| Loss: 2.1763856410980225, Learning Rate: 2.9532291591749527e-05)
	Epoch... (1/30 \| Step: 1090 \| Loss: 2.2860050201416016, Learning Rate: 2.9527956940000877e-05)
	Epoch... (1/30 \| Step: 1100 \| Loss: 2.125678062438965, Learning Rate: 2.9523622288252227e-05)
	Epoch... (1/30 \| Step: 1110 \| Loss: 2.127748727798462, Learning Rate: 2.9519287636503577e-05)
	Epoch... (1/30 \| Step: 1120 \| Loss: 2.092984199523926, Learning Rate: 2.951495480374433e-05)
	Epoch... (1/30 \| Step: 1130 \| Loss: 2.1310806274414062, Learning Rate: 2.951062015199568e-05)
	Epoch... (1/30 \| Step: 1140 \| Loss: 2.1979918479919434, Learning Rate: 2.950628550024703e-05)
	Epoch... (1/30 \| Step: 1150 \| Loss: 2.229048013687134, Learning Rate: 2.950195084849838e-05)
	Epoch... (1/30 \| Step: 1160 \| Loss: 2.143617630004883, Learning Rate: 2.949761437776033e-05)
	Epoch... (1/30 \| Step: 1170 \| Loss: 2.162456750869751, Learning Rate: 2.949327972601168e-05)
	Epoch... (1/30 \| Step: 1180 \| Loss: 2.1484286785125732, Learning Rate: 2.948894507426303e-05)
	Epoch... (1/30 \| Step: 1190 \| Loss: 2.19675350189209, Learning Rate: 2.948461042251438e-05)
	Epoch... (1/30 \| Step: 1200 \| Loss: 2.069185972213745, Learning Rate: 2.948027577076573e-05)
	Epoch... (1/30 \| Step: 1200 \| Loss: 2.069185972213745, Learning Rate: 2.948027577076573e-05)
	Epoch... (1/30 \| Step: 1200 \| Eval Loss: 2.118244171142578 \| Eval rouge1: 39.626 \| Eval rouge2: 14.2226 \| Eval rougeL: 36.0901 \| Eval rougeLsum: 36.0902 \| Eval gen_len: 10.9209 \|)
	Epoch... (1/30 \| Step: 1210 \| Loss: 2.143256664276123, Learning Rate: 2.9475942938006483e-05)
	Epoch... (1/30 \| Step: 1220 \| Loss: 2.1436400413513184, Learning Rate: 2.9471608286257833e-05)
	Epoch... (1/30 \| Step: 1230 \| Loss: 2.2154154777526855, Learning Rate: 2.9467273634509183e-05)
	Epoch... (1/30 \| Step: 1240 \| Loss: 2.1441659927368164, Learning Rate: 2.9462938982760534e-05)
	Epoch... (1/30 \| Step: 1250 \| Loss: 2.174199104309082, Learning Rate: 2.9458604331011884e-05)
	Epoch... (1/30 \| Step: 1260 \| Loss: 2.1268279552459717, Learning Rate: 2.945426786027383e-05)
	Epoch... (1/30 \| Step: 1270 \| Loss: 2.126941204071045, Learning Rate: 2.944993320852518e-05)
	Epoch... (1/30 \| Step: 1280 \| Loss: 2.119166612625122, Learning Rate: 2.944559855677653e-05)
	Epoch... (1/30 \| Step: 1290 \| Loss: 2.2846920490264893, Learning Rate: 2.944126390502788e-05)
	Epoch... (1/30 \| Step: 1300 \| Loss: 2.1685166358947754, Learning Rate: 2.9436931072268635e-05)
	Epoch... (1/30 \| Step: 1310 \| Loss: 2.151987314224243, Learning Rate: 2.9432596420519985e-05)
	Epoch... (1/30 \| Step: 1320 \| Loss: 2.103717565536499, Learning Rate: 2.9428261768771335e-05)
	Epoch... (1/30 \| Step: 1330 \| Loss: 2.155966281890869, Learning Rate: 2.9423927117022686e-05)
	Epoch... (1/30 \| Step: 1340 \| Loss: 2.1677801609039307, Learning Rate: 2.9419592465274036e-05)
	Epoch... (1/30 \| Step: 1350 \| Loss: 2.143979549407959, Learning Rate: 2.9415255994535983e-05)
	Epoch... (1/30 \| Step: 1360 \| Loss: 2.229569911956787, Learning Rate: 2.9410921342787333e-05)
	Epoch... (1/30 \| Step: 1370 \| Loss: 2.0859322547912598, Learning Rate: 2.9406586691038683e-05)
	Epoch... (1/30 \| Step: 1380 \| Loss: 2.2380738258361816, Learning Rate: 2.9402252039290033e-05)
	Epoch... (1/30 \| Step: 1390 \| Loss: 2.10669207572937, Learning Rate: 2.9397919206530787e-05)
	Epoch... (1/30 \| Step: 1400 \| Loss: 2.1286675930023193, Learning Rate: 2.9393584554782137e-05)
	Epoch... (1/30 \| Step: 1410 \| Loss: 2.140237331390381, Learning Rate: 2.9389249903033487e-05)
	Epoch... (1/30 \| Step: 1420 \| Loss: 2.081178665161133, Learning Rate: 2.9384915251284838e-05)
	Epoch... (1/30 \| Step: 1430 \| Loss: 2.0578155517578125, Learning Rate: 2.9380580599536188e-05)
	Epoch... (1/30 \| Step: 1440 \| Loss: 2.082831859588623, Learning Rate: 2.9376245947787538e-05)
	Epoch... (1/30 \| Step: 1450 \| Loss: 2.1357812881469727, Learning Rate: 2.937191129603889e-05)
	Epoch... (1/30 \| Step: 1460 \| Loss: 2.164750576019287, Learning Rate: 2.9367574825300835e-05)
	Epoch... (1/30 \| Step: 1470 \| Loss: 2.0534393787384033, Learning Rate: 2.9363240173552185e-05)
	Epoch... (1/30 \| Step: 1480 \| Loss: 2.1811447143554688, Learning Rate: 2.935890734079294e-05)
	Epoch... (1/30 \| Step: 1490 \| Loss: 2.1194841861724854, Learning Rate: 2.935457268904429e-05)
	Epoch... (1/30 \| Step: 1500 \| Loss: 2.0982208251953125, Learning Rate: 2.935023803729564e-05)
	Epoch... (1/30 \| Step: 1500 \| Loss: 2.0982208251953125, Learning Rate: 2.935023803729564e-05)
	Epoch... (1/30 \| Step: 1500 \| Eval Loss: 2.087283134460449 \| Eval rouge1: 39.7247 \| Eval rouge2: 14.3773 \| Eval rougeL: 36.2126 \| Eval rougeLsum: 36.2124 \| Eval gen_len: 10.922 \|)
	Epoch... (1/30 \| Step: 1510 \| Loss: 2.0628573894500732, Learning Rate: 2.934590338554699e-05)
	Epoch... (1/30 \| Step: 1520 \| Loss: 2.0424842834472656, Learning Rate: 2.934156873379834e-05)
	Epoch... (1/30 \| Step: 1530 \| Loss: 2.157275676727295, Learning Rate: 2.933723408204969e-05)
	Epoch... (1/30 \| Step: 1540 \| Loss: 2.1352427005767822, Learning Rate: 2.933289943030104e-05)
	Epoch... (1/30 \| Step: 1550 \| Loss: 2.1653575897216797, Learning Rate: 2.9328562959562987e-05)
	Epoch... (1/30 \| Step: 1560 \| Loss: 2.0672290325164795, Learning Rate: 2.9324228307814337e-05)
	Epoch... (1/30 \| Step: 1570 \| Loss: 2.097109794616699, Learning Rate: 2.931989547505509e-05)
	Epoch... (1/30 \| Step: 1580 \| Loss: 2.087357997894287, Learning Rate: 2.931556082330644e-05)
	Epoch... (1/30 \| Step: 1590 \| Loss: 2.1381149291992188, Learning Rate: 2.931122617155779e-05)
	Epoch... (1/30 \| Step: 1600 \| Loss: 2.1855034828186035, Learning Rate: 2.9306891519809142e-05)
	Epoch... (1/30 \| Step: 1610 \| Loss: 2.183502674102783, Learning Rate: 2.9302556868060492e-05)
	Epoch... (1/30 \| Step: 1620 \| Loss: 2.1278882026672363, Learning Rate: 2.9298222216311842e-05)
	Epoch... (1/30 \| Step: 1630 \| Loss: 2.086331605911255, Learning Rate: 2.9293887564563192e-05)
	Epoch... (1/30 \| Step: 1640 \| Loss: 2.0485429763793945, Learning Rate: 2.9289552912814543e-05)
	Epoch... (1/30 \| Step: 1650 \| Loss: 2.0960192680358887, Learning Rate: 2.9285218261065893e-05)
	Epoch... (1/30 \| Step: 1660 \| Loss: 2.078531265258789, Learning Rate: 2.9280883609317243e-05)
	Epoch... (1/30 \| Step: 1670 \| Loss: 2.1528992652893066, Learning Rate: 2.9276548957568593e-05)
	Epoch... (1/30 \| Step: 1680 \| Loss: 2.044875144958496, Learning Rate: 2.9272214305819944e-05)
	Epoch... (1/30 \| Step: 1690 \| Loss: 2.1002728939056396, Learning Rate: 2.9267879654071294e-05)
	Epoch... (1/30 \| Step: 1700 \| Loss: 2.0666818618774414, Learning Rate: 2.9263545002322644e-05)
	Epoch... (1/30 \| Step: 1710 \| Loss: 2.076720714569092, Learning Rate: 2.9259210350573994e-05)
	Epoch... (1/30 \| Step: 1720 \| Loss: 2.0573716163635254, Learning Rate: 2.9254875698825344e-05)
	Epoch... (1/30 \| Step: 1730 \| Loss: 2.0897603034973145, Learning Rate: 2.9250541047076695e-05)
	Epoch... (1/30 \| Step: 1740 \| Loss: 2.141058921813965, Learning Rate: 2.9246206395328045e-05)
	Epoch... (1/30 \| Step: 1750 \| Loss: 2.1023364067077637, Learning Rate: 2.9241871743579395e-05)
	Epoch... (1/30 \| Step: 1760 \| Loss: 2.1418118476867676, Learning Rate: 2.9237537091830745e-05)
	Epoch... (1/30 \| Step: 1770 \| Loss: 2.246041774749756, Learning Rate: 2.9233202440082096e-05)
	Epoch... (1/30 \| Step: 1780 \| Loss: 2.1305742263793945, Learning Rate: 2.9228867788333446e-05)
	Epoch... (1/30 \| Step: 1790 \| Loss: 2.1510705947875977, Learning Rate: 2.9224533136584796e-05)
	Epoch... (1/30 \| Step: 1800 \| Loss: 2.2788705825805664, Learning Rate: 2.9220198484836146e-05)
	Epoch... (1/30 \| Step: 1800 \| Loss: 2.2788705825805664, Learning Rate: 2.9220198484836146e-05)
	Epoch... (1/30 \| Step: 1800 \| Eval Loss: 2.0597662925720215 \| Eval rouge1: 40.5653 \| Eval rouge2: 15.0792 \| Eval rougeL: 36.9261 \| Eval rougeLsum: 36.9178 \| Eval gen_len: 10.8504 \|)
	Epoch... (1/30 \| Step: 1810 \| Loss: 2.1530094146728516, Learning Rate: 2.9215863833087496e-05)
	Epoch... (1/30 \| Step: 1820 \| Loss: 2.216090679168701, Learning Rate: 2.9211529181338847e-05)
	Epoch... (1/30 \| Step: 1830 \| Loss: 2.138352155685425, Learning Rate: 2.92071963485796e-05)
	Epoch... (1/30 \| Step: 1840 \| Loss: 2.0977377891540527, Learning Rate: 2.9202859877841547e-05)
	Epoch... (1/30 \| Step: 1850 \| Loss: 2.1130166053771973, Learning Rate: 2.9198525226092897e-05)
	Epoch... (1/30 \| Step: 1860 \| Loss: 1.9936583042144775, Learning Rate: 2.9194190574344248e-05)
	Epoch... (1/30 \| Step: 1870 \| Loss: 2.0906026363372803, Learning Rate: 2.9189855922595598e-05)
	Epoch... (1/30 \| Step: 1880 \| Loss: 2.1219160556793213, Learning Rate: 2.9185521270846948e-05)
	Epoch... (1/30 \| Step: 1890 \| Loss: 2.136955738067627, Learning Rate: 2.9181186619098298e-05)
	Epoch... (1/30 \| Step: 1900 \| Loss: 2.098308563232422, Learning Rate: 2.917685196734965e-05)
	Epoch... (1/30 \| Step: 1910 \| Loss: 2.095719337463379, Learning Rate: 2.9172517315601e-05)
	Epoch... (1/30 \| Step: 1920 \| Loss: 2.089087724685669, Learning Rate: 2.9168184482841752e-05)
	Epoch... (1/30 \| Step: 1930 \| Loss: 2.167004346847534, Learning Rate: 2.9163849831093103e-05)
	Epoch... (1/30 \| Step: 1940 \| Loss: 1.9983344078063965, Learning Rate: 2.915951336035505e-05)
	Epoch... (1/30 \| Step: 1950 \| Loss: 2.1173758506774902, Learning Rate: 2.91551787086064e-05)
	Epoch... (1/30 \| Step: 1960 \| Loss: 2.0237390995025635, Learning Rate: 2.915084405685775e-05)
	Epoch... (1/30 \| Step: 1970 \| Loss: 2.0724878311157227, Learning Rate: 2.91465094051091e-05)
	Epoch... (1/30 \| Step: 1980 \| Loss: 2.0563502311706543, Learning Rate: 2.914217475336045e-05)
	Epoch... (1/30 \| Step: 1990 \| Loss: 2.088345527648926, Learning Rate: 2.91378401016118e-05)
	Epoch... (1/30 \| Step: 2000 \| Loss: 2.14585542678833, Learning Rate: 2.913350544986315e-05)
	Epoch... (1/30 \| Step: 2010 \| Loss: 2.0599942207336426, Learning Rate: 2.9129172617103904e-05)
	Epoch... (1/30 \| Step: 2020 \| Loss: 2.049421787261963, Learning Rate: 2.9124837965355255e-05)
	Epoch... (1/30 \| Step: 2030 \| Loss: 2.032505989074707, Learning Rate: 2.9120503313606605e-05)
	Epoch... (1/30 \| Step: 2040 \| Loss: 2.1009111404418945, Learning Rate: 2.911616684286855e-05)
	Epoch... (1/30 \| Step: 2050 \| Loss: 2.0961179733276367, Learning Rate: 2.9111832191119902e-05)
	Epoch... (1/30 \| Step: 2060 \| Loss: 2.0474748611450195, Learning Rate: 2.9107497539371252e-05)
	Epoch... (1/30 \| Step: 2070 \| Loss: 2.1285176277160645, Learning Rate: 2.9103162887622602e-05)
	Epoch... (1/30 \| Step: 2080 \| Loss: 2.0173821449279785, Learning Rate: 2.9098828235873953e-05)
	Epoch... (1/30 \| Step: 2090 \| Loss: 2.1344692707061768, Learning Rate: 2.9094493584125303e-05)
	Epoch... (1/30 \| Step: 2100 \| Loss: 2.0788259506225586, Learning Rate: 2.9090160751366057e-05)
	Epoch... (1/30 \| Step: 2100 \| Loss: 2.0788259506225586, Learning Rate: 2.9090160751366057e-05)
	Epoch... (1/30 \| Step: 2100 \| Eval Loss: 2.037459373474121 \| Eval rouge1: 40.5198 \| Eval rouge2: 15.162 \| Eval rougeL: 36.9107 \| Eval rougeLsum: 36.9123 \| Eval gen_len: 10.8398 \|)
	Epoch... (1/30 \| Step: 2110 \| Loss: 2.0843522548675537, Learning Rate: 2.9085826099617407e-05)
	Epoch... (1/30 \| Step: 2120 \| Loss: 2.0523273944854736, Learning Rate: 2.9081491447868757e-05)
	Epoch... (1/30 \| Step: 2130 \| Loss: 2.0692148208618164, Learning Rate: 2.9077154977130704e-05)
	Epoch... (1/30 \| Step: 2140 \| Loss: 2.0720198154449463, Learning Rate: 2.9072820325382054e-05)
	Epoch... (1/30 \| Step: 2150 \| Loss: 2.018003463745117, Learning Rate: 2.9068485673633404e-05)
	Epoch... (1/30 \| Step: 2160 \| Loss: 2.0908870697021484, Learning Rate: 2.9064151021884754e-05)
	Epoch... (1/30 \| Step: 2170 \| Loss: 1.9835797548294067, Learning Rate: 2.9059816370136105e-05)
	Epoch... (1/30 \| Step: 2180 \| Loss: 2.033381462097168, Learning Rate: 2.9055481718387455e-05)
	Epoch... (1/30 \| Step: 2190 \| Loss: 2.0725207328796387, Learning Rate: 2.905114888562821e-05)
	Epoch... (1/30 \| Step: 2200 \| Loss: 2.0173754692077637, Learning Rate: 2.904681423387956e-05)
	Epoch... (1/30 \| Step: 2210 \| Loss: 2.1233925819396973, Learning Rate: 2.904247958213091e-05)
	Epoch... (1/30 \| Step: 2220 \| Loss: 2.0552401542663574, Learning Rate: 2.903814493038226e-05)
	Epoch... (1/30 \| Step: 2230 \| Loss: 2.046525001525879, Learning Rate: 2.9033808459644206e-05)
	Epoch... (1/30 \| Step: 2240 \| Loss: 2.064979076385498, Learning Rate: 2.9029473807895556e-05)
	Epoch... (1/30 \| Step: 2250 \| Loss: 2.0798213481903076, Learning Rate: 2.9025139156146906e-05)
	Epoch... (1/30 \| Step: 2260 \| Loss: 2.0388433933258057, Learning Rate: 2.9020804504398257e-05)
	Epoch... (1/30 \| Step: 2270 \| Loss: 2.0377979278564453, Learning Rate: 2.901647167163901e-05)
	Epoch... (1/30 \| Step: 2280 \| Loss: 2.0889925956726074, Learning Rate: 2.901213701989036e-05)
	Epoch... (1/30 \| Step: 2290 \| Loss: 2.05222749710083, Learning Rate: 2.900780236814171e-05)
	Epoch... (1/30 \| Step: 2300 \| Loss: 2.033143997192383, Learning Rate: 2.900346771639306e-05)
	Epoch... (1/30 \| Step: 2307 \| Loss: 2.164933443069458, Learning Rate: 2.9000433642067946e-05)
	Epoch... (1/30 \| Step: 2307 \| Eval Loss: 2.0284838676452637 \| Eval rouge1: 40.5299 \| Eval rouge2: 15.057 \| Eval rougeL: 36.9003 \| Eval rougeLsum: 36.8978 \| Eval gen_len: 10.9925 \|)