T5-dialogue-finetuned / checkpoint-3505 /trainer_state.json

Upload folder using huggingface_hub

33ead4c verified 3 months ago

No virus

62.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 8.998716302952504,
	"eval_steps": 500,
	"global_step": 3505,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.025673940949935817,
	"grad_norm": 5121380.5,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 13.9863,
	"step": 10
	},
	{
	"epoch": 0.051347881899871634,
	"grad_norm": 5153433.5,
	"learning_rate": 4.000000000000001e-06,
	"loss": 13.5554,
	"step": 20
	},
	{
	"epoch": 0.07702182284980745,
	"grad_norm": 5378263.0,
	"learning_rate": 6e-06,
	"loss": 12.3429,
	"step": 30
	},
	{
	"epoch": 0.10269576379974327,
	"grad_norm": 5853167.0,
	"learning_rate": 8.000000000000001e-06,
	"loss": 10.9424,
	"step": 40
	},
	{
	"epoch": 0.12836970474967907,
	"grad_norm": 5810211.5,
	"learning_rate": 1e-05,
	"loss": 8.8056,
	"step": 50
	},
	{
	"epoch": 0.1540436456996149,
	"grad_norm": 5421540.5,
	"learning_rate": 1.2e-05,
	"loss": 6.446,
	"step": 60
	},
	{
	"epoch": 0.1797175866495507,
	"grad_norm": 3989913.0,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 4.0088,
	"step": 70
	},
	{
	"epoch": 0.20539152759948653,
	"grad_norm": 1593379.125,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 2.4106,
	"step": 80
	},
	{
	"epoch": 0.23106546854942234,
	"grad_norm": 351223.375,
	"learning_rate": 1.8e-05,
	"loss": 1.5032,
	"step": 90
	},
	{
	"epoch": 0.25673940949935814,
	"grad_norm": 255315.6875,
	"learning_rate": 2e-05,
	"loss": 1.0421,
	"step": 100
	},
	{
	"epoch": 0.28241335044929394,
	"grad_norm": 150451.453125,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 0.6102,
	"step": 110
	},
	{
	"epoch": 0.3080872913992298,
	"grad_norm": 44021.93359375,
	"learning_rate": 2.4e-05,
	"loss": 0.3687,
	"step": 120
	},
	{
	"epoch": 0.3337612323491656,
	"grad_norm": 23825.30078125,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 0.2745,
	"step": 130
	},
	{
	"epoch": 0.3594351732991014,
	"grad_norm": 19372.984375,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 0.233,
	"step": 140
	},
	{
	"epoch": 0.3851091142490372,
	"grad_norm": 19907.76171875,
	"learning_rate": 3e-05,
	"loss": 0.2075,
	"step": 150
	},
	{
	"epoch": 0.41078305519897307,
	"grad_norm": 23577.75390625,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 0.197,
	"step": 160
	},
	{
	"epoch": 0.43645699614890887,
	"grad_norm": 15442.431640625,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 0.1759,
	"step": 170
	},
	{
	"epoch": 0.4621309370988447,
	"grad_norm": 24589.8671875,
	"learning_rate": 3.6e-05,
	"loss": 0.1626,
	"step": 180
	},
	{
	"epoch": 0.4878048780487805,
	"grad_norm": 11427.1728515625,
	"learning_rate": 3.8e-05,
	"loss": 0.1541,
	"step": 190
	},
	{
	"epoch": 0.5134788189987163,
	"grad_norm": 10105.453125,
	"learning_rate": 4e-05,
	"loss": 0.1542,
	"step": 200
	},
	{
	"epoch": 0.5391527599486521,
	"grad_norm": 9209.875,
	"learning_rate": 4.2e-05,
	"loss": 0.1497,
	"step": 210
	},
	{
	"epoch": 0.5648267008985879,
	"grad_norm": 8737.0283203125,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 0.1397,
	"step": 220
	},
	{
	"epoch": 0.5905006418485238,
	"grad_norm": 28856.4609375,
	"learning_rate": 4.600000000000001e-05,
	"loss": 0.1466,
	"step": 230
	},
	{
	"epoch": 0.6161745827984596,
	"grad_norm": 9787.6689453125,
	"learning_rate": 4.8e-05,
	"loss": 0.1358,
	"step": 240
	},
	{
	"epoch": 0.6418485237483954,
	"grad_norm": 6893.62353515625,
	"learning_rate": 5e-05,
	"loss": 0.1265,
	"step": 250
	},
	{
	"epoch": 0.6675224646983312,
	"grad_norm": 14635.2509765625,
	"learning_rate": 5.2000000000000004e-05,
	"loss": 0.1376,
	"step": 260
	},
	{
	"epoch": 0.693196405648267,
	"grad_norm": 7151.79150390625,
	"learning_rate": 5.4000000000000005e-05,
	"loss": 0.1375,
	"step": 270
	},
	{
	"epoch": 0.7188703465982028,
	"grad_norm": 6492.265625,
	"learning_rate": 5.6000000000000006e-05,
	"loss": 0.1271,
	"step": 280
	},
	{
	"epoch": 0.7445442875481386,
	"grad_norm": 6572.00244140625,
	"learning_rate": 5.8e-05,
	"loss": 0.1334,
	"step": 290
	},
	{
	"epoch": 0.7702182284980744,
	"grad_norm": 9629.9423828125,
	"learning_rate": 6e-05,
	"loss": 0.1384,
	"step": 300
	},
	{
	"epoch": 0.7958921694480102,
	"grad_norm": 6990.53466796875,
	"learning_rate": 6.2e-05,
	"loss": 0.1349,
	"step": 310
	},
	{
	"epoch": 0.8215661103979461,
	"grad_norm": 8195.203125,
	"learning_rate": 6.400000000000001e-05,
	"loss": 0.1231,
	"step": 320
	},
	{
	"epoch": 0.8472400513478819,
	"grad_norm": 5189.6279296875,
	"learning_rate": 6.6e-05,
	"loss": 0.1274,
	"step": 330
	},
	{
	"epoch": 0.8729139922978177,
	"grad_norm": 8494.017578125,
	"learning_rate": 6.800000000000001e-05,
	"loss": 0.1324,
	"step": 340
	},
	{
	"epoch": 0.8985879332477535,
	"grad_norm": 6397.20166015625,
	"learning_rate": 7e-05,
	"loss": 0.1223,
	"step": 350
	},
	{
	"epoch": 0.9242618741976893,
	"grad_norm": 5670.24072265625,
	"learning_rate": 7.2e-05,
	"loss": 0.129,
	"step": 360
	},
	{
	"epoch": 0.9499358151476252,
	"grad_norm": 6880.46533203125,
	"learning_rate": 7.4e-05,
	"loss": 0.1261,
	"step": 370
	},
	{
	"epoch": 0.975609756097561,
	"grad_norm": 5716.75537109375,
	"learning_rate": 7.6e-05,
	"loss": 0.1263,
	"step": 380
	},
	{
	"epoch": 1.0012836970474968,
	"grad_norm": 7472.732421875,
	"learning_rate": 7.800000000000001e-05,
	"loss": 0.1229,
	"step": 390
	},
	{
	"epoch": 1.0269576379974326,
	"grad_norm": 6848.66162109375,
	"learning_rate": 8e-05,
	"loss": 0.1236,
	"step": 400
	},
	{
	"epoch": 1.0526315789473684,
	"grad_norm": 6818.19921875,
	"learning_rate": 8.2e-05,
	"loss": 0.1198,
	"step": 410
	},
	{
	"epoch": 1.0783055198973042,
	"grad_norm": 6299.18115234375,
	"learning_rate": 8.4e-05,
	"loss": 0.127,
	"step": 420
	},
	{
	"epoch": 1.10397946084724,
	"grad_norm": 5963.009765625,
	"learning_rate": 8.6e-05,
	"loss": 0.1228,
	"step": 430
	},
	{
	"epoch": 1.1296534017971758,
	"grad_norm": 5657.501953125,
	"learning_rate": 8.800000000000001e-05,
	"loss": 0.1248,
	"step": 440
	},
	{
	"epoch": 1.1553273427471118,
	"grad_norm": 15452.26953125,
	"learning_rate": 9e-05,
	"loss": 0.1237,
	"step": 450
	},
	{
	"epoch": 1.1810012836970474,
	"grad_norm": 6293.9599609375,
	"learning_rate": 9.200000000000001e-05,
	"loss": 0.1218,
	"step": 460
	},
	{
	"epoch": 1.2066752246469834,
	"grad_norm": 6370.39794921875,
	"learning_rate": 9.4e-05,
	"loss": 0.1191,
	"step": 470
	},
	{
	"epoch": 1.2323491655969192,
	"grad_norm": 6101.39697265625,
	"learning_rate": 9.6e-05,
	"loss": 0.1161,
	"step": 480
	},
	{
	"epoch": 1.258023106546855,
	"grad_norm": 6093.3916015625,
	"learning_rate": 9.8e-05,
	"loss": 0.1247,
	"step": 490
	},
	{
	"epoch": 1.2836970474967908,
	"grad_norm": 4891.51171875,
	"learning_rate": 0.0001,
	"loss": 0.117,
	"step": 500
	},
	{
	"epoch": 1.2836970474967908,
	"eval_gen_len": 38.948,
	"eval_loss": 0.10336166620254517,
	"eval_rouge1": 0.5729,
	"eval_rouge2": 0.2787,
	"eval_rougeL": 0.5355,
	"eval_runtime": 65.3435,
	"eval_samples_per_second": 7.652,
	"eval_steps_per_second": 0.49,
	"step": 500
	},
	{
	"epoch": 1.3093709884467266,
	"grad_norm": 4472.9599609375,
	"learning_rate": 9.970501474926254e-05,
	"loss": 0.1215,
	"step": 510
	},
	{
	"epoch": 1.3350449293966624,
	"grad_norm": 5620.90576171875,
	"learning_rate": 9.941002949852508e-05,
	"loss": 0.1212,
	"step": 520
	},
	{
	"epoch": 1.3607188703465982,
	"grad_norm": 8320.6953125,
	"learning_rate": 9.911504424778762e-05,
	"loss": 0.1145,
	"step": 530
	},
	{
	"epoch": 1.386392811296534,
	"grad_norm": 6414.8359375,
	"learning_rate": 9.882005899705014e-05,
	"loss": 0.1248,
	"step": 540
	},
	{
	"epoch": 1.4120667522464698,
	"grad_norm": 6748.93017578125,
	"learning_rate": 9.85250737463127e-05,
	"loss": 0.1167,
	"step": 550
	},
	{
	"epoch": 1.4377406931964056,
	"grad_norm": 6198.98779296875,
	"learning_rate": 9.823008849557522e-05,
	"loss": 0.126,
	"step": 560
	},
	{
	"epoch": 1.4634146341463414,
	"grad_norm": 6716.78515625,
	"learning_rate": 9.793510324483777e-05,
	"loss": 0.1173,
	"step": 570
	},
	{
	"epoch": 1.4890885750962772,
	"grad_norm": 5211.44921875,
	"learning_rate": 9.76401179941003e-05,
	"loss": 0.1117,
	"step": 580
	},
	{
	"epoch": 1.514762516046213,
	"grad_norm": 5593.43798828125,
	"learning_rate": 9.734513274336283e-05,
	"loss": 0.1113,
	"step": 590
	},
	{
	"epoch": 1.540436456996149,
	"grad_norm": 6742.3544921875,
	"learning_rate": 9.705014749262537e-05,
	"loss": 0.1184,
	"step": 600
	},
	{
	"epoch": 1.5661103979460846,
	"grad_norm": 5100.9228515625,
	"learning_rate": 9.675516224188791e-05,
	"loss": 0.1122,
	"step": 610
	},
	{
	"epoch": 1.5917843388960207,
	"grad_norm": 6717.302734375,
	"learning_rate": 9.646017699115044e-05,
	"loss": 0.1211,
	"step": 620
	},
	{
	"epoch": 1.6174582798459562,
	"grad_norm": 8748.5849609375,
	"learning_rate": 9.616519174041299e-05,
	"loss": 0.1198,
	"step": 630
	},
	{
	"epoch": 1.6431322207958923,
	"grad_norm": 6425.04248046875,
	"learning_rate": 9.587020648967551e-05,
	"loss": 0.1146,
	"step": 640
	},
	{
	"epoch": 1.6688061617458279,
	"grad_norm": 5612.4580078125,
	"learning_rate": 9.557522123893806e-05,
	"loss": 0.1113,
	"step": 650
	},
	{
	"epoch": 1.6944801026957639,
	"grad_norm": 6821.66259765625,
	"learning_rate": 9.528023598820059e-05,
	"loss": 0.1144,
	"step": 660
	},
	{
	"epoch": 1.7201540436456995,
	"grad_norm": 7305.1376953125,
	"learning_rate": 9.498525073746313e-05,
	"loss": 0.1139,
	"step": 670
	},
	{
	"epoch": 1.7458279845956355,
	"grad_norm": 6363.8701171875,
	"learning_rate": 9.469026548672566e-05,
	"loss": 0.1121,
	"step": 680
	},
	{
	"epoch": 1.7715019255455713,
	"grad_norm": 5113.75537109375,
	"learning_rate": 9.43952802359882e-05,
	"loss": 0.115,
	"step": 690
	},
	{
	"epoch": 1.797175866495507,
	"grad_norm": 6163.470703125,
	"learning_rate": 9.410029498525074e-05,
	"loss": 0.1244,
	"step": 700
	},
	{
	"epoch": 1.822849807445443,
	"grad_norm": 6645.03466796875,
	"learning_rate": 9.380530973451328e-05,
	"loss": 0.1168,
	"step": 710
	},
	{
	"epoch": 1.8485237483953787,
	"grad_norm": 9238.5634765625,
	"learning_rate": 9.351032448377582e-05,
	"loss": 0.1198,
	"step": 720
	},
	{
	"epoch": 1.8741976893453145,
	"grad_norm": 5459.36962890625,
	"learning_rate": 9.321533923303836e-05,
	"loss": 0.1175,
	"step": 730
	},
	{
	"epoch": 1.8998716302952503,
	"grad_norm": 5480.2998046875,
	"learning_rate": 9.29203539823009e-05,
	"loss": 0.1115,
	"step": 740
	},
	{
	"epoch": 1.925545571245186,
	"grad_norm": 5369.232421875,
	"learning_rate": 9.262536873156342e-05,
	"loss": 0.1126,
	"step": 750
	},
	{
	"epoch": 1.951219512195122,
	"grad_norm": 5776.08154296875,
	"learning_rate": 9.233038348082597e-05,
	"loss": 0.1184,
	"step": 760
	},
	{
	"epoch": 1.976893453145058,
	"grad_norm": 4656.33203125,
	"learning_rate": 9.20353982300885e-05,
	"loss": 0.1145,
	"step": 770
	},
	{
	"epoch": 2.0025673940949935,
	"grad_norm": 6602.3056640625,
	"learning_rate": 9.174041297935103e-05,
	"loss": 0.126,
	"step": 780
	},
	{
	"epoch": 2.0282413350449295,
	"grad_norm": 5742.654296875,
	"learning_rate": 9.144542772861357e-05,
	"loss": 0.1036,
	"step": 790
	},
	{
	"epoch": 2.053915275994865,
	"grad_norm": 5546.1728515625,
	"learning_rate": 9.115044247787611e-05,
	"loss": 0.1077,
	"step": 800
	},
	{
	"epoch": 2.079589216944801,
	"grad_norm": 6285.85693359375,
	"learning_rate": 9.085545722713865e-05,
	"loss": 0.1156,
	"step": 810
	},
	{
	"epoch": 2.1052631578947367,
	"grad_norm": 5655.2763671875,
	"learning_rate": 9.056047197640119e-05,
	"loss": 0.1136,
	"step": 820
	},
	{
	"epoch": 2.1309370988446728,
	"grad_norm": 5984.7080078125,
	"learning_rate": 9.026548672566371e-05,
	"loss": 0.1076,
	"step": 830
	},
	{
	"epoch": 2.1566110397946083,
	"grad_norm": 5037.02490234375,
	"learning_rate": 8.997050147492626e-05,
	"loss": 0.1181,
	"step": 840
	},
	{
	"epoch": 2.1822849807445444,
	"grad_norm": 5577.619140625,
	"learning_rate": 8.96755162241888e-05,
	"loss": 0.1147,
	"step": 850
	},
	{
	"epoch": 2.20795892169448,
	"grad_norm": 4631.0732421875,
	"learning_rate": 8.938053097345133e-05,
	"loss": 0.1106,
	"step": 860
	},
	{
	"epoch": 2.233632862644416,
	"grad_norm": 4876.57177734375,
	"learning_rate": 8.908554572271388e-05,
	"loss": 0.1099,
	"step": 870
	},
	{
	"epoch": 2.2593068035943515,
	"grad_norm": 4877.7177734375,
	"learning_rate": 8.87905604719764e-05,
	"loss": 0.1134,
	"step": 880
	},
	{
	"epoch": 2.2849807445442876,
	"grad_norm": 5603.54150390625,
	"learning_rate": 8.849557522123895e-05,
	"loss": 0.1091,
	"step": 890
	},
	{
	"epoch": 2.3106546854942236,
	"grad_norm": 4900.8056640625,
	"learning_rate": 8.820058997050148e-05,
	"loss": 0.111,
	"step": 900
	},
	{
	"epoch": 2.336328626444159,
	"grad_norm": 5891.17919921875,
	"learning_rate": 8.790560471976402e-05,
	"loss": 0.113,
	"step": 910
	},
	{
	"epoch": 2.3620025673940948,
	"grad_norm": 6097.0400390625,
	"learning_rate": 8.761061946902655e-05,
	"loss": 0.1131,
	"step": 920
	},
	{
	"epoch": 2.387676508344031,
	"grad_norm": 5553.201171875,
	"learning_rate": 8.731563421828909e-05,
	"loss": 0.105,
	"step": 930
	},
	{
	"epoch": 2.413350449293967,
	"grad_norm": 4939.27392578125,
	"learning_rate": 8.702064896755162e-05,
	"loss": 0.115,
	"step": 940
	},
	{
	"epoch": 2.4390243902439024,
	"grad_norm": 5012.8740234375,
	"learning_rate": 8.672566371681417e-05,
	"loss": 0.1095,
	"step": 950
	},
	{
	"epoch": 2.4646983311938384,
	"grad_norm": 6639.900390625,
	"learning_rate": 8.64306784660767e-05,
	"loss": 0.1096,
	"step": 960
	},
	{
	"epoch": 2.490372272143774,
	"grad_norm": 6572.72705078125,
	"learning_rate": 8.613569321533924e-05,
	"loss": 0.1091,
	"step": 970
	},
	{
	"epoch": 2.51604621309371,
	"grad_norm": 4813.23291015625,
	"learning_rate": 8.584070796460177e-05,
	"loss": 0.1114,
	"step": 980
	},
	{
	"epoch": 2.5417201540436456,
	"grad_norm": 6162.396484375,
	"learning_rate": 8.554572271386431e-05,
	"loss": 0.1101,
	"step": 990
	},
	{
	"epoch": 2.5673940949935816,
	"grad_norm": 6070.53857421875,
	"learning_rate": 8.525073746312685e-05,
	"loss": 0.1103,
	"step": 1000
	},
	{
	"epoch": 2.5673940949935816,
	"eval_gen_len": 38.946,
	"eval_loss": 0.0969744473695755,
	"eval_rouge1": 0.5903,
	"eval_rouge2": 0.3078,
	"eval_rougeL": 0.556,
	"eval_runtime": 65.5669,
	"eval_samples_per_second": 7.626,
	"eval_steps_per_second": 0.488,
	"step": 1000
	},
	{
	"epoch": 2.593068035943517,
	"grad_norm": 6648.20751953125,
	"learning_rate": 8.495575221238938e-05,
	"loss": 0.109,
	"step": 1010
	},
	{
	"epoch": 2.6187419768934532,
	"grad_norm": 4565.7236328125,
	"learning_rate": 8.466076696165192e-05,
	"loss": 0.1062,
	"step": 1020
	},
	{
	"epoch": 2.644415917843389,
	"grad_norm": 5601.0908203125,
	"learning_rate": 8.436578171091446e-05,
	"loss": 0.1099,
	"step": 1030
	},
	{
	"epoch": 2.670089858793325,
	"grad_norm": 5187.435546875,
	"learning_rate": 8.4070796460177e-05,
	"loss": 0.1127,
	"step": 1040
	},
	{
	"epoch": 2.6957637997432604,
	"grad_norm": 5046.6767578125,
	"learning_rate": 8.377581120943954e-05,
	"loss": 0.122,
	"step": 1050
	},
	{
	"epoch": 2.7214377406931964,
	"grad_norm": 4885.3818359375,
	"learning_rate": 8.348082595870208e-05,
	"loss": 0.105,
	"step": 1060
	},
	{
	"epoch": 2.7471116816431325,
	"grad_norm": 5473.66015625,
	"learning_rate": 8.31858407079646e-05,
	"loss": 0.1081,
	"step": 1070
	},
	{
	"epoch": 2.772785622593068,
	"grad_norm": 6577.04931640625,
	"learning_rate": 8.289085545722715e-05,
	"loss": 0.1161,
	"step": 1080
	},
	{
	"epoch": 2.7984595635430036,
	"grad_norm": 5628.3349609375,
	"learning_rate": 8.259587020648968e-05,
	"loss": 0.1057,
	"step": 1090
	},
	{
	"epoch": 2.8241335044929397,
	"grad_norm": 5690.630859375,
	"learning_rate": 8.230088495575221e-05,
	"loss": 0.1116,
	"step": 1100
	},
	{
	"epoch": 2.8498074454428757,
	"grad_norm": 4804.5458984375,
	"learning_rate": 8.200589970501475e-05,
	"loss": 0.103,
	"step": 1110
	},
	{
	"epoch": 2.8754813863928113,
	"grad_norm": 4892.4580078125,
	"learning_rate": 8.171091445427729e-05,
	"loss": 0.1116,
	"step": 1120
	},
	{
	"epoch": 2.901155327342747,
	"grad_norm": 5333.4130859375,
	"learning_rate": 8.141592920353983e-05,
	"loss": 0.106,
	"step": 1130
	},
	{
	"epoch": 2.926829268292683,
	"grad_norm": 5062.69580078125,
	"learning_rate": 8.112094395280237e-05,
	"loss": 0.1086,
	"step": 1140
	},
	{
	"epoch": 2.952503209242619,
	"grad_norm": 4429.697265625,
	"learning_rate": 8.082595870206489e-05,
	"loss": 0.1079,
	"step": 1150
	},
	{
	"epoch": 2.9781771501925545,
	"grad_norm": 5827.998046875,
	"learning_rate": 8.053097345132744e-05,
	"loss": 0.1151,
	"step": 1160
	},
	{
	"epoch": 3.0038510911424905,
	"grad_norm": 5520.6826171875,
	"learning_rate": 8.023598820058997e-05,
	"loss": 0.1063,
	"step": 1170
	},
	{
	"epoch": 3.029525032092426,
	"grad_norm": 5321.1328125,
	"learning_rate": 7.99410029498525e-05,
	"loss": 0.1028,
	"step": 1180
	},
	{
	"epoch": 3.055198973042362,
	"grad_norm": 6147.1103515625,
	"learning_rate": 7.964601769911504e-05,
	"loss": 0.1027,
	"step": 1190
	},
	{
	"epoch": 3.0808729139922977,
	"grad_norm": 5837.15673828125,
	"learning_rate": 7.935103244837758e-05,
	"loss": 0.1129,
	"step": 1200
	},
	{
	"epoch": 3.1065468549422337,
	"grad_norm": 5890.27490234375,
	"learning_rate": 7.905604719764012e-05,
	"loss": 0.105,
	"step": 1210
	},
	{
	"epoch": 3.1322207958921693,
	"grad_norm": 5193.16259765625,
	"learning_rate": 7.876106194690266e-05,
	"loss": 0.1025,
	"step": 1220
	},
	{
	"epoch": 3.1578947368421053,
	"grad_norm": 5144.00048828125,
	"learning_rate": 7.84660766961652e-05,
	"loss": 0.1053,
	"step": 1230
	},
	{
	"epoch": 3.183568677792041,
	"grad_norm": 4484.66552734375,
	"learning_rate": 7.817109144542774e-05,
	"loss": 0.1111,
	"step": 1240
	},
	{
	"epoch": 3.209242618741977,
	"grad_norm": 5307.7431640625,
	"learning_rate": 7.787610619469027e-05,
	"loss": 0.1088,
	"step": 1250
	},
	{
	"epoch": 3.2349165596919125,
	"grad_norm": 5560.54736328125,
	"learning_rate": 7.75811209439528e-05,
	"loss": 0.1056,
	"step": 1260
	},
	{
	"epoch": 3.2605905006418485,
	"grad_norm": 5743.2255859375,
	"learning_rate": 7.728613569321535e-05,
	"loss": 0.1057,
	"step": 1270
	},
	{
	"epoch": 3.2862644415917845,
	"grad_norm": 5270.234375,
	"learning_rate": 7.699115044247787e-05,
	"loss": 0.1072,
	"step": 1280
	},
	{
	"epoch": 3.31193838254172,
	"grad_norm": 5415.4580078125,
	"learning_rate": 7.669616519174043e-05,
	"loss": 0.1044,
	"step": 1290
	},
	{
	"epoch": 3.337612323491656,
	"grad_norm": 5077.26123046875,
	"learning_rate": 7.640117994100295e-05,
	"loss": 0.1063,
	"step": 1300
	},
	{
	"epoch": 3.3632862644415917,
	"grad_norm": 5815.587890625,
	"learning_rate": 7.610619469026549e-05,
	"loss": 0.104,
	"step": 1310
	},
	{
	"epoch": 3.3889602053915278,
	"grad_norm": 5168.4140625,
	"learning_rate": 7.581120943952803e-05,
	"loss": 0.1057,
	"step": 1320
	},
	{
	"epoch": 3.4146341463414633,
	"grad_norm": 6175.1962890625,
	"learning_rate": 7.551622418879057e-05,
	"loss": 0.1085,
	"step": 1330
	},
	{
	"epoch": 3.4403080872913994,
	"grad_norm": 4866.1806640625,
	"learning_rate": 7.522123893805309e-05,
	"loss": 0.1088,
	"step": 1340
	},
	{
	"epoch": 3.465982028241335,
	"grad_norm": 4987.28662109375,
	"learning_rate": 7.492625368731564e-05,
	"loss": 0.1144,
	"step": 1350
	},
	{
	"epoch": 3.491655969191271,
	"grad_norm": 6046.6435546875,
	"learning_rate": 7.463126843657817e-05,
	"loss": 0.1066,
	"step": 1360
	},
	{
	"epoch": 3.5173299101412066,
	"grad_norm": 6097.72802734375,
	"learning_rate": 7.433628318584072e-05,
	"loss": 0.1109,
	"step": 1370
	},
	{
	"epoch": 3.5430038510911426,
	"grad_norm": 6237.98388671875,
	"learning_rate": 7.404129793510324e-05,
	"loss": 0.1061,
	"step": 1380
	},
	{
	"epoch": 3.568677792041078,
	"grad_norm": 5106.3720703125,
	"learning_rate": 7.374631268436578e-05,
	"loss": 0.1052,
	"step": 1390
	},
	{
	"epoch": 3.594351732991014,
	"grad_norm": 5083.40234375,
	"learning_rate": 7.345132743362832e-05,
	"loss": 0.1012,
	"step": 1400
	},
	{
	"epoch": 3.62002567394095,
	"grad_norm": 5191.7353515625,
	"learning_rate": 7.315634218289086e-05,
	"loss": 0.1081,
	"step": 1410
	},
	{
	"epoch": 3.645699614890886,
	"grad_norm": 6808.04638671875,
	"learning_rate": 7.28613569321534e-05,
	"loss": 0.1046,
	"step": 1420
	},
	{
	"epoch": 3.6713735558408214,
	"grad_norm": 5069.12353515625,
	"learning_rate": 7.256637168141593e-05,
	"loss": 0.1018,
	"step": 1430
	},
	{
	"epoch": 3.6970474967907574,
	"grad_norm": 5624.8330078125,
	"learning_rate": 7.227138643067847e-05,
	"loss": 0.1087,
	"step": 1440
	},
	{
	"epoch": 3.7227214377406934,
	"grad_norm": 8308.7177734375,
	"learning_rate": 7.197640117994101e-05,
	"loss": 0.1045,
	"step": 1450
	},
	{
	"epoch": 3.748395378690629,
	"grad_norm": 5380.990234375,
	"learning_rate": 7.168141592920355e-05,
	"loss": 0.1083,
	"step": 1460
	},
	{
	"epoch": 3.7740693196405646,
	"grad_norm": 4756.90576171875,
	"learning_rate": 7.138643067846607e-05,
	"loss": 0.1058,
	"step": 1470
	},
	{
	"epoch": 3.7997432605905006,
	"grad_norm": 5780.90625,
	"learning_rate": 7.109144542772862e-05,
	"loss": 0.1029,
	"step": 1480
	},
	{
	"epoch": 3.8254172015404366,
	"grad_norm": 5286.49560546875,
	"learning_rate": 7.079646017699115e-05,
	"loss": 0.1029,
	"step": 1490
	},
	{
	"epoch": 3.851091142490372,
	"grad_norm": 5398.28369140625,
	"learning_rate": 7.050147492625369e-05,
	"loss": 0.1086,
	"step": 1500
	},
	{
	"epoch": 3.851091142490372,
	"eval_gen_len": 38.946,
	"eval_loss": 0.09477131813764572,
	"eval_rouge1": 0.5988,
	"eval_rouge2": 0.3178,
	"eval_rougeL": 0.5661,
	"eval_runtime": 65.5594,
	"eval_samples_per_second": 7.627,
	"eval_steps_per_second": 0.488,
	"step": 1500
	},
	{
	"epoch": 3.8767650834403082,
	"grad_norm": 4950.18212890625,
	"learning_rate": 7.020648967551623e-05,
	"loss": 0.1025,
	"step": 1510
	},
	{
	"epoch": 3.902439024390244,
	"grad_norm": 4885.29248046875,
	"learning_rate": 6.991150442477876e-05,
	"loss": 0.1067,
	"step": 1520
	},
	{
	"epoch": 3.92811296534018,
	"grad_norm": 6418.5791015625,
	"learning_rate": 6.96165191740413e-05,
	"loss": 0.1009,
	"step": 1530
	},
	{
	"epoch": 3.9537869062901154,
	"grad_norm": 6914.34375,
	"learning_rate": 6.932153392330384e-05,
	"loss": 0.1085,
	"step": 1540
	},
	{
	"epoch": 3.9794608472400514,
	"grad_norm": 5611.89306640625,
	"learning_rate": 6.902654867256638e-05,
	"loss": 0.1125,
	"step": 1550
	},
	{
	"epoch": 4.005134788189987,
	"grad_norm": 4575.3046875,
	"learning_rate": 6.873156342182892e-05,
	"loss": 0.1037,
	"step": 1560
	},
	{
	"epoch": 4.030808729139923,
	"grad_norm": 5809.431640625,
	"learning_rate": 6.843657817109145e-05,
	"loss": 0.0999,
	"step": 1570
	},
	{
	"epoch": 4.056482670089859,
	"grad_norm": 6907.01025390625,
	"learning_rate": 6.814159292035398e-05,
	"loss": 0.1007,
	"step": 1580
	},
	{
	"epoch": 4.082156611039794,
	"grad_norm": 6448.38330078125,
	"learning_rate": 6.784660766961653e-05,
	"loss": 0.11,
	"step": 1590
	},
	{
	"epoch": 4.10783055198973,
	"grad_norm": 15915.1982421875,
	"learning_rate": 6.755162241887906e-05,
	"loss": 0.1106,
	"step": 1600
	},
	{
	"epoch": 4.133504492939666,
	"grad_norm": 5690.85107421875,
	"learning_rate": 6.725663716814161e-05,
	"loss": 0.1037,
	"step": 1610
	},
	{
	"epoch": 4.159178433889602,
	"grad_norm": 4913.6220703125,
	"learning_rate": 6.696165191740413e-05,
	"loss": 0.1052,
	"step": 1620
	},
	{
	"epoch": 4.184852374839538,
	"grad_norm": 5320.2470703125,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.1018,
	"step": 1630
	},
	{
	"epoch": 4.2105263157894735,
	"grad_norm": 6042.61376953125,
	"learning_rate": 6.637168141592921e-05,
	"loss": 0.1013,
	"step": 1640
	},
	{
	"epoch": 4.2362002567394095,
	"grad_norm": 5034.08203125,
	"learning_rate": 6.607669616519175e-05,
	"loss": 0.1085,
	"step": 1650
	},
	{
	"epoch": 4.2618741976893455,
	"grad_norm": 6053.23876953125,
	"learning_rate": 6.578171091445427e-05,
	"loss": 0.0986,
	"step": 1660
	},
	{
	"epoch": 4.2875481386392815,
	"grad_norm": 5543.45556640625,
	"learning_rate": 6.548672566371682e-05,
	"loss": 0.0986,
	"step": 1670
	},
	{
	"epoch": 4.313222079589217,
	"grad_norm": 6083.2236328125,
	"learning_rate": 6.519174041297935e-05,
	"loss": 0.1028,
	"step": 1680
	},
	{
	"epoch": 4.338896020539153,
	"grad_norm": 5847.65087890625,
	"learning_rate": 6.48967551622419e-05,
	"loss": 0.1001,
	"step": 1690
	},
	{
	"epoch": 4.364569961489089,
	"grad_norm": 5046.88623046875,
	"learning_rate": 6.460176991150442e-05,
	"loss": 0.102,
	"step": 1700
	},
	{
	"epoch": 4.390243902439025,
	"grad_norm": 7761.01611328125,
	"learning_rate": 6.430678466076696e-05,
	"loss": 0.1017,
	"step": 1710
	},
	{
	"epoch": 4.41591784338896,
	"grad_norm": 5590.93505859375,
	"learning_rate": 6.40117994100295e-05,
	"loss": 0.1058,
	"step": 1720
	},
	{
	"epoch": 4.441591784338896,
	"grad_norm": 4478.46484375,
	"learning_rate": 6.371681415929204e-05,
	"loss": 0.0995,
	"step": 1730
	},
	{
	"epoch": 4.467265725288832,
	"grad_norm": 6958.63720703125,
	"learning_rate": 6.342182890855458e-05,
	"loss": 0.1028,
	"step": 1740
	},
	{
	"epoch": 4.492939666238768,
	"grad_norm": 5210.4853515625,
	"learning_rate": 6.312684365781711e-05,
	"loss": 0.1078,
	"step": 1750
	},
	{
	"epoch": 4.518613607188703,
	"grad_norm": 4667.54345703125,
	"learning_rate": 6.283185840707965e-05,
	"loss": 0.1025,
	"step": 1760
	},
	{
	"epoch": 4.544287548138639,
	"grad_norm": 5578.6943359375,
	"learning_rate": 6.253687315634219e-05,
	"loss": 0.1029,
	"step": 1770
	},
	{
	"epoch": 4.569961489088575,
	"grad_norm": 6289.7841796875,
	"learning_rate": 6.224188790560473e-05,
	"loss": 0.1062,
	"step": 1780
	},
	{
	"epoch": 4.595635430038511,
	"grad_norm": 5193.00244140625,
	"learning_rate": 6.194690265486725e-05,
	"loss": 0.1104,
	"step": 1790
	},
	{
	"epoch": 4.621309370988447,
	"grad_norm": 5092.68408203125,
	"learning_rate": 6.16519174041298e-05,
	"loss": 0.0996,
	"step": 1800
	},
	{
	"epoch": 4.646983311938382,
	"grad_norm": 5535.3857421875,
	"learning_rate": 6.135693215339233e-05,
	"loss": 0.1066,
	"step": 1810
	},
	{
	"epoch": 4.672657252888318,
	"grad_norm": 6088.28515625,
	"learning_rate": 6.106194690265487e-05,
	"loss": 0.1031,
	"step": 1820
	},
	{
	"epoch": 4.698331193838254,
	"grad_norm": 5986.71240234375,
	"learning_rate": 6.0766961651917406e-05,
	"loss": 0.1043,
	"step": 1830
	},
	{
	"epoch": 4.7240051347881895,
	"grad_norm": 5196.69140625,
	"learning_rate": 6.0471976401179945e-05,
	"loss": 0.1035,
	"step": 1840
	},
	{
	"epoch": 4.7496790757381255,
	"grad_norm": 5394.7138671875,
	"learning_rate": 6.017699115044248e-05,
	"loss": 0.1017,
	"step": 1850
	},
	{
	"epoch": 4.775353016688062,
	"grad_norm": 5689.53173828125,
	"learning_rate": 5.988200589970502e-05,
	"loss": 0.107,
	"step": 1860
	},
	{
	"epoch": 4.801026957637998,
	"grad_norm": 5098.4541015625,
	"learning_rate": 5.958702064896755e-05,
	"loss": 0.1032,
	"step": 1870
	},
	{
	"epoch": 4.826700898587934,
	"grad_norm": 4243.0087890625,
	"learning_rate": 5.92920353982301e-05,
	"loss": 0.1017,
	"step": 1880
	},
	{
	"epoch": 4.852374839537869,
	"grad_norm": 5340.123046875,
	"learning_rate": 5.899705014749263e-05,
	"loss": 0.0986,
	"step": 1890
	},
	{
	"epoch": 4.878048780487805,
	"grad_norm": 5436.1259765625,
	"learning_rate": 5.870206489675516e-05,
	"loss": 0.1,
	"step": 1900
	},
	{
	"epoch": 4.903722721437741,
	"grad_norm": 5866.4375,
	"learning_rate": 5.8407079646017705e-05,
	"loss": 0.104,
	"step": 1910
	},
	{
	"epoch": 4.929396662387677,
	"grad_norm": 5687.0595703125,
	"learning_rate": 5.8112094395280236e-05,
	"loss": 0.1003,
	"step": 1920
	},
	{
	"epoch": 4.955070603337612,
	"grad_norm": 5049.65869140625,
	"learning_rate": 5.781710914454278e-05,
	"loss": 0.1051,
	"step": 1930
	},
	{
	"epoch": 4.980744544287548,
	"grad_norm": 4348.83251953125,
	"learning_rate": 5.752212389380531e-05,
	"loss": 0.1067,
	"step": 1940
	},
	{
	"epoch": 5.006418485237484,
	"grad_norm": 5278.10498046875,
	"learning_rate": 5.7227138643067844e-05,
	"loss": 0.1028,
	"step": 1950
	},
	{
	"epoch": 5.03209242618742,
	"grad_norm": 5227.31689453125,
	"learning_rate": 5.693215339233039e-05,
	"loss": 0.1015,
	"step": 1960
	},
	{
	"epoch": 5.057766367137355,
	"grad_norm": 5626.7041015625,
	"learning_rate": 5.663716814159292e-05,
	"loss": 0.0953,
	"step": 1970
	},
	{
	"epoch": 5.083440308087291,
	"grad_norm": 4941.787109375,
	"learning_rate": 5.634218289085545e-05,
	"loss": 0.1,
	"step": 1980
	},
	{
	"epoch": 5.109114249037227,
	"grad_norm": 5543.74365234375,
	"learning_rate": 5.6047197640118e-05,
	"loss": 0.0975,
	"step": 1990
	},
	{
	"epoch": 5.134788189987163,
	"grad_norm": 6526.22509765625,
	"learning_rate": 5.575221238938053e-05,
	"loss": 0.1046,
	"step": 2000
	},
	{
	"epoch": 5.134788189987163,
	"eval_gen_len": 38.946,
	"eval_loss": 0.09348437190055847,
	"eval_rouge1": 0.6042,
	"eval_rouge2": 0.3248,
	"eval_rougeL": 0.5712,
	"eval_runtime": 65.0847,
	"eval_samples_per_second": 7.682,
	"eval_steps_per_second": 0.492,
	"step": 2000
	},
	{
	"epoch": 5.160462130937099,
	"grad_norm": 5070.046875,
	"learning_rate": 5.545722713864307e-05,
	"loss": 0.0981,
	"step": 2010
	},
	{
	"epoch": 5.186136071887034,
	"grad_norm": 5264.22509765625,
	"learning_rate": 5.5162241887905605e-05,
	"loss": 0.1023,
	"step": 2020
	},
	{
	"epoch": 5.21181001283697,
	"grad_norm": 10262.3994140625,
	"learning_rate": 5.486725663716814e-05,
	"loss": 0.1007,
	"step": 2030
	},
	{
	"epoch": 5.2374839537869065,
	"grad_norm": 4638.310546875,
	"learning_rate": 5.457227138643069e-05,
	"loss": 0.1019,
	"step": 2040
	},
	{
	"epoch": 5.2631578947368425,
	"grad_norm": 5691.34033203125,
	"learning_rate": 5.427728613569322e-05,
	"loss": 0.1048,
	"step": 2050
	},
	{
	"epoch": 5.288831835686778,
	"grad_norm": 5892.60986328125,
	"learning_rate": 5.398230088495575e-05,
	"loss": 0.1002,
	"step": 2060
	},
	{
	"epoch": 5.314505776636714,
	"grad_norm": 5043.25,
	"learning_rate": 5.3687315634218295e-05,
	"loss": 0.1026,
	"step": 2070
	},
	{
	"epoch": 5.34017971758665,
	"grad_norm": 5076.90283203125,
	"learning_rate": 5.339233038348083e-05,
	"loss": 0.103,
	"step": 2080
	},
	{
	"epoch": 5.365853658536586,
	"grad_norm": 5730.2998046875,
	"learning_rate": 5.309734513274337e-05,
	"loss": 0.0995,
	"step": 2090
	},
	{
	"epoch": 5.391527599486521,
	"grad_norm": 5071.3759765625,
	"learning_rate": 5.28023598820059e-05,
	"loss": 0.1006,
	"step": 2100
	},
	{
	"epoch": 5.417201540436457,
	"grad_norm": 4912.38134765625,
	"learning_rate": 5.2507374631268435e-05,
	"loss": 0.0965,
	"step": 2110
	},
	{
	"epoch": 5.442875481386393,
	"grad_norm": 5349.1376953125,
	"learning_rate": 5.221238938053098e-05,
	"loss": 0.1016,
	"step": 2120
	},
	{
	"epoch": 5.468549422336329,
	"grad_norm": 6012.4912109375,
	"learning_rate": 5.191740412979351e-05,
	"loss": 0.0985,
	"step": 2130
	},
	{
	"epoch": 5.494223363286264,
	"grad_norm": 6078.17333984375,
	"learning_rate": 5.162241887905604e-05,
	"loss": 0.1001,
	"step": 2140
	},
	{
	"epoch": 5.5198973042362,
	"grad_norm": 6352.015625,
	"learning_rate": 5.132743362831859e-05,
	"loss": 0.0995,
	"step": 2150
	},
	{
	"epoch": 5.545571245186136,
	"grad_norm": 10780.03125,
	"learning_rate": 5.103244837758112e-05,
	"loss": 0.1037,
	"step": 2160
	},
	{
	"epoch": 5.571245186136072,
	"grad_norm": 4540.59326171875,
	"learning_rate": 5.0737463126843664e-05,
	"loss": 0.1003,
	"step": 2170
	},
	{
	"epoch": 5.596919127086007,
	"grad_norm": 5141.4697265625,
	"learning_rate": 5.0442477876106195e-05,
	"loss": 0.0993,
	"step": 2180
	},
	{
	"epoch": 5.622593068035943,
	"grad_norm": 8023.310546875,
	"learning_rate": 5.014749262536873e-05,
	"loss": 0.0923,
	"step": 2190
	},
	{
	"epoch": 5.648267008985879,
	"grad_norm": 6443.39404296875,
	"learning_rate": 4.985250737463127e-05,
	"loss": 0.1059,
	"step": 2200
	},
	{
	"epoch": 5.673940949935815,
	"grad_norm": 4546.185546875,
	"learning_rate": 4.955752212389381e-05,
	"loss": 0.1027,
	"step": 2210
	},
	{
	"epoch": 5.699614890885751,
	"grad_norm": 5331.25634765625,
	"learning_rate": 4.926253687315635e-05,
	"loss": 0.0994,
	"step": 2220
	},
	{
	"epoch": 5.7252888318356865,
	"grad_norm": 5486.52587890625,
	"learning_rate": 4.8967551622418886e-05,
	"loss": 0.1097,
	"step": 2230
	},
	{
	"epoch": 5.7509627727856225,
	"grad_norm": 5083.9794921875,
	"learning_rate": 4.867256637168142e-05,
	"loss": 0.0971,
	"step": 2240
	},
	{
	"epoch": 5.7766367137355585,
	"grad_norm": 5799.4931640625,
	"learning_rate": 4.8377581120943956e-05,
	"loss": 0.103,
	"step": 2250
	},
	{
	"epoch": 5.802310654685495,
	"grad_norm": 5407.1708984375,
	"learning_rate": 4.8082595870206494e-05,
	"loss": 0.1091,
	"step": 2260
	},
	{
	"epoch": 5.82798459563543,
	"grad_norm": 4890.9697265625,
	"learning_rate": 4.778761061946903e-05,
	"loss": 0.1013,
	"step": 2270
	},
	{
	"epoch": 5.853658536585366,
	"grad_norm": 5403.1416015625,
	"learning_rate": 4.749262536873156e-05,
	"loss": 0.1076,
	"step": 2280
	},
	{
	"epoch": 5.879332477535302,
	"grad_norm": 5159.65234375,
	"learning_rate": 4.71976401179941e-05,
	"loss": 0.0994,
	"step": 2290
	},
	{
	"epoch": 5.905006418485238,
	"grad_norm": 6055.45458984375,
	"learning_rate": 4.690265486725664e-05,
	"loss": 0.0998,
	"step": 2300
	},
	{
	"epoch": 5.930680359435174,
	"grad_norm": 5306.44677734375,
	"learning_rate": 4.660766961651918e-05,
	"loss": 0.0995,
	"step": 2310
	},
	{
	"epoch": 5.956354300385109,
	"grad_norm": 5193.0009765625,
	"learning_rate": 4.631268436578171e-05,
	"loss": 0.1011,
	"step": 2320
	},
	{
	"epoch": 5.982028241335045,
	"grad_norm": 6859.47509765625,
	"learning_rate": 4.601769911504425e-05,
	"loss": 0.1043,
	"step": 2330
	},
	{
	"epoch": 6.007702182284981,
	"grad_norm": 4973.0458984375,
	"learning_rate": 4.5722713864306786e-05,
	"loss": 0.1002,
	"step": 2340
	},
	{
	"epoch": 6.033376123234916,
	"grad_norm": 5652.50439453125,
	"learning_rate": 4.5427728613569324e-05,
	"loss": 0.0994,
	"step": 2350
	},
	{
	"epoch": 6.059050064184852,
	"grad_norm": 6935.865234375,
	"learning_rate": 4.5132743362831855e-05,
	"loss": 0.0998,
	"step": 2360
	},
	{
	"epoch": 6.084724005134788,
	"grad_norm": 4675.81982421875,
	"learning_rate": 4.48377581120944e-05,
	"loss": 0.1014,
	"step": 2370
	},
	{
	"epoch": 6.110397946084724,
	"grad_norm": 4515.3134765625,
	"learning_rate": 4.454277286135694e-05,
	"loss": 0.0968,
	"step": 2380
	},
	{
	"epoch": 6.13607188703466,
	"grad_norm": 5213.7578125,
	"learning_rate": 4.4247787610619477e-05,
	"loss": 0.0987,
	"step": 2390
	},
	{
	"epoch": 6.161745827984595,
	"grad_norm": 5425.05615234375,
	"learning_rate": 4.395280235988201e-05,
	"loss": 0.102,
	"step": 2400
	},
	{
	"epoch": 6.187419768934531,
	"grad_norm": 4345.66552734375,
	"learning_rate": 4.3657817109144546e-05,
	"loss": 0.0978,
	"step": 2410
	},
	{
	"epoch": 6.213093709884467,
	"grad_norm": 5057.90087890625,
	"learning_rate": 4.3362831858407084e-05,
	"loss": 0.1011,
	"step": 2420
	},
	{
	"epoch": 6.238767650834403,
	"grad_norm": 6916.2607421875,
	"learning_rate": 4.306784660766962e-05,
	"loss": 0.1023,
	"step": 2430
	},
	{
	"epoch": 6.264441591784339,
	"grad_norm": 6013.05126953125,
	"learning_rate": 4.2772861356932154e-05,
	"loss": 0.0995,
	"step": 2440
	},
	{
	"epoch": 6.290115532734275,
	"grad_norm": 4742.91357421875,
	"learning_rate": 4.247787610619469e-05,
	"loss": 0.0974,
	"step": 2450
	},
	{
	"epoch": 6.315789473684211,
	"grad_norm": 4979.93115234375,
	"learning_rate": 4.218289085545723e-05,
	"loss": 0.1019,
	"step": 2460
	},
	{
	"epoch": 6.341463414634147,
	"grad_norm": 5349.9130859375,
	"learning_rate": 4.188790560471977e-05,
	"loss": 0.1027,
	"step": 2470
	},
	{
	"epoch": 6.367137355584082,
	"grad_norm": 5003.3203125,
	"learning_rate": 4.15929203539823e-05,
	"loss": 0.1038,
	"step": 2480
	},
	{
	"epoch": 6.392811296534018,
	"grad_norm": 5897.6796875,
	"learning_rate": 4.129793510324484e-05,
	"loss": 0.0998,
	"step": 2490
	},
	{
	"epoch": 6.418485237483954,
	"grad_norm": 5018.42138671875,
	"learning_rate": 4.1002949852507376e-05,
	"loss": 0.0962,
	"step": 2500
	},
	{
	"epoch": 6.418485237483954,
	"eval_gen_len": 38.946,
	"eval_loss": 0.09220927208662033,
	"eval_rouge1": 0.6077,
	"eval_rouge2": 0.3279,
	"eval_rougeL": 0.5755,
	"eval_runtime": 65.0093,
	"eval_samples_per_second": 7.691,
	"eval_steps_per_second": 0.492,
	"step": 2500
	},
	{
	"epoch": 6.44415917843389,
	"grad_norm": 6092.09375,
	"learning_rate": 4.0707964601769914e-05,
	"loss": 0.0929,
	"step": 2510
	},
	{
	"epoch": 6.469833119383825,
	"grad_norm": 6269.76171875,
	"learning_rate": 4.0412979351032446e-05,
	"loss": 0.0972,
	"step": 2520
	},
	{
	"epoch": 6.495507060333761,
	"grad_norm": 4338.68896484375,
	"learning_rate": 4.0117994100294984e-05,
	"loss": 0.1009,
	"step": 2530
	},
	{
	"epoch": 6.521181001283697,
	"grad_norm": 4670.00537109375,
	"learning_rate": 3.982300884955752e-05,
	"loss": 0.1032,
	"step": 2540
	},
	{
	"epoch": 6.546854942233633,
	"grad_norm": 5199.564453125,
	"learning_rate": 3.952802359882006e-05,
	"loss": 0.0977,
	"step": 2550
	},
	{
	"epoch": 6.572528883183569,
	"grad_norm": 6262.904296875,
	"learning_rate": 3.92330383480826e-05,
	"loss": 0.0966,
	"step": 2560
	},
	{
	"epoch": 6.598202824133504,
	"grad_norm": 7214.66748046875,
	"learning_rate": 3.893805309734514e-05,
	"loss": 0.0942,
	"step": 2570
	},
	{
	"epoch": 6.62387676508344,
	"grad_norm": 5746.22705078125,
	"learning_rate": 3.8643067846607675e-05,
	"loss": 0.0946,
	"step": 2580
	},
	{
	"epoch": 6.649550706033376,
	"grad_norm": 6876.60986328125,
	"learning_rate": 3.834808259587021e-05,
	"loss": 0.1031,
	"step": 2590
	},
	{
	"epoch": 6.675224646983312,
	"grad_norm": 5216.8642578125,
	"learning_rate": 3.8053097345132744e-05,
	"loss": 0.0984,
	"step": 2600
	},
	{
	"epoch": 6.700898587933247,
	"grad_norm": 5965.8583984375,
	"learning_rate": 3.775811209439528e-05,
	"loss": 0.099,
	"step": 2610
	},
	{
	"epoch": 6.7265725288831835,
	"grad_norm": 7099.044921875,
	"learning_rate": 3.746312684365782e-05,
	"loss": 0.1052,
	"step": 2620
	},
	{
	"epoch": 6.7522464698331195,
	"grad_norm": 4748.5703125,
	"learning_rate": 3.716814159292036e-05,
	"loss": 0.1045,
	"step": 2630
	},
	{
	"epoch": 6.7779204107830555,
	"grad_norm": 5743.19921875,
	"learning_rate": 3.687315634218289e-05,
	"loss": 0.0937,
	"step": 2640
	},
	{
	"epoch": 6.803594351732991,
	"grad_norm": 5680.45068359375,
	"learning_rate": 3.657817109144543e-05,
	"loss": 0.0965,
	"step": 2650
	},
	{
	"epoch": 6.829268292682927,
	"grad_norm": 7245.03564453125,
	"learning_rate": 3.628318584070797e-05,
	"loss": 0.0909,
	"step": 2660
	},
	{
	"epoch": 6.854942233632863,
	"grad_norm": 5226.4365234375,
	"learning_rate": 3.5988200589970505e-05,
	"loss": 0.0987,
	"step": 2670
	},
	{
	"epoch": 6.880616174582799,
	"grad_norm": 5511.99853515625,
	"learning_rate": 3.5693215339233036e-05,
	"loss": 0.1066,
	"step": 2680
	},
	{
	"epoch": 6.906290115532734,
	"grad_norm": 5711.359375,
	"learning_rate": 3.5398230088495574e-05,
	"loss": 0.0995,
	"step": 2690
	},
	{
	"epoch": 6.93196405648267,
	"grad_norm": 5092.283203125,
	"learning_rate": 3.510324483775811e-05,
	"loss": 0.0971,
	"step": 2700
	},
	{
	"epoch": 6.957637997432606,
	"grad_norm": 6100.78271484375,
	"learning_rate": 3.480825958702065e-05,
	"loss": 0.1009,
	"step": 2710
	},
	{
	"epoch": 6.983311938382542,
	"grad_norm": 5600.61181640625,
	"learning_rate": 3.451327433628319e-05,
	"loss": 0.1026,
	"step": 2720
	},
	{
	"epoch": 7.008985879332478,
	"grad_norm": 5000.9541015625,
	"learning_rate": 3.421828908554573e-05,
	"loss": 0.101,
	"step": 2730
	},
	{
	"epoch": 7.034659820282413,
	"grad_norm": 5288.25048828125,
	"learning_rate": 3.3923303834808265e-05,
	"loss": 0.0961,
	"step": 2740
	},
	{
	"epoch": 7.060333761232349,
	"grad_norm": 5404.33837890625,
	"learning_rate": 3.3628318584070804e-05,
	"loss": 0.1074,
	"step": 2750
	},
	{
	"epoch": 7.086007702182285,
	"grad_norm": 4586.51708984375,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.0978,
	"step": 2760
	},
	{
	"epoch": 7.111681643132221,
	"grad_norm": 5383.466796875,
	"learning_rate": 3.303834808259587e-05,
	"loss": 0.0983,
	"step": 2770
	},
	{
	"epoch": 7.137355584082156,
	"grad_norm": 5845.02294921875,
	"learning_rate": 3.274336283185841e-05,
	"loss": 0.0922,
	"step": 2780
	},
	{
	"epoch": 7.163029525032092,
	"grad_norm": 5654.388671875,
	"learning_rate": 3.244837758112095e-05,
	"loss": 0.0941,
	"step": 2790
	},
	{
	"epoch": 7.188703465982028,
	"grad_norm": 5832.42724609375,
	"learning_rate": 3.215339233038348e-05,
	"loss": 0.0949,
	"step": 2800
	},
	{
	"epoch": 7.214377406931964,
	"grad_norm": 5299.91015625,
	"learning_rate": 3.185840707964602e-05,
	"loss": 0.0988,
	"step": 2810
	},
	{
	"epoch": 7.2400513478818995,
	"grad_norm": 5652.5087890625,
	"learning_rate": 3.156342182890856e-05,
	"loss": 0.0982,
	"step": 2820
	},
	{
	"epoch": 7.2657252888318355,
	"grad_norm": 6181.0361328125,
	"learning_rate": 3.1268436578171095e-05,
	"loss": 0.098,
	"step": 2830
	},
	{
	"epoch": 7.291399229781772,
	"grad_norm": 13162.5078125,
	"learning_rate": 3.097345132743363e-05,
	"loss": 0.0951,
	"step": 2840
	},
	{
	"epoch": 7.317073170731708,
	"grad_norm": 5318.009765625,
	"learning_rate": 3.0678466076696165e-05,
	"loss": 0.0988,
	"step": 2850
	},
	{
	"epoch": 7.342747111681643,
	"grad_norm": 5820.310546875,
	"learning_rate": 3.0383480825958703e-05,
	"loss": 0.0983,
	"step": 2860
	},
	{
	"epoch": 7.368421052631579,
	"grad_norm": 5990.56640625,
	"learning_rate": 3.008849557522124e-05,
	"loss": 0.0982,
	"step": 2870
	},
	{
	"epoch": 7.394094993581515,
	"grad_norm": 5594.0703125,
	"learning_rate": 2.9793510324483776e-05,
	"loss": 0.0974,
	"step": 2880
	},
	{
	"epoch": 7.419768934531451,
	"grad_norm": 6317.15234375,
	"learning_rate": 2.9498525073746314e-05,
	"loss": 0.0932,
	"step": 2890
	},
	{
	"epoch": 7.445442875481387,
	"grad_norm": 8022.15185546875,
	"learning_rate": 2.9203539823008852e-05,
	"loss": 0.1041,
	"step": 2900
	},
	{
	"epoch": 7.471116816431322,
	"grad_norm": 5091.68310546875,
	"learning_rate": 2.890855457227139e-05,
	"loss": 0.0995,
	"step": 2910
	},
	{
	"epoch": 7.496790757381258,
	"grad_norm": 6386.40869140625,
	"learning_rate": 2.8613569321533922e-05,
	"loss": 0.0964,
	"step": 2920
	},
	{
	"epoch": 7.522464698331194,
	"grad_norm": 4850.58203125,
	"learning_rate": 2.831858407079646e-05,
	"loss": 0.1063,
	"step": 2930
	},
	{
	"epoch": 7.548138639281129,
	"grad_norm": 6846.75146484375,
	"learning_rate": 2.8023598820059e-05,
	"loss": 0.102,
	"step": 2940
	},
	{
	"epoch": 7.573812580231065,
	"grad_norm": 5613.95166015625,
	"learning_rate": 2.7728613569321537e-05,
	"loss": 0.0977,
	"step": 2950
	},
	{
	"epoch": 7.599486521181001,
	"grad_norm": 5055.47705078125,
	"learning_rate": 2.743362831858407e-05,
	"loss": 0.0937,
	"step": 2960
	},
	{
	"epoch": 7.625160462130937,
	"grad_norm": 5020.2568359375,
	"learning_rate": 2.713864306784661e-05,
	"loss": 0.0978,
	"step": 2970
	},
	{
	"epoch": 7.650834403080873,
	"grad_norm": 5974.265625,
	"learning_rate": 2.6843657817109148e-05,
	"loss": 0.098,
	"step": 2980
	},
	{
	"epoch": 7.676508344030808,
	"grad_norm": 6458.8662109375,
	"learning_rate": 2.6548672566371686e-05,
	"loss": 0.0964,
	"step": 2990
	},
	{
	"epoch": 7.702182284980744,
	"grad_norm": 5247.0791015625,
	"learning_rate": 2.6253687315634217e-05,
	"loss": 0.1029,
	"step": 3000
	},
	{
	"epoch": 7.702182284980744,
	"eval_gen_len": 38.946,
	"eval_loss": 0.09166006743907928,
	"eval_rouge1": 0.6133,
	"eval_rouge2": 0.3322,
	"eval_rougeL": 0.5794,
	"eval_runtime": 65.3195,
	"eval_samples_per_second": 7.655,
	"eval_steps_per_second": 0.49,
	"step": 3000
	},
	{
	"epoch": 7.7278562259306804,
	"grad_norm": 9114.529296875,
	"learning_rate": 2.5958702064896756e-05,
	"loss": 0.0958,
	"step": 3010
	},
	{
	"epoch": 7.7535301668806165,
	"grad_norm": 4675.69384765625,
	"learning_rate": 2.5663716814159294e-05,
	"loss": 0.0967,
	"step": 3020
	},
	{
	"epoch": 7.779204107830552,
	"grad_norm": 5986.85546875,
	"learning_rate": 2.5368731563421832e-05,
	"loss": 0.0963,
	"step": 3030
	},
	{
	"epoch": 7.804878048780488,
	"grad_norm": 5686.59716796875,
	"learning_rate": 2.5073746312684367e-05,
	"loss": 0.1,
	"step": 3040
	},
	{
	"epoch": 7.830551989730424,
	"grad_norm": 4628.58447265625,
	"learning_rate": 2.4778761061946905e-05,
	"loss": 0.0971,
	"step": 3050
	},
	{
	"epoch": 7.85622593068036,
	"grad_norm": 4568.95068359375,
	"learning_rate": 2.4483775811209443e-05,
	"loss": 0.0995,
	"step": 3060
	},
	{
	"epoch": 7.881899871630296,
	"grad_norm": 5026.5517578125,
	"learning_rate": 2.4188790560471978e-05,
	"loss": 0.0997,
	"step": 3070
	},
	{
	"epoch": 7.907573812580231,
	"grad_norm": 5142.33544921875,
	"learning_rate": 2.3893805309734516e-05,
	"loss": 0.0989,
	"step": 3080
	},
	{
	"epoch": 7.933247753530167,
	"grad_norm": 4715.99169921875,
	"learning_rate": 2.359882005899705e-05,
	"loss": 0.0982,
	"step": 3090
	},
	{
	"epoch": 7.958921694480103,
	"grad_norm": 7074.0263671875,
	"learning_rate": 2.330383480825959e-05,
	"loss": 0.0936,
	"step": 3100
	},
	{
	"epoch": 7.984595635430038,
	"grad_norm": 5483.7958984375,
	"learning_rate": 2.3008849557522124e-05,
	"loss": 0.1055,
	"step": 3110
	},
	{
	"epoch": 8.010269576379974,
	"grad_norm": 21462.302734375,
	"learning_rate": 2.2713864306784662e-05,
	"loss": 0.097,
	"step": 3120
	},
	{
	"epoch": 8.03594351732991,
	"grad_norm": 5375.9345703125,
	"learning_rate": 2.24188790560472e-05,
	"loss": 0.0945,
	"step": 3130
	},
	{
	"epoch": 8.061617458279846,
	"grad_norm": 5927.3203125,
	"learning_rate": 2.2123893805309738e-05,
	"loss": 0.0919,
	"step": 3140
	},
	{
	"epoch": 8.087291399229782,
	"grad_norm": 4952.16064453125,
	"learning_rate": 2.1828908554572273e-05,
	"loss": 0.1023,
	"step": 3150
	},
	{
	"epoch": 8.112965340179718,
	"grad_norm": 4753.6865234375,
	"learning_rate": 2.153392330383481e-05,
	"loss": 0.1038,
	"step": 3160
	},
	{
	"epoch": 8.138639281129654,
	"grad_norm": 4751.951171875,
	"learning_rate": 2.1238938053097346e-05,
	"loss": 0.0953,
	"step": 3170
	},
	{
	"epoch": 8.164313222079588,
	"grad_norm": 5049.07470703125,
	"learning_rate": 2.0943952802359884e-05,
	"loss": 0.0995,
	"step": 3180
	},
	{
	"epoch": 8.189987163029524,
	"grad_norm": 5914.5595703125,
	"learning_rate": 2.064896755162242e-05,
	"loss": 0.0994,
	"step": 3190
	},
	{
	"epoch": 8.21566110397946,
	"grad_norm": 5663.07568359375,
	"learning_rate": 2.0353982300884957e-05,
	"loss": 0.099,
	"step": 3200
	},
	{
	"epoch": 8.241335044929397,
	"grad_norm": 5172.39208984375,
	"learning_rate": 2.0058997050147492e-05,
	"loss": 0.1056,
	"step": 3210
	},
	{
	"epoch": 8.267008985879333,
	"grad_norm": 4296.75732421875,
	"learning_rate": 1.976401179941003e-05,
	"loss": 0.0917,
	"step": 3220
	},
	{
	"epoch": 8.292682926829269,
	"grad_norm": 5991.23046875,
	"learning_rate": 1.946902654867257e-05,
	"loss": 0.1005,
	"step": 3230
	},
	{
	"epoch": 8.318356867779205,
	"grad_norm": 4786.93017578125,
	"learning_rate": 1.9174041297935107e-05,
	"loss": 0.1013,
	"step": 3240
	},
	{
	"epoch": 8.34403080872914,
	"grad_norm": 5587.01416015625,
	"learning_rate": 1.887905604719764e-05,
	"loss": 0.1061,
	"step": 3250
	},
	{
	"epoch": 8.369704749679077,
	"grad_norm": 5002.3935546875,
	"learning_rate": 1.858407079646018e-05,
	"loss": 0.0981,
	"step": 3260
	},
	{
	"epoch": 8.39537869062901,
	"grad_norm": 5792.34814453125,
	"learning_rate": 1.8289085545722714e-05,
	"loss": 0.0982,
	"step": 3270
	},
	{
	"epoch": 8.421052631578947,
	"grad_norm": 5482.14501953125,
	"learning_rate": 1.7994100294985252e-05,
	"loss": 0.0977,
	"step": 3280
	},
	{
	"epoch": 8.446726572528883,
	"grad_norm": 5414.59326171875,
	"learning_rate": 1.7699115044247787e-05,
	"loss": 0.0959,
	"step": 3290
	},
	{
	"epoch": 8.472400513478819,
	"grad_norm": 6676.62548828125,
	"learning_rate": 1.7404129793510325e-05,
	"loss": 0.0964,
	"step": 3300
	},
	{
	"epoch": 8.498074454428755,
	"grad_norm": 5211.7705078125,
	"learning_rate": 1.7109144542772864e-05,
	"loss": 0.0936,
	"step": 3310
	},
	{
	"epoch": 8.523748395378691,
	"grad_norm": 5187.91015625,
	"learning_rate": 1.6814159292035402e-05,
	"loss": 0.092,
	"step": 3320
	},
	{
	"epoch": 8.549422336328627,
	"grad_norm": 16135.931640625,
	"learning_rate": 1.6519174041297937e-05,
	"loss": 0.093,
	"step": 3330
	},
	{
	"epoch": 8.575096277278563,
	"grad_norm": 5429.2236328125,
	"learning_rate": 1.6224188790560475e-05,
	"loss": 0.0957,
	"step": 3340
	},
	{
	"epoch": 8.600770218228497,
	"grad_norm": 5034.25732421875,
	"learning_rate": 1.592920353982301e-05,
	"loss": 0.0997,
	"step": 3350
	},
	{
	"epoch": 8.626444159178433,
	"grad_norm": 6611.349609375,
	"learning_rate": 1.5634218289085548e-05,
	"loss": 0.0963,
	"step": 3360
	},
	{
	"epoch": 8.65211810012837,
	"grad_norm": 5671.7568359375,
	"learning_rate": 1.5339233038348082e-05,
	"loss": 0.1065,
	"step": 3370
	},
	{
	"epoch": 8.677792041078305,
	"grad_norm": 8826.3564453125,
	"learning_rate": 1.504424778761062e-05,
	"loss": 0.0972,
	"step": 3380
	},
	{
	"epoch": 8.703465982028241,
	"grad_norm": 5669.00439453125,
	"learning_rate": 1.4749262536873157e-05,
	"loss": 0.0995,
	"step": 3390
	},
	{
	"epoch": 8.729139922978177,
	"grad_norm": 7719.87353515625,
	"learning_rate": 1.4454277286135695e-05,
	"loss": 0.0898,
	"step": 3400
	},
	{
	"epoch": 8.754813863928113,
	"grad_norm": 5668.51953125,
	"learning_rate": 1.415929203539823e-05,
	"loss": 0.1028,
	"step": 3410
	},
	{
	"epoch": 8.78048780487805,
	"grad_norm": 5719.044921875,
	"learning_rate": 1.3864306784660768e-05,
	"loss": 0.094,
	"step": 3420
	},
	{
	"epoch": 8.806161745827985,
	"grad_norm": 6085.166015625,
	"learning_rate": 1.3569321533923305e-05,
	"loss": 0.0938,
	"step": 3430
	},
	{
	"epoch": 8.83183568677792,
	"grad_norm": 5559.7431640625,
	"learning_rate": 1.3274336283185843e-05,
	"loss": 0.0962,
	"step": 3440
	},
	{
	"epoch": 8.857509627727856,
	"grad_norm": 7504.08349609375,
	"learning_rate": 1.2979351032448378e-05,
	"loss": 0.0964,
	"step": 3450
	},
	{
	"epoch": 8.883183568677792,
	"grad_norm": 6102.48486328125,
	"learning_rate": 1.2684365781710916e-05,
	"loss": 0.0967,
	"step": 3460
	},
	{
	"epoch": 8.908857509627728,
	"grad_norm": 5322.08251953125,
	"learning_rate": 1.2389380530973452e-05,
	"loss": 0.0952,
	"step": 3470
	},
	{
	"epoch": 8.934531450577664,
	"grad_norm": 5769.94091796875,
	"learning_rate": 1.2094395280235989e-05,
	"loss": 0.0957,
	"step": 3480
	},
	{
	"epoch": 8.9602053915276,
	"grad_norm": 4727.4755859375,
	"learning_rate": 1.1799410029498525e-05,
	"loss": 0.0942,
	"step": 3490
	},
	{
	"epoch": 8.985879332477536,
	"grad_norm": 4858.51416015625,
	"learning_rate": 1.1504424778761062e-05,
	"loss": 0.0977,
	"step": 3500
	},
	{
	"epoch": 8.985879332477536,
	"eval_gen_len": 38.946,
	"eval_loss": 0.09172539412975311,
	"eval_rouge1": 0.6126,
	"eval_rouge2": 0.3339,
	"eval_rougeL": 0.5795,
	"eval_runtime": 65.0875,
	"eval_samples_per_second": 7.682,
	"eval_steps_per_second": 0.492,
	"step": 3500
	}
	],
	"logging_steps": 10,
	"max_steps": 3890,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.517722961707008e+16,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}