gpt2-cpt-dutch / trainer_state.json

Model save

6e78c3a verified 2 months ago

No virus

66.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 2010,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0004975124378109452,
	"grad_norm": 11.875,
	"learning_rate": 9.950248756218907e-07,
	"loss": 4.8907,
	"step": 1
	},
	{
	"epoch": 0.0024875621890547263,
	"grad_norm": 13.125,
	"learning_rate": 4.975124378109453e-06,
	"loss": 4.8447,
	"step": 5
	},
	{
	"epoch": 0.004975124378109453,
	"grad_norm": 12.5,
	"learning_rate": 9.950248756218906e-06,
	"loss": 4.9268,
	"step": 10
	},
	{
	"epoch": 0.007462686567164179,
	"grad_norm": 12.375,
	"learning_rate": 1.4925373134328357e-05,
	"loss": 4.9396,
	"step": 15
	},
	{
	"epoch": 0.009950248756218905,
	"grad_norm": 14.6875,
	"learning_rate": 1.990049751243781e-05,
	"loss": 5.0521,
	"step": 20
	},
	{
	"epoch": 0.012437810945273632,
	"grad_norm": 12.625,
	"learning_rate": 2.4875621890547266e-05,
	"loss": 4.7898,
	"step": 25
	},
	{
	"epoch": 0.014925373134328358,
	"grad_norm": 12.875,
	"learning_rate": 2.9850746268656714e-05,
	"loss": 4.8798,
	"step": 30
	},
	{
	"epoch": 0.017412935323383085,
	"grad_norm": 11.9375,
	"learning_rate": 3.4825870646766175e-05,
	"loss": 4.8204,
	"step": 35
	},
	{
	"epoch": 0.01990049751243781,
	"grad_norm": 11.6875,
	"learning_rate": 3.980099502487562e-05,
	"loss": 4.684,
	"step": 40
	},
	{
	"epoch": 0.022388059701492536,
	"grad_norm": 13.1875,
	"learning_rate": 4.477611940298508e-05,
	"loss": 4.6143,
	"step": 45
	},
	{
	"epoch": 0.024875621890547265,
	"grad_norm": 10.6875,
	"learning_rate": 4.975124378109453e-05,
	"loss": 4.5667,
	"step": 50
	},
	{
	"epoch": 0.02736318407960199,
	"grad_norm": 12.5625,
	"learning_rate": 5.472636815920398e-05,
	"loss": 4.6985,
	"step": 55
	},
	{
	"epoch": 0.029850746268656716,
	"grad_norm": 13.375,
	"learning_rate": 5.970149253731343e-05,
	"loss": 4.5517,
	"step": 60
	},
	{
	"epoch": 0.03233830845771144,
	"grad_norm": 11.5625,
	"learning_rate": 6.46766169154229e-05,
	"loss": 4.5351,
	"step": 65
	},
	{
	"epoch": 0.03482587064676617,
	"grad_norm": 11.5625,
	"learning_rate": 6.965174129353235e-05,
	"loss": 4.454,
	"step": 70
	},
	{
	"epoch": 0.03731343283582089,
	"grad_norm": 11.125,
	"learning_rate": 7.46268656716418e-05,
	"loss": 4.4039,
	"step": 75
	},
	{
	"epoch": 0.03980099502487562,
	"grad_norm": 10.875,
	"learning_rate": 7.960199004975125e-05,
	"loss": 4.3716,
	"step": 80
	},
	{
	"epoch": 0.04228855721393035,
	"grad_norm": 10.8125,
	"learning_rate": 8.45771144278607e-05,
	"loss": 4.3879,
	"step": 85
	},
	{
	"epoch": 0.04477611940298507,
	"grad_norm": 10.25,
	"learning_rate": 8.955223880597016e-05,
	"loss": 4.1858,
	"step": 90
	},
	{
	"epoch": 0.0472636815920398,
	"grad_norm": 10.5,
	"learning_rate": 9.452736318407961e-05,
	"loss": 4.421,
	"step": 95
	},
	{
	"epoch": 0.04975124378109453,
	"grad_norm": 10.375,
	"learning_rate": 9.950248756218906e-05,
	"loss": 4.3506,
	"step": 100
	},
	{
	"epoch": 0.05223880597014925,
	"grad_norm": 11.3125,
	"learning_rate": 0.0001044776119402985,
	"loss": 4.2671,
	"step": 105
	},
	{
	"epoch": 0.05472636815920398,
	"grad_norm": 8.625,
	"learning_rate": 0.00010945273631840796,
	"loss": 4.296,
	"step": 110
	},
	{
	"epoch": 0.05721393034825871,
	"grad_norm": 11.75,
	"learning_rate": 0.00011442786069651741,
	"loss": 4.1273,
	"step": 115
	},
	{
	"epoch": 0.05970149253731343,
	"grad_norm": 8.25,
	"learning_rate": 0.00011940298507462686,
	"loss": 4.3068,
	"step": 120
	},
	{
	"epoch": 0.06218905472636816,
	"grad_norm": 9.1875,
	"learning_rate": 0.0001243781094527363,
	"loss": 4.2837,
	"step": 125
	},
	{
	"epoch": 0.06467661691542288,
	"grad_norm": 11.75,
	"learning_rate": 0.0001293532338308458,
	"loss": 4.3174,
	"step": 130
	},
	{
	"epoch": 0.06716417910447761,
	"grad_norm": 10.0,
	"learning_rate": 0.00013432835820895525,
	"loss": 4.086,
	"step": 135
	},
	{
	"epoch": 0.06965174129353234,
	"grad_norm": 9.3125,
	"learning_rate": 0.0001393034825870647,
	"loss": 4.4375,
	"step": 140
	},
	{
	"epoch": 0.07213930348258707,
	"grad_norm": 8.8125,
	"learning_rate": 0.00014427860696517416,
	"loss": 4.2058,
	"step": 145
	},
	{
	"epoch": 0.07462686567164178,
	"grad_norm": 8.6875,
	"learning_rate": 0.0001492537313432836,
	"loss": 4.1712,
	"step": 150
	},
	{
	"epoch": 0.07711442786069651,
	"grad_norm": 9.1875,
	"learning_rate": 0.00015422885572139304,
	"loss": 4.0637,
	"step": 155
	},
	{
	"epoch": 0.07960199004975124,
	"grad_norm": 9.0,
	"learning_rate": 0.0001592039800995025,
	"loss": 4.0861,
	"step": 160
	},
	{
	"epoch": 0.08208955223880597,
	"grad_norm": 10.0625,
	"learning_rate": 0.00016417910447761195,
	"loss": 4.1879,
	"step": 165
	},
	{
	"epoch": 0.0845771144278607,
	"grad_norm": 8.5625,
	"learning_rate": 0.0001691542288557214,
	"loss": 4.2878,
	"step": 170
	},
	{
	"epoch": 0.08706467661691543,
	"grad_norm": 9.6875,
	"learning_rate": 0.00017412935323383086,
	"loss": 4.0535,
	"step": 175
	},
	{
	"epoch": 0.08955223880597014,
	"grad_norm": 8.8125,
	"learning_rate": 0.0001791044776119403,
	"loss": 4.1332,
	"step": 180
	},
	{
	"epoch": 0.09203980099502487,
	"grad_norm": 9.8125,
	"learning_rate": 0.00018407960199004977,
	"loss": 4.114,
	"step": 185
	},
	{
	"epoch": 0.0945273631840796,
	"grad_norm": 9.25,
	"learning_rate": 0.00018905472636815922,
	"loss": 4.0242,
	"step": 190
	},
	{
	"epoch": 0.09701492537313433,
	"grad_norm": 8.875,
	"learning_rate": 0.00019402985074626867,
	"loss": 4.1829,
	"step": 195
	},
	{
	"epoch": 0.09950248756218906,
	"grad_norm": 11.375,
	"learning_rate": 0.00019900497512437813,
	"loss": 4.2259,
	"step": 200
	},
	{
	"epoch": 0.10199004975124377,
	"grad_norm": 8.4375,
	"learning_rate": 0.000199997587258178,
	"loss": 4.302,
	"step": 205
	},
	{
	"epoch": 0.1044776119402985,
	"grad_norm": 10.4375,
	"learning_rate": 0.0001999877856940653,
	"loss": 4.0564,
	"step": 210
	},
	{
	"epoch": 0.10696517412935323,
	"grad_norm": 10.8125,
	"learning_rate": 0.00019997044524974799,
	"loss": 4.0902,
	"step": 215
	},
	{
	"epoch": 0.10945273631840796,
	"grad_norm": 8.125,
	"learning_rate": 0.00019994556723266103,
	"loss": 4.0716,
	"step": 220
	},
	{
	"epoch": 0.11194029850746269,
	"grad_norm": 8.0,
	"learning_rate": 0.00019991315351855748,
	"loss": 4.1908,
	"step": 225
	},
	{
	"epoch": 0.11442786069651742,
	"grad_norm": 9.0,
	"learning_rate": 0.00019987320655136693,
	"loss": 4.2773,
	"step": 230
	},
	{
	"epoch": 0.11691542288557213,
	"grad_norm": 9.6875,
	"learning_rate": 0.00019982572934301122,
	"loss": 4.1853,
	"step": 235
	},
	{
	"epoch": 0.11940298507462686,
	"grad_norm": 9.0625,
	"learning_rate": 0.0001997707254731775,
	"loss": 4.1019,
	"step": 240
	},
	{
	"epoch": 0.12189054726368159,
	"grad_norm": 9.3125,
	"learning_rate": 0.00019970819908904814,
	"loss": 4.198,
	"step": 245
	},
	{
	"epoch": 0.12437810945273632,
	"grad_norm": 9.125,
	"learning_rate": 0.00019963815490498817,
	"loss": 4.1697,
	"step": 250
	},
	{
	"epoch": 0.12686567164179105,
	"grad_norm": 10.625,
	"learning_rate": 0.00019956059820218982,
	"loss": 4.0784,
	"step": 255
	},
	{
	"epoch": 0.12935323383084577,
	"grad_norm": 9.0,
	"learning_rate": 0.00019947553482827418,
	"loss": 4.1693,
	"step": 260
	},
	{
	"epoch": 0.1318407960199005,
	"grad_norm": 8.0625,
	"learning_rate": 0.00019938297119685054,
	"loss": 4.0987,
	"step": 265
	},
	{
	"epoch": 0.13432835820895522,
	"grad_norm": 7.9375,
	"learning_rate": 0.00019928291428703262,
	"loss": 4.1734,
	"step": 270
	},
	{
	"epoch": 0.13681592039800994,
	"grad_norm": 7.5625,
	"learning_rate": 0.00019917537164291244,
	"loss": 4.0456,
	"step": 275
	},
	{
	"epoch": 0.13930348258706468,
	"grad_norm": 8.25,
	"learning_rate": 0.0001990603513729915,
	"loss": 4.1025,
	"step": 280
	},
	{
	"epoch": 0.1417910447761194,
	"grad_norm": 8.625,
	"learning_rate": 0.00019893786214956945,
	"loss": 4.1861,
	"step": 285
	},
	{
	"epoch": 0.14427860696517414,
	"grad_norm": 8.5,
	"learning_rate": 0.0001988079132080901,
	"loss": 4.1516,
	"step": 290
	},
	{
	"epoch": 0.14676616915422885,
	"grad_norm": 8.0625,
	"learning_rate": 0.0001986705143464453,
	"loss": 4.0148,
	"step": 295
	},
	{
	"epoch": 0.14925373134328357,
	"grad_norm": 7.96875,
	"learning_rate": 0.0001985256759242359,
	"loss": 3.9918,
	"step": 300
	},
	{
	"epoch": 0.1517412935323383,
	"grad_norm": 7.875,
	"learning_rate": 0.00019837340886199096,
	"loss": 4.0434,
	"step": 305
	},
	{
	"epoch": 0.15422885572139303,
	"grad_norm": 7.65625,
	"learning_rate": 0.00019821372464034416,
	"loss": 4.1499,
	"step": 310
	},
	{
	"epoch": 0.15671641791044777,
	"grad_norm": 8.75,
	"learning_rate": 0.00019804663529916826,
	"loss": 4.0495,
	"step": 315
	},
	{
	"epoch": 0.15920398009950248,
	"grad_norm": 9.6875,
	"learning_rate": 0.00019787215343666732,
	"loss": 4.0981,
	"step": 320
	},
	{
	"epoch": 0.16169154228855723,
	"grad_norm": 8.3125,
	"learning_rate": 0.00019769029220842677,
	"loss": 4.0678,
	"step": 325
	},
	{
	"epoch": 0.16417910447761194,
	"grad_norm": 8.8125,
	"learning_rate": 0.0001975010653264216,
	"loss": 4.1043,
	"step": 330
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 8.5,
	"learning_rate": 0.00019730448705798239,
	"loss": 4.1361,
	"step": 335
	},
	{
	"epoch": 0.1691542288557214,
	"grad_norm": 8.1875,
	"learning_rate": 0.00019710057222471967,
	"loss": 3.9753,
	"step": 340
	},
	{
	"epoch": 0.17164179104477612,
	"grad_norm": 7.875,
	"learning_rate": 0.00019688933620140637,
	"loss": 4.1972,
	"step": 345
	},
	{
	"epoch": 0.17412935323383086,
	"grad_norm": 7.4375,
	"learning_rate": 0.0001966707949148186,
	"loss": 4.0355,
	"step": 350
	},
	{
	"epoch": 0.17661691542288557,
	"grad_norm": 8.1875,
	"learning_rate": 0.00019644496484253474,
	"loss": 4.0079,
	"step": 355
	},
	{
	"epoch": 0.1791044776119403,
	"grad_norm": 8.4375,
	"learning_rate": 0.00019621186301169315,
	"loss": 3.9721,
	"step": 360
	},
	{
	"epoch": 0.18159203980099503,
	"grad_norm": 8.25,
	"learning_rate": 0.00019597150699770835,
	"loss": 4.1628,
	"step": 365
	},
	{
	"epoch": 0.18407960199004975,
	"grad_norm": 8.0625,
	"learning_rate": 0.0001957239149229458,
	"loss": 3.9472,
	"step": 370
	},
	{
	"epoch": 0.1865671641791045,
	"grad_norm": 8.125,
	"learning_rate": 0.00019546910545535558,
	"loss": 4.2425,
	"step": 375
	},
	{
	"epoch": 0.1890547263681592,
	"grad_norm": 9.0625,
	"learning_rate": 0.00019520709780706486,
	"loss": 4.1314,
	"step": 380
	},
	{
	"epoch": 0.19154228855721392,
	"grad_norm": 8.5,
	"learning_rate": 0.00019493791173292923,
	"loss": 4.0324,
	"step": 385
	},
	{
	"epoch": 0.19402985074626866,
	"grad_norm": 8.0,
	"learning_rate": 0.00019466156752904343,
	"loss": 4.0719,
	"step": 390
	},
	{
	"epoch": 0.19651741293532338,
	"grad_norm": 8.0625,
	"learning_rate": 0.00019437808603121087,
	"loss": 3.8774,
	"step": 395
	},
	{
	"epoch": 0.19900497512437812,
	"grad_norm": 9.3125,
	"learning_rate": 0.00019408748861337273,
	"loss": 4.1163,
	"step": 400
	},
	{
	"epoch": 0.20149253731343283,
	"grad_norm": 8.1875,
	"learning_rate": 0.00019378979718599645,
	"loss": 4.1658,
	"step": 405
	},
	{
	"epoch": 0.20398009950248755,
	"grad_norm": 7.625,
	"learning_rate": 0.0001934850341944237,
	"loss": 4.1059,
	"step": 410
	},
	{
	"epoch": 0.2064676616915423,
	"grad_norm": 7.9375,
	"learning_rate": 0.00019317322261717794,
	"loss": 4.0303,
	"step": 415
	},
	{
	"epoch": 0.208955223880597,
	"grad_norm": 8.25,
	"learning_rate": 0.00019285438596423204,
	"loss": 3.9217,
	"step": 420
	},
	{
	"epoch": 0.21144278606965175,
	"grad_norm": 7.375,
	"learning_rate": 0.00019252854827523557,
	"loss": 4.0601,
	"step": 425
	},
	{
	"epoch": 0.21393034825870647,
	"grad_norm": 9.6875,
	"learning_rate": 0.00019219573411770235,
	"loss": 4.025,
	"step": 430
	},
	{
	"epoch": 0.21641791044776118,
	"grad_norm": 7.71875,
	"learning_rate": 0.000191855968585158,
	"loss": 4.0082,
	"step": 435
	},
	{
	"epoch": 0.21890547263681592,
	"grad_norm": 6.46875,
	"learning_rate": 0.000191509277295248,
	"loss": 3.9052,
	"step": 440
	},
	{
	"epoch": 0.22139303482587064,
	"grad_norm": 9.3125,
	"learning_rate": 0.00019115568638780622,
	"loss": 3.8947,
	"step": 445
	},
	{
	"epoch": 0.22388059701492538,
	"grad_norm": 7.40625,
	"learning_rate": 0.00019079522252288386,
	"loss": 3.8908,
	"step": 450
	},
	{
	"epoch": 0.2263681592039801,
	"grad_norm": 8.5,
	"learning_rate": 0.00019042791287873957,
	"loss": 4.198,
	"step": 455
	},
	{
	"epoch": 0.22885572139303484,
	"grad_norm": 8.1875,
	"learning_rate": 0.00019005378514979008,
	"loss": 4.06,
	"step": 460
	},
	{
	"epoch": 0.23134328358208955,
	"grad_norm": 7.625,
	"learning_rate": 0.00018967286754452214,
	"loss": 4.1332,
	"step": 465
	},
	{
	"epoch": 0.23383084577114427,
	"grad_norm": 7.9375,
	"learning_rate": 0.0001892851887833657,
	"loss": 4.0782,
	"step": 470
	},
	{
	"epoch": 0.236318407960199,
	"grad_norm": 7.28125,
	"learning_rate": 0.0001888907780965284,
	"loss": 4.0219,
	"step": 475
	},
	{
	"epoch": 0.23880597014925373,
	"grad_norm": 7.59375,
	"learning_rate": 0.00018848966522179168,
	"loss": 4.0916,
	"step": 480
	},
	{
	"epoch": 0.24129353233830847,
	"grad_norm": 7.53125,
	"learning_rate": 0.00018808188040226868,
	"loss": 4.1352,
	"step": 485
	},
	{
	"epoch": 0.24378109452736318,
	"grad_norm": 8.25,
	"learning_rate": 0.00018766745438412384,
	"loss": 4.0799,
	"step": 490
	},
	{
	"epoch": 0.2462686567164179,
	"grad_norm": 8.375,
	"learning_rate": 0.00018724641841425478,
	"loss": 4.0501,
	"step": 495
	},
	{
	"epoch": 0.24875621890547264,
	"grad_norm": 7.90625,
	"learning_rate": 0.00018681880423793642,
	"loss": 4.0131,
	"step": 500
	},
	{
	"epoch": 0.2512437810945274,
	"grad_norm": 8.25,
	"learning_rate": 0.00018638464409642723,
	"loss": 4.2064,
	"step": 505
	},
	{
	"epoch": 0.2537313432835821,
	"grad_norm": 7.0,
	"learning_rate": 0.00018594397072453856,
	"loss": 4.1475,
	"step": 510
	},
	{
	"epoch": 0.2562189054726368,
	"grad_norm": 7.28125,
	"learning_rate": 0.00018549681734816623,
	"loss": 3.9829,
	"step": 515
	},
	{
	"epoch": 0.25870646766169153,
	"grad_norm": 7.5625,
	"learning_rate": 0.0001850432176817857,
	"loss": 4.0752,
	"step": 520
	},
	{
	"epoch": 0.26119402985074625,
	"grad_norm": 7.96875,
	"learning_rate": 0.00018458320592590975,
	"loss": 3.8724,
	"step": 525
	},
	{
	"epoch": 0.263681592039801,
	"grad_norm": 7.3125,
	"learning_rate": 0.00018411681676450999,
	"loss": 4.0854,
	"step": 530
	},
	{
	"epoch": 0.26616915422885573,
	"grad_norm": 7.84375,
	"learning_rate": 0.0001836440853624017,
	"loss": 4.0408,
	"step": 535
	},
	{
	"epoch": 0.26865671641791045,
	"grad_norm": 8.6875,
	"learning_rate": 0.00018316504736259255,
	"loss": 4.0437,
	"step": 540
	},
	{
	"epoch": 0.27114427860696516,
	"grad_norm": 6.8125,
	"learning_rate": 0.00018267973888359509,
	"loss": 4.0593,
	"step": 545
	},
	{
	"epoch": 0.2736318407960199,
	"grad_norm": 7.625,
	"learning_rate": 0.00018218819651670356,
	"loss": 3.9724,
	"step": 550
	},
	{
	"epoch": 0.27611940298507465,
	"grad_norm": 7.09375,
	"learning_rate": 0.00018169045732323492,
	"loss": 4.1018,
	"step": 555
	},
	{
	"epoch": 0.27860696517412936,
	"grad_norm": 7.75,
	"learning_rate": 0.00018118655883173456,
	"loss": 4.1389,
	"step": 560
	},
	{
	"epoch": 0.2810945273631841,
	"grad_norm": 7.75,
	"learning_rate": 0.0001806765390351467,
	"loss": 4.0369,
	"step": 565
	},
	{
	"epoch": 0.2835820895522388,
	"grad_norm": 6.84375,
	"learning_rate": 0.00018016043638794974,
	"loss": 4.1131,
	"step": 570
	},
	{
	"epoch": 0.2860696517412935,
	"grad_norm": 6.6875,
	"learning_rate": 0.00017963828980325697,
	"loss": 3.8789,
	"step": 575
	},
	{
	"epoch": 0.2885572139303483,
	"grad_norm": 8.0625,
	"learning_rate": 0.00017911013864988252,
	"loss": 4.1892,
	"step": 580
	},
	{
	"epoch": 0.291044776119403,
	"grad_norm": 7.4375,
	"learning_rate": 0.00017857602274937308,
	"loss": 4.0332,
	"step": 585
	},
	{
	"epoch": 0.2935323383084577,
	"grad_norm": 7.6875,
	"learning_rate": 0.00017803598237300537,
	"loss": 4.0141,
	"step": 590
	},
	{
	"epoch": 0.2960199004975124,
	"grad_norm": 7.34375,
	"learning_rate": 0.00017749005823874988,
	"loss": 3.9258,
	"step": 595
	},
	{
	"epoch": 0.29850746268656714,
	"grad_norm": 6.9375,
	"learning_rate": 0.00017693829150820068,
	"loss": 4.072,
	"step": 600
	},
	{
	"epoch": 0.3009950248756219,
	"grad_norm": 7.3125,
	"learning_rate": 0.00017638072378347203,
	"loss": 3.8492,
	"step": 605
	},
	{
	"epoch": 0.3034825870646766,
	"grad_norm": 7.1875,
	"learning_rate": 0.0001758173971040616,
	"loss": 3.8323,
	"step": 610
	},
	{
	"epoch": 0.30597014925373134,
	"grad_norm": 8.25,
	"learning_rate": 0.00017524835394368065,
	"loss": 3.9926,
	"step": 615
	},
	{
	"epoch": 0.30845771144278605,
	"grad_norm": 7.53125,
	"learning_rate": 0.00017467363720705204,
	"loss": 4.0593,
	"step": 620
	},
	{
	"epoch": 0.31094527363184077,
	"grad_norm": 7.90625,
	"learning_rate": 0.0001740932902266747,
	"loss": 3.8775,
	"step": 625
	},
	{
	"epoch": 0.31343283582089554,
	"grad_norm": 7.8125,
	"learning_rate": 0.00017350735675955697,
	"loss": 4.1344,
	"step": 630
	},
	{
	"epoch": 0.31592039800995025,
	"grad_norm": 8.4375,
	"learning_rate": 0.000172915880983917,
	"loss": 3.948,
	"step": 635
	},
	{
	"epoch": 0.31840796019900497,
	"grad_norm": 6.96875,
	"learning_rate": 0.0001723189074958521,
	"loss": 3.9485,
	"step": 640
	},
	{
	"epoch": 0.3208955223880597,
	"grad_norm": 7.625,
	"learning_rate": 0.00017171648130597612,
	"loss": 3.9687,
	"step": 645
	},
	{
	"epoch": 0.32338308457711445,
	"grad_norm": 6.6875,
	"learning_rate": 0.0001711086478360257,
	"loss": 4.0554,
	"step": 650
	},
	{
	"epoch": 0.32587064676616917,
	"grad_norm": 6.9375,
	"learning_rate": 0.0001704954529154359,
	"loss": 4.0395,
	"step": 655
	},
	{
	"epoch": 0.3283582089552239,
	"grad_norm": 6.71875,
	"learning_rate": 0.00016987694277788417,
	"loss": 3.9427,
	"step": 660
	},
	{
	"epoch": 0.3308457711442786,
	"grad_norm": 7.4375,
	"learning_rate": 0.000169253164057805,
	"loss": 3.9438,
	"step": 665
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 7.6875,
	"learning_rate": 0.0001686241637868734,
	"loss": 4.1186,
	"step": 670
	},
	{
	"epoch": 0.3358208955223881,
	"grad_norm": 6.59375,
	"learning_rate": 0.00016798998939045895,
	"loss": 4.0849,
	"step": 675
	},
	{
	"epoch": 0.3383084577114428,
	"grad_norm": 7.375,
	"learning_rate": 0.00016735068868404998,
	"loss": 3.9868,
	"step": 680
	},
	{
	"epoch": 0.3407960199004975,
	"grad_norm": 6.9375,
	"learning_rate": 0.0001667063098696485,
	"loss": 3.9275,
	"step": 685
	},
	{
	"epoch": 0.34328358208955223,
	"grad_norm": 8.125,
	"learning_rate": 0.0001660569015321357,
	"loss": 4.0451,
	"step": 690
	},
	{
	"epoch": 0.34577114427860695,
	"grad_norm": 8.3125,
	"learning_rate": 0.00016540251263560878,
	"loss": 3.9818,
	"step": 695
	},
	{
	"epoch": 0.3482587064676617,
	"grad_norm": 8.875,
	"learning_rate": 0.00016474319251968923,
	"loss": 3.9491,
	"step": 700
	},
	{
	"epoch": 0.35074626865671643,
	"grad_norm": 6.65625,
	"learning_rate": 0.00016407899089580262,
	"loss": 3.9901,
	"step": 705
	},
	{
	"epoch": 0.35323383084577115,
	"grad_norm": 7.46875,
	"learning_rate": 0.0001634099578434306,
	"loss": 3.9471,
	"step": 710
	},
	{
	"epoch": 0.35572139303482586,
	"grad_norm": 7.375,
	"learning_rate": 0.00016273614380633484,
	"loss": 3.897,
	"step": 715
	},
	{
	"epoch": 0.3582089552238806,
	"grad_norm": 8.4375,
	"learning_rate": 0.0001620575995887538,
	"loss": 3.9658,
	"step": 720
	},
	{
	"epoch": 0.36069651741293535,
	"grad_norm": 6.78125,
	"learning_rate": 0.00016137437635157213,
	"loss": 3.9457,
	"step": 725
	},
	{
	"epoch": 0.36318407960199006,
	"grad_norm": 6.96875,
	"learning_rate": 0.00016068652560846327,
	"loss": 4.143,
	"step": 730
	},
	{
	"epoch": 0.3656716417910448,
	"grad_norm": 7.21875,
	"learning_rate": 0.0001599940992220053,
	"loss": 4.0813,
	"step": 735
	},
	{
	"epoch": 0.3681592039800995,
	"grad_norm": 7.40625,
	"learning_rate": 0.0001592971493997709,
	"loss": 4.019,
	"step": 740
	},
	{
	"epoch": 0.3706467661691542,
	"grad_norm": 6.75,
	"learning_rate": 0.00015859572869039064,
	"loss": 4.0779,
	"step": 745
	},
	{
	"epoch": 0.373134328358209,
	"grad_norm": 8.1875,
	"learning_rate": 0.00015788988997959114,
	"loss": 4.1056,
	"step": 750
	},
	{
	"epoch": 0.3756218905472637,
	"grad_norm": 6.53125,
	"learning_rate": 0.00015717968648620764,
	"loss": 4.0207,
	"step": 755
	},
	{
	"epoch": 0.3781094527363184,
	"grad_norm": 7.8125,
	"learning_rate": 0.00015646517175817114,
	"loss": 4.2123,
	"step": 760
	},
	{
	"epoch": 0.3805970149253731,
	"grad_norm": 6.84375,
	"learning_rate": 0.00015574639966847126,
	"loss": 4.0826,
	"step": 765
	},
	{
	"epoch": 0.38308457711442784,
	"grad_norm": 6.71875,
	"learning_rate": 0.00015502342441109422,
	"loss": 4.0236,
	"step": 770
	},
	{
	"epoch": 0.3855721393034826,
	"grad_norm": 7.625,
	"learning_rate": 0.00015429630049693674,
	"loss": 3.9291,
	"step": 775
	},
	{
	"epoch": 0.3880597014925373,
	"grad_norm": 7.875,
	"learning_rate": 0.00015356508274969594,
	"loss": 4.0301,
	"step": 780
	},
	{
	"epoch": 0.39054726368159204,
	"grad_norm": 7.03125,
	"learning_rate": 0.00015282982630173585,
	"loss": 3.9478,
	"step": 785
	},
	{
	"epoch": 0.39303482587064675,
	"grad_norm": 6.0625,
	"learning_rate": 0.00015209058658993056,
	"loss": 3.9102,
	"step": 790
	},
	{
	"epoch": 0.39552238805970147,
	"grad_norm": 6.46875,
	"learning_rate": 0.0001513474193514842,
	"loss": 4.0111,
	"step": 795
	},
	{
	"epoch": 0.39800995024875624,
	"grad_norm": 7.15625,
	"learning_rate": 0.00015060038061972874,
	"loss": 3.9447,
	"step": 800
	},
	{
	"epoch": 0.40049751243781095,
	"grad_norm": 5.5,
	"learning_rate": 0.000149849526719899,
	"loss": 3.7303,
	"step": 805
	},
	{
	"epoch": 0.40298507462686567,
	"grad_norm": 7.21875,
	"learning_rate": 0.00014909491426488578,
	"loss": 4.1654,
	"step": 810
	},
	{
	"epoch": 0.4054726368159204,
	"grad_norm": 7.46875,
	"learning_rate": 0.00014833660015096766,
	"loss": 3.8909,
	"step": 815
	},
	{
	"epoch": 0.4079601990049751,
	"grad_norm": 6.84375,
	"learning_rate": 0.00014757464155352082,
	"loss": 3.9657,
	"step": 820
	},
	{
	"epoch": 0.41044776119402987,
	"grad_norm": 7.125,
	"learning_rate": 0.0001468090959227082,
	"loss": 3.9625,
	"step": 825
	},
	{
	"epoch": 0.4129353233830846,
	"grad_norm": 7.34375,
	"learning_rate": 0.00014604002097914806,
	"loss": 3.8299,
	"step": 830
	},
	{
	"epoch": 0.4154228855721393,
	"grad_norm": 7.15625,
	"learning_rate": 0.00014526747470956176,
	"loss": 3.9513,
	"step": 835
	},
	{
	"epoch": 0.417910447761194,
	"grad_norm": 6.09375,
	"learning_rate": 0.00014449151536240166,
	"loss": 3.828,
	"step": 840
	},
	{
	"epoch": 0.42039800995024873,
	"grad_norm": 6.0625,
	"learning_rate": 0.00014371220144345954,
	"loss": 3.9232,
	"step": 845
	},
	{
	"epoch": 0.4228855721393035,
	"grad_norm": 5.96875,
	"learning_rate": 0.0001429295917114551,
	"loss": 3.8572,
	"step": 850
	},
	{
	"epoch": 0.4253731343283582,
	"grad_norm": 7.03125,
	"learning_rate": 0.00014214374517360575,
	"loss": 3.9477,
	"step": 855
	},
	{
	"epoch": 0.42786069651741293,
	"grad_norm": 7.90625,
	"learning_rate": 0.00014135472108117787,
	"loss": 4.2486,
	"step": 860
	},
	{
	"epoch": 0.43034825870646765,
	"grad_norm": 6.34375,
	"learning_rate": 0.00014056257892501885,
	"loss": 3.9868,
	"step": 865
	},
	{
	"epoch": 0.43283582089552236,
	"grad_norm": 6.5,
	"learning_rate": 0.00013976737843107202,
	"loss": 4.1234,
	"step": 870
	},
	{
	"epoch": 0.43532338308457713,
	"grad_norm": 7.0625,
	"learning_rate": 0.00013896917955587328,
	"loss": 4.006,
	"step": 875
	},
	{
	"epoch": 0.43781094527363185,
	"grad_norm": 7.375,
	"learning_rate": 0.00013816804248203052,
	"loss": 3.9775,
	"step": 880
	},
	{
	"epoch": 0.44029850746268656,
	"grad_norm": 6.84375,
	"learning_rate": 0.00013736402761368598,
	"loss": 3.9257,
	"step": 885
	},
	{
	"epoch": 0.4427860696517413,
	"grad_norm": 6.78125,
	"learning_rate": 0.00013655719557196185,
	"loss": 3.9621,
	"step": 890
	},
	{
	"epoch": 0.44527363184079605,
	"grad_norm": 7.25,
	"learning_rate": 0.0001357476071903896,
	"loss": 3.8718,
	"step": 895
	},
	{
	"epoch": 0.44776119402985076,
	"grad_norm": 7.4375,
	"learning_rate": 0.0001349353235103232,
	"loss": 3.9892,
	"step": 900
	},
	{
	"epoch": 0.4502487562189055,
	"grad_norm": 7.625,
	"learning_rate": 0.00013412040577633687,
	"loss": 4.2505,
	"step": 905
	},
	{
	"epoch": 0.4527363184079602,
	"grad_norm": 7.03125,
	"learning_rate": 0.0001333029154316072,
	"loss": 3.9349,
	"step": 910
	},
	{
	"epoch": 0.4552238805970149,
	"grad_norm": 6.9375,
	"learning_rate": 0.00013248291411328047,
	"loss": 3.9892,
	"step": 915
	},
	{
	"epoch": 0.4577114427860697,
	"grad_norm": 5.84375,
	"learning_rate": 0.00013166046364782545,
	"loss": 3.9654,
	"step": 920
	},
	{
	"epoch": 0.4601990049751244,
	"grad_norm": 7.03125,
	"learning_rate": 0.0001308356260463717,
	"loss": 4.0497,
	"step": 925
	},
	{
	"epoch": 0.4626865671641791,
	"grad_norm": 7.34375,
	"learning_rate": 0.0001300084635000341,
	"loss": 3.8808,
	"step": 930
	},
	{
	"epoch": 0.4651741293532338,
	"grad_norm": 6.71875,
	"learning_rate": 0.0001291790383752237,
	"loss": 3.957,
	"step": 935
	},
	{
	"epoch": 0.46766169154228854,
	"grad_norm": 7.59375,
	"learning_rate": 0.00012834741320894553,
	"loss": 3.936,
	"step": 940
	},
	{
	"epoch": 0.4701492537313433,
	"grad_norm": 6.34375,
	"learning_rate": 0.00012751365070408333,
	"loss": 4.0231,
	"step": 945
	},
	{
	"epoch": 0.472636815920398,
	"grad_norm": 5.96875,
	"learning_rate": 0.00012667781372467202,
	"loss": 4.0101,
	"step": 950
	},
	{
	"epoch": 0.47512437810945274,
	"grad_norm": 7.15625,
	"learning_rate": 0.00012583996529115762,
	"loss": 3.9361,
	"step": 955
	},
	{
	"epoch": 0.47761194029850745,
	"grad_norm": 6.5625,
	"learning_rate": 0.00012500016857564585,
	"loss": 4.0114,
	"step": 960
	},
	{
	"epoch": 0.48009950248756217,
	"grad_norm": 6.875,
	"learning_rate": 0.00012415848689713903,
	"loss": 3.9577,
	"step": 965
	},
	{
	"epoch": 0.48258706467661694,
	"grad_norm": 6.875,
	"learning_rate": 0.00012331498371676204,
	"loss": 3.8951,
	"step": 970
	},
	{
	"epoch": 0.48507462686567165,
	"grad_norm": 7.0,
	"learning_rate": 0.0001224697226329772,
	"loss": 3.9695,
	"step": 975
	},
	{
	"epoch": 0.48756218905472637,
	"grad_norm": 6.09375,
	"learning_rate": 0.00012162276737678933,
	"loss": 3.9444,
	"step": 980
	},
	{
	"epoch": 0.4900497512437811,
	"grad_norm": 6.75,
	"learning_rate": 0.0001207741818069405,
	"loss": 3.9877,
	"step": 985
	},
	{
	"epoch": 0.4925373134328358,
	"grad_norm": 6.875,
	"learning_rate": 0.00011992402990509515,
	"loss": 3.9706,
	"step": 990
	},
	{
	"epoch": 0.49502487562189057,
	"grad_norm": 6.9375,
	"learning_rate": 0.00011907237577101611,
	"loss": 3.8701,
	"step": 995
	},
	{
	"epoch": 0.4975124378109453,
	"grad_norm": 7.46875,
	"learning_rate": 0.00011821928361773147,
	"loss": 4.0109,
	"step": 1000
	},
	{
	"epoch": 0.5,
	"grad_norm": 6.53125,
	"learning_rate": 0.00011736481776669306,
	"loss": 3.9716,
	"step": 1005
	},
	{
	"epoch": 0.5024875621890548,
	"grad_norm": 6.8125,
	"learning_rate": 0.00011650904264292687,
	"loss": 3.9534,
	"step": 1010
	},
	{
	"epoch": 0.5049751243781094,
	"grad_norm": 8.5,
	"learning_rate": 0.00011565202277017551,
	"loss": 4.0376,
	"step": 1015
	},
	{
	"epoch": 0.5074626865671642,
	"grad_norm": 5.75,
	"learning_rate": 0.000114793822766033,
	"loss": 3.9223,
	"step": 1020
	},
	{
	"epoch": 0.5099502487562189,
	"grad_norm": 7.0,
	"learning_rate": 0.00011393450733707309,
	"loss": 4.11,
	"step": 1025
	},
	{
	"epoch": 0.5124378109452736,
	"grad_norm": 6.6875,
	"learning_rate": 0.00011307414127397027,
	"loss": 4.0138,
	"step": 1030
	},
	{
	"epoch": 0.5149253731343284,
	"grad_norm": 7.09375,
	"learning_rate": 0.00011221278944661473,
	"loss": 3.8801,
	"step": 1035
	},
	{
	"epoch": 0.5174129353233831,
	"grad_norm": 7.84375,
	"learning_rate": 0.00011135051679922141,
	"loss": 4.0368,
	"step": 1040
	},
	{
	"epoch": 0.5199004975124378,
	"grad_norm": 6.4375,
	"learning_rate": 0.00011048738834543319,
	"loss": 3.8343,
	"step": 1045
	},
	{
	"epoch": 0.5223880597014925,
	"grad_norm": 7.21875,
	"learning_rate": 0.00010962346916341903,
	"loss": 3.885,
	"step": 1050
	},
	{
	"epoch": 0.5248756218905473,
	"grad_norm": 6.125,
	"learning_rate": 0.00010875882439096729,
	"loss": 3.9348,
	"step": 1055
	},
	{
	"epoch": 0.527363184079602,
	"grad_norm": 6.375,
	"learning_rate": 0.00010789351922057435,
	"loss": 3.9439,
	"step": 1060
	},
	{
	"epoch": 0.5298507462686567,
	"grad_norm": 6.4375,
	"learning_rate": 0.0001070276188945293,
	"loss": 3.7975,
	"step": 1065
	},
	{
	"epoch": 0.5323383084577115,
	"grad_norm": 6.25,
	"learning_rate": 0.00010616118869999483,
	"loss": 3.8004,
	"step": 1070
	},
	{
	"epoch": 0.5348258706467661,
	"grad_norm": 5.875,
	"learning_rate": 0.00010529429396408452,
	"loss": 3.967,
	"step": 1075
	},
	{
	"epoch": 0.5373134328358209,
	"grad_norm": 7.15625,
	"learning_rate": 0.00010442700004893764,
	"loss": 3.8504,
	"step": 1080
	},
	{
	"epoch": 0.5398009950248757,
	"grad_norm": 6.46875,
	"learning_rate": 0.00010355937234679065,
	"loss": 3.7783,
	"step": 1085
	},
	{
	"epoch": 0.5422885572139303,
	"grad_norm": 7.0,
	"learning_rate": 0.00010269147627504692,
	"loss": 3.7741,
	"step": 1090
	},
	{
	"epoch": 0.5447761194029851,
	"grad_norm": 6.3125,
	"learning_rate": 0.0001018233772713443,
	"loss": 3.9042,
	"step": 1095
	},
	{
	"epoch": 0.5472636815920398,
	"grad_norm": 6.0,
	"learning_rate": 0.00010095514078862147,
	"loss": 4.0435,
	"step": 1100
	},
	{
	"epoch": 0.5497512437810945,
	"grad_norm": 6.6875,
	"learning_rate": 0.00010008683229018256,
	"loss": 4.0422,
	"step": 1105
	},
	{
	"epoch": 0.5522388059701493,
	"grad_norm": 7.0,
	"learning_rate": 9.92185172447616e-05,
	"loss": 3.9499,
	"step": 1110
	},
	{
	"epoch": 0.554726368159204,
	"grad_norm": 7.125,
	"learning_rate": 9.835026112158637e-05,
	"loss": 3.9851,
	"step": 1115
	},
	{
	"epoch": 0.5572139303482587,
	"grad_norm": 6.25,
	"learning_rate": 9.74821293854419e-05,
	"loss": 3.9625,
	"step": 1120
	},
	{
	"epoch": 0.5597014925373134,
	"grad_norm": 6.75,
	"learning_rate": 9.661418749173467e-05,
	"loss": 3.9269,
	"step": 1125
	},
	{
	"epoch": 0.5621890547263682,
	"grad_norm": 6.15625,
	"learning_rate": 9.574650088155752e-05,
	"loss": 4.0838,
	"step": 1130
	},
	{
	"epoch": 0.5646766169154229,
	"grad_norm": 7.40625,
	"learning_rate": 9.487913497675536e-05,
	"loss": 4.0415,
	"step": 1135
	},
	{
	"epoch": 0.5671641791044776,
	"grad_norm": 6.59375,
	"learning_rate": 9.40121551749925e-05,
	"loss": 4.0316,
	"step": 1140
	},
	{
	"epoch": 0.5696517412935324,
	"grad_norm": 6.0,
	"learning_rate": 9.314562684482202e-05,
	"loss": 4.0425,
	"step": 1145
	},
	{
	"epoch": 0.572139303482587,
	"grad_norm": 6.25,
	"learning_rate": 9.227961532075671e-05,
	"loss": 3.9342,
	"step": 1150
	},
	{
	"epoch": 0.5746268656716418,
	"grad_norm": 6.65625,
	"learning_rate": 9.141418589834339e-05,
	"loss": 4.0811,
	"step": 1155
	},
	{
	"epoch": 0.5771144278606966,
	"grad_norm": 7.5625,
	"learning_rate": 9.054940382923953e-05,
	"loss": 4.0697,
	"step": 1160
	},
	{
	"epoch": 0.5796019900497512,
	"grad_norm": 7.4375,
	"learning_rate": 8.96853343162934e-05,
	"loss": 4.0852,
	"step": 1165
	},
	{
	"epoch": 0.582089552238806,
	"grad_norm": 5.8125,
	"learning_rate": 8.882204250862796e-05,
	"loss": 4.0077,
	"step": 1170
	},
	{
	"epoch": 0.5845771144278606,
	"grad_norm": 6.65625,
	"learning_rate": 8.795959349672878e-05,
	"loss": 3.9226,
	"step": 1175
	},
	{
	"epoch": 0.5870646766169154,
	"grad_norm": 6.78125,
	"learning_rate": 8.709805230753627e-05,
	"loss": 4.0092,
	"step": 1180
	},
	{
	"epoch": 0.5895522388059702,
	"grad_norm": 6.4375,
	"learning_rate": 8.623748389954283e-05,
	"loss": 3.9131,
	"step": 1185
	},
	{
	"epoch": 0.5920398009950248,
	"grad_norm": 6.375,
	"learning_rate": 8.537795315789509e-05,
	"loss": 3.857,
	"step": 1190
	},
	{
	"epoch": 0.5945273631840796,
	"grad_norm": 5.8125,
	"learning_rate": 8.451952488950166e-05,
	"loss": 3.9707,
	"step": 1195
	},
	{
	"epoch": 0.5970149253731343,
	"grad_norm": 7.15625,
	"learning_rate": 8.366226381814697e-05,
	"loss": 3.9853,
	"step": 1200
	},
	{
	"epoch": 0.599502487562189,
	"grad_norm": 5.9375,
	"learning_rate": 8.280623457961102e-05,
	"loss": 4.107,
	"step": 1205
	},
	{
	"epoch": 0.6019900497512438,
	"grad_norm": 6.4375,
	"learning_rate": 8.195150171679608e-05,
	"loss": 3.7088,
	"step": 1210
	},
	{
	"epoch": 0.6044776119402985,
	"grad_norm": 6.15625,
	"learning_rate": 8.109812967486025e-05,
	"loss": 3.9205,
	"step": 1215
	},
	{
	"epoch": 0.6069651741293532,
	"grad_norm": 7.1875,
	"learning_rate": 8.02461827963585e-05,
	"loss": 3.9086,
	"step": 1220
	},
	{
	"epoch": 0.6094527363184079,
	"grad_norm": 6.3125,
	"learning_rate": 7.939572531639128e-05,
	"loss": 3.9716,
	"step": 1225
	},
	{
	"epoch": 0.6119402985074627,
	"grad_norm": 6.40625,
	"learning_rate": 7.854682135776131e-05,
	"loss": 3.9194,
	"step": 1230
	},
	{
	"epoch": 0.6144278606965174,
	"grad_norm": 6.875,
	"learning_rate": 7.769953492613899e-05,
	"loss": 3.8653,
	"step": 1235
	},
	{
	"epoch": 0.6169154228855721,
	"grad_norm": 6.625,
	"learning_rate": 7.685392990523626e-05,
	"loss": 4.043,
	"step": 1240
	},
	{
	"epoch": 0.6194029850746269,
	"grad_norm": 6.6875,
	"learning_rate": 7.601007005199021e-05,
	"loss": 3.829,
	"step": 1245
	},
	{
	"epoch": 0.6218905472636815,
	"grad_norm": 6.53125,
	"learning_rate": 7.516801899175565e-05,
	"loss": 3.9138,
	"step": 1250
	},
	{
	"epoch": 0.6243781094527363,
	"grad_norm": 6.5,
	"learning_rate": 7.432784021350796e-05,
	"loss": 3.9103,
	"step": 1255
	},
	{
	"epoch": 0.6268656716417911,
	"grad_norm": 6.15625,
	"learning_rate": 7.348959706505626e-05,
	"loss": 3.9792,
	"step": 1260
	},
	{
	"epoch": 0.6293532338308457,
	"grad_norm": 6.28125,
	"learning_rate": 7.265335274826704e-05,
	"loss": 4.0775,
	"step": 1265
	},
	{
	"epoch": 0.6318407960199005,
	"grad_norm": 6.59375,
	"learning_rate": 7.181917031429874e-05,
	"loss": 4.0234,
	"step": 1270
	},
	{
	"epoch": 0.6343283582089553,
	"grad_norm": 7.03125,
	"learning_rate": 7.09871126588481e-05,
	"loss": 3.9329,
	"step": 1275
	},
	{
	"epoch": 0.6368159203980099,
	"grad_norm": 6.0625,
	"learning_rate": 7.015724251740766e-05,
	"loss": 3.6704,
	"step": 1280
	},
	{
	"epoch": 0.6393034825870647,
	"grad_norm": 6.71875,
	"learning_rate": 6.932962246053577e-05,
	"loss": 3.8563,
	"step": 1285
	},
	{
	"epoch": 0.6417910447761194,
	"grad_norm": 5.84375,
	"learning_rate": 6.850431488913895e-05,
	"loss": 3.8506,
	"step": 1290
	},
	{
	"epoch": 0.6442786069651741,
	"grad_norm": 6.8125,
	"learning_rate": 6.76813820297669e-05,
	"loss": 4.008,
	"step": 1295
	},
	{
	"epoch": 0.6467661691542289,
	"grad_norm": 7.09375,
	"learning_rate": 6.686088592992067e-05,
	"loss": 4.0959,
	"step": 1300
	},
	{
	"epoch": 0.6492537313432836,
	"grad_norm": 6.375,
	"learning_rate": 6.604288845337453e-05,
	"loss": 4.0365,
	"step": 1305
	},
	{
	"epoch": 0.6517412935323383,
	"grad_norm": 6.96875,
	"learning_rate": 6.522745127551158e-05,
	"loss": 3.8927,
	"step": 1310
	},
	{
	"epoch": 0.654228855721393,
	"grad_norm": 6.96875,
	"learning_rate": 6.44146358786734e-05,
	"loss": 3.9165,
	"step": 1315
	},
	{
	"epoch": 0.6567164179104478,
	"grad_norm": 6.65625,
	"learning_rate": 6.360450354752458e-05,
	"loss": 4.1257,
	"step": 1320
	},
	{
	"epoch": 0.6592039800995025,
	"grad_norm": 7.125,
	"learning_rate": 6.279711536443185e-05,
	"loss": 3.9571,
	"step": 1325
	},
	{
	"epoch": 0.6616915422885572,
	"grad_norm": 6.125,
	"learning_rate": 6.199253220485856e-05,
	"loss": 3.7978,
	"step": 1330
	},
	{
	"epoch": 0.664179104477612,
	"grad_norm": 6.59375,
	"learning_rate": 6.119081473277501e-05,
	"loss": 3.859,
	"step": 1335
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 6.1875,
	"learning_rate": 6.039202339608432e-05,
	"loss": 4.015,
	"step": 1340
	},
	{
	"epoch": 0.6691542288557214,
	"grad_norm": 6.625,
	"learning_rate": 5.959621842206474e-05,
	"loss": 4.0804,
	"step": 1345
	},
	{
	"epoch": 0.6716417910447762,
	"grad_norm": 6.625,
	"learning_rate": 5.880345981282876e-05,
	"loss": 4.0607,
	"step": 1350
	},
	{
	"epoch": 0.6741293532338308,
	"grad_norm": 6.46875,
	"learning_rate": 5.801380734079907e-05,
	"loss": 3.8616,
	"step": 1355
	},
	{
	"epoch": 0.6766169154228856,
	"grad_norm": 6.375,
	"learning_rate": 5.722732054420172e-05,
	"loss": 3.8968,
	"step": 1360
	},
	{
	"epoch": 0.6791044776119403,
	"grad_norm": 6.71875,
	"learning_rate": 5.6444058722577165e-05,
	"loss": 4.0431,
	"step": 1365
	},
	{
	"epoch": 0.681592039800995,
	"grad_norm": 6.65625,
	"learning_rate": 5.566408093230911e-05,
	"loss": 3.9798,
	"step": 1370
	},
	{
	"epoch": 0.6840796019900498,
	"grad_norm": 5.375,
	"learning_rate": 5.4887445982171906e-05,
	"loss": 3.7958,
	"step": 1375
	},
	{
	"epoch": 0.6865671641791045,
	"grad_norm": 5.96875,
	"learning_rate": 5.4114212428896424e-05,
	"loss": 3.9962,
	"step": 1380
	},
	{
	"epoch": 0.6890547263681592,
	"grad_norm": 6.0625,
	"learning_rate": 5.334443857275487e-05,
	"loss": 4.009,
	"step": 1385
	},
	{
	"epoch": 0.6915422885572139,
	"grad_norm": 6.65625,
	"learning_rate": 5.257818245316522e-05,
	"loss": 3.9681,
	"step": 1390
	},
	{
	"epoch": 0.6940298507462687,
	"grad_norm": 7.21875,
	"learning_rate": 5.1815501844315105e-05,
	"loss": 4.0784,
	"step": 1395
	},
	{
	"epoch": 0.6965174129353234,
	"grad_norm": 7.375,
	"learning_rate": 5.105645425080572e-05,
	"loss": 4.0183,
	"step": 1400
	},
	{
	"epoch": 0.6990049751243781,
	"grad_norm": 6.0625,
	"learning_rate": 5.030109690331625e-05,
	"loss": 3.9356,
	"step": 1405
	},
	{
	"epoch": 0.7014925373134329,
	"grad_norm": 7.625,
	"learning_rate": 4.954948675428853e-05,
	"loss": 3.7845,
	"step": 1410
	},
	{
	"epoch": 0.7039800995024875,
	"grad_norm": 6.1875,
	"learning_rate": 4.880168047363312e-05,
	"loss": 3.7763,
	"step": 1415
	},
	{
	"epoch": 0.7064676616915423,
	"grad_norm": 6.46875,
	"learning_rate": 4.8057734444456536e-05,
	"loss": 4.0405,
	"step": 1420
	},
	{
	"epoch": 0.7089552238805971,
	"grad_norm": 6.09375,
	"learning_rate": 4.7317704758809946e-05,
	"loss": 3.9666,
	"step": 1425
	},
	{
	"epoch": 0.7114427860696517,
	"grad_norm": 7.0,
	"learning_rate": 4.658164721345998e-05,
	"loss": 3.9511,
	"step": 1430
	},
	{
	"epoch": 0.7139303482587065,
	"grad_norm": 7.03125,
	"learning_rate": 4.584961730568188e-05,
	"loss": 4.0864,
	"step": 1435
	},
	{
	"epoch": 0.7164179104477612,
	"grad_norm": 6.625,
	"learning_rate": 4.512167022907494e-05,
	"loss": 4.0077,
	"step": 1440
	},
	{
	"epoch": 0.7189054726368159,
	"grad_norm": 6.53125,
	"learning_rate": 4.439786086940115e-05,
	"loss": 3.8572,
	"step": 1445
	},
	{
	"epoch": 0.7213930348258707,
	"grad_norm": 6.5625,
	"learning_rate": 4.3678243800446835e-05,
	"loss": 3.812,
	"step": 1450
	},
	{
	"epoch": 0.7238805970149254,
	"grad_norm": 5.375,
	"learning_rate": 4.296287327990797e-05,
	"loss": 3.816,
	"step": 1455
	},
	{
	"epoch": 0.7263681592039801,
	"grad_norm": 6.03125,
	"learning_rate": 4.225180324529917e-05,
	"loss": 3.8844,
	"step": 1460
	},
	{
	"epoch": 0.7288557213930348,
	"grad_norm": 7.46875,
	"learning_rate": 4.1545087309887045e-05,
	"loss": 3.9426,
	"step": 1465
	},
	{
	"epoch": 0.7313432835820896,
	"grad_norm": 6.0,
	"learning_rate": 4.084277875864776e-05,
	"loss": 3.9788,
	"step": 1470
	},
	{
	"epoch": 0.7338308457711443,
	"grad_norm": 6.34375,
	"learning_rate": 4.014493054424944e-05,
	"loss": 4.0493,
	"step": 1475
	},
	{
	"epoch": 0.736318407960199,
	"grad_norm": 6.78125,
	"learning_rate": 3.945159528305971e-05,
	"loss": 4.0197,
	"step": 1480
	},
	{
	"epoch": 0.7388059701492538,
	"grad_norm": 6.8125,
	"learning_rate": 3.876282525117847e-05,
	"loss": 3.9014,
	"step": 1485
	},
	{
	"epoch": 0.7412935323383084,
	"grad_norm": 7.15625,
	"learning_rate": 3.807867238049642e-05,
	"loss": 3.987,
	"step": 1490
	},
	{
	"epoch": 0.7437810945273632,
	"grad_norm": 6.0,
	"learning_rate": 3.739918825477953e-05,
	"loss": 3.9318,
	"step": 1495
	},
	{
	"epoch": 0.746268656716418,
	"grad_norm": 5.5625,
	"learning_rate": 3.672442410577965e-05,
	"loss": 3.8518,
	"step": 1500
	},
	{
	"epoch": 0.7487562189054726,
	"grad_norm": 5.59375,
	"learning_rate": 3.605443080937172e-05,
	"loss": 3.7997,
	"step": 1505
	},
	{
	"epoch": 0.7512437810945274,
	"grad_norm": 6.09375,
	"learning_rate": 3.5389258881718e-05,
	"loss": 3.9,
	"step": 1510
	},
	{
	"epoch": 0.753731343283582,
	"grad_norm": 6.4375,
	"learning_rate": 3.472895847545905e-05,
	"loss": 4.005,
	"step": 1515
	},
	{
	"epoch": 0.7562189054726368,
	"grad_norm": 7.375,
	"learning_rate": 3.407357937593237e-05,
	"loss": 3.9962,
	"step": 1520
	},
	{
	"epoch": 0.7587064676616916,
	"grad_norm": 6.5,
	"learning_rate": 3.342317099741886e-05,
	"loss": 3.9809,
	"step": 1525
	},
	{
	"epoch": 0.7611940298507462,
	"grad_norm": 6.875,
	"learning_rate": 3.27777823794168e-05,
	"loss": 3.9891,
	"step": 1530
	},
	{
	"epoch": 0.763681592039801,
	"grad_norm": 6.84375,
	"learning_rate": 3.213746218294455e-05,
	"loss": 4.0958,
	"step": 1535
	},
	{
	"epoch": 0.7661691542288557,
	"grad_norm": 6.1875,
	"learning_rate": 3.150225868687161e-05,
	"loss": 3.838,
	"step": 1540
	},
	{
	"epoch": 0.7686567164179104,
	"grad_norm": 7.46875,
	"learning_rate": 3.0872219784278354e-05,
	"loss": 3.9027,
	"step": 1545
	},
	{
	"epoch": 0.7711442786069652,
	"grad_norm": 5.78125,
	"learning_rate": 3.02473929788452e-05,
	"loss": 3.9055,
	"step": 1550
	},
	{
	"epoch": 0.7736318407960199,
	"grad_norm": 6.0,
	"learning_rate": 2.96278253812707e-05,
	"loss": 3.9548,
	"step": 1555
	},
	{
	"epoch": 0.7761194029850746,
	"grad_norm": 6.71875,
	"learning_rate": 2.901356370571967e-05,
	"loss": 3.8413,
	"step": 1560
	},
	{
	"epoch": 0.7786069651741293,
	"grad_norm": 6.625,
	"learning_rate": 2.840465426630091e-05,
	"loss": 4.1502,
	"step": 1565
	},
	{
	"epoch": 0.7810945273631841,
	"grad_norm": 6.53125,
	"learning_rate": 2.7801142973575243e-05,
	"loss": 3.851,
	"step": 1570
	},
	{
	"epoch": 0.7835820895522388,
	"grad_norm": 6.125,
	"learning_rate": 2.7203075331094017e-05,
	"loss": 4.0059,
	"step": 1575
	},
	{
	"epoch": 0.7860696517412935,
	"grad_norm": 7.0,
	"learning_rate": 2.6610496431968125e-05,
	"loss": 3.8795,
	"step": 1580
	},
	{
	"epoch": 0.7885572139303483,
	"grad_norm": 6.53125,
	"learning_rate": 2.6023450955468176e-05,
	"loss": 3.8933,
	"step": 1585
	},
	{
	"epoch": 0.7910447761194029,
	"grad_norm": 5.96875,
	"learning_rate": 2.54419831636557e-05,
	"loss": 4.1032,
	"step": 1590
	},
	{
	"epoch": 0.7935323383084577,
	"grad_norm": 5.8125,
	"learning_rate": 2.4866136898045843e-05,
	"loss": 3.8866,
	"step": 1595
	},
	{
	"epoch": 0.7960199004975125,
	"grad_norm": 6.375,
	"learning_rate": 2.4295955576301965e-05,
	"loss": 4.0359,
	"step": 1600
	},
	{
	"epoch": 0.7985074626865671,
	"grad_norm": 6.75,
	"learning_rate": 2.3731482188961818e-05,
	"loss": 3.8639,
	"step": 1605
	},
	{
	"epoch": 0.8009950248756219,
	"grad_norm": 6.78125,
	"learning_rate": 2.317275929619627e-05,
	"loss": 4.0732,
	"step": 1610
	},
	{
	"epoch": 0.8034825870646766,
	"grad_norm": 7.625,
	"learning_rate": 2.261982902460039e-05,
	"loss": 3.9888,
	"step": 1615
	},
	{
	"epoch": 0.8059701492537313,
	"grad_norm": 6.0,
	"learning_rate": 2.2072733064017103e-05,
	"loss": 4.0829,
	"step": 1620
	},
	{
	"epoch": 0.8084577114427861,
	"grad_norm": 8.0625,
	"learning_rate": 2.1531512664393838e-05,
	"loss": 4.1679,
	"step": 1625
	},
	{
	"epoch": 0.8109452736318408,
	"grad_norm": 7.0,
	"learning_rate": 2.0996208632672475e-05,
	"loss": 4.0939,
	"step": 1630
	},
	{
	"epoch": 0.8134328358208955,
	"grad_norm": 6.8125,
	"learning_rate": 2.0466861329712473e-05,
	"loss": 3.8609,
	"step": 1635
	},
	{
	"epoch": 0.8159203980099502,
	"grad_norm": 6.71875,
	"learning_rate": 1.9943510667247813e-05,
	"loss": 4.083,
	"step": 1640
	},
	{
	"epoch": 0.818407960199005,
	"grad_norm": 6.1875,
	"learning_rate": 1.9426196104877735e-05,
	"loss": 3.9825,
	"step": 1645
	},
	{
	"epoch": 0.8208955223880597,
	"grad_norm": 6.96875,
	"learning_rate": 1.89149566470915e-05,
	"loss": 3.9559,
	"step": 1650
	},
	{
	"epoch": 0.8233830845771144,
	"grad_norm": 6.59375,
	"learning_rate": 1.8409830840327546e-05,
	"loss": 4.0314,
	"step": 1655
	},
	{
	"epoch": 0.8258706467661692,
	"grad_norm": 6.1875,
	"learning_rate": 1.791085677006722e-05,
	"loss": 3.8751,
	"step": 1660
	},
	{
	"epoch": 0.8283582089552238,
	"grad_norm": 7.25,
	"learning_rate": 1.741807205796314e-05,
	"loss": 4.0051,
	"step": 1665
	},
	{
	"epoch": 0.8308457711442786,
	"grad_norm": 5.59375,
	"learning_rate": 1.6931513859002635e-05,
	"loss": 3.9194,
	"step": 1670
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 6.34375,
	"learning_rate": 1.6451218858706374e-05,
	"loss": 3.8528,
	"step": 1675
	},
	{
	"epoch": 0.835820895522388,
	"grad_norm": 6.15625,
	"learning_rate": 1.5977223270362196e-05,
	"loss": 4.0617,
	"step": 1680
	},
	{
	"epoch": 0.8383084577114428,
	"grad_norm": 7.125,
	"learning_rate": 1.5509562832294944e-05,
	"loss": 3.7389,
	"step": 1685
	},
	{
	"epoch": 0.8407960199004975,
	"grad_norm": 6.25,
	"learning_rate": 1.5048272805171615e-05,
	"loss": 3.9292,
	"step": 1690
	},
	{
	"epoch": 0.8432835820895522,
	"grad_norm": 5.90625,
	"learning_rate": 1.459338796934293e-05,
	"loss": 4.011,
	"step": 1695
	},
	{
	"epoch": 0.845771144278607,
	"grad_norm": 6.53125,
	"learning_rate": 1.4144942622220902e-05,
	"loss": 3.8728,
	"step": 1700
	},
	{
	"epoch": 0.8482587064676617,
	"grad_norm": 6.71875,
	"learning_rate": 1.3702970575692975e-05,
	"loss": 4.0874,
	"step": 1705
	},
	{
	"epoch": 0.8507462686567164,
	"grad_norm": 6.9375,
	"learning_rate": 1.3267505153572501e-05,
	"loss": 4.0708,
	"step": 1710
	},
	{
	"epoch": 0.8532338308457711,
	"grad_norm": 5.03125,
	"learning_rate": 1.2838579189086353e-05,
	"loss": 3.8598,
	"step": 1715
	},
	{
	"epoch": 0.8557213930348259,
	"grad_norm": 7.46875,
	"learning_rate": 1.2416225022399286e-05,
	"loss": 4.0435,
	"step": 1720
	},
	{
	"epoch": 0.8582089552238806,
	"grad_norm": 5.96875,
	"learning_rate": 1.2000474498175552e-05,
	"loss": 4.054,
	"step": 1725
	},
	{
	"epoch": 0.8606965174129353,
	"grad_norm": 6.8125,
	"learning_rate": 1.1591358963177923e-05,
	"loss": 3.8522,
	"step": 1730
	},
	{
	"epoch": 0.8631840796019901,
	"grad_norm": 5.34375,
	"learning_rate": 1.118890926390419e-05,
	"loss": 3.9089,
	"step": 1735
	},
	{
	"epoch": 0.8656716417910447,
	"grad_norm": 6.8125,
	"learning_rate": 1.0793155744261351e-05,
	"loss": 4.0584,
	"step": 1740
	},
	{
	"epoch": 0.8681592039800995,
	"grad_norm": 6.25,
	"learning_rate": 1.0404128243277777e-05,
	"loss": 3.9094,
	"step": 1745
	},
	{
	"epoch": 0.8706467661691543,
	"grad_norm": 6.75,
	"learning_rate": 1.0021856092853432e-05,
	"loss": 3.9982,
	"step": 1750
	},
	{
	"epoch": 0.8731343283582089,
	"grad_norm": 6.25,
	"learning_rate": 9.646368115548232e-06,
	"loss": 3.946,
	"step": 1755
	},
	{
	"epoch": 0.8756218905472637,
	"grad_norm": 6.71875,
	"learning_rate": 9.277692622409018e-06,
	"loss": 3.8958,
	"step": 1760
	},
	{
	"epoch": 0.8781094527363185,
	"grad_norm": 6.375,
	"learning_rate": 8.915857410834794e-06,
	"loss": 3.7367,
	"step": 1765
	},
	{
	"epoch": 0.8805970149253731,
	"grad_norm": 6.28125,
	"learning_rate": 8.56088976248095e-06,
	"loss": 3.9724,
	"step": 1770
	},
	{
	"epoch": 0.8830845771144279,
	"grad_norm": 6.125,
	"learning_rate": 8.212816441202309e-06,
	"loss": 4.0212,
	"step": 1775
	},
	{
	"epoch": 0.8855721393034826,
	"grad_norm": 6.90625,
	"learning_rate": 7.871663691035103e-06,
	"loss": 3.6865,
	"step": 1780
	},
	{
	"epoch": 0.8880597014925373,
	"grad_norm": 6.78125,
	"learning_rate": 7.53745723421827e-06,
	"loss": 3.9914,
	"step": 1785
	},
	{
	"epoch": 0.8905472636815921,
	"grad_norm": 5.4375,
	"learning_rate": 7.2102222692540415e-06,
	"loss": 3.9573,
	"step": 1790
	},
	{
	"epoch": 0.8930348258706468,
	"grad_norm": 6.78125,
	"learning_rate": 6.889983469008055e-06,
	"loss": 4.1287,
	"step": 1795
	},
	{
	"epoch": 0.8955223880597015,
	"grad_norm": 5.84375,
	"learning_rate": 6.576764978849004e-06,
	"loss": 4.1117,
	"step": 1800
	},
	{
	"epoch": 0.8980099502487562,
	"grad_norm": 6.8125,
	"learning_rate": 6.27059041482817e-06,
	"loss": 3.8274,
	"step": 1805
	},
	{
	"epoch": 0.900497512437811,
	"grad_norm": 6.4375,
	"learning_rate": 5.971482861898836e-06,
	"loss": 3.8697,
	"step": 1810
	},
	{
	"epoch": 0.9029850746268657,
	"grad_norm": 6.03125,
	"learning_rate": 5.679464872175666e-06,
	"loss": 3.9326,
	"step": 1815
	},
	{
	"epoch": 0.9054726368159204,
	"grad_norm": 6.5,
	"learning_rate": 5.394558463234378e-06,
	"loss": 3.8915,
	"step": 1820
	},
	{
	"epoch": 0.9079601990049752,
	"grad_norm": 5.9375,
	"learning_rate": 5.116785116451661e-06,
	"loss": 3.9306,
	"step": 1825
	},
	{
	"epoch": 0.9104477611940298,
	"grad_norm": 5.96875,
	"learning_rate": 4.846165775385459e-06,
	"loss": 3.901,
	"step": 1830
	},
	{
	"epoch": 0.9129353233830846,
	"grad_norm": 6.28125,
	"learning_rate": 4.5827208441959424e-06,
	"loss": 3.9952,
	"step": 1835
	},
	{
	"epoch": 0.9154228855721394,
	"grad_norm": 5.9375,
	"learning_rate": 4.3264701861070345e-06,
	"loss": 4.0501,
	"step": 1840
	},
	{
	"epoch": 0.917910447761194,
	"grad_norm": 5.90625,
	"learning_rate": 4.077433121908747e-06,
	"loss": 3.7784,
	"step": 1845
	},
	{
	"epoch": 0.9203980099502488,
	"grad_norm": 6.8125,
	"learning_rate": 3.835628428500515e-06,
	"loss": 3.928,
	"step": 1850
	},
	{
	"epoch": 0.9228855721393034,
	"grad_norm": 6.53125,
	"learning_rate": 3.601074337475352e-06,
	"loss": 3.9705,
	"step": 1855
	},
	{
	"epoch": 0.9253731343283582,
	"grad_norm": 7.5,
	"learning_rate": 3.3737885337452814e-06,
	"loss": 4.0769,
	"step": 1860
	},
	{
	"epoch": 0.927860696517413,
	"grad_norm": 6.15625,
	"learning_rate": 3.153788154207926e-06,
	"loss": 3.9098,
	"step": 1865
	},
	{
	"epoch": 0.9303482587064676,
	"grad_norm": 6.875,
	"learning_rate": 2.9410897864544206e-06,
	"loss": 4.037,
	"step": 1870
	},
	{
	"epoch": 0.9328358208955224,
	"grad_norm": 6.21875,
	"learning_rate": 2.735709467518699e-06,
	"loss": 3.9169,
	"step": 1875
	},
	{
	"epoch": 0.9353233830845771,
	"grad_norm": 6.5,
	"learning_rate": 2.5376626826683956e-06,
	"loss": 3.9237,
	"step": 1880
	},
	{
	"epoch": 0.9378109452736318,
	"grad_norm": 6.375,
	"learning_rate": 2.3469643642372586e-06,
	"loss": 3.9737,
	"step": 1885
	},
	{
	"epoch": 0.9402985074626866,
	"grad_norm": 7.15625,
	"learning_rate": 2.1636288904992585e-06,
	"loss": 4.0875,
	"step": 1890
	},
	{
	"epoch": 0.9427860696517413,
	"grad_norm": 6.25,
	"learning_rate": 1.9876700845845475e-06,
	"loss": 3.8926,
	"step": 1895
	},
	{
	"epoch": 0.945273631840796,
	"grad_norm": 6.03125,
	"learning_rate": 1.8191012134371577e-06,
	"loss": 3.8843,
	"step": 1900
	},
	{
	"epoch": 0.9477611940298507,
	"grad_norm": 6.59375,
	"learning_rate": 1.6579349868147687e-06,
	"loss": 3.9296,
	"step": 1905
	},
	{
	"epoch": 0.9502487562189055,
	"grad_norm": 6.9375,
	"learning_rate": 1.5041835563303742e-06,
	"loss": 3.8406,
	"step": 1910
	},
	{
	"epoch": 0.9527363184079602,
	"grad_norm": 6.78125,
	"learning_rate": 1.3578585145360812e-06,
	"loss": 4.1326,
	"step": 1915
	},
	{
	"epoch": 0.9552238805970149,
	"grad_norm": 6.21875,
	"learning_rate": 1.2189708940490652e-06,
	"loss": 3.8935,
	"step": 1920
	},
	{
	"epoch": 0.9577114427860697,
	"grad_norm": 5.6875,
	"learning_rate": 1.0875311667196908e-06,
	"loss": 3.7818,
	"step": 1925
	},
	{
	"epoch": 0.9601990049751243,
	"grad_norm": 5.15625,
	"learning_rate": 9.635492428420434e-07,
	"loss": 3.6428,
	"step": 1930
	},
	{
	"epoch": 0.9626865671641791,
	"grad_norm": 6.4375,
	"learning_rate": 8.470344704066046e-07,
	"loss": 3.8555,
	"step": 1935
	},
	{
	"epoch": 0.9651741293532339,
	"grad_norm": 6.1875,
	"learning_rate": 7.379956343955386e-07,
	"loss": 3.8856,
	"step": 1940
	},
	{
	"epoch": 0.9676616915422885,
	"grad_norm": 6.0,
	"learning_rate": 6.364409561202323e-07,
	"loss": 4.0294,
	"step": 1945
	},
	{
	"epoch": 0.9701492537313433,
	"grad_norm": 7.15625,
	"learning_rate": 5.42378092601481e-07,
	"loss": 3.9593,
	"step": 1950
	},
	{
	"epoch": 0.972636815920398,
	"grad_norm": 6.25,
	"learning_rate": 4.558141359921386e-07,
	"loss": 3.9914,
	"step": 1955
	},
	{
	"epoch": 0.9751243781094527,
	"grad_norm": 8.375,
	"learning_rate": 3.7675561304238994e-07,
	"loss": 3.9707,
	"step": 1960
	},
	{
	"epoch": 0.9776119402985075,
	"grad_norm": 5.65625,
	"learning_rate": 3.0520848460765527e-07,
	"loss": 3.7689,
	"step": 1965
	},
	{
	"epoch": 0.9800995024875622,
	"grad_norm": 6.6875,
	"learning_rate": 2.4117814519911684e-07,
	"loss": 3.9225,
	"step": 1970
	},
	{
	"epoch": 0.9825870646766169,
	"grad_norm": 6.125,
	"learning_rate": 1.846694225770551e-07,
	"loss": 3.9233,
	"step": 1975
	},
	{
	"epoch": 0.9850746268656716,
	"grad_norm": 6.0625,
	"learning_rate": 1.3568657738678435e-07,
	"loss": 3.8331,
	"step": 1980
	},
	{
	"epoch": 0.9875621890547264,
	"grad_norm": 6.40625,
	"learning_rate": 9.423330283742093e-08,
	"loss": 3.993,
	"step": 1985
	},
	{
	"epoch": 0.9900497512437811,
	"grad_norm": 6.4375,
	"learning_rate": 6.031272442341696e-08,
	"loss": 3.8852,
	"step": 1990
	},
	{
	"epoch": 0.9925373134328358,
	"grad_norm": 6.75,
	"learning_rate": 3.392739968894887e-08,
	"loss": 3.821,
	"step": 1995
	},
	{
	"epoch": 0.9950248756218906,
	"grad_norm": 6.59375,
	"learning_rate": 1.5079318035016164e-08,
	"loss": 3.975,
	"step": 2000
	},
	{
	"epoch": 0.9975124378109452,
	"grad_norm": 5.46875,
	"learning_rate": 3.769900569505769e-09,
	"loss": 4.0483,
	"step": 2005
	},
	{
	"epoch": 1.0,
	"grad_norm": 8.5625,
	"learning_rate": 0.0,
	"loss": 3.9369,
	"step": 2010
	},
	{
	"epoch": 1.0,
	"step": 2010,
	"total_flos": 1275064289820672.0,
	"train_loss": 4.025861802029966,
	"train_runtime": 256.6461,
	"train_samples_per_second": 125.278,
	"train_steps_per_second": 7.832
	}
	],
	"logging_steps": 5,
	"max_steps": 2010,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1275064289820672.0,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}