mistral-7b-v0.2-sft-mix-23rd-mar-v0 / trainer_state.json

Model save

660a541 verified 4 months ago

No virus

167 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 5170,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 0.6557956322798859,
	"learning_rate": 5.802707930367505e-09,
	"loss": 1.2371,
	"step": 1
	},
	{
	"epoch": 0.0,
	"grad_norm": 0.555537955912783,
	"learning_rate": 2.9013539651837526e-08,
	"loss": 1.2332,
	"step": 5
	},
	{
	"epoch": 0.0,
	"grad_norm": 0.6560886812503646,
	"learning_rate": 5.802707930367505e-08,
	"loss": 1.2786,
	"step": 10
	},
	{
	"epoch": 0.0,
	"grad_norm": 0.6387105093397438,
	"learning_rate": 8.704061895551257e-08,
	"loss": 1.2475,
	"step": 15
	},
	{
	"epoch": 0.0,
	"grad_norm": 0.6532524825579088,
	"learning_rate": 1.160541586073501e-07,
	"loss": 1.2885,
	"step": 20
	},
	{
	"epoch": 0.0,
	"grad_norm": 0.7627038914530329,
	"learning_rate": 1.450676982591876e-07,
	"loss": 1.2707,
	"step": 25
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.6865350725464494,
	"learning_rate": 1.7408123791102514e-07,
	"loss": 1.2573,
	"step": 30
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.5944185772651999,
	"learning_rate": 2.0309477756286268e-07,
	"loss": 1.2236,
	"step": 35
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.570802653009915,
	"learning_rate": 2.321083172147002e-07,
	"loss": 1.2354,
	"step": 40
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.6254702727850132,
	"learning_rate": 2.6112185686653774e-07,
	"loss": 1.2396,
	"step": 45
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.6505985921117032,
	"learning_rate": 2.901353965183752e-07,
	"loss": 1.2415,
	"step": 50
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.5645977078030876,
	"learning_rate": 3.1914893617021275e-07,
	"loss": 1.2242,
	"step": 55
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.5679797693766294,
	"learning_rate": 3.481624758220503e-07,
	"loss": 1.2021,
	"step": 60
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.5881688854072822,
	"learning_rate": 3.771760154738878e-07,
	"loss": 1.241,
	"step": 65
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.6171671681192435,
	"learning_rate": 4.0618955512572535e-07,
	"loss": 1.238,
	"step": 70
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.6251626743581414,
	"learning_rate": 4.3520309477756283e-07,
	"loss": 1.2623,
	"step": 75
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.536899552637251,
	"learning_rate": 4.642166344294004e-07,
	"loss": 1.2525,
	"step": 80
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.6363284385208114,
	"learning_rate": 4.93230174081238e-07,
	"loss": 1.2807,
	"step": 85
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.7156337106339976,
	"learning_rate": 5.222437137330755e-07,
	"loss": 1.233,
	"step": 90
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.4922672527647211,
	"learning_rate": 5.512572533849129e-07,
	"loss": 1.2296,
	"step": 95
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.5995169385614093,
	"learning_rate": 5.802707930367504e-07,
	"loss": 1.2263,
	"step": 100
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.5270868824616388,
	"learning_rate": 6.092843326885881e-07,
	"loss": 1.256,
	"step": 105
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.45317247546954,
	"learning_rate": 6.382978723404255e-07,
	"loss": 1.2344,
	"step": 110
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.43848067309021005,
	"learning_rate": 6.67311411992263e-07,
	"loss": 1.2667,
	"step": 115
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.4920996149570544,
	"learning_rate": 6.963249516441006e-07,
	"loss": 1.2048,
	"step": 120
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.5458024812690938,
	"learning_rate": 7.253384912959381e-07,
	"loss": 1.221,
	"step": 125
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.49239446969985223,
	"learning_rate": 7.543520309477756e-07,
	"loss": 1.2122,
	"step": 130
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.6153580588728397,
	"learning_rate": 7.833655705996132e-07,
	"loss": 1.254,
	"step": 135
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.5652181830271799,
	"learning_rate": 8.123791102514507e-07,
	"loss": 1.2144,
	"step": 140
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.5688846265610772,
	"learning_rate": 8.413926499032881e-07,
	"loss": 1.2215,
	"step": 145
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.43147864423001453,
	"learning_rate": 8.704061895551257e-07,
	"loss": 1.2489,
	"step": 150
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.41719278261688,
	"learning_rate": 8.994197292069632e-07,
	"loss": 1.2424,
	"step": 155
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.4879569605970493,
	"learning_rate": 9.284332688588008e-07,
	"loss": 1.2103,
	"step": 160
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.5016955054762027,
	"learning_rate": 9.574468085106384e-07,
	"loss": 1.2229,
	"step": 165
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.41471316258825075,
	"learning_rate": 9.86460348162476e-07,
	"loss": 1.2301,
	"step": 170
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.37515142480035085,
	"learning_rate": 1.0154738878143134e-06,
	"loss": 1.2339,
	"step": 175
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.5357151850842313,
	"learning_rate": 1.044487427466151e-06,
	"loss": 1.1782,
	"step": 180
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.3653264458948328,
	"learning_rate": 1.0735009671179885e-06,
	"loss": 1.1319,
	"step": 185
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.4383207715794612,
	"learning_rate": 1.1025145067698258e-06,
	"loss": 1.2032,
	"step": 190
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.519104554154961,
	"learning_rate": 1.1315280464216634e-06,
	"loss": 1.2016,
	"step": 195
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.3108713036635766,
	"learning_rate": 1.1605415860735009e-06,
	"loss": 1.2205,
	"step": 200
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.39072663996333046,
	"learning_rate": 1.1895551257253386e-06,
	"loss": 1.178,
	"step": 205
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.4159099519388948,
	"learning_rate": 1.2185686653771762e-06,
	"loss": 1.196,
	"step": 210
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.40315240562925386,
	"learning_rate": 1.2475822050290137e-06,
	"loss": 1.2217,
	"step": 215
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.381069833836644,
	"learning_rate": 1.276595744680851e-06,
	"loss": 1.1392,
	"step": 220
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.45265751317200875,
	"learning_rate": 1.3056092843326885e-06,
	"loss": 1.1618,
	"step": 225
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.4277031654442431,
	"learning_rate": 1.334622823984526e-06,
	"loss": 1.1457,
	"step": 230
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.3444956221080674,
	"learning_rate": 1.3636363636363636e-06,
	"loss": 1.2013,
	"step": 235
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.3421518714382308,
	"learning_rate": 1.3926499032882011e-06,
	"loss": 1.1327,
	"step": 240
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.36336912925802345,
	"learning_rate": 1.4216634429400387e-06,
	"loss": 1.1283,
	"step": 245
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.29948215466081957,
	"learning_rate": 1.4506769825918762e-06,
	"loss": 1.1337,
	"step": 250
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.32776001109162717,
	"learning_rate": 1.4796905222437137e-06,
	"loss": 1.1058,
	"step": 255
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.2866893939255288,
	"learning_rate": 1.5087040618955513e-06,
	"loss": 1.1276,
	"step": 260
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.33107588796069914,
	"learning_rate": 1.5377176015473888e-06,
	"loss": 1.1665,
	"step": 265
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.2771016817248348,
	"learning_rate": 1.5667311411992263e-06,
	"loss": 1.1298,
	"step": 270
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.2950279622080215,
	"learning_rate": 1.5957446808510639e-06,
	"loss": 1.1179,
	"step": 275
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.28628767272935396,
	"learning_rate": 1.6247582205029014e-06,
	"loss": 1.121,
	"step": 280
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.32121632735389827,
	"learning_rate": 1.653771760154739e-06,
	"loss": 1.1191,
	"step": 285
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.2673147970392464,
	"learning_rate": 1.6827852998065763e-06,
	"loss": 1.1308,
	"step": 290
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.25690056840881836,
	"learning_rate": 1.7117988394584138e-06,
	"loss": 1.1028,
	"step": 295
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.34733553615110824,
	"learning_rate": 1.7408123791102513e-06,
	"loss": 1.1204,
	"step": 300
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.21641858619604487,
	"learning_rate": 1.7698259187620889e-06,
	"loss": 1.0929,
	"step": 305
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.2671526741250324,
	"learning_rate": 1.7988394584139264e-06,
	"loss": 1.106,
	"step": 310
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.2418205867189562,
	"learning_rate": 1.8278529980657641e-06,
	"loss": 1.0815,
	"step": 315
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.2864594215791563,
	"learning_rate": 1.8568665377176017e-06,
	"loss": 1.0888,
	"step": 320
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.22573020842814867,
	"learning_rate": 1.8858800773694392e-06,
	"loss": 1.108,
	"step": 325
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.18929290310787175,
	"learning_rate": 1.9148936170212767e-06,
	"loss": 1.1112,
	"step": 330
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.229402778930268,
	"learning_rate": 1.943907156673114e-06,
	"loss": 1.0799,
	"step": 335
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.2459230628386859,
	"learning_rate": 1.972920696324952e-06,
	"loss": 1.1307,
	"step": 340
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.207680539285622,
	"learning_rate": 2.001934235976789e-06,
	"loss": 1.0809,
	"step": 345
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.2175863700443701,
	"learning_rate": 2.030947775628627e-06,
	"loss": 1.057,
	"step": 350
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.23383978650057566,
	"learning_rate": 2.059961315280464e-06,
	"loss": 1.0926,
	"step": 355
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.2200995259512634,
	"learning_rate": 2.088974854932302e-06,
	"loss": 1.0747,
	"step": 360
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.21194139151827074,
	"learning_rate": 2.1179883945841393e-06,
	"loss": 1.0342,
	"step": 365
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.30994391618458367,
	"learning_rate": 2.147001934235977e-06,
	"loss": 1.0625,
	"step": 370
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.24113685123230963,
	"learning_rate": 2.1760154738878143e-06,
	"loss": 1.0649,
	"step": 375
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.18918994099116018,
	"learning_rate": 2.2050290135396516e-06,
	"loss": 1.0749,
	"step": 380
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.21256820119734426,
	"learning_rate": 2.2340425531914894e-06,
	"loss": 1.0562,
	"step": 385
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.17510665051403598,
	"learning_rate": 2.2630560928433267e-06,
	"loss": 1.0538,
	"step": 390
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.2008673882220927,
	"learning_rate": 2.2920696324951644e-06,
	"loss": 1.0571,
	"step": 395
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.23508712912756172,
	"learning_rate": 2.3210831721470018e-06,
	"loss": 1.0505,
	"step": 400
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.20306310295149868,
	"learning_rate": 2.3500967117988395e-06,
	"loss": 1.0454,
	"step": 405
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.21068331150828368,
	"learning_rate": 2.3791102514506773e-06,
	"loss": 1.0551,
	"step": 410
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.13689273954962194,
	"learning_rate": 2.4081237911025146e-06,
	"loss": 1.0474,
	"step": 415
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.16160461077870894,
	"learning_rate": 2.4371373307543523e-06,
	"loss": 1.0478,
	"step": 420
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.17395359723345014,
	"learning_rate": 2.4661508704061896e-06,
	"loss": 1.0525,
	"step": 425
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.18279794025145507,
	"learning_rate": 2.4951644100580274e-06,
	"loss": 0.9952,
	"step": 430
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.15844978893507106,
	"learning_rate": 2.5241779497098647e-06,
	"loss": 1.0216,
	"step": 435
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.1436621940675145,
	"learning_rate": 2.553191489361702e-06,
	"loss": 1.0133,
	"step": 440
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.1746824119521344,
	"learning_rate": 2.5822050290135398e-06,
	"loss": 1.0086,
	"step": 445
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.16843680061281097,
	"learning_rate": 2.611218568665377e-06,
	"loss": 1.0124,
	"step": 450
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.13899776670000386,
	"learning_rate": 2.640232108317215e-06,
	"loss": 1.0258,
	"step": 455
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.16885171252583628,
	"learning_rate": 2.669245647969052e-06,
	"loss": 1.0025,
	"step": 460
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.13947774165225663,
	"learning_rate": 2.69825918762089e-06,
	"loss": 1.0209,
	"step": 465
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.16016862657644082,
	"learning_rate": 2.7272727272727272e-06,
	"loss": 1.0202,
	"step": 470
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.1560774813153456,
	"learning_rate": 2.7562862669245645e-06,
	"loss": 1.0094,
	"step": 475
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.15349128775811013,
	"learning_rate": 2.7852998065764023e-06,
	"loss": 1.0222,
	"step": 480
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.1581693949842608,
	"learning_rate": 2.8143133462282396e-06,
	"loss": 1.0099,
	"step": 485
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.1338165501774845,
	"learning_rate": 2.8433268858800774e-06,
	"loss": 0.9919,
	"step": 490
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.16833331660791553,
	"learning_rate": 2.872340425531915e-06,
	"loss": 1.0109,
	"step": 495
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.12418854228845702,
	"learning_rate": 2.9013539651837524e-06,
	"loss": 1.0114,
	"step": 500
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.17269898089870625,
	"learning_rate": 2.93036750483559e-06,
	"loss": 1.0116,
	"step": 505
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.1398155290290283,
	"learning_rate": 2.9593810444874275e-06,
	"loss": 0.9834,
	"step": 510
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.13812113362847925,
	"learning_rate": 2.9883945841392652e-06,
	"loss": 1.0278,
	"step": 515
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.1304950913697068,
	"learning_rate": 2.9999969229307894e-06,
	"loss": 0.994,
	"step": 520
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.12161480167420421,
	"learning_rate": 2.999978118664665e-06,
	"loss": 0.9931,
	"step": 525
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.12896036742563166,
	"learning_rate": 2.9999422198293556e-06,
	"loss": 1.0097,
	"step": 530
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.13140405926118037,
	"learning_rate": 2.9998892268339835e-06,
	"loss": 1.004,
	"step": 535
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.12459210092265861,
	"learning_rate": 2.999819140282485e-06,
	"loss": 0.9933,
	"step": 540
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.11304692947321707,
	"learning_rate": 2.9997319609736057e-06,
	"loss": 1.024,
	"step": 545
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.10712457456439482,
	"learning_rate": 2.9996276899008886e-06,
	"loss": 0.997,
	"step": 550
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.12723199655873965,
	"learning_rate": 2.9995063282526635e-06,
	"loss": 0.999,
	"step": 555
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.1117511114286072,
	"learning_rate": 2.9993678774120335e-06,
	"loss": 1.0005,
	"step": 560
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.11921831176513668,
	"learning_rate": 2.9992123389568606e-06,
	"loss": 1.0128,
	"step": 565
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.13264814163917732,
	"learning_rate": 2.9990397146597453e-06,
	"loss": 0.9958,
	"step": 570
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.10853923751603145,
	"learning_rate": 2.998850006488009e-06,
	"loss": 1.008,
	"step": 575
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.11972246590833577,
	"learning_rate": 2.9986432166036694e-06,
	"loss": 0.984,
	"step": 580
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.11545852087538627,
	"learning_rate": 2.9984193473634165e-06,
	"loss": 0.9846,
	"step": 585
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.10903802682217484,
	"learning_rate": 2.998178401318586e-06,
	"loss": 1.0103,
	"step": 590
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.1056100500869663,
	"learning_rate": 2.9979203812151314e-06,
	"loss": 0.9846,
	"step": 595
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.1086522268106536,
	"learning_rate": 2.9976452899935897e-06,
	"loss": 1.012,
	"step": 600
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.11349091913892485,
	"learning_rate": 2.997353130789052e-06,
	"loss": 0.9868,
	"step": 605
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.11520557146606587,
	"learning_rate": 2.9970439069311227e-06,
	"loss": 0.9859,
	"step": 610
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.10731896545642554,
	"learning_rate": 2.996717621943886e-06,
	"loss": 0.9677,
	"step": 615
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.10199258578885077,
	"learning_rate": 2.9963742795458634e-06,
	"loss": 0.9912,
	"step": 620
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.1004784901885883,
	"learning_rate": 2.9960138836499727e-06,
	"loss": 0.974,
	"step": 625
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.11816705487740833,
	"learning_rate": 2.9956364383634826e-06,
	"loss": 1.0011,
	"step": 630
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.10828490126824755,
	"learning_rate": 2.9952419479879643e-06,
	"loss": 1.0004,
	"step": 635
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.1064264302560214,
	"learning_rate": 2.9948304170192465e-06,
	"loss": 0.9906,
	"step": 640
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.1111563680571522,
	"learning_rate": 2.99440185014736e-06,
	"loss": 0.9785,
	"step": 645
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.10140413194917164,
	"learning_rate": 2.9939562522564877e-06,
	"loss": 1.0137,
	"step": 650
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.10517761570743359,
	"learning_rate": 2.9934936284249047e-06,
	"loss": 0.9954,
	"step": 655
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.10621130418725885,
	"learning_rate": 2.993013983924926e-06,
	"loss": 0.9724,
	"step": 660
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.10215078910100184,
	"learning_rate": 2.992517324222842e-06,
	"loss": 0.9902,
	"step": 665
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.10412671370027254,
	"learning_rate": 2.9920036549788573e-06,
	"loss": 0.9809,
	"step": 670
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.11732922386471892,
	"learning_rate": 2.991472982047027e-06,
	"loss": 0.9623,
	"step": 675
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.09628074134733036,
	"learning_rate": 2.990925311475189e-06,
	"loss": 0.9882,
	"step": 680
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.10783922143897923,
	"learning_rate": 2.9903606495048965e-06,
	"loss": 0.983,
	"step": 685
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.10412363645704524,
	"learning_rate": 2.9897790025713453e-06,
	"loss": 1.0016,
	"step": 690
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.10425594495538223,
	"learning_rate": 2.9891803773033017e-06,
	"loss": 0.9834,
	"step": 695
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.10570028300258567,
	"learning_rate": 2.9885647805230253e-06,
	"loss": 0.9608,
	"step": 700
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.1156869590258465,
	"learning_rate": 2.987932219246193e-06,
	"loss": 1.0092,
	"step": 705
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.1055268544146359,
	"learning_rate": 2.987282700681819e-06,
	"loss": 0.9927,
	"step": 710
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.0962316020072262,
	"learning_rate": 2.9866162322321704e-06,
	"loss": 0.9824,
	"step": 715
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.09521663449081877,
	"learning_rate": 2.9859328214926856e-06,
	"loss": 0.9623,
	"step": 720
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.10471356087898716,
	"learning_rate": 2.9852324762518867e-06,
	"loss": 1.0006,
	"step": 725
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.10041568704144976,
	"learning_rate": 2.98451520449129e-06,
	"loss": 0.9904,
	"step": 730
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.11321291186855274,
	"learning_rate": 2.9837810143853162e-06,
	"loss": 1.0015,
	"step": 735
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.09570436916323284,
	"learning_rate": 2.9830299143011955e-06,
	"loss": 0.9659,
	"step": 740
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.11085995422039718,
	"learning_rate": 2.982261912798876e-06,
	"loss": 0.9865,
	"step": 745
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.09744417943549286,
	"learning_rate": 2.9814770186309197e-06,
	"loss": 0.9662,
	"step": 750
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.10429458744917756,
	"learning_rate": 2.980675240742411e-06,
	"loss": 0.9846,
	"step": 755
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.10446461600654952,
	"learning_rate": 2.979856588270846e-06,
	"loss": 0.9822,
	"step": 760
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.10542142436501455,
	"learning_rate": 2.979021070546038e-06,
	"loss": 0.9805,
	"step": 765
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.10172022425622489,
	"learning_rate": 2.9781686970899998e-06,
	"loss": 0.9702,
	"step": 770
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.11458755826070066,
	"learning_rate": 2.9772994776168466e-06,
	"loss": 0.9773,
	"step": 775
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.09277700475991077,
	"learning_rate": 2.976413422032677e-06,
	"loss": 0.9767,
	"step": 780
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.10884138178056307,
	"learning_rate": 2.9755105404354637e-06,
	"loss": 0.9742,
	"step": 785
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.09160224444355052,
	"learning_rate": 2.974590843114939e-06,
	"loss": 0.9874,
	"step": 790
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.09983015498372462,
	"learning_rate": 2.9736543405524747e-06,
	"loss": 0.9689,
	"step": 795
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.10901476562057139,
	"learning_rate": 2.9727010434209652e-06,
	"loss": 0.9591,
	"step": 800
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.0945610375498226,
	"learning_rate": 2.9717309625847053e-06,
	"loss": 0.9997,
	"step": 805
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.1063437137043428,
	"learning_rate": 2.970744109099265e-06,
	"loss": 0.9787,
	"step": 810
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.10165659250994069,
	"learning_rate": 2.9697404942113655e-06,
	"loss": 0.9559,
	"step": 815
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.09899486787838711,
	"learning_rate": 2.9687201293587495e-06,
	"loss": 0.9515,
	"step": 820
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.10160491144724951,
	"learning_rate": 2.967683026170052e-06,
	"loss": 0.9478,
	"step": 825
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.10508036334433964,
	"learning_rate": 2.9666291964646663e-06,
	"loss": 0.966,
	"step": 830
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.10340523865343762,
	"learning_rate": 2.9655586522526115e-06,
	"loss": 0.9757,
	"step": 835
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.10542777862775049,
	"learning_rate": 2.9644714057343925e-06,
	"loss": 0.9753,
	"step": 840
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.10247584372465218,
	"learning_rate": 2.9633674693008656e-06,
	"loss": 0.9607,
	"step": 845
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.09993848260863396,
	"learning_rate": 2.9622468555330916e-06,
	"loss": 0.9775,
	"step": 850
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.10504556965317913,
	"learning_rate": 2.961109577202197e-06,
	"loss": 0.9727,
	"step": 855
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.10286749907745354,
	"learning_rate": 2.9599556472692262e-06,
	"loss": 0.9796,
	"step": 860
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.0946833657296664,
	"learning_rate": 2.9587850788849942e-06,
	"loss": 0.9667,
	"step": 865
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.10526928030356757,
	"learning_rate": 2.9575978853899377e-06,
	"loss": 0.9623,
	"step": 870
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.0967614781879407,
	"learning_rate": 2.9563940803139607e-06,
	"loss": 0.9607,
	"step": 875
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.10162924582712457,
	"learning_rate": 2.955173677376284e-06,
	"loss": 0.9698,
	"step": 880
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.1144304223101541,
	"learning_rate": 2.9539366904852843e-06,
	"loss": 0.9852,
	"step": 885
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.10636310716558237,
	"learning_rate": 2.9526831337383394e-06,
	"loss": 0.9606,
	"step": 890
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.112534519091396,
	"learning_rate": 2.9514130214216665e-06,
	"loss": 0.9736,
	"step": 895
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.10324814326836546,
	"learning_rate": 2.9501263680101588e-06,
	"loss": 0.9816,
	"step": 900
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.10818625130621462,
	"learning_rate": 2.9488231881672203e-06,
	"loss": 0.9326,
	"step": 905
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.10965885593819354,
	"learning_rate": 2.9475034967445993e-06,
	"loss": 0.9767,
	"step": 910
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.10090790956890588,
	"learning_rate": 2.9461673087822204e-06,
	"loss": 0.9706,
	"step": 915
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.10727272176169492,
	"learning_rate": 2.94481463950801e-06,
	"loss": 0.9647,
	"step": 920
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.10704584677647615,
	"learning_rate": 2.9434455043377255e-06,
	"loss": 0.9683,
	"step": 925
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.09401780473717516,
	"learning_rate": 2.9420599188747786e-06,
	"loss": 0.9499,
	"step": 930
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.10562202866274173,
	"learning_rate": 2.9406578989100573e-06,
	"loss": 0.9814,
	"step": 935
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.11078753036018767,
	"learning_rate": 2.9392394604217463e-06,
	"loss": 0.9522,
	"step": 940
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.10599183497345623,
	"learning_rate": 2.937804619575144e-06,
	"loss": 0.9785,
	"step": 945
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.10821166303387769,
	"learning_rate": 2.936353392722481e-06,
	"loss": 0.9484,
	"step": 950
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.10164561197403676,
	"learning_rate": 2.934885796402729e-06,
	"loss": 0.9695,
	"step": 955
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.0963480746857516,
	"learning_rate": 2.933401847341417e-06,
	"loss": 0.9704,
	"step": 960
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.11877783442156198,
	"learning_rate": 2.931901562450439e-06,
	"loss": 0.9727,
	"step": 965
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.11235009932152866,
	"learning_rate": 2.93038495882786e-06,
	"loss": 0.9836,
	"step": 970
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.10489582071240841,
	"learning_rate": 2.9288520537577223e-06,
	"loss": 0.9715,
	"step": 975
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.10530019662564404,
	"learning_rate": 2.927302864709848e-06,
	"loss": 0.947,
	"step": 980
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.10948590499675388,
	"learning_rate": 2.9257374093396423e-06,
	"loss": 0.9544,
	"step": 985
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.1101428849431525,
	"learning_rate": 2.9241557054878876e-06,
	"loss": 0.9736,
	"step": 990
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.10161055478860785,
	"learning_rate": 2.9225577711805446e-06,
	"loss": 0.9579,
	"step": 995
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.10234104818115608,
	"learning_rate": 2.920943624628545e-06,
	"loss": 0.9494,
	"step": 1000
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.11125410578921856,
	"learning_rate": 2.9193132842275834e-06,
	"loss": 0.9665,
	"step": 1005
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.10448226196682155,
	"learning_rate": 2.917666768557908e-06,
	"loss": 0.9492,
	"step": 1010
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.10464379124965918,
	"learning_rate": 2.916004096384112e-06,
	"loss": 0.9485,
	"step": 1015
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.11240399703260856,
	"learning_rate": 2.9143252866549126e-06,
	"loss": 0.9805,
	"step": 1020
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.10262467247255205,
	"learning_rate": 2.9126303585029424e-06,
	"loss": 0.9533,
	"step": 1025
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.10660529098219367,
	"learning_rate": 2.9109193312445277e-06,
	"loss": 0.9797,
	"step": 1030
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.10233872211834552,
	"learning_rate": 2.909192224379469e-06,
	"loss": 0.9755,
	"step": 1035
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.10675971763004717,
	"learning_rate": 2.907449057590818e-06,
	"loss": 0.958,
	"step": 1040
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.11494064560394811,
	"learning_rate": 2.9056898507446553e-06,
	"loss": 0.9426,
	"step": 1045
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.11375236977081475,
	"learning_rate": 2.9039146238898615e-06,
	"loss": 0.9438,
	"step": 1050
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.10951341713317103,
	"learning_rate": 2.9021233972578917e-06,
	"loss": 0.954,
	"step": 1055
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.11289886578757521,
	"learning_rate": 2.9003161912625412e-06,
	"loss": 0.9651,
	"step": 1060
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.10761927389343565,
	"learning_rate": 2.8984930264997153e-06,
	"loss": 0.9855,
	"step": 1065
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.11084863010339359,
	"learning_rate": 2.8966539237471957e-06,
	"loss": 0.9749,
	"step": 1070
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.10914255215103161,
	"learning_rate": 2.8947989039644e-06,
	"loss": 0.9434,
	"step": 1075
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.11264654500852792,
	"learning_rate": 2.8929279882921465e-06,
	"loss": 0.9776,
	"step": 1080
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.11132127023457686,
	"learning_rate": 2.891041198052411e-06,
	"loss": 0.9507,
	"step": 1085
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.10653706131717319,
	"learning_rate": 2.8891385547480846e-06,
	"loss": 0.9535,
	"step": 1090
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.1151077199781543,
	"learning_rate": 2.887220080062729e-06,
	"loss": 0.9761,
	"step": 1095
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.10470041169674428,
	"learning_rate": 2.8852857958603284e-06,
	"loss": 0.9736,
	"step": 1100
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.11918031326179271,
	"learning_rate": 2.883335724185041e-06,
	"loss": 0.9437,
	"step": 1105
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.1107590462985888,
	"learning_rate": 2.8813698872609478e-06,
	"loss": 0.9461,
	"step": 1110
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.11545803285412702,
	"learning_rate": 2.8793883074917996e-06,
	"loss": 0.9741,
	"step": 1115
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.10989642132296704,
	"learning_rate": 2.8773910074607604e-06,
	"loss": 0.9375,
	"step": 1120
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.11350061884840995,
	"learning_rate": 2.875378009930151e-06,
	"loss": 0.9762,
	"step": 1125
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.10670246968609752,
	"learning_rate": 2.8733493378411908e-06,
	"loss": 0.9611,
	"step": 1130
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.11315693520491527,
	"learning_rate": 2.8713050143137327e-06,
	"loss": 0.9574,
	"step": 1135
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.10792619360055242,
	"learning_rate": 2.869245062646004e-06,
	"loss": 0.9755,
	"step": 1140
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.11860109794592168,
	"learning_rate": 2.8671695063143373e-06,
	"loss": 0.9682,
	"step": 1145
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.11295073321194798,
	"learning_rate": 2.865078368972907e-06,
	"loss": 0.9732,
	"step": 1150
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.10877608828125572,
	"learning_rate": 2.862971674453453e-06,
	"loss": 0.9319,
	"step": 1155
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.11905716007142109,
	"learning_rate": 2.860849446765017e-06,
	"loss": 0.9563,
	"step": 1160
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.108659995668165,
	"learning_rate": 2.8587117100936642e-06,
	"loss": 0.9323,
	"step": 1165
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.11330495373273691,
	"learning_rate": 2.856558488802207e-06,
	"loss": 0.9461,
	"step": 1170
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.11183891702192725,
	"learning_rate": 2.854389807429932e-06,
	"loss": 0.937,
	"step": 1175
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.10647343953458478,
	"learning_rate": 2.8522056906923136e-06,
	"loss": 0.9432,
	"step": 1180
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.10989413716941382,
	"learning_rate": 2.8500061634807397e-06,
	"loss": 0.9434,
	"step": 1185
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.10609789647222649,
	"learning_rate": 2.847791250862222e-06,
	"loss": 0.9708,
	"step": 1190
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.11449356746375824,
	"learning_rate": 2.845560978079113e-06,
	"loss": 0.9493,
	"step": 1195
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.11863005755900938,
	"learning_rate": 2.843315370548819e-06,
	"loss": 0.9402,
	"step": 1200
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.11152572810815058,
	"learning_rate": 2.8410544538635086e-06,
	"loss": 0.9669,
	"step": 1205
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.1118716690063177,
	"learning_rate": 2.838778253789822e-06,
	"loss": 0.9469,
	"step": 1210
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.11513622367346048,
	"learning_rate": 2.8364867962685775e-06,
	"loss": 0.9732,
	"step": 1215
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.11916471698468781,
	"learning_rate": 2.834180107414476e-06,
	"loss": 0.9588,
	"step": 1220
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.10636597317515512,
	"learning_rate": 2.831858213515802e-06,
	"loss": 0.9781,
	"step": 1225
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.1144580288076685,
	"learning_rate": 2.829521141034125e-06,
	"loss": 0.956,
	"step": 1230
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.11413870856691348,
	"learning_rate": 2.8271689166039986e-06,
	"loss": 0.9568,
	"step": 1235
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.11086368743242728,
	"learning_rate": 2.8248015670326564e-06,
	"loss": 0.9455,
	"step": 1240
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.10920372063922966,
	"learning_rate": 2.822419119299706e-06,
	"loss": 0.9435,
	"step": 1245
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.11758849733693692,
	"learning_rate": 2.8200216005568218e-06,
	"loss": 0.9421,
	"step": 1250
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.10936170827027436,
	"learning_rate": 2.817609038127435e-06,
	"loss": 0.9538,
	"step": 1255
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.11188798595384854,
	"learning_rate": 2.815181459506425e-06,
	"loss": 0.9823,
	"step": 1260
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.14295692634361193,
	"learning_rate": 2.8127388923598008e-06,
	"loss": 0.9533,
	"step": 1265
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.1147686682077821,
	"learning_rate": 2.810281364524392e-06,
	"loss": 0.9714,
	"step": 1270
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.11140244758844407,
	"learning_rate": 2.807808904007526e-06,
	"loss": 0.9554,
	"step": 1275
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.10882014916760172,
	"learning_rate": 2.805321538986713e-06,
	"loss": 0.9445,
	"step": 1280
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.11197943958186041,
	"learning_rate": 2.802819297809321e-06,
	"loss": 0.9433,
	"step": 1285
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.1127674218112967,
	"learning_rate": 2.8003022089922564e-06,
	"loss": 0.9612,
	"step": 1290
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.11516015506964294,
	"learning_rate": 2.7977703012216375e-06,
	"loss": 0.9562,
	"step": 1295
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.12293491236553014,
	"learning_rate": 2.7952236033524658e-06,
	"loss": 0.9593,
	"step": 1300
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.12143251214899849,
	"learning_rate": 2.7926621444083015e-06,
	"loss": 0.9569,
	"step": 1305
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.1094629806227622,
	"learning_rate": 2.790085953580927e-06,
	"loss": 0.9568,
	"step": 1310
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.11455799113079224,
	"learning_rate": 2.7874950602300197e-06,
	"loss": 0.953,
	"step": 1315
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.11535461499254474,
	"learning_rate": 2.7848894938828134e-06,
	"loss": 0.9035,
	"step": 1320
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.1149148628451183,
	"learning_rate": 2.7822692842337654e-06,
	"loss": 0.9709,
	"step": 1325
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.10799586189243776,
	"learning_rate": 2.7796344611442133e-06,
	"loss": 0.9492,
	"step": 1330
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.11235503423781165,
	"learning_rate": 2.7769850546420396e-06,
	"loss": 1.0031,
	"step": 1335
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.11596192217593441,
	"learning_rate": 2.774321094921326e-06,
	"loss": 0.9478,
	"step": 1340
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.11386850099809975,
	"learning_rate": 2.7716426123420114e-06,
	"loss": 0.9464,
	"step": 1345
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.12212660771198781,
	"learning_rate": 2.768949637429546e-06,
	"loss": 0.9588,
	"step": 1350
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.11252131716640058,
	"learning_rate": 2.76624220087454e-06,
	"loss": 0.942,
	"step": 1355
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.11804484758605481,
	"learning_rate": 2.7635203335324185e-06,
	"loss": 0.9492,
	"step": 1360
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.11757492161038868,
	"learning_rate": 2.7607840664230674e-06,
	"loss": 0.9664,
	"step": 1365
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.11458358844876558,
	"learning_rate": 2.758033430730479e-06,
	"loss": 0.9495,
	"step": 1370
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.1228068142781927,
	"learning_rate": 2.7552684578023998e-06,
	"loss": 0.9473,
	"step": 1375
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.1167571702347808,
	"learning_rate": 2.752489179149969e-06,
	"loss": 0.9743,
	"step": 1380
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.11259236811273615,
	"learning_rate": 2.7496956264473635e-06,
	"loss": 0.9517,
	"step": 1385
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.114209224633214,
	"learning_rate": 2.746887831531434e-06,
	"loss": 0.9608,
	"step": 1390
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.12180028064162973,
	"learning_rate": 2.744065826401344e-06,
	"loss": 0.9357,
	"step": 1395
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.11724624103676141,
	"learning_rate": 2.7412296432182035e-06,
	"loss": 0.955,
	"step": 1400
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.11928864261797452,
	"learning_rate": 2.738379314304704e-06,
	"loss": 0.938,
	"step": 1405
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.1183836619102445,
	"learning_rate": 2.735514872144749e-06,
	"loss": 0.9638,
	"step": 1410
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.11343899459393017,
	"learning_rate": 2.732636349383085e-06,
	"loss": 0.9648,
	"step": 1415
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.11856005446375929,
	"learning_rate": 2.7297437788249276e-06,
	"loss": 0.9663,
	"step": 1420
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.1502591765852686,
	"learning_rate": 2.72683719343559e-06,
	"loss": 0.9361,
	"step": 1425
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.11914573111945241,
	"learning_rate": 2.7239166263401056e-06,
	"loss": 0.9595,
	"step": 1430
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.1230018369983442,
	"learning_rate": 2.7209821108228497e-06,
	"loss": 0.9565,
	"step": 1435
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.12071540798615119,
	"learning_rate": 2.718033680327163e-06,
	"loss": 0.9737,
	"step": 1440
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.11960934492681863,
	"learning_rate": 2.715071368454969e-06,
	"loss": 0.9185,
	"step": 1445
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.11733580889296377,
	"learning_rate": 2.7120952089663894e-06,
	"loss": 0.9414,
	"step": 1450
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.11053633322216715,
	"learning_rate": 2.7091052357793627e-06,
	"loss": 0.9349,
	"step": 1455
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.12986099128088718,
	"learning_rate": 2.7061014829692546e-06,
	"loss": 0.9807,
	"step": 1460
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.12933111225425914,
	"learning_rate": 2.703083984768471e-06,
	"loss": 0.9442,
	"step": 1465
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.115955353513501,
	"learning_rate": 2.7000527755660684e-06,
	"loss": 0.948,
	"step": 1470
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.11943463657143313,
	"learning_rate": 2.697007889907361e-06,
	"loss": 0.9573,
	"step": 1475
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.11673257150242644,
	"learning_rate": 2.693949362493527e-06,
	"loss": 0.9387,
	"step": 1480
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.11899065882144028,
	"learning_rate": 2.690877228181215e-06,
	"loss": 0.9493,
	"step": 1485
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.12183609939386461,
	"learning_rate": 2.6877915219821427e-06,
	"loss": 0.9539,
	"step": 1490
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.11127194999506593,
	"learning_rate": 2.6846922790627024e-06,
	"loss": 0.9443,
	"step": 1495
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.11553816505121053,
	"learning_rate": 2.6815795347435577e-06,
	"loss": 0.9298,
	"step": 1500
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.11447251373564948,
	"learning_rate": 2.6784533244992416e-06,
	"loss": 0.9375,
	"step": 1505
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.12166179843418228,
	"learning_rate": 2.6753136839577522e-06,
	"loss": 0.9349,
	"step": 1510
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.12100641500283442,
	"learning_rate": 2.6721606489001457e-06,
	"loss": 0.9293,
	"step": 1515
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.12359155363514698,
	"learning_rate": 2.668994255260131e-06,
	"loss": 0.9624,
	"step": 1520
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.11179542251492335,
	"learning_rate": 2.6658145391236574e-06,
	"loss": 0.9375,
	"step": 1525
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.1113458165161423,
	"learning_rate": 2.6626215367285054e-06,
	"loss": 0.92,
	"step": 1530
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.11826530596830692,
	"learning_rate": 2.659415284463873e-06,
	"loss": 0.9829,
	"step": 1535
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.1223957965290031,
	"learning_rate": 2.6561958188699604e-06,
	"loss": 0.9485,
	"step": 1540
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.12481799756632796,
	"learning_rate": 2.6529631766375546e-06,
	"loss": 0.9532,
	"step": 1545
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.11360313455180103,
	"learning_rate": 2.6497173946076098e-06,
	"loss": 0.9648,
	"step": 1550
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.11832505401191586,
	"learning_rate": 2.64645850977083e-06,
	"loss": 0.9353,
	"step": 1555
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.11917615522222746,
	"learning_rate": 2.643186559267245e-06,
	"loss": 0.9453,
	"step": 1560
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.12184287945841704,
	"learning_rate": 2.6399015803857885e-06,
	"loss": 0.9543,
	"step": 1565
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.11651535092179631,
	"learning_rate": 2.636603610563872e-06,
	"loss": 0.946,
	"step": 1570
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.13089416464535625,
	"learning_rate": 2.6332926873869595e-06,
	"loss": 0.9612,
	"step": 1575
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.12640696317783878,
	"learning_rate": 2.629968848588138e-06,
	"loss": 0.9485,
	"step": 1580
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.12467989812698095,
	"learning_rate": 2.6266321320476893e-06,
	"loss": 0.9467,
	"step": 1585
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.12292162295288515,
	"learning_rate": 2.6232825757926555e-06,
	"loss": 0.9526,
	"step": 1590
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.12693069162671494,
	"learning_rate": 2.6199202179964064e-06,
	"loss": 0.9495,
	"step": 1595
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.12251580300224744,
	"learning_rate": 2.6165450969782074e-06,
	"loss": 0.9479,
	"step": 1600
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.12239346691673264,
	"learning_rate": 2.61315725120278e-06,
	"loss": 0.9592,
	"step": 1605
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.11659453736794827,
	"learning_rate": 2.609756719279862e-06,
	"loss": 0.9378,
	"step": 1610
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.12683066622391057,
	"learning_rate": 2.606343539963772e-06,
	"loss": 0.9412,
	"step": 1615
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.11735665618288187,
	"learning_rate": 2.6029177521529633e-06,
	"loss": 0.936,
	"step": 1620
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.1216598234634421,
	"learning_rate": 2.5994793948895835e-06,
	"loss": 0.9627,
	"step": 1625
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.12601877660770533,
	"learning_rate": 2.596028507359029e-06,
	"loss": 0.9529,
	"step": 1630
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.12702458316754647,
	"learning_rate": 2.5925651288894965e-06,
	"loss": 0.9515,
	"step": 1635
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.12058379659459599,
	"learning_rate": 2.5890892989515367e-06,
	"loss": 0.9298,
	"step": 1640
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.12573278202145702,
	"learning_rate": 2.585601057157605e-06,
	"loss": 0.9575,
	"step": 1645
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.11676843442815175,
	"learning_rate": 2.582100443261609e-06,
	"loss": 0.9466,
	"step": 1650
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.12406638621197374,
	"learning_rate": 2.5785874971584536e-06,
	"loss": 0.9403,
	"step": 1655
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.12389135267465634,
	"learning_rate": 2.5750622588835903e-06,
	"loss": 0.9423,
	"step": 1660
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.12180646520632062,
	"learning_rate": 2.571524768612558e-06,
	"loss": 0.9223,
	"step": 1665
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.11486707403126087,
	"learning_rate": 2.567975066660527e-06,
	"loss": 0.9275,
	"step": 1670
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.12857636220545796,
	"learning_rate": 2.564413193481837e-06,
	"loss": 0.9749,
	"step": 1675
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.12086931508695424,
	"learning_rate": 2.5608391896695388e-06,
	"loss": 0.9439,
	"step": 1680
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.12178686326127208,
	"learning_rate": 2.55725309595493e-06,
	"loss": 0.954,
	"step": 1685
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.12960869330311783,
	"learning_rate": 2.5536549532070913e-06,
	"loss": 0.9352,
	"step": 1690
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.12553474416457935,
	"learning_rate": 2.550044802432422e-06,
	"loss": 0.9442,
	"step": 1695
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.12732282668760914,
	"learning_rate": 2.5464226847741695e-06,
	"loss": 0.9314,
	"step": 1700
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.13055875843349435,
	"learning_rate": 2.5427886415119635e-06,
	"loss": 0.9186,
	"step": 1705
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.12814219216348366,
	"learning_rate": 2.539142714061344e-06,
	"loss": 0.93,
	"step": 1710
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.13703362060653562,
	"learning_rate": 2.5354849439732902e-06,
	"loss": 0.9353,
	"step": 1715
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.11733228892071898,
	"learning_rate": 2.5318153729337457e-06,
	"loss": 0.9549,
	"step": 1720
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.12639938357266184,
	"learning_rate": 2.5281340427631445e-06,
	"loss": 0.9479,
	"step": 1725
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.12858912657134408,
	"learning_rate": 2.5244409954159343e-06,
	"loss": 0.9157,
	"step": 1730
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.13765344027585624,
	"learning_rate": 2.5207362729800986e-06,
	"loss": 0.9567,
	"step": 1735
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.1188666008027966,
	"learning_rate": 2.5170199176766746e-06,
	"loss": 0.9454,
	"step": 1740
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.12528858240136181,
	"learning_rate": 2.5132919718592767e-06,
	"loss": 0.9445,
	"step": 1745
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.12298871563801664,
	"learning_rate": 2.5095524780136096e-06,
	"loss": 0.9543,
	"step": 1750
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.1311433270714553,
	"learning_rate": 2.5058014787569847e-06,
	"loss": 0.9501,
	"step": 1755
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.12625986029021932,
	"learning_rate": 2.5020390168378376e-06,
	"loss": 0.991,
	"step": 1760
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.12627600348385226,
	"learning_rate": 2.498265135135237e-06,
	"loss": 0.9804,
	"step": 1765
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.12480939156448727,
	"learning_rate": 2.4944798766583986e-06,
	"loss": 0.9575,
	"step": 1770
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.12814473985468958,
	"learning_rate": 2.490683284546193e-06,
	"loss": 0.94,
	"step": 1775
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.12354291356370957,
	"learning_rate": 2.4868754020666566e-06,
	"loss": 0.9441,
	"step": 1780
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.1230166173419696,
	"learning_rate": 2.4830562726164958e-06,
	"loss": 0.9207,
	"step": 1785
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.11599834288712259,
	"learning_rate": 2.479225939720593e-06,
	"loss": 0.9233,
	"step": 1790
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.12460890724939186,
	"learning_rate": 2.4753844470315135e-06,
	"loss": 0.938,
	"step": 1795
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.1235331336241235,
	"learning_rate": 2.4715318383290037e-06,
	"loss": 0.9638,
	"step": 1800
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.12749668661162603,
	"learning_rate": 2.4676681575194943e-06,
	"loss": 0.9297,
	"step": 1805
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.13092231220069622,
	"learning_rate": 2.4637934486356012e-06,
	"loss": 0.9482,
	"step": 1810
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.12567362421402142,
	"learning_rate": 2.4599077558356207e-06,
	"loss": 0.9716,
	"step": 1815
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.12291260255078236,
	"learning_rate": 2.456011123403028e-06,
	"loss": 0.9442,
	"step": 1820
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.13018458909985667,
	"learning_rate": 2.452103595745974e-06,
	"loss": 0.9583,
	"step": 1825
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.12359082787357942,
	"learning_rate": 2.4481852173967746e-06,
	"loss": 0.9143,
	"step": 1830
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.12792177515126044,
	"learning_rate": 2.4442560330114092e-06,
	"loss": 0.9359,
	"step": 1835
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.12085993870314579,
	"learning_rate": 2.4403160873690063e-06,
	"loss": 0.9397,
	"step": 1840
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.12401548468347032,
	"learning_rate": 2.436365425371337e-06,
	"loss": 0.8997,
	"step": 1845
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.13214018330862026,
	"learning_rate": 2.432404092042301e-06,
	"loss": 0.927,
	"step": 1850
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.12399112060015242,
	"learning_rate": 2.4284321325274144e-06,
	"loss": 0.9359,
	"step": 1855
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.1251239358952118,
	"learning_rate": 2.424449592093296e-06,
	"loss": 0.9526,
	"step": 1860
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.1255660262761407,
	"learning_rate": 2.42045651612715e-06,
	"loss": 0.9569,
	"step": 1865
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.12365762191881352,
	"learning_rate": 2.416452950136248e-06,
	"loss": 0.9303,
	"step": 1870
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.12535472693272393,
	"learning_rate": 2.412438939747414e-06,
	"loss": 0.9374,
	"step": 1875
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.1339666694324748,
	"learning_rate": 2.4084145307065e-06,
	"loss": 0.9214,
	"step": 1880
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.12465441927649695,
	"learning_rate": 2.404379768877868e-06,
	"loss": 0.9258,
	"step": 1885
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.13785224280245373,
	"learning_rate": 2.4003347002438657e-06,
	"loss": 0.9534,
	"step": 1890
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.12897658276955143,
	"learning_rate": 2.396279370904303e-06,
	"loss": 0.9378,
	"step": 1895
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.1342231606408141,
	"learning_rate": 2.3922138270759247e-06,
	"loss": 0.9313,
	"step": 1900
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.12478455394570859,
	"learning_rate": 2.388138115091888e-06,
	"loss": 0.9715,
	"step": 1905
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.12400147036199631,
	"learning_rate": 2.3840522814012304e-06,
	"loss": 0.9335,
	"step": 1910
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.12614825735019372,
	"learning_rate": 2.379956372568343e-06,
	"loss": 0.9389,
	"step": 1915
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.12819460837673466,
	"learning_rate": 2.375850435272437e-06,
	"loss": 0.9298,
	"step": 1920
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.13218189606634853,
	"learning_rate": 2.371734516307015e-06,
	"loss": 0.9271,
	"step": 1925
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.12031632571886923,
	"learning_rate": 2.3676086625793353e-06,
	"loss": 0.9191,
	"step": 1930
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.1368420193828202,
	"learning_rate": 2.3634729211098786e-06,
	"loss": 0.9335,
	"step": 1935
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.12612432940530838,
	"learning_rate": 2.3593273390318118e-06,
	"loss": 0.9505,
	"step": 1940
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.1291015620161155,
	"learning_rate": 2.355171963590451e-06,
	"loss": 0.9072,
	"step": 1945
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.13561142947536237,
	"learning_rate": 2.3510068421427205e-06,
	"loss": 0.9557,
	"step": 1950
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.1304501468364583,
	"learning_rate": 2.3468320221566194e-06,
	"loss": 0.9606,
	"step": 1955
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.12763130154749866,
	"learning_rate": 2.3426475512106737e-06,
	"loss": 0.9699,
	"step": 1960
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.13527714632992727,
	"learning_rate": 2.3384534769933968e-06,
	"loss": 0.9303,
	"step": 1965
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.12632208652934207,
	"learning_rate": 2.3342498473027487e-06,
	"loss": 0.9403,
	"step": 1970
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.13322198624906814,
	"learning_rate": 2.3300367100455857e-06,
	"loss": 0.946,
	"step": 1975
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.12936391117162524,
	"learning_rate": 2.3258141132371215e-06,
	"loss": 0.9489,
	"step": 1980
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.13012323743231977,
	"learning_rate": 2.321582105000371e-06,
	"loss": 0.9474,
	"step": 1985
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.12787846971167063,
	"learning_rate": 2.317340733565611e-06,
	"loss": 0.9546,
	"step": 1990
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.13369044731603097,
	"learning_rate": 2.3130900472698252e-06,
	"loss": 0.9638,
	"step": 1995
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.13019183472993442,
	"learning_rate": 2.308830094556153e-06,
	"loss": 0.9474,
	"step": 2000
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.13265098197617997,
	"learning_rate": 2.30456092397334e-06,
	"loss": 0.9323,
	"step": 2005
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.1302535176783885,
	"learning_rate": 2.300282584175186e-06,
	"loss": 0.9167,
	"step": 2010
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.14336847605116843,
	"learning_rate": 2.2959951239199844e-06,
	"loss": 0.9724,
	"step": 2015
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.1314846076011854,
	"learning_rate": 2.291698592069972e-06,
	"loss": 0.9379,
	"step": 2020
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.12542537335155546,
	"learning_rate": 2.2873930375907707e-06,
	"loss": 0.9416,
	"step": 2025
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.13451062144224887,
	"learning_rate": 2.283078509550829e-06,
	"loss": 0.9423,
	"step": 2030
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.12982420568281253,
	"learning_rate": 2.278755057120863e-06,
	"loss": 0.9643,
	"step": 2035
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.1323171694681192,
	"learning_rate": 2.2744227295732956e-06,
	"loss": 0.9301,
	"step": 2040
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.12532510813835535,
	"learning_rate": 2.270081576281696e-06,
	"loss": 0.9423,
	"step": 2045
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.13571475473397304,
	"learning_rate": 2.2657316467202156e-06,
	"loss": 0.9503,
	"step": 2050
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.1375461995901152,
	"learning_rate": 2.2613729904630256e-06,
	"loss": 0.9081,
	"step": 2055
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.12670725904405272,
	"learning_rate": 2.257005657183752e-06,
	"loss": 0.9642,
	"step": 2060
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.11945786027175435,
	"learning_rate": 2.2526296966549072e-06,
	"loss": 0.9197,
	"step": 2065
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.14286568243399034,
	"learning_rate": 2.2482451587473258e-06,
	"loss": 0.9399,
	"step": 2070
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.13710025446972535,
	"learning_rate": 2.2438520934295943e-06,
	"loss": 0.9213,
	"step": 2075
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.13298225052401855,
	"learning_rate": 2.2394505507674825e-06,
	"loss": 0.9547,
	"step": 2080
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.1314181279581931,
	"learning_rate": 2.2350405809233722e-06,
	"loss": 0.9401,
	"step": 2085
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.1350139369080771,
	"learning_rate": 2.2306222341556866e-06,
	"loss": 0.9255,
	"step": 2090
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.125979705316961,
	"learning_rate": 2.226195560818317e-06,
	"loss": 0.9196,
	"step": 2095
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.13645001654584013,
	"learning_rate": 2.221760611360048e-06,
	"loss": 0.9383,
	"step": 2100
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.13497646785844908,
	"learning_rate": 2.217317436323983e-06,
	"loss": 0.9438,
	"step": 2105
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.13373081145156018,
	"learning_rate": 2.212866086346971e-06,
	"loss": 0.9498,
	"step": 2110
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.15418672754446455,
	"learning_rate": 2.2084066121590242e-06,
	"loss": 0.9542,
	"step": 2115
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.13946090813340417,
	"learning_rate": 2.2039390645827443e-06,
	"loss": 0.9182,
	"step": 2120
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.13403421008347952,
	"learning_rate": 2.1994634945327416e-06,
	"loss": 0.9411,
	"step": 2125
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.14217560114276748,
	"learning_rate": 2.1949799530150545e-06,
	"loss": 0.9449,
	"step": 2130
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.13116778692015293,
	"learning_rate": 2.1904884911265695e-06,
	"loss": 0.9236,
	"step": 2135
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.14745228268417065,
	"learning_rate": 2.185989160054436e-06,
	"loss": 0.9564,
	"step": 2140
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.1321060448025065,
	"learning_rate": 2.1814820110754874e-06,
	"loss": 0.9392,
	"step": 2145
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.12064961504005225,
	"learning_rate": 2.1769670955556526e-06,
	"loss": 0.9381,
	"step": 2150
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.19148426920556538,
	"learning_rate": 2.1724444649493733e-06,
	"loss": 0.9465,
	"step": 2155
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.14149357097999177,
	"learning_rate": 2.167914170799014e-06,
	"loss": 0.9536,
	"step": 2160
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.13696368177795465,
	"learning_rate": 2.163376264734281e-06,
	"loss": 0.9426,
	"step": 2165
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.132327168385185,
	"learning_rate": 2.1588307984716276e-06,
	"loss": 0.9415,
	"step": 2170
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.1226548149068113,
	"learning_rate": 2.154277823813668e-06,
	"loss": 0.9126,
	"step": 2175
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.13412829227143383,
	"learning_rate": 2.1497173926485853e-06,
	"loss": 0.9263,
	"step": 2180
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.1370416338042778,
	"learning_rate": 2.145149556949542e-06,
	"loss": 0.9222,
	"step": 2185
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.1348834947967263,
	"learning_rate": 2.1405743687740865e-06,
	"loss": 0.9143,
	"step": 2190
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.14200964631669566,
	"learning_rate": 2.13599188026356e-06,
	"loss": 0.8973,
	"step": 2195
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.14200012930084902,
	"learning_rate": 2.1314021436425027e-06,
	"loss": 0.9438,
	"step": 2200
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.14116621082081662,
	"learning_rate": 2.126805211218057e-06,
	"loss": 0.9604,
	"step": 2205
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.1262029892604575,
	"learning_rate": 2.1222011353793735e-06,
	"loss": 0.9436,
	"step": 2210
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.13476560349631844,
	"learning_rate": 2.1175899685970133e-06,
	"loss": 0.958,
	"step": 2215
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.13243928557585383,
	"learning_rate": 2.112971763422349e-06,
	"loss": 0.9356,
	"step": 2220
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.14102330703687754,
	"learning_rate": 2.1083465724869675e-06,
	"loss": 0.9183,
	"step": 2225
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.13195228822616697,
	"learning_rate": 2.1037144485020684e-06,
	"loss": 0.9225,
	"step": 2230
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.14110146966641385,
	"learning_rate": 2.0990754442578637e-06,
	"loss": 0.9396,
	"step": 2235
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.1281526405819837,
	"learning_rate": 2.0944296126229784e-06,
	"loss": 0.9115,
	"step": 2240
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.1309793127327286,
	"learning_rate": 2.0897770065438444e-06,
	"loss": 0.9408,
	"step": 2245
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.13497364113187624,
	"learning_rate": 2.0851176790440995e-06,
	"loss": 0.8897,
	"step": 2250
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.1306605766376586,
	"learning_rate": 2.080451683223983e-06,
	"loss": 0.9038,
	"step": 2255
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.1355543202117501,
	"learning_rate": 2.075779072259729e-06,
	"loss": 0.9391,
	"step": 2260
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.12860928764170376,
	"learning_rate": 2.0710998994029625e-06,
	"loss": 0.9426,
	"step": 2265
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.144696140607215,
	"learning_rate": 2.0664142179800904e-06,
	"loss": 0.9302,
	"step": 2270
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.1417303172042183,
	"learning_rate": 2.061722081391695e-06,
	"loss": 0.9168,
	"step": 2275
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.1413230349204647,
	"learning_rate": 2.057023543111926e-06,
	"loss": 0.936,
	"step": 2280
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.14177967145771603,
	"learning_rate": 2.052318656687889e-06,
	"loss": 0.9258,
	"step": 2285
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.13957587807590546,
	"learning_rate": 2.0476074757390377e-06,
	"loss": 0.9244,
	"step": 2290
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.14172401928885273,
	"learning_rate": 2.042890053956561e-06,
	"loss": 0.9325,
	"step": 2295
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.13902009470334928,
	"learning_rate": 2.0381664451027717e-06,
	"loss": 0.9226,
	"step": 2300
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.1342038780728634,
	"learning_rate": 2.0334367030104936e-06,
	"loss": 0.9549,
	"step": 2305
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.1355958677734405,
	"learning_rate": 2.0287008815824494e-06,
	"loss": 0.924,
	"step": 2310
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.13040433649479655,
	"learning_rate": 2.023959034790644e-06,
	"loss": 0.94,
	"step": 2315
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.13624869289738803,
	"learning_rate": 2.019211216675751e-06,
	"loss": 0.9112,
	"step": 2320
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.14498884964787695,
	"learning_rate": 2.0144574813464972e-06,
	"loss": 0.9188,
	"step": 2325
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.14355069485318295,
	"learning_rate": 2.009697882979044e-06,
	"loss": 0.9434,
	"step": 2330
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.13722263129525908,
	"learning_rate": 2.0049324758163714e-06,
	"loss": 0.9304,
	"step": 2335
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.13150966633376412,
	"learning_rate": 2.000161314167661e-06,
	"loss": 0.9359,
	"step": 2340
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.13841892885164878,
	"learning_rate": 1.995384452407673e-06,
	"loss": 0.9394,
	"step": 2345
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.13321843330058455,
	"learning_rate": 1.990601944976133e-06,
	"loss": 0.9711,
	"step": 2350
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.15061604889591293,
	"learning_rate": 1.985813846377103e-06,
	"loss": 0.9272,
	"step": 2355
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.1361929007088866,
	"learning_rate": 1.9810202111783694e-06,
	"loss": 0.9525,
	"step": 2360
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.13830562465905946,
	"learning_rate": 1.976221094010814e-06,
	"loss": 0.9283,
	"step": 2365
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.1279081357272712,
	"learning_rate": 1.9714165495677955e-06,
	"loss": 0.9431,
	"step": 2370
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.14809572862407092,
	"learning_rate": 1.9666066326045235e-06,
	"loss": 0.9341,
	"step": 2375
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.13408718583428794,
	"learning_rate": 1.961791397937437e-06,
	"loss": 0.9423,
	"step": 2380
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.13271952301063553,
	"learning_rate": 1.9569709004435776e-06,
	"loss": 0.9167,
	"step": 2385
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.14683108447360405,
	"learning_rate": 1.9521451950599658e-06,
	"loss": 0.929,
	"step": 2390
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.14319313513188295,
	"learning_rate": 1.947314336782973e-06,
	"loss": 0.9152,
	"step": 2395
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.14548075342960598,
	"learning_rate": 1.942478380667697e-06,
	"loss": 0.9561,
	"step": 2400
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.14674027808693163,
	"learning_rate": 1.937637381827332e-06,
	"loss": 0.9176,
	"step": 2405
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.13901704473297072,
	"learning_rate": 1.932791395432543e-06,
	"loss": 0.943,
	"step": 2410
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.14173457335906417,
	"learning_rate": 1.927940476710836e-06,
	"loss": 0.974,
	"step": 2415
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.14520506983186532,
	"learning_rate": 1.9230846809459268e-06,
	"loss": 0.9347,
	"step": 2420
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.14661866708240862,
	"learning_rate": 1.918224063477114e-06,
	"loss": 0.9229,
	"step": 2425
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.13549663100208073,
	"learning_rate": 1.9133586796986475e-06,
	"loss": 0.9021,
	"step": 2430
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.13619817098434184,
	"learning_rate": 1.9084885850590945e-06,
	"loss": 0.9563,
	"step": 2435
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.14561195607002267,
	"learning_rate": 1.9036138350607125e-06,
	"loss": 0.9473,
	"step": 2440
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.13462906219833434,
	"learning_rate": 1.8987344852588126e-06,
	"loss": 0.9247,
	"step": 2445
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.15242666999590032,
	"learning_rate": 1.893850591261127e-06,
	"loss": 0.9364,
	"step": 2450
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.13889983715691157,
	"learning_rate": 1.8889622087271771e-06,
	"loss": 0.9413,
	"step": 2455
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.14135800831918405,
	"learning_rate": 1.8840693933676378e-06,
	"loss": 0.9207,
	"step": 2460
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.1372780862087748,
	"learning_rate": 1.879172200943704e-06,
	"loss": 0.9331,
	"step": 2465
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.15017799031764617,
	"learning_rate": 1.8742706872664516e-06,
	"loss": 0.9336,
	"step": 2470
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.13301418405514617,
	"learning_rate": 1.8693649081962059e-06,
	"loss": 0.9575,
	"step": 2475
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.13920099695451857,
	"learning_rate": 1.864454919641902e-06,
	"loss": 0.9452,
	"step": 2480
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.13582823833343818,
	"learning_rate": 1.8595407775604495e-06,
	"loss": 0.914,
	"step": 2485
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.14431368387268362,
	"learning_rate": 1.8546225379560928e-06,
	"loss": 0.9199,
	"step": 2490
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.14026316815195494,
	"learning_rate": 1.8497002568797739e-06,
	"loss": 0.9411,
	"step": 2495
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.13878672097268965,
	"learning_rate": 1.844773990428495e-06,
	"loss": 0.9208,
	"step": 2500
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.13541879797436218,
	"learning_rate": 1.839843794744676e-06,
	"loss": 0.9554,
	"step": 2505
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.14283432429319542,
	"learning_rate": 1.8349097260155178e-06,
	"loss": 0.941,
	"step": 2510
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.14515720243880362,
	"learning_rate": 1.8299718404723604e-06,
	"loss": 0.9102,
	"step": 2515
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.14050528252451772,
	"learning_rate": 1.8250301943900415e-06,
	"loss": 0.9124,
	"step": 2520
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.1435086593604132,
	"learning_rate": 1.8200848440862568e-06,
	"loss": 0.9384,
	"step": 2525
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.14004434383038292,
	"learning_rate": 1.8151358459209168e-06,
	"loss": 0.9256,
	"step": 2530
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.1504347210308783,
	"learning_rate": 1.810183256295506e-06,
	"loss": 0.9181,
	"step": 2535
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.13844797279531637,
	"learning_rate": 1.805227131652438e-06,
	"loss": 0.9286,
	"step": 2540
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.13788813272277844,
	"learning_rate": 1.800267528474414e-06,
	"loss": 0.9098,
	"step": 2545
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.14105382541615677,
	"learning_rate": 1.7953045032837773e-06,
	"loss": 0.9289,
	"step": 2550
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.1376343316669543,
	"learning_rate": 1.7903381126418725e-06,
	"loss": 0.9147,
	"step": 2555
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.1393057886246714,
	"learning_rate": 1.7853684131483972e-06,
	"loss": 0.9583,
	"step": 2560
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.1347402653981868,
	"learning_rate": 1.7803954614407588e-06,
	"loss": 0.956,
	"step": 2565
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.1420224811227815,
	"learning_rate": 1.7754193141934286e-06,
	"loss": 0.9288,
	"step": 2570
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.14376583147030975,
	"learning_rate": 1.7704400281172962e-06,
	"loss": 0.9195,
	"step": 2575
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.13126659878484417,
	"learning_rate": 1.7654576599590229e-06,
	"loss": 0.9468,
	"step": 2580
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.13581121757423928,
	"learning_rate": 1.7604722665003958e-06,
	"loss": 0.906,
	"step": 2585
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.15390158532500306,
	"learning_rate": 1.7554839045576778e-06,
	"loss": 0.9699,
	"step": 2590
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.14405781787739771,
	"learning_rate": 1.7504926309809655e-06,
	"loss": 0.9174,
	"step": 2595
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.13696698824707879,
	"learning_rate": 1.7454985026535348e-06,
	"loss": 0.9178,
	"step": 2600
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.14183018142151826,
	"learning_rate": 1.7405015764911985e-06,
	"loss": 0.93,
	"step": 2605
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.14244315668176377,
	"learning_rate": 1.735501909441654e-06,
	"loss": 0.9081,
	"step": 2610
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.13715525306632836,
	"learning_rate": 1.7304995584838346e-06,
	"loss": 0.9453,
	"step": 2615
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.14544225825185408,
	"learning_rate": 1.7254945806272619e-06,
	"loss": 0.9377,
	"step": 2620
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.12862157823453402,
	"learning_rate": 1.7204870329113952e-06,
	"loss": 0.9111,
	"step": 2625
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.14387593948992988,
	"learning_rate": 1.7154769724049805e-06,
	"loss": 0.9179,
	"step": 2630
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.14310554120599442,
	"learning_rate": 1.7104644562054017e-06,
	"loss": 0.9264,
	"step": 2635
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.14369268756275277,
	"learning_rate": 1.705449541438028e-06,
	"loss": 0.9179,
	"step": 2640
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.14156019346421533,
	"learning_rate": 1.7004322852555657e-06,
	"loss": 0.9411,
	"step": 2645
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.13431638177331276,
	"learning_rate": 1.6954127448374036e-06,
	"loss": 0.9211,
	"step": 2650
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.14619505394748813,
	"learning_rate": 1.6903909773889638e-06,
	"loss": 0.9272,
	"step": 2655
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.14836272472317252,
	"learning_rate": 1.6853670401410484e-06,
	"loss": 0.9343,
	"step": 2660
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.1373985024055969,
	"learning_rate": 1.6803409903491877e-06,
	"loss": 0.9318,
	"step": 2665
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.15326454301403541,
	"learning_rate": 1.6753128852929884e-06,
	"loss": 0.9578,
	"step": 2670
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.14559815110391214,
	"learning_rate": 1.6702827822754788e-06,
	"loss": 0.9272,
	"step": 2675
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.13744648077417837,
	"learning_rate": 1.6652507386224587e-06,
	"loss": 0.8995,
	"step": 2680
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.14647628387598488,
	"learning_rate": 1.6602168116818428e-06,
	"loss": 0.9162,
	"step": 2685
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.14404142802195286,
	"learning_rate": 1.65518105882301e-06,
	"loss": 0.9242,
	"step": 2690
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.15243037059220865,
	"learning_rate": 1.6501435374361478e-06,
	"loss": 0.93,
	"step": 2695
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.14267865323341203,
	"learning_rate": 1.6451043049315989e-06,
	"loss": 0.9137,
	"step": 2700
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.1481814130813317,
	"learning_rate": 1.6400634187392068e-06,
	"loss": 0.9295,
	"step": 2705
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.14103202841048518,
	"learning_rate": 1.635020936307662e-06,
	"loss": 0.9286,
	"step": 2710
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.14180132297439638,
	"learning_rate": 1.629976915103845e-06,
	"loss": 0.9472,
	"step": 2715
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.14440535406295116,
	"learning_rate": 1.6249314126121743e-06,
	"loss": 0.916,
	"step": 2720
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.14297238889743974,
	"learning_rate": 1.61988448633395e-06,
	"loss": 0.9428,
	"step": 2725
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.14278206678104752,
	"learning_rate": 1.614836193786698e-06,
	"loss": 0.9388,
	"step": 2730
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.14708980236362657,
	"learning_rate": 1.6097865925035148e-06,
	"loss": 0.9263,
	"step": 2735
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.1493782348617741,
	"learning_rate": 1.6047357400324125e-06,
	"loss": 0.9453,
	"step": 2740
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.14792348168682745,
	"learning_rate": 1.599683693935662e-06,
	"loss": 0.9471,
	"step": 2745
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.14644504231264188,
	"learning_rate": 1.5946305117891372e-06,
	"loss": 0.9543,
	"step": 2750
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.15603436515208155,
	"learning_rate": 1.5895762511816603e-06,
	"loss": 0.9403,
	"step": 2755
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.1492183413320477,
	"learning_rate": 1.5845209697143427e-06,
	"loss": 0.9347,
	"step": 2760
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.14310505430645265,
	"learning_rate": 1.5794647249999302e-06,
	"loss": 0.9284,
	"step": 2765
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.15219696170127922,
	"learning_rate": 1.5744075746621477e-06,
	"loss": 0.9446,
	"step": 2770
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.14278980302720323,
	"learning_rate": 1.5693495763350399e-06,
	"loss": 0.942,
	"step": 2775
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.15485157792551277,
	"learning_rate": 1.5642907876623155e-06,
	"loss": 0.9495,
	"step": 2780
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.14415653748935103,
	"learning_rate": 1.5592312662966912e-06,
	"loss": 0.95,
	"step": 2785
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.14626040552803168,
	"learning_rate": 1.5541710698992333e-06,
	"loss": 0.9272,
	"step": 2790
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.14459798185856082,
	"learning_rate": 1.5491102561387017e-06,
	"loss": 0.9287,
	"step": 2795
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.14606201408180883,
	"learning_rate": 1.5440488826908916e-06,
	"loss": 0.9093,
	"step": 2800
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.15371875458355483,
	"learning_rate": 1.5389870072379764e-06,
	"loss": 0.9365,
	"step": 2805
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.1402365522072789,
	"learning_rate": 1.5339246874678514e-06,
	"loss": 0.9179,
	"step": 2810
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.1543389255747757,
	"learning_rate": 1.528861981073475e-06,
	"loss": 0.9223,
	"step": 2815
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.14977412118551237,
	"learning_rate": 1.523798945752212e-06,
	"loss": 0.9246,
	"step": 2820
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.15214617356605256,
	"learning_rate": 1.5187356392051763e-06,
	"loss": 0.9199,
	"step": 2825
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.14138993564510816,
	"learning_rate": 1.5136721191365722e-06,
	"loss": 0.9678,
	"step": 2830
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.14972625540064466,
	"learning_rate": 1.5086084432530372e-06,
	"loss": 0.9371,
	"step": 2835
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.15911745951707099,
	"learning_rate": 1.5035446692629851e-06,
	"loss": 0.9264,
	"step": 2840
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.15920032142731483,
	"learning_rate": 1.498480854875948e-06,
	"loss": 0.9483,
	"step": 2845
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.14963882238441822,
	"learning_rate": 1.4934170578019175e-06,
	"loss": 0.9339,
	"step": 2850
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.15286707979378059,
	"learning_rate": 1.488353335750689e-06,
	"loss": 0.9406,
	"step": 2855
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.1521031280190717,
	"learning_rate": 1.483289746431202e-06,
	"loss": 0.9127,
	"step": 2860
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.15222047385687712,
	"learning_rate": 1.4782263475508832e-06,
	"loss": 0.9315,
	"step": 2865
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.14731189974755135,
	"learning_rate": 1.4731631968149895e-06,
	"loss": 0.904,
	"step": 2870
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.13976065735361923,
	"learning_rate": 1.4681003519259502e-06,
	"loss": 0.9117,
	"step": 2875
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.14696780830304437,
	"learning_rate": 1.463037870582708e-06,
	"loss": 0.9206,
	"step": 2880
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.14710865075058713,
	"learning_rate": 1.457975810480063e-06,
	"loss": 0.9188,
	"step": 2885
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.14110608951947717,
	"learning_rate": 1.4529142293080148e-06,
	"loss": 0.9563,
	"step": 2890
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.15100956168840318,
	"learning_rate": 1.447853184751104e-06,
	"loss": 0.9117,
	"step": 2895
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.14173007606413557,
	"learning_rate": 1.4427927344877572e-06,
	"loss": 0.9197,
	"step": 2900
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.15488805146642348,
	"learning_rate": 1.437732936189626e-06,
	"loss": 0.9286,
	"step": 2905
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.1541544010687315,
	"learning_rate": 1.4326738475209337e-06,
	"loss": 0.9599,
	"step": 2910
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.14095218223371167,
	"learning_rate": 1.427615526137815e-06,
	"loss": 0.8989,
	"step": 2915
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.15293667596322041,
	"learning_rate": 1.4225580296876608e-06,
	"loss": 0.9447,
	"step": 2920
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.14652744921172597,
	"learning_rate": 1.417501415808461e-06,
	"loss": 0.9217,
	"step": 2925
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.1504944288827222,
	"learning_rate": 1.4124457421281463e-06,
	"loss": 0.9673,
	"step": 2930
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.15585236316583084,
	"learning_rate": 1.4073910662639332e-06,
	"loss": 0.9065,
	"step": 2935
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.14742315841540685,
	"learning_rate": 1.402337445821666e-06,
	"loss": 0.9411,
	"step": 2940
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.15430455119028572,
	"learning_rate": 1.3972849383951611e-06,
	"loss": 0.9355,
	"step": 2945
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.1555666818366108,
	"learning_rate": 1.3922336015655506e-06,
	"loss": 0.9167,
	"step": 2950
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.14962961591804877,
	"learning_rate": 1.3871834929006256e-06,
	"loss": 0.941,
	"step": 2955
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.15455497529184967,
	"learning_rate": 1.3821346699541796e-06,
	"loss": 0.9192,
	"step": 2960
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.14982121619688704,
	"learning_rate": 1.3770871902653545e-06,
	"loss": 0.9248,
	"step": 2965
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.14737972139745104,
	"learning_rate": 1.3720411113579831e-06,
	"loss": 0.9282,
	"step": 2970
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.1435094517528824,
	"learning_rate": 1.3669964907399345e-06,
	"loss": 0.931,
	"step": 2975
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.15220182643955849,
	"learning_rate": 1.361953385902458e-06,
	"loss": 0.9452,
	"step": 2980
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.1565960862677695,
	"learning_rate": 1.3569118543195285e-06,
	"loss": 0.9265,
	"step": 2985
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.1468387324121908,
	"learning_rate": 1.3518719534471912e-06,
	"loss": 0.929,
	"step": 2990
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.1603995121000358,
	"learning_rate": 1.3468337407229064e-06,
	"loss": 0.9226,
	"step": 2995
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.1571110585893993,
	"learning_rate": 1.341797273564896e-06,
	"loss": 0.929,
	"step": 3000
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.14317070475253646,
	"learning_rate": 1.3367626093714884e-06,
	"loss": 0.9173,
	"step": 3005
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.14419206921916547,
	"learning_rate": 1.3317298055204635e-06,
	"loss": 0.9381,
	"step": 3010
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.1479165442891011,
	"learning_rate": 1.3266989193684006e-06,
	"loss": 0.9229,
	"step": 3015
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.1509048030581506,
	"learning_rate": 1.3216700082500238e-06,
	"loss": 0.9346,
	"step": 3020
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.1524427495079411,
	"learning_rate": 1.3166431294775486e-06,
	"loss": 0.9263,
	"step": 3025
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.1363749471323768,
	"learning_rate": 1.3116183403400286e-06,
	"loss": 0.9233,
	"step": 3030
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.15571108260671188,
	"learning_rate": 1.3065956981027027e-06,
	"loss": 0.9254,
	"step": 3035
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.14738034590459953,
	"learning_rate": 1.3015752600063428e-06,
	"loss": 0.9356,
	"step": 3040
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.15214039883958294,
	"learning_rate": 1.2965570832666014e-06,
	"loss": 0.9479,
	"step": 3045
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.1367470768499345,
	"learning_rate": 1.2915412250733592e-06,
	"loss": 0.9328,
	"step": 3050
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.14302733162614767,
	"learning_rate": 1.2865277425900725e-06,
	"loss": 0.9212,
	"step": 3055
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.14429292224162268,
	"learning_rate": 1.2815166929531242e-06,
	"loss": 0.9071,
	"step": 3060
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.15632981550136582,
	"learning_rate": 1.2765081332711703e-06,
	"loss": 0.9196,
	"step": 3065
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.16001339885276877,
	"learning_rate": 1.2715021206244902e-06,
	"loss": 0.9241,
	"step": 3070
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.15777057516222137,
	"learning_rate": 1.266498712064336e-06,
	"loss": 0.9261,
	"step": 3075
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.15137232676250217,
	"learning_rate": 1.2614979646122817e-06,
	"loss": 0.9437,
	"step": 3080
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.1509908233769637,
	"learning_rate": 1.2564999352595746e-06,
	"loss": 0.9022,
	"step": 3085
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.1446990823675756,
	"learning_rate": 1.2515046809664841e-06,
	"loss": 0.9324,
	"step": 3090
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.14529842278696345,
	"learning_rate": 1.2465122586616548e-06,
	"loss": 0.9186,
	"step": 3095
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.14890041058005424,
	"learning_rate": 1.2415227252414555e-06,
	"loss": 0.8839,
	"step": 3100
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.15401076762014934,
	"learning_rate": 1.2365361375693311e-06,
	"loss": 0.9526,
	"step": 3105
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.147809786608213,
	"learning_rate": 1.2315525524751565e-06,
	"loss": 0.9561,
	"step": 3110
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.13972074920029123,
	"learning_rate": 1.226572026754587e-06,
	"loss": 0.906,
	"step": 3115
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.1463242760428321,
	"learning_rate": 1.2215946171684115e-06,
	"loss": 0.9261,
	"step": 3120
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.15629569558792494,
	"learning_rate": 1.216620380441906e-06,
	"loss": 0.9301,
	"step": 3125
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.15002654546854,
	"learning_rate": 1.2116493732641862e-06,
	"loss": 0.9271,
	"step": 3130
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.154693913708028,
	"learning_rate": 1.2066816522875634e-06,
	"loss": 0.9603,
	"step": 3135
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.15302292304097528,
	"learning_rate": 1.2017172741268962e-06,
	"loss": 0.9562,
	"step": 3140
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.15744416055939195,
	"learning_rate": 1.1967562953589479e-06,
	"loss": 0.9249,
	"step": 3145
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.15274452723176532,
	"learning_rate": 1.1917987725217386e-06,
	"loss": 0.9098,
	"step": 3150
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.14903013683191468,
	"learning_rate": 1.1868447621139045e-06,
	"loss": 0.9341,
	"step": 3155
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.14670691399106886,
	"learning_rate": 1.181894320594052e-06,
	"loss": 0.9349,
	"step": 3160
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.1408976877727933,
	"learning_rate": 1.1769475043801133e-06,
	"loss": 0.9112,
	"step": 3165
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.14431525425160555,
	"learning_rate": 1.1720043698487063e-06,
	"loss": 0.9384,
	"step": 3170
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.1524691711633023,
	"learning_rate": 1.167064973334489e-06,
	"loss": 0.9309,
	"step": 3175
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.1496938194214256,
	"learning_rate": 1.16212937112952e-06,
	"loss": 0.9498,
	"step": 3180
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.158618142809653,
	"learning_rate": 1.157197619482615e-06,
	"loss": 0.9136,
	"step": 3185
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.14386034744502232,
	"learning_rate": 1.1522697745987075e-06,
	"loss": 0.9168,
	"step": 3190
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.13819775275169346,
	"learning_rate": 1.147345892638207e-06,
	"loss": 0.9169,
	"step": 3195
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.1463761110381215,
	"learning_rate": 1.1424260297163588e-06,
	"loss": 0.9229,
	"step": 3200
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.15981042409351381,
	"learning_rate": 1.1375102419026054e-06,
	"loss": 0.9111,
	"step": 3205
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.15444315539373016,
	"learning_rate": 1.132598585219948e-06,
	"loss": 0.9368,
	"step": 3210
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.1523026328416241,
	"learning_rate": 1.1276911156443059e-06,
	"loss": 0.9424,
	"step": 3215
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.1420446227672182,
	"learning_rate": 1.122787889103881e-06,
	"loss": 0.9238,
	"step": 3220
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.1523202126073691,
	"learning_rate": 1.117888961478518e-06,
	"loss": 0.9231,
	"step": 3225
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.14814643719132345,
	"learning_rate": 1.1129943885990697e-06,
	"loss": 0.9214,
	"step": 3230
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.14772444209447835,
	"learning_rate": 1.10810422624676e-06,
	"loss": 0.9151,
	"step": 3235
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.14630970085839903,
	"learning_rate": 1.103218530152548e-06,
	"loss": 0.8945,
	"step": 3240
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.15164841898736303,
	"learning_rate": 1.098337355996491e-06,
	"loss": 0.9372,
	"step": 3245
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.1544725525584187,
	"learning_rate": 1.0934607594071146e-06,
	"loss": 0.9416,
	"step": 3250
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.14788884792842535,
	"learning_rate": 1.0885887959607744e-06,
	"loss": 0.9274,
	"step": 3255
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.1574408320339308,
	"learning_rate": 1.0837215211810242e-06,
	"loss": 0.929,
	"step": 3260
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.1613973917431587,
	"learning_rate": 1.078858990537984e-06,
	"loss": 0.8949,
	"step": 3265
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.1598506012172115,
	"learning_rate": 1.074001259447706e-06,
	"loss": 0.9188,
	"step": 3270
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.1588121231918017,
	"learning_rate": 1.0691483832715451e-06,
	"loss": 0.9245,
	"step": 3275
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.1649194556317263,
	"learning_rate": 1.0643004173155262e-06,
	"loss": 0.9288,
	"step": 3280
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.14006308330926057,
	"learning_rate": 1.059457416829715e-06,
	"loss": 0.964,
	"step": 3285
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.1485669272917807,
	"learning_rate": 1.0546194370075883e-06,
	"loss": 0.9181,
	"step": 3290
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.14858509037038672,
	"learning_rate": 1.049786532985403e-06,
	"loss": 0.9272,
	"step": 3295
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.14487395597716682,
	"learning_rate": 1.0449587598415714e-06,
	"loss": 0.917,
	"step": 3300
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.14710872415034287,
	"learning_rate": 1.040136172596031e-06,
	"loss": 0.9247,
	"step": 3305
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.1626479302951273,
	"learning_rate": 1.0353188262096175e-06,
	"loss": 0.9275,
	"step": 3310
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.15781073519135003,
	"learning_rate": 1.0305067755834393e-06,
	"loss": 0.9253,
	"step": 3315
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.14128421978977157,
	"learning_rate": 1.0257000755582512e-06,
	"loss": 0.9211,
	"step": 3320
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.15143104599521942,
	"learning_rate": 1.0208987809138298e-06,
	"loss": 0.922,
	"step": 3325
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.1622702675456415,
	"learning_rate": 1.0161029463683486e-06,
	"loss": 0.9305,
	"step": 3330
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.1438713828814328,
	"learning_rate": 1.0113126265777563e-06,
	"loss": 0.9423,
	"step": 3335
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.16559678050928944,
	"learning_rate": 1.00652787613515e-06,
	"loss": 0.9419,
	"step": 3340
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.15093953285534764,
	"learning_rate": 1.0017487495701574e-06,
	"loss": 0.9137,
	"step": 3345
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.15008677116743874,
	"learning_rate": 9.969753013483127e-07,
	"loss": 0.9304,
	"step": 3350
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.16077001381591202,
	"learning_rate": 9.922075858704368e-07,
	"loss": 0.9129,
	"step": 3355
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.14718070657922894,
	"learning_rate": 9.87445657472017e-07,
	"loss": 0.9213,
	"step": 3360
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.14856763126559924,
	"learning_rate": 9.82689570422588e-07,
	"loss": 0.9165,
	"step": 3365
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.17239452738903066,
	"learning_rate": 9.779393789251134e-07,
	"loss": 0.9234,
	"step": 3370
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.1432746904130774,
	"learning_rate": 9.731951371153675e-07,
	"loss": 0.9329,
	"step": 3375
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.17149057728657496,
	"learning_rate": 9.684568990613192e-07,
	"loss": 0.9489,
	"step": 3380
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.15393538189231964,
	"learning_rate": 9.637247187625146e-07,
	"loss": 0.916,
	"step": 3385
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.15174331734813315,
	"learning_rate": 9.58998650149463e-07,
	"loss": 0.9205,
	"step": 3390
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.14922998507146534,
	"learning_rate": 9.542787470830209e-07,
	"loss": 0.9343,
	"step": 3395
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.1500848629292273,
	"learning_rate": 9.4956506335378e-07,
	"loss": 0.9241,
	"step": 3400
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.14949618673786386,
	"learning_rate": 9.44857652681452e-07,
	"loss": 0.9327,
	"step": 3405
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.15397347493957886,
	"learning_rate": 9.401565687142579e-07,
	"loss": 0.9407,
	"step": 3410
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.1533729596254089,
	"learning_rate": 9.354618650283159e-07,
	"loss": 0.9226,
	"step": 3415
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.15161923850474765,
	"learning_rate": 9.307735951270313e-07,
	"loss": 0.9279,
	"step": 3420
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.1522671281157681,
	"learning_rate": 9.260918124404861e-07,
	"loss": 0.9145,
	"step": 3425
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.15106036750963397,
	"learning_rate": 9.214165703248314e-07,
	"loss": 0.8922,
	"step": 3430
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.1508508419060107,
	"learning_rate": 9.167479220616762e-07,
	"loss": 0.9096,
	"step": 3435
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.15691718553565023,
	"learning_rate": 9.120859208574848e-07,
	"loss": 0.9276,
	"step": 3440
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.14818102813867765,
	"learning_rate": 9.074306198429669e-07,
	"loss": 0.9062,
	"step": 3445
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.1473880251613391,
	"learning_rate": 9.02782072072473e-07,
	"loss": 0.9197,
	"step": 3450
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.1526172026124484,
	"learning_rate": 8.981403305233904e-07,
	"loss": 0.9514,
	"step": 3455
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.17512228057747395,
	"learning_rate": 8.935054480955389e-07,
	"loss": 0.9107,
	"step": 3460
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.15716161285598004,
	"learning_rate": 8.888774776105679e-07,
	"loss": 0.8967,
	"step": 3465
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.14818527302391432,
	"learning_rate": 8.842564718113546e-07,
	"loss": 0.9309,
	"step": 3470
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.1575709023231356,
	"learning_rate": 8.796424833614026e-07,
	"loss": 0.9042,
	"step": 3475
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.16168153914116115,
	"learning_rate": 8.750355648442425e-07,
	"loss": 0.9109,
	"step": 3480
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.156594691500565,
	"learning_rate": 8.704357687628317e-07,
	"loss": 0.9162,
	"step": 3485
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.14861481291797754,
	"learning_rate": 8.658431475389554e-07,
	"loss": 0.9169,
	"step": 3490
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.14500543908075786,
	"learning_rate": 8.612577535126329e-07,
	"loss": 0.9372,
	"step": 3495
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.15940891480295918,
	"learning_rate": 8.566796389415154e-07,
	"loss": 0.9415,
	"step": 3500
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.15562117644201193,
	"learning_rate": 8.521088560002961e-07,
	"loss": 0.9133,
	"step": 3505
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.15740195784796523,
	"learning_rate": 8.475454567801106e-07,
	"loss": 0.9177,
	"step": 3510
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.15359832007067548,
	"learning_rate": 8.429894932879477e-07,
	"loss": 0.9243,
	"step": 3515
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.16314606057976921,
	"learning_rate": 8.384410174460524e-07,
	"loss": 0.9526,
	"step": 3520
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.14174905302998128,
	"learning_rate": 8.339000810913388e-07,
	"loss": 0.9268,
	"step": 3525
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.1508355501376482,
	"learning_rate": 8.293667359747949e-07,
	"loss": 0.9111,
	"step": 3530
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.15620625232845353,
	"learning_rate": 8.248410337608957e-07,
	"loss": 0.9258,
	"step": 3535
	},
	{
	"epoch": 0.68,
	"grad_norm": 0.15836435275133684,
	"learning_rate": 8.203230260270127e-07,
	"loss": 0.9202,
	"step": 3540
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.1490971119373064,
	"learning_rate": 8.158127642628285e-07,
	"loss": 0.93,
	"step": 3545
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.1498758710125973,
	"learning_rate": 8.113102998697464e-07,
	"loss": 0.9332,
	"step": 3550
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.15427230559339164,
	"learning_rate": 8.068156841603089e-07,
	"loss": 0.9393,
	"step": 3555
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.1554483829700364,
	"learning_rate": 8.02328968357608e-07,
	"loss": 0.9365,
	"step": 3560
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.16829536457561103,
	"learning_rate": 7.978502035947067e-07,
	"loss": 0.9185,
	"step": 3565
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.15319450100142196,
	"learning_rate": 7.933794409140512e-07,
	"loss": 0.9302,
	"step": 3570
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.15517496668151076,
	"learning_rate": 7.889167312668937e-07,
	"loss": 0.962,
	"step": 3575
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.1496297874459852,
	"learning_rate": 7.844621255127083e-07,
	"loss": 0.9217,
	"step": 3580
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.15476953612136735,
	"learning_rate": 7.800156744186124e-07,
	"loss": 0.9519,
	"step": 3585
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.15224644017556324,
	"learning_rate": 7.755774286587901e-07,
	"loss": 0.932,
	"step": 3590
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.14505520530000182,
	"learning_rate": 7.711474388139111e-07,
	"loss": 0.9125,
	"step": 3595
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.16828167804824415,
	"learning_rate": 7.667257553705584e-07,
	"loss": 0.9132,
	"step": 3600
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.16605220073103116,
	"learning_rate": 7.623124287206483e-07,
	"loss": 0.9549,
	"step": 3605
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.16228786623012695,
	"learning_rate": 7.579075091608605e-07,
	"loss": 0.9203,
	"step": 3610
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.1599479558357973,
	"learning_rate": 7.535110468920611e-07,
	"loss": 0.9262,
	"step": 3615
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.1573093783507514,
	"learning_rate": 7.491230920187344e-07,
	"loss": 0.9366,
	"step": 3620
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.15963712113833328,
	"learning_rate": 7.447436945484082e-07,
	"loss": 0.9013,
	"step": 3625
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.1399827930339598,
	"learning_rate": 7.40372904391086e-07,
	"loss": 0.9457,
	"step": 3630
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.1562062988863496,
	"learning_rate": 7.360107713586768e-07,
	"loss": 0.9352,
	"step": 3635
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.1488352670738681,
	"learning_rate": 7.316573451644303e-07,
	"loss": 0.8734,
	"step": 3640
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.1552420073883167,
	"learning_rate": 7.27312675422366e-07,
	"loss": 0.9386,
	"step": 3645
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.15531261843265345,
	"learning_rate": 7.229768116467124e-07,
	"loss": 0.929,
	"step": 3650
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.15795986251543662,
	"learning_rate": 7.186498032513378e-07,
	"loss": 0.9157,
	"step": 3655
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.14791527959203932,
	"learning_rate": 7.143316995491923e-07,
	"loss": 0.9391,
	"step": 3660
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.1552589054762009,
	"learning_rate": 7.100225497517415e-07,
	"loss": 0.906,
	"step": 3665
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.15429494696285626,
	"learning_rate": 7.05722402968409e-07,
	"loss": 0.9301,
	"step": 3670
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.1539770736197306,
	"learning_rate": 7.014313082060122e-07,
	"loss": 0.9409,
	"step": 3675
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.15378389305689893,
	"learning_rate": 6.971493143682105e-07,
	"loss": 0.9536,
	"step": 3680
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.14841643591153145,
	"learning_rate": 6.928764702549411e-07,
	"loss": 0.9455,
	"step": 3685
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.1424702517238874,
	"learning_rate": 6.886128245618684e-07,
	"loss": 0.9177,
	"step": 3690
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.1559018526800424,
	"learning_rate": 6.843584258798242e-07,
	"loss": 0.9376,
	"step": 3695
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.15722991689607704,
	"learning_rate": 6.801133226942587e-07,
	"loss": 0.9208,
	"step": 3700
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.14610737260386278,
	"learning_rate": 6.758775633846834e-07,
	"loss": 0.9095,
	"step": 3705
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.16090010441145305,
	"learning_rate": 6.716511962241237e-07,
	"loss": 0.929,
	"step": 3710
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.1554441965831577,
	"learning_rate": 6.674342693785651e-07,
	"loss": 0.9394,
	"step": 3715
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.1546491123373585,
	"learning_rate": 6.632268309064086e-07,
	"loss": 0.9409,
	"step": 3720
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.14715256425800258,
	"learning_rate": 6.590289287579178e-07,
	"loss": 0.9055,
	"step": 3725
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.14599984212897624,
	"learning_rate": 6.548406107746771e-07,
	"loss": 0.9433,
	"step": 3730
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.16347085408735626,
	"learning_rate": 6.506619246890428e-07,
	"loss": 0.9548,
	"step": 3735
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.15831789964538523,
	"learning_rate": 6.464929181236033e-07,
	"loss": 0.9386,
	"step": 3740
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.15355363351088241,
	"learning_rate": 6.423336385906309e-07,
	"loss": 0.9344,
	"step": 3745
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.1501784569255906,
	"learning_rate": 6.381841334915464e-07,
	"loss": 0.9293,
	"step": 3750
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.16042288291190004,
	"learning_rate": 6.340444501163731e-07,
	"loss": 0.9393,
	"step": 3755
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.16316861059946366,
	"learning_rate": 6.29914635643203e-07,
	"loss": 0.929,
	"step": 3760
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.1643610541161199,
	"learning_rate": 6.257947371376546e-07,
	"loss": 0.9426,
	"step": 3765
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.14616311834478152,
	"learning_rate": 6.216848015523392e-07,
	"loss": 0.9377,
	"step": 3770
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.16152029615425262,
	"learning_rate": 6.175848757263268e-07,
	"loss": 0.9429,
	"step": 3775
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.15699642229578464,
	"learning_rate": 6.134950063846083e-07,
	"loss": 0.9199,
	"step": 3780
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.1530620485910159,
	"learning_rate": 6.094152401375673e-07,
	"loss": 0.922,
	"step": 3785
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.15712637436393728,
	"learning_rate": 6.053456234804455e-07,
	"loss": 0.9433,
	"step": 3790
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.15422389473184495,
	"learning_rate": 6.012862027928163e-07,
	"loss": 0.888,
	"step": 3795
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.1566886231926118,
	"learning_rate": 5.972370243380519e-07,
	"loss": 0.925,
	"step": 3800
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.159378149867113,
	"learning_rate": 5.931981342628009e-07,
	"loss": 0.9244,
	"step": 3805
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.1633607022367415,
	"learning_rate": 5.891695785964572e-07,
	"loss": 0.905,
	"step": 3810
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.16458140405159416,
	"learning_rate": 5.851514032506414e-07,
	"loss": 0.9371,
	"step": 3815
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.17783212358538342,
	"learning_rate": 5.811436540186702e-07,
	"loss": 0.9275,
	"step": 3820
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.1557140157487442,
	"learning_rate": 5.771463765750429e-07,
	"loss": 0.9483,
	"step": 3825
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.16047316591282632,
	"learning_rate": 5.731596164749129e-07,
	"loss": 0.9286,
	"step": 3830
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.1562396765552942,
	"learning_rate": 5.691834191535754e-07,
	"loss": 0.9419,
	"step": 3835
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.16172641388514977,
	"learning_rate": 5.652178299259437e-07,
	"loss": 0.952,
	"step": 3840
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.16113805975363696,
	"learning_rate": 5.612628939860378e-07,
	"loss": 0.9351,
	"step": 3845
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.1437287491294515,
	"learning_rate": 5.573186564064649e-07,
	"loss": 0.9505,
	"step": 3850
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.16834817212399983,
	"learning_rate": 5.533851621379097e-07,
	"loss": 0.959,
	"step": 3855
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.1616903254935569,
	"learning_rate": 5.494624560086189e-07,
	"loss": 0.9197,
	"step": 3860
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.15641360380963865,
	"learning_rate": 5.455505827238926e-07,
	"loss": 0.902,
	"step": 3865
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.16461127069550324,
	"learning_rate": 5.416495868655723e-07,
	"loss": 0.9054,
	"step": 3870
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.15407955424345696,
	"learning_rate": 5.377595128915371e-07,
	"loss": 0.9383,
	"step": 3875
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.16169022882100972,
	"learning_rate": 5.338804051351918e-07,
	"loss": 0.9203,
	"step": 3880
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.1671241995582254,
	"learning_rate": 5.30012307804966e-07,
	"loss": 0.9165,
	"step": 3885
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.1474324575569325,
	"learning_rate": 5.261552649838068e-07,
	"loss": 0.9235,
	"step": 3890
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.1585059938742927,
	"learning_rate": 5.223093206286801e-07,
	"loss": 0.9214,
	"step": 3895
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.1497680366174517,
	"learning_rate": 5.184745185700654e-07,
	"loss": 0.9314,
	"step": 3900
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.1546850610459381,
	"learning_rate": 5.146509025114608e-07,
	"loss": 0.9235,
	"step": 3905
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.15045132406714182,
	"learning_rate": 5.108385160288809e-07,
	"loss": 0.9202,
	"step": 3910
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.1583744842728306,
	"learning_rate": 5.070374025703618e-07,
	"loss": 0.9146,
	"step": 3915
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.1562840274285093,
	"learning_rate": 5.032476054554679e-07,
	"loss": 0.9302,
	"step": 3920
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.15846456988668864,
	"learning_rate": 4.994691678747944e-07,
	"loss": 0.9339,
	"step": 3925
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.16307391364816642,
	"learning_rate": 4.957021328894786e-07,
	"loss": 0.9005,
	"step": 3930
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.16346422226751806,
	"learning_rate": 4.919465434307062e-07,
	"loss": 0.9345,
	"step": 3935
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.1695222160282978,
	"learning_rate": 4.882024422992248e-07,
	"loss": 0.9234,
	"step": 3940
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.16278959029884632,
	"learning_rate": 4.844698721648531e-07,
	"loss": 0.9196,
	"step": 3945
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.15957302783445512,
	"learning_rate": 4.807488755659985e-07,
	"loss": 0.9413,
	"step": 3950
	},
	{
	"epoch": 0.76,
	"grad_norm": 0.1560040784890354,
	"learning_rate": 4.770394949091678e-07,
	"loss": 0.9355,
	"step": 3955
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.1413278988058616,
	"learning_rate": 4.7334177246848794e-07,
	"loss": 0.9295,
	"step": 3960
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.1605581810941067,
	"learning_rate": 4.6965575038522055e-07,
	"loss": 0.9239,
	"step": 3965
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.15990736616330292,
	"learning_rate": 4.6598147066728613e-07,
	"loss": 0.927,
	"step": 3970
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.1523970977431131,
	"learning_rate": 4.6231897518878015e-07,
	"loss": 0.9268,
	"step": 3975
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.15895125148362393,
	"learning_rate": 4.5866830568950103e-07,
	"loss": 0.9083,
	"step": 3980
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.16109242763716947,
	"learning_rate": 4.550295037744694e-07,
	"loss": 0.9295,
	"step": 3985
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.15788410886290616,
	"learning_rate": 4.5140261091345867e-07,
	"loss": 0.9355,
	"step": 3990
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.16134673966779897,
	"learning_rate": 4.4778766844051793e-07,
	"loss": 0.884,
	"step": 3995
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.1532078082485744,
	"learning_rate": 4.4418471755350544e-07,
	"loss": 0.9288,
	"step": 4000
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.15779718366905426,
	"learning_rate": 4.405937993136151e-07,
	"loss": 0.9344,
	"step": 4005
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.14884341139812074,
	"learning_rate": 4.370149546449109e-07,
	"loss": 0.891,
	"step": 4010
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.1600941628867109,
	"learning_rate": 4.3344822433385896e-07,
	"loss": 0.9287,
	"step": 4015
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.1617161511554377,
	"learning_rate": 4.2989364902886545e-07,
	"loss": 0.94,
	"step": 4020
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.15247804429393655,
	"learning_rate": 4.263512692398091e-07,
	"loss": 0.9213,
	"step": 4025
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.16018944449095257,
	"learning_rate": 4.228211253375843e-07,
	"loss": 0.9024,
	"step": 4030
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.16007374852429948,
	"learning_rate": 4.193032575536363e-07,
	"loss": 0.9241,
	"step": 4035
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.15889603417134412,
	"learning_rate": 4.1579770597950693e-07,
	"loss": 0.9239,
	"step": 4040
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.17459525180727348,
	"learning_rate": 4.123045105663743e-07,
	"loss": 0.8917,
	"step": 4045
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.15763900800425762,
	"learning_rate": 4.088237111246e-07,
	"loss": 0.9211,
	"step": 4050
	},
	{
	"epoch": 0.78,
	"grad_norm": 0.1575161337518218,
	"learning_rate": 4.053553473232742e-07,
	"loss": 0.915,
	"step": 4055
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.15300282276303448,
	"learning_rate": 4.018994586897624e-07,
	"loss": 0.9249,
	"step": 4060
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.1504264330652952,
	"learning_rate": 3.9845608460925854e-07,
	"loss": 0.9508,
	"step": 4065
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.14959628504165817,
	"learning_rate": 3.950252643243317e-07,
	"loss": 0.9095,
	"step": 4070
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.1630583733534405,
	"learning_rate": 3.916070369344831e-07,
	"loss": 0.927,
	"step": 4075
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.15434075528005992,
	"learning_rate": 3.8820144139569635e-07,
	"loss": 0.9441,
	"step": 4080
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.15652793092715717,
	"learning_rate": 3.8480851651999785e-07,
	"loss": 0.9061,
	"step": 4085
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.24690420142064057,
	"learning_rate": 3.814283009750098e-07,
	"loss": 0.9291,
	"step": 4090
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.1561055095998655,
	"learning_rate": 3.7806083328351425e-07,
	"loss": 0.9141,
	"step": 4095
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.15547212939941615,
	"learning_rate": 3.7470615182301005e-07,
	"loss": 0.936,
	"step": 4100
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.1398346443024953,
	"learning_rate": 3.713642948252779e-07,
	"loss": 0.9173,
	"step": 4105
	},
	{
	"epoch": 0.79,
	"grad_norm": 0.1596932224744843,
	"learning_rate": 3.680353003759433e-07,
	"loss": 0.9354,
	"step": 4110
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.15975646326696724,
	"learning_rate": 3.6471920641404466e-07,
	"loss": 0.9448,
	"step": 4115
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.1508038761650183,
	"learning_rate": 3.614160507315973e-07,
	"loss": 0.9207,
	"step": 4120
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.1569010196095641,
	"learning_rate": 3.581258709731671e-07,
	"loss": 0.9152,
	"step": 4125
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.15735074242891792,
	"learning_rate": 3.548487046354368e-07,
	"loss": 0.9048,
	"step": 4130
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.1696586295135802,
	"learning_rate": 3.515845890667835e-07,
	"loss": 0.9265,
	"step": 4135
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.16094178127192826,
	"learning_rate": 3.4833356146684856e-07,
	"loss": 0.9095,
	"step": 4140
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.15722063022161345,
	"learning_rate": 3.450956588861173e-07,
	"loss": 0.8987,
	"step": 4145
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.15767024672708221,
	"learning_rate": 3.418709182254943e-07,
	"loss": 0.9444,
	"step": 4150
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.15337104954670655,
	"learning_rate": 3.3865937623588354e-07,
	"loss": 0.9231,
	"step": 4155
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.16566851753448866,
	"learning_rate": 3.3546106951776993e-07,
	"loss": 0.9007,
	"step": 4160
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.16192142530048215,
	"learning_rate": 3.322760345208031e-07,
	"loss": 0.9421,
	"step": 4165
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.163107039234031,
	"learning_rate": 3.2910430754337874e-07,
	"loss": 0.9318,
	"step": 4170
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.1545452516991764,
	"learning_rate": 3.259459247322295e-07,
	"loss": 0.9136,
	"step": 4175
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.15663230748229626,
	"learning_rate": 3.2280092208200853e-07,
	"loss": 0.8954,
	"step": 4180
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.15500795050421287,
	"learning_rate": 3.19669335434883e-07,
	"loss": 0.941,
	"step": 4185
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.15928222838638134,
	"learning_rate": 3.1655120048012244e-07,
	"loss": 0.9408,
	"step": 4190
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.15639857359171666,
	"learning_rate": 3.1344655275369524e-07,
	"loss": 0.9159,
	"step": 4195
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.15912741439338757,
	"learning_rate": 3.1035542763786077e-07,
	"loss": 0.9083,
	"step": 4200
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.15518719515657925,
	"learning_rate": 3.072778603607672e-07,
	"loss": 0.8945,
	"step": 4205
	},
	{
	"epoch": 0.81,
	"grad_norm": 0.15102896207837074,
	"learning_rate": 3.0421388599605167e-07,
	"loss": 0.9241,
	"step": 4210
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.15953041281656985,
	"learning_rate": 3.0116353946243717e-07,
	"loss": 0.9552,
	"step": 4215
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.15914050285439954,
	"learning_rate": 2.981268555233376e-07,
	"loss": 0.9346,
	"step": 4220
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.1535411640949839,
	"learning_rate": 2.9510386878646066e-07,
	"loss": 0.9208,
	"step": 4225
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.1624383805682274,
	"learning_rate": 2.920946137034121e-07,
	"loss": 0.9115,
	"step": 4230
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.1576525021299245,
	"learning_rate": 2.890991245693059e-07,
	"loss": 0.9175,
	"step": 4235
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.1689987920094538,
	"learning_rate": 2.861174355223702e-07,
	"loss": 0.9467,
	"step": 4240
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.15702484189102198,
	"learning_rate": 2.8314958054356106e-07,
	"loss": 0.9432,
	"step": 4245
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.16865544192759432,
	"learning_rate": 2.801955934561731e-07,
	"loss": 0.9287,
	"step": 4250
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.15716123855295028,
	"learning_rate": 2.772555079254547e-07,
	"loss": 0.9393,
	"step": 4255
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.15715960298271278,
	"learning_rate": 2.74329357458226e-07,
	"loss": 0.9396,
	"step": 4260
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.1567680825612272,
	"learning_rate": 2.714171754024935e-07,
	"loss": 0.9387,
	"step": 4265
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.1583254982488342,
	"learning_rate": 2.6851899494707397e-07,
	"loss": 0.9149,
	"step": 4270
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.1528791273519717,
	"learning_rate": 2.6563484912121284e-07,
	"loss": 0.9263,
	"step": 4275
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.1548488356579178,
	"learning_rate": 2.627647707942103e-07,
	"loss": 0.9125,
	"step": 4280
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.16277999785485375,
	"learning_rate": 2.5990879267504456e-07,
	"loss": 0.9203,
	"step": 4285
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.15633370731860066,
	"learning_rate": 2.5706694731200194e-07,
	"loss": 0.8966,
	"step": 4290
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.16163084541833064,
	"learning_rate": 2.542392670923014e-07,
	"loss": 0.9185,
	"step": 4295
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.1507577049675187,
	"learning_rate": 2.5142578424173116e-07,
	"loss": 0.931,
	"step": 4300
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.15543875551416902,
	"learning_rate": 2.486265308242761e-07,
	"loss": 0.9197,
	"step": 4305
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.16140974809909986,
	"learning_rate": 2.458415387417565e-07,
	"loss": 0.9098,
	"step": 4310
	},
	{
	"epoch": 0.83,
	"grad_norm": 0.1541006388383221,
	"learning_rate": 2.4307083973346144e-07,
	"loss": 0.9075,
	"step": 4315
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.1536331376849194,
	"learning_rate": 2.403144653757892e-07,
	"loss": 0.9226,
	"step": 4320
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.16664523654188895,
	"learning_rate": 2.3757244708188557e-07,
	"loss": 0.929,
	"step": 4325
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.15068817418063912,
	"learning_rate": 2.3484481610128815e-07,
	"loss": 0.9422,
	"step": 4330
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.15114736535904352,
	"learning_rate": 2.3213160351956725e-07,
	"loss": 0.8884,
	"step": 4335
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.16457615699636646,
	"learning_rate": 2.2943284025797523e-07,
	"loss": 0.9331,
	"step": 4340
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.15618814241892395,
	"learning_rate": 2.2674855707308938e-07,
	"loss": 0.9194,
	"step": 4345
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.15796367715432505,
	"learning_rate": 2.2407878455646667e-07,
	"loss": 0.9318,
	"step": 4350
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.14282593168610988,
	"learning_rate": 2.2142355313429136e-07,
	"loss": 0.9244,
	"step": 4355
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.15601800726624074,
	"learning_rate": 2.1878289306702986e-07,
	"loss": 0.9152,
	"step": 4360
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.157516630029107,
	"learning_rate": 2.1615683444908517e-07,
	"loss": 0.9228,
	"step": 4365
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.16141550481008685,
	"learning_rate": 2.1354540720845456e-07,
	"loss": 0.9437,
	"step": 4370
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.15114290632124544,
	"learning_rate": 2.1094864110638746e-07,
	"loss": 0.9113,
	"step": 4375
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.1629233031052345,
	"learning_rate": 2.0836656573704817e-07,
	"loss": 0.9359,
	"step": 4380
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.1540979875498575,
	"learning_rate": 2.057992105271762e-07,
	"loss": 0.9232,
	"step": 4385
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.16470643668441212,
	"learning_rate": 2.0324660473575218e-07,
	"loss": 0.9267,
	"step": 4390
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.1552333426235452,
	"learning_rate": 2.0070877745366546e-07,
	"loss": 0.9037,
	"step": 4395
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.15933287223217704,
	"learning_rate": 1.9818575760337991e-07,
	"loss": 0.9572,
	"step": 4400
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.1543328823907667,
	"learning_rate": 1.9567757393860735e-07,
	"loss": 0.9204,
	"step": 4405
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.15475180185924467,
	"learning_rate": 1.9318425504397675e-07,
	"loss": 0.9289,
	"step": 4410
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.15563510159853952,
	"learning_rate": 1.9070582933471158e-07,
	"loss": 0.9104,
	"step": 4415
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.1553271103735474,
	"learning_rate": 1.88242325056303e-07,
	"loss": 0.938,
	"step": 4420
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.15980736761542,
	"learning_rate": 1.8579377028419082e-07,
	"loss": 0.9622,
	"step": 4425
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.15927747684592666,
	"learning_rate": 1.833601929234406e-07,
	"loss": 0.9094,
	"step": 4430
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.160839016361983,
	"learning_rate": 1.809416207084293e-07,
	"loss": 0.9395,
	"step": 4435
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.15946588975620996,
	"learning_rate": 1.7853808120252403e-07,
	"loss": 0.9223,
	"step": 4440
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.15940399215075765,
	"learning_rate": 1.7614960179777373e-07,
	"loss": 0.9353,
	"step": 4445
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.15770387513942463,
	"learning_rate": 1.7377620971459251e-07,
	"loss": 0.9348,
	"step": 4450
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.15059096100398262,
	"learning_rate": 1.7141793200145234e-07,
	"loss": 0.9414,
	"step": 4455
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.14981443053828966,
	"learning_rate": 1.6907479553457228e-07,
	"loss": 0.9561,
	"step": 4460
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.14989095698958532,
	"learning_rate": 1.6674682701761496e-07,
	"loss": 0.9482,
	"step": 4465
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.16037252571389166,
	"learning_rate": 1.644340529813791e-07,
	"loss": 0.9025,
	"step": 4470
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.15692439644356643,
	"learning_rate": 1.6213649978350042e-07,
	"loss": 0.9276,
	"step": 4475
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.15736372136885854,
	"learning_rate": 1.5985419360814878e-07,
	"loss": 0.903,
	"step": 4480
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.16863539575661857,
	"learning_rate": 1.5758716046573068e-07,
	"loss": 0.9147,
	"step": 4485
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.16040567859365207,
	"learning_rate": 1.553354261925925e-07,
	"loss": 0.9162,
	"step": 4490
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.157140629226284,
	"learning_rate": 1.5309901645072777e-07,
	"loss": 0.948,
	"step": 4495
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.1608315729686174,
	"learning_rate": 1.5087795672748156e-07,
	"loss": 0.9321,
	"step": 4500
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.167819710766768,
	"learning_rate": 1.4867227233526303e-07,
	"loss": 0.9123,
	"step": 4505
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.15821303219930233,
	"learning_rate": 1.4648198841125454e-07,
	"loss": 0.9211,
	"step": 4510
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.1551506251400254,
	"learning_rate": 1.443071299171278e-07,
	"loss": 0.921,
	"step": 4515
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.16270472915600528,
	"learning_rate": 1.4214772163875618e-07,
	"loss": 0.9476,
	"step": 4520
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.16257841775735968,
	"learning_rate": 1.4000378818593534e-07,
	"loss": 0.9233,
	"step": 4525
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.156562288683159,
	"learning_rate": 1.3787535399210094e-07,
	"loss": 0.9182,
	"step": 4530
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.15476777543631168,
	"learning_rate": 1.3576244331404987e-07,
	"loss": 0.9282,
	"step": 4535
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.1526747916838123,
	"learning_rate": 1.3366508023166618e-07,
	"loss": 0.9109,
	"step": 4540
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.15868273523439957,
	"learning_rate": 1.3158328864764325e-07,
	"loss": 0.9183,
	"step": 4545
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.157997397996658,
	"learning_rate": 1.2951709228721466e-07,
	"loss": 0.8927,
	"step": 4550
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.15965300631556217,
	"learning_rate": 1.274665146978812e-07,
	"loss": 0.9422,
	"step": 4555
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.16102069291165114,
	"learning_rate": 1.2543157924914451e-07,
	"loss": 0.9136,
	"step": 4560
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.16644483473793495,
	"learning_rate": 1.234123091322389e-07,
	"loss": 0.9182,
	"step": 4565
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.16785461200909674,
	"learning_rate": 1.2140872735986908e-07,
	"loss": 0.9019,
	"step": 4570
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.15102979016575213,
	"learning_rate": 1.1942085676594617e-07,
	"loss": 0.9242,
	"step": 4575
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.15019421611211958,
	"learning_rate": 1.1744872000532814e-07,
	"loss": 0.8977,
	"step": 4580
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.16805390366486953,
	"learning_rate": 1.1549233955356143e-07,
	"loss": 0.9281,
	"step": 4585
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.15062889503591012,
	"learning_rate": 1.1355173770662592e-07,
	"loss": 0.9197,
	"step": 4590
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.15940944783864333,
	"learning_rate": 1.1162693658067852e-07,
	"loss": 0.8694,
	"step": 4595
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.1594448371528468,
	"learning_rate": 1.0971795811180402e-07,
	"loss": 0.9173,
	"step": 4600
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.15723697995020128,
	"learning_rate": 1.0782482405576194e-07,
	"loss": 0.9331,
	"step": 4605
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.16818241136639087,
	"learning_rate": 1.0594755598774192e-07,
	"loss": 0.9224,
	"step": 4610
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.16505122113793874,
	"learning_rate": 1.0408617530211473e-07,
	"loss": 0.9146,
	"step": 4615
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.16226442869385957,
	"learning_rate": 1.0224070321219065e-07,
	"loss": 0.9163,
	"step": 4620
	},
	{
	"epoch": 0.89,
	"grad_norm": 0.15760858471916925,
	"learning_rate": 1.004111607499768e-07,
	"loss": 0.9125,
	"step": 4625
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.167789388282492,
	"learning_rate": 9.859756876593723e-08,
	"loss": 0.953,
	"step": 4630
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.1589666026077562,
	"learning_rate": 9.679994792875585e-08,
	"loss": 0.9142,
	"step": 4635
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.1603705114000376,
	"learning_rate": 9.501831872510086e-08,
	"loss": 0.9343,
	"step": 4640
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.16565499499646644,
	"learning_rate": 9.325270145939075e-08,
	"loss": 0.9568,
	"step": 4645
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.16897573366166183,
	"learning_rate": 9.150311625356378e-08,
	"loss": 0.9335,
	"step": 4650
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.15687694406207942,
	"learning_rate": 8.976958304684707e-08,
	"loss": 0.913,
	"step": 4655
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.1560825616023689,
	"learning_rate": 8.805212159553171e-08,
	"loss": 0.9184,
	"step": 4660
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.1517859392958044,
	"learning_rate": 8.635075147274501e-08,
	"loss": 0.9127,
	"step": 4665
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.15438722856001558,
	"learning_rate": 8.466549206822993e-08,
	"loss": 0.9096,
	"step": 4670
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.1652750261831842,
	"learning_rate": 8.299636258812199e-08,
	"loss": 0.9247,
	"step": 4675
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.16015267448347073,
	"learning_rate": 8.134338205473124e-08,
	"loss": 0.9228,
	"step": 4680
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.16415589317028237,
	"learning_rate": 7.970656930632663e-08,
	"loss": 0.9351,
	"step": 4685
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.1603710732217631,
	"learning_rate": 7.808594299691902e-08,
	"loss": 0.9308,
	"step": 4690
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.16313461612356253,
	"learning_rate": 7.64815215960501e-08,
	"loss": 0.9093,
	"step": 4695
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.16350768777439237,
	"learning_rate": 7.489332338858202e-08,
	"loss": 0.9133,
	"step": 4700
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.15832339009257615,
	"learning_rate": 7.332136647448795e-08,
	"loss": 0.9108,
	"step": 4705
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.15056874945041787,
	"learning_rate": 7.176566876864699e-08,
	"loss": 0.9266,
	"step": 4710
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.15648829717155813,
	"learning_rate": 7.022624800063876e-08,
	"loss": 0.924,
	"step": 4715
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.1621955135948283,
	"learning_rate": 6.870312171454296e-08,
	"loss": 0.9451,
	"step": 4720
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.1604060029409816,
	"learning_rate": 6.719630726873748e-08,
	"loss": 0.9418,
	"step": 4725
	},
	{
	"epoch": 0.91,
	"grad_norm": 0.1676076936878336,
	"learning_rate": 6.570582183570211e-08,
	"loss": 0.9424,
	"step": 4730
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.16378443128060385,
	"learning_rate": 6.42316824018223e-08,
	"loss": 0.925,
	"step": 4735
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.1541488328010328,
	"learning_rate": 6.277390576719538e-08,
	"loss": 0.9308,
	"step": 4740
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.15020602128889035,
	"learning_rate": 6.133250854543948e-08,
	"loss": 0.9044,
	"step": 4745
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.15152489639770436,
	"learning_rate": 5.990750716350374e-08,
	"loss": 0.9107,
	"step": 4750
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.15521047884723635,
	"learning_rate": 5.849891786148193e-08,
	"loss": 0.9013,
	"step": 4755
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.1516663880407599,
	"learning_rate": 5.710675669242577e-08,
	"loss": 0.9183,
	"step": 4760
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.176609659206763,
	"learning_rate": 5.573103952216457e-08,
	"loss": 0.9266,
	"step": 4765
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.16607598187822306,
	"learning_rate": 5.4371782029121074e-08,
	"loss": 0.9317,
	"step": 4770
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.16280029991460063,
	"learning_rate": 5.302899970413588e-08,
	"loss": 0.9407,
	"step": 4775
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.1501137796362083,
	"learning_rate": 5.17027078502888e-08,
	"loss": 0.9098,
	"step": 4780
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.16436918493854402,
	"learning_rate": 5.039292158272596e-08,
	"loss": 0.9244,
	"step": 4785
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.16169601675540524,
	"learning_rate": 4.909965582848614e-08,
	"loss": 0.8792,
	"step": 4790
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.1600927235212448,
	"learning_rate": 4.782292532633187e-08,
	"loss": 0.953,
	"step": 4795
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.16263427667936725,
	"learning_rate": 4.656274462658028e-08,
	"loss": 0.9308,
	"step": 4800
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.16315939755816827,
	"learning_rate": 4.5319128090938686e-08,
	"loss": 0.9051,
	"step": 4805
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.1612104752152402,
	"learning_rate": 4.409208989233943e-08,
	"loss": 0.9317,
	"step": 4810
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.1654098368858686,
	"learning_rate": 4.288164401477995e-08,
	"loss": 0.9066,
	"step": 4815
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.1609318647136051,
	"learning_rate": 4.1687804253161485e-08,
	"loss": 0.9053,
	"step": 4820
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.16875575692294012,
	"learning_rate": 4.05105842131338e-08,
	"loss": 0.9519,
	"step": 4825
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.1549606486338682,
	"learning_rate": 3.934999731093852e-08,
	"loss": 0.9307,
	"step": 4830
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.1676676232013085,
	"learning_rate": 3.820605677325756e-08,
	"loss": 0.9626,
	"step": 4835
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.15773160804940514,
	"learning_rate": 3.707877563706158e-08,
	"loss": 0.9165,
	"step": 4840
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.15826127121512837,
	"learning_rate": 3.5968166749461463e-08,
	"loss": 0.8953,
	"step": 4845
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.1544058879678145,
	"learning_rate": 3.487424276756207e-08,
	"loss": 0.9007,
	"step": 4850
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.1735946591788913,
	"learning_rate": 3.379701615831837e-08,
	"loss": 0.9368,
	"step": 4855
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.16629351979756113,
	"learning_rate": 3.273649919839239e-08,
	"loss": 0.9366,
	"step": 4860
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.1670530577981281,
	"learning_rate": 3.16927039740143e-08,
	"loss": 0.8889,
	"step": 4865
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.18047483077210333,
	"learning_rate": 3.06656423808439e-08,
	"loss": 0.9581,
	"step": 4870
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.14862297706656663,
	"learning_rate": 2.9655326123835702e-08,
	"loss": 0.9082,
	"step": 4875
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.14156600846882356,
	"learning_rate": 2.866176671710502e-08,
	"loss": 0.9334,
	"step": 4880
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.152720300985099,
	"learning_rate": 2.7684975483797113e-08,
	"loss": 0.9098,
	"step": 4885
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.1541159122179482,
	"learning_rate": 2.6724963555957937e-08,
	"loss": 0.9086,
	"step": 4890
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.1639110432246253,
	"learning_rate": 2.5781741874407073e-08,
	"loss": 0.9278,
	"step": 4895
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.15764633567026584,
	"learning_rate": 2.4855321188614e-08,
	"loss": 0.9199,
	"step": 4900
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.16367449606999576,
	"learning_rate": 2.3945712056573866e-08,
	"loss": 0.9218,
	"step": 4905
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.1556361631328831,
	"learning_rate": 2.3052924844689237e-08,
	"loss": 0.9185,
	"step": 4910
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.14651345358604176,
	"learning_rate": 2.2176969727650043e-08,
	"loss": 0.8805,
	"step": 4915
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.16911174215759373,
	"learning_rate": 2.1317856688318815e-08,
	"loss": 0.9463,
	"step": 4920
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.16222471379625428,
	"learning_rate": 2.0475595517616465e-08,
	"loss": 0.9126,
	"step": 4925
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.15781798751754259,
	"learning_rate": 1.9650195814411353e-08,
	"loss": 0.9225,
	"step": 4930
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.14707569100008253,
	"learning_rate": 1.8841666985408568e-08,
	"loss": 0.8883,
	"step": 4935
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.1714960810767451,
	"learning_rate": 1.8050018245043987e-08,
	"loss": 0.9226,
	"step": 4940
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.16621777369986387,
	"learning_rate": 1.7275258615378377e-08,
	"loss": 0.9245,
	"step": 4945
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.16812621541501718,
	"learning_rate": 1.65173969259958e-08,
	"loss": 0.9409,
	"step": 4950
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.1587153310627031,
	"learning_rate": 1.5776441813901197e-08,
	"loss": 0.9004,
	"step": 4955
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.16493984218007582,
	"learning_rate": 1.5052401723423815e-08,
	"loss": 0.9166,
	"step": 4960
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.15890567241661818,
	"learning_rate": 1.4345284906119082e-08,
	"loss": 0.9117,
	"step": 4965
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.15091338059065335,
	"learning_rate": 1.3655099420676553e-08,
	"loss": 0.9404,
	"step": 4970
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.15944974898000105,
	"learning_rate": 1.2981853132826293e-08,
	"loss": 0.9531,
	"step": 4975
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.15818858463324417,
	"learning_rate": 1.2325553715250792e-08,
	"loss": 0.912,
	"step": 4980
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.15569962439666524,
	"learning_rate": 1.1686208647496032e-08,
	"loss": 0.8903,
	"step": 4985
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.1783511934328571,
	"learning_rate": 1.1063825215887557e-08,
	"loss": 0.9388,
	"step": 4990
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.16371221965885455,
	"learning_rate": 1.0458410513446203e-08,
	"loss": 0.9171,
	"step": 4995
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.16608474399678907,
	"learning_rate": 9.869971439808834e-09,
	"loss": 0.924,
	"step": 5000
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.16264204123747195,
	"learning_rate": 9.298514701147897e-09,
	"loss": 0.932,
	"step": 5005
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.15931886887708344,
	"learning_rate": 8.744046810096329e-09,
	"loss": 0.9317,
	"step": 5010
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.16017670612884605,
	"learning_rate": 8.206574085672769e-09,
	"loss": 0.9398,
	"step": 5015
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.15982177239936074,
	"learning_rate": 7.68610265320946e-09,
	"loss": 0.9272,
	"step": 5020
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.15118097697397376,
	"learning_rate": 7.182638444283296e-09,
	"loss": 0.9019,
	"step": 5025
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.16365399699832117,
	"learning_rate": 6.6961871966470525e-09,
	"loss": 0.9341,
	"step": 5030
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.16106966499050715,
	"learning_rate": 6.2267544541642625e-09,
	"loss": 0.9142,
	"step": 5035
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.16356964266490379,
	"learning_rate": 5.774345566746942e-09,
	"loss": 0.9136,
	"step": 5040
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.16839366533706696,
	"learning_rate": 5.338965690293795e-09,
	"loss": 0.9341,
	"step": 5045
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.15742905820134248,
	"learning_rate": 4.920619786630942e-09,
	"loss": 0.9209,
	"step": 5050
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.14496950871622408,
	"learning_rate": 4.519312623457117e-09,
	"loss": 0.9016,
	"step": 5055
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.15117212300765606,
	"learning_rate": 4.135048774287553e-09,
	"loss": 0.9103,
	"step": 5060
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.16671405192275532,
	"learning_rate": 3.767832618402689e-09,
	"loss": 0.9248,
	"step": 5065
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.1602778426913734,
	"learning_rate": 3.4176683407983744e-09,
	"loss": 0.9405,
	"step": 5070
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.14293417532619934,
	"learning_rate": 3.0845599321377427e-09,
	"loss": 0.8966,
	"step": 5075
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.1513599972047693,
	"learning_rate": 2.7685111887059133e-09,
	"loss": 0.9002,
	"step": 5080
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.15441045322521502,
	"learning_rate": 2.4695257123668602e-09,
	"loss": 0.8972,
	"step": 5085
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.15337187659541607,
	"learning_rate": 2.1876069105224437e-09,
	"loss": 0.9051,
	"step": 5090
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.15842607503539186,
	"learning_rate": 1.9227579960729434e-09,
	"loss": 0.9358,
	"step": 5095
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.16236135287127654,
	"learning_rate": 1.6749819873810857e-09,
	"loss": 0.9403,
	"step": 5100
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.15112590057516626,
	"learning_rate": 1.4442817082377379e-09,
	"loss": 0.8968,
	"step": 5105
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.16919776377500648,
	"learning_rate": 1.2306597878289361e-09,
	"loss": 0.9206,
	"step": 5110
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.16262851154680527,
	"learning_rate": 1.03411866070674e-09,
	"loss": 0.9096,
	"step": 5115
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.14577473193606455,
	"learning_rate": 8.546605667610896e-10,
	"loss": 0.9482,
	"step": 5120
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.15883938592062852,
	"learning_rate": 6.922875511943261e-10,
	"loss": 0.9248,
	"step": 5125
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.15113652144655165,
	"learning_rate": 5.470014644980426e-10,
	"loss": 0.9265,
	"step": 5130
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.1510997478676236,
	"learning_rate": 4.18803962431602e-10,
	"loss": 0.8814,
	"step": 5135
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.15722861475429373,
	"learning_rate": 3.076965060038184e-10,
	"loss": 0.9215,
	"step": 5140
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.15915656709758227,
	"learning_rate": 2.1368036145597013e-10,
	"loss": 0.9631,
	"step": 5145
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.14617851831272438,
	"learning_rate": 1.3675660024714541e-10,
	"loss": 0.9366,
	"step": 5150
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.15902826549810223,
	"learning_rate": 7.692609904258463e-11,
	"loss": 0.9326,
	"step": 5155
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.16030959960966326,
	"learning_rate": 3.4189539703355364e-11,
	"loss": 0.8914,
	"step": 5160
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.16538320040136756,
	"learning_rate": 8.547409278525376e-12,
	"loss": 0.9356,
	"step": 5165
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.1617655412465529,
	"learning_rate": 0.0,
	"loss": 0.918,
	"step": 5170
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.9631486535072327,
	"eval_runtime": 5393.193,
	"eval_samples_per_second": 5.747,
	"eval_steps_per_second": 0.12,
	"step": 5170
	},
	{
	"epoch": 1.0,
	"step": 5170,
	"total_flos": 1.360193862500352e+16,
	"train_loss": 0.9572911218241059,
	"train_runtime": 140901.3648,
	"train_samples_per_second": 1.761,
	"train_steps_per_second": 0.037
	}
	],
	"logging_steps": 5,
	"max_steps": 5170,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 1.360193862500352e+16,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}