Upload folder using huggingface_hub

6fd87e7 verified 5 months ago

377 kB

	{
	"best_global_step": 72000,
	"best_metric": 3.5280511379241943,
	"best_model_checkpoint": "/scratch/cl5625/exceptions/models/last_to_push_frequency_3591/checkpoint-30000",
	"epoch": 29.120857359193895,
	"eval_steps": 1000,
	"global_step": 100000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.014561127613722406,
	"grad_norm": 0.8466977477073669,
	"learning_rate": 0.000294,
	"loss": 8.4098,
	"step": 50
	},
	{
	"epoch": 0.029122255227444813,
	"grad_norm": 0.6842089295387268,
	"learning_rate": 0.0005939999999999999,
	"loss": 6.7014,
	"step": 100
	},
	{
	"epoch": 0.04368338284116722,
	"grad_norm": 0.7142037749290466,
	"learning_rate": 0.0005998286713286713,
	"loss": 6.34,
	"step": 150
	},
	{
	"epoch": 0.058244510454889625,
	"grad_norm": 0.5938196778297424,
	"learning_rate": 0.0005996538461538461,
	"loss": 6.139,
	"step": 200
	},
	{
	"epoch": 0.07280563806861204,
	"grad_norm": 0.3856406807899475,
	"learning_rate": 0.0005994790209790209,
	"loss": 5.9921,
	"step": 250
	},
	{
	"epoch": 0.08736676568233444,
	"grad_norm": 0.39986154437065125,
	"learning_rate": 0.0005993041958041958,
	"loss": 5.8431,
	"step": 300
	},
	{
	"epoch": 0.10192789329605685,
	"grad_norm": 0.5341420769691467,
	"learning_rate": 0.0005991293706293705,
	"loss": 5.7043,
	"step": 350
	},
	{
	"epoch": 0.11648902090977925,
	"grad_norm": 0.4427669644355774,
	"learning_rate": 0.0005989545454545454,
	"loss": 5.6019,
	"step": 400
	},
	{
	"epoch": 0.13105014852350166,
	"grad_norm": 0.45295220613479614,
	"learning_rate": 0.0005987797202797202,
	"loss": 5.4996,
	"step": 450
	},
	{
	"epoch": 0.14561127613722408,
	"grad_norm": 0.5014562606811523,
	"learning_rate": 0.000598604895104895,
	"loss": 5.3991,
	"step": 500
	},
	{
	"epoch": 0.16017240375094646,
	"grad_norm": 0.4532122015953064,
	"learning_rate": 0.0005984300699300698,
	"loss": 5.3103,
	"step": 550
	},
	{
	"epoch": 0.17473353136466888,
	"grad_norm": 0.45960476994514465,
	"learning_rate": 0.0005982552447552447,
	"loss": 5.2526,
	"step": 600
	},
	{
	"epoch": 0.1892946589783913,
	"grad_norm": 0.4369155764579773,
	"learning_rate": 0.0005980804195804195,
	"loss": 5.1734,
	"step": 650
	},
	{
	"epoch": 0.2038557865921137,
	"grad_norm": 0.48178285360336304,
	"learning_rate": 0.0005979055944055943,
	"loss": 5.1075,
	"step": 700
	},
	{
	"epoch": 0.2184169142058361,
	"grad_norm": 0.44058653712272644,
	"learning_rate": 0.0005977307692307691,
	"loss": 5.0671,
	"step": 750
	},
	{
	"epoch": 0.2329780418195585,
	"grad_norm": 0.45520836114883423,
	"learning_rate": 0.000597555944055944,
	"loss": 5.0176,
	"step": 800
	},
	{
	"epoch": 0.24753916943328091,
	"grad_norm": 0.4496179521083832,
	"learning_rate": 0.0005973811188811188,
	"loss": 4.972,
	"step": 850
	},
	{
	"epoch": 0.2621002970470033,
	"grad_norm": 0.5189023613929749,
	"learning_rate": 0.0005972062937062936,
	"loss": 4.9247,
	"step": 900
	},
	{
	"epoch": 0.27666142466072574,
	"grad_norm": 0.542473554611206,
	"learning_rate": 0.0005970314685314685,
	"loss": 4.8671,
	"step": 950
	},
	{
	"epoch": 0.29122255227444815,
	"grad_norm": 0.45608243346214294,
	"learning_rate": 0.0005968566433566433,
	"loss": 4.8193,
	"step": 1000
	},
	{
	"epoch": 0.29122255227444815,
	"eval_accuracy": 0.2555685292424054,
	"eval_loss": 4.740924835205078,
	"eval_runtime": 182.37,
	"eval_samples_per_second": 91.276,
	"eval_steps_per_second": 5.708,
	"step": 1000
	},
	{
	"epoch": 0.30578367988817057,
	"grad_norm": 0.4338395893573761,
	"learning_rate": 0.0005966818181818181,
	"loss": 4.7728,
	"step": 1050
	},
	{
	"epoch": 0.3203448075018929,
	"grad_norm": 0.5276835560798645,
	"learning_rate": 0.0005965069930069929,
	"loss": 4.7444,
	"step": 1100
	},
	{
	"epoch": 0.33490593511561534,
	"grad_norm": 0.44655585289001465,
	"learning_rate": 0.0005963321678321677,
	"loss": 4.6967,
	"step": 1150
	},
	{
	"epoch": 0.34946706272933775,
	"grad_norm": 0.38414475321769714,
	"learning_rate": 0.0005961573426573425,
	"loss": 4.6614,
	"step": 1200
	},
	{
	"epoch": 0.36402819034306017,
	"grad_norm": 0.4639468193054199,
	"learning_rate": 0.0005959825174825174,
	"loss": 4.6234,
	"step": 1250
	},
	{
	"epoch": 0.3785893179567826,
	"grad_norm": 0.4747146964073181,
	"learning_rate": 0.0005958076923076922,
	"loss": 4.6,
	"step": 1300
	},
	{
	"epoch": 0.393150445570505,
	"grad_norm": 0.5148531198501587,
	"learning_rate": 0.000595632867132867,
	"loss": 4.5744,
	"step": 1350
	},
	{
	"epoch": 0.4077115731842274,
	"grad_norm": 0.4540764391422272,
	"learning_rate": 0.0005954580419580418,
	"loss": 4.5458,
	"step": 1400
	},
	{
	"epoch": 0.4222727007979498,
	"grad_norm": 0.4469960033893585,
	"learning_rate": 0.0005952832167832168,
	"loss": 4.5213,
	"step": 1450
	},
	{
	"epoch": 0.4368338284116722,
	"grad_norm": 0.4068995416164398,
	"learning_rate": 0.0005951083916083916,
	"loss": 4.4989,
	"step": 1500
	},
	{
	"epoch": 0.4513949560253946,
	"grad_norm": 0.36514100432395935,
	"learning_rate": 0.0005949335664335664,
	"loss": 4.4959,
	"step": 1550
	},
	{
	"epoch": 0.465956083639117,
	"grad_norm": 0.41950780153274536,
	"learning_rate": 0.0005947587412587413,
	"loss": 4.4468,
	"step": 1600
	},
	{
	"epoch": 0.4805172112528394,
	"grad_norm": 0.42646339535713196,
	"learning_rate": 0.0005945839160839161,
	"loss": 4.4366,
	"step": 1650
	},
	{
	"epoch": 0.49507833886656183,
	"grad_norm": 0.3759300112724304,
	"learning_rate": 0.0005944090909090909,
	"loss": 4.425,
	"step": 1700
	},
	{
	"epoch": 0.5096394664802842,
	"grad_norm": 0.40312129259109497,
	"learning_rate": 0.0005942342657342657,
	"loss": 4.3986,
	"step": 1750
	},
	{
	"epoch": 0.5242005940940067,
	"grad_norm": 0.3916018009185791,
	"learning_rate": 0.0005940594405594406,
	"loss": 4.3877,
	"step": 1800
	},
	{
	"epoch": 0.5387617217077291,
	"grad_norm": 0.36997199058532715,
	"learning_rate": 0.0005938846153846153,
	"loss": 4.3737,
	"step": 1850
	},
	{
	"epoch": 0.5533228493214515,
	"grad_norm": 0.4766369163990021,
	"learning_rate": 0.0005937097902097902,
	"loss": 4.3561,
	"step": 1900
	},
	{
	"epoch": 0.5678839769351739,
	"grad_norm": 0.4964778423309326,
	"learning_rate": 0.000593534965034965,
	"loss": 4.3618,
	"step": 1950
	},
	{
	"epoch": 0.5824451045488963,
	"grad_norm": 0.43863603472709656,
	"learning_rate": 0.0005933601398601398,
	"loss": 4.3232,
	"step": 2000
	},
	{
	"epoch": 0.5824451045488963,
	"eval_accuracy": 0.29954776016193546,
	"eval_loss": 4.281495094299316,
	"eval_runtime": 182.5417,
	"eval_samples_per_second": 91.19,
	"eval_steps_per_second": 5.703,
	"step": 2000
	},
	{
	"epoch": 0.5970062321626187,
	"grad_norm": 0.3895237147808075,
	"learning_rate": 0.0005931853146853146,
	"loss": 4.3153,
	"step": 2050
	},
	{
	"epoch": 0.6115673597763411,
	"grad_norm": 0.35456663370132446,
	"learning_rate": 0.0005930104895104895,
	"loss": 4.3017,
	"step": 2100
	},
	{
	"epoch": 0.6261284873900634,
	"grad_norm": 0.36657285690307617,
	"learning_rate": 0.0005928356643356643,
	"loss": 4.3021,
	"step": 2150
	},
	{
	"epoch": 0.6406896150037859,
	"grad_norm": 0.3920918107032776,
	"learning_rate": 0.0005926608391608391,
	"loss": 4.2813,
	"step": 2200
	},
	{
	"epoch": 0.6552507426175083,
	"grad_norm": 0.3744465708732605,
	"learning_rate": 0.000592486013986014,
	"loss": 4.2666,
	"step": 2250
	},
	{
	"epoch": 0.6698118702312307,
	"grad_norm": 0.38081395626068115,
	"learning_rate": 0.0005923111888111888,
	"loss": 4.2704,
	"step": 2300
	},
	{
	"epoch": 0.6843729978449531,
	"grad_norm": 0.36270445585250854,
	"learning_rate": 0.0005921363636363636,
	"loss": 4.24,
	"step": 2350
	},
	{
	"epoch": 0.6989341254586755,
	"grad_norm": 0.40953528881073,
	"learning_rate": 0.0005919615384615384,
	"loss": 4.2401,
	"step": 2400
	},
	{
	"epoch": 0.7134952530723979,
	"grad_norm": 0.36897608637809753,
	"learning_rate": 0.0005917867132867133,
	"loss": 4.2372,
	"step": 2450
	},
	{
	"epoch": 0.7280563806861203,
	"grad_norm": 0.35832679271698,
	"learning_rate": 0.0005916118881118881,
	"loss": 4.2331,
	"step": 2500
	},
	{
	"epoch": 0.7426175082998427,
	"grad_norm": 0.38073498010635376,
	"learning_rate": 0.0005914370629370629,
	"loss": 4.2068,
	"step": 2550
	},
	{
	"epoch": 0.7571786359135652,
	"grad_norm": 0.4003191888332367,
	"learning_rate": 0.0005912622377622377,
	"loss": 4.2046,
	"step": 2600
	},
	{
	"epoch": 0.7717397635272876,
	"grad_norm": 0.3635654151439667,
	"learning_rate": 0.0005910874125874125,
	"loss": 4.1995,
	"step": 2650
	},
	{
	"epoch": 0.78630089114101,
	"grad_norm": 0.35873937606811523,
	"learning_rate": 0.0005909125874125873,
	"loss": 4.2033,
	"step": 2700
	},
	{
	"epoch": 0.8008620187547324,
	"grad_norm": 0.3539746105670929,
	"learning_rate": 0.0005907377622377622,
	"loss": 4.1872,
	"step": 2750
	},
	{
	"epoch": 0.8154231463684548,
	"grad_norm": 0.37548962235450745,
	"learning_rate": 0.000590562937062937,
	"loss": 4.168,
	"step": 2800
	},
	{
	"epoch": 0.8299842739821772,
	"grad_norm": 0.3538251221179962,
	"learning_rate": 0.0005903881118881118,
	"loss": 4.179,
	"step": 2850
	},
	{
	"epoch": 0.8445454015958996,
	"grad_norm": 0.3582804501056671,
	"learning_rate": 0.0005902132867132867,
	"loss": 4.1529,
	"step": 2900
	},
	{
	"epoch": 0.8591065292096219,
	"grad_norm": 0.3666636049747467,
	"learning_rate": 0.0005900384615384615,
	"loss": 4.1502,
	"step": 2950
	},
	{
	"epoch": 0.8736676568233444,
	"grad_norm": 0.37483951449394226,
	"learning_rate": 0.0005898636363636363,
	"loss": 4.1292,
	"step": 3000
	},
	{
	"epoch": 0.8736676568233444,
	"eval_accuracy": 0.31617228847136397,
	"eval_loss": 4.089555263519287,
	"eval_runtime": 182.8843,
	"eval_samples_per_second": 91.019,
	"eval_steps_per_second": 5.692,
	"step": 3000
	},
	{
	"epoch": 0.8882287844370668,
	"grad_norm": 0.3864665925502777,
	"learning_rate": 0.0005896888111888111,
	"loss": 4.1193,
	"step": 3050
	},
	{
	"epoch": 0.9027899120507892,
	"grad_norm": 0.347319632768631,
	"learning_rate": 0.000589513986013986,
	"loss": 4.1179,
	"step": 3100
	},
	{
	"epoch": 0.9173510396645116,
	"grad_norm": 0.3676200807094574,
	"learning_rate": 0.0005893391608391608,
	"loss": 4.1154,
	"step": 3150
	},
	{
	"epoch": 0.931912167278234,
	"grad_norm": 0.3425697088241577,
	"learning_rate": 0.0005891643356643356,
	"loss": 4.1291,
	"step": 3200
	},
	{
	"epoch": 0.9464732948919564,
	"grad_norm": 0.3959852457046509,
	"learning_rate": 0.0005889895104895104,
	"loss": 4.1053,
	"step": 3250
	},
	{
	"epoch": 0.9610344225056788,
	"grad_norm": 0.3836718499660492,
	"learning_rate": 0.0005888146853146853,
	"loss": 4.1068,
	"step": 3300
	},
	{
	"epoch": 0.9755955501194012,
	"grad_norm": 0.4188532531261444,
	"learning_rate": 0.00058863986013986,
	"loss": 4.0989,
	"step": 3350
	},
	{
	"epoch": 0.9901566777331237,
	"grad_norm": 0.33719179034233093,
	"learning_rate": 0.0005884650349650349,
	"loss": 4.0963,
	"step": 3400
	},
	{
	"epoch": 1.004659560836391,
	"grad_norm": 0.36592167615890503,
	"learning_rate": 0.0005882902097902097,
	"loss": 4.0577,
	"step": 3450
	},
	{
	"epoch": 1.0192206884501136,
	"grad_norm": 0.3381110727787018,
	"learning_rate": 0.0005881153846153845,
	"loss": 4.0016,
	"step": 3500
	},
	{
	"epoch": 1.033781816063836,
	"grad_norm": 0.35888952016830444,
	"learning_rate": 0.0005879405594405594,
	"loss": 4.0032,
	"step": 3550
	},
	{
	"epoch": 1.0483429436775584,
	"grad_norm": 0.35463494062423706,
	"learning_rate": 0.0005877657342657342,
	"loss": 4.0018,
	"step": 3600
	},
	{
	"epoch": 1.0629040712912807,
	"grad_norm": 0.3339248299598694,
	"learning_rate": 0.000587590909090909,
	"loss": 4.0116,
	"step": 3650
	},
	{
	"epoch": 1.0774651989050033,
	"grad_norm": 0.37050846219062805,
	"learning_rate": 0.0005874160839160838,
	"loss": 4.0031,
	"step": 3700
	},
	{
	"epoch": 1.0920263265187256,
	"grad_norm": 0.37132593989372253,
	"learning_rate": 0.0005872412587412587,
	"loss": 3.996,
	"step": 3750
	},
	{
	"epoch": 1.106587454132448,
	"grad_norm": 0.3583703339099884,
	"learning_rate": 0.0005870664335664335,
	"loss": 3.9926,
	"step": 3800
	},
	{
	"epoch": 1.1211485817461704,
	"grad_norm": 0.32278576493263245,
	"learning_rate": 0.0005868916083916083,
	"loss": 3.9928,
	"step": 3850
	},
	{
	"epoch": 1.135709709359893,
	"grad_norm": 0.46608036756515503,
	"learning_rate": 0.0005867167832167831,
	"loss": 3.9823,
	"step": 3900
	},
	{
	"epoch": 1.1502708369736152,
	"grad_norm": 0.3258165717124939,
	"learning_rate": 0.000586541958041958,
	"loss": 3.99,
	"step": 3950
	},
	{
	"epoch": 1.1648319645873377,
	"grad_norm": 0.36865976452827454,
	"learning_rate": 0.0005863671328671328,
	"loss": 3.9822,
	"step": 4000
	},
	{
	"epoch": 1.1648319645873377,
	"eval_accuracy": 0.3258375806744003,
	"eval_loss": 3.9846527576446533,
	"eval_runtime": 182.7722,
	"eval_samples_per_second": 91.075,
	"eval_steps_per_second": 5.696,
	"step": 4000
	},
	{
	"epoch": 1.17939309220106,
	"grad_norm": 0.3421526551246643,
	"learning_rate": 0.0005861923076923076,
	"loss": 3.995,
	"step": 4050
	},
	{
	"epoch": 1.1939542198147826,
	"grad_norm": 0.34738972783088684,
	"learning_rate": 0.0005860174825174824,
	"loss": 3.9821,
	"step": 4100
	},
	{
	"epoch": 1.2085153474285049,
	"grad_norm": 0.33670172095298767,
	"learning_rate": 0.0005858426573426573,
	"loss": 3.9627,
	"step": 4150
	},
	{
	"epoch": 1.2230764750422272,
	"grad_norm": 0.3570351004600525,
	"learning_rate": 0.000585667832167832,
	"loss": 3.9683,
	"step": 4200
	},
	{
	"epoch": 1.2376376026559497,
	"grad_norm": 0.34402894973754883,
	"learning_rate": 0.000585493006993007,
	"loss": 3.9625,
	"step": 4250
	},
	{
	"epoch": 1.2521987302696722,
	"grad_norm": 0.3514033555984497,
	"learning_rate": 0.0005853181818181817,
	"loss": 3.9698,
	"step": 4300
	},
	{
	"epoch": 1.2667598578833945,
	"grad_norm": 0.34714460372924805,
	"learning_rate": 0.0005851433566433565,
	"loss": 3.9567,
	"step": 4350
	},
	{
	"epoch": 1.2813209854971168,
	"grad_norm": 0.34446805715560913,
	"learning_rate": 0.0005849685314685315,
	"loss": 3.9564,
	"step": 4400
	},
	{
	"epoch": 1.2958821131108393,
	"grad_norm": 0.3477458655834198,
	"learning_rate": 0.0005847937062937063,
	"loss": 3.9627,
	"step": 4450
	},
	{
	"epoch": 1.3104432407245616,
	"grad_norm": 0.32496753334999084,
	"learning_rate": 0.0005846188811188811,
	"loss": 3.9557,
	"step": 4500
	},
	{
	"epoch": 1.3250043683382842,
	"grad_norm": 0.37617602944374084,
	"learning_rate": 0.0005844440559440559,
	"loss": 3.9518,
	"step": 4550
	},
	{
	"epoch": 1.3395654959520065,
	"grad_norm": 0.35174936056137085,
	"learning_rate": 0.0005842692307692308,
	"loss": 3.9558,
	"step": 4600
	},
	{
	"epoch": 1.354126623565729,
	"grad_norm": 0.36389508843421936,
	"learning_rate": 0.0005840944055944056,
	"loss": 3.9488,
	"step": 4650
	},
	{
	"epoch": 1.3686877511794513,
	"grad_norm": 0.3404442071914673,
	"learning_rate": 0.0005839195804195804,
	"loss": 3.9436,
	"step": 4700
	},
	{
	"epoch": 1.3832488787931738,
	"grad_norm": 0.3432350158691406,
	"learning_rate": 0.0005837447552447552,
	"loss": 3.934,
	"step": 4750
	},
	{
	"epoch": 1.3978100064068961,
	"grad_norm": 0.3505391776561737,
	"learning_rate": 0.0005835699300699301,
	"loss": 3.9345,
	"step": 4800
	},
	{
	"epoch": 1.4123711340206184,
	"grad_norm": 0.3216480016708374,
	"learning_rate": 0.0005833951048951048,
	"loss": 3.9266,
	"step": 4850
	},
	{
	"epoch": 1.426932261634341,
	"grad_norm": 0.3275972902774811,
	"learning_rate": 0.0005832202797202797,
	"loss": 3.9393,
	"step": 4900
	},
	{
	"epoch": 1.4414933892480635,
	"grad_norm": 0.35102906823158264,
	"learning_rate": 0.0005830454545454546,
	"loss": 3.9359,
	"step": 4950
	},
	{
	"epoch": 1.4560545168617858,
	"grad_norm": 0.3343009650707245,
	"learning_rate": 0.0005828706293706293,
	"loss": 3.9236,
	"step": 5000
	},
	{
	"epoch": 1.4560545168617858,
	"eval_accuracy": 0.33192285635753893,
	"eval_loss": 3.9100613594055176,
	"eval_runtime": 184.3964,
	"eval_samples_per_second": 90.273,
	"eval_steps_per_second": 5.645,
	"step": 5000
	},
	{
	"epoch": 1.470615644475508,
	"grad_norm": 0.32075586915016174,
	"learning_rate": 0.0005826958041958042,
	"loss": 3.923,
	"step": 5050
	},
	{
	"epoch": 1.4851767720892306,
	"grad_norm": 0.3327905237674713,
	"learning_rate": 0.000582520979020979,
	"loss": 3.9322,
	"step": 5100
	},
	{
	"epoch": 1.4997378997029531,
	"grad_norm": 0.34814631938934326,
	"learning_rate": 0.0005823461538461538,
	"loss": 3.9174,
	"step": 5150
	},
	{
	"epoch": 1.5142990273166754,
	"grad_norm": 0.3348972797393799,
	"learning_rate": 0.0005821713286713286,
	"loss": 3.9043,
	"step": 5200
	},
	{
	"epoch": 1.5288601549303977,
	"grad_norm": 0.3347136676311493,
	"learning_rate": 0.0005819965034965035,
	"loss": 3.9046,
	"step": 5250
	},
	{
	"epoch": 1.5434212825441203,
	"grad_norm": 0.336887001991272,
	"learning_rate": 0.0005818216783216783,
	"loss": 3.915,
	"step": 5300
	},
	{
	"epoch": 1.5579824101578428,
	"grad_norm": 0.3282018005847931,
	"learning_rate": 0.0005816468531468531,
	"loss": 3.9147,
	"step": 5350
	},
	{
	"epoch": 1.572543537771565,
	"grad_norm": 0.34454506635665894,
	"learning_rate": 0.0005814720279720279,
	"loss": 3.9073,
	"step": 5400
	},
	{
	"epoch": 1.5871046653852874,
	"grad_norm": 0.3495652377605438,
	"learning_rate": 0.0005812972027972028,
	"loss": 3.8947,
	"step": 5450
	},
	{
	"epoch": 1.6016657929990097,
	"grad_norm": 0.33489686250686646,
	"learning_rate": 0.0005811223776223776,
	"loss": 3.9016,
	"step": 5500
	},
	{
	"epoch": 1.6162269206127322,
	"grad_norm": 0.3139170706272125,
	"learning_rate": 0.0005809475524475524,
	"loss": 3.8813,
	"step": 5550
	},
	{
	"epoch": 1.6307880482264547,
	"grad_norm": 0.3473421335220337,
	"learning_rate": 0.0005807727272727272,
	"loss": 3.8912,
	"step": 5600
	},
	{
	"epoch": 1.645349175840177,
	"grad_norm": 0.3421488106250763,
	"learning_rate": 0.0005805979020979021,
	"loss": 3.8781,
	"step": 5650
	},
	{
	"epoch": 1.6599103034538993,
	"grad_norm": 0.3326078951358795,
	"learning_rate": 0.0005804230769230769,
	"loss": 3.8902,
	"step": 5700
	},
	{
	"epoch": 1.6744714310676219,
	"grad_norm": 0.34903430938720703,
	"learning_rate": 0.0005802482517482517,
	"loss": 3.8875,
	"step": 5750
	},
	{
	"epoch": 1.6890325586813444,
	"grad_norm": 0.337380051612854,
	"learning_rate": 0.0005800734265734265,
	"loss": 3.8923,
	"step": 5800
	},
	{
	"epoch": 1.7035936862950667,
	"grad_norm": 0.36713698506355286,
	"learning_rate": 0.0005798986013986013,
	"loss": 3.8702,
	"step": 5850
	},
	{
	"epoch": 1.718154813908789,
	"grad_norm": 0.34020107984542847,
	"learning_rate": 0.0005797237762237762,
	"loss": 3.8835,
	"step": 5900
	},
	{
	"epoch": 1.7327159415225115,
	"grad_norm": 0.325308233499527,
	"learning_rate": 0.000579548951048951,
	"loss": 3.8765,
	"step": 5950
	},
	{
	"epoch": 1.747277069136234,
	"grad_norm": 0.3312442898750305,
	"learning_rate": 0.0005793741258741258,
	"loss": 3.8783,
	"step": 6000
	},
	{
	"epoch": 1.747277069136234,
	"eval_accuracy": 0.3375568091909506,
	"eval_loss": 3.8538968563079834,
	"eval_runtime": 182.6837,
	"eval_samples_per_second": 91.119,
	"eval_steps_per_second": 5.698,
	"step": 6000
	},
	{
	"epoch": 1.7618381967499563,
	"grad_norm": 0.3400241732597351,
	"learning_rate": 0.0005791993006993006,
	"loss": 3.8657,
	"step": 6050
	},
	{
	"epoch": 1.7763993243636786,
	"grad_norm": 0.3185133934020996,
	"learning_rate": 0.0005790244755244755,
	"loss": 3.8761,
	"step": 6100
	},
	{
	"epoch": 1.7909604519774012,
	"grad_norm": 0.3425745964050293,
	"learning_rate": 0.0005788496503496503,
	"loss": 3.8653,
	"step": 6150
	},
	{
	"epoch": 1.8055215795911237,
	"grad_norm": 0.31458574533462524,
	"learning_rate": 0.0005786748251748251,
	"loss": 3.8693,
	"step": 6200
	},
	{
	"epoch": 1.820082707204846,
	"grad_norm": 0.33563944697380066,
	"learning_rate": 0.0005784999999999999,
	"loss": 3.8654,
	"step": 6250
	},
	{
	"epoch": 1.8346438348185683,
	"grad_norm": 0.3224489092826843,
	"learning_rate": 0.0005783251748251748,
	"loss": 3.8461,
	"step": 6300
	},
	{
	"epoch": 1.8492049624322906,
	"grad_norm": 0.3258609175682068,
	"learning_rate": 0.0005781503496503496,
	"loss": 3.857,
	"step": 6350
	},
	{
	"epoch": 1.8637660900460131,
	"grad_norm": 0.31683316826820374,
	"learning_rate": 0.0005779755244755244,
	"loss": 3.8613,
	"step": 6400
	},
	{
	"epoch": 1.8783272176597356,
	"grad_norm": 0.3589027523994446,
	"learning_rate": 0.0005778006993006993,
	"loss": 3.8568,
	"step": 6450
	},
	{
	"epoch": 1.892888345273458,
	"grad_norm": 0.3233237862586975,
	"learning_rate": 0.000577625874125874,
	"loss": 3.8619,
	"step": 6500
	},
	{
	"epoch": 1.9074494728871803,
	"grad_norm": 0.3178718388080597,
	"learning_rate": 0.0005774510489510489,
	"loss": 3.8528,
	"step": 6550
	},
	{
	"epoch": 1.9220106005009028,
	"grad_norm": 0.3323863446712494,
	"learning_rate": 0.0005772762237762237,
	"loss": 3.8432,
	"step": 6600
	},
	{
	"epoch": 1.9365717281146253,
	"grad_norm": 0.3357718586921692,
	"learning_rate": 0.0005771013986013985,
	"loss": 3.8408,
	"step": 6650
	},
	{
	"epoch": 1.9511328557283476,
	"grad_norm": 0.3276062607765198,
	"learning_rate": 0.0005769265734265733,
	"loss": 3.8554,
	"step": 6700
	},
	{
	"epoch": 1.96569398334207,
	"grad_norm": 0.35431572794914246,
	"learning_rate": 0.0005767517482517482,
	"loss": 3.8394,
	"step": 6750
	},
	{
	"epoch": 1.9802551109557924,
	"grad_norm": 0.3411652147769928,
	"learning_rate": 0.000576576923076923,
	"loss": 3.8523,
	"step": 6800
	},
	{
	"epoch": 1.994816238569515,
	"grad_norm": 0.32246044278144836,
	"learning_rate": 0.0005764020979020978,
	"loss": 3.8446,
	"step": 6850
	},
	{
	"epoch": 2.009319121672782,
	"grad_norm": 0.3211682438850403,
	"learning_rate": 0.0005762272727272726,
	"loss": 3.7718,
	"step": 6900
	},
	{
	"epoch": 2.023880249286505,
	"grad_norm": 0.327195405960083,
	"learning_rate": 0.0005760524475524475,
	"loss": 3.7531,
	"step": 6950
	},
	{
	"epoch": 2.038441376900227,
	"grad_norm": 0.327593058347702,
	"learning_rate": 0.0005758776223776223,
	"loss": 3.7409,
	"step": 7000
	},
	{
	"epoch": 2.038441376900227,
	"eval_accuracy": 0.3418543103036807,
	"eval_loss": 3.807173013687134,
	"eval_runtime": 182.7201,
	"eval_samples_per_second": 91.101,
	"eval_steps_per_second": 5.697,
	"step": 7000
	},
	{
	"epoch": 2.0530025045139495,
	"grad_norm": 0.31732338666915894,
	"learning_rate": 0.0005757027972027971,
	"loss": 3.7579,
	"step": 7050
	},
	{
	"epoch": 2.067563632127672,
	"grad_norm": 0.31844356656074524,
	"learning_rate": 0.000575527972027972,
	"loss": 3.7387,
	"step": 7100
	},
	{
	"epoch": 2.0821247597413945,
	"grad_norm": 0.3230411410331726,
	"learning_rate": 0.0005753531468531468,
	"loss": 3.751,
	"step": 7150
	},
	{
	"epoch": 2.096685887355117,
	"grad_norm": 0.32469573616981506,
	"learning_rate": 0.0005751783216783216,
	"loss": 3.7505,
	"step": 7200
	},
	{
	"epoch": 2.111247014968839,
	"grad_norm": 0.32758161425590515,
	"learning_rate": 0.0005750034965034964,
	"loss": 3.749,
	"step": 7250
	},
	{
	"epoch": 2.1258081425825615,
	"grad_norm": 0.32330748438835144,
	"learning_rate": 0.0005748286713286712,
	"loss": 3.7479,
	"step": 7300
	},
	{
	"epoch": 2.140369270196284,
	"grad_norm": 0.3409372568130493,
	"learning_rate": 0.000574653846153846,
	"loss": 3.7407,
	"step": 7350
	},
	{
	"epoch": 2.1549303978100065,
	"grad_norm": 0.3466344177722931,
	"learning_rate": 0.000574479020979021,
	"loss": 3.7507,
	"step": 7400
	},
	{
	"epoch": 2.169491525423729,
	"grad_norm": 0.3374614119529724,
	"learning_rate": 0.0005743041958041958,
	"loss": 3.752,
	"step": 7450
	},
	{
	"epoch": 2.184052653037451,
	"grad_norm": 0.31741416454315186,
	"learning_rate": 0.0005741293706293706,
	"loss": 3.7516,
	"step": 7500
	},
	{
	"epoch": 2.198613780651174,
	"grad_norm": 0.3337715268135071,
	"learning_rate": 0.0005739545454545454,
	"loss": 3.7466,
	"step": 7550
	},
	{
	"epoch": 2.213174908264896,
	"grad_norm": 0.3211740255355835,
	"learning_rate": 0.0005737797202797203,
	"loss": 3.7529,
	"step": 7600
	},
	{
	"epoch": 2.2277360358786185,
	"grad_norm": 0.3633030652999878,
	"learning_rate": 0.0005736048951048951,
	"loss": 3.7411,
	"step": 7650
	},
	{
	"epoch": 2.2422971634923408,
	"grad_norm": 0.3291577100753784,
	"learning_rate": 0.0005734300699300699,
	"loss": 3.7522,
	"step": 7700
	},
	{
	"epoch": 2.256858291106063,
	"grad_norm": 0.32250499725341797,
	"learning_rate": 0.0005732552447552448,
	"loss": 3.7576,
	"step": 7750
	},
	{
	"epoch": 2.271419418719786,
	"grad_norm": 0.30450233817100525,
	"learning_rate": 0.0005730804195804196,
	"loss": 3.7453,
	"step": 7800
	},
	{
	"epoch": 2.285980546333508,
	"grad_norm": 0.30964726209640503,
	"learning_rate": 0.0005729055944055944,
	"loss": 3.755,
	"step": 7850
	},
	{
	"epoch": 2.3005416739472304,
	"grad_norm": 0.31292903423309326,
	"learning_rate": 0.0005727307692307692,
	"loss": 3.7539,
	"step": 7900
	},
	{
	"epoch": 2.3151028015609527,
	"grad_norm": 0.3473982512950897,
	"learning_rate": 0.0005725559440559441,
	"loss": 3.7509,
	"step": 7950
	},
	{
	"epoch": 2.3296639291746755,
	"grad_norm": 0.35157695412635803,
	"learning_rate": 0.0005723811188811188,
	"loss": 3.7556,
	"step": 8000
	},
	{
	"epoch": 2.3296639291746755,
	"eval_accuracy": 0.3448868377610154,
	"eval_loss": 3.778634786605835,
	"eval_runtime": 184.554,
	"eval_samples_per_second": 90.196,
	"eval_steps_per_second": 5.641,
	"step": 8000
	},
	{
	"epoch": 2.3442250567883978,
	"grad_norm": 0.3254748582839966,
	"learning_rate": 0.0005722062937062937,
	"loss": 3.7366,
	"step": 8050
	},
	{
	"epoch": 2.35878618440212,
	"grad_norm": 0.33637189865112305,
	"learning_rate": 0.0005720314685314685,
	"loss": 3.749,
	"step": 8100
	},
	{
	"epoch": 2.3733473120158424,
	"grad_norm": 0.3259914517402649,
	"learning_rate": 0.0005718566433566433,
	"loss": 3.7439,
	"step": 8150
	},
	{
	"epoch": 2.387908439629565,
	"grad_norm": 0.31481459736824036,
	"learning_rate": 0.0005716818181818181,
	"loss": 3.7376,
	"step": 8200
	},
	{
	"epoch": 2.4024695672432874,
	"grad_norm": 0.3136726915836334,
	"learning_rate": 0.000571506993006993,
	"loss": 3.7284,
	"step": 8250
	},
	{
	"epoch": 2.4170306948570097,
	"grad_norm": 0.32896652817726135,
	"learning_rate": 0.0005713321678321678,
	"loss": 3.7478,
	"step": 8300
	},
	{
	"epoch": 2.431591822470732,
	"grad_norm": 0.3367721140384674,
	"learning_rate": 0.0005711573426573426,
	"loss": 3.7418,
	"step": 8350
	},
	{
	"epoch": 2.4461529500844543,
	"grad_norm": 0.32438716292381287,
	"learning_rate": 0.0005709825174825175,
	"loss": 3.752,
	"step": 8400
	},
	{
	"epoch": 2.460714077698177,
	"grad_norm": 0.3197824954986572,
	"learning_rate": 0.0005708076923076923,
	"loss": 3.7425,
	"step": 8450
	},
	{
	"epoch": 2.4752752053118994,
	"grad_norm": 0.3408988416194916,
	"learning_rate": 0.0005706328671328671,
	"loss": 3.7424,
	"step": 8500
	},
	{
	"epoch": 2.4898363329256217,
	"grad_norm": 0.3419415354728699,
	"learning_rate": 0.0005704580419580419,
	"loss": 3.7546,
	"step": 8550
	},
	{
	"epoch": 2.5043974605393444,
	"grad_norm": 0.3166530132293701,
	"learning_rate": 0.0005702832167832168,
	"loss": 3.7339,
	"step": 8600
	},
	{
	"epoch": 2.5189585881530667,
	"grad_norm": 0.3352281451225281,
	"learning_rate": 0.0005701083916083916,
	"loss": 3.7278,
	"step": 8650
	},
	{
	"epoch": 2.533519715766789,
	"grad_norm": 0.31808385252952576,
	"learning_rate": 0.0005699335664335664,
	"loss": 3.7421,
	"step": 8700
	},
	{
	"epoch": 2.5480808433805113,
	"grad_norm": 0.3182724714279175,
	"learning_rate": 0.0005697587412587412,
	"loss": 3.7366,
	"step": 8750
	},
	{
	"epoch": 2.5626419709942336,
	"grad_norm": 0.3110598623752594,
	"learning_rate": 0.000569583916083916,
	"loss": 3.7345,
	"step": 8800
	},
	{
	"epoch": 2.5772030986079564,
	"grad_norm": 0.3083634674549103,
	"learning_rate": 0.0005694090909090908,
	"loss": 3.7335,
	"step": 8850
	},
	{
	"epoch": 2.5917642262216787,
	"grad_norm": 0.31325507164001465,
	"learning_rate": 0.0005692342657342657,
	"loss": 3.735,
	"step": 8900
	},
	{
	"epoch": 2.606325353835401,
	"grad_norm": 0.325335830450058,
	"learning_rate": 0.0005690594405594405,
	"loss": 3.7352,
	"step": 8950
	},
	{
	"epoch": 2.6208864814491233,
	"grad_norm": 0.3095828592777252,
	"learning_rate": 0.0005688846153846153,
	"loss": 3.7318,
	"step": 9000
	},
	{
	"epoch": 2.6208864814491233,
	"eval_accuracy": 0.34765026441006025,
	"eval_loss": 3.7488150596618652,
	"eval_runtime": 181.151,
	"eval_samples_per_second": 91.89,
	"eval_steps_per_second": 5.747,
	"step": 9000
	},
	{
	"epoch": 2.6354476090628456,
	"grad_norm": 0.32213926315307617,
	"learning_rate": 0.0005687097902097901,
	"loss": 3.7308,
	"step": 9050
	},
	{
	"epoch": 2.6500087366765683,
	"grad_norm": 0.3269072473049164,
	"learning_rate": 0.000568534965034965,
	"loss": 3.7258,
	"step": 9100
	},
	{
	"epoch": 2.6645698642902906,
	"grad_norm": 0.3074745833873749,
	"learning_rate": 0.0005683601398601398,
	"loss": 3.7307,
	"step": 9150
	},
	{
	"epoch": 2.679130991904013,
	"grad_norm": 0.3062356412410736,
	"learning_rate": 0.0005681853146853146,
	"loss": 3.7292,
	"step": 9200
	},
	{
	"epoch": 2.6936921195177357,
	"grad_norm": 0.3062867820262909,
	"learning_rate": 0.0005680104895104895,
	"loss": 3.7162,
	"step": 9250
	},
	{
	"epoch": 2.708253247131458,
	"grad_norm": 0.3553263545036316,
	"learning_rate": 0.0005678356643356643,
	"loss": 3.7239,
	"step": 9300
	},
	{
	"epoch": 2.7228143747451803,
	"grad_norm": 0.31543877720832825,
	"learning_rate": 0.0005676608391608391,
	"loss": 3.7271,
	"step": 9350
	},
	{
	"epoch": 2.7373755023589026,
	"grad_norm": 0.3128660023212433,
	"learning_rate": 0.0005674860139860139,
	"loss": 3.7304,
	"step": 9400
	},
	{
	"epoch": 2.751936629972625,
	"grad_norm": 0.31978827714920044,
	"learning_rate": 0.0005673111888111888,
	"loss": 3.7252,
	"step": 9450
	},
	{
	"epoch": 2.7664977575863476,
	"grad_norm": 0.3351915776729584,
	"learning_rate": 0.0005671363636363635,
	"loss": 3.7215,
	"step": 9500
	},
	{
	"epoch": 2.78105888520007,
	"grad_norm": 0.32556962966918945,
	"learning_rate": 0.0005669615384615384,
	"loss": 3.7109,
	"step": 9550
	},
	{
	"epoch": 2.7956200128137922,
	"grad_norm": 0.30667567253112793,
	"learning_rate": 0.0005667867132867132,
	"loss": 3.7309,
	"step": 9600
	},
	{
	"epoch": 2.8101811404275145,
	"grad_norm": 0.2958901524543762,
	"learning_rate": 0.000566611888111888,
	"loss": 3.7281,
	"step": 9650
	},
	{
	"epoch": 2.824742268041237,
	"grad_norm": 0.3355960249900818,
	"learning_rate": 0.0005664370629370628,
	"loss": 3.7114,
	"step": 9700
	},
	{
	"epoch": 2.8393033956549596,
	"grad_norm": 0.3073790967464447,
	"learning_rate": 0.0005662622377622377,
	"loss": 3.7258,
	"step": 9750
	},
	{
	"epoch": 2.853864523268682,
	"grad_norm": 0.30925753712654114,
	"learning_rate": 0.0005660874125874125,
	"loss": 3.721,
	"step": 9800
	},
	{
	"epoch": 2.868425650882404,
	"grad_norm": 0.3250259459018707,
	"learning_rate": 0.0005659125874125873,
	"loss": 3.7338,
	"step": 9850
	},
	{
	"epoch": 2.882986778496127,
	"grad_norm": 0.3341335356235504,
	"learning_rate": 0.0005657377622377622,
	"loss": 3.7089,
	"step": 9900
	},
	{
	"epoch": 2.8975479061098492,
	"grad_norm": 0.325226366519928,
	"learning_rate": 0.000565562937062937,
	"loss": 3.7195,
	"step": 9950
	},
	{
	"epoch": 2.9121090337235715,
	"grad_norm": 0.32413652539253235,
	"learning_rate": 0.0005653881118881118,
	"loss": 3.7152,
	"step": 10000
	},
	{
	"epoch": 2.9121090337235715,
	"eval_accuracy": 0.3496235527749125,
	"eval_loss": 3.7240853309631348,
	"eval_runtime": 180.9488,
	"eval_samples_per_second": 91.993,
	"eval_steps_per_second": 5.753,
	"step": 10000
	},
	{
	"epoch": 2.926670161337294,
	"grad_norm": 0.3107230067253113,
	"learning_rate": 0.0005652132867132866,
	"loss": 3.7198,
	"step": 10050
	},
	{
	"epoch": 2.941231288951016,
	"grad_norm": 0.3085416257381439,
	"learning_rate": 0.0005650384615384615,
	"loss": 3.7137,
	"step": 10100
	},
	{
	"epoch": 2.955792416564739,
	"grad_norm": 0.3245227634906769,
	"learning_rate": 0.0005648636363636363,
	"loss": 3.7077,
	"step": 10150
	},
	{
	"epoch": 2.970353544178461,
	"grad_norm": 0.31815105676651,
	"learning_rate": 0.0005646888111888111,
	"loss": 3.7133,
	"step": 10200
	},
	{
	"epoch": 2.9849146717921835,
	"grad_norm": 0.3235960900783539,
	"learning_rate": 0.000564513986013986,
	"loss": 3.7025,
	"step": 10250
	},
	{
	"epoch": 2.9994757994059063,
	"grad_norm": 0.34538596868515015,
	"learning_rate": 0.0005643391608391607,
	"loss": 3.7129,
	"step": 10300
	},
	{
	"epoch": 3.0139786825091734,
	"grad_norm": 0.31785765290260315,
	"learning_rate": 0.0005641643356643355,
	"loss": 3.6054,
	"step": 10350
	},
	{
	"epoch": 3.0285398101228957,
	"grad_norm": 0.3313532769680023,
	"learning_rate": 0.0005639895104895105,
	"loss": 3.6084,
	"step": 10400
	},
	{
	"epoch": 3.0431009377366185,
	"grad_norm": 0.3206842839717865,
	"learning_rate": 0.0005638146853146853,
	"loss": 3.6094,
	"step": 10450
	},
	{
	"epoch": 3.057662065350341,
	"grad_norm": 0.3367646336555481,
	"learning_rate": 0.0005636398601398601,
	"loss": 3.6184,
	"step": 10500
	},
	{
	"epoch": 3.072223192964063,
	"grad_norm": 0.3168485164642334,
	"learning_rate": 0.000563465034965035,
	"loss": 3.6267,
	"step": 10550
	},
	{
	"epoch": 3.0867843205777854,
	"grad_norm": 0.3227006196975708,
	"learning_rate": 0.0005632902097902098,
	"loss": 3.6165,
	"step": 10600
	},
	{
	"epoch": 3.101345448191508,
	"grad_norm": 0.3266565799713135,
	"learning_rate": 0.0005631153846153846,
	"loss": 3.6185,
	"step": 10650
	},
	{
	"epoch": 3.1159065758052304,
	"grad_norm": 0.3158946633338928,
	"learning_rate": 0.0005629405594405594,
	"loss": 3.6104,
	"step": 10700
	},
	{
	"epoch": 3.1304677034189528,
	"grad_norm": 0.32722142338752747,
	"learning_rate": 0.0005627657342657343,
	"loss": 3.619,
	"step": 10750
	},
	{
	"epoch": 3.145028831032675,
	"grad_norm": 0.30216503143310547,
	"learning_rate": 0.0005625909090909091,
	"loss": 3.629,
	"step": 10800
	},
	{
	"epoch": 3.1595899586463974,
	"grad_norm": 0.3186177909374237,
	"learning_rate": 0.0005624160839160839,
	"loss": 3.6195,
	"step": 10850
	},
	{
	"epoch": 3.17415108626012,
	"grad_norm": 0.3162807822227478,
	"learning_rate": 0.0005622412587412587,
	"loss": 3.6169,
	"step": 10900
	},
	{
	"epoch": 3.1887122138738424,
	"grad_norm": 0.33053115010261536,
	"learning_rate": 0.0005620664335664336,
	"loss": 3.6338,
	"step": 10950
	},
	{
	"epoch": 3.2032733414875647,
	"grad_norm": 0.30891671776771545,
	"learning_rate": 0.0005618916083916083,
	"loss": 3.6271,
	"step": 11000
	},
	{
	"epoch": 3.2032733414875647,
	"eval_accuracy": 0.3519776264250645,
	"eval_loss": 3.709869384765625,
	"eval_runtime": 180.919,
	"eval_samples_per_second": 92.008,
	"eval_steps_per_second": 5.754,
	"step": 11000
	},
	{
	"epoch": 3.217834469101287,
	"grad_norm": 0.33202117681503296,
	"learning_rate": 0.0005617167832167832,
	"loss": 3.6235,
	"step": 11050
	},
	{
	"epoch": 3.2323955967150098,
	"grad_norm": 0.3139243423938751,
	"learning_rate": 0.000561541958041958,
	"loss": 3.6294,
	"step": 11100
	},
	{
	"epoch": 3.246956724328732,
	"grad_norm": 0.3314415216445923,
	"learning_rate": 0.0005613671328671328,
	"loss": 3.6461,
	"step": 11150
	},
	{
	"epoch": 3.2615178519424544,
	"grad_norm": 0.3135373592376709,
	"learning_rate": 0.0005611923076923077,
	"loss": 3.6442,
	"step": 11200
	},
	{
	"epoch": 3.2760789795561767,
	"grad_norm": 0.32920390367507935,
	"learning_rate": 0.0005610174825174825,
	"loss": 3.6266,
	"step": 11250
	},
	{
	"epoch": 3.2906401071698994,
	"grad_norm": 0.3141324520111084,
	"learning_rate": 0.0005608426573426573,
	"loss": 3.641,
	"step": 11300
	},
	{
	"epoch": 3.3052012347836217,
	"grad_norm": 0.3209163546562195,
	"learning_rate": 0.0005606678321678321,
	"loss": 3.6214,
	"step": 11350
	},
	{
	"epoch": 3.319762362397344,
	"grad_norm": 0.33475250005722046,
	"learning_rate": 0.000560493006993007,
	"loss": 3.6157,
	"step": 11400
	},
	{
	"epoch": 3.3343234900110663,
	"grad_norm": 0.33062008023262024,
	"learning_rate": 0.0005603181818181818,
	"loss": 3.6323,
	"step": 11450
	},
	{
	"epoch": 3.3488846176247886,
	"grad_norm": 0.32883119583129883,
	"learning_rate": 0.0005601433566433566,
	"loss": 3.6385,
	"step": 11500
	},
	{
	"epoch": 3.3634457452385114,
	"grad_norm": 0.31883203983306885,
	"learning_rate": 0.0005599685314685314,
	"loss": 3.6394,
	"step": 11550
	},
	{
	"epoch": 3.3780068728522337,
	"grad_norm": 0.30644893646240234,
	"learning_rate": 0.0005597937062937063,
	"loss": 3.6358,
	"step": 11600
	},
	{
	"epoch": 3.392568000465956,
	"grad_norm": 0.30966854095458984,
	"learning_rate": 0.0005596188811188811,
	"loss": 3.6315,
	"step": 11650
	},
	{
	"epoch": 3.4071291280796787,
	"grad_norm": 0.33119064569473267,
	"learning_rate": 0.0005594440559440559,
	"loss": 3.6342,
	"step": 11700
	},
	{
	"epoch": 3.421690255693401,
	"grad_norm": 0.340206116437912,
	"learning_rate": 0.0005592692307692307,
	"loss": 3.6359,
	"step": 11750
	},
	{
	"epoch": 3.4362513833071233,
	"grad_norm": 0.3317243754863739,
	"learning_rate": 0.0005590944055944055,
	"loss": 3.6418,
	"step": 11800
	},
	{
	"epoch": 3.4508125109208456,
	"grad_norm": 0.35198959708213806,
	"learning_rate": 0.0005589195804195803,
	"loss": 3.6433,
	"step": 11850
	},
	{
	"epoch": 3.465373638534568,
	"grad_norm": 0.3379652202129364,
	"learning_rate": 0.0005587447552447552,
	"loss": 3.63,
	"step": 11900
	},
	{
	"epoch": 3.4799347661482907,
	"grad_norm": 0.3148704171180725,
	"learning_rate": 0.00055856993006993,
	"loss": 3.6433,
	"step": 11950
	},
	{
	"epoch": 3.494495893762013,
	"grad_norm": 0.32295045256614685,
	"learning_rate": 0.0005583951048951048,
	"loss": 3.637,
	"step": 12000
	},
	{
	"epoch": 3.494495893762013,
	"eval_accuracy": 0.3538141894775353,
	"eval_loss": 3.6922500133514404,
	"eval_runtime": 181.0231,
	"eval_samples_per_second": 91.955,
	"eval_steps_per_second": 5.751,
	"step": 12000
	},
	{
	"epoch": 3.5090570213757353,
	"grad_norm": 0.33041051030158997,
	"learning_rate": 0.0005582202797202797,
	"loss": 3.6393,
	"step": 12050
	},
	{
	"epoch": 3.523618148989458,
	"grad_norm": 0.30944448709487915,
	"learning_rate": 0.0005580454545454545,
	"loss": 3.636,
	"step": 12100
	},
	{
	"epoch": 3.53817927660318,
	"grad_norm": 0.3318426311016083,
	"learning_rate": 0.0005578706293706293,
	"loss": 3.6265,
	"step": 12150
	},
	{
	"epoch": 3.5527404042169026,
	"grad_norm": 0.31078043580055237,
	"learning_rate": 0.0005576958041958041,
	"loss": 3.6335,
	"step": 12200
	},
	{
	"epoch": 3.567301531830625,
	"grad_norm": 0.31694719195365906,
	"learning_rate": 0.000557520979020979,
	"loss": 3.6387,
	"step": 12250
	},
	{
	"epoch": 3.5818626594443472,
	"grad_norm": 0.32518377900123596,
	"learning_rate": 0.0005573461538461538,
	"loss": 3.6292,
	"step": 12300
	},
	{
	"epoch": 3.59642378705807,
	"grad_norm": 0.33264607191085815,
	"learning_rate": 0.0005571713286713286,
	"loss": 3.6424,
	"step": 12350
	},
	{
	"epoch": 3.6109849146717923,
	"grad_norm": 0.31201255321502686,
	"learning_rate": 0.0005569965034965034,
	"loss": 3.6499,
	"step": 12400
	},
	{
	"epoch": 3.6255460422855146,
	"grad_norm": 0.32355648279190063,
	"learning_rate": 0.0005568216783216783,
	"loss": 3.6397,
	"step": 12450
	},
	{
	"epoch": 3.640107169899237,
	"grad_norm": 0.3250090479850769,
	"learning_rate": 0.000556646853146853,
	"loss": 3.6408,
	"step": 12500
	},
	{
	"epoch": 3.654668297512959,
	"grad_norm": 0.3053436577320099,
	"learning_rate": 0.0005564720279720279,
	"loss": 3.6246,
	"step": 12550
	},
	{
	"epoch": 3.669229425126682,
	"grad_norm": 0.3021223545074463,
	"learning_rate": 0.0005562972027972027,
	"loss": 3.6422,
	"step": 12600
	},
	{
	"epoch": 3.6837905527404042,
	"grad_norm": 0.30464479327201843,
	"learning_rate": 0.0005561223776223775,
	"loss": 3.6258,
	"step": 12650
	},
	{
	"epoch": 3.6983516803541265,
	"grad_norm": 0.32816681265830994,
	"learning_rate": 0.0005559475524475524,
	"loss": 3.6374,
	"step": 12700
	},
	{
	"epoch": 3.7129128079678493,
	"grad_norm": 0.3056129217147827,
	"learning_rate": 0.0005557727272727272,
	"loss": 3.6422,
	"step": 12750
	},
	{
	"epoch": 3.7274739355815716,
	"grad_norm": 0.3144519031047821,
	"learning_rate": 0.000555597902097902,
	"loss": 3.6329,
	"step": 12800
	},
	{
	"epoch": 3.742035063195294,
	"grad_norm": 0.3042009472846985,
	"learning_rate": 0.0005554230769230768,
	"loss": 3.6296,
	"step": 12850
	},
	{
	"epoch": 3.756596190809016,
	"grad_norm": 0.3230903446674347,
	"learning_rate": 0.0005552482517482517,
	"loss": 3.6342,
	"step": 12900
	},
	{
	"epoch": 3.7711573184227385,
	"grad_norm": 0.30217060446739197,
	"learning_rate": 0.0005550734265734265,
	"loss": 3.638,
	"step": 12950
	},
	{
	"epoch": 3.7857184460364612,
	"grad_norm": 0.3292492628097534,
	"learning_rate": 0.0005548986013986013,
	"loss": 3.6368,
	"step": 13000
	},
	{
	"epoch": 3.7857184460364612,
	"eval_accuracy": 0.35537424527745126,
	"eval_loss": 3.6732499599456787,
	"eval_runtime": 181.1768,
	"eval_samples_per_second": 91.877,
	"eval_steps_per_second": 5.746,
	"step": 13000
	},
	{
	"epoch": 3.8002795736501835,
	"grad_norm": 0.3120541274547577,
	"learning_rate": 0.0005547237762237761,
	"loss": 3.6445,
	"step": 13050
	},
	{
	"epoch": 3.814840701263906,
	"grad_norm": 0.3175022006034851,
	"learning_rate": 0.000554548951048951,
	"loss": 3.6454,
	"step": 13100
	},
	{
	"epoch": 3.829401828877628,
	"grad_norm": 0.3213273286819458,
	"learning_rate": 0.0005543741258741258,
	"loss": 3.6236,
	"step": 13150
	},
	{
	"epoch": 3.8439629564913504,
	"grad_norm": 0.3022514283657074,
	"learning_rate": 0.0005541993006993006,
	"loss": 3.6383,
	"step": 13200
	},
	{
	"epoch": 3.858524084105073,
	"grad_norm": 0.3136868476867676,
	"learning_rate": 0.0005540244755244756,
	"loss": 3.6342,
	"step": 13250
	},
	{
	"epoch": 3.8730852117187955,
	"grad_norm": 0.3210989236831665,
	"learning_rate": 0.0005538496503496502,
	"loss": 3.636,
	"step": 13300
	},
	{
	"epoch": 3.887646339332518,
	"grad_norm": 0.31793737411499023,
	"learning_rate": 0.0005536748251748252,
	"loss": 3.6384,
	"step": 13350
	},
	{
	"epoch": 3.9022074669462405,
	"grad_norm": 0.3172999620437622,
	"learning_rate": 0.0005535,
	"loss": 3.6322,
	"step": 13400
	},
	{
	"epoch": 3.916768594559963,
	"grad_norm": 0.3040863573551178,
	"learning_rate": 0.0005533251748251748,
	"loss": 3.6361,
	"step": 13450
	},
	{
	"epoch": 3.931329722173685,
	"grad_norm": 0.2977621555328369,
	"learning_rate": 0.0005531503496503496,
	"loss": 3.6293,
	"step": 13500
	},
	{
	"epoch": 3.9458908497874075,
	"grad_norm": 0.32015374302864075,
	"learning_rate": 0.0005529755244755245,
	"loss": 3.6437,
	"step": 13550
	},
	{
	"epoch": 3.9604519774011298,
	"grad_norm": 0.30774080753326416,
	"learning_rate": 0.0005528006993006993,
	"loss": 3.6305,
	"step": 13600
	},
	{
	"epoch": 3.9750131050148525,
	"grad_norm": 0.32130375504493713,
	"learning_rate": 0.0005526258741258741,
	"loss": 3.6176,
	"step": 13650
	},
	{
	"epoch": 3.989574232628575,
	"grad_norm": 0.3188425600528717,
	"learning_rate": 0.0005524510489510489,
	"loss": 3.6412,
	"step": 13700
	},
	{
	"epoch": 4.004077115731842,
	"grad_norm": 0.31326737999916077,
	"learning_rate": 0.0005522762237762238,
	"loss": 3.599,
	"step": 13750
	},
	{
	"epoch": 4.018638243345564,
	"grad_norm": 0.30300453305244446,
	"learning_rate": 0.0005521013986013986,
	"loss": 3.5165,
	"step": 13800
	},
	{
	"epoch": 4.033199370959287,
	"grad_norm": 0.3266518712043762,
	"learning_rate": 0.0005519265734265734,
	"loss": 3.5381,
	"step": 13850
	},
	{
	"epoch": 4.04776049857301,
	"grad_norm": 0.3203023076057434,
	"learning_rate": 0.0005517517482517482,
	"loss": 3.5187,
	"step": 13900
	},
	{
	"epoch": 4.062321626186732,
	"grad_norm": 0.3111482262611389,
	"learning_rate": 0.0005515769230769231,
	"loss": 3.5362,
	"step": 13950
	},
	{
	"epoch": 4.076882753800454,
	"grad_norm": 0.34344446659088135,
	"learning_rate": 0.0005514020979020979,
	"loss": 3.5417,
	"step": 14000
	},
	{
	"epoch": 4.076882753800454,
	"eval_accuracy": 0.35658572794648924,
	"eval_loss": 3.6685900688171387,
	"eval_runtime": 180.9843,
	"eval_samples_per_second": 91.975,
	"eval_steps_per_second": 5.752,
	"step": 14000
	},
	{
	"epoch": 4.091443881414177,
	"grad_norm": 0.3067654073238373,
	"learning_rate": 0.0005512272727272727,
	"loss": 3.539,
	"step": 14050
	},
	{
	"epoch": 4.106005009027899,
	"grad_norm": 0.30828049778938293,
	"learning_rate": 0.0005510524475524475,
	"loss": 3.5469,
	"step": 14100
	},
	{
	"epoch": 4.120566136641622,
	"grad_norm": 0.31522074341773987,
	"learning_rate": 0.0005508776223776223,
	"loss": 3.5362,
	"step": 14150
	},
	{
	"epoch": 4.135127264255344,
	"grad_norm": 0.3391481637954712,
	"learning_rate": 0.0005507027972027972,
	"loss": 3.5471,
	"step": 14200
	},
	{
	"epoch": 4.149688391869066,
	"grad_norm": 0.3163962662220001,
	"learning_rate": 0.000550527972027972,
	"loss": 3.5409,
	"step": 14250
	},
	{
	"epoch": 4.164249519482789,
	"grad_norm": 0.3650486171245575,
	"learning_rate": 0.0005503531468531468,
	"loss": 3.5534,
	"step": 14300
	},
	{
	"epoch": 4.178810647096511,
	"grad_norm": 0.3179774284362793,
	"learning_rate": 0.0005501783216783216,
	"loss": 3.5485,
	"step": 14350
	},
	{
	"epoch": 4.193371774710234,
	"grad_norm": 0.3414445221424103,
	"learning_rate": 0.0005500034965034965,
	"loss": 3.5559,
	"step": 14400
	},
	{
	"epoch": 4.207932902323956,
	"grad_norm": 0.3165196180343628,
	"learning_rate": 0.0005498286713286713,
	"loss": 3.5449,
	"step": 14450
	},
	{
	"epoch": 4.222494029937678,
	"grad_norm": 0.2997719347476959,
	"learning_rate": 0.0005496538461538461,
	"loss": 3.5552,
	"step": 14500
	},
	{
	"epoch": 4.237055157551401,
	"grad_norm": 0.3242793679237366,
	"learning_rate": 0.0005494790209790209,
	"loss": 3.5649,
	"step": 14550
	},
	{
	"epoch": 4.251616285165123,
	"grad_norm": 0.3411242663860321,
	"learning_rate": 0.0005493041958041958,
	"loss": 3.5586,
	"step": 14600
	},
	{
	"epoch": 4.266177412778846,
	"grad_norm": 0.3131914734840393,
	"learning_rate": 0.0005491293706293706,
	"loss": 3.5638,
	"step": 14650
	},
	{
	"epoch": 4.280738540392568,
	"grad_norm": 0.3113696873188019,
	"learning_rate": 0.0005489545454545454,
	"loss": 3.5583,
	"step": 14700
	},
	{
	"epoch": 4.29529966800629,
	"grad_norm": 0.3232826590538025,
	"learning_rate": 0.0005487797202797203,
	"loss": 3.5635,
	"step": 14750
	},
	{
	"epoch": 4.309860795620013,
	"grad_norm": 0.3019048273563385,
	"learning_rate": 0.000548604895104895,
	"loss": 3.5583,
	"step": 14800
	},
	{
	"epoch": 4.324421923233735,
	"grad_norm": 0.30543556809425354,
	"learning_rate": 0.0005484300699300699,
	"loss": 3.5636,
	"step": 14850
	},
	{
	"epoch": 4.338983050847458,
	"grad_norm": 0.327394038438797,
	"learning_rate": 0.0005482552447552447,
	"loss": 3.5602,
	"step": 14900
	},
	{
	"epoch": 4.35354417846118,
	"grad_norm": 0.30762121081352234,
	"learning_rate": 0.0005480804195804195,
	"loss": 3.555,
	"step": 14950
	},
	{
	"epoch": 4.368105306074902,
	"grad_norm": 0.3166114389896393,
	"learning_rate": 0.0005479055944055943,
	"loss": 3.5573,
	"step": 15000
	},
	{
	"epoch": 4.368105306074902,
	"eval_accuracy": 0.3576027620629228,
	"eval_loss": 3.6566529273986816,
	"eval_runtime": 181.0498,
	"eval_samples_per_second": 91.942,
	"eval_steps_per_second": 5.75,
	"step": 15000
	},
	{
	"epoch": 4.382666433688625,
	"grad_norm": 0.3189477026462555,
	"learning_rate": 0.0005477307692307692,
	"loss": 3.5526,
	"step": 15050
	},
	{
	"epoch": 4.397227561302348,
	"grad_norm": 0.31075966358184814,
	"learning_rate": 0.000547555944055944,
	"loss": 3.5699,
	"step": 15100
	},
	{
	"epoch": 4.41178868891607,
	"grad_norm": 0.33162787556648254,
	"learning_rate": 0.0005473811188811188,
	"loss": 3.573,
	"step": 15150
	},
	{
	"epoch": 4.426349816529792,
	"grad_norm": 0.31193026900291443,
	"learning_rate": 0.0005472062937062936,
	"loss": 3.5564,
	"step": 15200
	},
	{
	"epoch": 4.440910944143514,
	"grad_norm": 0.30927059054374695,
	"learning_rate": 0.0005470314685314685,
	"loss": 3.5524,
	"step": 15250
	},
	{
	"epoch": 4.455472071757237,
	"grad_norm": 0.31786641478538513,
	"learning_rate": 0.0005468566433566433,
	"loss": 3.5712,
	"step": 15300
	},
	{
	"epoch": 4.47003319937096,
	"grad_norm": 0.31433233618736267,
	"learning_rate": 0.0005466818181818181,
	"loss": 3.5586,
	"step": 15350
	},
	{
	"epoch": 4.4845943269846815,
	"grad_norm": 0.3186981976032257,
	"learning_rate": 0.000546506993006993,
	"loss": 3.571,
	"step": 15400
	},
	{
	"epoch": 4.499155454598404,
	"grad_norm": 0.31594040989875793,
	"learning_rate": 0.0005463321678321678,
	"loss": 3.5668,
	"step": 15450
	},
	{
	"epoch": 4.513716582212126,
	"grad_norm": 0.3135336637496948,
	"learning_rate": 0.0005461573426573426,
	"loss": 3.5652,
	"step": 15500
	},
	{
	"epoch": 4.528277709825849,
	"grad_norm": 0.37292537093162537,
	"learning_rate": 0.0005459825174825174,
	"loss": 3.5808,
	"step": 15550
	},
	{
	"epoch": 4.542838837439572,
	"grad_norm": 0.3025301694869995,
	"learning_rate": 0.0005458076923076922,
	"loss": 3.5782,
	"step": 15600
	},
	{
	"epoch": 4.5573999650532935,
	"grad_norm": 0.3217926025390625,
	"learning_rate": 0.000545632867132867,
	"loss": 3.567,
	"step": 15650
	},
	{
	"epoch": 4.571961092667016,
	"grad_norm": 0.33000338077545166,
	"learning_rate": 0.0005454580419580419,
	"loss": 3.5761,
	"step": 15700
	},
	{
	"epoch": 4.586522220280738,
	"grad_norm": 0.3380807340145111,
	"learning_rate": 0.0005452832167832167,
	"loss": 3.5729,
	"step": 15750
	},
	{
	"epoch": 4.601083347894461,
	"grad_norm": 0.2971727252006531,
	"learning_rate": 0.0005451083916083915,
	"loss": 3.5666,
	"step": 15800
	},
	{
	"epoch": 4.615644475508184,
	"grad_norm": 0.32622653245925903,
	"learning_rate": 0.0005449335664335663,
	"loss": 3.5744,
	"step": 15850
	},
	{
	"epoch": 4.630205603121905,
	"grad_norm": 0.33031386137008667,
	"learning_rate": 0.0005447587412587412,
	"loss": 3.5836,
	"step": 15900
	},
	{
	"epoch": 4.644766730735628,
	"grad_norm": 0.31544092297554016,
	"learning_rate": 0.000544583916083916,
	"loss": 3.58,
	"step": 15950
	},
	{
	"epoch": 4.659327858349351,
	"grad_norm": 0.32821419835090637,
	"learning_rate": 0.0005444090909090908,
	"loss": 3.5738,
	"step": 16000
	},
	{
	"epoch": 4.659327858349351,
	"eval_accuracy": 0.35873136309375875,
	"eval_loss": 3.642806053161621,
	"eval_runtime": 181.1419,
	"eval_samples_per_second": 91.895,
	"eval_steps_per_second": 5.747,
	"step": 16000
	},
	{
	"epoch": 4.673888985963073,
	"grad_norm": 0.313347727060318,
	"learning_rate": 0.0005442342657342657,
	"loss": 3.5561,
	"step": 16050
	},
	{
	"epoch": 4.6884501135767955,
	"grad_norm": 0.29170653223991394,
	"learning_rate": 0.0005440594405594405,
	"loss": 3.5704,
	"step": 16100
	},
	{
	"epoch": 4.703011241190518,
	"grad_norm": 0.3108586370944977,
	"learning_rate": 0.0005438846153846153,
	"loss": 3.5616,
	"step": 16150
	},
	{
	"epoch": 4.71757236880424,
	"grad_norm": 0.31426018476486206,
	"learning_rate": 0.0005437097902097901,
	"loss": 3.569,
	"step": 16200
	},
	{
	"epoch": 4.732133496417963,
	"grad_norm": 0.3121700584888458,
	"learning_rate": 0.0005435349650349651,
	"loss": 3.5648,
	"step": 16250
	},
	{
	"epoch": 4.746694624031685,
	"grad_norm": 0.3235621154308319,
	"learning_rate": 0.0005433601398601397,
	"loss": 3.5713,
	"step": 16300
	},
	{
	"epoch": 4.7612557516454075,
	"grad_norm": 0.3033587336540222,
	"learning_rate": 0.0005431853146853147,
	"loss": 3.5571,
	"step": 16350
	},
	{
	"epoch": 4.77581687925913,
	"grad_norm": 0.3489319086074829,
	"learning_rate": 0.0005430104895104895,
	"loss": 3.5774,
	"step": 16400
	},
	{
	"epoch": 4.790378006872852,
	"grad_norm": 0.3031330108642578,
	"learning_rate": 0.0005428356643356643,
	"loss": 3.571,
	"step": 16450
	},
	{
	"epoch": 4.804939134486575,
	"grad_norm": 0.31163015961647034,
	"learning_rate": 0.0005426608391608391,
	"loss": 3.5646,
	"step": 16500
	},
	{
	"epoch": 4.819500262100297,
	"grad_norm": 0.32922112941741943,
	"learning_rate": 0.000542486013986014,
	"loss": 3.5692,
	"step": 16550
	},
	{
	"epoch": 4.834061389714019,
	"grad_norm": 0.32564711570739746,
	"learning_rate": 0.0005423111888111888,
	"loss": 3.5759,
	"step": 16600
	},
	{
	"epoch": 4.848622517327742,
	"grad_norm": 0.3296327590942383,
	"learning_rate": 0.0005421363636363636,
	"loss": 3.5785,
	"step": 16650
	},
	{
	"epoch": 4.863183644941464,
	"grad_norm": 0.3310580253601074,
	"learning_rate": 0.0005419615384615385,
	"loss": 3.5685,
	"step": 16700
	},
	{
	"epoch": 4.877744772555187,
	"grad_norm": 0.31274470686912537,
	"learning_rate": 0.0005417867132867133,
	"loss": 3.5587,
	"step": 16750
	},
	{
	"epoch": 4.892305900168909,
	"grad_norm": 0.323668897151947,
	"learning_rate": 0.0005416118881118881,
	"loss": 3.5657,
	"step": 16800
	},
	{
	"epoch": 4.906867027782631,
	"grad_norm": 0.3014122247695923,
	"learning_rate": 0.0005414370629370629,
	"loss": 3.5707,
	"step": 16850
	},
	{
	"epoch": 4.921428155396354,
	"grad_norm": 0.32767361402511597,
	"learning_rate": 0.0005412622377622378,
	"loss": 3.5724,
	"step": 16900
	},
	{
	"epoch": 4.935989283010076,
	"grad_norm": 0.3055601119995117,
	"learning_rate": 0.0005410874125874126,
	"loss": 3.56,
	"step": 16950
	},
	{
	"epoch": 4.950550410623799,
	"grad_norm": 0.30220872163772583,
	"learning_rate": 0.0005409125874125874,
	"loss": 3.585,
	"step": 17000
	},
	{
	"epoch": 4.950550410623799,
	"eval_accuracy": 0.360180674917524,
	"eval_loss": 3.6294431686401367,
	"eval_runtime": 181.1546,
	"eval_samples_per_second": 91.888,
	"eval_steps_per_second": 5.746,
	"step": 17000
	},
	{
	"epoch": 4.9651115382375215,
	"grad_norm": 0.34501272439956665,
	"learning_rate": 0.0005407377622377622,
	"loss": 3.5698,
	"step": 17050
	},
	{
	"epoch": 4.979672665851243,
	"grad_norm": 0.31808799505233765,
	"learning_rate": 0.000540562937062937,
	"loss": 3.5684,
	"step": 17100
	},
	{
	"epoch": 4.994233793464966,
	"grad_norm": 0.30529871582984924,
	"learning_rate": 0.0005403881118881118,
	"loss": 3.5667,
	"step": 17150
	},
	{
	"epoch": 5.008736676568233,
	"grad_norm": 0.32560649514198303,
	"learning_rate": 0.0005402132867132867,
	"loss": 3.5124,
	"step": 17200
	},
	{
	"epoch": 5.023297804181956,
	"grad_norm": 0.33668822050094604,
	"learning_rate": 0.0005400384615384615,
	"loss": 3.448,
	"step": 17250
	},
	{
	"epoch": 5.037858931795678,
	"grad_norm": 0.3430330753326416,
	"learning_rate": 0.0005398636363636363,
	"loss": 3.462,
	"step": 17300
	},
	{
	"epoch": 5.052420059409401,
	"grad_norm": 0.32133740186691284,
	"learning_rate": 0.0005396888111888111,
	"loss": 3.4736,
	"step": 17350
	},
	{
	"epoch": 5.066981187023123,
	"grad_norm": 0.30943241715431213,
	"learning_rate": 0.000539513986013986,
	"loss": 3.4657,
	"step": 17400
	},
	{
	"epoch": 5.081542314636845,
	"grad_norm": 0.3143688142299652,
	"learning_rate": 0.0005393391608391608,
	"loss": 3.4726,
	"step": 17450
	},
	{
	"epoch": 5.096103442250568,
	"grad_norm": 0.3386751711368561,
	"learning_rate": 0.0005391643356643356,
	"loss": 3.4804,
	"step": 17500
	},
	{
	"epoch": 5.110664569864291,
	"grad_norm": 0.31570807099342346,
	"learning_rate": 0.0005389895104895105,
	"loss": 3.4793,
	"step": 17550
	},
	{
	"epoch": 5.125225697478013,
	"grad_norm": 0.32351601123809814,
	"learning_rate": 0.0005388146853146853,
	"loss": 3.4856,
	"step": 17600
	},
	{
	"epoch": 5.139786825091735,
	"grad_norm": 0.30925703048706055,
	"learning_rate": 0.0005386398601398601,
	"loss": 3.486,
	"step": 17650
	},
	{
	"epoch": 5.154347952705457,
	"grad_norm": 0.31706124544143677,
	"learning_rate": 0.0005384650349650349,
	"loss": 3.4876,
	"step": 17700
	},
	{
	"epoch": 5.16890908031918,
	"grad_norm": 0.3108503818511963,
	"learning_rate": 0.0005382902097902098,
	"loss": 3.4841,
	"step": 17750
	},
	{
	"epoch": 5.183470207932903,
	"grad_norm": 0.3236485719680786,
	"learning_rate": 0.0005381153846153845,
	"loss": 3.4851,
	"step": 17800
	},
	{
	"epoch": 5.1980313355466246,
	"grad_norm": 0.30849018692970276,
	"learning_rate": 0.0005379405594405594,
	"loss": 3.4838,
	"step": 17850
	},
	{
	"epoch": 5.212592463160347,
	"grad_norm": 0.3113718032836914,
	"learning_rate": 0.0005377657342657342,
	"loss": 3.476,
	"step": 17900
	},
	{
	"epoch": 5.227153590774069,
	"grad_norm": 0.35100990533828735,
	"learning_rate": 0.000537590909090909,
	"loss": 3.4976,
	"step": 17950
	},
	{
	"epoch": 5.241714718387792,
	"grad_norm": 0.3076687455177307,
	"learning_rate": 0.0005374160839160838,
	"loss": 3.5044,
	"step": 18000
	},
	{
	"epoch": 5.241714718387792,
	"eval_accuracy": 0.3602995307135839,
	"eval_loss": 3.6342709064483643,
	"eval_runtime": 181.2085,
	"eval_samples_per_second": 91.861,
	"eval_steps_per_second": 5.745,
	"step": 18000
	},
	{
	"epoch": 5.256275846001515,
	"grad_norm": 0.3252745270729065,
	"learning_rate": 0.0005372412587412587,
	"loss": 3.5038,
	"step": 18050
	},
	{
	"epoch": 5.2708369736152365,
	"grad_norm": 0.31030163168907166,
	"learning_rate": 0.0005370664335664335,
	"loss": 3.49,
	"step": 18100
	},
	{
	"epoch": 5.285398101228959,
	"grad_norm": 0.36103177070617676,
	"learning_rate": 0.0005368916083916083,
	"loss": 3.492,
	"step": 18150
	},
	{
	"epoch": 5.299959228842681,
	"grad_norm": 0.32504352927207947,
	"learning_rate": 0.0005367167832167832,
	"loss": 3.4948,
	"step": 18200
	},
	{
	"epoch": 5.314520356456404,
	"grad_norm": 0.3331771790981293,
	"learning_rate": 0.000536541958041958,
	"loss": 3.5126,
	"step": 18250
	},
	{
	"epoch": 5.329081484070127,
	"grad_norm": 0.31116366386413574,
	"learning_rate": 0.0005363671328671328,
	"loss": 3.5076,
	"step": 18300
	},
	{
	"epoch": 5.3436426116838485,
	"grad_norm": 0.3158913850784302,
	"learning_rate": 0.0005361923076923076,
	"loss": 3.5178,
	"step": 18350
	},
	{
	"epoch": 5.358203739297571,
	"grad_norm": 0.32401207089424133,
	"learning_rate": 0.0005360174825174825,
	"loss": 3.5149,
	"step": 18400
	},
	{
	"epoch": 5.372764866911294,
	"grad_norm": 0.340380996465683,
	"learning_rate": 0.0005358426573426573,
	"loss": 3.5078,
	"step": 18450
	},
	{
	"epoch": 5.387325994525016,
	"grad_norm": 0.31110548973083496,
	"learning_rate": 0.0005356678321678321,
	"loss": 3.5107,
	"step": 18500
	},
	{
	"epoch": 5.401887122138739,
	"grad_norm": 0.32105040550231934,
	"learning_rate": 0.0005354930069930069,
	"loss": 3.4964,
	"step": 18550
	},
	{
	"epoch": 5.41644824975246,
	"grad_norm": 0.3346503674983978,
	"learning_rate": 0.0005353181818181817,
	"loss": 3.5029,
	"step": 18600
	},
	{
	"epoch": 5.431009377366183,
	"grad_norm": 0.3195594549179077,
	"learning_rate": 0.0005351433566433565,
	"loss": 3.5149,
	"step": 18650
	},
	{
	"epoch": 5.445570504979906,
	"grad_norm": 0.3379792273044586,
	"learning_rate": 0.0005349685314685314,
	"loss": 3.5073,
	"step": 18700
	},
	{
	"epoch": 5.460131632593628,
	"grad_norm": 0.3183291256427765,
	"learning_rate": 0.0005347937062937062,
	"loss": 3.5091,
	"step": 18750
	},
	{
	"epoch": 5.4746927602073505,
	"grad_norm": 0.3273472785949707,
	"learning_rate": 0.000534618881118881,
	"loss": 3.5196,
	"step": 18800
	},
	{
	"epoch": 5.489253887821073,
	"grad_norm": 0.3325451910495758,
	"learning_rate": 0.0005344440559440559,
	"loss": 3.5159,
	"step": 18850
	},
	{
	"epoch": 5.503815015434795,
	"grad_norm": 0.33070364594459534,
	"learning_rate": 0.0005342692307692307,
	"loss": 3.518,
	"step": 18900
	},
	{
	"epoch": 5.518376143048518,
	"grad_norm": 0.33015328645706177,
	"learning_rate": 0.0005340944055944055,
	"loss": 3.5238,
	"step": 18950
	},
	{
	"epoch": 5.53293727066224,
	"grad_norm": 0.307849645614624,
	"learning_rate": 0.0005339195804195803,
	"loss": 3.5108,
	"step": 19000
	},
	{
	"epoch": 5.53293727066224,
	"eval_accuracy": 0.36167172146690857,
	"eval_loss": 3.62229061126709,
	"eval_runtime": 181.6251,
	"eval_samples_per_second": 91.65,
	"eval_steps_per_second": 5.732,
	"step": 19000
	},
	{
	"epoch": 5.5474983982759625,
	"grad_norm": 0.2991660237312317,
	"learning_rate": 0.0005337447552447552,
	"loss": 3.5153,
	"step": 19050
	},
	{
	"epoch": 5.562059525889685,
	"grad_norm": 0.33114874362945557,
	"learning_rate": 0.00053356993006993,
	"loss": 3.5165,
	"step": 19100
	},
	{
	"epoch": 5.576620653503407,
	"grad_norm": 0.3147285282611847,
	"learning_rate": 0.0005333951048951048,
	"loss": 3.5263,
	"step": 19150
	},
	{
	"epoch": 5.59118178111713,
	"grad_norm": 0.32433706521987915,
	"learning_rate": 0.0005332202797202796,
	"loss": 3.5213,
	"step": 19200
	},
	{
	"epoch": 5.605742908730852,
	"grad_norm": 0.386737197637558,
	"learning_rate": 0.0005330454545454546,
	"loss": 3.5211,
	"step": 19250
	},
	{
	"epoch": 5.620304036344574,
	"grad_norm": 0.32082608342170715,
	"learning_rate": 0.0005328706293706292,
	"loss": 3.53,
	"step": 19300
	},
	{
	"epoch": 5.634865163958297,
	"grad_norm": 0.2935941219329834,
	"learning_rate": 0.0005326958041958042,
	"loss": 3.5197,
	"step": 19350
	},
	{
	"epoch": 5.649426291572019,
	"grad_norm": 0.31667831540107727,
	"learning_rate": 0.000532520979020979,
	"loss": 3.5095,
	"step": 19400
	},
	{
	"epoch": 5.663987419185742,
	"grad_norm": 0.306999534368515,
	"learning_rate": 0.0005323461538461538,
	"loss": 3.5187,
	"step": 19450
	},
	{
	"epoch": 5.6785485467994645,
	"grad_norm": 0.30406883358955383,
	"learning_rate": 0.0005321713286713287,
	"loss": 3.5199,
	"step": 19500
	},
	{
	"epoch": 5.693109674413186,
	"grad_norm": 0.3210119903087616,
	"learning_rate": 0.0005319965034965035,
	"loss": 3.527,
	"step": 19550
	},
	{
	"epoch": 5.707670802026909,
	"grad_norm": 0.33628612756729126,
	"learning_rate": 0.0005318216783216783,
	"loss": 3.5168,
	"step": 19600
	},
	{
	"epoch": 5.722231929640631,
	"grad_norm": 0.3189808428287506,
	"learning_rate": 0.0005316468531468531,
	"loss": 3.5246,
	"step": 19650
	},
	{
	"epoch": 5.736793057254354,
	"grad_norm": 0.3225274682044983,
	"learning_rate": 0.000531472027972028,
	"loss": 3.5168,
	"step": 19700
	},
	{
	"epoch": 5.7513541848680765,
	"grad_norm": 0.32404860854148865,
	"learning_rate": 0.0005312972027972028,
	"loss": 3.5305,
	"step": 19750
	},
	{
	"epoch": 5.765915312481798,
	"grad_norm": 0.33228975534439087,
	"learning_rate": 0.0005311223776223776,
	"loss": 3.5191,
	"step": 19800
	},
	{
	"epoch": 5.780476440095521,
	"grad_norm": 0.3346024453639984,
	"learning_rate": 0.0005309475524475524,
	"loss": 3.5233,
	"step": 19850
	},
	{
	"epoch": 5.795037567709244,
	"grad_norm": 0.30757418274879456,
	"learning_rate": 0.0005307727272727273,
	"loss": 3.5203,
	"step": 19900
	},
	{
	"epoch": 5.809598695322966,
	"grad_norm": 0.33240988850593567,
	"learning_rate": 0.0005305979020979021,
	"loss": 3.5232,
	"step": 19950
	},
	{
	"epoch": 5.824159822936688,
	"grad_norm": 0.3051111698150635,
	"learning_rate": 0.0005304230769230769,
	"loss": 3.5355,
	"step": 20000
	},
	{
	"epoch": 5.824159822936688,
	"eval_accuracy": 0.3623371258246723,
	"eval_loss": 3.6103367805480957,
	"eval_runtime": 181.4963,
	"eval_samples_per_second": 91.715,
	"eval_steps_per_second": 5.736,
	"step": 20000
	},
	{
	"epoch": 5.83872095055041,
	"grad_norm": 0.3242921233177185,
	"learning_rate": 0.0005302482517482517,
	"loss": 3.5295,
	"step": 20050
	},
	{
	"epoch": 5.853282078164133,
	"grad_norm": 0.3176933526992798,
	"learning_rate": 0.0005300734265734265,
	"loss": 3.5191,
	"step": 20100
	},
	{
	"epoch": 5.867843205777856,
	"grad_norm": 0.34109026193618774,
	"learning_rate": 0.0005298986013986013,
	"loss": 3.5357,
	"step": 20150
	},
	{
	"epoch": 5.882404333391578,
	"grad_norm": 0.2950345575809479,
	"learning_rate": 0.0005297237762237762,
	"loss": 3.5309,
	"step": 20200
	},
	{
	"epoch": 5.8969654610053,
	"grad_norm": 0.30492424964904785,
	"learning_rate": 0.000529548951048951,
	"loss": 3.5426,
	"step": 20250
	},
	{
	"epoch": 5.911526588619022,
	"grad_norm": 0.3427123725414276,
	"learning_rate": 0.0005293741258741258,
	"loss": 3.5293,
	"step": 20300
	},
	{
	"epoch": 5.926087716232745,
	"grad_norm": 0.30794087052345276,
	"learning_rate": 0.0005291993006993007,
	"loss": 3.5297,
	"step": 20350
	},
	{
	"epoch": 5.940648843846468,
	"grad_norm": 0.30005186796188354,
	"learning_rate": 0.0005290244755244755,
	"loss": 3.5312,
	"step": 20400
	},
	{
	"epoch": 5.95520997146019,
	"grad_norm": 0.3218655586242676,
	"learning_rate": 0.0005288496503496503,
	"loss": 3.5224,
	"step": 20450
	},
	{
	"epoch": 5.969771099073912,
	"grad_norm": 0.3385027348995209,
	"learning_rate": 0.0005286748251748251,
	"loss": 3.5319,
	"step": 20500
	},
	{
	"epoch": 5.984332226687634,
	"grad_norm": 0.33277666568756104,
	"learning_rate": 0.0005285,
	"loss": 3.5229,
	"step": 20550
	},
	{
	"epoch": 5.998893354301357,
	"grad_norm": 0.2984437346458435,
	"learning_rate": 0.0005283251748251748,
	"loss": 3.5246,
	"step": 20600
	},
	{
	"epoch": 6.013396237404625,
	"grad_norm": 0.3273489773273468,
	"learning_rate": 0.0005281503496503496,
	"loss": 3.4096,
	"step": 20650
	},
	{
	"epoch": 6.027957365018347,
	"grad_norm": 0.32948926091194153,
	"learning_rate": 0.0005279755244755244,
	"loss": 3.4094,
	"step": 20700
	},
	{
	"epoch": 6.04251849263207,
	"grad_norm": 0.3348131775856018,
	"learning_rate": 0.0005278006993006993,
	"loss": 3.4196,
	"step": 20750
	},
	{
	"epoch": 6.0570796202457915,
	"grad_norm": 0.3126414716243744,
	"learning_rate": 0.000527625874125874,
	"loss": 3.4201,
	"step": 20800
	},
	{
	"epoch": 6.071640747859514,
	"grad_norm": 0.33334097266197205,
	"learning_rate": 0.0005274510489510489,
	"loss": 3.4269,
	"step": 20850
	},
	{
	"epoch": 6.086201875473237,
	"grad_norm": 0.32628950476646423,
	"learning_rate": 0.0005272762237762238,
	"loss": 3.432,
	"step": 20900
	},
	{
	"epoch": 6.100763003086959,
	"grad_norm": 0.3498513996601105,
	"learning_rate": 0.0005271013986013985,
	"loss": 3.425,
	"step": 20950
	},
	{
	"epoch": 6.115324130700682,
	"grad_norm": 0.29833361506462097,
	"learning_rate": 0.0005269265734265734,
	"loss": 3.4252,
	"step": 21000
	},
	{
	"epoch": 6.115324130700682,
	"eval_accuracy": 0.36289260914453686,
	"eval_loss": 3.613590717315674,
	"eval_runtime": 181.366,
	"eval_samples_per_second": 91.781,
	"eval_steps_per_second": 5.74,
	"step": 21000
	},
	{
	"epoch": 6.1298852583144035,
	"grad_norm": 0.3302992880344391,
	"learning_rate": 0.0005267517482517482,
	"loss": 3.4361,
	"step": 21050
	},
	{
	"epoch": 6.144446385928126,
	"grad_norm": 0.3029468059539795,
	"learning_rate": 0.000526576923076923,
	"loss": 3.4468,
	"step": 21100
	},
	{
	"epoch": 6.159007513541849,
	"grad_norm": 0.3242226243019104,
	"learning_rate": 0.0005264020979020978,
	"loss": 3.4352,
	"step": 21150
	},
	{
	"epoch": 6.173568641155571,
	"grad_norm": 0.31961268186569214,
	"learning_rate": 0.0005262272727272727,
	"loss": 3.4358,
	"step": 21200
	},
	{
	"epoch": 6.1881297687692935,
	"grad_norm": 0.33194205164909363,
	"learning_rate": 0.0005260524475524475,
	"loss": 3.4442,
	"step": 21250
	},
	{
	"epoch": 6.202690896383016,
	"grad_norm": 0.32972991466522217,
	"learning_rate": 0.0005258776223776223,
	"loss": 3.4521,
	"step": 21300
	},
	{
	"epoch": 6.217252023996738,
	"grad_norm": 0.31378456950187683,
	"learning_rate": 0.0005257027972027971,
	"loss": 3.4469,
	"step": 21350
	},
	{
	"epoch": 6.231813151610461,
	"grad_norm": 0.3384927809238434,
	"learning_rate": 0.000525527972027972,
	"loss": 3.4621,
	"step": 21400
	},
	{
	"epoch": 6.246374279224183,
	"grad_norm": 0.3361877202987671,
	"learning_rate": 0.0005253531468531468,
	"loss": 3.4574,
	"step": 21450
	},
	{
	"epoch": 6.2609354068379055,
	"grad_norm": 0.3300999402999878,
	"learning_rate": 0.0005251783216783216,
	"loss": 3.4494,
	"step": 21500
	},
	{
	"epoch": 6.275496534451628,
	"grad_norm": 0.31691470742225647,
	"learning_rate": 0.0005250034965034965,
	"loss": 3.4443,
	"step": 21550
	},
	{
	"epoch": 6.29005766206535,
	"grad_norm": 0.30609896779060364,
	"learning_rate": 0.0005248286713286712,
	"loss": 3.465,
	"step": 21600
	},
	{
	"epoch": 6.304618789679073,
	"grad_norm": 0.3142344653606415,
	"learning_rate": 0.0005246538461538461,
	"loss": 3.4489,
	"step": 21650
	},
	{
	"epoch": 6.319179917292795,
	"grad_norm": 0.3219060003757477,
	"learning_rate": 0.0005244790209790209,
	"loss": 3.4663,
	"step": 21700
	},
	{
	"epoch": 6.3337410449065175,
	"grad_norm": 0.3099410831928253,
	"learning_rate": 0.0005243041958041957,
	"loss": 3.472,
	"step": 21750
	},
	{
	"epoch": 6.34830217252024,
	"grad_norm": 0.31502556800842285,
	"learning_rate": 0.0005241293706293705,
	"loss": 3.4804,
	"step": 21800
	},
	{
	"epoch": 6.362863300133962,
	"grad_norm": 0.30814129114151,
	"learning_rate": 0.0005239545454545454,
	"loss": 3.4601,
	"step": 21850
	},
	{
	"epoch": 6.377424427747685,
	"grad_norm": 0.3281274735927582,
	"learning_rate": 0.0005237797202797202,
	"loss": 3.4743,
	"step": 21900
	},
	{
	"epoch": 6.391985555361408,
	"grad_norm": 0.33183300495147705,
	"learning_rate": 0.000523604895104895,
	"loss": 3.4548,
	"step": 21950
	},
	{
	"epoch": 6.406546682975129,
	"grad_norm": 0.33608192205429077,
	"learning_rate": 0.0005234300699300698,
	"loss": 3.4717,
	"step": 22000
	},
	{
	"epoch": 6.406546682975129,
	"eval_accuracy": 0.3633190087214996,
	"eval_loss": 3.6065382957458496,
	"eval_runtime": 181.0468,
	"eval_samples_per_second": 91.943,
	"eval_steps_per_second": 5.75,
	"step": 22000
	},
	{
	"epoch": 6.421107810588852,
	"grad_norm": 0.3260321319103241,
	"learning_rate": 0.0005232552447552447,
	"loss": 3.4682,
	"step": 22050
	},
	{
	"epoch": 6.435668938202574,
	"grad_norm": 0.33026236295700073,
	"learning_rate": 0.0005230804195804195,
	"loss": 3.4802,
	"step": 22100
	},
	{
	"epoch": 6.450230065816297,
	"grad_norm": 0.30417993664741516,
	"learning_rate": 0.0005229055944055943,
	"loss": 3.476,
	"step": 22150
	},
	{
	"epoch": 6.4647911934300195,
	"grad_norm": 0.3218960464000702,
	"learning_rate": 0.0005227307692307691,
	"loss": 3.4754,
	"step": 22200
	},
	{
	"epoch": 6.479352321043741,
	"grad_norm": 0.31791952252388,
	"learning_rate": 0.0005225559440559441,
	"loss": 3.4712,
	"step": 22250
	},
	{
	"epoch": 6.493913448657464,
	"grad_norm": 0.31013575196266174,
	"learning_rate": 0.0005223811188811189,
	"loss": 3.4725,
	"step": 22300
	},
	{
	"epoch": 6.508474576271187,
	"grad_norm": 0.3217204213142395,
	"learning_rate": 0.0005222062937062937,
	"loss": 3.4725,
	"step": 22350
	},
	{
	"epoch": 6.523035703884909,
	"grad_norm": 0.31372180581092834,
	"learning_rate": 0.0005220314685314686,
	"loss": 3.4723,
	"step": 22400
	},
	{
	"epoch": 6.5375968314986315,
	"grad_norm": 0.3291754126548767,
	"learning_rate": 0.0005218566433566433,
	"loss": 3.4768,
	"step": 22450
	},
	{
	"epoch": 6.552157959112353,
	"grad_norm": 0.3256649672985077,
	"learning_rate": 0.0005216818181818182,
	"loss": 3.4629,
	"step": 22500
	},
	{
	"epoch": 6.566719086726076,
	"grad_norm": 0.323404461145401,
	"learning_rate": 0.000521506993006993,
	"loss": 3.4747,
	"step": 22550
	},
	{
	"epoch": 6.581280214339799,
	"grad_norm": 0.33667072653770447,
	"learning_rate": 0.0005213321678321678,
	"loss": 3.4652,
	"step": 22600
	},
	{
	"epoch": 6.595841341953521,
	"grad_norm": 0.3154466450214386,
	"learning_rate": 0.0005211573426573426,
	"loss": 3.4836,
	"step": 22650
	},
	{
	"epoch": 6.610402469567243,
	"grad_norm": 0.34323811531066895,
	"learning_rate": 0.0005209825174825175,
	"loss": 3.4798,
	"step": 22700
	},
	{
	"epoch": 6.624963597180965,
	"grad_norm": 0.3353569209575653,
	"learning_rate": 0.0005208076923076923,
	"loss": 3.4756,
	"step": 22750
	},
	{
	"epoch": 6.639524724794688,
	"grad_norm": 0.3173069655895233,
	"learning_rate": 0.0005206328671328671,
	"loss": 3.4838,
	"step": 22800
	},
	{
	"epoch": 6.654085852408411,
	"grad_norm": 0.3082946836948395,
	"learning_rate": 0.0005204580419580419,
	"loss": 3.4859,
	"step": 22850
	},
	{
	"epoch": 6.668646980022133,
	"grad_norm": 0.32030490040779114,
	"learning_rate": 0.0005202832167832168,
	"loss": 3.4902,
	"step": 22900
	},
	{
	"epoch": 6.683208107635855,
	"grad_norm": 0.3350687623023987,
	"learning_rate": 0.0005201083916083916,
	"loss": 3.4842,
	"step": 22950
	},
	{
	"epoch": 6.697769235249577,
	"grad_norm": 0.324341356754303,
	"learning_rate": 0.0005199335664335664,
	"loss": 3.4676,
	"step": 23000
	},
	{
	"epoch": 6.697769235249577,
	"eval_accuracy": 0.3642195382940208,
	"eval_loss": 3.5976805686950684,
	"eval_runtime": 181.2142,
	"eval_samples_per_second": 91.858,
	"eval_steps_per_second": 5.745,
	"step": 23000
	},
	{
	"epoch": 6.7123303628633,
	"grad_norm": 0.31654438376426697,
	"learning_rate": 0.0005197587412587413,
	"loss": 3.487,
	"step": 23050
	},
	{
	"epoch": 6.726891490477023,
	"grad_norm": 0.324179083108902,
	"learning_rate": 0.0005195839160839161,
	"loss": 3.4772,
	"step": 23100
	},
	{
	"epoch": 6.741452618090745,
	"grad_norm": 0.3194001019001007,
	"learning_rate": 0.0005194090909090909,
	"loss": 3.4873,
	"step": 23150
	},
	{
	"epoch": 6.756013745704467,
	"grad_norm": 0.3092760741710663,
	"learning_rate": 0.0005192342657342657,
	"loss": 3.4903,
	"step": 23200
	},
	{
	"epoch": 6.77057487331819,
	"grad_norm": 0.3114040195941925,
	"learning_rate": 0.0005190594405594405,
	"loss": 3.4924,
	"step": 23250
	},
	{
	"epoch": 6.785136000931912,
	"grad_norm": 0.3235475420951843,
	"learning_rate": 0.0005188846153846153,
	"loss": 3.4826,
	"step": 23300
	},
	{
	"epoch": 6.799697128545635,
	"grad_norm": 0.3458871841430664,
	"learning_rate": 0.0005187097902097902,
	"loss": 3.4872,
	"step": 23350
	},
	{
	"epoch": 6.814258256159357,
	"grad_norm": 0.34217914938926697,
	"learning_rate": 0.000518534965034965,
	"loss": 3.4947,
	"step": 23400
	},
	{
	"epoch": 6.828819383773079,
	"grad_norm": 0.3139799237251282,
	"learning_rate": 0.0005183601398601398,
	"loss": 3.4925,
	"step": 23450
	},
	{
	"epoch": 6.843380511386802,
	"grad_norm": 0.33358052372932434,
	"learning_rate": 0.0005181853146853146,
	"loss": 3.4904,
	"step": 23500
	},
	{
	"epoch": 6.857941639000524,
	"grad_norm": 0.32350531220436096,
	"learning_rate": 0.0005180104895104895,
	"loss": 3.4951,
	"step": 23550
	},
	{
	"epoch": 6.872502766614247,
	"grad_norm": 0.32974010705947876,
	"learning_rate": 0.0005178356643356643,
	"loss": 3.493,
	"step": 23600
	},
	{
	"epoch": 6.887063894227969,
	"grad_norm": 0.33600473403930664,
	"learning_rate": 0.0005176608391608391,
	"loss": 3.4893,
	"step": 23650
	},
	{
	"epoch": 6.901625021841691,
	"grad_norm": 0.32952529191970825,
	"learning_rate": 0.000517486013986014,
	"loss": 3.4971,
	"step": 23700
	},
	{
	"epoch": 6.916186149455414,
	"grad_norm": 0.325702041387558,
	"learning_rate": 0.0005173111888111888,
	"loss": 3.4979,
	"step": 23750
	},
	{
	"epoch": 6.930747277069136,
	"grad_norm": 0.32848599553108215,
	"learning_rate": 0.0005171363636363636,
	"loss": 3.4868,
	"step": 23800
	},
	{
	"epoch": 6.945308404682859,
	"grad_norm": 0.3094465732574463,
	"learning_rate": 0.0005169615384615384,
	"loss": 3.4919,
	"step": 23850
	},
	{
	"epoch": 6.959869532296581,
	"grad_norm": 0.3336765468120575,
	"learning_rate": 0.0005167867132867133,
	"loss": 3.4885,
	"step": 23900
	},
	{
	"epoch": 6.974430659910303,
	"grad_norm": 0.32281845808029175,
	"learning_rate": 0.000516611888111888,
	"loss": 3.4788,
	"step": 23950
	},
	{
	"epoch": 6.988991787524026,
	"grad_norm": 0.37186485528945923,
	"learning_rate": 0.0005164370629370629,
	"loss": 3.4867,
	"step": 24000
	},
	{
	"epoch": 6.988991787524026,
	"eval_accuracy": 0.3649564207170708,
	"eval_loss": 3.5883593559265137,
	"eval_runtime": 181.1707,
	"eval_samples_per_second": 91.88,
	"eval_steps_per_second": 5.746,
	"step": 24000
	},
	{
	"epoch": 7.003494670627293,
	"grad_norm": 0.31783783435821533,
	"learning_rate": 0.0005162622377622377,
	"loss": 3.459,
	"step": 24050
	},
	{
	"epoch": 7.018055798241016,
	"grad_norm": 0.34084847569465637,
	"learning_rate": 0.0005160874125874125,
	"loss": 3.379,
	"step": 24100
	},
	{
	"epoch": 7.032616925854738,
	"grad_norm": 0.3169894218444824,
	"learning_rate": 0.0005159125874125873,
	"loss": 3.3842,
	"step": 24150
	},
	{
	"epoch": 7.0471780534684605,
	"grad_norm": 0.32522594928741455,
	"learning_rate": 0.0005157377622377622,
	"loss": 3.3877,
	"step": 24200
	},
	{
	"epoch": 7.061739181082183,
	"grad_norm": 0.3461341857910156,
	"learning_rate": 0.000515562937062937,
	"loss": 3.3905,
	"step": 24250
	},
	{
	"epoch": 7.076300308695905,
	"grad_norm": 0.328916996717453,
	"learning_rate": 0.0005153881118881118,
	"loss": 3.3949,
	"step": 24300
	},
	{
	"epoch": 7.090861436309628,
	"grad_norm": 0.34981271624565125,
	"learning_rate": 0.0005152132867132867,
	"loss": 3.399,
	"step": 24350
	},
	{
	"epoch": 7.105422563923351,
	"grad_norm": 0.3182472884654999,
	"learning_rate": 0.0005150384615384615,
	"loss": 3.4032,
	"step": 24400
	},
	{
	"epoch": 7.1199836915370724,
	"grad_norm": 0.3407321870326996,
	"learning_rate": 0.0005148636363636363,
	"loss": 3.4098,
	"step": 24450
	},
	{
	"epoch": 7.134544819150795,
	"grad_norm": 0.31166911125183105,
	"learning_rate": 0.0005146888111888111,
	"loss": 3.3845,
	"step": 24500
	},
	{
	"epoch": 7.149105946764517,
	"grad_norm": 0.3245963454246521,
	"learning_rate": 0.000514513986013986,
	"loss": 3.4064,
	"step": 24550
	},
	{
	"epoch": 7.16366707437824,
	"grad_norm": 0.35094335675239563,
	"learning_rate": 0.0005143391608391608,
	"loss": 3.4088,
	"step": 24600
	},
	{
	"epoch": 7.1782282019919625,
	"grad_norm": 0.31868040561676025,
	"learning_rate": 0.0005141643356643356,
	"loss": 3.4047,
	"step": 24650
	},
	{
	"epoch": 7.192789329605684,
	"grad_norm": 0.32330843806266785,
	"learning_rate": 0.0005139895104895104,
	"loss": 3.4007,
	"step": 24700
	},
	{
	"epoch": 7.207350457219407,
	"grad_norm": 0.34358319640159607,
	"learning_rate": 0.0005138146853146852,
	"loss": 3.4181,
	"step": 24750
	},
	{
	"epoch": 7.22191158483313,
	"grad_norm": 0.3291915953159332,
	"learning_rate": 0.00051363986013986,
	"loss": 3.4165,
	"step": 24800
	},
	{
	"epoch": 7.236472712446852,
	"grad_norm": 0.31977158784866333,
	"learning_rate": 0.0005134650349650349,
	"loss": 3.4246,
	"step": 24850
	},
	{
	"epoch": 7.2510338400605745,
	"grad_norm": 0.33271709084510803,
	"learning_rate": 0.0005132902097902097,
	"loss": 3.4101,
	"step": 24900
	},
	{
	"epoch": 7.265594967674296,
	"grad_norm": 0.3385375738143921,
	"learning_rate": 0.0005131153846153845,
	"loss": 3.4185,
	"step": 24950
	},
	{
	"epoch": 7.280156095288019,
	"grad_norm": 0.359745055437088,
	"learning_rate": 0.0005129405594405594,
	"loss": 3.4248,
	"step": 25000
	},
	{
	"epoch": 7.280156095288019,
	"eval_accuracy": 0.36494066732768204,
	"eval_loss": 3.5982604026794434,
	"eval_runtime": 181.1034,
	"eval_samples_per_second": 91.914,
	"eval_steps_per_second": 5.748,
	"step": 25000
	},
	{
	"epoch": 7.294717222901742,
	"grad_norm": 0.32137957215309143,
	"learning_rate": 0.0005127657342657342,
	"loss": 3.4147,
	"step": 25050
	},
	{
	"epoch": 7.309278350515464,
	"grad_norm": 0.3147618770599365,
	"learning_rate": 0.000512590909090909,
	"loss": 3.4202,
	"step": 25100
	},
	{
	"epoch": 7.3238394781291865,
	"grad_norm": 0.3232477605342865,
	"learning_rate": 0.0005124160839160838,
	"loss": 3.4304,
	"step": 25150
	},
	{
	"epoch": 7.338400605742908,
	"grad_norm": 0.3342421352863312,
	"learning_rate": 0.0005122412587412588,
	"loss": 3.4261,
	"step": 25200
	},
	{
	"epoch": 7.352961733356631,
	"grad_norm": 0.3140034079551697,
	"learning_rate": 0.0005120664335664336,
	"loss": 3.435,
	"step": 25250
	},
	{
	"epoch": 7.367522860970354,
	"grad_norm": 0.33676761388778687,
	"learning_rate": 0.0005118916083916084,
	"loss": 3.4313,
	"step": 25300
	},
	{
	"epoch": 7.382083988584076,
	"grad_norm": 0.33039015531539917,
	"learning_rate": 0.0005117167832167832,
	"loss": 3.435,
	"step": 25350
	},
	{
	"epoch": 7.396645116197798,
	"grad_norm": 0.34258249402046204,
	"learning_rate": 0.0005115419580419581,
	"loss": 3.4223,
	"step": 25400
	},
	{
	"epoch": 7.411206243811521,
	"grad_norm": 0.3384631276130676,
	"learning_rate": 0.0005113671328671328,
	"loss": 3.4243,
	"step": 25450
	},
	{
	"epoch": 7.425767371425243,
	"grad_norm": 0.32956787943840027,
	"learning_rate": 0.0005111923076923077,
	"loss": 3.4416,
	"step": 25500
	},
	{
	"epoch": 7.440328499038966,
	"grad_norm": 0.3352907598018646,
	"learning_rate": 0.0005110174825174825,
	"loss": 3.4284,
	"step": 25550
	},
	{
	"epoch": 7.454889626652688,
	"grad_norm": 0.3281717002391815,
	"learning_rate": 0.0005108426573426573,
	"loss": 3.4443,
	"step": 25600
	},
	{
	"epoch": 7.46945075426641,
	"grad_norm": 0.34179285168647766,
	"learning_rate": 0.0005106678321678321,
	"loss": 3.435,
	"step": 25650
	},
	{
	"epoch": 7.484011881880133,
	"grad_norm": 0.35076916217803955,
	"learning_rate": 0.000510493006993007,
	"loss": 3.4447,
	"step": 25700
	},
	{
	"epoch": 7.498573009493855,
	"grad_norm": 0.3248736262321472,
	"learning_rate": 0.0005103181818181818,
	"loss": 3.4386,
	"step": 25750
	},
	{
	"epoch": 7.513134137107578,
	"grad_norm": 0.3269752860069275,
	"learning_rate": 0.0005101433566433566,
	"loss": 3.4369,
	"step": 25800
	},
	{
	"epoch": 7.5276952647213005,
	"grad_norm": 0.343089759349823,
	"learning_rate": 0.0005099685314685315,
	"loss": 3.447,
	"step": 25850
	},
	{
	"epoch": 7.542256392335022,
	"grad_norm": 0.3274691104888916,
	"learning_rate": 0.0005097937062937063,
	"loss": 3.4378,
	"step": 25900
	},
	{
	"epoch": 7.556817519948745,
	"grad_norm": 0.31769490242004395,
	"learning_rate": 0.0005096188811188811,
	"loss": 3.4429,
	"step": 25950
	},
	{
	"epoch": 7.571378647562467,
	"grad_norm": 0.30322396755218506,
	"learning_rate": 0.0005094440559440559,
	"loss": 3.4455,
	"step": 26000
	},
	{
	"epoch": 7.571378647562467,
	"eval_accuracy": 0.3655577534538131,
	"eval_loss": 3.586430072784424,
	"eval_runtime": 181.088,
	"eval_samples_per_second": 91.922,
	"eval_steps_per_second": 5.749,
	"step": 26000
	},
	{
	"epoch": 7.58593977517619,
	"grad_norm": 0.3594802916049957,
	"learning_rate": 0.0005092692307692308,
	"loss": 3.4449,
	"step": 26050
	},
	{
	"epoch": 7.600500902789912,
	"grad_norm": 0.34348103404045105,
	"learning_rate": 0.0005090944055944056,
	"loss": 3.4474,
	"step": 26100
	},
	{
	"epoch": 7.615062030403634,
	"grad_norm": 0.32391390204429626,
	"learning_rate": 0.0005089195804195804,
	"loss": 3.445,
	"step": 26150
	},
	{
	"epoch": 7.629623158017357,
	"grad_norm": 0.3242975175380707,
	"learning_rate": 0.0005087447552447552,
	"loss": 3.4404,
	"step": 26200
	},
	{
	"epoch": 7.644184285631079,
	"grad_norm": 0.35450035333633423,
	"learning_rate": 0.00050856993006993,
	"loss": 3.4475,
	"step": 26250
	},
	{
	"epoch": 7.658745413244802,
	"grad_norm": 0.32055407762527466,
	"learning_rate": 0.0005083951048951048,
	"loss": 3.4406,
	"step": 26300
	},
	{
	"epoch": 7.673306540858524,
	"grad_norm": 0.31129223108291626,
	"learning_rate": 0.0005082202797202797,
	"loss": 3.4532,
	"step": 26350
	},
	{
	"epoch": 7.687867668472246,
	"grad_norm": 0.33475667238235474,
	"learning_rate": 0.0005080454545454545,
	"loss": 3.4582,
	"step": 26400
	},
	{
	"epoch": 7.702428796085969,
	"grad_norm": 0.3636000454425812,
	"learning_rate": 0.0005078706293706293,
	"loss": 3.442,
	"step": 26450
	},
	{
	"epoch": 7.716989923699691,
	"grad_norm": 0.3021737039089203,
	"learning_rate": 0.0005076958041958042,
	"loss": 3.4586,
	"step": 26500
	},
	{
	"epoch": 7.731551051313414,
	"grad_norm": 0.32579872012138367,
	"learning_rate": 0.000507520979020979,
	"loss": 3.4468,
	"step": 26550
	},
	{
	"epoch": 7.746112178927136,
	"grad_norm": 0.3306429982185364,
	"learning_rate": 0.0005073461538461538,
	"loss": 3.4508,
	"step": 26600
	},
	{
	"epoch": 7.760673306540858,
	"grad_norm": 0.33379238843917847,
	"learning_rate": 0.0005071713286713286,
	"loss": 3.4554,
	"step": 26650
	},
	{
	"epoch": 7.775234434154581,
	"grad_norm": 0.3489669859409332,
	"learning_rate": 0.0005069965034965035,
	"loss": 3.4479,
	"step": 26700
	},
	{
	"epoch": 7.789795561768304,
	"grad_norm": 0.3256928324699402,
	"learning_rate": 0.0005068216783216783,
	"loss": 3.4562,
	"step": 26750
	},
	{
	"epoch": 7.8043566893820255,
	"grad_norm": 0.30848199129104614,
	"learning_rate": 0.0005066468531468531,
	"loss": 3.4483,
	"step": 26800
	},
	{
	"epoch": 7.818917816995748,
	"grad_norm": 0.3393913507461548,
	"learning_rate": 0.0005064720279720279,
	"loss": 3.4709,
	"step": 26850
	},
	{
	"epoch": 7.833478944609471,
	"grad_norm": 0.31153106689453125,
	"learning_rate": 0.0005062972027972028,
	"loss": 3.4658,
	"step": 26900
	},
	{
	"epoch": 7.848040072223193,
	"grad_norm": 0.328171044588089,
	"learning_rate": 0.0005061223776223775,
	"loss": 3.4517,
	"step": 26950
	},
	{
	"epoch": 7.862601199836916,
	"grad_norm": 0.32433098554611206,
	"learning_rate": 0.0005059475524475524,
	"loss": 3.4606,
	"step": 27000
	},
	{
	"epoch": 7.862601199836916,
	"eval_accuracy": 0.366670836220475,
	"eval_loss": 3.5772430896759033,
	"eval_runtime": 181.1731,
	"eval_samples_per_second": 91.879,
	"eval_steps_per_second": 5.746,
	"step": 27000
	},
	{
	"epoch": 7.8771623274506375,
	"grad_norm": 0.3007674515247345,
	"learning_rate": 0.0005057727272727272,
	"loss": 3.4629,
	"step": 27050
	},
	{
	"epoch": 7.89172345506436,
	"grad_norm": 0.3290211856365204,
	"learning_rate": 0.000505597902097902,
	"loss": 3.4581,
	"step": 27100
	},
	{
	"epoch": 7.906284582678083,
	"grad_norm": 0.3350273072719574,
	"learning_rate": 0.0005054230769230769,
	"loss": 3.4522,
	"step": 27150
	},
	{
	"epoch": 7.920845710291805,
	"grad_norm": 0.3044837713241577,
	"learning_rate": 0.0005052482517482517,
	"loss": 3.4548,
	"step": 27200
	},
	{
	"epoch": 7.935406837905528,
	"grad_norm": 0.3208082914352417,
	"learning_rate": 0.0005050734265734265,
	"loss": 3.4407,
	"step": 27250
	},
	{
	"epoch": 7.9499679655192494,
	"grad_norm": 0.33409732580184937,
	"learning_rate": 0.0005048986013986013,
	"loss": 3.4498,
	"step": 27300
	},
	{
	"epoch": 7.964529093132972,
	"grad_norm": 0.33270469307899475,
	"learning_rate": 0.0005047237762237762,
	"loss": 3.4592,
	"step": 27350
	},
	{
	"epoch": 7.979090220746695,
	"grad_norm": 0.336601585149765,
	"learning_rate": 0.000504548951048951,
	"loss": 3.4603,
	"step": 27400
	},
	{
	"epoch": 7.993651348360417,
	"grad_norm": 0.32460638880729675,
	"learning_rate": 0.0005043741258741258,
	"loss": 3.4516,
	"step": 27450
	},
	{
	"epoch": 8.008154231463685,
	"grad_norm": 0.33659544587135315,
	"learning_rate": 0.0005041993006993006,
	"loss": 3.404,
	"step": 27500
	},
	{
	"epoch": 8.022715359077408,
	"grad_norm": 0.3334440588951111,
	"learning_rate": 0.0005040244755244755,
	"loss": 3.3413,
	"step": 27550
	},
	{
	"epoch": 8.037276486691129,
	"grad_norm": 0.32501035928726196,
	"learning_rate": 0.0005038496503496503,
	"loss": 3.3455,
	"step": 27600
	},
	{
	"epoch": 8.051837614304851,
	"grad_norm": 0.33923956751823425,
	"learning_rate": 0.0005036748251748251,
	"loss": 3.3632,
	"step": 27650
	},
	{
	"epoch": 8.066398741918574,
	"grad_norm": 0.3274213671684265,
	"learning_rate": 0.0005034999999999999,
	"loss": 3.3568,
	"step": 27700
	},
	{
	"epoch": 8.080959869532297,
	"grad_norm": 0.3114986717700958,
	"learning_rate": 0.0005033251748251747,
	"loss": 3.3671,
	"step": 27750
	},
	{
	"epoch": 8.09552099714602,
	"grad_norm": 0.33176517486572266,
	"learning_rate": 0.0005031503496503496,
	"loss": 3.3705,
	"step": 27800
	},
	{
	"epoch": 8.11008212475974,
	"grad_norm": 0.3320193290710449,
	"learning_rate": 0.0005029755244755244,
	"loss": 3.365,
	"step": 27850
	},
	{
	"epoch": 8.124643252373463,
	"grad_norm": 0.3689771890640259,
	"learning_rate": 0.0005028006993006992,
	"loss": 3.3782,
	"step": 27900
	},
	{
	"epoch": 8.139204379987186,
	"grad_norm": 0.32468920946121216,
	"learning_rate": 0.000502625874125874,
	"loss": 3.372,
	"step": 27950
	},
	{
	"epoch": 8.153765507600909,
	"grad_norm": 0.3300785422325134,
	"learning_rate": 0.000502451048951049,
	"loss": 3.3815,
	"step": 28000
	},
	{
	"epoch": 8.153765507600909,
	"eval_accuracy": 0.3664210156797952,
	"eval_loss": 3.589651584625244,
	"eval_runtime": 181.0562,
	"eval_samples_per_second": 91.938,
	"eval_steps_per_second": 5.75,
	"step": 28000
	},
	{
	"epoch": 8.168326635214632,
	"grad_norm": 0.3502894639968872,
	"learning_rate": 0.0005022762237762237,
	"loss": 3.3722,
	"step": 28050
	},
	{
	"epoch": 8.182887762828354,
	"grad_norm": 0.32582199573516846,
	"learning_rate": 0.0005021013986013985,
	"loss": 3.3825,
	"step": 28100
	},
	{
	"epoch": 8.197448890442075,
	"grad_norm": 0.3195355534553528,
	"learning_rate": 0.0005019265734265733,
	"loss": 3.3769,
	"step": 28150
	},
	{
	"epoch": 8.212010018055798,
	"grad_norm": 0.3466898500919342,
	"learning_rate": 0.0005017517482517483,
	"loss": 3.3755,
	"step": 28200
	},
	{
	"epoch": 8.22657114566952,
	"grad_norm": 0.31910231709480286,
	"learning_rate": 0.0005015769230769231,
	"loss": 3.3877,
	"step": 28250
	},
	{
	"epoch": 8.241132273283243,
	"grad_norm": 0.3181063234806061,
	"learning_rate": 0.0005014020979020979,
	"loss": 3.3976,
	"step": 28300
	},
	{
	"epoch": 8.255693400896966,
	"grad_norm": 0.3086499869823456,
	"learning_rate": 0.0005012272727272727,
	"loss": 3.3798,
	"step": 28350
	},
	{
	"epoch": 8.270254528510687,
	"grad_norm": 0.32086050510406494,
	"learning_rate": 0.0005010524475524476,
	"loss": 3.3847,
	"step": 28400
	},
	{
	"epoch": 8.28481565612441,
	"grad_norm": 0.33809781074523926,
	"learning_rate": 0.0005008776223776223,
	"loss": 3.4049,
	"step": 28450
	},
	{
	"epoch": 8.299376783738133,
	"grad_norm": 0.365345299243927,
	"learning_rate": 0.0005007027972027972,
	"loss": 3.3976,
	"step": 28500
	},
	{
	"epoch": 8.313937911351855,
	"grad_norm": 0.31952720880508423,
	"learning_rate": 0.000500527972027972,
	"loss": 3.4071,
	"step": 28550
	},
	{
	"epoch": 8.328499038965578,
	"grad_norm": 0.3320535123348236,
	"learning_rate": 0.0005003531468531468,
	"loss": 3.4125,
	"step": 28600
	},
	{
	"epoch": 8.3430601665793,
	"grad_norm": 0.3217061758041382,
	"learning_rate": 0.0005001783216783217,
	"loss": 3.3984,
	"step": 28650
	},
	{
	"epoch": 8.357621294193022,
	"grad_norm": 0.3326950967311859,
	"learning_rate": 0.0005000034965034965,
	"loss": 3.3986,
	"step": 28700
	},
	{
	"epoch": 8.372182421806745,
	"grad_norm": 0.33330121636390686,
	"learning_rate": 0.0004998286713286713,
	"loss": 3.3976,
	"step": 28750
	},
	{
	"epoch": 8.386743549420467,
	"grad_norm": 0.3166747987270355,
	"learning_rate": 0.0004996538461538461,
	"loss": 3.4002,
	"step": 28800
	},
	{
	"epoch": 8.40130467703419,
	"grad_norm": 0.34696197509765625,
	"learning_rate": 0.000499479020979021,
	"loss": 3.4108,
	"step": 28850
	},
	{
	"epoch": 8.415865804647911,
	"grad_norm": 0.3111904263496399,
	"learning_rate": 0.0004993041958041958,
	"loss": 3.3988,
	"step": 28900
	},
	{
	"epoch": 8.430426932261634,
	"grad_norm": 0.3558425307273865,
	"learning_rate": 0.0004991293706293706,
	"loss": 3.4024,
	"step": 28950
	},
	{
	"epoch": 8.444988059875357,
	"grad_norm": 0.37141433358192444,
	"learning_rate": 0.0004989545454545454,
	"loss": 3.4063,
	"step": 29000
	},
	{
	"epoch": 8.444988059875357,
	"eval_accuracy": 0.3664435877004119,
	"eval_loss": 3.581801414489746,
	"eval_runtime": 181.2088,
	"eval_samples_per_second": 91.861,
	"eval_steps_per_second": 5.745,
	"step": 29000
	},
	{
	"epoch": 8.45954918748908,
	"grad_norm": 0.31924572587013245,
	"learning_rate": 0.0004987797202797203,
	"loss": 3.4258,
	"step": 29050
	},
	{
	"epoch": 8.474110315102802,
	"grad_norm": 0.3425278961658478,
	"learning_rate": 0.0004986048951048951,
	"loss": 3.4101,
	"step": 29100
	},
	{
	"epoch": 8.488671442716523,
	"grad_norm": 0.3478877544403076,
	"learning_rate": 0.0004984300699300699,
	"loss": 3.4145,
	"step": 29150
	},
	{
	"epoch": 8.503232570330246,
	"grad_norm": 0.35354796051979065,
	"learning_rate": 0.0004982552447552448,
	"loss": 3.4072,
	"step": 29200
	},
	{
	"epoch": 8.517793697943969,
	"grad_norm": 0.32307496666908264,
	"learning_rate": 0.0004980804195804195,
	"loss": 3.4305,
	"step": 29250
	},
	{
	"epoch": 8.532354825557691,
	"grad_norm": 0.3157086670398712,
	"learning_rate": 0.0004979055944055944,
	"loss": 3.4064,
	"step": 29300
	},
	{
	"epoch": 8.546915953171414,
	"grad_norm": 0.3342621326446533,
	"learning_rate": 0.0004977307692307692,
	"loss": 3.3926,
	"step": 29350
	},
	{
	"epoch": 8.561477080785137,
	"grad_norm": 0.31849896907806396,
	"learning_rate": 0.000497555944055944,
	"loss": 3.4163,
	"step": 29400
	},
	{
	"epoch": 8.576038208398858,
	"grad_norm": 0.31333833932876587,
	"learning_rate": 0.0004973811188811188,
	"loss": 3.4039,
	"step": 29450
	},
	{
	"epoch": 8.59059933601258,
	"grad_norm": 0.3372572660446167,
	"learning_rate": 0.0004972062937062937,
	"loss": 3.4262,
	"step": 29500
	},
	{
	"epoch": 8.605160463626303,
	"grad_norm": 0.3162132799625397,
	"learning_rate": 0.0004970314685314685,
	"loss": 3.4172,
	"step": 29550
	},
	{
	"epoch": 8.619721591240026,
	"grad_norm": 0.3454541862010956,
	"learning_rate": 0.0004968566433566433,
	"loss": 3.4144,
	"step": 29600
	},
	{
	"epoch": 8.634282718853749,
	"grad_norm": 0.3138660192489624,
	"learning_rate": 0.0004966818181818181,
	"loss": 3.4081,
	"step": 29650
	},
	{
	"epoch": 8.64884384646747,
	"grad_norm": 0.3220912516117096,
	"learning_rate": 0.000496506993006993,
	"loss": 3.417,
	"step": 29700
	},
	{
	"epoch": 8.663404974081192,
	"grad_norm": 0.32789018750190735,
	"learning_rate": 0.0004963321678321678,
	"loss": 3.4131,
	"step": 29750
	},
	{
	"epoch": 8.677966101694915,
	"grad_norm": 0.3420283794403076,
	"learning_rate": 0.0004961573426573426,
	"loss": 3.4202,
	"step": 29800
	},
	{
	"epoch": 8.692527229308638,
	"grad_norm": 0.35813525319099426,
	"learning_rate": 0.0004959825174825175,
	"loss": 3.4203,
	"step": 29850
	},
	{
	"epoch": 8.70708835692236,
	"grad_norm": 0.33372020721435547,
	"learning_rate": 0.0004958076923076923,
	"loss": 3.4255,
	"step": 29900
	},
	{
	"epoch": 8.721649484536082,
	"grad_norm": 0.3299264907836914,
	"learning_rate": 0.0004956328671328671,
	"loss": 3.4189,
	"step": 29950
	},
	{
	"epoch": 8.736210612149804,
	"grad_norm": 0.34100714325904846,
	"learning_rate": 0.0004954580419580419,
	"loss": 3.4294,
	"step": 30000
	},
	{
	"epoch": 8.736210612149804,
	"eval_accuracy": 0.367117809253729,
	"eval_loss": 3.57382869720459,
	"eval_runtime": 181.1298,
	"eval_samples_per_second": 91.901,
	"eval_steps_per_second": 5.747,
	"step": 30000
	},
	{
	"epoch": 8.750771739763527,
	"grad_norm": 0.32569196820259094,
	"learning_rate": 0.0004952832167832167,
	"loss": 3.4342,
	"step": 30050
	},
	{
	"epoch": 8.76533286737725,
	"grad_norm": 0.3259648084640503,
	"learning_rate": 0.0004951083916083915,
	"loss": 3.4277,
	"step": 30100
	},
	{
	"epoch": 8.779893994990973,
	"grad_norm": 0.3290475904941559,
	"learning_rate": 0.0004949335664335664,
	"loss": 3.422,
	"step": 30150
	},
	{
	"epoch": 8.794455122604695,
	"grad_norm": 0.3241061270236969,
	"learning_rate": 0.0004947587412587412,
	"loss": 3.44,
	"step": 30200
	},
	{
	"epoch": 8.809016250218416,
	"grad_norm": 0.3573022782802582,
	"learning_rate": 0.000494583916083916,
	"loss": 3.4274,
	"step": 30250
	},
	{
	"epoch": 8.82357737783214,
	"grad_norm": 0.341971218585968,
	"learning_rate": 0.0004944090909090908,
	"loss": 3.4207,
	"step": 30300
	},
	{
	"epoch": 8.838138505445862,
	"grad_norm": 0.3399566113948822,
	"learning_rate": 0.0004942342657342657,
	"loss": 3.4246,
	"step": 30350
	},
	{
	"epoch": 8.852699633059585,
	"grad_norm": 0.3449283540248871,
	"learning_rate": 0.0004940594405594405,
	"loss": 3.4276,
	"step": 30400
	},
	{
	"epoch": 8.867260760673307,
	"grad_norm": 0.3288925886154175,
	"learning_rate": 0.0004938846153846153,
	"loss": 3.4198,
	"step": 30450
	},
	{
	"epoch": 8.881821888287028,
	"grad_norm": 0.36345532536506653,
	"learning_rate": 0.0004937097902097901,
	"loss": 3.4235,
	"step": 30500
	},
	{
	"epoch": 8.896383015900751,
	"grad_norm": 0.34723007678985596,
	"learning_rate": 0.000493534965034965,
	"loss": 3.4248,
	"step": 30550
	},
	{
	"epoch": 8.910944143514474,
	"grad_norm": 0.33478838205337524,
	"learning_rate": 0.0004933601398601398,
	"loss": 3.4302,
	"step": 30600
	},
	{
	"epoch": 8.925505271128197,
	"grad_norm": 0.35558992624282837,
	"learning_rate": 0.0004931853146853146,
	"loss": 3.4245,
	"step": 30650
	},
	{
	"epoch": 8.94006639874192,
	"grad_norm": 0.3179035484790802,
	"learning_rate": 0.0004930104895104895,
	"loss": 3.4157,
	"step": 30700
	},
	{
	"epoch": 8.95462752635564,
	"grad_norm": 0.32329732179641724,
	"learning_rate": 0.0004928356643356642,
	"loss": 3.4231,
	"step": 30750
	},
	{
	"epoch": 8.969188653969363,
	"grad_norm": 0.3081290125846863,
	"learning_rate": 0.0004926608391608391,
	"loss": 3.4235,
	"step": 30800
	},
	{
	"epoch": 8.983749781583086,
	"grad_norm": 0.3562612533569336,
	"learning_rate": 0.0004924860139860139,
	"loss": 3.4373,
	"step": 30850
	},
	{
	"epoch": 8.998310909196809,
	"grad_norm": 0.3363591432571411,
	"learning_rate": 0.0004923111888111887,
	"loss": 3.4291,
	"step": 30900
	},
	{
	"epoch": 9.012813792300076,
	"grad_norm": 0.33998963236808777,
	"learning_rate": 0.0004921363636363635,
	"loss": 3.333,
	"step": 30950
	},
	{
	"epoch": 9.027374919913798,
	"grad_norm": 0.32185572385787964,
	"learning_rate": 0.0004919615384615384,
	"loss": 3.3145,
	"step": 31000
	},
	{
	"epoch": 9.027374919913798,
	"eval_accuracy": 0.3672698177050697,
	"eval_loss": 3.5787909030914307,
	"eval_runtime": 181.1954,
	"eval_samples_per_second": 91.868,
	"eval_steps_per_second": 5.745,
	"step": 31000
	},
	{
	"epoch": 9.041936047527521,
	"grad_norm": 0.33225589990615845,
	"learning_rate": 0.0004917867132867132,
	"loss": 3.3119,
	"step": 31050
	},
	{
	"epoch": 9.056497175141242,
	"grad_norm": 0.34493061900138855,
	"learning_rate": 0.000491611888111888,
	"loss": 3.3234,
	"step": 31100
	},
	{
	"epoch": 9.071058302754965,
	"grad_norm": 0.330806165933609,
	"learning_rate": 0.0004914370629370628,
	"loss": 3.339,
	"step": 31150
	},
	{
	"epoch": 9.085619430368688,
	"grad_norm": 0.3284892737865448,
	"learning_rate": 0.0004912622377622378,
	"loss": 3.3447,
	"step": 31200
	},
	{
	"epoch": 9.10018055798241,
	"grad_norm": 0.3395969271659851,
	"learning_rate": 0.0004910874125874126,
	"loss": 3.3239,
	"step": 31250
	},
	{
	"epoch": 9.114741685596133,
	"grad_norm": 0.3392273783683777,
	"learning_rate": 0.0004909125874125874,
	"loss": 3.3447,
	"step": 31300
	},
	{
	"epoch": 9.129302813209854,
	"grad_norm": 0.33892425894737244,
	"learning_rate": 0.0004907377622377623,
	"loss": 3.347,
	"step": 31350
	},
	{
	"epoch": 9.143863940823577,
	"grad_norm": 0.3378540277481079,
	"learning_rate": 0.0004905629370629371,
	"loss": 3.3475,
	"step": 31400
	},
	{
	"epoch": 9.1584250684373,
	"grad_norm": 0.3581297993659973,
	"learning_rate": 0.0004903881118881119,
	"loss": 3.3494,
	"step": 31450
	},
	{
	"epoch": 9.172986196051022,
	"grad_norm": 0.34648507833480835,
	"learning_rate": 0.0004902132867132867,
	"loss": 3.3472,
	"step": 31500
	},
	{
	"epoch": 9.187547323664745,
	"grad_norm": 0.32370853424072266,
	"learning_rate": 0.0004900384615384615,
	"loss": 3.3487,
	"step": 31550
	},
	{
	"epoch": 9.202108451278466,
	"grad_norm": 0.3414316475391388,
	"learning_rate": 0.0004898636363636363,
	"loss": 3.3649,
	"step": 31600
	},
	{
	"epoch": 9.216669578892189,
	"grad_norm": 0.3349761664867401,
	"learning_rate": 0.0004896888111888112,
	"loss": 3.374,
	"step": 31650
	},
	{
	"epoch": 9.231230706505912,
	"grad_norm": 0.33960890769958496,
	"learning_rate": 0.000489513986013986,
	"loss": 3.3574,
	"step": 31700
	},
	{
	"epoch": 9.245791834119634,
	"grad_norm": 0.3169540762901306,
	"learning_rate": 0.0004893391608391608,
	"loss": 3.3552,
	"step": 31750
	},
	{
	"epoch": 9.260352961733357,
	"grad_norm": 0.3403364419937134,
	"learning_rate": 0.0004891643356643356,
	"loss": 3.3565,
	"step": 31800
	},
	{
	"epoch": 9.27491408934708,
	"grad_norm": 0.32378724217414856,
	"learning_rate": 0.0004889895104895105,
	"loss": 3.3724,
	"step": 31850
	},
	{
	"epoch": 9.2894752169608,
	"grad_norm": 0.32773780822753906,
	"learning_rate": 0.0004888146853146853,
	"loss": 3.3674,
	"step": 31900
	},
	{
	"epoch": 9.304036344574524,
	"grad_norm": 0.3442809581756592,
	"learning_rate": 0.0004886398601398601,
	"loss": 3.3699,
	"step": 31950
	},
	{
	"epoch": 9.318597472188246,
	"grad_norm": 0.35078513622283936,
	"learning_rate": 0.000488465034965035,
	"loss": 3.3916,
	"step": 32000
	},
	{
	"epoch": 9.318597472188246,
	"eval_accuracy": 0.3675079995476191,
	"eval_loss": 3.576542854309082,
	"eval_runtime": 181.1266,
	"eval_samples_per_second": 91.903,
	"eval_steps_per_second": 5.747,
	"step": 32000
	},
	{
	"epoch": 9.333158599801969,
	"grad_norm": 0.3307846188545227,
	"learning_rate": 0.0004882902097902098,
	"loss": 3.3732,
	"step": 32050
	},
	{
	"epoch": 9.347719727415692,
	"grad_norm": 0.33339476585388184,
	"learning_rate": 0.0004881153846153846,
	"loss": 3.3788,
	"step": 32100
	},
	{
	"epoch": 9.362280855029413,
	"grad_norm": 0.3615858852863312,
	"learning_rate": 0.0004879405594405594,
	"loss": 3.3832,
	"step": 32150
	},
	{
	"epoch": 9.376841982643136,
	"grad_norm": 0.3240891993045807,
	"learning_rate": 0.00048776573426573424,
	"loss": 3.3818,
	"step": 32200
	},
	{
	"epoch": 9.391403110256858,
	"grad_norm": 0.3376239538192749,
	"learning_rate": 0.00048759090909090904,
	"loss": 3.3769,
	"step": 32250
	},
	{
	"epoch": 9.405964237870581,
	"grad_norm": 0.33899468183517456,
	"learning_rate": 0.0004874160839160839,
	"loss": 3.3806,
	"step": 32300
	},
	{
	"epoch": 9.420525365484304,
	"grad_norm": 0.3659190237522125,
	"learning_rate": 0.0004872412587412587,
	"loss": 3.3799,
	"step": 32350
	},
	{
	"epoch": 9.435086493098025,
	"grad_norm": 0.32162418961524963,
	"learning_rate": 0.00048706643356643354,
	"loss": 3.3742,
	"step": 32400
	},
	{
	"epoch": 9.449647620711747,
	"grad_norm": 0.3324882686138153,
	"learning_rate": 0.00048689160839160834,
	"loss": 3.3826,
	"step": 32450
	},
	{
	"epoch": 9.46420874832547,
	"grad_norm": 0.36081743240356445,
	"learning_rate": 0.0004867167832167832,
	"loss": 3.3747,
	"step": 32500
	},
	{
	"epoch": 9.478769875939193,
	"grad_norm": 0.3334961533546448,
	"learning_rate": 0.00048654195804195794,
	"loss": 3.3889,
	"step": 32550
	},
	{
	"epoch": 9.493331003552916,
	"grad_norm": 0.34522441029548645,
	"learning_rate": 0.00048636713286713285,
	"loss": 3.3826,
	"step": 32600
	},
	{
	"epoch": 9.507892131166638,
	"grad_norm": 0.32337555289268494,
	"learning_rate": 0.0004861923076923077,
	"loss": 3.3825,
	"step": 32650
	},
	{
	"epoch": 9.52245325878036,
	"grad_norm": 0.34286314249038696,
	"learning_rate": 0.00048601748251748245,
	"loss": 3.3901,
	"step": 32700
	},
	{
	"epoch": 9.537014386394082,
	"grad_norm": 0.35533496737480164,
	"learning_rate": 0.0004858426573426573,
	"loss": 3.3923,
	"step": 32750
	},
	{
	"epoch": 9.551575514007805,
	"grad_norm": 0.3230282962322235,
	"learning_rate": 0.0004856678321678321,
	"loss": 3.3914,
	"step": 32800
	},
	{
	"epoch": 9.566136641621528,
	"grad_norm": 0.35662367939949036,
	"learning_rate": 0.00048549300699300696,
	"loss": 3.3924,
	"step": 32850
	},
	{
	"epoch": 9.58069776923525,
	"grad_norm": 0.3356196880340576,
	"learning_rate": 0.00048531818181818176,
	"loss": 3.3961,
	"step": 32900
	},
	{
	"epoch": 9.595258896848971,
	"grad_norm": 0.34684255719184875,
	"learning_rate": 0.0004851433566433566,
	"loss": 3.3887,
	"step": 32950
	},
	{
	"epoch": 9.609820024462694,
	"grad_norm": 0.3561384081840515,
	"learning_rate": 0.0004849685314685314,
	"loss": 3.3941,
	"step": 33000
	},
	{
	"epoch": 9.609820024462694,
	"eval_accuracy": 0.3682031472450496,
	"eval_loss": 3.5684826374053955,
	"eval_runtime": 181.122,
	"eval_samples_per_second": 91.905,
	"eval_steps_per_second": 5.748,
	"step": 33000
	},
	{
	"epoch": 9.624381152076417,
	"grad_norm": 0.3471704125404358,
	"learning_rate": 0.00048479370629370627,
	"loss": 3.394,
	"step": 33050
	},
	{
	"epoch": 9.63894227969014,
	"grad_norm": 0.3371427059173584,
	"learning_rate": 0.00048461888111888106,
	"loss": 3.3987,
	"step": 33100
	},
	{
	"epoch": 9.653503407303862,
	"grad_norm": 0.3287416398525238,
	"learning_rate": 0.0004844440559440559,
	"loss": 3.4021,
	"step": 33150
	},
	{
	"epoch": 9.668064534917583,
	"grad_norm": 0.3420673608779907,
	"learning_rate": 0.0004842692307692307,
	"loss": 3.4041,
	"step": 33200
	},
	{
	"epoch": 9.682625662531306,
	"grad_norm": 0.36185222864151,
	"learning_rate": 0.00048409440559440557,
	"loss": 3.4019,
	"step": 33250
	},
	{
	"epoch": 9.697186790145029,
	"grad_norm": 0.336234450340271,
	"learning_rate": 0.0004839195804195803,
	"loss": 3.3962,
	"step": 33300
	},
	{
	"epoch": 9.711747917758752,
	"grad_norm": 0.30870339274406433,
	"learning_rate": 0.0004837447552447552,
	"loss": 3.3934,
	"step": 33350
	},
	{
	"epoch": 9.726309045372474,
	"grad_norm": 0.3311539888381958,
	"learning_rate": 0.0004835699300699301,
	"loss": 3.3974,
	"step": 33400
	},
	{
	"epoch": 9.740870172986195,
	"grad_norm": 0.32065773010253906,
	"learning_rate": 0.0004833951048951048,
	"loss": 3.4009,
	"step": 33450
	},
	{
	"epoch": 9.755431300599918,
	"grad_norm": 0.31630703806877136,
	"learning_rate": 0.0004832202797202797,
	"loss": 3.3958,
	"step": 33500
	},
	{
	"epoch": 9.76999242821364,
	"grad_norm": 0.34896165132522583,
	"learning_rate": 0.0004830454545454545,
	"loss": 3.3964,
	"step": 33550
	},
	{
	"epoch": 9.784553555827364,
	"grad_norm": 0.350842148065567,
	"learning_rate": 0.00048287062937062933,
	"loss": 3.3972,
	"step": 33600
	},
	{
	"epoch": 9.799114683441086,
	"grad_norm": 0.33389005064964294,
	"learning_rate": 0.00048269580419580413,
	"loss": 3.3946,
	"step": 33650
	},
	{
	"epoch": 9.813675811054807,
	"grad_norm": 0.3580504059791565,
	"learning_rate": 0.000482520979020979,
	"loss": 3.3936,
	"step": 33700
	},
	{
	"epoch": 9.82823693866853,
	"grad_norm": 0.3484356701374054,
	"learning_rate": 0.0004823461538461538,
	"loss": 3.4076,
	"step": 33750
	},
	{
	"epoch": 9.842798066282253,
	"grad_norm": 0.32637032866477966,
	"learning_rate": 0.00048217132867132864,
	"loss": 3.4109,
	"step": 33800
	},
	{
	"epoch": 9.857359193895975,
	"grad_norm": 0.3298273980617523,
	"learning_rate": 0.00048199650349650344,
	"loss": 3.3958,
	"step": 33850
	},
	{
	"epoch": 9.871920321509698,
	"grad_norm": 0.33490678668022156,
	"learning_rate": 0.0004818216783216783,
	"loss": 3.4054,
	"step": 33900
	},
	{
	"epoch": 9.88648144912342,
	"grad_norm": 0.33199331164360046,
	"learning_rate": 0.0004816468531468531,
	"loss": 3.3937,
	"step": 33950
	},
	{
	"epoch": 9.901042576737142,
	"grad_norm": 0.3390347957611084,
	"learning_rate": 0.00048147202797202795,
	"loss": 3.3895,
	"step": 34000
	},
	{
	"epoch": 9.901042576737142,
	"eval_accuracy": 0.36896742175561886,
	"eval_loss": 3.5596354007720947,
	"eval_runtime": 181.1726,
	"eval_samples_per_second": 91.879,
	"eval_steps_per_second": 5.746,
	"step": 34000
	},
	{
	"epoch": 9.915603704350865,
	"grad_norm": 0.33487066626548767,
	"learning_rate": 0.0004812972027972028,
	"loss": 3.3921,
	"step": 34050
	},
	{
	"epoch": 9.930164831964587,
	"grad_norm": 0.3349563479423523,
	"learning_rate": 0.0004811223776223776,
	"loss": 3.4017,
	"step": 34100
	},
	{
	"epoch": 9.94472595957831,
	"grad_norm": 0.33379611372947693,
	"learning_rate": 0.00048094755244755245,
	"loss": 3.4057,
	"step": 34150
	},
	{
	"epoch": 9.959287087192033,
	"grad_norm": 0.30914467573165894,
	"learning_rate": 0.0004807727272727272,
	"loss": 3.4112,
	"step": 34200
	},
	{
	"epoch": 9.973848214805754,
	"grad_norm": 0.3371839225292206,
	"learning_rate": 0.00048059790209790205,
	"loss": 3.4083,
	"step": 34250
	},
	{
	"epoch": 9.988409342419477,
	"grad_norm": 0.33769628405570984,
	"learning_rate": 0.00048042307692307685,
	"loss": 3.4224,
	"step": 34300
	},
	{
	"epoch": 10.002912225522744,
	"grad_norm": 0.33109721541404724,
	"learning_rate": 0.0004802482517482517,
	"loss": 3.3967,
	"step": 34350
	},
	{
	"epoch": 10.017473353136467,
	"grad_norm": 0.344075083732605,
	"learning_rate": 0.0004800734265734265,
	"loss": 3.3015,
	"step": 34400
	},
	{
	"epoch": 10.03203448075019,
	"grad_norm": 0.3365168273448944,
	"learning_rate": 0.00047989860139860136,
	"loss": 3.295,
	"step": 34450
	},
	{
	"epoch": 10.046595608363912,
	"grad_norm": 0.336918443441391,
	"learning_rate": 0.00047972377622377616,
	"loss": 3.3091,
	"step": 34500
	},
	{
	"epoch": 10.061156735977635,
	"grad_norm": 0.3636518716812134,
	"learning_rate": 0.000479548951048951,
	"loss": 3.3087,
	"step": 34550
	},
	{
	"epoch": 10.075717863591356,
	"grad_norm": 0.35915517807006836,
	"learning_rate": 0.0004793741258741258,
	"loss": 3.2959,
	"step": 34600
	},
	{
	"epoch": 10.090278991205079,
	"grad_norm": 0.35610800981521606,
	"learning_rate": 0.00047919930069930067,
	"loss": 3.3225,
	"step": 34650
	},
	{
	"epoch": 10.104840118818801,
	"grad_norm": 0.34759587049484253,
	"learning_rate": 0.0004790244755244755,
	"loss": 3.3141,
	"step": 34700
	},
	{
	"epoch": 10.119401246432524,
	"grad_norm": 0.3453555405139923,
	"learning_rate": 0.0004788496503496503,
	"loss": 3.3289,
	"step": 34750
	},
	{
	"epoch": 10.133962374046247,
	"grad_norm": 0.3237037658691406,
	"learning_rate": 0.0004786748251748252,
	"loss": 3.3033,
	"step": 34800
	},
	{
	"epoch": 10.148523501659968,
	"grad_norm": 0.3217065632343292,
	"learning_rate": 0.0004785,
	"loss": 3.3222,
	"step": 34850
	},
	{
	"epoch": 10.16308462927369,
	"grad_norm": 0.328022837638855,
	"learning_rate": 0.00047832517482517483,
	"loss": 3.3252,
	"step": 34900
	},
	{
	"epoch": 10.177645756887413,
	"grad_norm": 0.3419390916824341,
	"learning_rate": 0.0004781503496503496,
	"loss": 3.3357,
	"step": 34950
	},
	{
	"epoch": 10.192206884501136,
	"grad_norm": 0.35278406739234924,
	"learning_rate": 0.00047797552447552443,
	"loss": 3.3348,
	"step": 35000
	},
	{
	"epoch": 10.192206884501136,
	"eval_accuracy": 0.3681650569602589,
	"eval_loss": 3.5723941326141357,
	"eval_runtime": 204.5444,
	"eval_samples_per_second": 81.381,
	"eval_steps_per_second": 5.089,
	"step": 35000
	},
	{
	"epoch": 10.206768012114859,
	"grad_norm": 0.3506302833557129,
	"learning_rate": 0.00047780069930069923,
	"loss": 3.3334,
	"step": 35050
	},
	{
	"epoch": 10.221329139728581,
	"grad_norm": 0.3560106158256531,
	"learning_rate": 0.0004776258741258741,
	"loss": 3.328,
	"step": 35100
	},
	{
	"epoch": 10.235890267342302,
	"grad_norm": 0.3484821319580078,
	"learning_rate": 0.0004774510489510489,
	"loss": 3.3401,
	"step": 35150
	},
	{
	"epoch": 10.250451394956025,
	"grad_norm": 0.3474741280078888,
	"learning_rate": 0.00047727622377622374,
	"loss": 3.3448,
	"step": 35200
	},
	{
	"epoch": 10.265012522569748,
	"grad_norm": 0.3430100083351135,
	"learning_rate": 0.00047710139860139854,
	"loss": 3.3393,
	"step": 35250
	},
	{
	"epoch": 10.27957365018347,
	"grad_norm": 0.3785252571105957,
	"learning_rate": 0.0004769265734265734,
	"loss": 3.3382,
	"step": 35300
	},
	{
	"epoch": 10.294134777797193,
	"grad_norm": 0.3831712007522583,
	"learning_rate": 0.0004767517482517482,
	"loss": 3.3491,
	"step": 35350
	},
	{
	"epoch": 10.308695905410914,
	"grad_norm": 0.3325560390949249,
	"learning_rate": 0.00047657692307692304,
	"loss": 3.3533,
	"step": 35400
	},
	{
	"epoch": 10.323257033024637,
	"grad_norm": 0.3680790066719055,
	"learning_rate": 0.0004764020979020979,
	"loss": 3.3613,
	"step": 35450
	},
	{
	"epoch": 10.33781816063836,
	"grad_norm": 0.34670522809028625,
	"learning_rate": 0.0004762272727272727,
	"loss": 3.3505,
	"step": 35500
	},
	{
	"epoch": 10.352379288252083,
	"grad_norm": 0.34935176372528076,
	"learning_rate": 0.00047605244755244755,
	"loss": 3.3521,
	"step": 35550
	},
	{
	"epoch": 10.366940415865805,
	"grad_norm": 0.35227638483047485,
	"learning_rate": 0.00047587762237762235,
	"loss": 3.3542,
	"step": 35600
	},
	{
	"epoch": 10.381501543479526,
	"grad_norm": 0.3471412658691406,
	"learning_rate": 0.0004757027972027972,
	"loss": 3.3576,
	"step": 35650
	},
	{
	"epoch": 10.396062671093249,
	"grad_norm": 0.3685144782066345,
	"learning_rate": 0.00047552797202797195,
	"loss": 3.355,
	"step": 35700
	},
	{
	"epoch": 10.410623798706972,
	"grad_norm": 0.3381234109401703,
	"learning_rate": 0.0004753531468531468,
	"loss": 3.3566,
	"step": 35750
	},
	{
	"epoch": 10.425184926320695,
	"grad_norm": 0.3421459197998047,
	"learning_rate": 0.0004751783216783216,
	"loss": 3.3541,
	"step": 35800
	},
	{
	"epoch": 10.439746053934417,
	"grad_norm": 0.344374418258667,
	"learning_rate": 0.00047500349650349646,
	"loss": 3.3754,
	"step": 35850
	},
	{
	"epoch": 10.454307181548138,
	"grad_norm": 0.3318965435028076,
	"learning_rate": 0.00047482867132867126,
	"loss": 3.3728,
	"step": 35900
	},
	{
	"epoch": 10.468868309161861,
	"grad_norm": 0.3651151657104492,
	"learning_rate": 0.0004746538461538461,
	"loss": 3.3506,
	"step": 35950
	},
	{
	"epoch": 10.483429436775584,
	"grad_norm": 0.407438725233078,
	"learning_rate": 0.0004744790209790209,
	"loss": 3.3676,
	"step": 36000
	},
	{
	"epoch": 10.483429436775584,
	"eval_accuracy": 0.3688570304672902,
	"eval_loss": 3.5666871070861816,
	"eval_runtime": 181.1422,
	"eval_samples_per_second": 91.895,
	"eval_steps_per_second": 5.747,
	"step": 36000
	},
	{
	"epoch": 10.497990564389307,
	"grad_norm": 0.3370654881000519,
	"learning_rate": 0.00047430419580419576,
	"loss": 3.3636,
	"step": 36050
	},
	{
	"epoch": 10.51255169200303,
	"grad_norm": 0.3517342805862427,
	"learning_rate": 0.0004741293706293706,
	"loss": 3.3626,
	"step": 36100
	},
	{
	"epoch": 10.52711281961675,
	"grad_norm": 0.3267398476600647,
	"learning_rate": 0.0004739545454545454,
	"loss": 3.3724,
	"step": 36150
	},
	{
	"epoch": 10.541673947230473,
	"grad_norm": 0.3496518135070801,
	"learning_rate": 0.00047377972027972027,
	"loss": 3.3583,
	"step": 36200
	},
	{
	"epoch": 10.556235074844196,
	"grad_norm": 0.3922159671783447,
	"learning_rate": 0.00047360489510489507,
	"loss": 3.3742,
	"step": 36250
	},
	{
	"epoch": 10.570796202457919,
	"grad_norm": 0.32678449153900146,
	"learning_rate": 0.0004734300699300699,
	"loss": 3.3647,
	"step": 36300
	},
	{
	"epoch": 10.585357330071641,
	"grad_norm": 0.3430236577987671,
	"learning_rate": 0.0004732552447552447,
	"loss": 3.3716,
	"step": 36350
	},
	{
	"epoch": 10.599918457685362,
	"grad_norm": 0.3338622450828552,
	"learning_rate": 0.0004730804195804196,
	"loss": 3.3735,
	"step": 36400
	},
	{
	"epoch": 10.614479585299085,
	"grad_norm": 0.37562769651412964,
	"learning_rate": 0.0004729055944055943,
	"loss": 3.3813,
	"step": 36450
	},
	{
	"epoch": 10.629040712912808,
	"grad_norm": 0.32546374201774597,
	"learning_rate": 0.0004727307692307692,
	"loss": 3.3721,
	"step": 36500
	},
	{
	"epoch": 10.64360184052653,
	"grad_norm": 0.34546393156051636,
	"learning_rate": 0.000472555944055944,
	"loss": 3.3797,
	"step": 36550
	},
	{
	"epoch": 10.658162968140253,
	"grad_norm": 0.3651503026485443,
	"learning_rate": 0.00047238111888111883,
	"loss": 3.3764,
	"step": 36600
	},
	{
	"epoch": 10.672724095753976,
	"grad_norm": 0.3390817642211914,
	"learning_rate": 0.00047220629370629363,
	"loss": 3.3635,
	"step": 36650
	},
	{
	"epoch": 10.687285223367697,
	"grad_norm": 0.35961946845054626,
	"learning_rate": 0.0004720314685314685,
	"loss": 3.379,
	"step": 36700
	},
	{
	"epoch": 10.70184635098142,
	"grad_norm": 0.3362646698951721,
	"learning_rate": 0.0004718566433566433,
	"loss": 3.3717,
	"step": 36750
	},
	{
	"epoch": 10.716407478595142,
	"grad_norm": 0.34462296962738037,
	"learning_rate": 0.00047168181818181814,
	"loss": 3.3879,
	"step": 36800
	},
	{
	"epoch": 10.730968606208865,
	"grad_norm": 0.35153433680534363,
	"learning_rate": 0.000471506993006993,
	"loss": 3.3792,
	"step": 36850
	},
	{
	"epoch": 10.745529733822588,
	"grad_norm": 0.3449765741825104,
	"learning_rate": 0.0004713321678321678,
	"loss": 3.3798,
	"step": 36900
	},
	{
	"epoch": 10.760090861436309,
	"grad_norm": 0.3359948992729187,
	"learning_rate": 0.00047115734265734265,
	"loss": 3.3809,
	"step": 36950
	},
	{
	"epoch": 10.774651989050032,
	"grad_norm": 0.35020774602890015,
	"learning_rate": 0.00047098251748251745,
	"loss": 3.3776,
	"step": 37000
	},
	{
	"epoch": 10.774651989050032,
	"eval_accuracy": 0.369682319971089,
	"eval_loss": 3.555363416671753,
	"eval_runtime": 181.073,
	"eval_samples_per_second": 91.93,
	"eval_steps_per_second": 5.749,
	"step": 37000
	},
	{
	"epoch": 10.789213116663754,
	"grad_norm": 0.33577054738998413,
	"learning_rate": 0.0004708076923076923,
	"loss": 3.3843,
	"step": 37050
	},
	{
	"epoch": 10.803774244277477,
	"grad_norm": 0.3409827649593353,
	"learning_rate": 0.0004706328671328671,
	"loss": 3.3745,
	"step": 37100
	},
	{
	"epoch": 10.8183353718912,
	"grad_norm": 0.3596167266368866,
	"learning_rate": 0.00047045804195804195,
	"loss": 3.3734,
	"step": 37150
	},
	{
	"epoch": 10.83289649950492,
	"grad_norm": 0.3197990953922272,
	"learning_rate": 0.0004702832167832167,
	"loss": 3.383,
	"step": 37200
	},
	{
	"epoch": 10.847457627118644,
	"grad_norm": 0.31918731331825256,
	"learning_rate": 0.00047010839160839155,
	"loss": 3.3748,
	"step": 37250
	},
	{
	"epoch": 10.862018754732366,
	"grad_norm": 0.3445984721183777,
	"learning_rate": 0.00046993356643356635,
	"loss": 3.3725,
	"step": 37300
	},
	{
	"epoch": 10.876579882346089,
	"grad_norm": 0.37393128871917725,
	"learning_rate": 0.0004697587412587412,
	"loss": 3.3707,
	"step": 37350
	},
	{
	"epoch": 10.891141009959812,
	"grad_norm": 0.34462884068489075,
	"learning_rate": 0.000469583916083916,
	"loss": 3.3879,
	"step": 37400
	},
	{
	"epoch": 10.905702137573535,
	"grad_norm": 0.3394433259963989,
	"learning_rate": 0.00046940909090909086,
	"loss": 3.391,
	"step": 37450
	},
	{
	"epoch": 10.920263265187256,
	"grad_norm": 0.34529218077659607,
	"learning_rate": 0.0004692342657342657,
	"loss": 3.3895,
	"step": 37500
	},
	{
	"epoch": 10.934824392800978,
	"grad_norm": 0.3486793637275696,
	"learning_rate": 0.0004690594405594405,
	"loss": 3.392,
	"step": 37550
	},
	{
	"epoch": 10.949385520414701,
	"grad_norm": 0.33855584263801575,
	"learning_rate": 0.00046888461538461537,
	"loss": 3.3722,
	"step": 37600
	},
	{
	"epoch": 10.963946648028424,
	"grad_norm": 0.3652046322822571,
	"learning_rate": 0.00046870979020979017,
	"loss": 3.3803,
	"step": 37650
	},
	{
	"epoch": 10.978507775642147,
	"grad_norm": 0.3586157262325287,
	"learning_rate": 0.000468534965034965,
	"loss": 3.3837,
	"step": 37700
	},
	{
	"epoch": 10.993068903255867,
	"grad_norm": 0.333840548992157,
	"learning_rate": 0.0004683601398601398,
	"loss": 3.3817,
	"step": 37750
	},
	{
	"epoch": 11.007571786359136,
	"grad_norm": 0.3377648890018463,
	"learning_rate": 0.0004681853146853147,
	"loss": 3.3336,
	"step": 37800
	},
	{
	"epoch": 11.022132913972857,
	"grad_norm": 0.335593581199646,
	"learning_rate": 0.0004680104895104895,
	"loss": 3.2756,
	"step": 37850
	},
	{
	"epoch": 11.03669404158658,
	"grad_norm": 0.35685721039772034,
	"learning_rate": 0.00046783566433566433,
	"loss": 3.2872,
	"step": 37900
	},
	{
	"epoch": 11.051255169200303,
	"grad_norm": 0.3342174291610718,
	"learning_rate": 0.0004676608391608391,
	"loss": 3.2909,
	"step": 37950
	},
	{
	"epoch": 11.065816296814026,
	"grad_norm": 0.33387836813926697,
	"learning_rate": 0.00046748601398601393,
	"loss": 3.2947,
	"step": 38000
	},
	{
	"epoch": 11.065816296814026,
	"eval_accuracy": 0.3693142314473861,
	"eval_loss": 3.567906618118286,
	"eval_runtime": 181.2168,
	"eval_samples_per_second": 91.857,
	"eval_steps_per_second": 5.744,
	"step": 38000
	},
	{
	"epoch": 11.080377424427748,
	"grad_norm": 0.35043972730636597,
	"learning_rate": 0.00046731118881118873,
	"loss": 3.2817,
	"step": 38050
	},
	{
	"epoch": 11.09493855204147,
	"grad_norm": 0.34657034277915955,
	"learning_rate": 0.0004671363636363636,
	"loss": 3.2913,
	"step": 38100
	},
	{
	"epoch": 11.109499679655192,
	"grad_norm": 0.3644031882286072,
	"learning_rate": 0.00046696153846153844,
	"loss": 3.3013,
	"step": 38150
	},
	{
	"epoch": 11.124060807268915,
	"grad_norm": 0.35239455103874207,
	"learning_rate": 0.00046678671328671324,
	"loss": 3.304,
	"step": 38200
	},
	{
	"epoch": 11.138621934882638,
	"grad_norm": 0.3717592656612396,
	"learning_rate": 0.0004666118881118881,
	"loss": 3.302,
	"step": 38250
	},
	{
	"epoch": 11.15318306249636,
	"grad_norm": 0.34851017594337463,
	"learning_rate": 0.0004664370629370629,
	"loss": 3.3065,
	"step": 38300
	},
	{
	"epoch": 11.167744190110081,
	"grad_norm": 0.35993218421936035,
	"learning_rate": 0.00046626223776223774,
	"loss": 3.3046,
	"step": 38350
	},
	{
	"epoch": 11.182305317723804,
	"grad_norm": 0.35800787806510925,
	"learning_rate": 0.00046608741258741254,
	"loss": 3.3082,
	"step": 38400
	},
	{
	"epoch": 11.196866445337527,
	"grad_norm": 0.3414912223815918,
	"learning_rate": 0.0004659125874125874,
	"loss": 3.2973,
	"step": 38450
	},
	{
	"epoch": 11.21142757295125,
	"grad_norm": 0.34826183319091797,
	"learning_rate": 0.0004657377622377622,
	"loss": 3.3153,
	"step": 38500
	},
	{
	"epoch": 11.225988700564972,
	"grad_norm": 0.3334352374076843,
	"learning_rate": 0.00046556293706293705,
	"loss": 3.3123,
	"step": 38550
	},
	{
	"epoch": 11.240549828178693,
	"grad_norm": 0.3609830439090729,
	"learning_rate": 0.00046538811188811185,
	"loss": 3.323,
	"step": 38600
	},
	{
	"epoch": 11.255110955792416,
	"grad_norm": 0.36535823345184326,
	"learning_rate": 0.0004652132867132867,
	"loss": 3.3181,
	"step": 38650
	},
	{
	"epoch": 11.269672083406139,
	"grad_norm": 0.35265401005744934,
	"learning_rate": 0.00046503846153846145,
	"loss": 3.3222,
	"step": 38700
	},
	{
	"epoch": 11.284233211019862,
	"grad_norm": 0.34238654375076294,
	"learning_rate": 0.0004648636363636363,
	"loss": 3.3289,
	"step": 38750
	},
	{
	"epoch": 11.298794338633584,
	"grad_norm": 0.38800933957099915,
	"learning_rate": 0.0004646888111888111,
	"loss": 3.3386,
	"step": 38800
	},
	{
	"epoch": 11.313355466247307,
	"grad_norm": 0.36785754561424255,
	"learning_rate": 0.00046451398601398596,
	"loss": 3.3245,
	"step": 38850
	},
	{
	"epoch": 11.327916593861028,
	"grad_norm": 0.34194216132164,
	"learning_rate": 0.0004643391608391608,
	"loss": 3.3234,
	"step": 38900
	},
	{
	"epoch": 11.34247772147475,
	"grad_norm": 0.3501145541667938,
	"learning_rate": 0.0004641643356643356,
	"loss": 3.3333,
	"step": 38950
	},
	{
	"epoch": 11.357038849088473,
	"grad_norm": 0.3359377384185791,
	"learning_rate": 0.00046398951048951046,
	"loss": 3.3428,
	"step": 39000
	},
	{
	"epoch": 11.357038849088473,
	"eval_accuracy": 0.3693486772913481,
	"eval_loss": 3.5647213459014893,
	"eval_runtime": 181.321,
	"eval_samples_per_second": 91.804,
	"eval_steps_per_second": 5.741,
	"step": 39000
	},
	{
	"epoch": 11.371599976702196,
	"grad_norm": 0.3317386507987976,
	"learning_rate": 0.00046381468531468526,
	"loss": 3.3287,
	"step": 39050
	},
	{
	"epoch": 11.386161104315919,
	"grad_norm": 0.35291844606399536,
	"learning_rate": 0.0004636398601398601,
	"loss": 3.3348,
	"step": 39100
	},
	{
	"epoch": 11.40072223192964,
	"grad_norm": 0.3461180627346039,
	"learning_rate": 0.0004634650349650349,
	"loss": 3.3244,
	"step": 39150
	},
	{
	"epoch": 11.415283359543363,
	"grad_norm": 0.3356523811817169,
	"learning_rate": 0.00046329020979020977,
	"loss": 3.3411,
	"step": 39200
	},
	{
	"epoch": 11.429844487157085,
	"grad_norm": 0.3385235369205475,
	"learning_rate": 0.00046311538461538457,
	"loss": 3.3413,
	"step": 39250
	},
	{
	"epoch": 11.444405614770808,
	"grad_norm": 0.34884148836135864,
	"learning_rate": 0.0004629405594405594,
	"loss": 3.3485,
	"step": 39300
	},
	{
	"epoch": 11.458966742384531,
	"grad_norm": 0.36972281336784363,
	"learning_rate": 0.0004627657342657342,
	"loss": 3.3496,
	"step": 39350
	},
	{
	"epoch": 11.473527869998252,
	"grad_norm": 0.3516969084739685,
	"learning_rate": 0.0004625909090909091,
	"loss": 3.3302,
	"step": 39400
	},
	{
	"epoch": 11.488088997611975,
	"grad_norm": 0.3294467329978943,
	"learning_rate": 0.0004624160839160838,
	"loss": 3.3499,
	"step": 39450
	},
	{
	"epoch": 11.502650125225697,
	"grad_norm": 0.3424534201622009,
	"learning_rate": 0.0004622412587412587,
	"loss": 3.3462,
	"step": 39500
	},
	{
	"epoch": 11.51721125283942,
	"grad_norm": 0.363540917634964,
	"learning_rate": 0.00046206643356643353,
	"loss": 3.3483,
	"step": 39550
	},
	{
	"epoch": 11.531772380453143,
	"grad_norm": 0.37824833393096924,
	"learning_rate": 0.00046189160839160833,
	"loss": 3.3442,
	"step": 39600
	},
	{
	"epoch": 11.546333508066864,
	"grad_norm": 0.34854546189308167,
	"learning_rate": 0.0004617167832167832,
	"loss": 3.3494,
	"step": 39650
	},
	{
	"epoch": 11.560894635680587,
	"grad_norm": 0.3524269461631775,
	"learning_rate": 0.000461541958041958,
	"loss": 3.3448,
	"step": 39700
	},
	{
	"epoch": 11.57545576329431,
	"grad_norm": 0.3473973870277405,
	"learning_rate": 0.00046136713286713284,
	"loss": 3.3549,
	"step": 39750
	},
	{
	"epoch": 11.590016890908032,
	"grad_norm": 0.35165148973464966,
	"learning_rate": 0.00046119230769230764,
	"loss": 3.3442,
	"step": 39800
	},
	{
	"epoch": 11.604578018521755,
	"grad_norm": 0.3505858778953552,
	"learning_rate": 0.0004610174825174825,
	"loss": 3.3533,
	"step": 39850
	},
	{
	"epoch": 11.619139146135478,
	"grad_norm": 0.3432624638080597,
	"learning_rate": 0.0004608426573426573,
	"loss": 3.3463,
	"step": 39900
	},
	{
	"epoch": 11.633700273749199,
	"grad_norm": 0.35243409872055054,
	"learning_rate": 0.00046066783216783215,
	"loss": 3.3491,
	"step": 39950
	},
	{
	"epoch": 11.648261401362921,
	"grad_norm": 0.32807716727256775,
	"learning_rate": 0.00046049300699300695,
	"loss": 3.3673,
	"step": 40000
	},
	{
	"epoch": 11.648261401362921,
	"eval_accuracy": 0.3696696232094921,
	"eval_loss": 3.55596661567688,
	"eval_runtime": 181.2437,
	"eval_samples_per_second": 91.843,
	"eval_steps_per_second": 5.744,
	"step": 40000
	},
	{
	"epoch": 11.662822528976644,
	"grad_norm": 0.3393252193927765,
	"learning_rate": 0.0004603181818181818,
	"loss": 3.3652,
	"step": 40050
	},
	{
	"epoch": 11.677383656590367,
	"grad_norm": 0.34770268201828003,
	"learning_rate": 0.0004601433566433566,
	"loss": 3.3548,
	"step": 40100
	},
	{
	"epoch": 11.69194478420409,
	"grad_norm": 0.35043734312057495,
	"learning_rate": 0.00045996853146853145,
	"loss": 3.3571,
	"step": 40150
	},
	{
	"epoch": 11.70650591181781,
	"grad_norm": 0.3447571098804474,
	"learning_rate": 0.0004597937062937062,
	"loss": 3.3577,
	"step": 40200
	},
	{
	"epoch": 11.721067039431533,
	"grad_norm": 0.35654211044311523,
	"learning_rate": 0.00045961888111888105,
	"loss": 3.36,
	"step": 40250
	},
	{
	"epoch": 11.735628167045256,
	"grad_norm": 0.36046501994132996,
	"learning_rate": 0.0004594440559440559,
	"loss": 3.3633,
	"step": 40300
	},
	{
	"epoch": 11.750189294658979,
	"grad_norm": 0.32962411642074585,
	"learning_rate": 0.0004592692307692307,
	"loss": 3.362,
	"step": 40350
	},
	{
	"epoch": 11.764750422272702,
	"grad_norm": 0.34335944056510925,
	"learning_rate": 0.00045909440559440556,
	"loss": 3.3376,
	"step": 40400
	},
	{
	"epoch": 11.779311549886422,
	"grad_norm": 0.3403267562389374,
	"learning_rate": 0.00045891958041958036,
	"loss": 3.3643,
	"step": 40450
	},
	{
	"epoch": 11.793872677500145,
	"grad_norm": 0.3420957326889038,
	"learning_rate": 0.0004587447552447552,
	"loss": 3.3683,
	"step": 40500
	},
	{
	"epoch": 11.808433805113868,
	"grad_norm": 0.3415950834751129,
	"learning_rate": 0.00045856993006993,
	"loss": 3.3641,
	"step": 40550
	},
	{
	"epoch": 11.82299493272759,
	"grad_norm": 0.3702256679534912,
	"learning_rate": 0.00045839510489510487,
	"loss": 3.3513,
	"step": 40600
	},
	{
	"epoch": 11.837556060341313,
	"grad_norm": 0.3508910536766052,
	"learning_rate": 0.00045822027972027967,
	"loss": 3.368,
	"step": 40650
	},
	{
	"epoch": 11.852117187955034,
	"grad_norm": 0.35359275341033936,
	"learning_rate": 0.0004580454545454545,
	"loss": 3.3677,
	"step": 40700
	},
	{
	"epoch": 11.866678315568757,
	"grad_norm": 0.33525702357292175,
	"learning_rate": 0.0004578706293706293,
	"loss": 3.3598,
	"step": 40750
	},
	{
	"epoch": 11.88123944318248,
	"grad_norm": 0.3661658763885498,
	"learning_rate": 0.0004576958041958042,
	"loss": 3.3576,
	"step": 40800
	},
	{
	"epoch": 11.895800570796203,
	"grad_norm": 0.35114672780036926,
	"learning_rate": 0.000457520979020979,
	"loss": 3.3659,
	"step": 40850
	},
	{
	"epoch": 11.910361698409925,
	"grad_norm": 0.3382083475589752,
	"learning_rate": 0.00045734615384615383,
	"loss": 3.3659,
	"step": 40900
	},
	{
	"epoch": 11.924922826023646,
	"grad_norm": 0.3518007695674896,
	"learning_rate": 0.0004571713286713287,
	"loss": 3.3552,
	"step": 40950
	},
	{
	"epoch": 11.93948395363737,
	"grad_norm": 0.3505655825138092,
	"learning_rate": 0.00045699650349650343,
	"loss": 3.3775,
	"step": 41000
	},
	{
	"epoch": 11.93948395363737,
	"eval_accuracy": 0.3705243033651356,
	"eval_loss": 3.5475268363952637,
	"eval_runtime": 181.3685,
	"eval_samples_per_second": 91.78,
	"eval_steps_per_second": 5.74,
	"step": 41000
	},
	{
	"epoch": 11.954045081251092,
	"grad_norm": 0.31989786028862,
	"learning_rate": 0.0004568216783216783,
	"loss": 3.371,
	"step": 41050
	},
	{
	"epoch": 11.968606208864815,
	"grad_norm": 0.3351122736930847,
	"learning_rate": 0.0004566468531468531,
	"loss": 3.3533,
	"step": 41100
	},
	{
	"epoch": 11.983167336478537,
	"grad_norm": 0.33592069149017334,
	"learning_rate": 0.00045647202797202794,
	"loss": 3.3761,
	"step": 41150
	},
	{
	"epoch": 11.99772846409226,
	"grad_norm": 0.3345586657524109,
	"learning_rate": 0.00045629720279720274,
	"loss": 3.3698,
	"step": 41200
	},
	{
	"epoch": 12.012231347195527,
	"grad_norm": 0.3332180380821228,
	"learning_rate": 0.0004561223776223776,
	"loss": 3.272,
	"step": 41250
	},
	{
	"epoch": 12.02679247480925,
	"grad_norm": 0.33513668179512024,
	"learning_rate": 0.0004559475524475524,
	"loss": 3.2583,
	"step": 41300
	},
	{
	"epoch": 12.041353602422971,
	"grad_norm": 0.3612571060657501,
	"learning_rate": 0.00045577272727272724,
	"loss": 3.264,
	"step": 41350
	},
	{
	"epoch": 12.055914730036694,
	"grad_norm": 0.3716042935848236,
	"learning_rate": 0.00045559790209790204,
	"loss": 3.2606,
	"step": 41400
	},
	{
	"epoch": 12.070475857650417,
	"grad_norm": 0.3391723036766052,
	"learning_rate": 0.0004554230769230769,
	"loss": 3.2722,
	"step": 41450
	},
	{
	"epoch": 12.08503698526414,
	"grad_norm": 0.35828056931495667,
	"learning_rate": 0.0004552482517482517,
	"loss": 3.2589,
	"step": 41500
	},
	{
	"epoch": 12.099598112877862,
	"grad_norm": 0.3321901261806488,
	"learning_rate": 0.00045507342657342655,
	"loss": 3.276,
	"step": 41550
	},
	{
	"epoch": 12.114159240491583,
	"grad_norm": 0.3395446538925171,
	"learning_rate": 0.00045489860139860135,
	"loss": 3.2639,
	"step": 41600
	},
	{
	"epoch": 12.128720368105306,
	"grad_norm": 0.3980446457862854,
	"learning_rate": 0.0004547237762237762,
	"loss": 3.2869,
	"step": 41650
	},
	{
	"epoch": 12.143281495719028,
	"grad_norm": 0.36757737398147583,
	"learning_rate": 0.00045454895104895106,
	"loss": 3.2742,
	"step": 41700
	},
	{
	"epoch": 12.157842623332751,
	"grad_norm": 0.34751492738723755,
	"learning_rate": 0.0004543741258741258,
	"loss": 3.2939,
	"step": 41750
	},
	{
	"epoch": 12.172403750946474,
	"grad_norm": 0.3655042350292206,
	"learning_rate": 0.00045419930069930066,
	"loss": 3.2931,
	"step": 41800
	},
	{
	"epoch": 12.186964878560195,
	"grad_norm": 0.35502806305885315,
	"learning_rate": 0.00045402447552447546,
	"loss": 3.2992,
	"step": 41850
	},
	{
	"epoch": 12.201526006173918,
	"grad_norm": 0.35130417346954346,
	"learning_rate": 0.0004538496503496503,
	"loss": 3.3008,
	"step": 41900
	},
	{
	"epoch": 12.21608713378764,
	"grad_norm": 0.39589038491249084,
	"learning_rate": 0.0004536748251748251,
	"loss": 3.291,
	"step": 41950
	},
	{
	"epoch": 12.230648261401363,
	"grad_norm": 0.37069767713546753,
	"learning_rate": 0.00045349999999999996,
	"loss": 3.3046,
	"step": 42000
	},
	{
	"epoch": 12.230648261401363,
	"eval_accuracy": 0.36991568174673584,
	"eval_loss": 3.559845209121704,
	"eval_runtime": 181.1401,
	"eval_samples_per_second": 91.896,
	"eval_steps_per_second": 5.747,
	"step": 42000
	},
	{
	"epoch": 12.245209389015086,
	"grad_norm": 0.34463024139404297,
	"learning_rate": 0.00045332517482517476,
	"loss": 3.2938,
	"step": 42050
	},
	{
	"epoch": 12.259770516628807,
	"grad_norm": 0.3618188202381134,
	"learning_rate": 0.0004531503496503496,
	"loss": 3.313,
	"step": 42100
	},
	{
	"epoch": 12.27433164424253,
	"grad_norm": 0.3733763098716736,
	"learning_rate": 0.0004529755244755244,
	"loss": 3.3022,
	"step": 42150
	},
	{
	"epoch": 12.288892771856252,
	"grad_norm": 0.3802759647369385,
	"learning_rate": 0.00045280069930069927,
	"loss": 3.2983,
	"step": 42200
	},
	{
	"epoch": 12.303453899469975,
	"grad_norm": 0.3399848937988281,
	"learning_rate": 0.00045262587412587407,
	"loss": 3.302,
	"step": 42250
	},
	{
	"epoch": 12.318015027083698,
	"grad_norm": 0.37302467226982117,
	"learning_rate": 0.0004524510489510489,
	"loss": 3.3111,
	"step": 42300
	},
	{
	"epoch": 12.33257615469742,
	"grad_norm": 0.38620615005493164,
	"learning_rate": 0.0004522762237762238,
	"loss": 3.3157,
	"step": 42350
	},
	{
	"epoch": 12.347137282311142,
	"grad_norm": 0.3746669292449951,
	"learning_rate": 0.0004521013986013986,
	"loss": 3.3092,
	"step": 42400
	},
	{
	"epoch": 12.361698409924864,
	"grad_norm": 0.35703712701797485,
	"learning_rate": 0.00045192657342657343,
	"loss": 3.3064,
	"step": 42450
	},
	{
	"epoch": 12.376259537538587,
	"grad_norm": 0.3509250581264496,
	"learning_rate": 0.0004517517482517482,
	"loss": 3.3034,
	"step": 42500
	},
	{
	"epoch": 12.39082066515231,
	"grad_norm": 0.3635379672050476,
	"learning_rate": 0.00045157692307692303,
	"loss": 3.3163,
	"step": 42550
	},
	{
	"epoch": 12.405381792766033,
	"grad_norm": 0.34037286043167114,
	"learning_rate": 0.00045140209790209783,
	"loss": 3.3285,
	"step": 42600
	},
	{
	"epoch": 12.419942920379754,
	"grad_norm": 0.3448360860347748,
	"learning_rate": 0.0004512272727272727,
	"loss": 3.3246,
	"step": 42650
	},
	{
	"epoch": 12.434504047993476,
	"grad_norm": 0.35941165685653687,
	"learning_rate": 0.0004510524475524475,
	"loss": 3.3246,
	"step": 42700
	},
	{
	"epoch": 12.449065175607199,
	"grad_norm": 0.3781452178955078,
	"learning_rate": 0.00045087762237762234,
	"loss": 3.3292,
	"step": 42750
	},
	{
	"epoch": 12.463626303220922,
	"grad_norm": 0.36656999588012695,
	"learning_rate": 0.00045070279720279714,
	"loss": 3.3335,
	"step": 42800
	},
	{
	"epoch": 12.478187430834645,
	"grad_norm": 0.3548363745212555,
	"learning_rate": 0.000450527972027972,
	"loss": 3.323,
	"step": 42850
	},
	{
	"epoch": 12.492748558448366,
	"grad_norm": 0.3620319366455078,
	"learning_rate": 0.0004503531468531468,
	"loss": 3.3329,
	"step": 42900
	},
	{
	"epoch": 12.507309686062088,
	"grad_norm": 0.353424072265625,
	"learning_rate": 0.00045017832167832165,
	"loss": 3.3285,
	"step": 42950
	},
	{
	"epoch": 12.521870813675811,
	"grad_norm": 0.3987106382846832,
	"learning_rate": 0.0004500034965034965,
	"loss": 3.3397,
	"step": 43000
	},
	{
	"epoch": 12.521870813675811,
	"eval_accuracy": 0.37050572847316976,
	"eval_loss": 3.554832935333252,
	"eval_runtime": 181.1131,
	"eval_samples_per_second": 91.909,
	"eval_steps_per_second": 5.748,
	"step": 43000
	},
	{
	"epoch": 12.536431941289534,
	"grad_norm": 0.35408225655555725,
	"learning_rate": 0.0004498286713286713,
	"loss": 3.3272,
	"step": 43050
	},
	{
	"epoch": 12.550993068903256,
	"grad_norm": 0.36602988839149475,
	"learning_rate": 0.00044965384615384615,
	"loss": 3.3313,
	"step": 43100
	},
	{
	"epoch": 12.565554196516977,
	"grad_norm": 0.34285175800323486,
	"learning_rate": 0.00044947902097902095,
	"loss": 3.337,
	"step": 43150
	},
	{
	"epoch": 12.5801153241307,
	"grad_norm": 0.32985830307006836,
	"learning_rate": 0.0004493041958041958,
	"loss": 3.3361,
	"step": 43200
	},
	{
	"epoch": 12.594676451744423,
	"grad_norm": 0.3447939455509186,
	"learning_rate": 0.00044912937062937055,
	"loss": 3.3375,
	"step": 43250
	},
	{
	"epoch": 12.609237579358146,
	"grad_norm": 0.3655174970626831,
	"learning_rate": 0.0004489545454545454,
	"loss": 3.3341,
	"step": 43300
	},
	{
	"epoch": 12.623798706971868,
	"grad_norm": 0.36965784430503845,
	"learning_rate": 0.0004487797202797202,
	"loss": 3.3322,
	"step": 43350
	},
	{
	"epoch": 12.63835983458559,
	"grad_norm": 0.3464057147502899,
	"learning_rate": 0.00044860489510489506,
	"loss": 3.3377,
	"step": 43400
	},
	{
	"epoch": 12.652920962199312,
	"grad_norm": 0.3564925789833069,
	"learning_rate": 0.00044843006993006986,
	"loss": 3.3461,
	"step": 43450
	},
	{
	"epoch": 12.667482089813035,
	"grad_norm": 0.3518389165401459,
	"learning_rate": 0.0004482552447552447,
	"loss": 3.3374,
	"step": 43500
	},
	{
	"epoch": 12.682043217426758,
	"grad_norm": 0.3491464853286743,
	"learning_rate": 0.0004480804195804195,
	"loss": 3.3344,
	"step": 43550
	},
	{
	"epoch": 12.69660434504048,
	"grad_norm": 0.3686160147190094,
	"learning_rate": 0.00044790559440559437,
	"loss": 3.3378,
	"step": 43600
	},
	{
	"epoch": 12.711165472654203,
	"grad_norm": 0.36158478260040283,
	"learning_rate": 0.00044773076923076917,
	"loss": 3.3407,
	"step": 43650
	},
	{
	"epoch": 12.725726600267924,
	"grad_norm": 0.34943732619285583,
	"learning_rate": 0.000447555944055944,
	"loss": 3.3453,
	"step": 43700
	},
	{
	"epoch": 12.740287727881647,
	"grad_norm": 0.35694846510887146,
	"learning_rate": 0.0004473811188811189,
	"loss": 3.3455,
	"step": 43750
	},
	{
	"epoch": 12.75484885549537,
	"grad_norm": 0.33400988578796387,
	"learning_rate": 0.0004472062937062937,
	"loss": 3.3478,
	"step": 43800
	},
	{
	"epoch": 12.769409983109092,
	"grad_norm": 0.3382965326309204,
	"learning_rate": 0.00044703146853146853,
	"loss": 3.3439,
	"step": 43850
	},
	{
	"epoch": 12.783971110722815,
	"grad_norm": 0.35423627495765686,
	"learning_rate": 0.00044685664335664333,
	"loss": 3.353,
	"step": 43900
	},
	{
	"epoch": 12.798532238336536,
	"grad_norm": 0.38060978055000305,
	"learning_rate": 0.0004466818181818182,
	"loss": 3.3379,
	"step": 43950
	},
	{
	"epoch": 12.813093365950259,
	"grad_norm": 0.3597307801246643,
	"learning_rate": 0.00044650699300699293,
	"loss": 3.3404,
	"step": 44000
	},
	{
	"epoch": 12.813093365950259,
	"eval_accuracy": 0.3710835486884363,
	"eval_loss": 3.544434070587158,
	"eval_runtime": 181.0811,
	"eval_samples_per_second": 91.926,
	"eval_steps_per_second": 5.749,
	"step": 44000
	},
	{
	"epoch": 12.827654493563982,
	"grad_norm": 0.35751357674598694,
	"learning_rate": 0.0004463321678321678,
	"loss": 3.3484,
	"step": 44050
	},
	{
	"epoch": 12.842215621177704,
	"grad_norm": 0.37856724858283997,
	"learning_rate": 0.0004461573426573426,
	"loss": 3.3484,
	"step": 44100
	},
	{
	"epoch": 12.856776748791427,
	"grad_norm": 0.3474246561527252,
	"learning_rate": 0.00044598251748251744,
	"loss": 3.338,
	"step": 44150
	},
	{
	"epoch": 12.871337876405148,
	"grad_norm": 0.37576624751091003,
	"learning_rate": 0.00044580769230769224,
	"loss": 3.344,
	"step": 44200
	},
	{
	"epoch": 12.88589900401887,
	"grad_norm": 0.37470582127571106,
	"learning_rate": 0.0004456328671328671,
	"loss": 3.337,
	"step": 44250
	},
	{
	"epoch": 12.900460131632594,
	"grad_norm": 0.3437161147594452,
	"learning_rate": 0.0004454580419580419,
	"loss": 3.3501,
	"step": 44300
	},
	{
	"epoch": 12.915021259246316,
	"grad_norm": 0.37224942445755005,
	"learning_rate": 0.00044528321678321674,
	"loss": 3.3511,
	"step": 44350
	},
	{
	"epoch": 12.929582386860039,
	"grad_norm": 0.3465173542499542,
	"learning_rate": 0.0004451083916083916,
	"loss": 3.3397,
	"step": 44400
	},
	{
	"epoch": 12.944143514473762,
	"grad_norm": 0.3810703456401825,
	"learning_rate": 0.0004449335664335664,
	"loss": 3.3479,
	"step": 44450
	},
	{
	"epoch": 12.958704642087483,
	"grad_norm": 0.36394184827804565,
	"learning_rate": 0.00044475874125874125,
	"loss": 3.3696,
	"step": 44500
	},
	{
	"epoch": 12.973265769701205,
	"grad_norm": 0.32505106925964355,
	"learning_rate": 0.00044458391608391605,
	"loss": 3.341,
	"step": 44550
	},
	{
	"epoch": 12.987826897314928,
	"grad_norm": 0.33128371834754944,
	"learning_rate": 0.0004444090909090909,
	"loss": 3.347,
	"step": 44600
	},
	{
	"epoch": 13.002329780418195,
	"grad_norm": 0.36666157841682434,
	"learning_rate": 0.0004442342657342657,
	"loss": 3.3406,
	"step": 44650
	},
	{
	"epoch": 13.016890908031918,
	"grad_norm": 0.33953845500946045,
	"learning_rate": 0.00044405944055944056,
	"loss": 3.2525,
	"step": 44700
	},
	{
	"epoch": 13.031452035645641,
	"grad_norm": 0.38074326515197754,
	"learning_rate": 0.0004438846153846153,
	"loss": 3.2372,
	"step": 44750
	},
	{
	"epoch": 13.046013163259364,
	"grad_norm": 0.4044519066810608,
	"learning_rate": 0.00044370979020979016,
	"loss": 3.2448,
	"step": 44800
	},
	{
	"epoch": 13.060574290873085,
	"grad_norm": 0.3917773365974426,
	"learning_rate": 0.00044353496503496496,
	"loss": 3.246,
	"step": 44850
	},
	{
	"epoch": 13.075135418486807,
	"grad_norm": 0.3733667731285095,
	"learning_rate": 0.0004433601398601398,
	"loss": 3.2477,
	"step": 44900
	},
	{
	"epoch": 13.08969654610053,
	"grad_norm": 0.35852932929992676,
	"learning_rate": 0.0004431853146853146,
	"loss": 3.2545,
	"step": 44950
	},
	{
	"epoch": 13.104257673714253,
	"grad_norm": 0.3601677417755127,
	"learning_rate": 0.00044301048951048946,
	"loss": 3.2597,
	"step": 45000
	},
	{
	"epoch": 13.104257673714253,
	"eval_accuracy": 0.37051289979221985,
	"eval_loss": 3.557664394378662,
	"eval_runtime": 181.1955,
	"eval_samples_per_second": 91.868,
	"eval_steps_per_second": 5.745,
	"step": 45000
	},
	{
	"epoch": 13.118818801327976,
	"grad_norm": 0.3457536995410919,
	"learning_rate": 0.00044283566433566426,
	"loss": 3.265,
	"step": 45050
	},
	{
	"epoch": 13.133379928941697,
	"grad_norm": 0.3704872131347656,
	"learning_rate": 0.0004426608391608391,
	"loss": 3.2645,
	"step": 45100
	},
	{
	"epoch": 13.14794105655542,
	"grad_norm": 0.37310388684272766,
	"learning_rate": 0.00044248601398601397,
	"loss": 3.2746,
	"step": 45150
	},
	{
	"epoch": 13.162502184169142,
	"grad_norm": 0.3809090852737427,
	"learning_rate": 0.00044231118881118877,
	"loss": 3.2804,
	"step": 45200
	},
	{
	"epoch": 13.177063311782865,
	"grad_norm": 0.36043018102645874,
	"learning_rate": 0.0004421363636363636,
	"loss": 3.2662,
	"step": 45250
	},
	{
	"epoch": 13.191624439396588,
	"grad_norm": 0.3653396666049957,
	"learning_rate": 0.0004419615384615384,
	"loss": 3.265,
	"step": 45300
	},
	{
	"epoch": 13.206185567010309,
	"grad_norm": 0.3747062385082245,
	"learning_rate": 0.0004417867132867133,
	"loss": 3.2763,
	"step": 45350
	},
	{
	"epoch": 13.220746694624031,
	"grad_norm": 0.3532830476760864,
	"learning_rate": 0.0004416118881118881,
	"loss": 3.2838,
	"step": 45400
	},
	{
	"epoch": 13.235307822237754,
	"grad_norm": 0.3714682459831238,
	"learning_rate": 0.00044143706293706293,
	"loss": 3.2829,
	"step": 45450
	},
	{
	"epoch": 13.249868949851477,
	"grad_norm": 0.3347223103046417,
	"learning_rate": 0.0004412622377622377,
	"loss": 3.2799,
	"step": 45500
	},
	{
	"epoch": 13.2644300774652,
	"grad_norm": 0.37033647298812866,
	"learning_rate": 0.00044108741258741253,
	"loss": 3.2957,
	"step": 45550
	},
	{
	"epoch": 13.27899120507892,
	"grad_norm": 0.39102688431739807,
	"learning_rate": 0.00044091258741258733,
	"loss": 3.2914,
	"step": 45600
	},
	{
	"epoch": 13.293552332692643,
	"grad_norm": 0.37037813663482666,
	"learning_rate": 0.0004407377622377622,
	"loss": 3.2995,
	"step": 45650
	},
	{
	"epoch": 13.308113460306366,
	"grad_norm": 0.37284520268440247,
	"learning_rate": 0.000440562937062937,
	"loss": 3.2843,
	"step": 45700
	},
	{
	"epoch": 13.322674587920089,
	"grad_norm": 0.37667202949523926,
	"learning_rate": 0.00044038811188811184,
	"loss": 3.2849,
	"step": 45750
	},
	{
	"epoch": 13.337235715533811,
	"grad_norm": 0.3747294843196869,
	"learning_rate": 0.0004402132867132867,
	"loss": 3.3116,
	"step": 45800
	},
	{
	"epoch": 13.351796843147532,
	"grad_norm": 0.3424604535102844,
	"learning_rate": 0.0004400384615384615,
	"loss": 3.2948,
	"step": 45850
	},
	{
	"epoch": 13.366357970761255,
	"grad_norm": 0.36772021651268005,
	"learning_rate": 0.00043986363636363635,
	"loss": 3.2919,
	"step": 45900
	},
	{
	"epoch": 13.380919098374978,
	"grad_norm": 0.3693206310272217,
	"learning_rate": 0.00043968881118881115,
	"loss": 3.3231,
	"step": 45950
	},
	{
	"epoch": 13.3954802259887,
	"grad_norm": 0.385343074798584,
	"learning_rate": 0.000439513986013986,
	"loss": 3.3136,
	"step": 46000
	},
	{
	"epoch": 13.3954802259887,
	"eval_accuracy": 0.3708942728905565,
	"eval_loss": 3.553351402282715,
	"eval_runtime": 181.4338,
	"eval_samples_per_second": 91.747,
	"eval_steps_per_second": 5.738,
	"step": 46000
	},
	{
	"epoch": 13.410041353602423,
	"grad_norm": 0.3651343584060669,
	"learning_rate": 0.0004393391608391608,
	"loss": 3.3064,
	"step": 46050
	},
	{
	"epoch": 13.424602481216146,
	"grad_norm": 0.3632429540157318,
	"learning_rate": 0.00043916433566433565,
	"loss": 3.3071,
	"step": 46100
	},
	{
	"epoch": 13.439163608829867,
	"grad_norm": 0.3616783320903778,
	"learning_rate": 0.00043898951048951045,
	"loss": 3.3066,
	"step": 46150
	},
	{
	"epoch": 13.45372473644359,
	"grad_norm": 0.36047831177711487,
	"learning_rate": 0.0004388146853146853,
	"loss": 3.3063,
	"step": 46200
	},
	{
	"epoch": 13.468285864057313,
	"grad_norm": 0.38732126355171204,
	"learning_rate": 0.00043863986013986005,
	"loss": 3.3196,
	"step": 46250
	},
	{
	"epoch": 13.482846991671035,
	"grad_norm": 0.3714425563812256,
	"learning_rate": 0.0004384650349650349,
	"loss": 3.3089,
	"step": 46300
	},
	{
	"epoch": 13.497408119284758,
	"grad_norm": 0.3905268609523773,
	"learning_rate": 0.0004382902097902097,
	"loss": 3.3034,
	"step": 46350
	},
	{
	"epoch": 13.51196924689848,
	"grad_norm": 0.36184632778167725,
	"learning_rate": 0.00043811538461538456,
	"loss": 3.3161,
	"step": 46400
	},
	{
	"epoch": 13.526530374512202,
	"grad_norm": 0.37481918931007385,
	"learning_rate": 0.0004379405594405594,
	"loss": 3.3152,
	"step": 46450
	},
	{
	"epoch": 13.541091502125925,
	"grad_norm": 0.35389721393585205,
	"learning_rate": 0.0004377657342657342,
	"loss": 3.3079,
	"step": 46500
	},
	{
	"epoch": 13.555652629739647,
	"grad_norm": 0.3536003530025482,
	"learning_rate": 0.00043759090909090907,
	"loss": 3.3226,
	"step": 46550
	},
	{
	"epoch": 13.57021375735337,
	"grad_norm": 0.4076172709465027,
	"learning_rate": 0.00043741608391608387,
	"loss": 3.3193,
	"step": 46600
	},
	{
	"epoch": 13.584774884967091,
	"grad_norm": 0.38209009170532227,
	"learning_rate": 0.0004372412587412587,
	"loss": 3.3166,
	"step": 46650
	},
	{
	"epoch": 13.599336012580814,
	"grad_norm": 0.37584787607192993,
	"learning_rate": 0.0004370664335664335,
	"loss": 3.3176,
	"step": 46700
	},
	{
	"epoch": 13.613897140194537,
	"grad_norm": 0.3730042278766632,
	"learning_rate": 0.0004368916083916084,
	"loss": 3.329,
	"step": 46750
	},
	{
	"epoch": 13.62845826780826,
	"grad_norm": 0.37600407004356384,
	"learning_rate": 0.0004367167832167832,
	"loss": 3.3182,
	"step": 46800
	},
	{
	"epoch": 13.643019395421982,
	"grad_norm": 0.3546999990940094,
	"learning_rate": 0.00043654195804195803,
	"loss": 3.3099,
	"step": 46850
	},
	{
	"epoch": 13.657580523035705,
	"grad_norm": 0.41130438446998596,
	"learning_rate": 0.00043636713286713283,
	"loss": 3.3174,
	"step": 46900
	},
	{
	"epoch": 13.672141650649426,
	"grad_norm": 0.380054235458374,
	"learning_rate": 0.0004361923076923077,
	"loss": 3.3115,
	"step": 46950
	},
	{
	"epoch": 13.686702778263149,
	"grad_norm": 0.3687915503978729,
	"learning_rate": 0.00043601748251748243,
	"loss": 3.326,
	"step": 47000
	},
	{
	"epoch": 13.686702778263149,
	"eval_accuracy": 0.3714850249926347,
	"eval_loss": 3.5448427200317383,
	"eval_runtime": 181.0835,
	"eval_samples_per_second": 91.924,
	"eval_steps_per_second": 5.749,
	"step": 47000
	},
	{
	"epoch": 13.701263905876871,
	"grad_norm": 0.3640954792499542,
	"learning_rate": 0.00043584265734265734,
	"loss": 3.3238,
	"step": 47050
	},
	{
	"epoch": 13.715825033490594,
	"grad_norm": 0.33664220571517944,
	"learning_rate": 0.0004356678321678321,
	"loss": 3.3274,
	"step": 47100
	},
	{
	"epoch": 13.730386161104317,
	"grad_norm": 0.36196938157081604,
	"learning_rate": 0.00043549300699300694,
	"loss": 3.3151,
	"step": 47150
	},
	{
	"epoch": 13.744947288718038,
	"grad_norm": 0.35833385586738586,
	"learning_rate": 0.0004353181818181818,
	"loss": 3.3317,
	"step": 47200
	},
	{
	"epoch": 13.75950841633176,
	"grad_norm": 0.367707222700119,
	"learning_rate": 0.0004351433566433566,
	"loss": 3.3222,
	"step": 47250
	},
	{
	"epoch": 13.774069543945483,
	"grad_norm": 0.34781572222709656,
	"learning_rate": 0.00043496853146853144,
	"loss": 3.3146,
	"step": 47300
	},
	{
	"epoch": 13.788630671559206,
	"grad_norm": 0.37640494108200073,
	"learning_rate": 0.00043479370629370624,
	"loss": 3.3311,
	"step": 47350
	},
	{
	"epoch": 13.803191799172929,
	"grad_norm": 0.3690575361251831,
	"learning_rate": 0.0004346188811188811,
	"loss": 3.328,
	"step": 47400
	},
	{
	"epoch": 13.81775292678665,
	"grad_norm": 0.3566841185092926,
	"learning_rate": 0.0004344440559440559,
	"loss": 3.3264,
	"step": 47450
	},
	{
	"epoch": 13.832314054400372,
	"grad_norm": 0.3551981449127197,
	"learning_rate": 0.00043426923076923075,
	"loss": 3.3376,
	"step": 47500
	},
	{
	"epoch": 13.846875182014095,
	"grad_norm": 0.3538823425769806,
	"learning_rate": 0.00043409440559440555,
	"loss": 3.3526,
	"step": 47550
	},
	{
	"epoch": 13.861436309627818,
	"grad_norm": 0.374664306640625,
	"learning_rate": 0.0004339195804195804,
	"loss": 3.3266,
	"step": 47600
	},
	{
	"epoch": 13.87599743724154,
	"grad_norm": 0.36062973737716675,
	"learning_rate": 0.0004337447552447552,
	"loss": 3.3177,
	"step": 47650
	},
	{
	"epoch": 13.890558564855262,
	"grad_norm": 0.34848466515541077,
	"learning_rate": 0.00043356993006993006,
	"loss": 3.3315,
	"step": 47700
	},
	{
	"epoch": 13.905119692468984,
	"grad_norm": 0.3789747953414917,
	"learning_rate": 0.0004333951048951048,
	"loss": 3.3319,
	"step": 47750
	},
	{
	"epoch": 13.919680820082707,
	"grad_norm": 0.3523997366428375,
	"learning_rate": 0.0004332202797202797,
	"loss": 3.3265,
	"step": 47800
	},
	{
	"epoch": 13.93424194769643,
	"grad_norm": 0.38667649030685425,
	"learning_rate": 0.00043304545454545456,
	"loss": 3.3346,
	"step": 47850
	},
	{
	"epoch": 13.948803075310153,
	"grad_norm": 0.3615758717060089,
	"learning_rate": 0.0004328706293706293,
	"loss": 3.3312,
	"step": 47900
	},
	{
	"epoch": 13.963364202923874,
	"grad_norm": 0.3342243731021881,
	"learning_rate": 0.00043269580419580416,
	"loss": 3.3312,
	"step": 47950
	},
	{
	"epoch": 13.977925330537596,
	"grad_norm": 0.34050750732421875,
	"learning_rate": 0.00043252097902097896,
	"loss": 3.3423,
	"step": 48000
	},
	{
	"epoch": 13.977925330537596,
	"eval_accuracy": 0.3718588740840991,
	"eval_loss": 3.540470838546753,
	"eval_runtime": 181.0794,
	"eval_samples_per_second": 91.927,
	"eval_steps_per_second": 5.749,
	"step": 48000
	},
	{
	"epoch": 13.992486458151319,
	"grad_norm": 0.3358824551105499,
	"learning_rate": 0.0004323461538461538,
	"loss": 3.3435,
	"step": 48050
	},
	{
	"epoch": 14.006989341254586,
	"grad_norm": 0.3420553505420685,
	"learning_rate": 0.0004321713286713286,
	"loss": 3.277,
	"step": 48100
	},
	{
	"epoch": 14.021550468868309,
	"grad_norm": 0.3606970012187958,
	"learning_rate": 0.00043199650349650347,
	"loss": 3.2118,
	"step": 48150
	},
	{
	"epoch": 14.036111596482032,
	"grad_norm": 0.4001006484031677,
	"learning_rate": 0.00043182167832167827,
	"loss": 3.2243,
	"step": 48200
	},
	{
	"epoch": 14.050672724095755,
	"grad_norm": 0.3614968955516815,
	"learning_rate": 0.0004316468531468531,
	"loss": 3.2362,
	"step": 48250
	},
	{
	"epoch": 14.065233851709475,
	"grad_norm": 0.360830694437027,
	"learning_rate": 0.0004314720279720279,
	"loss": 3.2397,
	"step": 48300
	},
	{
	"epoch": 14.079794979323198,
	"grad_norm": 0.3907882869243622,
	"learning_rate": 0.0004312972027972028,
	"loss": 3.2394,
	"step": 48350
	},
	{
	"epoch": 14.094356106936921,
	"grad_norm": 0.35445448756217957,
	"learning_rate": 0.0004311223776223776,
	"loss": 3.2431,
	"step": 48400
	},
	{
	"epoch": 14.108917234550644,
	"grad_norm": 0.3781708776950836,
	"learning_rate": 0.00043094755244755243,
	"loss": 3.2474,
	"step": 48450
	},
	{
	"epoch": 14.123478362164366,
	"grad_norm": 0.34598371386528015,
	"learning_rate": 0.0004307727272727272,
	"loss": 3.2527,
	"step": 48500
	},
	{
	"epoch": 14.13803948977809,
	"grad_norm": 0.36756083369255066,
	"learning_rate": 0.0004305979020979021,
	"loss": 3.2582,
	"step": 48550
	},
	{
	"epoch": 14.15260061739181,
	"grad_norm": 0.383299857378006,
	"learning_rate": 0.00043042307692307694,
	"loss": 3.2613,
	"step": 48600
	},
	{
	"epoch": 14.167161745005533,
	"grad_norm": 0.37315934896469116,
	"learning_rate": 0.0004302482517482517,
	"loss": 3.2581,
	"step": 48650
	},
	{
	"epoch": 14.181722872619256,
	"grad_norm": 0.3663264214992523,
	"learning_rate": 0.00043007342657342654,
	"loss": 3.2604,
	"step": 48700
	},
	{
	"epoch": 14.196284000232978,
	"grad_norm": 0.368505597114563,
	"learning_rate": 0.00042989860139860134,
	"loss": 3.263,
	"step": 48750
	},
	{
	"epoch": 14.210845127846701,
	"grad_norm": 0.3589208126068115,
	"learning_rate": 0.0004297237762237762,
	"loss": 3.25,
	"step": 48800
	},
	{
	"epoch": 14.225406255460422,
	"grad_norm": 0.35528650879859924,
	"learning_rate": 0.000429548951048951,
	"loss": 3.2608,
	"step": 48850
	},
	{
	"epoch": 14.239967383074145,
	"grad_norm": 0.3896448314189911,
	"learning_rate": 0.00042937412587412585,
	"loss": 3.2699,
	"step": 48900
	},
	{
	"epoch": 14.254528510687868,
	"grad_norm": 0.389419823884964,
	"learning_rate": 0.00042919930069930065,
	"loss": 3.2815,
	"step": 48950
	},
	{
	"epoch": 14.26908963830159,
	"grad_norm": 0.36435467004776,
	"learning_rate": 0.0004290244755244755,
	"loss": 3.2747,
	"step": 49000
	},
	{
	"epoch": 14.26908963830159,
	"eval_accuracy": 0.371175952897836,
	"eval_loss": 3.5533642768859863,
	"eval_runtime": 188.2618,
	"eval_samples_per_second": 88.419,
	"eval_steps_per_second": 5.53,
	"step": 49000
	},
	{
	"epoch": 14.283650765915313,
	"grad_norm": 0.3509522080421448,
	"learning_rate": 0.0004288496503496503,
	"loss": 3.28,
	"step": 49050
	},
	{
	"epoch": 14.298211893529034,
	"grad_norm": 0.334859162569046,
	"learning_rate": 0.00042867482517482515,
	"loss": 3.2796,
	"step": 49100
	},
	{
	"epoch": 14.312773021142757,
	"grad_norm": 0.3892660439014435,
	"learning_rate": 0.00042849999999999995,
	"loss": 3.2847,
	"step": 49150
	},
	{
	"epoch": 14.32733414875648,
	"grad_norm": 0.35437408089637756,
	"learning_rate": 0.0004283251748251748,
	"loss": 3.2628,
	"step": 49200
	},
	{
	"epoch": 14.341895276370202,
	"grad_norm": 0.37474045157432556,
	"learning_rate": 0.00042815034965034966,
	"loss": 3.2988,
	"step": 49250
	},
	{
	"epoch": 14.356456403983925,
	"grad_norm": 0.4226810336112976,
	"learning_rate": 0.00042797552447552446,
	"loss": 3.2899,
	"step": 49300
	},
	{
	"epoch": 14.371017531597648,
	"grad_norm": 0.3750922977924347,
	"learning_rate": 0.0004278006993006993,
	"loss": 3.2828,
	"step": 49350
	},
	{
	"epoch": 14.385578659211369,
	"grad_norm": 0.35923951864242554,
	"learning_rate": 0.00042762587412587406,
	"loss": 3.286,
	"step": 49400
	},
	{
	"epoch": 14.400139786825092,
	"grad_norm": 0.35671406984329224,
	"learning_rate": 0.0004274510489510489,
	"loss": 3.2892,
	"step": 49450
	},
	{
	"epoch": 14.414700914438814,
	"grad_norm": 0.35129812359809875,
	"learning_rate": 0.0004272762237762237,
	"loss": 3.2945,
	"step": 49500
	},
	{
	"epoch": 14.429262042052537,
	"grad_norm": 0.37475308775901794,
	"learning_rate": 0.00042710139860139857,
	"loss": 3.2978,
	"step": 49550
	},
	{
	"epoch": 14.44382316966626,
	"grad_norm": 0.38268592953681946,
	"learning_rate": 0.00042692657342657337,
	"loss": 3.2959,
	"step": 49600
	},
	{
	"epoch": 14.45838429727998,
	"grad_norm": 0.3419938385486603,
	"learning_rate": 0.0004267517482517482,
	"loss": 3.2877,
	"step": 49650
	},
	{
	"epoch": 14.472945424893704,
	"grad_norm": 0.35204702615737915,
	"learning_rate": 0.000426576923076923,
	"loss": 3.2877,
	"step": 49700
	},
	{
	"epoch": 14.487506552507426,
	"grad_norm": 0.36226049065589905,
	"learning_rate": 0.0004264020979020979,
	"loss": 3.2871,
	"step": 49750
	},
	{
	"epoch": 14.502067680121149,
	"grad_norm": 0.382007896900177,
	"learning_rate": 0.0004262272727272727,
	"loss": 3.2989,
	"step": 49800
	},
	{
	"epoch": 14.516628807734872,
	"grad_norm": 0.34697645902633667,
	"learning_rate": 0.00042605244755244753,
	"loss": 3.2957,
	"step": 49850
	},
	{
	"epoch": 14.531189935348593,
	"grad_norm": 0.3803808391094208,
	"learning_rate": 0.00042587762237762233,
	"loss": 3.302,
	"step": 49900
	},
	{
	"epoch": 14.545751062962315,
	"grad_norm": 0.3486500084400177,
	"learning_rate": 0.0004257027972027972,
	"loss": 3.3026,
	"step": 49950
	},
	{
	"epoch": 14.560312190576038,
	"grad_norm": 0.3419564366340637,
	"learning_rate": 0.00042552797202797204,
	"loss": 3.287,
	"step": 50000
	},
	{
	"epoch": 14.560312190576038,
	"eval_accuracy": 0.37168276529824573,
	"eval_loss": 3.546523094177246,
	"eval_runtime": 181.058,
	"eval_samples_per_second": 91.937,
	"eval_steps_per_second": 5.75,
	"step": 50000
	},
	{
	"epoch": 14.574873318189761,
	"grad_norm": 0.3464997410774231,
	"learning_rate": 0.00042535314685314684,
	"loss": 3.2981,
	"step": 50050
	},
	{
	"epoch": 14.589434445803484,
	"grad_norm": 0.34635862708091736,
	"learning_rate": 0.0004251783216783217,
	"loss": 3.3036,
	"step": 50100
	},
	{
	"epoch": 14.603995573417205,
	"grad_norm": 0.3743698298931122,
	"learning_rate": 0.00042500349650349643,
	"loss": 3.3031,
	"step": 50150
	},
	{
	"epoch": 14.618556701030927,
	"grad_norm": 0.3436216711997986,
	"learning_rate": 0.0004248286713286713,
	"loss": 3.3117,
	"step": 50200
	},
	{
	"epoch": 14.63311782864465,
	"grad_norm": 0.3991907238960266,
	"learning_rate": 0.0004246538461538461,
	"loss": 3.3056,
	"step": 50250
	},
	{
	"epoch": 14.647678956258373,
	"grad_norm": 0.39424341917037964,
	"learning_rate": 0.00042447902097902094,
	"loss": 3.3109,
	"step": 50300
	},
	{
	"epoch": 14.662240083872096,
	"grad_norm": 0.3627629280090332,
	"learning_rate": 0.00042430419580419574,
	"loss": 3.3071,
	"step": 50350
	},
	{
	"epoch": 14.676801211485817,
	"grad_norm": 0.3603801727294922,
	"learning_rate": 0.0004241293706293706,
	"loss": 3.2999,
	"step": 50400
	},
	{
	"epoch": 14.69136233909954,
	"grad_norm": 0.3873232305049896,
	"learning_rate": 0.0004239545454545454,
	"loss": 3.3156,
	"step": 50450
	},
	{
	"epoch": 14.705923466713262,
	"grad_norm": 0.35634586215019226,
	"learning_rate": 0.00042377972027972025,
	"loss": 3.3007,
	"step": 50500
	},
	{
	"epoch": 14.720484594326985,
	"grad_norm": 0.383419007062912,
	"learning_rate": 0.00042360489510489505,
	"loss": 3.3109,
	"step": 50550
	},
	{
	"epoch": 14.735045721940708,
	"grad_norm": 0.3834097981452942,
	"learning_rate": 0.0004234300699300699,
	"loss": 3.3024,
	"step": 50600
	},
	{
	"epoch": 14.749606849554429,
	"grad_norm": 0.3689540922641754,
	"learning_rate": 0.00042325524475524476,
	"loss": 3.3118,
	"step": 50650
	},
	{
	"epoch": 14.764167977168151,
	"grad_norm": 0.3960738778114319,
	"learning_rate": 0.00042308041958041956,
	"loss": 3.3045,
	"step": 50700
	},
	{
	"epoch": 14.778729104781874,
	"grad_norm": 0.3666040301322937,
	"learning_rate": 0.0004229055944055944,
	"loss": 3.3053,
	"step": 50750
	},
	{
	"epoch": 14.793290232395597,
	"grad_norm": 0.3593136668205261,
	"learning_rate": 0.0004227307692307692,
	"loss": 3.3182,
	"step": 50800
	},
	{
	"epoch": 14.80785136000932,
	"grad_norm": 0.36340007185935974,
	"learning_rate": 0.00042255594405594406,
	"loss": 3.3169,
	"step": 50850
	},
	{
	"epoch": 14.822412487623042,
	"grad_norm": 0.3798671066761017,
	"learning_rate": 0.0004223811188811188,
	"loss": 3.3162,
	"step": 50900
	},
	{
	"epoch": 14.836973615236763,
	"grad_norm": 0.3715970814228058,
	"learning_rate": 0.00042220629370629366,
	"loss": 3.3201,
	"step": 50950
	},
	{
	"epoch": 14.851534742850486,
	"grad_norm": 0.39670634269714355,
	"learning_rate": 0.00042203146853146846,
	"loss": 3.3153,
	"step": 51000
	},
	{
	"epoch": 14.851534742850486,
	"eval_accuracy": 0.37229244498011194,
	"eval_loss": 3.5407721996307373,
	"eval_runtime": 230.4734,
	"eval_samples_per_second": 72.225,
	"eval_steps_per_second": 4.517,
	"step": 51000
	},
	{
	"epoch": 14.866095870464209,
	"grad_norm": 0.3576284945011139,
	"learning_rate": 0.0004218566433566433,
	"loss": 3.3094,
	"step": 51050
	},
	{
	"epoch": 14.880656998077932,
	"grad_norm": 0.36275455355644226,
	"learning_rate": 0.0004216818181818181,
	"loss": 3.3142,
	"step": 51100
	},
	{
	"epoch": 14.895218125691654,
	"grad_norm": 0.376268595457077,
	"learning_rate": 0.00042150699300699297,
	"loss": 3.3316,
	"step": 51150
	},
	{
	"epoch": 14.909779253305375,
	"grad_norm": 0.3608756363391876,
	"learning_rate": 0.00042133216783216777,
	"loss": 3.3067,
	"step": 51200
	},
	{
	"epoch": 14.924340380919098,
	"grad_norm": 0.41920217871665955,
	"learning_rate": 0.0004211573426573426,
	"loss": 3.3175,
	"step": 51250
	},
	{
	"epoch": 14.93890150853282,
	"grad_norm": 0.35982200503349304,
	"learning_rate": 0.0004209825174825175,
	"loss": 3.3127,
	"step": 51300
	},
	{
	"epoch": 14.953462636146543,
	"grad_norm": 0.3523630201816559,
	"learning_rate": 0.0004208076923076923,
	"loss": 3.3256,
	"step": 51350
	},
	{
	"epoch": 14.968023763760266,
	"grad_norm": 0.358729749917984,
	"learning_rate": 0.00042063286713286713,
	"loss": 3.3293,
	"step": 51400
	},
	{
	"epoch": 14.982584891373987,
	"grad_norm": 0.3890109658241272,
	"learning_rate": 0.00042045804195804193,
	"loss": 3.3267,
	"step": 51450
	},
	{
	"epoch": 14.99714601898771,
	"grad_norm": 0.335075318813324,
	"learning_rate": 0.0004202832167832168,
	"loss": 3.3264,
	"step": 51500
	},
	{
	"epoch": 15.011648902090977,
	"grad_norm": 0.40458938479423523,
	"learning_rate": 0.0004201083916083916,
	"loss": 3.2301,
	"step": 51550
	},
	{
	"epoch": 15.0262100297047,
	"grad_norm": 0.38281872868537903,
	"learning_rate": 0.00041993356643356644,
	"loss": 3.2213,
	"step": 51600
	},
	{
	"epoch": 15.040771157318423,
	"grad_norm": 0.3873460590839386,
	"learning_rate": 0.0004197587412587412,
	"loss": 3.2218,
	"step": 51650
	},
	{
	"epoch": 15.055332284932145,
	"grad_norm": 0.3797636330127716,
	"learning_rate": 0.00041958391608391604,
	"loss": 3.2326,
	"step": 51700
	},
	{
	"epoch": 15.069893412545868,
	"grad_norm": 0.3885267674922943,
	"learning_rate": 0.00041940909090909084,
	"loss": 3.2326,
	"step": 51750
	},
	{
	"epoch": 15.084454540159589,
	"grad_norm": 0.3854827284812927,
	"learning_rate": 0.0004192342657342657,
	"loss": 3.2266,
	"step": 51800
	},
	{
	"epoch": 15.099015667773312,
	"grad_norm": 0.35731711983680725,
	"learning_rate": 0.0004190594405594405,
	"loss": 3.2336,
	"step": 51850
	},
	{
	"epoch": 15.113576795387035,
	"grad_norm": 0.3774850070476532,
	"learning_rate": 0.00041888461538461535,
	"loss": 3.236,
	"step": 51900
	},
	{
	"epoch": 15.128137923000757,
	"grad_norm": 0.3611111342906952,
	"learning_rate": 0.00041870979020979015,
	"loss": 3.2463,
	"step": 51950
	},
	{
	"epoch": 15.14269905061448,
	"grad_norm": 0.35102859139442444,
	"learning_rate": 0.000418534965034965,
	"loss": 3.2414,
	"step": 52000
	},
	{
	"epoch": 15.14269905061448,
	"eval_accuracy": 0.3716459682021362,
	"eval_loss": 3.556779384613037,
	"eval_runtime": 181.0814,
	"eval_samples_per_second": 91.926,
	"eval_steps_per_second": 5.749,
	"step": 52000
	},
	{
	"epoch": 15.157260178228203,
	"grad_norm": 0.38801994919776917,
	"learning_rate": 0.00041836013986013985,
	"loss": 3.2494,
	"step": 52050
	},
	{
	"epoch": 15.171821305841924,
	"grad_norm": 0.37931784987449646,
	"learning_rate": 0.00041818531468531465,
	"loss": 3.2417,
	"step": 52100
	},
	{
	"epoch": 15.186382433455647,
	"grad_norm": 0.3645617663860321,
	"learning_rate": 0.0004180104895104895,
	"loss": 3.2525,
	"step": 52150
	},
	{
	"epoch": 15.20094356106937,
	"grad_norm": 0.42287391424179077,
	"learning_rate": 0.0004178356643356643,
	"loss": 3.2569,
	"step": 52200
	},
	{
	"epoch": 15.215504688683092,
	"grad_norm": 0.390807569026947,
	"learning_rate": 0.00041766083916083916,
	"loss": 3.2519,
	"step": 52250
	},
	{
	"epoch": 15.230065816296815,
	"grad_norm": 0.38645055890083313,
	"learning_rate": 0.00041748601398601396,
	"loss": 3.259,
	"step": 52300
	},
	{
	"epoch": 15.244626943910536,
	"grad_norm": 0.3853817284107208,
	"learning_rate": 0.0004173111888111888,
	"loss": 3.2575,
	"step": 52350
	},
	{
	"epoch": 15.259188071524258,
	"grad_norm": 0.3735731840133667,
	"learning_rate": 0.00041713636363636356,
	"loss": 3.2641,
	"step": 52400
	},
	{
	"epoch": 15.273749199137981,
	"grad_norm": 0.3664243817329407,
	"learning_rate": 0.0004169615384615384,
	"loss": 3.2684,
	"step": 52450
	},
	{
	"epoch": 15.288310326751704,
	"grad_norm": 0.36439111828804016,
	"learning_rate": 0.0004167867132867132,
	"loss": 3.2573,
	"step": 52500
	},
	{
	"epoch": 15.302871454365427,
	"grad_norm": 0.37758076190948486,
	"learning_rate": 0.00041661188811188807,
	"loss": 3.2668,
	"step": 52550
	},
	{
	"epoch": 15.317432581979148,
	"grad_norm": 0.37438371777534485,
	"learning_rate": 0.00041643706293706287,
	"loss": 3.2654,
	"step": 52600
	},
	{
	"epoch": 15.33199370959287,
	"grad_norm": 0.3982774019241333,
	"learning_rate": 0.0004162622377622377,
	"loss": 3.26,
	"step": 52650
	},
	{
	"epoch": 15.346554837206593,
	"grad_norm": 0.3701336979866028,
	"learning_rate": 0.0004160874125874126,
	"loss": 3.2697,
	"step": 52700
	},
	{
	"epoch": 15.361115964820316,
	"grad_norm": 0.3646653890609741,
	"learning_rate": 0.0004159125874125874,
	"loss": 3.2706,
	"step": 52750
	},
	{
	"epoch": 15.375677092434039,
	"grad_norm": 0.34608614444732666,
	"learning_rate": 0.00041573776223776223,
	"loss": 3.2784,
	"step": 52800
	},
	{
	"epoch": 15.39023822004776,
	"grad_norm": 0.3782461881637573,
	"learning_rate": 0.00041556293706293703,
	"loss": 3.2585,
	"step": 52850
	},
	{
	"epoch": 15.404799347661482,
	"grad_norm": 0.36291107535362244,
	"learning_rate": 0.0004153881118881119,
	"loss": 3.269,
	"step": 52900
	},
	{
	"epoch": 15.419360475275205,
	"grad_norm": 0.36434653401374817,
	"learning_rate": 0.0004152132867132867,
	"loss": 3.2665,
	"step": 52950
	},
	{
	"epoch": 15.433921602888928,
	"grad_norm": 0.35678714513778687,
	"learning_rate": 0.00041503846153846154,
	"loss": 3.2794,
	"step": 53000
	},
	{
	"epoch": 15.433921602888928,
	"eval_accuracy": 0.371921534953832,
	"eval_loss": 3.546081781387329,
	"eval_runtime": 181.0963,
	"eval_samples_per_second": 91.918,
	"eval_steps_per_second": 5.748,
	"step": 53000
	},
	{
	"epoch": 15.44848273050265,
	"grad_norm": 0.39062851667404175,
	"learning_rate": 0.00041486363636363634,
	"loss": 3.2884,
	"step": 53050
	},
	{
	"epoch": 15.463043858116373,
	"grad_norm": 0.3518424332141876,
	"learning_rate": 0.0004146888111888112,
	"loss": 3.2721,
	"step": 53100
	},
	{
	"epoch": 15.477604985730094,
	"grad_norm": 0.3690439462661743,
	"learning_rate": 0.00041451398601398593,
	"loss": 3.2735,
	"step": 53150
	},
	{
	"epoch": 15.492166113343817,
	"grad_norm": 0.3729609251022339,
	"learning_rate": 0.0004143391608391608,
	"loss": 3.2771,
	"step": 53200
	},
	{
	"epoch": 15.50672724095754,
	"grad_norm": 0.40663325786590576,
	"learning_rate": 0.0004141643356643356,
	"loss": 3.2676,
	"step": 53250
	},
	{
	"epoch": 15.521288368571263,
	"grad_norm": 0.36350148916244507,
	"learning_rate": 0.00041398951048951044,
	"loss": 3.2801,
	"step": 53300
	},
	{
	"epoch": 15.535849496184985,
	"grad_norm": 0.37049153447151184,
	"learning_rate": 0.00041381468531468524,
	"loss": 3.2764,
	"step": 53350
	},
	{
	"epoch": 15.550410623798706,
	"grad_norm": 0.42307063937187195,
	"learning_rate": 0.0004136398601398601,
	"loss": 3.2896,
	"step": 53400
	},
	{
	"epoch": 15.564971751412429,
	"grad_norm": 0.40026119351387024,
	"learning_rate": 0.00041346503496503495,
	"loss": 3.2919,
	"step": 53450
	},
	{
	"epoch": 15.579532879026152,
	"grad_norm": 0.37621283531188965,
	"learning_rate": 0.00041329020979020975,
	"loss": 3.291,
	"step": 53500
	},
	{
	"epoch": 15.594094006639875,
	"grad_norm": 0.3707675635814667,
	"learning_rate": 0.0004131153846153846,
	"loss": 3.2875,
	"step": 53550
	},
	{
	"epoch": 15.608655134253597,
	"grad_norm": 0.39700794219970703,
	"learning_rate": 0.0004129405594405594,
	"loss": 3.2752,
	"step": 53600
	},
	{
	"epoch": 15.623216261867318,
	"grad_norm": 0.38050559163093567,
	"learning_rate": 0.00041276573426573426,
	"loss": 3.297,
	"step": 53650
	},
	{
	"epoch": 15.637777389481041,
	"grad_norm": 0.3697868883609772,
	"learning_rate": 0.00041259090909090906,
	"loss": 3.2839,
	"step": 53700
	},
	{
	"epoch": 15.652338517094764,
	"grad_norm": 0.3799356520175934,
	"learning_rate": 0.0004124160839160839,
	"loss": 3.3066,
	"step": 53750
	},
	{
	"epoch": 15.666899644708487,
	"grad_norm": 0.37823575735092163,
	"learning_rate": 0.0004122412587412587,
	"loss": 3.3015,
	"step": 53800
	},
	{
	"epoch": 15.68146077232221,
	"grad_norm": 0.4178929030895233,
	"learning_rate": 0.00041206643356643356,
	"loss": 3.2922,
	"step": 53850
	},
	{
	"epoch": 15.69602189993593,
	"grad_norm": 0.33638760447502136,
	"learning_rate": 0.0004118916083916083,
	"loss": 3.297,
	"step": 53900
	},
	{
	"epoch": 15.710583027549653,
	"grad_norm": 0.38494572043418884,
	"learning_rate": 0.00041171678321678316,
	"loss": 3.2964,
	"step": 53950
	},
	{
	"epoch": 15.725144155163376,
	"grad_norm": 0.3939765393733978,
	"learning_rate": 0.00041154195804195796,
	"loss": 3.2904,
	"step": 54000
	},
	{
	"epoch": 15.725144155163376,
	"eval_accuracy": 0.3723768549322099,
	"eval_loss": 3.5429139137268066,
	"eval_runtime": 202.3548,
	"eval_samples_per_second": 82.261,
	"eval_steps_per_second": 5.144,
	"step": 54000
	},
	{
	"epoch": 15.739705282777098,
	"grad_norm": 0.36110496520996094,
	"learning_rate": 0.0004113671328671328,
	"loss": 3.304,
	"step": 54050
	},
	{
	"epoch": 15.754266410390821,
	"grad_norm": 0.3761616051197052,
	"learning_rate": 0.00041119230769230767,
	"loss": 3.2897,
	"step": 54100
	},
	{
	"epoch": 15.768827538004544,
	"grad_norm": 0.38120609521865845,
	"learning_rate": 0.00041101748251748247,
	"loss": 3.2999,
	"step": 54150
	},
	{
	"epoch": 15.783388665618265,
	"grad_norm": 0.36932608485221863,
	"learning_rate": 0.0004108426573426573,
	"loss": 3.2853,
	"step": 54200
	},
	{
	"epoch": 15.797949793231988,
	"grad_norm": 0.37278443574905396,
	"learning_rate": 0.0004106678321678321,
	"loss": 3.2879,
	"step": 54250
	},
	{
	"epoch": 15.81251092084571,
	"grad_norm": 0.38825732469558716,
	"learning_rate": 0.000410493006993007,
	"loss": 3.3032,
	"step": 54300
	},
	{
	"epoch": 15.827072048459433,
	"grad_norm": 0.3719865679740906,
	"learning_rate": 0.0004103181818181818,
	"loss": 3.308,
	"step": 54350
	},
	{
	"epoch": 15.841633176073156,
	"grad_norm": 0.39769595861434937,
	"learning_rate": 0.00041014335664335663,
	"loss": 3.3053,
	"step": 54400
	},
	{
	"epoch": 15.856194303686877,
	"grad_norm": 0.3751024007797241,
	"learning_rate": 0.00040996853146853143,
	"loss": 3.2993,
	"step": 54450
	},
	{
	"epoch": 15.8707554313006,
	"grad_norm": 0.3529784679412842,
	"learning_rate": 0.0004097937062937063,
	"loss": 3.3004,
	"step": 54500
	},
	{
	"epoch": 15.885316558914322,
	"grad_norm": 0.37733763456344604,
	"learning_rate": 0.0004096188811188811,
	"loss": 3.2994,
	"step": 54550
	},
	{
	"epoch": 15.899877686528045,
	"grad_norm": 0.37086179852485657,
	"learning_rate": 0.00040944405594405594,
	"loss": 3.2952,
	"step": 54600
	},
	{
	"epoch": 15.914438814141768,
	"grad_norm": 0.416424036026001,
	"learning_rate": 0.0004092692307692307,
	"loss": 3.3018,
	"step": 54650
	},
	{
	"epoch": 15.928999941755489,
	"grad_norm": 0.39904865622520447,
	"learning_rate": 0.00040909440559440554,
	"loss": 3.3005,
	"step": 54700
	},
	{
	"epoch": 15.943561069369212,
	"grad_norm": 0.38030996918678284,
	"learning_rate": 0.00040891958041958034,
	"loss": 3.3018,
	"step": 54750
	},
	{
	"epoch": 15.958122196982934,
	"grad_norm": 0.38479670882225037,
	"learning_rate": 0.0004087447552447552,
	"loss": 3.3043,
	"step": 54800
	},
	{
	"epoch": 15.972683324596657,
	"grad_norm": 0.359994500875473,
	"learning_rate": 0.00040856993006993005,
	"loss": 3.3096,
	"step": 54850
	},
	{
	"epoch": 15.98724445221038,
	"grad_norm": 0.3941158950328827,
	"learning_rate": 0.00040839510489510485,
	"loss": 3.3085,
	"step": 54900
	},
	{
	"epoch": 16.001747335313645,
	"grad_norm": 0.4093943238258362,
	"learning_rate": 0.0004082202797202797,
	"loss": 3.3071,
	"step": 54950
	},
	{
	"epoch": 16.01630846292737,
	"grad_norm": 0.3764057457447052,
	"learning_rate": 0.0004080454545454545,
	"loss": 3.1954,
	"step": 55000
	},
	{
	"epoch": 16.01630846292737,
	"eval_accuracy": 0.37222978411037905,
	"eval_loss": 3.551542043685913,
	"eval_runtime": 224.7042,
	"eval_samples_per_second": 74.08,
	"eval_steps_per_second": 4.633,
	"step": 55000
	},
	{
	"epoch": 16.03086959054109,
	"grad_norm": 0.38292109966278076,
	"learning_rate": 0.00040787062937062935,
	"loss": 3.2015,
	"step": 55050
	},
	{
	"epoch": 16.045430718154815,
	"grad_norm": 0.4004324972629547,
	"learning_rate": 0.00040769580419580415,
	"loss": 3.1914,
	"step": 55100
	},
	{
	"epoch": 16.059991845768536,
	"grad_norm": 0.39811986684799194,
	"learning_rate": 0.000407520979020979,
	"loss": 3.2156,
	"step": 55150
	},
	{
	"epoch": 16.074552973382257,
	"grad_norm": 0.3610599935054779,
	"learning_rate": 0.0004073461538461538,
	"loss": 3.2128,
	"step": 55200
	},
	{
	"epoch": 16.08911410099598,
	"grad_norm": 0.3569590449333191,
	"learning_rate": 0.00040717132867132866,
	"loss": 3.2195,
	"step": 55250
	},
	{
	"epoch": 16.103675228609703,
	"grad_norm": 0.38127443194389343,
	"learning_rate": 0.00040699650349650346,
	"loss": 3.2195,
	"step": 55300
	},
	{
	"epoch": 16.118236356223427,
	"grad_norm": 0.37626177072525024,
	"learning_rate": 0.0004068216783216783,
	"loss": 3.2321,
	"step": 55350
	},
	{
	"epoch": 16.132797483837148,
	"grad_norm": 0.39430075883865356,
	"learning_rate": 0.00040664685314685306,
	"loss": 3.2147,
	"step": 55400
	},
	{
	"epoch": 16.14735861145087,
	"grad_norm": 0.39753103256225586,
	"learning_rate": 0.0004064720279720279,
	"loss": 3.2395,
	"step": 55450
	},
	{
	"epoch": 16.161919739064594,
	"grad_norm": 0.39400920271873474,
	"learning_rate": 0.00040629720279720277,
	"loss": 3.2244,
	"step": 55500
	},
	{
	"epoch": 16.176480866678315,
	"grad_norm": 0.3588741719722748,
	"learning_rate": 0.00040612237762237757,
	"loss": 3.2348,
	"step": 55550
	},
	{
	"epoch": 16.19104199429204,
	"grad_norm": 0.38264986872673035,
	"learning_rate": 0.0004059475524475524,
	"loss": 3.2271,
	"step": 55600
	},
	{
	"epoch": 16.20560312190576,
	"grad_norm": 0.3960827589035034,
	"learning_rate": 0.0004057727272727272,
	"loss": 3.2539,
	"step": 55650
	},
	{
	"epoch": 16.22016424951948,
	"grad_norm": 0.37086227536201477,
	"learning_rate": 0.0004055979020979021,
	"loss": 3.227,
	"step": 55700
	},
	{
	"epoch": 16.234725377133206,
	"grad_norm": 0.36380138993263245,
	"learning_rate": 0.0004054230769230769,
	"loss": 3.247,
	"step": 55750
	},
	{
	"epoch": 16.249286504746927,
	"grad_norm": 0.3885374069213867,
	"learning_rate": 0.00040524825174825173,
	"loss": 3.2482,
	"step": 55800
	},
	{
	"epoch": 16.26384763236065,
	"grad_norm": 0.3623849153518677,
	"learning_rate": 0.00040507342657342653,
	"loss": 3.2442,
	"step": 55850
	},
	{
	"epoch": 16.278408759974372,
	"grad_norm": 0.3633931279182434,
	"learning_rate": 0.0004048986013986014,
	"loss": 3.2488,
	"step": 55900
	},
	{
	"epoch": 16.292969887588093,
	"grad_norm": 0.4284801483154297,
	"learning_rate": 0.0004047237762237762,
	"loss": 3.2495,
	"step": 55950
	},
	{
	"epoch": 16.307531015201818,
	"grad_norm": 0.36431336402893066,
	"learning_rate": 0.00040454895104895104,
	"loss": 3.2552,
	"step": 56000
	},
	{
	"epoch": 16.307531015201818,
	"eval_accuracy": 0.3717788139484742,
	"eval_loss": 3.5528135299682617,
	"eval_runtime": 181.2816,
	"eval_samples_per_second": 91.824,
	"eval_steps_per_second": 5.742,
	"step": 56000
	},
	{
	"epoch": 16.32209214281554,
	"grad_norm": 0.4063562750816345,
	"learning_rate": 0.00040437412587412583,
	"loss": 3.2598,
	"step": 56050
	},
	{
	"epoch": 16.336653270429263,
	"grad_norm": 0.3874892592430115,
	"learning_rate": 0.0004041993006993007,
	"loss": 3.2614,
	"step": 56100
	},
	{
	"epoch": 16.351214398042984,
	"grad_norm": 0.37387025356292725,
	"learning_rate": 0.00040402447552447554,
	"loss": 3.2533,
	"step": 56150
	},
	{
	"epoch": 16.36577552565671,
	"grad_norm": 0.38675811886787415,
	"learning_rate": 0.0004038496503496503,
	"loss": 3.2581,
	"step": 56200
	},
	{
	"epoch": 16.38033665327043,
	"grad_norm": 0.37908634543418884,
	"learning_rate": 0.00040367482517482514,
	"loss": 3.2583,
	"step": 56250
	},
	{
	"epoch": 16.39489778088415,
	"grad_norm": 0.3693457245826721,
	"learning_rate": 0.00040349999999999994,
	"loss": 3.2517,
	"step": 56300
	},
	{
	"epoch": 16.409458908497875,
	"grad_norm": 0.38305196166038513,
	"learning_rate": 0.0004033251748251748,
	"loss": 3.2707,
	"step": 56350
	},
	{
	"epoch": 16.424020036111596,
	"grad_norm": 0.38687750697135925,
	"learning_rate": 0.0004031503496503496,
	"loss": 3.2524,
	"step": 56400
	},
	{
	"epoch": 16.43858116372532,
	"grad_norm": 0.36994367837905884,
	"learning_rate": 0.00040297552447552445,
	"loss": 3.2658,
	"step": 56450
	},
	{
	"epoch": 16.45314229133904,
	"grad_norm": 0.3925367295742035,
	"learning_rate": 0.00040280069930069925,
	"loss": 3.254,
	"step": 56500
	},
	{
	"epoch": 16.467703418952762,
	"grad_norm": 0.37788835167884827,
	"learning_rate": 0.0004026258741258741,
	"loss": 3.2669,
	"step": 56550
	},
	{
	"epoch": 16.482264546566487,
	"grad_norm": 0.370782732963562,
	"learning_rate": 0.0004024510489510489,
	"loss": 3.2512,
	"step": 56600
	},
	{
	"epoch": 16.496825674180208,
	"grad_norm": 0.37966829538345337,
	"learning_rate": 0.00040227622377622376,
	"loss": 3.2771,
	"step": 56650
	},
	{
	"epoch": 16.511386801793932,
	"grad_norm": 0.3862817883491516,
	"learning_rate": 0.00040210139860139856,
	"loss": 3.2721,
	"step": 56700
	},
	{
	"epoch": 16.525947929407653,
	"grad_norm": 0.38935843110084534,
	"learning_rate": 0.0004019265734265734,
	"loss": 3.2803,
	"step": 56750
	},
	{
	"epoch": 16.540509057021374,
	"grad_norm": 0.3634398877620697,
	"learning_rate": 0.0004017517482517482,
	"loss": 3.2703,
	"step": 56800
	},
	{
	"epoch": 16.5550701846351,
	"grad_norm": 0.3821653127670288,
	"learning_rate": 0.00040157692307692306,
	"loss": 3.271,
	"step": 56850
	},
	{
	"epoch": 16.56963131224882,
	"grad_norm": 0.4057944715023041,
	"learning_rate": 0.0004014020979020979,
	"loss": 3.2701,
	"step": 56900
	},
	{
	"epoch": 16.584192439862544,
	"grad_norm": 0.38798093795776367,
	"learning_rate": 0.00040122727272727266,
	"loss": 3.2679,
	"step": 56950
	},
	{
	"epoch": 16.598753567476265,
	"grad_norm": 0.3680713474750519,
	"learning_rate": 0.0004010524475524475,
	"loss": 3.2751,
	"step": 57000
	},
	{
	"epoch": 16.598753567476265,
	"eval_accuracy": 0.37280078569441766,
	"eval_loss": 3.543818235397339,
	"eval_runtime": 181.427,
	"eval_samples_per_second": 91.75,
	"eval_steps_per_second": 5.738,
	"step": 57000
	},
	{
	"epoch": 16.613314695089986,
	"grad_norm": 0.37805137038230896,
	"learning_rate": 0.0004008776223776223,
	"loss": 3.2773,
	"step": 57050
	},
	{
	"epoch": 16.62787582270371,
	"grad_norm": 0.3803144097328186,
	"learning_rate": 0.00040070279720279717,
	"loss": 3.2769,
	"step": 57100
	},
	{
	"epoch": 16.642436950317432,
	"grad_norm": 0.3835834562778473,
	"learning_rate": 0.00040052797202797197,
	"loss": 3.2722,
	"step": 57150
	},
	{
	"epoch": 16.656998077931156,
	"grad_norm": 0.374383807182312,
	"learning_rate": 0.0004003531468531468,
	"loss": 3.2784,
	"step": 57200
	},
	{
	"epoch": 16.671559205544877,
	"grad_norm": 0.3727409839630127,
	"learning_rate": 0.0004001783216783216,
	"loss": 3.2862,
	"step": 57250
	},
	{
	"epoch": 16.6861203331586,
	"grad_norm": 0.37330153584480286,
	"learning_rate": 0.0004000034965034965,
	"loss": 3.2933,
	"step": 57300
	},
	{
	"epoch": 16.700681460772323,
	"grad_norm": 0.3724009394645691,
	"learning_rate": 0.0003998286713286713,
	"loss": 3.2905,
	"step": 57350
	},
	{
	"epoch": 16.715242588386044,
	"grad_norm": 0.40461817383766174,
	"learning_rate": 0.00039965384615384613,
	"loss": 3.2834,
	"step": 57400
	},
	{
	"epoch": 16.72980371599977,
	"grad_norm": 0.3559574782848358,
	"learning_rate": 0.00039947902097902093,
	"loss": 3.2804,
	"step": 57450
	},
	{
	"epoch": 16.74436484361349,
	"grad_norm": 0.38186269998550415,
	"learning_rate": 0.0003993041958041958,
	"loss": 3.2892,
	"step": 57500
	},
	{
	"epoch": 16.75892597122721,
	"grad_norm": 0.4213004410266876,
	"learning_rate": 0.00039912937062937064,
	"loss": 3.282,
	"step": 57550
	},
	{
	"epoch": 16.773487098840935,
	"grad_norm": 0.37131091952323914,
	"learning_rate": 0.00039895454545454544,
	"loss": 3.2779,
	"step": 57600
	},
	{
	"epoch": 16.788048226454656,
	"grad_norm": 0.37532955408096313,
	"learning_rate": 0.0003987797202797203,
	"loss": 3.2911,
	"step": 57650
	},
	{
	"epoch": 16.80260935406838,
	"grad_norm": 0.41479650139808655,
	"learning_rate": 0.00039860489510489504,
	"loss": 3.2926,
	"step": 57700
	},
	{
	"epoch": 16.8171704816821,
	"grad_norm": 0.40581607818603516,
	"learning_rate": 0.0003984300699300699,
	"loss": 3.2895,
	"step": 57750
	},
	{
	"epoch": 16.831731609295822,
	"grad_norm": 0.37579381465911865,
	"learning_rate": 0.0003982552447552447,
	"loss": 3.2862,
	"step": 57800
	},
	{
	"epoch": 16.846292736909547,
	"grad_norm": 0.38346877694129944,
	"learning_rate": 0.00039808041958041955,
	"loss": 3.2917,
	"step": 57850
	},
	{
	"epoch": 16.860853864523268,
	"grad_norm": 0.3862057328224182,
	"learning_rate": 0.00039790559440559435,
	"loss": 3.2912,
	"step": 57900
	},
	{
	"epoch": 16.875414992136992,
	"grad_norm": 0.36858367919921875,
	"learning_rate": 0.0003977307692307692,
	"loss": 3.2872,
	"step": 57950
	},
	{
	"epoch": 16.889976119750713,
	"grad_norm": 0.37914177775382996,
	"learning_rate": 0.000397555944055944,
	"loss": 3.2981,
	"step": 58000
	},
	{
	"epoch": 16.889976119750713,
	"eval_accuracy": 0.37295396977183215,
	"eval_loss": 3.536424398422241,
	"eval_runtime": 181.4266,
	"eval_samples_per_second": 91.751,
	"eval_steps_per_second": 5.738,
	"step": 58000
	},
	{
	"epoch": 16.904537247364434,
	"grad_norm": 0.3646220266819,
	"learning_rate": 0.00039738111888111885,
	"loss": 3.2928,
	"step": 58050
	},
	{
	"epoch": 16.91909837497816,
	"grad_norm": 0.3765883445739746,
	"learning_rate": 0.00039720629370629365,
	"loss": 3.293,
	"step": 58100
	},
	{
	"epoch": 16.93365950259188,
	"grad_norm": 0.3603968322277069,
	"learning_rate": 0.0003970314685314685,
	"loss": 3.2846,
	"step": 58150
	},
	{
	"epoch": 16.948220630205604,
	"grad_norm": 0.38871946930885315,
	"learning_rate": 0.0003968566433566433,
	"loss": 3.2851,
	"step": 58200
	},
	{
	"epoch": 16.962781757819325,
	"grad_norm": 0.3598012626171112,
	"learning_rate": 0.00039668181818181816,
	"loss": 3.3014,
	"step": 58250
	},
	{
	"epoch": 16.977342885433046,
	"grad_norm": 0.34035736322402954,
	"learning_rate": 0.000396506993006993,
	"loss": 3.301,
	"step": 58300
	},
	{
	"epoch": 16.99190401304677,
	"grad_norm": 0.41209015250205994,
	"learning_rate": 0.0003963321678321678,
	"loss": 3.2904,
	"step": 58350
	},
	{
	"epoch": 17.006406896150036,
	"grad_norm": 0.37024733424186707,
	"learning_rate": 0.00039615734265734267,
	"loss": 3.2411,
	"step": 58400
	},
	{
	"epoch": 17.02096802376376,
	"grad_norm": 0.37371373176574707,
	"learning_rate": 0.0003959825174825174,
	"loss": 3.1822,
	"step": 58450
	},
	{
	"epoch": 17.03552915137748,
	"grad_norm": 0.3961547911167145,
	"learning_rate": 0.00039580769230769227,
	"loss": 3.1896,
	"step": 58500
	},
	{
	"epoch": 17.050090278991206,
	"grad_norm": 0.4139074385166168,
	"learning_rate": 0.00039563286713286707,
	"loss": 3.1983,
	"step": 58550
	},
	{
	"epoch": 17.064651406604927,
	"grad_norm": 0.36274170875549316,
	"learning_rate": 0.0003954580419580419,
	"loss": 3.2071,
	"step": 58600
	},
	{
	"epoch": 17.07921253421865,
	"grad_norm": 0.40999776124954224,
	"learning_rate": 0.0003952832167832167,
	"loss": 3.2004,
	"step": 58650
	},
	{
	"epoch": 17.093773661832373,
	"grad_norm": 0.38540902733802795,
	"learning_rate": 0.0003951083916083916,
	"loss": 3.2124,
	"step": 58700
	},
	{
	"epoch": 17.108334789446094,
	"grad_norm": 0.41332516074180603,
	"learning_rate": 0.0003949335664335664,
	"loss": 3.2163,
	"step": 58750
	},
	{
	"epoch": 17.122895917059818,
	"grad_norm": 0.394908607006073,
	"learning_rate": 0.00039475874125874123,
	"loss": 3.2062,
	"step": 58800
	},
	{
	"epoch": 17.13745704467354,
	"grad_norm": 0.3662570118904114,
	"learning_rate": 0.00039458391608391603,
	"loss": 3.2192,
	"step": 58850
	},
	{
	"epoch": 17.152018172287264,
	"grad_norm": 0.3641432523727417,
	"learning_rate": 0.0003944090909090909,
	"loss": 3.2159,
	"step": 58900
	},
	{
	"epoch": 17.166579299900985,
	"grad_norm": 0.3532322943210602,
	"learning_rate": 0.00039423426573426573,
	"loss": 3.2213,
	"step": 58950
	},
	{
	"epoch": 17.181140427514705,
	"grad_norm": 0.39691367745399475,
	"learning_rate": 0.00039405944055944053,
	"loss": 3.2182,
	"step": 59000
	},
	{
	"epoch": 17.181140427514705,
	"eval_accuracy": 0.37223095973645287,
	"eval_loss": 3.5541632175445557,
	"eval_runtime": 181.4029,
	"eval_samples_per_second": 91.763,
	"eval_steps_per_second": 5.739,
	"step": 59000
	},
	{
	"epoch": 17.19570155512843,
	"grad_norm": 0.3973633050918579,
	"learning_rate": 0.0003938846153846154,
	"loss": 3.2106,
	"step": 59050
	},
	{
	"epoch": 17.21026268274215,
	"grad_norm": 0.36320367455482483,
	"learning_rate": 0.0003937097902097902,
	"loss": 3.2215,
	"step": 59100
	},
	{
	"epoch": 17.224823810355876,
	"grad_norm": 0.4017624855041504,
	"learning_rate": 0.00039353496503496504,
	"loss": 3.2241,
	"step": 59150
	},
	{
	"epoch": 17.239384937969596,
	"grad_norm": 0.3894210457801819,
	"learning_rate": 0.0003933601398601398,
	"loss": 3.2272,
	"step": 59200
	},
	{
	"epoch": 17.253946065583317,
	"grad_norm": 0.38473623991012573,
	"learning_rate": 0.00039318531468531464,
	"loss": 3.2452,
	"step": 59250
	},
	{
	"epoch": 17.268507193197042,
	"grad_norm": 0.3801329731941223,
	"learning_rate": 0.00039301048951048944,
	"loss": 3.2393,
	"step": 59300
	},
	{
	"epoch": 17.283068320810763,
	"grad_norm": 0.4249562919139862,
	"learning_rate": 0.0003928356643356643,
	"loss": 3.2346,
	"step": 59350
	},
	{
	"epoch": 17.297629448424487,
	"grad_norm": 0.390713632106781,
	"learning_rate": 0.0003926608391608391,
	"loss": 3.2371,
	"step": 59400
	},
	{
	"epoch": 17.31219057603821,
	"grad_norm": 0.41129425168037415,
	"learning_rate": 0.00039248601398601395,
	"loss": 3.2415,
	"step": 59450
	},
	{
	"epoch": 17.32675170365193,
	"grad_norm": 0.3896760940551758,
	"learning_rate": 0.00039231118881118875,
	"loss": 3.2395,
	"step": 59500
	},
	{
	"epoch": 17.341312831265654,
	"grad_norm": 0.3870900869369507,
	"learning_rate": 0.0003921363636363636,
	"loss": 3.253,
	"step": 59550
	},
	{
	"epoch": 17.355873958879375,
	"grad_norm": 0.4042428731918335,
	"learning_rate": 0.00039196153846153846,
	"loss": 3.2365,
	"step": 59600
	},
	{
	"epoch": 17.3704350864931,
	"grad_norm": 0.3771011233329773,
	"learning_rate": 0.00039178671328671326,
	"loss": 3.2493,
	"step": 59650
	},
	{
	"epoch": 17.38499621410682,
	"grad_norm": 0.3748337924480438,
	"learning_rate": 0.0003916118881118881,
	"loss": 3.2468,
	"step": 59700
	},
	{
	"epoch": 17.39955734172054,
	"grad_norm": 0.3741134703159332,
	"learning_rate": 0.0003914370629370629,
	"loss": 3.2559,
	"step": 59750
	},
	{
	"epoch": 17.414118469334266,
	"grad_norm": 0.39321649074554443,
	"learning_rate": 0.00039126223776223776,
	"loss": 3.2449,
	"step": 59800
	},
	{
	"epoch": 17.428679596947987,
	"grad_norm": 0.3862929344177246,
	"learning_rate": 0.00039108741258741256,
	"loss": 3.2443,
	"step": 59850
	},
	{
	"epoch": 17.44324072456171,
	"grad_norm": 0.40072572231292725,
	"learning_rate": 0.0003909125874125874,
	"loss": 3.2471,
	"step": 59900
	},
	{
	"epoch": 17.457801852175432,
	"grad_norm": 0.4031667113304138,
	"learning_rate": 0.00039073776223776216,
	"loss": 3.2473,
	"step": 59950
	},
	{
	"epoch": 17.472362979789153,
	"grad_norm": 0.39461931586265564,
	"learning_rate": 0.000390562937062937,
	"loss": 3.261,
	"step": 60000
	},
	{
	"epoch": 17.472362979789153,
	"eval_accuracy": 0.3726906295313038,
	"eval_loss": 3.5467474460601807,
	"eval_runtime": 181.6124,
	"eval_samples_per_second": 91.657,
	"eval_steps_per_second": 5.732,
	"step": 60000
	},
	{
	"epoch": 17.486924107402878,
	"grad_norm": 0.4082168638706207,
	"learning_rate": 0.0003903881118881118,
	"loss": 3.255,
	"step": 60050
	},
	{
	"epoch": 17.5014852350166,
	"grad_norm": 0.4216744899749756,
	"learning_rate": 0.00039021328671328667,
	"loss": 3.2661,
	"step": 60100
	},
	{
	"epoch": 17.516046362630323,
	"grad_norm": 0.38183650374412537,
	"learning_rate": 0.00039003846153846147,
	"loss": 3.2623,
	"step": 60150
	},
	{
	"epoch": 17.530607490244044,
	"grad_norm": 0.38617098331451416,
	"learning_rate": 0.0003898636363636363,
	"loss": 3.2568,
	"step": 60200
	},
	{
	"epoch": 17.545168617857765,
	"grad_norm": 0.40580758452415466,
	"learning_rate": 0.0003896888111888111,
	"loss": 3.2626,
	"step": 60250
	},
	{
	"epoch": 17.55972974547149,
	"grad_norm": 0.4091379642486572,
	"learning_rate": 0.000389513986013986,
	"loss": 3.2525,
	"step": 60300
	},
	{
	"epoch": 17.57429087308521,
	"grad_norm": 0.36811408400535583,
	"learning_rate": 0.00038933916083916083,
	"loss": 3.2698,
	"step": 60350
	},
	{
	"epoch": 17.588852000698935,
	"grad_norm": 0.36896032094955444,
	"learning_rate": 0.00038916433566433563,
	"loss": 3.2636,
	"step": 60400
	},
	{
	"epoch": 17.603413128312656,
	"grad_norm": 0.3820686340332031,
	"learning_rate": 0.0003889895104895105,
	"loss": 3.2738,
	"step": 60450
	},
	{
	"epoch": 17.617974255926377,
	"grad_norm": 0.4073737561702728,
	"learning_rate": 0.0003888146853146853,
	"loss": 3.2677,
	"step": 60500
	},
	{
	"epoch": 17.6325353835401,
	"grad_norm": 0.3798710107803345,
	"learning_rate": 0.00038863986013986014,
	"loss": 3.2739,
	"step": 60550
	},
	{
	"epoch": 17.647096511153823,
	"grad_norm": 0.413150429725647,
	"learning_rate": 0.00038846503496503494,
	"loss": 3.2687,
	"step": 60600
	},
	{
	"epoch": 17.661657638767547,
	"grad_norm": 0.37528276443481445,
	"learning_rate": 0.0003882902097902098,
	"loss": 3.2653,
	"step": 60650
	},
	{
	"epoch": 17.676218766381268,
	"grad_norm": 0.40495121479034424,
	"learning_rate": 0.00038811538461538454,
	"loss": 3.2781,
	"step": 60700
	},
	{
	"epoch": 17.690779893994993,
	"grad_norm": 0.3710327446460724,
	"learning_rate": 0.0003879405594405594,
	"loss": 3.258,
	"step": 60750
	},
	{
	"epoch": 17.705341021608714,
	"grad_norm": 0.3918648064136505,
	"learning_rate": 0.0003877657342657342,
	"loss": 3.266,
	"step": 60800
	},
	{
	"epoch": 17.719902149222435,
	"grad_norm": 0.3934940993785858,
	"learning_rate": 0.00038759090909090905,
	"loss": 3.2684,
	"step": 60850
	},
	{
	"epoch": 17.73446327683616,
	"grad_norm": 0.41869670152664185,
	"learning_rate": 0.00038741608391608384,
	"loss": 3.2637,
	"step": 60900
	},
	{
	"epoch": 17.74902440444988,
	"grad_norm": 0.3695789575576782,
	"learning_rate": 0.0003872412587412587,
	"loss": 3.2686,
	"step": 60950
	},
	{
	"epoch": 17.763585532063605,
	"grad_norm": 0.4143275320529938,
	"learning_rate": 0.00038706643356643355,
	"loss": 3.2801,
	"step": 61000
	},
	{
	"epoch": 17.763585532063605,
	"eval_accuracy": 0.37312643411685675,
	"eval_loss": 3.5362603664398193,
	"eval_runtime": 181.741,
	"eval_samples_per_second": 91.592,
	"eval_steps_per_second": 5.728,
	"step": 61000
	},
	{
	"epoch": 17.778146659677326,
	"grad_norm": 0.36733829975128174,
	"learning_rate": 0.00038689160839160835,
	"loss": 3.2712,
	"step": 61050
	},
	{
	"epoch": 17.792707787291047,
	"grad_norm": 0.39132675528526306,
	"learning_rate": 0.0003867167832167832,
	"loss": 3.2772,
	"step": 61100
	},
	{
	"epoch": 17.80726891490477,
	"grad_norm": 0.3637419044971466,
	"learning_rate": 0.000386541958041958,
	"loss": 3.2711,
	"step": 61150
	},
	{
	"epoch": 17.821830042518492,
	"grad_norm": 0.39945223927497864,
	"learning_rate": 0.00038636713286713286,
	"loss": 3.2662,
	"step": 61200
	},
	{
	"epoch": 17.836391170132217,
	"grad_norm": 0.3926716148853302,
	"learning_rate": 0.00038619230769230766,
	"loss": 3.2793,
	"step": 61250
	},
	{
	"epoch": 17.850952297745938,
	"grad_norm": 0.38200077414512634,
	"learning_rate": 0.0003860174825174825,
	"loss": 3.2801,
	"step": 61300
	},
	{
	"epoch": 17.86551342535966,
	"grad_norm": 0.383569598197937,
	"learning_rate": 0.0003858426573426573,
	"loss": 3.2805,
	"step": 61350
	},
	{
	"epoch": 17.880074552973383,
	"grad_norm": 0.39642050862312317,
	"learning_rate": 0.00038566783216783217,
	"loss": 3.2796,
	"step": 61400
	},
	{
	"epoch": 17.894635680587104,
	"grad_norm": 0.36815083026885986,
	"learning_rate": 0.0003854930069930069,
	"loss": 3.2764,
	"step": 61450
	},
	{
	"epoch": 17.90919680820083,
	"grad_norm": 0.3897499442100525,
	"learning_rate": 0.00038531818181818177,
	"loss": 3.2772,
	"step": 61500
	},
	{
	"epoch": 17.92375793581455,
	"grad_norm": 0.37837308645248413,
	"learning_rate": 0.00038514335664335657,
	"loss": 3.2797,
	"step": 61550
	},
	{
	"epoch": 17.93831906342827,
	"grad_norm": 0.41439804434776306,
	"learning_rate": 0.0003849685314685314,
	"loss": 3.2879,
	"step": 61600
	},
	{
	"epoch": 17.952880191041995,
	"grad_norm": 0.37204301357269287,
	"learning_rate": 0.0003847937062937062,
	"loss": 3.2851,
	"step": 61650
	},
	{
	"epoch": 17.967441318655716,
	"grad_norm": 0.3963753283023834,
	"learning_rate": 0.0003846188811188811,
	"loss": 3.2828,
	"step": 61700
	},
	{
	"epoch": 17.98200244626944,
	"grad_norm": 0.3774401545524597,
	"learning_rate": 0.00038444405594405593,
	"loss": 3.281,
	"step": 61750
	},
	{
	"epoch": 17.99656357388316,
	"grad_norm": 0.38163232803344727,
	"learning_rate": 0.00038426923076923073,
	"loss": 3.2773,
	"step": 61800
	},
	{
	"epoch": 18.01106645698643,
	"grad_norm": 0.39165937900543213,
	"learning_rate": 0.0003840944055944056,
	"loss": 3.2078,
	"step": 61850
	},
	{
	"epoch": 18.02562758460015,
	"grad_norm": 0.3841058313846588,
	"learning_rate": 0.0003839195804195804,
	"loss": 3.1829,
	"step": 61900
	},
	{
	"epoch": 18.040188712213872,
	"grad_norm": 0.40802210569381714,
	"learning_rate": 0.00038374475524475523,
	"loss": 3.1849,
	"step": 61950
	},
	{
	"epoch": 18.054749839827597,
	"grad_norm": 0.3776838779449463,
	"learning_rate": 0.00038356993006993003,
	"loss": 3.1875,
	"step": 62000
	},
	{
	"epoch": 18.054749839827597,
	"eval_accuracy": 0.372360748854999,
	"eval_loss": 3.554863929748535,
	"eval_runtime": 181.5806,
	"eval_samples_per_second": 91.673,
	"eval_steps_per_second": 5.733,
	"step": 62000
	},
	{
	"epoch": 18.069310967441318,
	"grad_norm": 0.3968208432197571,
	"learning_rate": 0.0003833951048951049,
	"loss": 3.1835,
	"step": 62050
	},
	{
	"epoch": 18.083872095055042,
	"grad_norm": 0.40352922677993774,
	"learning_rate": 0.0003832202797202797,
	"loss": 3.182,
	"step": 62100
	},
	{
	"epoch": 18.098433222668763,
	"grad_norm": 0.3768850564956665,
	"learning_rate": 0.00038304545454545454,
	"loss": 3.2048,
	"step": 62150
	},
	{
	"epoch": 18.112994350282484,
	"grad_norm": 0.4197027385234833,
	"learning_rate": 0.0003828706293706293,
	"loss": 3.2066,
	"step": 62200
	},
	{
	"epoch": 18.12755547789621,
	"grad_norm": 0.4093753397464752,
	"learning_rate": 0.00038269580419580414,
	"loss": 3.2117,
	"step": 62250
	},
	{
	"epoch": 18.14211660550993,
	"grad_norm": 0.37517985701560974,
	"learning_rate": 0.00038252097902097894,
	"loss": 3.2091,
	"step": 62300
	},
	{
	"epoch": 18.156677733123654,
	"grad_norm": 0.3777500092983246,
	"learning_rate": 0.0003823461538461538,
	"loss": 3.2062,
	"step": 62350
	},
	{
	"epoch": 18.171238860737375,
	"grad_norm": 0.40095406770706177,
	"learning_rate": 0.00038217132867132865,
	"loss": 3.2225,
	"step": 62400
	},
	{
	"epoch": 18.185799988351096,
	"grad_norm": 0.3697664141654968,
	"learning_rate": 0.00038199650349650345,
	"loss": 3.2109,
	"step": 62450
	},
	{
	"epoch": 18.20036111596482,
	"grad_norm": 0.36581069231033325,
	"learning_rate": 0.0003818216783216783,
	"loss": 3.2116,
	"step": 62500
	},
	{
	"epoch": 18.214922243578542,
	"grad_norm": 0.3837885856628418,
	"learning_rate": 0.0003816468531468531,
	"loss": 3.2055,
	"step": 62550
	},
	{
	"epoch": 18.229483371192266,
	"grad_norm": 0.42037078738212585,
	"learning_rate": 0.00038147202797202796,
	"loss": 3.2034,
	"step": 62600
	},
	{
	"epoch": 18.244044498805987,
	"grad_norm": 0.4067479968070984,
	"learning_rate": 0.00038129720279720276,
	"loss": 3.2087,
	"step": 62650
	},
	{
	"epoch": 18.25860562641971,
	"grad_norm": 0.3840962052345276,
	"learning_rate": 0.0003811223776223776,
	"loss": 3.2361,
	"step": 62700
	},
	{
	"epoch": 18.273166754033433,
	"grad_norm": 0.375093936920166,
	"learning_rate": 0.0003809475524475524,
	"loss": 3.2333,
	"step": 62750
	},
	{
	"epoch": 18.287727881647154,
	"grad_norm": 0.38850006461143494,
	"learning_rate": 0.00038077272727272726,
	"loss": 3.2303,
	"step": 62800
	},
	{
	"epoch": 18.30228900926088,
	"grad_norm": 0.4177054166793823,
	"learning_rate": 0.00038059790209790206,
	"loss": 3.2337,
	"step": 62850
	},
	{
	"epoch": 18.3168501368746,
	"grad_norm": 0.40772518515586853,
	"learning_rate": 0.0003804230769230769,
	"loss": 3.2256,
	"step": 62900
	},
	{
	"epoch": 18.33141126448832,
	"grad_norm": 0.3933784067630768,
	"learning_rate": 0.00038024825174825166,
	"loss": 3.2287,
	"step": 62950
	},
	{
	"epoch": 18.345972392102045,
	"grad_norm": 0.3855026066303253,
	"learning_rate": 0.0003800734265734265,
	"loss": 3.2276,
	"step": 63000
	},
	{
	"epoch": 18.345972392102045,
	"eval_accuracy": 0.37281912546116874,
	"eval_loss": 3.5480048656463623,
	"eval_runtime": 181.5485,
	"eval_samples_per_second": 91.689,
	"eval_steps_per_second": 5.734,
	"step": 63000
	},
	{
	"epoch": 18.360533519715766,
	"grad_norm": 0.39833077788352966,
	"learning_rate": 0.0003798986013986013,
	"loss": 3.2216,
	"step": 63050
	},
	{
	"epoch": 18.37509464732949,
	"grad_norm": 0.39158907532691956,
	"learning_rate": 0.00037972377622377617,
	"loss": 3.2331,
	"step": 63100
	},
	{
	"epoch": 18.38965577494321,
	"grad_norm": 0.3841773569583893,
	"learning_rate": 0.000379548951048951,
	"loss": 3.2408,
	"step": 63150
	},
	{
	"epoch": 18.404216902556932,
	"grad_norm": 0.392995685338974,
	"learning_rate": 0.0003793741258741258,
	"loss": 3.2356,
	"step": 63200
	},
	{
	"epoch": 18.418778030170657,
	"grad_norm": 0.40546339750289917,
	"learning_rate": 0.0003791993006993007,
	"loss": 3.2303,
	"step": 63250
	},
	{
	"epoch": 18.433339157784378,
	"grad_norm": 0.41558903455734253,
	"learning_rate": 0.0003790244755244755,
	"loss": 3.2352,
	"step": 63300
	},
	{
	"epoch": 18.447900285398102,
	"grad_norm": 0.3937760889530182,
	"learning_rate": 0.00037884965034965033,
	"loss": 3.232,
	"step": 63350
	},
	{
	"epoch": 18.462461413011823,
	"grad_norm": 0.3903751075267792,
	"learning_rate": 0.00037867482517482513,
	"loss": 3.2268,
	"step": 63400
	},
	{
	"epoch": 18.477022540625548,
	"grad_norm": 0.41812342405319214,
	"learning_rate": 0.0003785,
	"loss": 3.2368,
	"step": 63450
	},
	{
	"epoch": 18.49158366823927,
	"grad_norm": 0.37955912947654724,
	"learning_rate": 0.0003783251748251748,
	"loss": 3.2381,
	"step": 63500
	},
	{
	"epoch": 18.50614479585299,
	"grad_norm": 0.39163386821746826,
	"learning_rate": 0.00037815034965034964,
	"loss": 3.2593,
	"step": 63550
	},
	{
	"epoch": 18.520705923466714,
	"grad_norm": 0.3994816541671753,
	"learning_rate": 0.00037797552447552444,
	"loss": 3.2357,
	"step": 63600
	},
	{
	"epoch": 18.535267051080435,
	"grad_norm": 0.4218083322048187,
	"learning_rate": 0.0003778006993006993,
	"loss": 3.2518,
	"step": 63650
	},
	{
	"epoch": 18.54982817869416,
	"grad_norm": 0.4084559679031372,
	"learning_rate": 0.00037762587412587404,
	"loss": 3.2486,
	"step": 63700
	},
	{
	"epoch": 18.56438930630788,
	"grad_norm": 0.36928969621658325,
	"learning_rate": 0.0003774510489510489,
	"loss": 3.24,
	"step": 63750
	},
	{
	"epoch": 18.5789504339216,
	"grad_norm": 0.3866930603981018,
	"learning_rate": 0.0003772762237762238,
	"loss": 3.25,
	"step": 63800
	},
	{
	"epoch": 18.593511561535326,
	"grad_norm": 0.40036076307296753,
	"learning_rate": 0.00037710139860139854,
	"loss": 3.2509,
	"step": 63850
	},
	{
	"epoch": 18.608072689149047,
	"grad_norm": 0.38957899808883667,
	"learning_rate": 0.0003769265734265734,
	"loss": 3.248,
	"step": 63900
	},
	{
	"epoch": 18.62263381676277,
	"grad_norm": 0.3876812756061554,
	"learning_rate": 0.0003767517482517482,
	"loss": 3.254,
	"step": 63950
	},
	{
	"epoch": 18.637194944376493,
	"grad_norm": 0.40378889441490173,
	"learning_rate": 0.00037657692307692305,
	"loss": 3.2535,
	"step": 64000
	},
	{
	"epoch": 18.637194944376493,
	"eval_accuracy": 0.37327244687522115,
	"eval_loss": 3.53926157951355,
	"eval_runtime": 181.376,
	"eval_samples_per_second": 91.776,
	"eval_steps_per_second": 5.739,
	"step": 64000
	},
	{
	"epoch": 18.651756071990214,
	"grad_norm": 0.40529847145080566,
	"learning_rate": 0.00037640209790209785,
	"loss": 3.2524,
	"step": 64050
	},
	{
	"epoch": 18.666317199603938,
	"grad_norm": 0.3858989179134369,
	"learning_rate": 0.0003762272727272727,
	"loss": 3.266,
	"step": 64100
	},
	{
	"epoch": 18.68087832721766,
	"grad_norm": 0.402764230966568,
	"learning_rate": 0.0003760524475524475,
	"loss": 3.2595,
	"step": 64150
	},
	{
	"epoch": 18.695439454831384,
	"grad_norm": 0.42223840951919556,
	"learning_rate": 0.00037587762237762236,
	"loss": 3.2551,
	"step": 64200
	},
	{
	"epoch": 18.710000582445105,
	"grad_norm": 0.3946334719657898,
	"learning_rate": 0.00037570279720279716,
	"loss": 3.2581,
	"step": 64250
	},
	{
	"epoch": 18.724561710058826,
	"grad_norm": 0.38452982902526855,
	"learning_rate": 0.000375527972027972,
	"loss": 3.2568,
	"step": 64300
	},
	{
	"epoch": 18.73912283767255,
	"grad_norm": 0.3887118697166443,
	"learning_rate": 0.0003753531468531468,
	"loss": 3.2629,
	"step": 64350
	},
	{
	"epoch": 18.75368396528627,
	"grad_norm": 0.40216881036758423,
	"learning_rate": 0.00037517832167832167,
	"loss": 3.2633,
	"step": 64400
	},
	{
	"epoch": 18.768245092899996,
	"grad_norm": 0.4059422016143799,
	"learning_rate": 0.0003750034965034965,
	"loss": 3.2735,
	"step": 64450
	},
	{
	"epoch": 18.782806220513717,
	"grad_norm": 0.39602193236351013,
	"learning_rate": 0.00037482867132867127,
	"loss": 3.2626,
	"step": 64500
	},
	{
	"epoch": 18.797367348127437,
	"grad_norm": 0.39334166049957275,
	"learning_rate": 0.0003746538461538462,
	"loss": 3.2659,
	"step": 64550
	},
	{
	"epoch": 18.811928475741162,
	"grad_norm": 0.3972336947917938,
	"learning_rate": 0.0003744790209790209,
	"loss": 3.2565,
	"step": 64600
	},
	{
	"epoch": 18.826489603354883,
	"grad_norm": 0.3721438944339752,
	"learning_rate": 0.0003743041958041958,
	"loss": 3.2685,
	"step": 64650
	},
	{
	"epoch": 18.841050730968607,
	"grad_norm": 0.4226655066013336,
	"learning_rate": 0.0003741293706293706,
	"loss": 3.2777,
	"step": 64700
	},
	{
	"epoch": 18.85561185858233,
	"grad_norm": 0.38680168986320496,
	"learning_rate": 0.0003739545454545454,
	"loss": 3.2635,
	"step": 64750
	},
	{
	"epoch": 18.87017298619605,
	"grad_norm": 0.3778873682022095,
	"learning_rate": 0.0003737797202797202,
	"loss": 3.2742,
	"step": 64800
	},
	{
	"epoch": 18.884734113809774,
	"grad_norm": 0.38358810544013977,
	"learning_rate": 0.0003736048951048951,
	"loss": 3.2617,
	"step": 64850
	},
	{
	"epoch": 18.899295241423495,
	"grad_norm": 0.4202938377857208,
	"learning_rate": 0.0003734300699300699,
	"loss": 3.268,
	"step": 64900
	},
	{
	"epoch": 18.91385636903722,
	"grad_norm": 0.37639421224594116,
	"learning_rate": 0.00037325524475524473,
	"loss": 3.2762,
	"step": 64950
	},
	{
	"epoch": 18.92841749665094,
	"grad_norm": 0.3673178553581238,
	"learning_rate": 0.00037308041958041953,
	"loss": 3.2763,
	"step": 65000
	},
	{
	"epoch": 18.92841749665094,
	"eval_accuracy": 0.3738111187422306,
	"eval_loss": 3.5290017127990723,
	"eval_runtime": 181.6306,
	"eval_samples_per_second": 91.648,
	"eval_steps_per_second": 5.731,
	"step": 65000
	},
	{
	"epoch": 18.94297862426466,
	"grad_norm": 0.3887439966201782,
	"learning_rate": 0.0003729055944055944,
	"loss": 3.269,
	"step": 65050
	},
	{
	"epoch": 18.957539751878386,
	"grad_norm": 0.3968895971775055,
	"learning_rate": 0.0003727307692307692,
	"loss": 3.2634,
	"step": 65100
	},
	{
	"epoch": 18.972100879492107,
	"grad_norm": 0.35834673047065735,
	"learning_rate": 0.00037255594405594404,
	"loss": 3.2796,
	"step": 65150
	},
	{
	"epoch": 18.98666200710583,
	"grad_norm": 0.39905858039855957,
	"learning_rate": 0.0003723811188811189,
	"loss": 3.2806,
	"step": 65200
	},
	{
	"epoch": 19.001164890209097,
	"grad_norm": 0.4308378994464874,
	"learning_rate": 0.00037220629370629364,
	"loss": 3.2609,
	"step": 65250
	},
	{
	"epoch": 19.01572601782282,
	"grad_norm": 0.382627010345459,
	"learning_rate": 0.00037203146853146855,
	"loss": 3.1625,
	"step": 65300
	},
	{
	"epoch": 19.030287145436542,
	"grad_norm": 0.3864773213863373,
	"learning_rate": 0.0003718566433566433,
	"loss": 3.161,
	"step": 65350
	},
	{
	"epoch": 19.044848273050263,
	"grad_norm": 0.44940927624702454,
	"learning_rate": 0.00037168181818181815,
	"loss": 3.1772,
	"step": 65400
	},
	{
	"epoch": 19.059409400663988,
	"grad_norm": 0.38539499044418335,
	"learning_rate": 0.00037150699300699295,
	"loss": 3.1838,
	"step": 65450
	},
	{
	"epoch": 19.07397052827771,
	"grad_norm": 0.3811834454536438,
	"learning_rate": 0.0003713321678321678,
	"loss": 3.1818,
	"step": 65500
	},
	{
	"epoch": 19.088531655891433,
	"grad_norm": 0.3792768120765686,
	"learning_rate": 0.0003711573426573426,
	"loss": 3.178,
	"step": 65550
	},
	{
	"epoch": 19.103092783505154,
	"grad_norm": 0.40748918056488037,
	"learning_rate": 0.00037098251748251746,
	"loss": 3.1902,
	"step": 65600
	},
	{
	"epoch": 19.11765391111888,
	"grad_norm": 0.3937475383281708,
	"learning_rate": 0.00037080769230769226,
	"loss": 3.1973,
	"step": 65650
	},
	{
	"epoch": 19.1322150387326,
	"grad_norm": 0.3816971778869629,
	"learning_rate": 0.0003706328671328671,
	"loss": 3.1828,
	"step": 65700
	},
	{
	"epoch": 19.14677616634632,
	"grad_norm": 0.4283738136291504,
	"learning_rate": 0.0003704580419580419,
	"loss": 3.1961,
	"step": 65750
	},
	{
	"epoch": 19.161337293960045,
	"grad_norm": 0.40591931343078613,
	"learning_rate": 0.00037028321678321676,
	"loss": 3.1943,
	"step": 65800
	},
	{
	"epoch": 19.175898421573766,
	"grad_norm": 0.43688419461250305,
	"learning_rate": 0.0003701083916083916,
	"loss": 3.2046,
	"step": 65850
	},
	{
	"epoch": 19.19045954918749,
	"grad_norm": 0.42176738381385803,
	"learning_rate": 0.0003699335664335664,
	"loss": 3.1941,
	"step": 65900
	},
	{
	"epoch": 19.20502067680121,
	"grad_norm": 0.4293349087238312,
	"learning_rate": 0.00036975874125874127,
	"loss": 3.1965,
	"step": 65950
	},
	{
	"epoch": 19.219581804414933,
	"grad_norm": 0.401883989572525,
	"learning_rate": 0.00036958391608391607,
	"loss": 3.2052,
	"step": 66000
	},
	{
	"epoch": 19.219581804414933,
	"eval_accuracy": 0.3729365705059401,
	"eval_loss": 3.549788236618042,
	"eval_runtime": 181.5209,
	"eval_samples_per_second": 91.703,
	"eval_steps_per_second": 5.735,
	"step": 66000
	},
	{
	"epoch": 19.234142932028657,
	"grad_norm": 0.38579362630844116,
	"learning_rate": 0.0003694090909090909,
	"loss": 3.2108,
	"step": 66050
	},
	{
	"epoch": 19.248704059642378,
	"grad_norm": 0.3706747889518738,
	"learning_rate": 0.00036923426573426567,
	"loss": 3.1956,
	"step": 66100
	},
	{
	"epoch": 19.263265187256103,
	"grad_norm": 0.40372592210769653,
	"learning_rate": 0.0003690594405594405,
	"loss": 3.206,
	"step": 66150
	},
	{
	"epoch": 19.277826314869824,
	"grad_norm": 0.37341922521591187,
	"learning_rate": 0.0003688846153846153,
	"loss": 3.2149,
	"step": 66200
	},
	{
	"epoch": 19.292387442483545,
	"grad_norm": 0.40485063195228577,
	"learning_rate": 0.0003687097902097902,
	"loss": 3.2128,
	"step": 66250
	},
	{
	"epoch": 19.30694857009727,
	"grad_norm": 0.37851768732070923,
	"learning_rate": 0.000368534965034965,
	"loss": 3.2091,
	"step": 66300
	},
	{
	"epoch": 19.32150969771099,
	"grad_norm": 0.3929597735404968,
	"learning_rate": 0.00036836013986013983,
	"loss": 3.2174,
	"step": 66350
	},
	{
	"epoch": 19.336070825324715,
	"grad_norm": 0.4164958894252777,
	"learning_rate": 0.00036818531468531463,
	"loss": 3.2248,
	"step": 66400
	},
	{
	"epoch": 19.350631952938436,
	"grad_norm": 0.3765912353992462,
	"learning_rate": 0.0003680104895104895,
	"loss": 3.226,
	"step": 66450
	},
	{
	"epoch": 19.365193080552157,
	"grad_norm": 0.4018316864967346,
	"learning_rate": 0.0003678356643356643,
	"loss": 3.2108,
	"step": 66500
	},
	{
	"epoch": 19.37975420816588,
	"grad_norm": 0.3959610164165497,
	"learning_rate": 0.00036766083916083914,
	"loss": 3.2259,
	"step": 66550
	},
	{
	"epoch": 19.394315335779602,
	"grad_norm": 0.39516445994377136,
	"learning_rate": 0.000367486013986014,
	"loss": 3.2286,
	"step": 66600
	},
	{
	"epoch": 19.408876463393327,
	"grad_norm": 0.38694578409194946,
	"learning_rate": 0.0003673111888111888,
	"loss": 3.2329,
	"step": 66650
	},
	{
	"epoch": 19.423437591007048,
	"grad_norm": 0.38315701484680176,
	"learning_rate": 0.00036713636363636365,
	"loss": 3.2293,
	"step": 66700
	},
	{
	"epoch": 19.43799871862077,
	"grad_norm": 0.3903602063655853,
	"learning_rate": 0.00036696153846153844,
	"loss": 3.2431,
	"step": 66750
	},
	{
	"epoch": 19.452559846234493,
	"grad_norm": 0.3970508277416229,
	"learning_rate": 0.0003667867132867133,
	"loss": 3.2321,
	"step": 66800
	},
	{
	"epoch": 19.467120973848214,
	"grad_norm": 0.39490050077438354,
	"learning_rate": 0.00036661188811188804,
	"loss": 3.2436,
	"step": 66850
	},
	{
	"epoch": 19.48168210146194,
	"grad_norm": 0.3896945118904114,
	"learning_rate": 0.0003664370629370629,
	"loss": 3.2351,
	"step": 66900
	},
	{
	"epoch": 19.49624322907566,
	"grad_norm": 0.4222089946269989,
	"learning_rate": 0.0003662622377622377,
	"loss": 3.2298,
	"step": 66950
	},
	{
	"epoch": 19.51080435668938,
	"grad_norm": 0.4079953134059906,
	"learning_rate": 0.00036608741258741255,
	"loss": 3.2232,
	"step": 67000
	},
	{
	"epoch": 19.51080435668938,
	"eval_accuracy": 0.37318897742398227,
	"eval_loss": 3.5430922508239746,
	"eval_runtime": 181.509,
	"eval_samples_per_second": 91.709,
	"eval_steps_per_second": 5.735,
	"step": 67000
	},
	{
	"epoch": 19.525365484303105,
	"grad_norm": 0.40674111247062683,
	"learning_rate": 0.00036591258741258735,
	"loss": 3.2444,
	"step": 67050
	},
	{
	"epoch": 19.539926611916826,
	"grad_norm": 0.3936384618282318,
	"learning_rate": 0.0003657377622377622,
	"loss": 3.2507,
	"step": 67100
	},
	{
	"epoch": 19.55448773953055,
	"grad_norm": 0.39949601888656616,
	"learning_rate": 0.000365562937062937,
	"loss": 3.2333,
	"step": 67150
	},
	{
	"epoch": 19.56904886714427,
	"grad_norm": 0.4255499839782715,
	"learning_rate": 0.00036538811188811186,
	"loss": 3.2361,
	"step": 67200
	},
	{
	"epoch": 19.583609994757992,
	"grad_norm": 0.40485048294067383,
	"learning_rate": 0.0003652132867132867,
	"loss": 3.2366,
	"step": 67250
	},
	{
	"epoch": 19.598171122371717,
	"grad_norm": 0.4169028699398041,
	"learning_rate": 0.0003650384615384615,
	"loss": 3.2392,
	"step": 67300
	},
	{
	"epoch": 19.612732249985438,
	"grad_norm": 0.37912827730178833,
	"learning_rate": 0.00036486363636363637,
	"loss": 3.2355,
	"step": 67350
	},
	{
	"epoch": 19.627293377599162,
	"grad_norm": 0.3838323652744293,
	"learning_rate": 0.00036468881118881117,
	"loss": 3.2375,
	"step": 67400
	},
	{
	"epoch": 19.641854505212883,
	"grad_norm": 0.3855572044849396,
	"learning_rate": 0.000364513986013986,
	"loss": 3.2405,
	"step": 67450
	},
	{
	"epoch": 19.656415632826604,
	"grad_norm": 0.3959762752056122,
	"learning_rate": 0.0003643391608391608,
	"loss": 3.2475,
	"step": 67500
	},
	{
	"epoch": 19.67097676044033,
	"grad_norm": 0.3651852607727051,
	"learning_rate": 0.0003641643356643357,
	"loss": 3.2349,
	"step": 67550
	},
	{
	"epoch": 19.68553788805405,
	"grad_norm": 0.39558374881744385,
	"learning_rate": 0.0003639895104895104,
	"loss": 3.2591,
	"step": 67600
	},
	{
	"epoch": 19.700099015667774,
	"grad_norm": 0.39178308844566345,
	"learning_rate": 0.0003638146853146853,
	"loss": 3.251,
	"step": 67650
	},
	{
	"epoch": 19.714660143281495,
	"grad_norm": 0.3785051107406616,
	"learning_rate": 0.00036363986013986007,
	"loss": 3.2491,
	"step": 67700
	},
	{
	"epoch": 19.729221270895216,
	"grad_norm": 0.42383629083633423,
	"learning_rate": 0.0003634650349650349,
	"loss": 3.246,
	"step": 67750
	},
	{
	"epoch": 19.74378239850894,
	"grad_norm": 0.3946218192577362,
	"learning_rate": 0.0003632902097902097,
	"loss": 3.2454,
	"step": 67800
	},
	{
	"epoch": 19.758343526122662,
	"grad_norm": 0.41260185837745667,
	"learning_rate": 0.0003631153846153846,
	"loss": 3.2526,
	"step": 67850
	},
	{
	"epoch": 19.772904653736386,
	"grad_norm": 0.36741843819618225,
	"learning_rate": 0.00036294055944055943,
	"loss": 3.2621,
	"step": 67900
	},
	{
	"epoch": 19.787465781350107,
	"grad_norm": 0.37260907888412476,
	"learning_rate": 0.00036276573426573423,
	"loss": 3.2524,
	"step": 67950
	},
	{
	"epoch": 19.802026908963832,
	"grad_norm": 0.393512487411499,
	"learning_rate": 0.0003625909090909091,
	"loss": 3.2532,
	"step": 68000
	},
	{
	"epoch": 19.802026908963832,
	"eval_accuracy": 0.37361055693404244,
	"eval_loss": 3.5359911918640137,
	"eval_runtime": 181.8052,
	"eval_samples_per_second": 91.56,
	"eval_steps_per_second": 5.726,
	"step": 68000
	},
	{
	"epoch": 19.816588036577553,
	"grad_norm": 0.41025984287261963,
	"learning_rate": 0.0003624160839160839,
	"loss": 3.2568,
	"step": 68050
	},
	{
	"epoch": 19.831149164191274,
	"grad_norm": 0.37306198477745056,
	"learning_rate": 0.00036224125874125874,
	"loss": 3.252,
	"step": 68100
	},
	{
	"epoch": 19.845710291805,
	"grad_norm": 0.41727498173713684,
	"learning_rate": 0.00036206643356643354,
	"loss": 3.2563,
	"step": 68150
	},
	{
	"epoch": 19.86027141941872,
	"grad_norm": 0.41464343667030334,
	"learning_rate": 0.0003618916083916084,
	"loss": 3.2577,
	"step": 68200
	},
	{
	"epoch": 19.874832547032444,
	"grad_norm": 0.40288522839546204,
	"learning_rate": 0.0003617167832167832,
	"loss": 3.2604,
	"step": 68250
	},
	{
	"epoch": 19.889393674646165,
	"grad_norm": 0.3966323733329773,
	"learning_rate": 0.00036154195804195805,
	"loss": 3.2573,
	"step": 68300
	},
	{
	"epoch": 19.903954802259886,
	"grad_norm": 0.4013204574584961,
	"learning_rate": 0.0003613671328671328,
	"loss": 3.2623,
	"step": 68350
	},
	{
	"epoch": 19.91851592987361,
	"grad_norm": 0.4066911041736603,
	"learning_rate": 0.00036119230769230765,
	"loss": 3.2603,
	"step": 68400
	},
	{
	"epoch": 19.93307705748733,
	"grad_norm": 0.4191489517688751,
	"learning_rate": 0.00036101748251748245,
	"loss": 3.26,
	"step": 68450
	},
	{
	"epoch": 19.947638185101056,
	"grad_norm": 0.39228692650794983,
	"learning_rate": 0.0003608426573426573,
	"loss": 3.2565,
	"step": 68500
	},
	{
	"epoch": 19.962199312714777,
	"grad_norm": 0.40354210138320923,
	"learning_rate": 0.0003606678321678321,
	"loss": 3.2659,
	"step": 68550
	},
	{
	"epoch": 19.976760440328498,
	"grad_norm": 0.424032986164093,
	"learning_rate": 0.00036049300699300696,
	"loss": 3.2405,
	"step": 68600
	},
	{
	"epoch": 19.991321567942222,
	"grad_norm": 0.40421053767204285,
	"learning_rate": 0.0003603181818181818,
	"loss": 3.2657,
	"step": 68650
	},
	{
	"epoch": 20.005824451045488,
	"grad_norm": 0.37901127338409424,
	"learning_rate": 0.0003601433566433566,
	"loss": 3.2116,
	"step": 68700
	},
	{
	"epoch": 20.020385578659212,
	"grad_norm": 0.39838650822639465,
	"learning_rate": 0.00035996853146853146,
	"loss": 3.1563,
	"step": 68750
	},
	{
	"epoch": 20.034946706272933,
	"grad_norm": 0.3853570818901062,
	"learning_rate": 0.00035979370629370626,
	"loss": 3.1651,
	"step": 68800
	},
	{
	"epoch": 20.049507833886658,
	"grad_norm": 0.37622562050819397,
	"learning_rate": 0.0003596188811188811,
	"loss": 3.1671,
	"step": 68850
	},
	{
	"epoch": 20.06406896150038,
	"grad_norm": 0.40107908844947815,
	"learning_rate": 0.0003594440559440559,
	"loss": 3.171,
	"step": 68900
	},
	{
	"epoch": 20.0786300891141,
	"grad_norm": 0.3853244185447693,
	"learning_rate": 0.00035926923076923077,
	"loss": 3.1719,
	"step": 68950
	},
	{
	"epoch": 20.093191216727824,
	"grad_norm": 0.437876433134079,
	"learning_rate": 0.00035909440559440557,
	"loss": 3.1732,
	"step": 69000
	},
	{
	"epoch": 20.093191216727824,
	"eval_accuracy": 0.37331006690958235,
	"eval_loss": 3.5458712577819824,
	"eval_runtime": 181.7798,
	"eval_samples_per_second": 91.572,
	"eval_steps_per_second": 5.727,
	"step": 69000
	},
	{
	"epoch": 20.107752344341545,
	"grad_norm": 0.4051014482975006,
	"learning_rate": 0.0003589195804195804,
	"loss": 3.1833,
	"step": 69050
	},
	{
	"epoch": 20.12231347195527,
	"grad_norm": 0.42431265115737915,
	"learning_rate": 0.00035874475524475517,
	"loss": 3.1786,
	"step": 69100
	},
	{
	"epoch": 20.13687459956899,
	"grad_norm": 0.3915984332561493,
	"learning_rate": 0.00035856993006993,
	"loss": 3.1951,
	"step": 69150
	},
	{
	"epoch": 20.15143572718271,
	"grad_norm": 0.39397016167640686,
	"learning_rate": 0.0003583951048951048,
	"loss": 3.1773,
	"step": 69200
	},
	{
	"epoch": 20.165996854796436,
	"grad_norm": 0.41162973642349243,
	"learning_rate": 0.0003582202797202797,
	"loss": 3.1971,
	"step": 69250
	},
	{
	"epoch": 20.180557982410157,
	"grad_norm": 0.40703409910202026,
	"learning_rate": 0.00035804545454545453,
	"loss": 3.1815,
	"step": 69300
	},
	{
	"epoch": 20.19511911002388,
	"grad_norm": 0.4034010171890259,
	"learning_rate": 0.00035787062937062933,
	"loss": 3.1882,
	"step": 69350
	},
	{
	"epoch": 20.209680237637603,
	"grad_norm": 0.40180739760398865,
	"learning_rate": 0.0003576958041958042,
	"loss": 3.1876,
	"step": 69400
	},
	{
	"epoch": 20.224241365251324,
	"grad_norm": 0.414236456155777,
	"learning_rate": 0.000357520979020979,
	"loss": 3.1873,
	"step": 69450
	},
	{
	"epoch": 20.238802492865048,
	"grad_norm": 0.3842925727367401,
	"learning_rate": 0.00035734615384615384,
	"loss": 3.2091,
	"step": 69500
	},
	{
	"epoch": 20.25336362047877,
	"grad_norm": 0.3949846625328064,
	"learning_rate": 0.00035717132867132864,
	"loss": 3.2013,
	"step": 69550
	},
	{
	"epoch": 20.267924748092494,
	"grad_norm": 0.4168473482131958,
	"learning_rate": 0.0003569965034965035,
	"loss": 3.2028,
	"step": 69600
	},
	{
	"epoch": 20.282485875706215,
	"grad_norm": 0.3983443081378937,
	"learning_rate": 0.0003568216783216783,
	"loss": 3.1992,
	"step": 69650
	},
	{
	"epoch": 20.297047003319935,
	"grad_norm": 0.4090621769428253,
	"learning_rate": 0.00035664685314685314,
	"loss": 3.1973,
	"step": 69700
	},
	{
	"epoch": 20.31160813093366,
	"grad_norm": 0.4229073226451874,
	"learning_rate": 0.00035647202797202794,
	"loss": 3.2145,
	"step": 69750
	},
	{
	"epoch": 20.32616925854738,
	"grad_norm": 0.4256856143474579,
	"learning_rate": 0.0003562972027972028,
	"loss": 3.2116,
	"step": 69800
	},
	{
	"epoch": 20.340730386161106,
	"grad_norm": 0.40367722511291504,
	"learning_rate": 0.00035612237762237754,
	"loss": 3.2001,
	"step": 69850
	},
	{
	"epoch": 20.355291513774826,
	"grad_norm": 0.43100783228874207,
	"learning_rate": 0.0003559475524475524,
	"loss": 3.2091,
	"step": 69900
	},
	{
	"epoch": 20.369852641388547,
	"grad_norm": 0.4087181091308594,
	"learning_rate": 0.0003557727272727272,
	"loss": 3.2042,
	"step": 69950
	},
	{
	"epoch": 20.384413769002272,
	"grad_norm": 0.3920936584472656,
	"learning_rate": 0.00035559790209790205,
	"loss": 3.2108,
	"step": 70000
	},
	{
	"epoch": 20.384413769002272,
	"eval_accuracy": 0.3731025689075589,
	"eval_loss": 3.5489280223846436,
	"eval_runtime": 182.0706,
	"eval_samples_per_second": 91.426,
	"eval_steps_per_second": 5.718,
	"step": 70000
	},
	{
	"epoch": 20.398974896615993,
	"grad_norm": 0.4058195650577545,
	"learning_rate": 0.0003554230769230769,
	"loss": 3.213,
	"step": 70050
	},
	{
	"epoch": 20.413536024229717,
	"grad_norm": 0.4050874412059784,
	"learning_rate": 0.0003552482517482517,
	"loss": 3.2142,
	"step": 70100
	},
	{
	"epoch": 20.42809715184344,
	"grad_norm": 0.40045294165611267,
	"learning_rate": 0.00035507342657342656,
	"loss": 3.2208,
	"step": 70150
	},
	{
	"epoch": 20.442658279457163,
	"grad_norm": 0.4572046101093292,
	"learning_rate": 0.00035489860139860136,
	"loss": 3.2126,
	"step": 70200
	},
	{
	"epoch": 20.457219407070884,
	"grad_norm": 0.4452737271785736,
	"learning_rate": 0.0003547237762237762,
	"loss": 3.2116,
	"step": 70250
	},
	{
	"epoch": 20.471780534684605,
	"grad_norm": 0.4029277265071869,
	"learning_rate": 0.000354548951048951,
	"loss": 3.2208,
	"step": 70300
	},
	{
	"epoch": 20.48634166229833,
	"grad_norm": 0.39635396003723145,
	"learning_rate": 0.00035437412587412587,
	"loss": 3.2281,
	"step": 70350
	},
	{
	"epoch": 20.50090278991205,
	"grad_norm": 0.40066853165626526,
	"learning_rate": 0.00035419930069930067,
	"loss": 3.2134,
	"step": 70400
	},
	{
	"epoch": 20.51546391752577,
	"grad_norm": 0.4070953130722046,
	"learning_rate": 0.0003540244755244755,
	"loss": 3.2187,
	"step": 70450
	},
	{
	"epoch": 20.530025045139496,
	"grad_norm": 0.4250268042087555,
	"learning_rate": 0.0003538496503496503,
	"loss": 3.2322,
	"step": 70500
	},
	{
	"epoch": 20.544586172753217,
	"grad_norm": 0.3932563364505768,
	"learning_rate": 0.0003536748251748252,
	"loss": 3.2312,
	"step": 70550
	},
	{
	"epoch": 20.55914730036694,
	"grad_norm": 0.39216065406799316,
	"learning_rate": 0.0003534999999999999,
	"loss": 3.2162,
	"step": 70600
	},
	{
	"epoch": 20.573708427980662,
	"grad_norm": 0.39129382371902466,
	"learning_rate": 0.00035332517482517477,
	"loss": 3.2386,
	"step": 70650
	},
	{
	"epoch": 20.588269555594387,
	"grad_norm": 0.4013758897781372,
	"learning_rate": 0.0003531503496503496,
	"loss": 3.2432,
	"step": 70700
	},
	{
	"epoch": 20.602830683208108,
	"grad_norm": 0.4270361065864563,
	"learning_rate": 0.0003529755244755244,
	"loss": 3.2331,
	"step": 70750
	},
	{
	"epoch": 20.61739181082183,
	"grad_norm": 0.39928528666496277,
	"learning_rate": 0.0003528006993006993,
	"loss": 3.2238,
	"step": 70800
	},
	{
	"epoch": 20.631952938435553,
	"grad_norm": 0.41833776235580444,
	"learning_rate": 0.0003526258741258741,
	"loss": 3.2275,
	"step": 70850
	},
	{
	"epoch": 20.646514066049274,
	"grad_norm": 0.4001609683036804,
	"learning_rate": 0.00035245104895104893,
	"loss": 3.2405,
	"step": 70900
	},
	{
	"epoch": 20.661075193663,
	"grad_norm": 0.4042730927467346,
	"learning_rate": 0.00035227622377622373,
	"loss": 3.2369,
	"step": 70950
	},
	{
	"epoch": 20.67563632127672,
	"grad_norm": 0.45559853315353394,
	"learning_rate": 0.0003521013986013986,
	"loss": 3.2267,
	"step": 71000
	},
	{
	"epoch": 20.67563632127672,
	"eval_accuracy": 0.3732772669421237,
	"eval_loss": 3.5392322540283203,
	"eval_runtime": 181.6727,
	"eval_samples_per_second": 91.626,
	"eval_steps_per_second": 5.73,
	"step": 71000
	},
	{
	"epoch": 20.69019744889044,
	"grad_norm": 0.3849864602088928,
	"learning_rate": 0.0003519265734265734,
	"loss": 3.2339,
	"step": 71050
	},
	{
	"epoch": 20.704758576504165,
	"grad_norm": 0.390304297208786,
	"learning_rate": 0.00035175174825174824,
	"loss": 3.2402,
	"step": 71100
	},
	{
	"epoch": 20.719319704117886,
	"grad_norm": 0.4047505259513855,
	"learning_rate": 0.00035157692307692304,
	"loss": 3.2392,
	"step": 71150
	},
	{
	"epoch": 20.73388083173161,
	"grad_norm": 0.40413615107536316,
	"learning_rate": 0.0003514020979020979,
	"loss": 3.2473,
	"step": 71200
	},
	{
	"epoch": 20.74844195934533,
	"grad_norm": 0.40625640749931335,
	"learning_rate": 0.0003512272727272727,
	"loss": 3.2415,
	"step": 71250
	},
	{
	"epoch": 20.763003086959053,
	"grad_norm": 0.434164822101593,
	"learning_rate": 0.00035105244755244755,
	"loss": 3.2479,
	"step": 71300
	},
	{
	"epoch": 20.777564214572777,
	"grad_norm": 0.3865194618701935,
	"learning_rate": 0.0003508776223776223,
	"loss": 3.2285,
	"step": 71350
	},
	{
	"epoch": 20.792125342186498,
	"grad_norm": 0.3982822597026825,
	"learning_rate": 0.00035070279720279715,
	"loss": 3.248,
	"step": 71400
	},
	{
	"epoch": 20.806686469800223,
	"grad_norm": 0.39169275760650635,
	"learning_rate": 0.000350527972027972,
	"loss": 3.239,
	"step": 71450
	},
	{
	"epoch": 20.821247597413944,
	"grad_norm": 0.37829822301864624,
	"learning_rate": 0.0003503531468531468,
	"loss": 3.2482,
	"step": 71500
	},
	{
	"epoch": 20.835808725027665,
	"grad_norm": 0.4116668105125427,
	"learning_rate": 0.00035017832167832166,
	"loss": 3.2515,
	"step": 71550
	},
	{
	"epoch": 20.85036985264139,
	"grad_norm": 0.38615283370018005,
	"learning_rate": 0.00035000349650349645,
	"loss": 3.2495,
	"step": 71600
	},
	{
	"epoch": 20.86493098025511,
	"grad_norm": 0.3837354779243469,
	"learning_rate": 0.0003498286713286713,
	"loss": 3.2401,
	"step": 71650
	},
	{
	"epoch": 20.879492107868835,
	"grad_norm": 0.4471058249473572,
	"learning_rate": 0.0003496538461538461,
	"loss": 3.2448,
	"step": 71700
	},
	{
	"epoch": 20.894053235482556,
	"grad_norm": 0.39158105850219727,
	"learning_rate": 0.00034947902097902096,
	"loss": 3.2421,
	"step": 71750
	},
	{
	"epoch": 20.908614363096277,
	"grad_norm": 0.3936326503753662,
	"learning_rate": 0.00034930419580419576,
	"loss": 3.2495,
	"step": 71800
	},
	{
	"epoch": 20.92317549071,
	"grad_norm": 0.4398622214794159,
	"learning_rate": 0.0003491293706293706,
	"loss": 3.2486,
	"step": 71850
	},
	{
	"epoch": 20.937736618323722,
	"grad_norm": 0.4039473533630371,
	"learning_rate": 0.0003489545454545454,
	"loss": 3.2446,
	"step": 71900
	},
	{
	"epoch": 20.952297745937447,
	"grad_norm": 0.3924809694290161,
	"learning_rate": 0.00034877972027972027,
	"loss": 3.2544,
	"step": 71950
	},
	{
	"epoch": 20.966858873551168,
	"grad_norm": 0.3814752399921417,
	"learning_rate": 0.00034860489510489507,
	"loss": 3.2515,
	"step": 72000
	},
	{
	"epoch": 20.966858873551168,
	"eval_accuracy": 0.37455529004693805,
	"eval_loss": 3.5280511379241943,
	"eval_runtime": 181.8973,
	"eval_samples_per_second": 91.513,
	"eval_steps_per_second": 5.723,
	"step": 72000
	},
	{
	"epoch": 20.98142000116489,
	"grad_norm": 0.38925060629844666,
	"learning_rate": 0.0003484300699300699,
	"loss": 3.2495,
	"step": 72050
	},
	{
	"epoch": 20.995981128778613,
	"grad_norm": 0.39988890290260315,
	"learning_rate": 0.0003482552447552448,
	"loss": 3.2594,
	"step": 72100
	},
	{
	"epoch": 21.01048401188188,
	"grad_norm": 0.40356001257896423,
	"learning_rate": 0.0003480804195804195,
	"loss": 3.1635,
	"step": 72150
	},
	{
	"epoch": 21.025045139495603,
	"grad_norm": 0.3761391043663025,
	"learning_rate": 0.0003479055944055944,
	"loss": 3.1447,
	"step": 72200
	},
	{
	"epoch": 21.039606267109324,
	"grad_norm": 0.40581613779067993,
	"learning_rate": 0.0003477307692307692,
	"loss": 3.1472,
	"step": 72250
	},
	{
	"epoch": 21.05416739472305,
	"grad_norm": 0.4053649306297302,
	"learning_rate": 0.00034755594405594403,
	"loss": 3.1554,
	"step": 72300
	},
	{
	"epoch": 21.06872852233677,
	"grad_norm": 0.4102306365966797,
	"learning_rate": 0.00034738111888111883,
	"loss": 3.1484,
	"step": 72350
	},
	{
	"epoch": 21.08328964995049,
	"grad_norm": 0.4348653554916382,
	"learning_rate": 0.0003472062937062937,
	"loss": 3.1558,
	"step": 72400
	},
	{
	"epoch": 21.097850777564215,
	"grad_norm": 0.418681800365448,
	"learning_rate": 0.0003470314685314685,
	"loss": 3.1565,
	"step": 72450
	},
	{
	"epoch": 21.112411905177936,
	"grad_norm": 0.3939422369003296,
	"learning_rate": 0.00034685664335664334,
	"loss": 3.1768,
	"step": 72500
	},
	{
	"epoch": 21.12697303279166,
	"grad_norm": 0.423824667930603,
	"learning_rate": 0.00034668181818181814,
	"loss": 3.1613,
	"step": 72550
	},
	{
	"epoch": 21.14153416040538,
	"grad_norm": 0.41122952103614807,
	"learning_rate": 0.000346506993006993,
	"loss": 3.1796,
	"step": 72600
	},
	{
	"epoch": 21.156095288019102,
	"grad_norm": 0.4243016839027405,
	"learning_rate": 0.0003463321678321678,
	"loss": 3.1771,
	"step": 72650
	},
	{
	"epoch": 21.170656415632827,
	"grad_norm": 0.4253290295600891,
	"learning_rate": 0.00034615734265734264,
	"loss": 3.178,
	"step": 72700
	},
	{
	"epoch": 21.185217543246548,
	"grad_norm": 0.41037648916244507,
	"learning_rate": 0.0003459825174825175,
	"loss": 3.1762,
	"step": 72750
	},
	{
	"epoch": 21.199778670860272,
	"grad_norm": 0.4135653078556061,
	"learning_rate": 0.0003458076923076923,
	"loss": 3.1816,
	"step": 72800
	},
	{
	"epoch": 21.214339798473993,
	"grad_norm": 0.3961467742919922,
	"learning_rate": 0.00034563286713286715,
	"loss": 3.1796,
	"step": 72850
	},
	{
	"epoch": 21.228900926087718,
	"grad_norm": 0.3950590491294861,
	"learning_rate": 0.0003454580419580419,
	"loss": 3.1871,
	"step": 72900
	},
	{
	"epoch": 21.24346205370144,
	"grad_norm": 0.4194997251033783,
	"learning_rate": 0.00034528321678321675,
	"loss": 3.1798,
	"step": 72950
	},
	{
	"epoch": 21.25802318131516,
	"grad_norm": 0.40956011414527893,
	"learning_rate": 0.00034510839160839155,
	"loss": 3.1939,
	"step": 73000
	},
	{
	"epoch": 21.25802318131516,
	"eval_accuracy": 0.37319238673959626,
	"eval_loss": 3.550941228866577,
	"eval_runtime": 181.8734,
	"eval_samples_per_second": 91.525,
	"eval_steps_per_second": 5.724,
	"step": 73000
	},
	{
	"epoch": 21.272584308928884,
	"grad_norm": 0.42776092886924744,
	"learning_rate": 0.0003449335664335664,
	"loss": 3.1931,
	"step": 73050
	},
	{
	"epoch": 21.287145436542605,
	"grad_norm": 0.4075539708137512,
	"learning_rate": 0.0003447587412587412,
	"loss": 3.1868,
	"step": 73100
	},
	{
	"epoch": 21.30170656415633,
	"grad_norm": 0.3908805847167969,
	"learning_rate": 0.00034458391608391606,
	"loss": 3.1998,
	"step": 73150
	},
	{
	"epoch": 21.31626769177005,
	"grad_norm": 0.42480796575546265,
	"learning_rate": 0.00034440909090909086,
	"loss": 3.1899,
	"step": 73200
	},
	{
	"epoch": 21.330828819383772,
	"grad_norm": 0.4163939356803894,
	"learning_rate": 0.0003442342657342657,
	"loss": 3.1899,
	"step": 73250
	},
	{
	"epoch": 21.345389946997496,
	"grad_norm": 0.41627931594848633,
	"learning_rate": 0.0003440594405594405,
	"loss": 3.2083,
	"step": 73300
	},
	{
	"epoch": 21.359951074611217,
	"grad_norm": 0.41205883026123047,
	"learning_rate": 0.00034388461538461537,
	"loss": 3.1942,
	"step": 73350
	},
	{
	"epoch": 21.374512202224942,
	"grad_norm": 0.44400423765182495,
	"learning_rate": 0.00034370979020979017,
	"loss": 3.2076,
	"step": 73400
	},
	{
	"epoch": 21.389073329838663,
	"grad_norm": 0.4325188398361206,
	"learning_rate": 0.000343534965034965,
	"loss": 3.2114,
	"step": 73450
	},
	{
	"epoch": 21.403634457452384,
	"grad_norm": 0.3943363428115845,
	"learning_rate": 0.0003433601398601399,
	"loss": 3.216,
	"step": 73500
	},
	{
	"epoch": 21.41819558506611,
	"grad_norm": 0.4196872115135193,
	"learning_rate": 0.0003431853146853147,
	"loss": 3.2104,
	"step": 73550
	},
	{
	"epoch": 21.43275671267983,
	"grad_norm": 0.43436840176582336,
	"learning_rate": 0.0003430104895104895,
	"loss": 3.1992,
	"step": 73600
	},
	{
	"epoch": 21.447317840293554,
	"grad_norm": 0.40529683232307434,
	"learning_rate": 0.00034283566433566427,
	"loss": 3.2165,
	"step": 73650
	},
	{
	"epoch": 21.461878967907275,
	"grad_norm": 0.3921535313129425,
	"learning_rate": 0.0003426608391608391,
	"loss": 3.2128,
	"step": 73700
	},
	{
	"epoch": 21.476440095520996,
	"grad_norm": 0.4111323356628418,
	"learning_rate": 0.0003424860139860139,
	"loss": 3.224,
	"step": 73750
	},
	{
	"epoch": 21.49100122313472,
	"grad_norm": 0.426702082157135,
	"learning_rate": 0.0003423111888111888,
	"loss": 3.2181,
	"step": 73800
	},
	{
	"epoch": 21.50556235074844,
	"grad_norm": 0.41521137952804565,
	"learning_rate": 0.0003421363636363636,
	"loss": 3.211,
	"step": 73850
	},
	{
	"epoch": 21.520123478362166,
	"grad_norm": 0.39069274067878723,
	"learning_rate": 0.00034196153846153843,
	"loss": 3.2176,
	"step": 73900
	},
	{
	"epoch": 21.534684605975887,
	"grad_norm": 0.43307027220726013,
	"learning_rate": 0.00034178671328671323,
	"loss": 3.2192,
	"step": 73950
	},
	{
	"epoch": 21.549245733589608,
	"grad_norm": 0.411510169506073,
	"learning_rate": 0.0003416118881118881,
	"loss": 3.2191,
	"step": 74000
	},
	{
	"epoch": 21.549245733589608,
	"eval_accuracy": 0.37387060542156425,
	"eval_loss": 3.538686990737915,
	"eval_runtime": 181.8301,
	"eval_samples_per_second": 91.547,
	"eval_steps_per_second": 5.725,
	"step": 74000
	},
	{
	"epoch": 21.563806861203332,
	"grad_norm": 0.4329594373703003,
	"learning_rate": 0.0003414370629370629,
	"loss": 3.2213,
	"step": 74050
	},
	{
	"epoch": 21.578367988817053,
	"grad_norm": 0.4905073642730713,
	"learning_rate": 0.00034126223776223774,
	"loss": 3.2184,
	"step": 74100
	},
	{
	"epoch": 21.592929116430778,
	"grad_norm": 0.41370993852615356,
	"learning_rate": 0.0003410874125874126,
	"loss": 3.2324,
	"step": 74150
	},
	{
	"epoch": 21.6074902440445,
	"grad_norm": 0.41296863555908203,
	"learning_rate": 0.0003409125874125874,
	"loss": 3.2249,
	"step": 74200
	},
	{
	"epoch": 21.62205137165822,
	"grad_norm": 0.39197707176208496,
	"learning_rate": 0.00034073776223776225,
	"loss": 3.222,
	"step": 74250
	},
	{
	"epoch": 21.636612499271944,
	"grad_norm": 0.4088113307952881,
	"learning_rate": 0.00034056293706293705,
	"loss": 3.2166,
	"step": 74300
	},
	{
	"epoch": 21.651173626885665,
	"grad_norm": 0.39772385358810425,
	"learning_rate": 0.0003403881118881119,
	"loss": 3.2333,
	"step": 74350
	},
	{
	"epoch": 21.66573475449939,
	"grad_norm": 0.42488396167755127,
	"learning_rate": 0.00034021328671328665,
	"loss": 3.2341,
	"step": 74400
	},
	{
	"epoch": 21.68029588211311,
	"grad_norm": 0.42358070611953735,
	"learning_rate": 0.0003400384615384615,
	"loss": 3.225,
	"step": 74450
	},
	{
	"epoch": 21.69485700972683,
	"grad_norm": 0.39580458402633667,
	"learning_rate": 0.0003398636363636363,
	"loss": 3.2228,
	"step": 74500
	},
	{
	"epoch": 21.709418137340556,
	"grad_norm": 0.44001904129981995,
	"learning_rate": 0.00033968881118881115,
	"loss": 3.2331,
	"step": 74550
	},
	{
	"epoch": 21.723979264954277,
	"grad_norm": 0.3845439553260803,
	"learning_rate": 0.00033951398601398595,
	"loss": 3.2126,
	"step": 74600
	},
	{
	"epoch": 21.738540392568,
	"grad_norm": 0.44144248962402344,
	"learning_rate": 0.0003393391608391608,
	"loss": 3.2366,
	"step": 74650
	},
	{
	"epoch": 21.753101520181723,
	"grad_norm": 0.39477452635765076,
	"learning_rate": 0.0003391643356643356,
	"loss": 3.2334,
	"step": 74700
	},
	{
	"epoch": 21.767662647795444,
	"grad_norm": 0.4193376898765564,
	"learning_rate": 0.00033898951048951046,
	"loss": 3.244,
	"step": 74750
	},
	{
	"epoch": 21.782223775409168,
	"grad_norm": 0.40859097242355347,
	"learning_rate": 0.00033881468531468526,
	"loss": 3.2296,
	"step": 74800
	},
	{
	"epoch": 21.79678490302289,
	"grad_norm": 0.3997965455055237,
	"learning_rate": 0.0003386398601398601,
	"loss": 3.2271,
	"step": 74850
	},
	{
	"epoch": 21.811346030636614,
	"grad_norm": 0.4200189411640167,
	"learning_rate": 0.00033846503496503497,
	"loss": 3.2391,
	"step": 74900
	},
	{
	"epoch": 21.825907158250335,
	"grad_norm": 0.4071013033390045,
	"learning_rate": 0.00033829020979020977,
	"loss": 3.2305,
	"step": 74950
	},
	{
	"epoch": 21.840468285864056,
	"grad_norm": 0.3942430019378662,
	"learning_rate": 0.0003381153846153846,
	"loss": 3.2375,
	"step": 75000
	},
	{
	"epoch": 21.840468285864056,
	"eval_accuracy": 0.3740101522365228,
	"eval_loss": 3.534168243408203,
	"eval_runtime": 181.9166,
	"eval_samples_per_second": 91.503,
	"eval_steps_per_second": 5.722,
	"step": 75000
	},
	{
	"epoch": 21.85502941347778,
	"grad_norm": 0.4091590344905853,
	"learning_rate": 0.0003379405594405594,
	"loss": 3.238,
	"step": 75050
	},
	{
	"epoch": 21.8695905410915,
	"grad_norm": 0.46853160858154297,
	"learning_rate": 0.0003377657342657343,
	"loss": 3.2286,
	"step": 75100
	},
	{
	"epoch": 21.884151668705226,
	"grad_norm": 0.4319709241390228,
	"learning_rate": 0.000337590909090909,
	"loss": 3.2288,
	"step": 75150
	},
	{
	"epoch": 21.898712796318947,
	"grad_norm": 0.392954021692276,
	"learning_rate": 0.0003374160839160839,
	"loss": 3.2336,
	"step": 75200
	},
	{
	"epoch": 21.91327392393267,
	"grad_norm": 0.4033663272857666,
	"learning_rate": 0.0003372412587412587,
	"loss": 3.2445,
	"step": 75250
	},
	{
	"epoch": 21.927835051546392,
	"grad_norm": 0.4016455411911011,
	"learning_rate": 0.00033706643356643353,
	"loss": 3.2401,
	"step": 75300
	},
	{
	"epoch": 21.942396179160113,
	"grad_norm": 0.39315998554229736,
	"learning_rate": 0.00033689160839160833,
	"loss": 3.2481,
	"step": 75350
	},
	{
	"epoch": 21.956957306773838,
	"grad_norm": 0.42448940873146057,
	"learning_rate": 0.0003367167832167832,
	"loss": 3.2418,
	"step": 75400
	},
	{
	"epoch": 21.97151843438756,
	"grad_norm": 0.44796308875083923,
	"learning_rate": 0.000336541958041958,
	"loss": 3.2261,
	"step": 75450
	},
	{
	"epoch": 21.986079562001283,
	"grad_norm": 0.42716050148010254,
	"learning_rate": 0.00033636713286713284,
	"loss": 3.2272,
	"step": 75500
	},
	{
	"epoch": 22.00058244510455,
	"grad_norm": 0.4312257170677185,
	"learning_rate": 0.0003361923076923077,
	"loss": 3.2355,
	"step": 75550
	},
	{
	"epoch": 22.015143572718273,
	"grad_norm": 0.4419618248939514,
	"learning_rate": 0.0003360174825174825,
	"loss": 3.1402,
	"step": 75600
	},
	{
	"epoch": 22.029704700331994,
	"grad_norm": 0.39955732226371765,
	"learning_rate": 0.00033584265734265734,
	"loss": 3.1388,
	"step": 75650
	},
	{
	"epoch": 22.044265827945715,
	"grad_norm": 0.3946226239204407,
	"learning_rate": 0.00033566783216783214,
	"loss": 3.1419,
	"step": 75700
	},
	{
	"epoch": 22.05882695555944,
	"grad_norm": 0.40310612320899963,
	"learning_rate": 0.000335493006993007,
	"loss": 3.1459,
	"step": 75750
	},
	{
	"epoch": 22.07338808317316,
	"grad_norm": 0.47292619943618774,
	"learning_rate": 0.0003353181818181818,
	"loss": 3.1477,
	"step": 75800
	},
	{
	"epoch": 22.087949210786885,
	"grad_norm": 0.40106406807899475,
	"learning_rate": 0.00033514335664335665,
	"loss": 3.1576,
	"step": 75850
	},
	{
	"epoch": 22.102510338400606,
	"grad_norm": 0.4809386134147644,
	"learning_rate": 0.0003349685314685314,
	"loss": 3.1575,
	"step": 75900
	},
	{
	"epoch": 22.117071466014327,
	"grad_norm": 0.4504416584968567,
	"learning_rate": 0.00033479370629370625,
	"loss": 3.1584,
	"step": 75950
	},
	{
	"epoch": 22.13163259362805,
	"grad_norm": 0.407741904258728,
	"learning_rate": 0.00033461888111888105,
	"loss": 3.1643,
	"step": 76000
	},
	{
	"epoch": 22.13163259362805,
	"eval_accuracy": 0.3738619057886182,
	"eval_loss": 3.545893669128418,
	"eval_runtime": 181.8372,
	"eval_samples_per_second": 91.543,
	"eval_steps_per_second": 5.725,
	"step": 76000
	},
	{
	"epoch": 22.146193721241772,
	"grad_norm": 0.3911559581756592,
	"learning_rate": 0.0003344440559440559,
	"loss": 3.1679,
	"step": 76050
	},
	{
	"epoch": 22.160754848855497,
	"grad_norm": 0.4303458333015442,
	"learning_rate": 0.0003342692307692307,
	"loss": 3.1659,
	"step": 76100
	},
	{
	"epoch": 22.175315976469218,
	"grad_norm": 0.423606812953949,
	"learning_rate": 0.00033409440559440556,
	"loss": 3.1612,
	"step": 76150
	},
	{
	"epoch": 22.18987710408294,
	"grad_norm": 0.40184444189071655,
	"learning_rate": 0.00033391958041958036,
	"loss": 3.1644,
	"step": 76200
	},
	{
	"epoch": 22.204438231696663,
	"grad_norm": 0.40504083037376404,
	"learning_rate": 0.0003337447552447552,
	"loss": 3.1613,
	"step": 76250
	},
	{
	"epoch": 22.218999359310384,
	"grad_norm": 0.4257362484931946,
	"learning_rate": 0.00033356993006993007,
	"loss": 3.1864,
	"step": 76300
	},
	{
	"epoch": 22.23356048692411,
	"grad_norm": 0.42526358366012573,
	"learning_rate": 0.00033339510489510487,
	"loss": 3.1709,
	"step": 76350
	},
	{
	"epoch": 22.24812161453783,
	"grad_norm": 0.4034423232078552,
	"learning_rate": 0.0003332202797202797,
	"loss": 3.1829,
	"step": 76400
	},
	{
	"epoch": 22.26268274215155,
	"grad_norm": 0.41706356406211853,
	"learning_rate": 0.0003330454545454545,
	"loss": 3.1843,
	"step": 76450
	},
	{
	"epoch": 22.277243869765275,
	"grad_norm": 0.44775980710983276,
	"learning_rate": 0.0003328706293706294,
	"loss": 3.1873,
	"step": 76500
	},
	{
	"epoch": 22.291804997378996,
	"grad_norm": 0.39296045899391174,
	"learning_rate": 0.00033269580419580417,
	"loss": 3.184,
	"step": 76550
	},
	{
	"epoch": 22.30636612499272,
	"grad_norm": 0.42153048515319824,
	"learning_rate": 0.000332520979020979,
	"loss": 3.1915,
	"step": 76600
	},
	{
	"epoch": 22.32092725260644,
	"grad_norm": 0.39664313197135925,
	"learning_rate": 0.00033234615384615377,
	"loss": 3.1918,
	"step": 76650
	},
	{
	"epoch": 22.335488380220163,
	"grad_norm": 0.4323880672454834,
	"learning_rate": 0.0003321713286713286,
	"loss": 3.1925,
	"step": 76700
	},
	{
	"epoch": 22.350049507833887,
	"grad_norm": 0.42799025774002075,
	"learning_rate": 0.0003319965034965034,
	"loss": 3.1974,
	"step": 76750
	},
	{
	"epoch": 22.364610635447608,
	"grad_norm": 0.42177265882492065,
	"learning_rate": 0.0003318216783216783,
	"loss": 3.1825,
	"step": 76800
	},
	{
	"epoch": 22.379171763061333,
	"grad_norm": 0.4100976884365082,
	"learning_rate": 0.0003316468531468531,
	"loss": 3.1906,
	"step": 76850
	},
	{
	"epoch": 22.393732890675054,
	"grad_norm": 0.410706102848053,
	"learning_rate": 0.00033147202797202793,
	"loss": 3.1928,
	"step": 76900
	},
	{
	"epoch": 22.408294018288775,
	"grad_norm": 0.40170595049858093,
	"learning_rate": 0.0003312972027972028,
	"loss": 3.1986,
	"step": 76950
	},
	{
	"epoch": 22.4228551459025,
	"grad_norm": 0.4348037838935852,
	"learning_rate": 0.0003311223776223776,
	"loss": 3.1882,
	"step": 77000
	},
	{
	"epoch": 22.4228551459025,
	"eval_accuracy": 0.3737502213116084,
	"eval_loss": 3.542616844177246,
	"eval_runtime": 181.8366,
	"eval_samples_per_second": 91.544,
	"eval_steps_per_second": 5.725,
	"step": 77000
	},
	{
	"epoch": 22.43741627351622,
	"grad_norm": 0.39053773880004883,
	"learning_rate": 0.00033094755244755244,
	"loss": 3.2087,
	"step": 77050
	},
	{
	"epoch": 22.451977401129945,
	"grad_norm": 0.41012006998062134,
	"learning_rate": 0.00033077272727272724,
	"loss": 3.2055,
	"step": 77100
	},
	{
	"epoch": 22.466538528743666,
	"grad_norm": 0.43599265813827515,
	"learning_rate": 0.0003305979020979021,
	"loss": 3.2037,
	"step": 77150
	},
	{
	"epoch": 22.481099656357387,
	"grad_norm": 0.4018896818161011,
	"learning_rate": 0.0003304230769230769,
	"loss": 3.1973,
	"step": 77200
	},
	{
	"epoch": 22.49566078397111,
	"grad_norm": 0.40522316098213196,
	"learning_rate": 0.00033024825174825175,
	"loss": 3.2018,
	"step": 77250
	},
	{
	"epoch": 22.510221911584832,
	"grad_norm": 0.4352513551712036,
	"learning_rate": 0.00033007342657342655,
	"loss": 3.1944,
	"step": 77300
	},
	{
	"epoch": 22.524783039198557,
	"grad_norm": 0.43970945477485657,
	"learning_rate": 0.0003298986013986014,
	"loss": 3.2089,
	"step": 77350
	},
	{
	"epoch": 22.539344166812278,
	"grad_norm": 0.4030294716358185,
	"learning_rate": 0.00032972377622377615,
	"loss": 3.2072,
	"step": 77400
	},
	{
	"epoch": 22.553905294426002,
	"grad_norm": 0.38982561230659485,
	"learning_rate": 0.000329548951048951,
	"loss": 3.2052,
	"step": 77450
	},
	{
	"epoch": 22.568466422039723,
	"grad_norm": 0.43456390500068665,
	"learning_rate": 0.0003293741258741258,
	"loss": 3.2014,
	"step": 77500
	},
	{
	"epoch": 22.583027549653444,
	"grad_norm": 0.4424852132797241,
	"learning_rate": 0.00032919930069930065,
	"loss": 3.2216,
	"step": 77550
	},
	{
	"epoch": 22.59758867726717,
	"grad_norm": 0.4158851206302643,
	"learning_rate": 0.0003290244755244755,
	"loss": 3.2193,
	"step": 77600
	},
	{
	"epoch": 22.61214980488089,
	"grad_norm": 0.41858965158462524,
	"learning_rate": 0.0003288496503496503,
	"loss": 3.2087,
	"step": 77650
	},
	{
	"epoch": 22.626710932494614,
	"grad_norm": 0.4140191674232483,
	"learning_rate": 0.00032867482517482516,
	"loss": 3.2147,
	"step": 77700
	},
	{
	"epoch": 22.641272060108335,
	"grad_norm": 0.43507203459739685,
	"learning_rate": 0.00032849999999999996,
	"loss": 3.2202,
	"step": 77750
	},
	{
	"epoch": 22.655833187722056,
	"grad_norm": 0.4608203172683716,
	"learning_rate": 0.0003283251748251748,
	"loss": 3.2041,
	"step": 77800
	},
	{
	"epoch": 22.67039431533578,
	"grad_norm": 0.4047795534133911,
	"learning_rate": 0.0003281503496503496,
	"loss": 3.2132,
	"step": 77850
	},
	{
	"epoch": 22.6849554429495,
	"grad_norm": 0.40760594606399536,
	"learning_rate": 0.00032797552447552447,
	"loss": 3.2128,
	"step": 77900
	},
	{
	"epoch": 22.699516570563226,
	"grad_norm": 0.4296512007713318,
	"learning_rate": 0.00032780069930069927,
	"loss": 3.2171,
	"step": 77950
	},
	{
	"epoch": 22.714077698176947,
	"grad_norm": 0.43113505840301514,
	"learning_rate": 0.0003276258741258741,
	"loss": 3.2184,
	"step": 78000
	},
	{
	"epoch": 22.714077698176947,
	"eval_accuracy": 0.374259149838951,
	"eval_loss": 3.536405563354492,
	"eval_runtime": 181.4915,
	"eval_samples_per_second": 91.718,
	"eval_steps_per_second": 5.736,
	"step": 78000
	},
	{
	"epoch": 22.728638825790668,
	"grad_norm": 0.44064411520957947,
	"learning_rate": 0.0003274510489510489,
	"loss": 3.2264,
	"step": 78050
	},
	{
	"epoch": 22.743199953404392,
	"grad_norm": 0.436399906873703,
	"learning_rate": 0.0003272762237762238,
	"loss": 3.234,
	"step": 78100
	},
	{
	"epoch": 22.757761081018113,
	"grad_norm": 0.4127712845802307,
	"learning_rate": 0.0003271013986013985,
	"loss": 3.2187,
	"step": 78150
	},
	{
	"epoch": 22.772322208631838,
	"grad_norm": 0.3879016935825348,
	"learning_rate": 0.0003269265734265734,
	"loss": 3.2174,
	"step": 78200
	},
	{
	"epoch": 22.78688333624556,
	"grad_norm": 0.40803080797195435,
	"learning_rate": 0.0003267517482517482,
	"loss": 3.2185,
	"step": 78250
	},
	{
	"epoch": 22.80144446385928,
	"grad_norm": 0.4041688144207001,
	"learning_rate": 0.00032657692307692303,
	"loss": 3.2213,
	"step": 78300
	},
	{
	"epoch": 22.816005591473004,
	"grad_norm": 0.45537739992141724,
	"learning_rate": 0.0003264020979020979,
	"loss": 3.2238,
	"step": 78350
	},
	{
	"epoch": 22.830566719086725,
	"grad_norm": 0.4004671573638916,
	"learning_rate": 0.0003262272727272727,
	"loss": 3.2249,
	"step": 78400
	},
	{
	"epoch": 22.84512784670045,
	"grad_norm": 0.42924046516418457,
	"learning_rate": 0.00032605244755244754,
	"loss": 3.2315,
	"step": 78450
	},
	{
	"epoch": 22.85968897431417,
	"grad_norm": 0.4030812978744507,
	"learning_rate": 0.00032587762237762234,
	"loss": 3.2287,
	"step": 78500
	},
	{
	"epoch": 22.874250101927892,
	"grad_norm": 0.433896541595459,
	"learning_rate": 0.0003257027972027972,
	"loss": 3.2102,
	"step": 78550
	},
	{
	"epoch": 22.888811229541616,
	"grad_norm": 0.4471851885318756,
	"learning_rate": 0.000325527972027972,
	"loss": 3.2272,
	"step": 78600
	},
	{
	"epoch": 22.903372357155337,
	"grad_norm": 0.41922804713249207,
	"learning_rate": 0.00032535314685314684,
	"loss": 3.2256,
	"step": 78650
	},
	{
	"epoch": 22.917933484769062,
	"grad_norm": 0.39213013648986816,
	"learning_rate": 0.00032517832167832164,
	"loss": 3.2277,
	"step": 78700
	},
	{
	"epoch": 22.932494612382783,
	"grad_norm": 0.41318127512931824,
	"learning_rate": 0.0003250034965034965,
	"loss": 3.23,
	"step": 78750
	},
	{
	"epoch": 22.947055739996504,
	"grad_norm": 0.3996335566043854,
	"learning_rate": 0.0003248286713286713,
	"loss": 3.2347,
	"step": 78800
	},
	{
	"epoch": 22.96161686761023,
	"grad_norm": 0.4179418981075287,
	"learning_rate": 0.00032465384615384615,
	"loss": 3.2119,
	"step": 78850
	},
	{
	"epoch": 22.97617799522395,
	"grad_norm": 0.40133577585220337,
	"learning_rate": 0.0003244790209790209,
	"loss": 3.2423,
	"step": 78900
	},
	{
	"epoch": 22.990739122837674,
	"grad_norm": 0.4190486669540405,
	"learning_rate": 0.00032430419580419575,
	"loss": 3.2412,
	"step": 78950
	},
	{
	"epoch": 23.00524200594094,
	"grad_norm": 0.4167853593826294,
	"learning_rate": 0.00032412937062937066,
	"loss": 3.1907,
	"step": 79000
	},
	{
	"epoch": 23.00524200594094,
	"eval_accuracy": 0.3740838639913493,
	"eval_loss": 3.541588544845581,
	"eval_runtime": 181.5142,
	"eval_samples_per_second": 91.706,
	"eval_steps_per_second": 5.735,
	"step": 79000
	},
	{
	"epoch": 23.019803133554664,
	"grad_norm": 0.47005635499954224,
	"learning_rate": 0.0003239545454545454,
	"loss": 3.1263,
	"step": 79050
	},
	{
	"epoch": 23.034364261168385,
	"grad_norm": 0.4854358732700348,
	"learning_rate": 0.00032377972027972026,
	"loss": 3.1379,
	"step": 79100
	},
	{
	"epoch": 23.048925388782106,
	"grad_norm": 0.42257973551750183,
	"learning_rate": 0.00032360489510489506,
	"loss": 3.1392,
	"step": 79150
	},
	{
	"epoch": 23.06348651639583,
	"grad_norm": 0.41934341192245483,
	"learning_rate": 0.0003234300699300699,
	"loss": 3.1393,
	"step": 79200
	},
	{
	"epoch": 23.07804764400955,
	"grad_norm": 0.4423070251941681,
	"learning_rate": 0.0003232552447552447,
	"loss": 3.1454,
	"step": 79250
	},
	{
	"epoch": 23.092608771623276,
	"grad_norm": 0.4459611177444458,
	"learning_rate": 0.00032308041958041957,
	"loss": 3.1425,
	"step": 79300
	},
	{
	"epoch": 23.107169899236997,
	"grad_norm": 0.4294658303260803,
	"learning_rate": 0.00032290559440559437,
	"loss": 3.1444,
	"step": 79350
	},
	{
	"epoch": 23.121731026850718,
	"grad_norm": 0.41309309005737305,
	"learning_rate": 0.0003227307692307692,
	"loss": 3.1463,
	"step": 79400
	},
	{
	"epoch": 23.136292154464442,
	"grad_norm": 0.4507586359977722,
	"learning_rate": 0.000322555944055944,
	"loss": 3.1451,
	"step": 79450
	},
	{
	"epoch": 23.150853282078163,
	"grad_norm": 0.45409873127937317,
	"learning_rate": 0.00032238111888111887,
	"loss": 3.1498,
	"step": 79500
	},
	{
	"epoch": 23.165414409691888,
	"grad_norm": 0.43732842803001404,
	"learning_rate": 0.00032220629370629367,
	"loss": 3.1535,
	"step": 79550
	},
	{
	"epoch": 23.17997553730561,
	"grad_norm": 0.4267776310443878,
	"learning_rate": 0.0003220314685314685,
	"loss": 3.1575,
	"step": 79600
	},
	{
	"epoch": 23.19453666491933,
	"grad_norm": 0.4352038502693176,
	"learning_rate": 0.00032185664335664327,
	"loss": 3.1651,
	"step": 79650
	},
	{
	"epoch": 23.209097792533054,
	"grad_norm": 0.4356200695037842,
	"learning_rate": 0.0003216818181818181,
	"loss": 3.1603,
	"step": 79700
	},
	{
	"epoch": 23.223658920146775,
	"grad_norm": 0.514582633972168,
	"learning_rate": 0.00032150699300699303,
	"loss": 3.1619,
	"step": 79750
	},
	{
	"epoch": 23.2382200477605,
	"grad_norm": 0.4306679666042328,
	"learning_rate": 0.0003213321678321678,
	"loss": 3.1522,
	"step": 79800
	},
	{
	"epoch": 23.25278117537422,
	"grad_norm": 0.45389947295188904,
	"learning_rate": 0.00032115734265734263,
	"loss": 3.1671,
	"step": 79850
	},
	{
	"epoch": 23.26734230298794,
	"grad_norm": 0.43020981550216675,
	"learning_rate": 0.00032098251748251743,
	"loss": 3.1732,
	"step": 79900
	},
	{
	"epoch": 23.281903430601666,
	"grad_norm": 0.4288124144077301,
	"learning_rate": 0.0003208076923076923,
	"loss": 3.1713,
	"step": 79950
	},
	{
	"epoch": 23.296464558215387,
	"grad_norm": 0.4331974387168884,
	"learning_rate": 0.0003206328671328671,
	"loss": 3.1733,
	"step": 80000
	},
	{
	"epoch": 23.296464558215387,
	"eval_accuracy": 0.37361866875395155,
	"eval_loss": 3.545443058013916,
	"eval_runtime": 181.6085,
	"eval_samples_per_second": 91.659,
	"eval_steps_per_second": 5.732,
	"step": 80000
	},
	{
	"epoch": 23.31102568582911,
	"grad_norm": 0.4427962601184845,
	"learning_rate": 0.00032045804195804194,
	"loss": 3.1343,
	"step": 80050
	},
	{
	"epoch": 23.325586813442833,
	"grad_norm": 0.4147895574569702,
	"learning_rate": 0.00032028321678321674,
	"loss": 3.1397,
	"step": 80100
	},
	{
	"epoch": 23.340147941056557,
	"grad_norm": 0.419530987739563,
	"learning_rate": 0.0003201083916083916,
	"loss": 3.151,
	"step": 80150
	},
	{
	"epoch": 23.354709068670278,
	"grad_norm": 0.403069406747818,
	"learning_rate": 0.0003199335664335664,
	"loss": 3.1277,
	"step": 80200
	},
	{
	"epoch": 23.369270196284,
	"grad_norm": 0.4200323522090912,
	"learning_rate": 0.00031975874125874125,
	"loss": 3.1471,
	"step": 80250
	},
	{
	"epoch": 23.383831323897724,
	"grad_norm": 0.44411566853523254,
	"learning_rate": 0.00031958391608391605,
	"loss": 3.1484,
	"step": 80300
	},
	{
	"epoch": 23.398392451511445,
	"grad_norm": 0.41801297664642334,
	"learning_rate": 0.0003194090909090909,
	"loss": 3.1562,
	"step": 80350
	},
	{
	"epoch": 23.41295357912517,
	"grad_norm": 0.4184420108795166,
	"learning_rate": 0.00031923426573426576,
	"loss": 3.1438,
	"step": 80400
	},
	{
	"epoch": 23.42751470673889,
	"grad_norm": 0.44230568408966064,
	"learning_rate": 0.0003190594405594405,
	"loss": 3.1526,
	"step": 80450
	},
	{
	"epoch": 23.44207583435261,
	"grad_norm": 0.4212537109851837,
	"learning_rate": 0.0003188846153846154,
	"loss": 3.1627,
	"step": 80500
	},
	{
	"epoch": 23.456636961966336,
	"grad_norm": 0.4282604157924652,
	"learning_rate": 0.00031870979020979015,
	"loss": 3.1774,
	"step": 80550
	},
	{
	"epoch": 23.471198089580056,
	"grad_norm": 0.4327588379383087,
	"learning_rate": 0.000318534965034965,
	"loss": 3.1589,
	"step": 80600
	},
	{
	"epoch": 23.48575921719378,
	"grad_norm": 0.41222071647644043,
	"learning_rate": 0.0003183601398601398,
	"loss": 3.1507,
	"step": 80650
	},
	{
	"epoch": 23.500320344807502,
	"grad_norm": 0.4317290484905243,
	"learning_rate": 0.00031818531468531466,
	"loss": 3.1722,
	"step": 80700
	},
	{
	"epoch": 23.514881472421223,
	"grad_norm": 0.4802771508693695,
	"learning_rate": 0.00031801048951048946,
	"loss": 3.1686,
	"step": 80750
	},
	{
	"epoch": 23.529442600034947,
	"grad_norm": 0.4655288755893707,
	"learning_rate": 0.0003178356643356643,
	"loss": 3.1643,
	"step": 80800
	},
	{
	"epoch": 23.54400372764867,
	"grad_norm": 0.438944011926651,
	"learning_rate": 0.0003176608391608391,
	"loss": 3.1633,
	"step": 80850
	},
	{
	"epoch": 23.558564855262393,
	"grad_norm": 0.42858242988586426,
	"learning_rate": 0.00031748601398601397,
	"loss": 3.1716,
	"step": 80900
	},
	{
	"epoch": 23.573125982876114,
	"grad_norm": 0.4267042577266693,
	"learning_rate": 0.00031731118881118877,
	"loss": 3.1785,
	"step": 80950
	},
	{
	"epoch": 23.587687110489835,
	"grad_norm": 0.46341368556022644,
	"learning_rate": 0.0003171363636363636,
	"loss": 3.1709,
	"step": 81000
	},
	{
	"epoch": 23.587687110489835,
	"eval_accuracy": 0.37356576558063115,
	"eval_loss": 3.5511109828948975,
	"eval_runtime": 183.1304,
	"eval_samples_per_second": 90.897,
	"eval_steps_per_second": 5.684,
	"step": 81000
	},
	{
	"epoch": 23.60224823810356,
	"grad_norm": 0.4287234842777252,
	"learning_rate": 0.0003169615384615385,
	"loss": 3.1819,
	"step": 81050
	},
	{
	"epoch": 23.61680936571728,
	"grad_norm": 0.39995384216308594,
	"learning_rate": 0.0003167867132867133,
	"loss": 3.1718,
	"step": 81100
	},
	{
	"epoch": 23.631370493331005,
	"grad_norm": 0.4341868460178375,
	"learning_rate": 0.00031661188811188813,
	"loss": 3.1789,
	"step": 81150
	},
	{
	"epoch": 23.645931620944726,
	"grad_norm": 0.4470629096031189,
	"learning_rate": 0.0003164370629370629,
	"loss": 3.1786,
	"step": 81200
	},
	{
	"epoch": 23.660492748558447,
	"grad_norm": 0.45968714356422424,
	"learning_rate": 0.0003162622377622378,
	"loss": 3.1784,
	"step": 81250
	},
	{
	"epoch": 23.67505387617217,
	"grad_norm": 0.43907180428504944,
	"learning_rate": 0.00031608741258741253,
	"loss": 3.1736,
	"step": 81300
	},
	{
	"epoch": 23.689615003785892,
	"grad_norm": 0.4089866280555725,
	"learning_rate": 0.0003159125874125874,
	"loss": 3.1876,
	"step": 81350
	},
	{
	"epoch": 23.704176131399617,
	"grad_norm": 0.43956878781318665,
	"learning_rate": 0.0003157377622377622,
	"loss": 3.1909,
	"step": 81400
	},
	{
	"epoch": 23.718737259013338,
	"grad_norm": 0.43983733654022217,
	"learning_rate": 0.00031556293706293704,
	"loss": 3.1892,
	"step": 81450
	},
	{
	"epoch": 23.73329838662706,
	"grad_norm": 0.4676794111728668,
	"learning_rate": 0.00031538811188811184,
	"loss": 3.1888,
	"step": 81500
	},
	{
	"epoch": 23.747859514240783,
	"grad_norm": 0.40861639380455017,
	"learning_rate": 0.0003152132867132867,
	"loss": 3.1799,
	"step": 81550
	},
	{
	"epoch": 23.762420641854504,
	"grad_norm": 0.4438626170158386,
	"learning_rate": 0.0003150384615384615,
	"loss": 3.1965,
	"step": 81600
	},
	{
	"epoch": 23.77698176946823,
	"grad_norm": 0.40836039185523987,
	"learning_rate": 0.00031486363636363634,
	"loss": 3.1963,
	"step": 81650
	},
	{
	"epoch": 23.79154289708195,
	"grad_norm": 0.4300759732723236,
	"learning_rate": 0.00031468881118881114,
	"loss": 3.1916,
	"step": 81700
	},
	{
	"epoch": 23.80610402469567,
	"grad_norm": 0.4425976872444153,
	"learning_rate": 0.000314513986013986,
	"loss": 3.1986,
	"step": 81750
	},
	{
	"epoch": 23.820665152309395,
	"grad_norm": 0.43533793091773987,
	"learning_rate": 0.00031433916083916085,
	"loss": 3.1976,
	"step": 81800
	},
	{
	"epoch": 23.835226279923116,
	"grad_norm": 0.46766385436058044,
	"learning_rate": 0.00031416433566433565,
	"loss": 3.2031,
	"step": 81850
	},
	{
	"epoch": 23.84978740753684,
	"grad_norm": 0.4058093726634979,
	"learning_rate": 0.0003139895104895105,
	"loss": 3.1907,
	"step": 81900
	},
	{
	"epoch": 23.86434853515056,
	"grad_norm": 0.43000906705856323,
	"learning_rate": 0.00031381468531468525,
	"loss": 3.1935,
	"step": 81950
	},
	{
	"epoch": 23.878909662764286,
	"grad_norm": 0.41383597254753113,
	"learning_rate": 0.00031363986013986016,
	"loss": 3.1826,
	"step": 82000
	},
	{
	"epoch": 23.878909662764286,
	"eval_accuracy": 0.3738011259206034,
	"eval_loss": 3.5398848056793213,
	"eval_runtime": 181.4523,
	"eval_samples_per_second": 91.738,
	"eval_steps_per_second": 5.737,
	"step": 82000
	},
	{
	"epoch": 23.893470790378007,
	"grad_norm": 0.39904436469078064,
	"learning_rate": 0.0003134650349650349,
	"loss": 3.1959,
	"step": 82050
	},
	{
	"epoch": 23.908031917991728,
	"grad_norm": 0.4246189296245575,
	"learning_rate": 0.00031329020979020976,
	"loss": 3.1974,
	"step": 82100
	},
	{
	"epoch": 23.922593045605453,
	"grad_norm": 0.44754716753959656,
	"learning_rate": 0.00031311538461538456,
	"loss": 3.2024,
	"step": 82150
	},
	{
	"epoch": 23.937154173219174,
	"grad_norm": 0.39964792132377625,
	"learning_rate": 0.0003129405594405594,
	"loss": 3.214,
	"step": 82200
	},
	{
	"epoch": 23.951715300832895,
	"grad_norm": 0.44868752360343933,
	"learning_rate": 0.0003127657342657342,
	"loss": 3.2063,
	"step": 82250
	},
	{
	"epoch": 23.96627642844662,
	"grad_norm": 0.40091389417648315,
	"learning_rate": 0.00031259090909090907,
	"loss": 3.211,
	"step": 82300
	},
	{
	"epoch": 23.98083755606034,
	"grad_norm": 0.41129353642463684,
	"learning_rate": 0.00031241608391608386,
	"loss": 3.2058,
	"step": 82350
	},
	{
	"epoch": 23.995398683674065,
	"grad_norm": 0.41008952260017395,
	"learning_rate": 0.0003122412587412587,
	"loss": 3.2108,
	"step": 82400
	},
	{
	"epoch": 24.010192789329604,
	"grad_norm": 0.4055507481098175,
	"learning_rate": 0.00031206643356643357,
	"loss": 3.2004,
	"step": 82450
	},
	{
	"epoch": 24.02475391694333,
	"grad_norm": 0.5234610438346863,
	"learning_rate": 0.00031189160839160837,
	"loss": 3.1293,
	"step": 82500
	},
	{
	"epoch": 24.03931504455705,
	"grad_norm": 0.4396438002586365,
	"learning_rate": 0.0003117167832167832,
	"loss": 3.1357,
	"step": 82550
	},
	{
	"epoch": 24.053876172170774,
	"grad_norm": 0.4456036388874054,
	"learning_rate": 0.000311541958041958,
	"loss": 3.1459,
	"step": 82600
	},
	{
	"epoch": 24.068437299784495,
	"grad_norm": 0.4444725811481476,
	"learning_rate": 0.0003113671328671329,
	"loss": 3.1445,
	"step": 82650
	},
	{
	"epoch": 24.082998427398216,
	"grad_norm": 0.4448588788509369,
	"learning_rate": 0.0003111923076923076,
	"loss": 3.1315,
	"step": 82700
	},
	{
	"epoch": 24.09755955501194,
	"grad_norm": 0.4239571988582611,
	"learning_rate": 0.00031101748251748253,
	"loss": 3.1443,
	"step": 82750
	},
	{
	"epoch": 24.11212068262566,
	"grad_norm": 0.4709978699684143,
	"learning_rate": 0.0003108426573426573,
	"loss": 3.1474,
	"step": 82800
	},
	{
	"epoch": 24.126681810239386,
	"grad_norm": 0.41466906666755676,
	"learning_rate": 0.00031066783216783213,
	"loss": 3.1519,
	"step": 82850
	},
	{
	"epoch": 24.141242937853107,
	"grad_norm": 0.4248252809047699,
	"learning_rate": 0.00031049300699300693,
	"loss": 3.1511,
	"step": 82900
	},
	{
	"epoch": 24.15580406546683,
	"grad_norm": 0.42820581793785095,
	"learning_rate": 0.0003103181818181818,
	"loss": 3.1475,
	"step": 82950
	},
	{
	"epoch": 24.170365193080553,
	"grad_norm": 0.4261331558227539,
	"learning_rate": 0.0003101433566433566,
	"loss": 3.1678,
	"step": 83000
	},
	{
	"epoch": 24.170365193080553,
	"eval_accuracy": 0.3737746743339432,
	"eval_loss": 3.551267147064209,
	"eval_runtime": 179.5994,
	"eval_samples_per_second": 92.684,
	"eval_steps_per_second": 5.796,
	"step": 83000
	},
	{
	"epoch": 24.184926320694274,
	"grad_norm": 0.4040394127368927,
	"learning_rate": 0.00030996853146853144,
	"loss": 3.1616,
	"step": 83050
	},
	{
	"epoch": 24.199487448308,
	"grad_norm": 0.42790085077285767,
	"learning_rate": 0.00030979370629370624,
	"loss": 3.1556,
	"step": 83100
	},
	{
	"epoch": 24.21404857592172,
	"grad_norm": 0.4354301989078522,
	"learning_rate": 0.0003096188811188811,
	"loss": 3.1679,
	"step": 83150
	},
	{
	"epoch": 24.22860970353544,
	"grad_norm": 0.40604090690612793,
	"learning_rate": 0.00030944405594405595,
	"loss": 3.1645,
	"step": 83200
	},
	{
	"epoch": 24.243170831149165,
	"grad_norm": 0.42527294158935547,
	"learning_rate": 0.00030926923076923075,
	"loss": 3.1686,
	"step": 83250
	},
	{
	"epoch": 24.257731958762886,
	"grad_norm": 0.4575725495815277,
	"learning_rate": 0.0003090944055944056,
	"loss": 3.1727,
	"step": 83300
	},
	{
	"epoch": 24.27229308637661,
	"grad_norm": 0.43924689292907715,
	"learning_rate": 0.0003089195804195804,
	"loss": 3.153,
	"step": 83350
	},
	{
	"epoch": 24.28685421399033,
	"grad_norm": 0.44194477796554565,
	"learning_rate": 0.00030874475524475525,
	"loss": 3.1631,
	"step": 83400
	},
	{
	"epoch": 24.301415341604052,
	"grad_norm": 0.4234224259853363,
	"learning_rate": 0.00030856993006993,
	"loss": 3.1559,
	"step": 83450
	},
	{
	"epoch": 24.315976469217777,
	"grad_norm": 0.41649138927459717,
	"learning_rate": 0.0003083951048951049,
	"loss": 3.1696,
	"step": 83500
	},
	{
	"epoch": 24.330537596831498,
	"grad_norm": 0.4343189299106598,
	"learning_rate": 0.00030822027972027965,
	"loss": 3.1779,
	"step": 83550
	},
	{
	"epoch": 24.345098724445222,
	"grad_norm": 0.4231833815574646,
	"learning_rate": 0.0003080454545454545,
	"loss": 3.1739,
	"step": 83600
	},
	{
	"epoch": 24.359659852058943,
	"grad_norm": 0.4362432360649109,
	"learning_rate": 0.0003078706293706293,
	"loss": 3.1902,
	"step": 83650
	},
	{
	"epoch": 24.374220979672664,
	"grad_norm": 0.47380730509757996,
	"learning_rate": 0.00030769580419580416,
	"loss": 3.1835,
	"step": 83700
	},
	{
	"epoch": 24.38878210728639,
	"grad_norm": 0.4370240271091461,
	"learning_rate": 0.00030752097902097896,
	"loss": 3.1827,
	"step": 83750
	},
	{
	"epoch": 24.40334323490011,
	"grad_norm": 0.4307492971420288,
	"learning_rate": 0.0003073461538461538,
	"loss": 3.1792,
	"step": 83800
	},
	{
	"epoch": 24.417904362513834,
	"grad_norm": 0.47485002875328064,
	"learning_rate": 0.00030717132867132867,
	"loss": 3.1842,
	"step": 83850
	},
	{
	"epoch": 24.432465490127555,
	"grad_norm": 0.4413365423679352,
	"learning_rate": 0.00030699650349650347,
	"loss": 3.1772,
	"step": 83900
	},
	{
	"epoch": 24.44702661774128,
	"grad_norm": 0.44595688581466675,
	"learning_rate": 0.0003068216783216783,
	"loss": 3.1783,
	"step": 83950
	},
	{
	"epoch": 24.461587745355,
	"grad_norm": 0.4534691572189331,
	"learning_rate": 0.0003066468531468531,
	"loss": 3.1804,
	"step": 84000
	},
	{
	"epoch": 24.461587745355,
	"eval_accuracy": 0.37444125431778064,
	"eval_loss": 3.5442681312561035,
	"eval_runtime": 179.6681,
	"eval_samples_per_second": 92.649,
	"eval_steps_per_second": 5.794,
	"step": 84000
	},
	{
	"epoch": 24.47614887296872,
	"grad_norm": 0.44713789224624634,
	"learning_rate": 0.000306472027972028,
	"loss": 3.1859,
	"step": 84050
	},
	{
	"epoch": 24.490710000582446,
	"grad_norm": 0.39599132537841797,
	"learning_rate": 0.0003062972027972028,
	"loss": 3.1968,
	"step": 84100
	},
	{
	"epoch": 24.505271128196167,
	"grad_norm": 0.4396774172782898,
	"learning_rate": 0.00030612237762237763,
	"loss": 3.1778,
	"step": 84150
	},
	{
	"epoch": 24.51983225580989,
	"grad_norm": 0.4290499687194824,
	"learning_rate": 0.0003059475524475524,
	"loss": 3.1866,
	"step": 84200
	},
	{
	"epoch": 24.534393383423613,
	"grad_norm": 0.4494478404521942,
	"learning_rate": 0.0003057727272727273,
	"loss": 3.1949,
	"step": 84250
	},
	{
	"epoch": 24.548954511037334,
	"grad_norm": 0.44717657566070557,
	"learning_rate": 0.00030559790209790203,
	"loss": 3.201,
	"step": 84300
	},
	{
	"epoch": 24.563515638651058,
	"grad_norm": 0.4035719931125641,
	"learning_rate": 0.0003054230769230769,
	"loss": 3.1982,
	"step": 84350
	},
	{
	"epoch": 24.57807676626478,
	"grad_norm": 0.45122021436691284,
	"learning_rate": 0.0003052482517482517,
	"loss": 3.1958,
	"step": 84400
	},
	{
	"epoch": 24.592637893878504,
	"grad_norm": 0.4674008786678314,
	"learning_rate": 0.00030507342657342654,
	"loss": 3.1875,
	"step": 84450
	},
	{
	"epoch": 24.607199021492224,
	"grad_norm": 0.4347369372844696,
	"learning_rate": 0.00030489860139860134,
	"loss": 3.1963,
	"step": 84500
	},
	{
	"epoch": 24.621760149105945,
	"grad_norm": 0.47144556045532227,
	"learning_rate": 0.0003047237762237762,
	"loss": 3.2072,
	"step": 84550
	},
	{
	"epoch": 24.63632127671967,
	"grad_norm": 0.4225020408630371,
	"learning_rate": 0.00030454895104895104,
	"loss": 3.2078,
	"step": 84600
	},
	{
	"epoch": 24.65088240433339,
	"grad_norm": 0.43113863468170166,
	"learning_rate": 0.00030437412587412584,
	"loss": 3.194,
	"step": 84650
	},
	{
	"epoch": 24.665443531947115,
	"grad_norm": 0.4452700912952423,
	"learning_rate": 0.0003041993006993007,
	"loss": 3.197,
	"step": 84700
	},
	{
	"epoch": 24.680004659560836,
	"grad_norm": 0.4244314432144165,
	"learning_rate": 0.0003040244755244755,
	"loss": 3.1949,
	"step": 84750
	},
	{
	"epoch": 24.694565787174557,
	"grad_norm": 0.40277841687202454,
	"learning_rate": 0.00030384965034965035,
	"loss": 3.1988,
	"step": 84800
	},
	{
	"epoch": 24.709126914788282,
	"grad_norm": 0.415084570646286,
	"learning_rate": 0.00030367482517482515,
	"loss": 3.2,
	"step": 84850
	},
	{
	"epoch": 24.723688042402003,
	"grad_norm": 0.4263736307621002,
	"learning_rate": 0.0003035,
	"loss": 3.1917,
	"step": 84900
	},
	{
	"epoch": 24.738249170015727,
	"grad_norm": 0.4242768883705139,
	"learning_rate": 0.00030332517482517475,
	"loss": 3.2022,
	"step": 84950
	},
	{
	"epoch": 24.75281029762945,
	"grad_norm": 0.4260680079460144,
	"learning_rate": 0.00030315034965034966,
	"loss": 3.1961,
	"step": 85000
	},
	{
	"epoch": 24.75281029762945,
	"eval_accuracy": 0.3745253115820565,
	"eval_loss": 3.536972999572754,
	"eval_runtime": 179.4924,
	"eval_samples_per_second": 92.739,
	"eval_steps_per_second": 5.8,
	"step": 85000
	},
	{
	"epoch": 24.76737142524317,
	"grad_norm": 0.45205798745155334,
	"learning_rate": 0.0003029755244755244,
	"loss": 3.2125,
	"step": 85050
	},
	{
	"epoch": 24.781932552856894,
	"grad_norm": 0.42500776052474976,
	"learning_rate": 0.00030280069930069926,
	"loss": 3.2046,
	"step": 85100
	},
	{
	"epoch": 24.796493680470615,
	"grad_norm": 0.41121914982795715,
	"learning_rate": 0.00030262587412587406,
	"loss": 3.1954,
	"step": 85150
	},
	{
	"epoch": 24.81105480808434,
	"grad_norm": 0.4320926368236542,
	"learning_rate": 0.0003024510489510489,
	"loss": 3.2025,
	"step": 85200
	},
	{
	"epoch": 24.82561593569806,
	"grad_norm": 0.44884154200553894,
	"learning_rate": 0.00030227622377622377,
	"loss": 3.2192,
	"step": 85250
	},
	{
	"epoch": 24.84017706331178,
	"grad_norm": 0.4253446161746979,
	"learning_rate": 0.00030210139860139856,
	"loss": 3.1914,
	"step": 85300
	},
	{
	"epoch": 24.854738190925506,
	"grad_norm": 0.4284515678882599,
	"learning_rate": 0.0003019265734265734,
	"loss": 3.1969,
	"step": 85350
	},
	{
	"epoch": 24.869299318539227,
	"grad_norm": 0.42511728405952454,
	"learning_rate": 0.0003017517482517482,
	"loss": 3.2043,
	"step": 85400
	},
	{
	"epoch": 24.88386044615295,
	"grad_norm": 0.4469735324382782,
	"learning_rate": 0.00030157692307692307,
	"loss": 3.2073,
	"step": 85450
	},
	{
	"epoch": 24.898421573766672,
	"grad_norm": 0.4321291744709015,
	"learning_rate": 0.00030140209790209787,
	"loss": 3.2035,
	"step": 85500
	},
	{
	"epoch": 24.912982701380393,
	"grad_norm": 0.46072015166282654,
	"learning_rate": 0.0003012272727272727,
	"loss": 3.2108,
	"step": 85550
	},
	{
	"epoch": 24.927543828994118,
	"grad_norm": 0.4262774586677551,
	"learning_rate": 0.0003010524475524475,
	"loss": 3.2168,
	"step": 85600
	},
	{
	"epoch": 24.94210495660784,
	"grad_norm": 0.43718767166137695,
	"learning_rate": 0.0003008776223776224,
	"loss": 3.218,
	"step": 85650
	},
	{
	"epoch": 24.956666084221563,
	"grad_norm": 0.44388192892074585,
	"learning_rate": 0.0003007027972027972,
	"loss": 3.2264,
	"step": 85700
	},
	{
	"epoch": 24.971227211835284,
	"grad_norm": 0.42144742608070374,
	"learning_rate": 0.00030052797202797203,
	"loss": 3.2145,
	"step": 85750
	},
	{
	"epoch": 24.985788339449005,
	"grad_norm": 0.4361017346382141,
	"learning_rate": 0.0003003531468531468,
	"loss": 3.2117,
	"step": 85800
	},
	{
	"epoch": 25.000291222552274,
	"grad_norm": 0.4248194396495819,
	"learning_rate": 0.00030017832167832163,
	"loss": 3.2092,
	"step": 85850
	},
	{
	"epoch": 25.014852350165995,
	"grad_norm": 0.4351113438606262,
	"learning_rate": 0.0003000034965034965,
	"loss": 3.1078,
	"step": 85900
	},
	{
	"epoch": 25.02941347777972,
	"grad_norm": 0.42596226930618286,
	"learning_rate": 0.0002998286713286713,
	"loss": 3.1201,
	"step": 85950
	},
	{
	"epoch": 25.04397460539344,
	"grad_norm": 0.46878865361213684,
	"learning_rate": 0.00029965384615384614,
	"loss": 3.1263,
	"step": 86000
	},
	{
	"epoch": 25.04397460539344,
	"eval_accuracy": 0.37411219657972755,
	"eval_loss": 3.5491256713867188,
	"eval_runtime": 176.7181,
	"eval_samples_per_second": 94.195,
	"eval_steps_per_second": 5.891,
	"step": 86000
	},
	{
	"epoch": 25.058535733007165,
	"grad_norm": 0.4412727952003479,
	"learning_rate": 0.00029947902097902094,
	"loss": 3.1288,
	"step": 86050
	},
	{
	"epoch": 25.073096860620886,
	"grad_norm": 0.4346449375152588,
	"learning_rate": 0.0002993041958041958,
	"loss": 3.1077,
	"step": 86100
	},
	{
	"epoch": 25.087657988234607,
	"grad_norm": 0.39609846472740173,
	"learning_rate": 0.0002991293706293706,
	"loss": 3.1211,
	"step": 86150
	},
	{
	"epoch": 25.10221911584833,
	"grad_norm": 0.44357728958129883,
	"learning_rate": 0.0002989545454545454,
	"loss": 3.1297,
	"step": 86200
	},
	{
	"epoch": 25.116780243462053,
	"grad_norm": 0.45794379711151123,
	"learning_rate": 0.00029877972027972025,
	"loss": 3.1211,
	"step": 86250
	},
	{
	"epoch": 25.131341371075777,
	"grad_norm": 0.43018895387649536,
	"learning_rate": 0.0002986048951048951,
	"loss": 3.1417,
	"step": 86300
	},
	{
	"epoch": 25.145902498689498,
	"grad_norm": 0.4581180810928345,
	"learning_rate": 0.0002984300699300699,
	"loss": 3.155,
	"step": 86350
	},
	{
	"epoch": 25.160463626303223,
	"grad_norm": 0.4213555157184601,
	"learning_rate": 0.00029825524475524475,
	"loss": 3.1475,
	"step": 86400
	},
	{
	"epoch": 25.175024753916944,
	"grad_norm": 0.4403611123561859,
	"learning_rate": 0.00029808041958041955,
	"loss": 3.1362,
	"step": 86450
	},
	{
	"epoch": 25.189585881530665,
	"grad_norm": 0.4395023286342621,
	"learning_rate": 0.0002979055944055944,
	"loss": 3.1528,
	"step": 86500
	},
	{
	"epoch": 25.20414700914439,
	"grad_norm": 0.4428085684776306,
	"learning_rate": 0.0002977307692307692,
	"loss": 3.1564,
	"step": 86550
	},
	{
	"epoch": 25.21870813675811,
	"grad_norm": 0.45908576250076294,
	"learning_rate": 0.000297555944055944,
	"loss": 3.1578,
	"step": 86600
	},
	{
	"epoch": 25.233269264371835,
	"grad_norm": 0.4589797854423523,
	"learning_rate": 0.00029738111888111886,
	"loss": 3.1574,
	"step": 86650
	},
	{
	"epoch": 25.247830391985556,
	"grad_norm": 0.4465392529964447,
	"learning_rate": 0.00029720629370629366,
	"loss": 3.1659,
	"step": 86700
	},
	{
	"epoch": 25.262391519599277,
	"grad_norm": 0.4671694338321686,
	"learning_rate": 0.0002970314685314685,
	"loss": 3.1623,
	"step": 86750
	},
	{
	"epoch": 25.276952647213,
	"grad_norm": 0.4481816291809082,
	"learning_rate": 0.0002968566433566433,
	"loss": 3.1592,
	"step": 86800
	},
	{
	"epoch": 25.291513774826722,
	"grad_norm": 0.42319440841674805,
	"learning_rate": 0.00029668181818181817,
	"loss": 3.1604,
	"step": 86850
	},
	{
	"epoch": 25.306074902440447,
	"grad_norm": 0.43693089485168457,
	"learning_rate": 0.00029650699300699297,
	"loss": 3.1619,
	"step": 86900
	},
	{
	"epoch": 25.320636030054168,
	"grad_norm": 0.45987287163734436,
	"learning_rate": 0.0002963321678321678,
	"loss": 3.1696,
	"step": 86950
	},
	{
	"epoch": 25.33519715766789,
	"grad_norm": 0.42960765957832336,
	"learning_rate": 0.0002961573426573426,
	"loss": 3.154,
	"step": 87000
	},
	{
	"epoch": 25.33519715766789,
	"eval_accuracy": 0.37412642165522036,
	"eval_loss": 3.5453908443450928,
	"eval_runtime": 176.2059,
	"eval_samples_per_second": 94.469,
	"eval_steps_per_second": 5.908,
	"step": 87000
	},
	{
	"epoch": 25.349758285281613,
	"grad_norm": 0.41703730821609497,
	"learning_rate": 0.0002959825174825175,
	"loss": 3.1702,
	"step": 87050
	},
	{
	"epoch": 25.364319412895334,
	"grad_norm": 0.41498929262161255,
	"learning_rate": 0.0002958076923076923,
	"loss": 3.1646,
	"step": 87100
	},
	{
	"epoch": 25.37888054050906,
	"grad_norm": 0.4342972934246063,
	"learning_rate": 0.00029563286713286713,
	"loss": 3.1638,
	"step": 87150
	},
	{
	"epoch": 25.39344166812278,
	"grad_norm": 0.4224667549133301,
	"learning_rate": 0.00029545804195804193,
	"loss": 3.1634,
	"step": 87200
	},
	{
	"epoch": 25.4080027957365,
	"grad_norm": 0.4253639578819275,
	"learning_rate": 0.0002952832167832168,
	"loss": 3.1607,
	"step": 87250
	},
	{
	"epoch": 25.422563923350225,
	"grad_norm": 0.4677792489528656,
	"learning_rate": 0.0002951083916083916,
	"loss": 3.1734,
	"step": 87300
	},
	{
	"epoch": 25.437125050963946,
	"grad_norm": 0.4360434114933014,
	"learning_rate": 0.0002949335664335664,
	"loss": 3.1828,
	"step": 87350
	},
	{
	"epoch": 25.45168617857767,
	"grad_norm": 0.43525949120521545,
	"learning_rate": 0.00029475874125874124,
	"loss": 3.1788,
	"step": 87400
	},
	{
	"epoch": 25.46624730619139,
	"grad_norm": 0.4348710775375366,
	"learning_rate": 0.00029458391608391604,
	"loss": 3.1655,
	"step": 87450
	},
	{
	"epoch": 25.480808433805112,
	"grad_norm": 0.43275031447410583,
	"learning_rate": 0.0002944090909090909,
	"loss": 3.1756,
	"step": 87500
	},
	{
	"epoch": 25.495369561418837,
	"grad_norm": 0.4394141435623169,
	"learning_rate": 0.0002942342657342657,
	"loss": 3.173,
	"step": 87550
	},
	{
	"epoch": 25.509930689032558,
	"grad_norm": 0.4471202492713928,
	"learning_rate": 0.00029405944055944054,
	"loss": 3.1683,
	"step": 87600
	},
	{
	"epoch": 25.524491816646282,
	"grad_norm": 0.41999685764312744,
	"learning_rate": 0.0002938846153846154,
	"loss": 3.1614,
	"step": 87650
	},
	{
	"epoch": 25.539052944260003,
	"grad_norm": 0.43269193172454834,
	"learning_rate": 0.0002937097902097902,
	"loss": 3.1777,
	"step": 87700
	},
	{
	"epoch": 25.553614071873724,
	"grad_norm": 0.42658814787864685,
	"learning_rate": 0.000293534965034965,
	"loss": 3.1735,
	"step": 87750
	},
	{
	"epoch": 25.56817519948745,
	"grad_norm": 0.4357419013977051,
	"learning_rate": 0.00029336013986013985,
	"loss": 3.1781,
	"step": 87800
	},
	{
	"epoch": 25.58273632710117,
	"grad_norm": 0.4139287769794464,
	"learning_rate": 0.00029318531468531465,
	"loss": 3.1944,
	"step": 87850
	},
	{
	"epoch": 25.597297454714894,
	"grad_norm": 0.4486486613750458,
	"learning_rate": 0.0002930104895104895,
	"loss": 3.1823,
	"step": 87900
	},
	{
	"epoch": 25.611858582328615,
	"grad_norm": 0.4442857801914215,
	"learning_rate": 0.0002928356643356643,
	"loss": 3.1843,
	"step": 87950
	},
	{
	"epoch": 25.626419709942336,
	"grad_norm": 0.45513904094696045,
	"learning_rate": 0.00029266083916083916,
	"loss": 3.1894,
	"step": 88000
	},
	{
	"epoch": 25.626419709942336,
	"eval_accuracy": 0.37466767989959215,
	"eval_loss": 3.5389256477355957,
	"eval_runtime": 175.967,
	"eval_samples_per_second": 94.597,
	"eval_steps_per_second": 5.916,
	"step": 88000
	},
	{
	"epoch": 25.64098083755606,
	"grad_norm": 0.43382444977760315,
	"learning_rate": 0.00029248601398601396,
	"loss": 3.1851,
	"step": 88050
	},
	{
	"epoch": 25.655541965169782,
	"grad_norm": 0.442452073097229,
	"learning_rate": 0.00029231118881118876,
	"loss": 3.1839,
	"step": 88100
	},
	{
	"epoch": 25.670103092783506,
	"grad_norm": 0.4499036371707916,
	"learning_rate": 0.0002921363636363636,
	"loss": 3.2013,
	"step": 88150
	},
	{
	"epoch": 25.684664220397227,
	"grad_norm": 0.44497251510620117,
	"learning_rate": 0.0002919615384615384,
	"loss": 3.1862,
	"step": 88200
	},
	{
	"epoch": 25.69922534801095,
	"grad_norm": 0.4415050745010376,
	"learning_rate": 0.00029178671328671326,
	"loss": 3.1928,
	"step": 88250
	},
	{
	"epoch": 25.713786475624673,
	"grad_norm": 0.4452243745326996,
	"learning_rate": 0.00029161188811188806,
	"loss": 3.1887,
	"step": 88300
	},
	{
	"epoch": 25.728347603238394,
	"grad_norm": 0.42870011925697327,
	"learning_rate": 0.0002914370629370629,
	"loss": 3.1933,
	"step": 88350
	},
	{
	"epoch": 25.74290873085212,
	"grad_norm": 0.43815651535987854,
	"learning_rate": 0.00029126223776223777,
	"loss": 3.1973,
	"step": 88400
	},
	{
	"epoch": 25.75746985846584,
	"grad_norm": 0.45350000262260437,
	"learning_rate": 0.00029108741258741257,
	"loss": 3.2004,
	"step": 88450
	},
	{
	"epoch": 25.772030986079564,
	"grad_norm": 0.4553363025188446,
	"learning_rate": 0.00029091258741258737,
	"loss": 3.1844,
	"step": 88500
	},
	{
	"epoch": 25.786592113693285,
	"grad_norm": 0.43608611822128296,
	"learning_rate": 0.0002907377622377622,
	"loss": 3.1941,
	"step": 88550
	},
	{
	"epoch": 25.801153241307006,
	"grad_norm": 0.43659260869026184,
	"learning_rate": 0.000290562937062937,
	"loss": 3.1969,
	"step": 88600
	},
	{
	"epoch": 25.81571436892073,
	"grad_norm": 0.46350592374801636,
	"learning_rate": 0.0002903881118881119,
	"loss": 3.1942,
	"step": 88650
	},
	{
	"epoch": 25.83027549653445,
	"grad_norm": 0.418295294046402,
	"learning_rate": 0.0002902132867132867,
	"loss": 3.2015,
	"step": 88700
	},
	{
	"epoch": 25.844836624148176,
	"grad_norm": 0.4518921673297882,
	"learning_rate": 0.00029003846153846153,
	"loss": 3.1963,
	"step": 88750
	},
	{
	"epoch": 25.859397751761897,
	"grad_norm": 0.4454209506511688,
	"learning_rate": 0.00028986363636363633,
	"loss": 3.2125,
	"step": 88800
	},
	{
	"epoch": 25.873958879375618,
	"grad_norm": 0.43863117694854736,
	"learning_rate": 0.00028968881118881113,
	"loss": 3.2022,
	"step": 88850
	},
	{
	"epoch": 25.888520006989342,
	"grad_norm": 0.4504716098308563,
	"learning_rate": 0.000289513986013986,
	"loss": 3.1982,
	"step": 88900
	},
	{
	"epoch": 25.903081134603063,
	"grad_norm": 0.43187907338142395,
	"learning_rate": 0.0002893391608391608,
	"loss": 3.2018,
	"step": 88950
	},
	{
	"epoch": 25.917642262216788,
	"grad_norm": 0.43266239762306213,
	"learning_rate": 0.00028916433566433564,
	"loss": 3.1955,
	"step": 89000
	},
	{
	"epoch": 25.917642262216788,
	"eval_accuracy": 0.3752269252228928,
	"eval_loss": 3.5307505130767822,
	"eval_runtime": 176.096,
	"eval_samples_per_second": 94.528,
	"eval_steps_per_second": 5.912,
	"step": 89000
	},
	{
	"epoch": 25.93220338983051,
	"grad_norm": 0.42945364117622375,
	"learning_rate": 0.0002889895104895105,
	"loss": 3.207,
	"step": 89050
	},
	{
	"epoch": 25.94676451744423,
	"grad_norm": 0.4331735670566559,
	"learning_rate": 0.0002888146853146853,
	"loss": 3.1885,
	"step": 89100
	},
	{
	"epoch": 25.961325645057954,
	"grad_norm": 0.42931729555130005,
	"learning_rate": 0.00028863986013986015,
	"loss": 3.1919,
	"step": 89150
	},
	{
	"epoch": 25.975886772671675,
	"grad_norm": 0.4149147570133209,
	"learning_rate": 0.00028846503496503495,
	"loss": 3.2039,
	"step": 89200
	},
	{
	"epoch": 25.9904479002854,
	"grad_norm": 0.44881975650787354,
	"learning_rate": 0.00028829020979020975,
	"loss": 3.2024,
	"step": 89250
	},
	{
	"epoch": 26.004950783388665,
	"grad_norm": 0.44668522477149963,
	"learning_rate": 0.0002881153846153846,
	"loss": 3.1559,
	"step": 89300
	},
	{
	"epoch": 26.01951191100239,
	"grad_norm": 0.43503040075302124,
	"learning_rate": 0.0002879405594405594,
	"loss": 3.1127,
	"step": 89350
	},
	{
	"epoch": 26.03407303861611,
	"grad_norm": 0.4179213345050812,
	"learning_rate": 0.00028776573426573425,
	"loss": 3.1121,
	"step": 89400
	},
	{
	"epoch": 26.04863416622983,
	"grad_norm": 0.4198857545852661,
	"learning_rate": 0.00028759090909090905,
	"loss": 3.1205,
	"step": 89450
	},
	{
	"epoch": 26.063195293843556,
	"grad_norm": 0.4360286593437195,
	"learning_rate": 0.0002874160839160839,
	"loss": 3.1105,
	"step": 89500
	},
	{
	"epoch": 26.077756421457277,
	"grad_norm": 0.44157785177230835,
	"learning_rate": 0.0002872412587412587,
	"loss": 3.1212,
	"step": 89550
	},
	{
	"epoch": 26.092317549071,
	"grad_norm": 0.4153825044631958,
	"learning_rate": 0.0002870664335664335,
	"loss": 3.1082,
	"step": 89600
	},
	{
	"epoch": 26.106878676684723,
	"grad_norm": 0.4420100748538971,
	"learning_rate": 0.00028689160839160836,
	"loss": 3.1234,
	"step": 89650
	},
	{
	"epoch": 26.121439804298443,
	"grad_norm": 0.4699086546897888,
	"learning_rate": 0.0002867167832167832,
	"loss": 3.1274,
	"step": 89700
	},
	{
	"epoch": 26.136000931912168,
	"grad_norm": 0.474410742521286,
	"learning_rate": 0.000286541958041958,
	"loss": 3.1178,
	"step": 89750
	},
	{
	"epoch": 26.15056205952589,
	"grad_norm": 0.4479171633720398,
	"learning_rate": 0.00028636713286713287,
	"loss": 3.1363,
	"step": 89800
	},
	{
	"epoch": 26.165123187139613,
	"grad_norm": 0.43019139766693115,
	"learning_rate": 0.00028619230769230767,
	"loss": 3.1272,
	"step": 89850
	},
	{
	"epoch": 26.179684314753334,
	"grad_norm": 0.4319998621940613,
	"learning_rate": 0.0002860174825174825,
	"loss": 3.1368,
	"step": 89900
	},
	{
	"epoch": 26.194245442367055,
	"grad_norm": 0.46288442611694336,
	"learning_rate": 0.0002858426573426573,
	"loss": 3.1321,
	"step": 89950
	},
	{
	"epoch": 26.20880656998078,
	"grad_norm": 0.4624631702899933,
	"learning_rate": 0.0002856678321678321,
	"loss": 3.1347,
	"step": 90000
	},
	{
	"epoch": 26.20880656998078,
	"eval_accuracy": 0.3738912964404629,
	"eval_loss": 3.5522818565368652,
	"eval_runtime": 175.9315,
	"eval_samples_per_second": 94.616,
	"eval_steps_per_second": 5.917,
	"step": 90000
	},
	{
	"epoch": 26.2233676975945,
	"grad_norm": 0.42316195368766785,
	"learning_rate": 0.000285493006993007,
	"loss": 3.1287,
	"step": 90050
	},
	{
	"epoch": 26.237928825208225,
	"grad_norm": 0.43889084458351135,
	"learning_rate": 0.0002853181818181818,
	"loss": 3.1348,
	"step": 90100
	},
	{
	"epoch": 26.252489952821946,
	"grad_norm": 0.46033167839050293,
	"learning_rate": 0.00028514335664335663,
	"loss": 3.1488,
	"step": 90150
	},
	{
	"epoch": 26.267051080435667,
	"grad_norm": 0.4374759793281555,
	"learning_rate": 0.00028496853146853143,
	"loss": 3.1512,
	"step": 90200
	},
	{
	"epoch": 26.281612208049392,
	"grad_norm": 0.5296708345413208,
	"learning_rate": 0.0002847937062937063,
	"loss": 3.1395,
	"step": 90250
	},
	{
	"epoch": 26.296173335663113,
	"grad_norm": 0.4616488814353943,
	"learning_rate": 0.0002846188811188811,
	"loss": 3.152,
	"step": 90300
	},
	{
	"epoch": 26.310734463276837,
	"grad_norm": 0.4428791105747223,
	"learning_rate": 0.0002844440559440559,
	"loss": 3.1445,
	"step": 90350
	},
	{
	"epoch": 26.32529559089056,
	"grad_norm": 0.44959595799446106,
	"learning_rate": 0.00028426923076923074,
	"loss": 3.1504,
	"step": 90400
	},
	{
	"epoch": 26.33985671850428,
	"grad_norm": 0.48228776454925537,
	"learning_rate": 0.0002840944055944056,
	"loss": 3.158,
	"step": 90450
	},
	{
	"epoch": 26.354417846118004,
	"grad_norm": 0.43364185094833374,
	"learning_rate": 0.0002839195804195804,
	"loss": 3.1659,
	"step": 90500
	},
	{
	"epoch": 26.368978973731725,
	"grad_norm": 0.46887141466140747,
	"learning_rate": 0.00028374475524475524,
	"loss": 3.1518,
	"step": 90550
	},
	{
	"epoch": 26.38354010134545,
	"grad_norm": 0.4657039940357208,
	"learning_rate": 0.00028356993006993004,
	"loss": 3.1545,
	"step": 90600
	},
	{
	"epoch": 26.39810122895917,
	"grad_norm": 0.4243670403957367,
	"learning_rate": 0.0002833951048951049,
	"loss": 3.1635,
	"step": 90650
	},
	{
	"epoch": 26.41266235657289,
	"grad_norm": 0.47062814235687256,
	"learning_rate": 0.0002832202797202797,
	"loss": 3.1647,
	"step": 90700
	},
	{
	"epoch": 26.427223484186616,
	"grad_norm": 0.47887879610061646,
	"learning_rate": 0.0002830454545454545,
	"loss": 3.1541,
	"step": 90750
	},
	{
	"epoch": 26.441784611800337,
	"grad_norm": 0.4374450445175171,
	"learning_rate": 0.00028287062937062935,
	"loss": 3.1506,
	"step": 90800
	},
	{
	"epoch": 26.45634573941406,
	"grad_norm": 0.49419906735420227,
	"learning_rate": 0.00028269580419580415,
	"loss": 3.1719,
	"step": 90850
	},
	{
	"epoch": 26.470906867027782,
	"grad_norm": 0.41147667169570923,
	"learning_rate": 0.000282520979020979,
	"loss": 3.1653,
	"step": 90900
	},
	{
	"epoch": 26.485467994641503,
	"grad_norm": 0.46397462487220764,
	"learning_rate": 0.0002823461538461538,
	"loss": 3.1702,
	"step": 90950
	},
	{
	"epoch": 26.500029122255228,
	"grad_norm": 0.4419114589691162,
	"learning_rate": 0.00028217132867132866,
	"loss": 3.1718,
	"step": 91000
	},
	{
	"epoch": 26.500029122255228,
	"eval_accuracy": 0.37444419338296514,
	"eval_loss": 3.545191526412964,
	"eval_runtime": 175.9896,
	"eval_samples_per_second": 94.585,
	"eval_steps_per_second": 5.915,
	"step": 91000
	},
	{
	"epoch": 26.51459024986895,
	"grad_norm": 0.44105932116508484,
	"learning_rate": 0.00028199650349650346,
	"loss": 3.1715,
	"step": 91050
	},
	{
	"epoch": 26.529151377482673,
	"grad_norm": 0.4336186349391937,
	"learning_rate": 0.0002818216783216783,
	"loss": 3.1728,
	"step": 91100
	},
	{
	"epoch": 26.543712505096394,
	"grad_norm": 0.4436231553554535,
	"learning_rate": 0.0002816468531468531,
	"loss": 3.1833,
	"step": 91150
	},
	{
	"epoch": 26.55827363271012,
	"grad_norm": 0.43252700567245483,
	"learning_rate": 0.00028147202797202796,
	"loss": 3.1678,
	"step": 91200
	},
	{
	"epoch": 26.57283476032384,
	"grad_norm": 0.4470803439617157,
	"learning_rate": 0.00028129720279720276,
	"loss": 3.1699,
	"step": 91250
	},
	{
	"epoch": 26.58739588793756,
	"grad_norm": 0.45002689957618713,
	"learning_rate": 0.0002811223776223776,
	"loss": 3.1776,
	"step": 91300
	},
	{
	"epoch": 26.601957015551285,
	"grad_norm": 0.4569298326969147,
	"learning_rate": 0.0002809475524475524,
	"loss": 3.18,
	"step": 91350
	},
	{
	"epoch": 26.616518143165006,
	"grad_norm": 0.42082688212394714,
	"learning_rate": 0.00028077272727272727,
	"loss": 3.1642,
	"step": 91400
	},
	{
	"epoch": 26.63107927077873,
	"grad_norm": 0.4413772523403168,
	"learning_rate": 0.00028059790209790207,
	"loss": 3.1814,
	"step": 91450
	},
	{
	"epoch": 26.64564039839245,
	"grad_norm": 0.4244074821472168,
	"learning_rate": 0.00028042307692307687,
	"loss": 3.17,
	"step": 91500
	},
	{
	"epoch": 26.660201526006173,
	"grad_norm": 0.4285423755645752,
	"learning_rate": 0.0002802482517482517,
	"loss": 3.1741,
	"step": 91550
	},
	{
	"epoch": 26.674762653619897,
	"grad_norm": 0.432403028011322,
	"learning_rate": 0.0002800734265734265,
	"loss": 3.1819,
	"step": 91600
	},
	{
	"epoch": 26.689323781233618,
	"grad_norm": 0.45069047808647156,
	"learning_rate": 0.0002798986013986014,
	"loss": 3.1991,
	"step": 91650
	},
	{
	"epoch": 26.703884908847343,
	"grad_norm": 0.439565509557724,
	"learning_rate": 0.0002797237762237762,
	"loss": 3.1826,
	"step": 91700
	},
	{
	"epoch": 26.718446036461064,
	"grad_norm": 0.41563016176223755,
	"learning_rate": 0.00027954895104895103,
	"loss": 3.1907,
	"step": 91750
	},
	{
	"epoch": 26.733007164074785,
	"grad_norm": 0.5007721185684204,
	"learning_rate": 0.0002793741258741259,
	"loss": 3.1807,
	"step": 91800
	},
	{
	"epoch": 26.74756829168851,
	"grad_norm": 0.45375800132751465,
	"learning_rate": 0.0002791993006993007,
	"loss": 3.1818,
	"step": 91850
	},
	{
	"epoch": 26.76212941930223,
	"grad_norm": 0.40642720460891724,
	"learning_rate": 0.0002790244755244755,
	"loss": 3.1847,
	"step": 91900
	},
	{
	"epoch": 26.776690546915955,
	"grad_norm": 0.4134383201599121,
	"learning_rate": 0.00027884965034965034,
	"loss": 3.1918,
	"step": 91950
	},
	{
	"epoch": 26.791251674529676,
	"grad_norm": 0.45009365677833557,
	"learning_rate": 0.00027867482517482514,
	"loss": 3.1811,
	"step": 92000
	},
	{
	"epoch": 26.791251674529676,
	"eval_accuracy": 0.37516814391920345,
	"eval_loss": 3.532458782196045,
	"eval_runtime": 175.8517,
	"eval_samples_per_second": 94.659,
	"eval_steps_per_second": 5.92,
	"step": 92000
	},
	{
	"epoch": 26.805812802143397,
	"grad_norm": 0.45300400257110596,
	"learning_rate": 0.0002785,
	"loss": 3.1913,
	"step": 92050
	},
	{
	"epoch": 26.82037392975712,
	"grad_norm": 0.46921515464782715,
	"learning_rate": 0.0002783251748251748,
	"loss": 3.1852,
	"step": 92100
	},
	{
	"epoch": 26.834935057370842,
	"grad_norm": 0.4631865620613098,
	"learning_rate": 0.00027815034965034965,
	"loss": 3.1972,
	"step": 92150
	},
	{
	"epoch": 26.849496184984567,
	"grad_norm": 0.4629165530204773,
	"learning_rate": 0.00027797552447552445,
	"loss": 3.1896,
	"step": 92200
	},
	{
	"epoch": 26.864057312598288,
	"grad_norm": 0.44526955485343933,
	"learning_rate": 0.00027780069930069925,
	"loss": 3.1831,
	"step": 92250
	},
	{
	"epoch": 26.87861844021201,
	"grad_norm": 0.43079841136932373,
	"learning_rate": 0.0002776258741258741,
	"loss": 3.203,
	"step": 92300
	},
	{
	"epoch": 26.893179567825733,
	"grad_norm": 0.4447712302207947,
	"learning_rate": 0.0002774510489510489,
	"loss": 3.195,
	"step": 92350
	},
	{
	"epoch": 26.907740695439454,
	"grad_norm": 0.46726924180984497,
	"learning_rate": 0.00027727622377622375,
	"loss": 3.1895,
	"step": 92400
	},
	{
	"epoch": 26.92230182305318,
	"grad_norm": 0.4472745954990387,
	"learning_rate": 0.00027710139860139855,
	"loss": 3.1761,
	"step": 92450
	},
	{
	"epoch": 26.9368629506669,
	"grad_norm": 0.5051980018615723,
	"learning_rate": 0.0002769265734265734,
	"loss": 3.1889,
	"step": 92500
	},
	{
	"epoch": 26.95142407828062,
	"grad_norm": 0.460100382566452,
	"learning_rate": 0.00027675174825174826,
	"loss": 3.196,
	"step": 92550
	},
	{
	"epoch": 26.965985205894345,
	"grad_norm": 0.4237596392631531,
	"learning_rate": 0.00027657692307692306,
	"loss": 3.1979,
	"step": 92600
	},
	{
	"epoch": 26.980546333508066,
	"grad_norm": 0.4508613049983978,
	"learning_rate": 0.00027640209790209786,
	"loss": 3.197,
	"step": 92650
	},
	{
	"epoch": 26.99510746112179,
	"grad_norm": 0.4492049217224121,
	"learning_rate": 0.0002762272727272727,
	"loss": 3.1869,
	"step": 92700
	},
	{
	"epoch": 27.009610344225056,
	"grad_norm": 0.4418352544307709,
	"learning_rate": 0.0002760524475524475,
	"loss": 3.1338,
	"step": 92750
	},
	{
	"epoch": 27.02417147183878,
	"grad_norm": 0.41613316535949707,
	"learning_rate": 0.00027587762237762237,
	"loss": 3.0918,
	"step": 92800
	},
	{
	"epoch": 27.0387325994525,
	"grad_norm": 0.44495314359664917,
	"learning_rate": 0.00027570279720279717,
	"loss": 3.096,
	"step": 92850
	},
	{
	"epoch": 27.053293727066222,
	"grad_norm": 0.4421515166759491,
	"learning_rate": 0.000275527972027972,
	"loss": 3.0837,
	"step": 92900
	},
	{
	"epoch": 27.067854854679947,
	"grad_norm": 0.43863311409950256,
	"learning_rate": 0.0002753531468531468,
	"loss": 3.102,
	"step": 92950
	},
	{
	"epoch": 27.082415982293668,
	"grad_norm": 0.4970111846923828,
	"learning_rate": 0.0002751783216783216,
	"loss": 3.1056,
	"step": 93000
	},
	{
	"epoch": 27.082415982293668,
	"eval_accuracy": 0.37448016754082303,
	"eval_loss": 3.550201177597046,
	"eval_runtime": 176.5887,
	"eval_samples_per_second": 94.264,
	"eval_steps_per_second": 5.895,
	"step": 93000
	},
	{
	"epoch": 27.096977109907392,
	"grad_norm": 0.4485284984111786,
	"learning_rate": 0.0002750034965034965,
	"loss": 3.1054,
	"step": 93050
	},
	{
	"epoch": 27.111538237521113,
	"grad_norm": 0.45512229204177856,
	"learning_rate": 0.0002748286713286713,
	"loss": 3.1199,
	"step": 93100
	},
	{
	"epoch": 27.126099365134834,
	"grad_norm": 0.4592089354991913,
	"learning_rate": 0.00027465384615384613,
	"loss": 3.1174,
	"step": 93150
	},
	{
	"epoch": 27.14066049274856,
	"grad_norm": 0.47941553592681885,
	"learning_rate": 0.000274479020979021,
	"loss": 3.1306,
	"step": 93200
	},
	{
	"epoch": 27.15522162036228,
	"grad_norm": 0.4538813829421997,
	"learning_rate": 0.0002743041958041958,
	"loss": 3.1318,
	"step": 93250
	},
	{
	"epoch": 27.169782747976004,
	"grad_norm": 0.4213135838508606,
	"learning_rate": 0.00027412937062937064,
	"loss": 3.129,
	"step": 93300
	},
	{
	"epoch": 27.184343875589725,
	"grad_norm": 0.46963346004486084,
	"learning_rate": 0.00027395454545454544,
	"loss": 3.1349,
	"step": 93350
	},
	{
	"epoch": 27.19890500320345,
	"grad_norm": 0.46091166138648987,
	"learning_rate": 0.00027377972027972024,
	"loss": 3.1286,
	"step": 93400
	},
	{
	"epoch": 27.21346613081717,
	"grad_norm": 0.47275596857070923,
	"learning_rate": 0.0002736048951048951,
	"loss": 3.1363,
	"step": 93450
	},
	{
	"epoch": 27.228027258430892,
	"grad_norm": 0.43918493390083313,
	"learning_rate": 0.0002734300699300699,
	"loss": 3.1281,
	"step": 93500
	},
	{
	"epoch": 27.242588386044616,
	"grad_norm": 0.44396722316741943,
	"learning_rate": 0.00027325524475524474,
	"loss": 3.1418,
	"step": 93550
	},
	{
	"epoch": 27.257149513658337,
	"grad_norm": 0.4477839767932892,
	"learning_rate": 0.00027308041958041954,
	"loss": 3.1438,
	"step": 93600
	},
	{
	"epoch": 27.271710641272062,
	"grad_norm": 0.4403381645679474,
	"learning_rate": 0.0002729055944055944,
	"loss": 3.1478,
	"step": 93650
	},
	{
	"epoch": 27.286271768885783,
	"grad_norm": 0.4484228491783142,
	"learning_rate": 0.0002727307692307692,
	"loss": 3.143,
	"step": 93700
	},
	{
	"epoch": 27.300832896499504,
	"grad_norm": 0.43482914566993713,
	"learning_rate": 0.000272555944055944,
	"loss": 3.1509,
	"step": 93750
	},
	{
	"epoch": 27.31539402411323,
	"grad_norm": 0.42850834131240845,
	"learning_rate": 0.00027238111888111885,
	"loss": 3.1502,
	"step": 93800
	},
	{
	"epoch": 27.32995515172695,
	"grad_norm": 0.437956839799881,
	"learning_rate": 0.0002722062937062937,
	"loss": 3.134,
	"step": 93850
	},
	{
	"epoch": 27.344516279340674,
	"grad_norm": 0.4555130898952484,
	"learning_rate": 0.0002720314685314685,
	"loss": 3.1437,
	"step": 93900
	},
	{
	"epoch": 27.359077406954395,
	"grad_norm": 0.4837479591369629,
	"learning_rate": 0.00027185664335664336,
	"loss": 3.1441,
	"step": 93950
	},
	{
	"epoch": 27.373638534568116,
	"grad_norm": 0.43356630206108093,
	"learning_rate": 0.00027168181818181816,
	"loss": 3.1389,
	"step": 94000
	},
	{
	"epoch": 27.373638534568116,
	"eval_accuracy": 0.37471693863208383,
	"eval_loss": 3.544717311859131,
	"eval_runtime": 175.9771,
	"eval_samples_per_second": 94.592,
	"eval_steps_per_second": 5.916,
	"step": 94000
	},
	{
	"epoch": 27.38819966218184,
	"grad_norm": 0.4382964074611664,
	"learning_rate": 0.000271506993006993,
	"loss": 3.1458,
	"step": 94050
	},
	{
	"epoch": 27.40276078979556,
	"grad_norm": 0.4902079701423645,
	"learning_rate": 0.0002713321678321678,
	"loss": 3.1584,
	"step": 94100
	},
	{
	"epoch": 27.417321917409286,
	"grad_norm": 0.4347708523273468,
	"learning_rate": 0.0002711573426573426,
	"loss": 3.1535,
	"step": 94150
	},
	{
	"epoch": 27.431883045023007,
	"grad_norm": 0.45278897881507874,
	"learning_rate": 0.00027098251748251746,
	"loss": 3.1579,
	"step": 94200
	},
	{
	"epoch": 27.446444172636728,
	"grad_norm": 0.47618216276168823,
	"learning_rate": 0.00027080769230769226,
	"loss": 3.1646,
	"step": 94250
	},
	{
	"epoch": 27.461005300250452,
	"grad_norm": 0.46487531065940857,
	"learning_rate": 0.0002706328671328671,
	"loss": 3.1607,
	"step": 94300
	},
	{
	"epoch": 27.475566427864173,
	"grad_norm": 0.4591347575187683,
	"learning_rate": 0.0002704580419580419,
	"loss": 3.1418,
	"step": 94350
	},
	{
	"epoch": 27.490127555477898,
	"grad_norm": 0.4618992507457733,
	"learning_rate": 0.00027028321678321677,
	"loss": 3.1571,
	"step": 94400
	},
	{
	"epoch": 27.50468868309162,
	"grad_norm": 0.4515562057495117,
	"learning_rate": 0.00027010839160839157,
	"loss": 3.1671,
	"step": 94450
	},
	{
	"epoch": 27.51924981070534,
	"grad_norm": 0.4460851848125458,
	"learning_rate": 0.00026993356643356637,
	"loss": 3.1627,
	"step": 94500
	},
	{
	"epoch": 27.533810938319064,
	"grad_norm": 0.4572054445743561,
	"learning_rate": 0.0002697587412587412,
	"loss": 3.1693,
	"step": 94550
	},
	{
	"epoch": 27.548372065932785,
	"grad_norm": 0.44815385341644287,
	"learning_rate": 0.0002695839160839161,
	"loss": 3.1629,
	"step": 94600
	},
	{
	"epoch": 27.56293319354651,
	"grad_norm": 0.4694660007953644,
	"learning_rate": 0.0002694090909090909,
	"loss": 3.1589,
	"step": 94650
	},
	{
	"epoch": 27.57749432116023,
	"grad_norm": 0.49862271547317505,
	"learning_rate": 0.00026923426573426573,
	"loss": 3.1528,
	"step": 94700
	},
	{
	"epoch": 27.59205544877395,
	"grad_norm": 0.4640105366706848,
	"learning_rate": 0.00026905944055944053,
	"loss": 3.1636,
	"step": 94750
	},
	{
	"epoch": 27.606616576387676,
	"grad_norm": 0.4350159764289856,
	"learning_rate": 0.0002688846153846154,
	"loss": 3.1773,
	"step": 94800
	},
	{
	"epoch": 27.621177704001397,
	"grad_norm": 0.45609989762306213,
	"learning_rate": 0.0002687097902097902,
	"loss": 3.1653,
	"step": 94850
	},
	{
	"epoch": 27.63573883161512,
	"grad_norm": 0.4425429105758667,
	"learning_rate": 0.000268534965034965,
	"loss": 3.1674,
	"step": 94900
	},
	{
	"epoch": 27.650299959228843,
	"grad_norm": 0.43950867652893066,
	"learning_rate": 0.00026836013986013984,
	"loss": 3.1638,
	"step": 94950
	},
	{
	"epoch": 27.664861086842564,
	"grad_norm": 0.44363197684288025,
	"learning_rate": 0.00026818531468531464,
	"loss": 3.1714,
	"step": 95000
	},
	{
	"epoch": 27.664861086842564,
	"eval_accuracy": 0.3745562305477971,
	"eval_loss": 3.543245792388916,
	"eval_runtime": 176.0235,
	"eval_samples_per_second": 94.567,
	"eval_steps_per_second": 5.914,
	"step": 95000
	},
	{
	"epoch": 27.679422214456288,
	"grad_norm": 0.4657075107097626,
	"learning_rate": 0.0002680104895104895,
	"loss": 3.1731,
	"step": 95050
	},
	{
	"epoch": 27.69398334207001,
	"grad_norm": 0.42976316809654236,
	"learning_rate": 0.0002678356643356643,
	"loss": 3.1747,
	"step": 95100
	},
	{
	"epoch": 27.708544469683734,
	"grad_norm": 0.46682479977607727,
	"learning_rate": 0.00026766083916083915,
	"loss": 3.1638,
	"step": 95150
	},
	{
	"epoch": 27.723105597297454,
	"grad_norm": 0.5170523524284363,
	"learning_rate": 0.00026748601398601395,
	"loss": 3.1682,
	"step": 95200
	},
	{
	"epoch": 27.737666724911175,
	"grad_norm": 0.4746035039424896,
	"learning_rate": 0.0002673111888111888,
	"loss": 3.1854,
	"step": 95250
	},
	{
	"epoch": 27.7522278525249,
	"grad_norm": 0.4233641028404236,
	"learning_rate": 0.0002671363636363636,
	"loss": 3.1789,
	"step": 95300
	},
	{
	"epoch": 27.76678898013862,
	"grad_norm": 0.46263259649276733,
	"learning_rate": 0.00026696153846153845,
	"loss": 3.1664,
	"step": 95350
	},
	{
	"epoch": 27.781350107752345,
	"grad_norm": 0.44778957962989807,
	"learning_rate": 0.00026678671328671325,
	"loss": 3.1739,
	"step": 95400
	},
	{
	"epoch": 27.795911235366066,
	"grad_norm": 0.438639372587204,
	"learning_rate": 0.0002666118881118881,
	"loss": 3.1722,
	"step": 95450
	},
	{
	"epoch": 27.810472362979787,
	"grad_norm": 0.4154968559741974,
	"learning_rate": 0.0002664370629370629,
	"loss": 3.1809,
	"step": 95500
	},
	{
	"epoch": 27.825033490593512,
	"grad_norm": 0.45561763644218445,
	"learning_rate": 0.00026626223776223776,
	"loss": 3.1641,
	"step": 95550
	},
	{
	"epoch": 27.839594618207233,
	"grad_norm": 0.4486888647079468,
	"learning_rate": 0.00026608741258741256,
	"loss": 3.1811,
	"step": 95600
	},
	{
	"epoch": 27.854155745820957,
	"grad_norm": 0.46546313166618347,
	"learning_rate": 0.00026591258741258736,
	"loss": 3.1812,
	"step": 95650
	},
	{
	"epoch": 27.86871687343468,
	"grad_norm": 0.4576793313026428,
	"learning_rate": 0.0002657377622377622,
	"loss": 3.1862,
	"step": 95700
	},
	{
	"epoch": 27.883278001048403,
	"grad_norm": 0.48331332206726074,
	"learning_rate": 0.000265562937062937,
	"loss": 3.1723,
	"step": 95750
	},
	{
	"epoch": 27.897839128662124,
	"grad_norm": 0.43826884031295776,
	"learning_rate": 0.00026538811188811187,
	"loss": 3.1831,
	"step": 95800
	},
	{
	"epoch": 27.912400256275845,
	"grad_norm": 0.4582323729991913,
	"learning_rate": 0.00026521328671328667,
	"loss": 3.1754,
	"step": 95850
	},
	{
	"epoch": 27.92696138388957,
	"grad_norm": 0.42282116413116455,
	"learning_rate": 0.0002650384615384615,
	"loss": 3.1805,
	"step": 95900
	},
	{
	"epoch": 27.94152251150329,
	"grad_norm": 0.45374295115470886,
	"learning_rate": 0.0002648636363636364,
	"loss": 3.2096,
	"step": 95950
	},
	{
	"epoch": 27.956083639117015,
	"grad_norm": 0.45821282267570496,
	"learning_rate": 0.0002646888111888112,
	"loss": 3.1725,
	"step": 96000
	},
	{
	"epoch": 27.956083639117015,
	"eval_accuracy": 0.3756375714104668,
	"eval_loss": 3.529587507247925,
	"eval_runtime": 176.0243,
	"eval_samples_per_second": 94.567,
	"eval_steps_per_second": 5.914,
	"step": 96000
	},
	{
	"epoch": 27.970644766730736,
	"grad_norm": 0.44645583629608154,
	"learning_rate": 0.000264513986013986,
	"loss": 3.195,
	"step": 96050
	},
	{
	"epoch": 27.985205894344457,
	"grad_norm": 0.435573548078537,
	"learning_rate": 0.00026433916083916083,
	"loss": 3.192,
	"step": 96100
	},
	{
	"epoch": 27.99976702195818,
	"grad_norm": 0.4333702325820923,
	"learning_rate": 0.00026416433566433563,
	"loss": 3.184,
	"step": 96150
	},
	{
	"epoch": 28.014269905061447,
	"grad_norm": 0.4486874043941498,
	"learning_rate": 0.0002639895104895105,
	"loss": 3.0909,
	"step": 96200
	},
	{
	"epoch": 28.02883103267517,
	"grad_norm": 0.42802396416664124,
	"learning_rate": 0.0002638146853146853,
	"loss": 3.0873,
	"step": 96250
	},
	{
	"epoch": 28.043392160288892,
	"grad_norm": 0.47148817777633667,
	"learning_rate": 0.00026363986013986014,
	"loss": 3.0903,
	"step": 96300
	},
	{
	"epoch": 28.057953287902617,
	"grad_norm": 0.4534757137298584,
	"learning_rate": 0.00026346503496503494,
	"loss": 3.1052,
	"step": 96350
	},
	{
	"epoch": 28.072514415516338,
	"grad_norm": 0.5077629685401917,
	"learning_rate": 0.00026329020979020974,
	"loss": 3.0967,
	"step": 96400
	},
	{
	"epoch": 28.08707554313006,
	"grad_norm": 0.4334651529788971,
	"learning_rate": 0.0002631153846153846,
	"loss": 3.092,
	"step": 96450
	},
	{
	"epoch": 28.101636670743783,
	"grad_norm": 0.45327484607696533,
	"learning_rate": 0.0002629405594405594,
	"loss": 3.1061,
	"step": 96500
	},
	{
	"epoch": 28.116197798357504,
	"grad_norm": 0.43633830547332764,
	"learning_rate": 0.00026276573426573424,
	"loss": 3.1193,
	"step": 96550
	},
	{
	"epoch": 28.13075892597123,
	"grad_norm": 0.46491163969039917,
	"learning_rate": 0.00026259090909090904,
	"loss": 3.1116,
	"step": 96600
	},
	{
	"epoch": 28.14532005358495,
	"grad_norm": 0.44532346725463867,
	"learning_rate": 0.0002624160839160839,
	"loss": 3.1021,
	"step": 96650
	},
	{
	"epoch": 28.15988118119867,
	"grad_norm": 0.4660804569721222,
	"learning_rate": 0.00026224125874125875,
	"loss": 3.1146,
	"step": 96700
	},
	{
	"epoch": 28.174442308812395,
	"grad_norm": 0.4899766445159912,
	"learning_rate": 0.00026206643356643355,
	"loss": 3.1212,
	"step": 96750
	},
	{
	"epoch": 28.189003436426116,
	"grad_norm": 0.4549821615219116,
	"learning_rate": 0.00026189160839160835,
	"loss": 3.1142,
	"step": 96800
	},
	{
	"epoch": 28.20356456403984,
	"grad_norm": 0.5343029499053955,
	"learning_rate": 0.0002617167832167832,
	"loss": 3.1214,
	"step": 96850
	},
	{
	"epoch": 28.21812569165356,
	"grad_norm": 0.440415620803833,
	"learning_rate": 0.000261541958041958,
	"loss": 3.1346,
	"step": 96900
	},
	{
	"epoch": 28.232686819267283,
	"grad_norm": 0.44841447472572327,
	"learning_rate": 0.00026136713286713286,
	"loss": 3.1272,
	"step": 96950
	},
	{
	"epoch": 28.247247946881007,
	"grad_norm": 0.4629991054534912,
	"learning_rate": 0.00026119230769230766,
	"loss": 3.1221,
	"step": 97000
	},
	{
	"epoch": 28.247247946881007,
	"eval_accuracy": 0.37423175775143175,
	"eval_loss": 3.550201654434204,
	"eval_runtime": 175.9502,
	"eval_samples_per_second": 94.606,
	"eval_steps_per_second": 5.916,
	"step": 97000
	},
	{
	"epoch": 28.261809074494728,
	"grad_norm": 0.4864211082458496,
	"learning_rate": 0.0002610174825174825,
	"loss": 3.1388,
	"step": 97050
	},
	{
	"epoch": 28.276370202108453,
	"grad_norm": 0.4655318558216095,
	"learning_rate": 0.0002608426573426573,
	"loss": 3.1345,
	"step": 97100
	},
	{
	"epoch": 28.290931329722174,
	"grad_norm": 0.4731234014034271,
	"learning_rate": 0.0002606678321678321,
	"loss": 3.1246,
	"step": 97150
	},
	{
	"epoch": 28.305492457335895,
	"grad_norm": 0.4297824800014496,
	"learning_rate": 0.00026049300699300696,
	"loss": 3.1355,
	"step": 97200
	},
	{
	"epoch": 28.32005358494962,
	"grad_norm": 0.44276347756385803,
	"learning_rate": 0.00026031818181818176,
	"loss": 3.1386,
	"step": 97250
	},
	{
	"epoch": 28.33461471256334,
	"grad_norm": 0.45694440603256226,
	"learning_rate": 0.0002601433566433566,
	"loss": 3.1312,
	"step": 97300
	},
	{
	"epoch": 28.349175840177065,
	"grad_norm": 0.4625728130340576,
	"learning_rate": 0.00025996853146853147,
	"loss": 3.1301,
	"step": 97350
	},
	{
	"epoch": 28.363736967790786,
	"grad_norm": 0.4497777223587036,
	"learning_rate": 0.00025979370629370627,
	"loss": 3.1474,
	"step": 97400
	},
	{
	"epoch": 28.378298095404507,
	"grad_norm": 0.4574040174484253,
	"learning_rate": 0.0002596188811188811,
	"loss": 3.1407,
	"step": 97450
	},
	{
	"epoch": 28.39285922301823,
	"grad_norm": 0.44898226857185364,
	"learning_rate": 0.0002594440559440559,
	"loss": 3.1481,
	"step": 97500
	},
	{
	"epoch": 28.407420350631952,
	"grad_norm": 0.49362874031066895,
	"learning_rate": 0.0002592692307692307,
	"loss": 3.1433,
	"step": 97550
	},
	{
	"epoch": 28.421981478245677,
	"grad_norm": 0.4340960383415222,
	"learning_rate": 0.0002590944055944056,
	"loss": 3.1552,
	"step": 97600
	},
	{
	"epoch": 28.436542605859398,
	"grad_norm": 0.4702076017856598,
	"learning_rate": 0.0002589195804195804,
	"loss": 3.1462,
	"step": 97650
	},
	{
	"epoch": 28.45110373347312,
	"grad_norm": 0.47481244802474976,
	"learning_rate": 0.00025874475524475523,
	"loss": 3.1568,
	"step": 97700
	},
	{
	"epoch": 28.465664861086843,
	"grad_norm": 0.5188685655593872,
	"learning_rate": 0.00025856993006993003,
	"loss": 3.137,
	"step": 97750
	},
	{
	"epoch": 28.480225988700564,
	"grad_norm": 0.4785231351852417,
	"learning_rate": 0.0002583951048951049,
	"loss": 3.1563,
	"step": 97800
	},
	{
	"epoch": 28.49478711631429,
	"grad_norm": 0.4556955099105835,
	"learning_rate": 0.0002582202797202797,
	"loss": 3.15,
	"step": 97850
	},
	{
	"epoch": 28.50934824392801,
	"grad_norm": 0.454867422580719,
	"learning_rate": 0.0002580454545454545,
	"loss": 3.1572,
	"step": 97900
	},
	{
	"epoch": 28.523909371541734,
	"grad_norm": 0.4825209379196167,
	"learning_rate": 0.00025787062937062934,
	"loss": 3.1638,
	"step": 97950
	},
	{
	"epoch": 28.538470499155455,
	"grad_norm": 0.4762108623981476,
	"learning_rate": 0.0002576958041958042,
	"loss": 3.1436,
	"step": 98000
	},
	{
	"epoch": 28.538470499155455,
	"eval_accuracy": 0.37477313355841085,
	"eval_loss": 3.5439798831939697,
	"eval_runtime": 175.8841,
	"eval_samples_per_second": 94.642,
	"eval_steps_per_second": 5.919,
	"step": 98000
	},
	{
	"epoch": 28.553031626769176,
	"grad_norm": 0.43959754705429077,
	"learning_rate": 0.000257520979020979,
	"loss": 3.1448,
	"step": 98050
	},
	{
	"epoch": 28.5675927543829,
	"grad_norm": 0.46784305572509766,
	"learning_rate": 0.00025734615384615385,
	"loss": 3.1688,
	"step": 98100
	},
	{
	"epoch": 28.58215388199662,
	"grad_norm": 0.45635858178138733,
	"learning_rate": 0.00025717132867132865,
	"loss": 3.1605,
	"step": 98150
	},
	{
	"epoch": 28.596715009610342,
	"grad_norm": 0.49684810638427734,
	"learning_rate": 0.0002569965034965035,
	"loss": 3.1492,
	"step": 98200
	},
	{
	"epoch": 28.611276137224067,
	"grad_norm": 0.4665928781032562,
	"learning_rate": 0.0002568216783216783,
	"loss": 3.1512,
	"step": 98250
	},
	{
	"epoch": 28.625837264837788,
	"grad_norm": 0.4833790063858032,
	"learning_rate": 0.0002566468531468531,
	"loss": 3.148,
	"step": 98300
	},
	{
	"epoch": 28.640398392451512,
	"grad_norm": 0.43561360239982605,
	"learning_rate": 0.00025647202797202795,
	"loss": 3.1538,
	"step": 98350
	},
	{
	"epoch": 28.654959520065233,
	"grad_norm": 0.49163082242012024,
	"learning_rate": 0.00025629720279720275,
	"loss": 3.1692,
	"step": 98400
	},
	{
	"epoch": 28.669520647678958,
	"grad_norm": 0.4466899633407593,
	"learning_rate": 0.0002561223776223776,
	"loss": 3.1722,
	"step": 98450
	},
	{
	"epoch": 28.68408177529268,
	"grad_norm": 0.4500361979007721,
	"learning_rate": 0.0002559475524475524,
	"loss": 3.1706,
	"step": 98500
	},
	{
	"epoch": 28.6986429029064,
	"grad_norm": 0.438156396150589,
	"learning_rate": 0.00025577272727272726,
	"loss": 3.1764,
	"step": 98550
	},
	{
	"epoch": 28.713204030520124,
	"grad_norm": 0.46091410517692566,
	"learning_rate": 0.00025559790209790206,
	"loss": 3.1682,
	"step": 98600
	},
	{
	"epoch": 28.727765158133845,
	"grad_norm": 0.45366981625556946,
	"learning_rate": 0.00025542307692307686,
	"loss": 3.1649,
	"step": 98650
	},
	{
	"epoch": 28.74232628574757,
	"grad_norm": 0.43896013498306274,
	"learning_rate": 0.00025524825174825177,
	"loss": 3.1584,
	"step": 98700
	},
	{
	"epoch": 28.75688741336129,
	"grad_norm": 0.45629191398620605,
	"learning_rate": 0.00025507342657342657,
	"loss": 3.1654,
	"step": 98750
	},
	{
	"epoch": 28.771448540975012,
	"grad_norm": 0.4722062349319458,
	"learning_rate": 0.00025489860139860137,
	"loss": 3.1621,
	"step": 98800
	},
	{
	"epoch": 28.786009668588736,
	"grad_norm": 0.45751482248306274,
	"learning_rate": 0.0002547237762237762,
	"loss": 3.1754,
	"step": 98850
	},
	{
	"epoch": 28.800570796202457,
	"grad_norm": 0.44135168194770813,
	"learning_rate": 0.000254548951048951,
	"loss": 3.1541,
	"step": 98900
	},
	{
	"epoch": 28.815131923816182,
	"grad_norm": 0.46649348735809326,
	"learning_rate": 0.0002543741258741259,
	"loss": 3.1721,
	"step": 98950
	},
	{
	"epoch": 28.829693051429903,
	"grad_norm": 0.4495338201522827,
	"learning_rate": 0.0002541993006993007,
	"loss": 3.1738,
	"step": 99000
	},
	{
	"epoch": 28.829693051429903,
	"eval_accuracy": 0.3751967116327965,
	"eval_loss": 3.5368294715881348,
	"eval_runtime": 176.6481,
	"eval_samples_per_second": 94.233,
	"eval_steps_per_second": 5.893,
	"step": 99000
	},
	{
	"epoch": 28.844254179043624,
	"grad_norm": 0.4518965780735016,
	"learning_rate": 0.0002540244755244755,
	"loss": 3.1557,
	"step": 99050
	},
	{
	"epoch": 28.85881530665735,
	"grad_norm": 0.4763469398021698,
	"learning_rate": 0.00025384965034965033,
	"loss": 3.1707,
	"step": 99100
	},
	{
	"epoch": 28.87337643427107,
	"grad_norm": 0.46433794498443604,
	"learning_rate": 0.00025367482517482513,
	"loss": 3.1625,
	"step": 99150
	},
	{
	"epoch": 28.887937561884794,
	"grad_norm": 0.4310963451862335,
	"learning_rate": 0.0002535,
	"loss": 3.1693,
	"step": 99200
	},
	{
	"epoch": 28.902498689498515,
	"grad_norm": 0.4514053463935852,
	"learning_rate": 0.0002533251748251748,
	"loss": 3.1753,
	"step": 99250
	},
	{
	"epoch": 28.917059817112236,
	"grad_norm": 0.44362780451774597,
	"learning_rate": 0.00025315034965034964,
	"loss": 3.1745,
	"step": 99300
	},
	{
	"epoch": 28.93162094472596,
	"grad_norm": 0.44426706433296204,
	"learning_rate": 0.00025297552447552444,
	"loss": 3.1783,
	"step": 99350
	},
	{
	"epoch": 28.94618207233968,
	"grad_norm": 0.45062440633773804,
	"learning_rate": 0.0002528006993006993,
	"loss": 3.163,
	"step": 99400
	},
	{
	"epoch": 28.960743199953406,
	"grad_norm": 0.45874831080436707,
	"learning_rate": 0.00025262587412587414,
	"loss": 3.1694,
	"step": 99450
	},
	{
	"epoch": 28.975304327567127,
	"grad_norm": 0.4676152169704437,
	"learning_rate": 0.00025245104895104894,
	"loss": 3.1822,
	"step": 99500
	},
	{
	"epoch": 28.989865455180848,
	"grad_norm": 0.4508829712867737,
	"learning_rate": 0.00025227622377622374,
	"loss": 3.178,
	"step": 99550
	},
	{
	"epoch": 29.004368338284117,
	"grad_norm": 0.4533749520778656,
	"learning_rate": 0.0002521013986013986,
	"loss": 3.154,
	"step": 99600
	},
	{
	"epoch": 29.018929465897838,
	"grad_norm": 0.46722185611724854,
	"learning_rate": 0.0002519265734265734,
	"loss": 3.0849,
	"step": 99650
	},
	{
	"epoch": 29.033490593511562,
	"grad_norm": 0.4650116264820099,
	"learning_rate": 0.00025175174825174825,
	"loss": 3.0872,
	"step": 99700
	},
	{
	"epoch": 29.048051721125283,
	"grad_norm": 0.48934227228164673,
	"learning_rate": 0.00025157692307692305,
	"loss": 3.0902,
	"step": 99750
	},
	{
	"epoch": 29.062612848739008,
	"grad_norm": 0.4526343047618866,
	"learning_rate": 0.0002514020979020979,
	"loss": 3.0953,
	"step": 99800
	},
	{
	"epoch": 29.07717397635273,
	"grad_norm": 0.4443402588367462,
	"learning_rate": 0.0002512272727272727,
	"loss": 3.1076,
	"step": 99850
	},
	{
	"epoch": 29.09173510396645,
	"grad_norm": 0.45292139053344727,
	"learning_rate": 0.0002510524475524475,
	"loss": 3.0979,
	"step": 99900
	},
	{
	"epoch": 29.106296231580174,
	"grad_norm": 0.47794705629348755,
	"learning_rate": 0.00025087762237762236,
	"loss": 3.0978,
	"step": 99950
	},
	{
	"epoch": 29.120857359193895,
	"grad_norm": 0.4806559979915619,
	"learning_rate": 0.00025070279720279716,
	"loss": 3.1107,
	"step": 100000
	},
	{
	"epoch": 29.120857359193895,
	"eval_accuracy": 0.37473010564411025,
	"eval_loss": 3.548969268798828,
	"eval_runtime": 177.0508,
	"eval_samples_per_second": 94.018,
	"eval_steps_per_second": 5.88,
	"step": 100000
	},
	{
	"epoch": 29.120857359193895,
	"step": 100000,
	"total_flos": 2.090205609984e+18,
	"train_loss": 0.6327952200317383,
	"train_runtime": 39596.2372,
	"train_samples_per_second": 346.876,
	"train_steps_per_second": 4.336
	}
	],
	"logging_steps": 50,
	"max_steps": 171700,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 50,
	"save_steps": 10000,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 20,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 20
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.090205609984e+18,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}