olmo-code-python2-3-tagged / trainer_state.json

Upload folder using huggingface_hub

047aa14 verified 6 months ago

190 kB

	{
	"best_global_step": 2100,
	"best_metric": 1.0858707427978516,
	"best_model_checkpoint": "./outputs/checkpoint-2100",
	"epoch": 0.16188870151770657,
	"eval_steps": 100,
	"global_step": 2100,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00015417971573114913,
	"grad_norm": 1.2087944746017456,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1.8689,
	"step": 2
	},
	{
	"epoch": 0.00030835943146229826,
	"grad_norm": 1.2666666507720947,
	"learning_rate": 6e-06,
	"loss": 1.7785,
	"step": 4
	},
	{
	"epoch": 0.00046253914719344736,
	"grad_norm": 0.7307026982307434,
	"learning_rate": 1e-05,
	"loss": 1.6809,
	"step": 6
	},
	{
	"epoch": 0.0006167188629245965,
	"grad_norm": 1.2569252252578735,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 1.9048,
	"step": 8
	},
	{
	"epoch": 0.0007708985786557456,
	"grad_norm": 0.9572980403900146,
	"learning_rate": 1.8e-05,
	"loss": 1.7574,
	"step": 10
	},
	{
	"epoch": 0.0009250782943868947,
	"grad_norm": 0.9918506145477295,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 1.858,
	"step": 12
	},
	{
	"epoch": 0.0010792580101180438,
	"grad_norm": 0.9316955208778381,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 1.8238,
	"step": 14
	},
	{
	"epoch": 0.001233437725849193,
	"grad_norm": 0.8265096545219421,
	"learning_rate": 3e-05,
	"loss": 1.6852,
	"step": 16
	},
	{
	"epoch": 0.001387617441580342,
	"grad_norm": 0.900516152381897,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 1.8227,
	"step": 18
	},
	{
	"epoch": 0.0015417971573114912,
	"grad_norm": 0.9343056678771973,
	"learning_rate": 3.8e-05,
	"loss": 1.7732,
	"step": 20
	},
	{
	"epoch": 0.0016959768730426404,
	"grad_norm": 0.8314495086669922,
	"learning_rate": 4.2e-05,
	"loss": 1.732,
	"step": 22
	},
	{
	"epoch": 0.0018501565887737894,
	"grad_norm": 0.8370314240455627,
	"learning_rate": 4.600000000000001e-05,
	"loss": 1.6725,
	"step": 24
	},
	{
	"epoch": 0.0020043363045049384,
	"grad_norm": 0.6678845286369324,
	"learning_rate": 5e-05,
	"loss": 1.5638,
	"step": 26
	},
	{
	"epoch": 0.0021585160202360876,
	"grad_norm": 0.6469596028327942,
	"learning_rate": 5.4000000000000005e-05,
	"loss": 1.6414,
	"step": 28
	},
	{
	"epoch": 0.002312695735967237,
	"grad_norm": 1.1161589622497559,
	"learning_rate": 5.8e-05,
	"loss": 1.6015,
	"step": 30
	},
	{
	"epoch": 0.002466875451698386,
	"grad_norm": 0.6085391044616699,
	"learning_rate": 6.2e-05,
	"loss": 1.4577,
	"step": 32
	},
	{
	"epoch": 0.0026210551674295353,
	"grad_norm": 0.7159522175788879,
	"learning_rate": 6.6e-05,
	"loss": 1.4667,
	"step": 34
	},
	{
	"epoch": 0.002775234883160684,
	"grad_norm": 0.67247074842453,
	"learning_rate": 7e-05,
	"loss": 1.5619,
	"step": 36
	},
	{
	"epoch": 0.0029294145988918332,
	"grad_norm": 0.6272625923156738,
	"learning_rate": 7.4e-05,
	"loss": 1.322,
	"step": 38
	},
	{
	"epoch": 0.0030835943146229824,
	"grad_norm": 0.7291163206100464,
	"learning_rate": 7.800000000000001e-05,
	"loss": 1.3936,
	"step": 40
	},
	{
	"epoch": 0.0032377740303541317,
	"grad_norm": 0.4980190396308899,
	"learning_rate": 8.2e-05,
	"loss": 1.3322,
	"step": 42
	},
	{
	"epoch": 0.003391953746085281,
	"grad_norm": 1.032578945159912,
	"learning_rate": 8.6e-05,
	"loss": 1.3657,
	"step": 44
	},
	{
	"epoch": 0.0035461334618164296,
	"grad_norm": 0.5118615031242371,
	"learning_rate": 9e-05,
	"loss": 1.2866,
	"step": 46
	},
	{
	"epoch": 0.003700313177547579,
	"grad_norm": 0.5234407782554626,
	"learning_rate": 9.4e-05,
	"loss": 1.2806,
	"step": 48
	},
	{
	"epoch": 0.003854492893278728,
	"grad_norm": 0.49764135479927063,
	"learning_rate": 9.8e-05,
	"loss": 1.2004,
	"step": 50
	},
	{
	"epoch": 0.004008672609009877,
	"grad_norm": 0.34377485513687134,
	"learning_rate": 0.00010200000000000001,
	"loss": 1.1947,
	"step": 52
	},
	{
	"epoch": 0.0041628523247410265,
	"grad_norm": 0.41426530480384827,
	"learning_rate": 0.00010600000000000002,
	"loss": 1.2689,
	"step": 54
	},
	{
	"epoch": 0.004317032040472175,
	"grad_norm": 0.5027992129325867,
	"learning_rate": 0.00011000000000000002,
	"loss": 1.2249,
	"step": 56
	},
	{
	"epoch": 0.004471211756203325,
	"grad_norm": 0.44335752725601196,
	"learning_rate": 0.00011399999999999999,
	"loss": 1.2771,
	"step": 58
	},
	{
	"epoch": 0.004625391471934474,
	"grad_norm": 0.3176646828651428,
	"learning_rate": 0.000118,
	"loss": 1.1873,
	"step": 60
	},
	{
	"epoch": 0.0047795711876656224,
	"grad_norm": 0.24802716076374054,
	"learning_rate": 0.000122,
	"loss": 1.1989,
	"step": 62
	},
	{
	"epoch": 0.004933750903396772,
	"grad_norm": 0.23831751942634583,
	"learning_rate": 0.000126,
	"loss": 1.1093,
	"step": 64
	},
	{
	"epoch": 0.005087930619127921,
	"grad_norm": 0.24024009704589844,
	"learning_rate": 0.00013000000000000002,
	"loss": 1.2196,
	"step": 66
	},
	{
	"epoch": 0.0052421103348590705,
	"grad_norm": 0.2745237350463867,
	"learning_rate": 0.000134,
	"loss": 1.1802,
	"step": 68
	},
	{
	"epoch": 0.005396290050590219,
	"grad_norm": 0.27817806601524353,
	"learning_rate": 0.000138,
	"loss": 1.1939,
	"step": 70
	},
	{
	"epoch": 0.005550469766321368,
	"grad_norm": 0.19907328486442566,
	"learning_rate": 0.000142,
	"loss": 1.2061,
	"step": 72
	},
	{
	"epoch": 0.005704649482052518,
	"grad_norm": 0.18879663944244385,
	"learning_rate": 0.000146,
	"loss": 1.2149,
	"step": 74
	},
	{
	"epoch": 0.0058588291977836665,
	"grad_norm": 0.21456782519817352,
	"learning_rate": 0.00015000000000000001,
	"loss": 1.1726,
	"step": 76
	},
	{
	"epoch": 0.006013008913514816,
	"grad_norm": 0.23913143575191498,
	"learning_rate": 0.000154,
	"loss": 1.148,
	"step": 78
	},
	{
	"epoch": 0.006167188629245965,
	"grad_norm": 0.2148526906967163,
	"learning_rate": 0.00015800000000000002,
	"loss": 1.1925,
	"step": 80
	},
	{
	"epoch": 0.006321368344977114,
	"grad_norm": 0.2392999231815338,
	"learning_rate": 0.000162,
	"loss": 1.1488,
	"step": 82
	},
	{
	"epoch": 0.006475548060708263,
	"grad_norm": 0.16503232717514038,
	"learning_rate": 0.000166,
	"loss": 1.1555,
	"step": 84
	},
	{
	"epoch": 0.006629727776439412,
	"grad_norm": 0.1844739466905594,
	"learning_rate": 0.00017,
	"loss": 1.1934,
	"step": 86
	},
	{
	"epoch": 0.006783907492170562,
	"grad_norm": 0.23832857608795166,
	"learning_rate": 0.000174,
	"loss": 1.1129,
	"step": 88
	},
	{
	"epoch": 0.0069380872079017105,
	"grad_norm": 0.8846365809440613,
	"learning_rate": 0.00017800000000000002,
	"loss": 1.1028,
	"step": 90
	},
	{
	"epoch": 0.007092266923632859,
	"grad_norm": 0.187076598405838,
	"learning_rate": 0.000182,
	"loss": 1.1,
	"step": 92
	},
	{
	"epoch": 0.007246446639364009,
	"grad_norm": 0.1795521378517151,
	"learning_rate": 0.00018600000000000002,
	"loss": 1.1478,
	"step": 94
	},
	{
	"epoch": 0.007400626355095158,
	"grad_norm": 0.199871227145195,
	"learning_rate": 0.00019,
	"loss": 1.1223,
	"step": 96
	},
	{
	"epoch": 0.007554806070826307,
	"grad_norm": 0.17832662165164948,
	"learning_rate": 0.000194,
	"loss": 1.0909,
	"step": 98
	},
	{
	"epoch": 0.007708985786557456,
	"grad_norm": 0.17023932933807373,
	"learning_rate": 0.00019800000000000002,
	"loss": 1.1526,
	"step": 100
	},
	{
	"epoch": 0.007708985786557456,
	"eval_loss": 1.1401352882385254,
	"eval_runtime": 185.6269,
	"eval_samples_per_second": 91.274,
	"eval_steps_per_second": 1.428,
	"step": 100
	},
	{
	"epoch": 0.007863165502288605,
	"grad_norm": 0.17429223656654358,
	"learning_rate": 0.00019999484748557298,
	"loss": 1.1597,
	"step": 102
	},
	{
	"epoch": 0.008017345218019754,
	"grad_norm": 0.16158349812030792,
	"learning_rate": 0.0001999845424567189,
	"loss": 1.1297,
	"step": 104
	},
	{
	"epoch": 0.008171524933750904,
	"grad_norm": 0.15818771719932556,
	"learning_rate": 0.0001999742374278648,
	"loss": 1.083,
	"step": 106
	},
	{
	"epoch": 0.008325704649482053,
	"grad_norm": 0.1591726392507553,
	"learning_rate": 0.00019996393239901073,
	"loss": 1.086,
	"step": 108
	},
	{
	"epoch": 0.008479884365213202,
	"grad_norm": 0.174184650182724,
	"learning_rate": 0.00019995362737015664,
	"loss": 1.0769,
	"step": 110
	},
	{
	"epoch": 0.00863406408094435,
	"grad_norm": 0.15928815305233002,
	"learning_rate": 0.00019994332234130258,
	"loss": 1.1315,
	"step": 112
	},
	{
	"epoch": 0.0087882437966755,
	"grad_norm": 0.19639264047145844,
	"learning_rate": 0.0001999330173124485,
	"loss": 1.1339,
	"step": 114
	},
	{
	"epoch": 0.00894242351240665,
	"grad_norm": 0.1639835238456726,
	"learning_rate": 0.0001999227122835944,
	"loss": 1.0836,
	"step": 116
	},
	{
	"epoch": 0.009096603228137799,
	"grad_norm": 0.18691964447498322,
	"learning_rate": 0.00019991240725474033,
	"loss": 1.2109,
	"step": 118
	},
	{
	"epoch": 0.009250782943868947,
	"grad_norm": 0.188096821308136,
	"learning_rate": 0.00019990210222588624,
	"loss": 1.1778,
	"step": 120
	},
	{
	"epoch": 0.009404962659600096,
	"grad_norm": 0.1527150571346283,
	"learning_rate": 0.00019989179719703218,
	"loss": 1.0977,
	"step": 122
	},
	{
	"epoch": 0.009559142375331245,
	"grad_norm": 0.1705218255519867,
	"learning_rate": 0.0001998814921681781,
	"loss": 1.1333,
	"step": 124
	},
	{
	"epoch": 0.009713322091062395,
	"grad_norm": 0.1888928860425949,
	"learning_rate": 0.00019987118713932401,
	"loss": 1.1843,
	"step": 126
	},
	{
	"epoch": 0.009867501806793544,
	"grad_norm": 0.1778104603290558,
	"learning_rate": 0.00019986088211046993,
	"loss": 1.0766,
	"step": 128
	},
	{
	"epoch": 0.010021681522524693,
	"grad_norm": 0.15807992219924927,
	"learning_rate": 0.00019985057708161584,
	"loss": 1.0449,
	"step": 130
	},
	{
	"epoch": 0.010175861238255842,
	"grad_norm": 0.16706159710884094,
	"learning_rate": 0.00019984027205276176,
	"loss": 1.0644,
	"step": 132
	},
	{
	"epoch": 0.01033004095398699,
	"grad_norm": 0.16455501317977905,
	"learning_rate": 0.00019982996702390767,
	"loss": 1.1479,
	"step": 134
	},
	{
	"epoch": 0.010484220669718141,
	"grad_norm": 0.17258939146995544,
	"learning_rate": 0.0001998196619950536,
	"loss": 1.0614,
	"step": 136
	},
	{
	"epoch": 0.01063840038544929,
	"grad_norm": 0.15501369535923004,
	"learning_rate": 0.0001998093569661995,
	"loss": 1.1045,
	"step": 138
	},
	{
	"epoch": 0.010792580101180439,
	"grad_norm": 0.1534334272146225,
	"learning_rate": 0.00019979905193734542,
	"loss": 1.1035,
	"step": 140
	},
	{
	"epoch": 0.010946759816911587,
	"grad_norm": 0.14120443165302277,
	"learning_rate": 0.00019978874690849136,
	"loss": 1.0618,
	"step": 142
	},
	{
	"epoch": 0.011100939532642736,
	"grad_norm": 0.17808520793914795,
	"learning_rate": 0.00019977844187963728,
	"loss": 1.1687,
	"step": 144
	},
	{
	"epoch": 0.011255119248373887,
	"grad_norm": 0.16697613894939423,
	"learning_rate": 0.0001997681368507832,
	"loss": 1.0979,
	"step": 146
	},
	{
	"epoch": 0.011409298964105035,
	"grad_norm": 0.16491086781024933,
	"learning_rate": 0.0001997578318219291,
	"loss": 1.1219,
	"step": 148
	},
	{
	"epoch": 0.011563478679836184,
	"grad_norm": 0.15342313051223755,
	"learning_rate": 0.00019974752679307502,
	"loss": 1.1169,
	"step": 150
	},
	{
	"epoch": 0.011717658395567333,
	"grad_norm": 0.1539286971092224,
	"learning_rate": 0.00019973722176422093,
	"loss": 1.1288,
	"step": 152
	},
	{
	"epoch": 0.011871838111298482,
	"grad_norm": 0.15605852007865906,
	"learning_rate": 0.00019972691673536688,
	"loss": 1.0445,
	"step": 154
	},
	{
	"epoch": 0.012026017827029632,
	"grad_norm": 0.14324098825454712,
	"learning_rate": 0.0001997166117065128,
	"loss": 1.1309,
	"step": 156
	},
	{
	"epoch": 0.012180197542760781,
	"grad_norm": 0.21045701205730438,
	"learning_rate": 0.0001997063066776587,
	"loss": 1.0946,
	"step": 158
	},
	{
	"epoch": 0.01233437725849193,
	"grad_norm": 0.16019922494888306,
	"learning_rate": 0.00019969600164880462,
	"loss": 1.11,
	"step": 160
	},
	{
	"epoch": 0.012488556974223079,
	"grad_norm": 0.15740078687667847,
	"learning_rate": 0.00019968569661995054,
	"loss": 1.112,
	"step": 162
	},
	{
	"epoch": 0.012642736689954227,
	"grad_norm": 0.16974380612373352,
	"learning_rate": 0.00019967539159109648,
	"loss": 1.1279,
	"step": 164
	},
	{
	"epoch": 0.012796916405685378,
	"grad_norm": 0.16405288875102997,
	"learning_rate": 0.0001996650865622424,
	"loss": 1.0952,
	"step": 166
	},
	{
	"epoch": 0.012951096121416527,
	"grad_norm": 0.16120509803295135,
	"learning_rate": 0.0001996547815333883,
	"loss": 1.1203,
	"step": 168
	},
	{
	"epoch": 0.013105275837147675,
	"grad_norm": 0.17402276396751404,
	"learning_rate": 0.00019964447650453422,
	"loss": 1.0991,
	"step": 170
	},
	{
	"epoch": 0.013259455552878824,
	"grad_norm": 0.18349111080169678,
	"learning_rate": 0.00019963417147568014,
	"loss": 1.1394,
	"step": 172
	},
	{
	"epoch": 0.013413635268609973,
	"grad_norm": 0.14613087475299835,
	"learning_rate": 0.00019962386644682608,
	"loss": 1.1357,
	"step": 174
	},
	{
	"epoch": 0.013567814984341123,
	"grad_norm": 0.142988383769989,
	"learning_rate": 0.000199613561417972,
	"loss": 1.0169,
	"step": 176
	},
	{
	"epoch": 0.013721994700072272,
	"grad_norm": 0.14817160367965698,
	"learning_rate": 0.0001996032563891179,
	"loss": 1.1238,
	"step": 178
	},
	{
	"epoch": 0.013876174415803421,
	"grad_norm": 0.15391133725643158,
	"learning_rate": 0.00019959295136026382,
	"loss": 1.0712,
	"step": 180
	},
	{
	"epoch": 0.01403035413153457,
	"grad_norm": 0.1766846477985382,
	"learning_rate": 0.00019958264633140974,
	"loss": 1.1422,
	"step": 182
	},
	{
	"epoch": 0.014184533847265719,
	"grad_norm": 0.16789212822914124,
	"learning_rate": 0.00019957234130255565,
	"loss": 1.1266,
	"step": 184
	},
	{
	"epoch": 0.014338713562996869,
	"grad_norm": 0.1527165323495865,
	"learning_rate": 0.00019956203627370157,
	"loss": 1.0667,
	"step": 186
	},
	{
	"epoch": 0.014492893278728018,
	"grad_norm": 0.1772206574678421,
	"learning_rate": 0.00019955173124484748,
	"loss": 1.1182,
	"step": 188
	},
	{
	"epoch": 0.014647072994459167,
	"grad_norm": 0.15008313953876495,
	"learning_rate": 0.0001995414262159934,
	"loss": 1.0382,
	"step": 190
	},
	{
	"epoch": 0.014801252710190315,
	"grad_norm": 0.16365988552570343,
	"learning_rate": 0.00019953112118713931,
	"loss": 1.1262,
	"step": 192
	},
	{
	"epoch": 0.014955432425921464,
	"grad_norm": 0.14952193200588226,
	"learning_rate": 0.00019952081615828526,
	"loss": 1.1245,
	"step": 194
	},
	{
	"epoch": 0.015109612141652615,
	"grad_norm": 0.15425263345241547,
	"learning_rate": 0.00019951051112943117,
	"loss": 1.1452,
	"step": 196
	},
	{
	"epoch": 0.015263791857383763,
	"grad_norm": 0.1567617654800415,
	"learning_rate": 0.00019950020610057709,
	"loss": 1.0392,
	"step": 198
	},
	{
	"epoch": 0.015417971573114912,
	"grad_norm": 0.14292609691619873,
	"learning_rate": 0.000199489901071723,
	"loss": 1.0728,
	"step": 200
	},
	{
	"epoch": 0.015417971573114912,
	"eval_loss": 1.1127630472183228,
	"eval_runtime": 185.2528,
	"eval_samples_per_second": 91.459,
	"eval_steps_per_second": 1.43,
	"step": 200
	},
	{
	"epoch": 0.015572151288846061,
	"grad_norm": 0.15465517342090607,
	"learning_rate": 0.00019947959604286892,
	"loss": 1.0596,
	"step": 202
	},
	{
	"epoch": 0.01572633100457721,
	"grad_norm": 0.16749607026576996,
	"learning_rate": 0.00019946929101401486,
	"loss": 1.1005,
	"step": 204
	},
	{
	"epoch": 0.01588051072030836,
	"grad_norm": 0.15854287147521973,
	"learning_rate": 0.00019945898598516077,
	"loss": 1.0963,
	"step": 206
	},
	{
	"epoch": 0.016034690436039507,
	"grad_norm": 0.1457831859588623,
	"learning_rate": 0.0001994486809563067,
	"loss": 1.1149,
	"step": 208
	},
	{
	"epoch": 0.016188870151770656,
	"grad_norm": 0.15744629502296448,
	"learning_rate": 0.0001994383759274526,
	"loss": 1.0789,
	"step": 210
	},
	{
	"epoch": 0.01634304986750181,
	"grad_norm": 0.13411423563957214,
	"learning_rate": 0.00019942807089859852,
	"loss": 1.0641,
	"step": 212
	},
	{
	"epoch": 0.016497229583232957,
	"grad_norm": 0.1575399488210678,
	"learning_rate": 0.00019941776586974446,
	"loss": 1.0888,
	"step": 214
	},
	{
	"epoch": 0.016651409298964106,
	"grad_norm": 0.14619529247283936,
	"learning_rate": 0.00019940746084089037,
	"loss": 1.081,
	"step": 216
	},
	{
	"epoch": 0.016805589014695255,
	"grad_norm": 0.15578237175941467,
	"learning_rate": 0.0001993971558120363,
	"loss": 1.1434,
	"step": 218
	},
	{
	"epoch": 0.016959768730426403,
	"grad_norm": 0.1516629308462143,
	"learning_rate": 0.0001993868507831822,
	"loss": 1.0909,
	"step": 220
	},
	{
	"epoch": 0.017113948446157552,
	"grad_norm": 0.15613436698913574,
	"learning_rate": 0.00019937654575432812,
	"loss": 1.0999,
	"step": 222
	},
	{
	"epoch": 0.0172681281618887,
	"grad_norm": 0.14825573563575745,
	"learning_rate": 0.00019936624072547406,
	"loss": 1.0827,
	"step": 224
	},
	{
	"epoch": 0.01742230787761985,
	"grad_norm": 0.1624906212091446,
	"learning_rate": 0.00019935593569661998,
	"loss": 1.0856,
	"step": 226
	},
	{
	"epoch": 0.017576487593351,
	"grad_norm": 0.1380940079689026,
	"learning_rate": 0.0001993456306677659,
	"loss": 1.0514,
	"step": 228
	},
	{
	"epoch": 0.017730667309082147,
	"grad_norm": 0.13712120056152344,
	"learning_rate": 0.0001993353256389118,
	"loss": 1.0977,
	"step": 230
	},
	{
	"epoch": 0.0178848470248133,
	"grad_norm": 0.1448957622051239,
	"learning_rate": 0.00019932502061005772,
	"loss": 1.0729,
	"step": 232
	},
	{
	"epoch": 0.01803902674054445,
	"grad_norm": 0.13421876728534698,
	"learning_rate": 0.00019931471558120364,
	"loss": 1.0879,
	"step": 234
	},
	{
	"epoch": 0.018193206456275597,
	"grad_norm": 0.16884732246398926,
	"learning_rate": 0.00019930441055234955,
	"loss": 1.1159,
	"step": 236
	},
	{
	"epoch": 0.018347386172006746,
	"grad_norm": 0.14634890854358673,
	"learning_rate": 0.00019929410552349547,
	"loss": 1.0568,
	"step": 238
	},
	{
	"epoch": 0.018501565887737895,
	"grad_norm": 0.16796648502349854,
	"learning_rate": 0.00019928380049464138,
	"loss": 1.0944,
	"step": 240
	},
	{
	"epoch": 0.018655745603469043,
	"grad_norm": 0.13724717497825623,
	"learning_rate": 0.0001992734954657873,
	"loss": 1.0609,
	"step": 242
	},
	{
	"epoch": 0.018809925319200192,
	"grad_norm": 0.14133594930171967,
	"learning_rate": 0.0001992631904369332,
	"loss": 1.0879,
	"step": 244
	},
	{
	"epoch": 0.01896410503493134,
	"grad_norm": 0.1611246019601822,
	"learning_rate": 0.00019925288540807915,
	"loss": 1.0681,
	"step": 246
	},
	{
	"epoch": 0.01911828475066249,
	"grad_norm": 0.17420877516269684,
	"learning_rate": 0.00019924258037922507,
	"loss": 1.1336,
	"step": 248
	},
	{
	"epoch": 0.01927246446639364,
	"grad_norm": 0.13766029477119446,
	"learning_rate": 0.00019923227535037098,
	"loss": 1.075,
	"step": 250
	},
	{
	"epoch": 0.01942664418212479,
	"grad_norm": 0.1691662222146988,
	"learning_rate": 0.0001992219703215169,
	"loss": 1.1369,
	"step": 252
	},
	{
	"epoch": 0.01958082389785594,
	"grad_norm": 0.14959432184696198,
	"learning_rate": 0.0001992116652926628,
	"loss": 1.1129,
	"step": 254
	},
	{
	"epoch": 0.01973500361358709,
	"grad_norm": 0.14996406435966492,
	"learning_rate": 0.00019920136026380875,
	"loss": 1.0304,
	"step": 256
	},
	{
	"epoch": 0.019889183329318237,
	"grad_norm": 0.13211801648139954,
	"learning_rate": 0.00019919105523495467,
	"loss": 1.0652,
	"step": 258
	},
	{
	"epoch": 0.020043363045049386,
	"grad_norm": 0.16041967272758484,
	"learning_rate": 0.00019918075020610058,
	"loss": 1.077,
	"step": 260
	},
	{
	"epoch": 0.020197542760780535,
	"grad_norm": 0.1524546593427658,
	"learning_rate": 0.0001991704451772465,
	"loss": 1.1176,
	"step": 262
	},
	{
	"epoch": 0.020351722476511683,
	"grad_norm": 0.16032540798187256,
	"learning_rate": 0.00019916014014839241,
	"loss": 1.0736,
	"step": 264
	},
	{
	"epoch": 0.020505902192242832,
	"grad_norm": 0.17891019582748413,
	"learning_rate": 0.00019914983511953836,
	"loss": 1.1435,
	"step": 266
	},
	{
	"epoch": 0.02066008190797398,
	"grad_norm": 0.14484059810638428,
	"learning_rate": 0.00019913953009068427,
	"loss": 1.0356,
	"step": 268
	},
	{
	"epoch": 0.02081426162370513,
	"grad_norm": 0.14321155846118927,
	"learning_rate": 0.00019912922506183019,
	"loss": 1.0536,
	"step": 270
	},
	{
	"epoch": 0.020968441339436282,
	"grad_norm": 0.17357808351516724,
	"learning_rate": 0.0001991189200329761,
	"loss": 1.171,
	"step": 272
	},
	{
	"epoch": 0.02112262105516743,
	"grad_norm": 0.13990800082683563,
	"learning_rate": 0.00019910861500412202,
	"loss": 1.0946,
	"step": 274
	},
	{
	"epoch": 0.02127680077089858,
	"grad_norm": 0.16634231805801392,
	"learning_rate": 0.00019909830997526796,
	"loss": 1.1029,
	"step": 276
	},
	{
	"epoch": 0.02143098048662973,
	"grad_norm": 0.16322381794452667,
	"learning_rate": 0.00019908800494641387,
	"loss": 1.0688,
	"step": 278
	},
	{
	"epoch": 0.021585160202360877,
	"grad_norm": 0.1652844250202179,
	"learning_rate": 0.0001990776999175598,
	"loss": 1.1237,
	"step": 280
	},
	{
	"epoch": 0.021739339918092026,
	"grad_norm": 0.14457885921001434,
	"learning_rate": 0.0001990673948887057,
	"loss": 1.1995,
	"step": 282
	},
	{
	"epoch": 0.021893519633823175,
	"grad_norm": 0.15549878776073456,
	"learning_rate": 0.00019905708985985162,
	"loss": 1.0475,
	"step": 284
	},
	{
	"epoch": 0.022047699349554323,
	"grad_norm": 0.15715502202510834,
	"learning_rate": 0.00019904678483099756,
	"loss": 1.1211,
	"step": 286
	},
	{
	"epoch": 0.022201879065285472,
	"grad_norm": 0.14022529125213623,
	"learning_rate": 0.00019903647980214347,
	"loss": 1.1056,
	"step": 288
	},
	{
	"epoch": 0.02235605878101662,
	"grad_norm": 0.13293786346912384,
	"learning_rate": 0.0001990261747732894,
	"loss": 1.0877,
	"step": 290
	},
	{
	"epoch": 0.022510238496747773,
	"grad_norm": 0.14625073969364166,
	"learning_rate": 0.0001990158697444353,
	"loss": 1.0375,
	"step": 292
	},
	{
	"epoch": 0.022664418212478922,
	"grad_norm": 0.1417943835258484,
	"learning_rate": 0.0001990055647155812,
	"loss": 1.091,
	"step": 294
	},
	{
	"epoch": 0.02281859792821007,
	"grad_norm": 0.1519964039325714,
	"learning_rate": 0.00019899525968672713,
	"loss": 1.0396,
	"step": 296
	},
	{
	"epoch": 0.02297277764394122,
	"grad_norm": 0.1676655411720276,
	"learning_rate": 0.00019898495465787305,
	"loss": 1.1249,
	"step": 298
	},
	{
	"epoch": 0.02312695735967237,
	"grad_norm": 0.1487220674753189,
	"learning_rate": 0.00019897464962901896,
	"loss": 1.1768,
	"step": 300
	},
	{
	"epoch": 0.02312695735967237,
	"eval_loss": 1.1061022281646729,
	"eval_runtime": 185.239,
	"eval_samples_per_second": 91.466,
	"eval_steps_per_second": 1.431,
	"step": 300
	},
	{
	"epoch": 0.023281137075403517,
	"grad_norm": 0.1399739533662796,
	"learning_rate": 0.00019896434460016488,
	"loss": 1.0962,
	"step": 302
	},
	{
	"epoch": 0.023435316791134666,
	"grad_norm": 0.15282337367534637,
	"learning_rate": 0.0001989540395713108,
	"loss": 1.1688,
	"step": 304
	},
	{
	"epoch": 0.023589496506865815,
	"grad_norm": 0.15459619462490082,
	"learning_rate": 0.00019894373454245674,
	"loss": 1.0216,
	"step": 306
	},
	{
	"epoch": 0.023743676222596963,
	"grad_norm": 0.15799634158611298,
	"learning_rate": 0.00019893342951360265,
	"loss": 1.1429,
	"step": 308
	},
	{
	"epoch": 0.023897855938328112,
	"grad_norm": 0.1343819946050644,
	"learning_rate": 0.00019892312448474857,
	"loss": 1.0959,
	"step": 310
	},
	{
	"epoch": 0.024052035654059264,
	"grad_norm": 0.14791317284107208,
	"learning_rate": 0.00019891281945589448,
	"loss": 1.0636,
	"step": 312
	},
	{
	"epoch": 0.024206215369790413,
	"grad_norm": 0.1442137360572815,
	"learning_rate": 0.0001989025144270404,
	"loss": 1.055,
	"step": 314
	},
	{
	"epoch": 0.024360395085521562,
	"grad_norm": 0.14649145305156708,
	"learning_rate": 0.00019889220939818634,
	"loss": 1.0906,
	"step": 316
	},
	{
	"epoch": 0.02451457480125271,
	"grad_norm": 0.14234665036201477,
	"learning_rate": 0.00019888190436933225,
	"loss": 1.0853,
	"step": 318
	},
	{
	"epoch": 0.02466875451698386,
	"grad_norm": 0.1419668048620224,
	"learning_rate": 0.00019887159934047817,
	"loss": 1.0296,
	"step": 320
	},
	{
	"epoch": 0.02482293423271501,
	"grad_norm": 0.14730845391750336,
	"learning_rate": 0.00019886129431162408,
	"loss": 1.0421,
	"step": 322
	},
	{
	"epoch": 0.024977113948446157,
	"grad_norm": 0.1400081068277359,
	"learning_rate": 0.00019885098928277,
	"loss": 1.0291,
	"step": 324
	},
	{
	"epoch": 0.025131293664177306,
	"grad_norm": 0.15542668104171753,
	"learning_rate": 0.0001988406842539159,
	"loss": 1.0597,
	"step": 326
	},
	{
	"epoch": 0.025285473379908455,
	"grad_norm": 0.14521440863609314,
	"learning_rate": 0.00019883037922506185,
	"loss": 1.0491,
	"step": 328
	},
	{
	"epoch": 0.025439653095639603,
	"grad_norm": 0.16224826872348785,
	"learning_rate": 0.00019882007419620777,
	"loss": 1.1031,
	"step": 330
	},
	{
	"epoch": 0.025593832811370756,
	"grad_norm": 0.15028877556324005,
	"learning_rate": 0.00019880976916735368,
	"loss": 1.1154,
	"step": 332
	},
	{
	"epoch": 0.025748012527101904,
	"grad_norm": 0.12962941825389862,
	"learning_rate": 0.0001987994641384996,
	"loss": 1.0363,
	"step": 334
	},
	{
	"epoch": 0.025902192242833053,
	"grad_norm": 0.14908359944820404,
	"learning_rate": 0.0001987891591096455,
	"loss": 1.1513,
	"step": 336
	},
	{
	"epoch": 0.026056371958564202,
	"grad_norm": 0.15441828966140747,
	"learning_rate": 0.00019877885408079146,
	"loss": 1.1303,
	"step": 338
	},
	{
	"epoch": 0.02621055167429535,
	"grad_norm": 0.12669101357460022,
	"learning_rate": 0.00019876854905193737,
	"loss": 1.0875,
	"step": 340
	},
	{
	"epoch": 0.0263647313900265,
	"grad_norm": 0.13190661370754242,
	"learning_rate": 0.00019875824402308329,
	"loss": 1.0778,
	"step": 342
	},
	{
	"epoch": 0.02651891110575765,
	"grad_norm": 0.14043989777565002,
	"learning_rate": 0.0001987479389942292,
	"loss": 1.1011,
	"step": 344
	},
	{
	"epoch": 0.026673090821488797,
	"grad_norm": 0.13694870471954346,
	"learning_rate": 0.00019873763396537512,
	"loss": 1.0532,
	"step": 346
	},
	{
	"epoch": 0.026827270537219946,
	"grad_norm": 0.15089921653270721,
	"learning_rate": 0.00019872732893652103,
	"loss": 1.1292,
	"step": 348
	},
	{
	"epoch": 0.026981450252951095,
	"grad_norm": 0.14839838445186615,
	"learning_rate": 0.00019871702390766694,
	"loss": 1.0275,
	"step": 350
	},
	{
	"epoch": 0.027135629968682247,
	"grad_norm": 0.16198500990867615,
	"learning_rate": 0.00019870671887881286,
	"loss": 1.1453,
	"step": 352
	},
	{
	"epoch": 0.027289809684413396,
	"grad_norm": 0.14694632589817047,
	"learning_rate": 0.00019869641384995877,
	"loss": 1.129,
	"step": 354
	},
	{
	"epoch": 0.027443989400144544,
	"grad_norm": 0.16091379523277283,
	"learning_rate": 0.0001986861088211047,
	"loss": 1.1186,
	"step": 356
	},
	{
	"epoch": 0.027598169115875693,
	"grad_norm": 0.144720658659935,
	"learning_rate": 0.00019867580379225063,
	"loss": 1.0224,
	"step": 358
	},
	{
	"epoch": 0.027752348831606842,
	"grad_norm": 0.13851307332515717,
	"learning_rate": 0.00019866549876339655,
	"loss": 1.1421,
	"step": 360
	},
	{
	"epoch": 0.02790652854733799,
	"grad_norm": 0.13124969601631165,
	"learning_rate": 0.00019865519373454246,
	"loss": 1.0938,
	"step": 362
	},
	{
	"epoch": 0.02806070826306914,
	"grad_norm": 0.14723828434944153,
	"learning_rate": 0.00019864488870568838,
	"loss": 1.1335,
	"step": 364
	},
	{
	"epoch": 0.02821488797880029,
	"grad_norm": 0.17669795453548431,
	"learning_rate": 0.0001986345836768343,
	"loss": 1.0765,
	"step": 366
	},
	{
	"epoch": 0.028369067694531437,
	"grad_norm": 0.1457260102033615,
	"learning_rate": 0.00019862427864798023,
	"loss": 1.1073,
	"step": 368
	},
	{
	"epoch": 0.028523247410262586,
	"grad_norm": 0.13594554364681244,
	"learning_rate": 0.00019861397361912615,
	"loss": 1.0587,
	"step": 370
	},
	{
	"epoch": 0.028677427125993738,
	"grad_norm": 0.13798941671848297,
	"learning_rate": 0.00019860366859027206,
	"loss": 1.0833,
	"step": 372
	},
	{
	"epoch": 0.028831606841724887,
	"grad_norm": 0.15587519109249115,
	"learning_rate": 0.00019859336356141798,
	"loss": 1.0287,
	"step": 374
	},
	{
	"epoch": 0.028985786557456036,
	"grad_norm": 0.16585086286067963,
	"learning_rate": 0.0001985830585325639,
	"loss": 1.1786,
	"step": 376
	},
	{
	"epoch": 0.029139966273187184,
	"grad_norm": 0.1444484293460846,
	"learning_rate": 0.00019857275350370983,
	"loss": 1.1793,
	"step": 378
	},
	{
	"epoch": 0.029294145988918333,
	"grad_norm": 0.14413981139659882,
	"learning_rate": 0.00019856244847485575,
	"loss": 1.1141,
	"step": 380
	},
	{
	"epoch": 0.029448325704649482,
	"grad_norm": 0.142032191157341,
	"learning_rate": 0.00019855214344600166,
	"loss": 1.1033,
	"step": 382
	},
	{
	"epoch": 0.02960250542038063,
	"grad_norm": 0.1490195393562317,
	"learning_rate": 0.00019854183841714758,
	"loss": 1.1592,
	"step": 384
	},
	{
	"epoch": 0.02975668513611178,
	"grad_norm": 0.1408643275499344,
	"learning_rate": 0.0001985315333882935,
	"loss": 1.1505,
	"step": 386
	},
	{
	"epoch": 0.02991086485184293,
	"grad_norm": 0.12526237964630127,
	"learning_rate": 0.00019852122835943944,
	"loss": 1.1027,
	"step": 388
	},
	{
	"epoch": 0.030065044567574077,
	"grad_norm": 0.1339711844921112,
	"learning_rate": 0.00019851092333058535,
	"loss": 1.1238,
	"step": 390
	},
	{
	"epoch": 0.03021922428330523,
	"grad_norm": 0.13032345473766327,
	"learning_rate": 0.00019850061830173127,
	"loss": 1.1121,
	"step": 392
	},
	{
	"epoch": 0.030373403999036378,
	"grad_norm": 0.15815846621990204,
	"learning_rate": 0.00019849031327287718,
	"loss": 1.168,
	"step": 394
	},
	{
	"epoch": 0.030527583714767527,
	"grad_norm": 0.14245116710662842,
	"learning_rate": 0.0001984800082440231,
	"loss": 1.0436,
	"step": 396
	},
	{
	"epoch": 0.030681763430498676,
	"grad_norm": 0.15660050511360168,
	"learning_rate": 0.000198469703215169,
	"loss": 1.158,
	"step": 398
	},
	{
	"epoch": 0.030835943146229824,
	"grad_norm": 0.1654158979654312,
	"learning_rate": 0.00019845939818631493,
	"loss": 1.0802,
	"step": 400
	},
	{
	"epoch": 0.030835943146229824,
	"eval_loss": 1.1026971340179443,
	"eval_runtime": 185.7295,
	"eval_samples_per_second": 91.224,
	"eval_steps_per_second": 1.427,
	"step": 400
	},
	{
	"epoch": 0.030990122861960973,
	"grad_norm": 0.13845407962799072,
	"learning_rate": 0.00019844909315746084,
	"loss": 1.1055,
	"step": 402
	},
	{
	"epoch": 0.031144302577692122,
	"grad_norm": 0.14852891862392426,
	"learning_rate": 0.00019843878812860676,
	"loss": 1.0983,
	"step": 404
	},
	{
	"epoch": 0.031298482293423274,
	"grad_norm": 0.13408593833446503,
	"learning_rate": 0.00019842848309975267,
	"loss": 1.1063,
	"step": 406
	},
	{
	"epoch": 0.03145266200915442,
	"grad_norm": 0.14041072130203247,
	"learning_rate": 0.00019841817807089859,
	"loss": 1.0327,
	"step": 408
	},
	{
	"epoch": 0.03160684172488557,
	"grad_norm": 0.16119754314422607,
	"learning_rate": 0.00019840787304204453,
	"loss": 1.1,
	"step": 410
	},
	{
	"epoch": 0.03176102144061672,
	"grad_norm": 0.14471223950386047,
	"learning_rate": 0.00019839756801319044,
	"loss": 1.0783,
	"step": 412
	},
	{
	"epoch": 0.03191520115634787,
	"grad_norm": 0.15591050684452057,
	"learning_rate": 0.00019838726298433636,
	"loss": 1.1782,
	"step": 414
	},
	{
	"epoch": 0.032069380872079015,
	"grad_norm": 0.1766556203365326,
	"learning_rate": 0.00019837695795548227,
	"loss": 1.1063,
	"step": 416
	},
	{
	"epoch": 0.03222356058781017,
	"grad_norm": 0.16078630089759827,
	"learning_rate": 0.0001983666529266282,
	"loss": 1.0891,
	"step": 418
	},
	{
	"epoch": 0.03237774030354131,
	"grad_norm": 0.13378402590751648,
	"learning_rate": 0.00019835634789777413,
	"loss": 1.074,
	"step": 420
	},
	{
	"epoch": 0.032531920019272464,
	"grad_norm": 0.14526261389255524,
	"learning_rate": 0.00019834604286892004,
	"loss": 1.108,
	"step": 422
	},
	{
	"epoch": 0.03268609973500362,
	"grad_norm": 0.1321713775396347,
	"learning_rate": 0.00019833573784006596,
	"loss": 1.019,
	"step": 424
	},
	{
	"epoch": 0.03284027945073476,
	"grad_norm": 0.12685374915599823,
	"learning_rate": 0.00019832543281121187,
	"loss": 1.09,
	"step": 426
	},
	{
	"epoch": 0.032994459166465914,
	"grad_norm": 0.13825605809688568,
	"learning_rate": 0.0001983151277823578,
	"loss": 1.1356,
	"step": 428
	},
	{
	"epoch": 0.03314863888219706,
	"grad_norm": 0.13683827221393585,
	"learning_rate": 0.00019830482275350373,
	"loss": 1.1405,
	"step": 430
	},
	{
	"epoch": 0.03330281859792821,
	"grad_norm": 0.16707143187522888,
	"learning_rate": 0.00019829451772464965,
	"loss": 1.1305,
	"step": 432
	},
	{
	"epoch": 0.03345699831365936,
	"grad_norm": 0.11735045164823532,
	"learning_rate": 0.00019828421269579556,
	"loss": 1.0421,
	"step": 434
	},
	{
	"epoch": 0.03361117802939051,
	"grad_norm": 0.1337989866733551,
	"learning_rate": 0.00019827390766694148,
	"loss": 1.0572,
	"step": 436
	},
	{
	"epoch": 0.033765357745121655,
	"grad_norm": 0.17111611366271973,
	"learning_rate": 0.0001982636026380874,
	"loss": 1.1698,
	"step": 438
	},
	{
	"epoch": 0.03391953746085281,
	"grad_norm": 0.13785259425640106,
	"learning_rate": 0.00019825329760923333,
	"loss": 1.056,
	"step": 440
	},
	{
	"epoch": 0.03407371717658395,
	"grad_norm": 0.15061460435390472,
	"learning_rate": 0.00019824299258037925,
	"loss": 1.0963,
	"step": 442
	},
	{
	"epoch": 0.034227896892315104,
	"grad_norm": 0.1231001690030098,
	"learning_rate": 0.00019823268755152516,
	"loss": 1.1264,
	"step": 444
	},
	{
	"epoch": 0.03438207660804626,
	"grad_norm": 0.13752298057079315,
	"learning_rate": 0.00019822238252267108,
	"loss": 1.0672,
	"step": 446
	},
	{
	"epoch": 0.0345362563237774,
	"grad_norm": 0.13519813120365143,
	"learning_rate": 0.000198212077493817,
	"loss": 1.0882,
	"step": 448
	},
	{
	"epoch": 0.034690436039508554,
	"grad_norm": 0.140150785446167,
	"learning_rate": 0.0001982017724649629,
	"loss": 1.0572,
	"step": 450
	},
	{
	"epoch": 0.0348446157552397,
	"grad_norm": 0.13910406827926636,
	"learning_rate": 0.00019819146743610882,
	"loss": 1.0762,
	"step": 452
	},
	{
	"epoch": 0.03499879547097085,
	"grad_norm": 0.14587442576885223,
	"learning_rate": 0.00019818116240725474,
	"loss": 1.1232,
	"step": 454
	},
	{
	"epoch": 0.035152975186702,
	"grad_norm": 0.14476893842220306,
	"learning_rate": 0.00019817085737840065,
	"loss": 1.1004,
	"step": 456
	},
	{
	"epoch": 0.03530715490243315,
	"grad_norm": 0.13861101865768433,
	"learning_rate": 0.00019816055234954657,
	"loss": 1.0302,
	"step": 458
	},
	{
	"epoch": 0.035461334618164295,
	"grad_norm": 0.14342686533927917,
	"learning_rate": 0.0001981502473206925,
	"loss": 1.1092,
	"step": 460
	},
	{
	"epoch": 0.03561551433389545,
	"grad_norm": 0.11709775030612946,
	"learning_rate": 0.00019813994229183842,
	"loss": 1.0463,
	"step": 462
	},
	{
	"epoch": 0.0357696940496266,
	"grad_norm": 0.15154917538166046,
	"learning_rate": 0.00019812963726298434,
	"loss": 1.0897,
	"step": 464
	},
	{
	"epoch": 0.035923873765357744,
	"grad_norm": 0.16716259717941284,
	"learning_rate": 0.00019811933223413025,
	"loss": 1.1214,
	"step": 466
	},
	{
	"epoch": 0.0360780534810889,
	"grad_norm": 0.13513320684432983,
	"learning_rate": 0.00019810902720527617,
	"loss": 1.0623,
	"step": 468
	},
	{
	"epoch": 0.03623223319682004,
	"grad_norm": 0.15930432081222534,
	"learning_rate": 0.0001980987221764221,
	"loss": 1.1092,
	"step": 470
	},
	{
	"epoch": 0.036386412912551194,
	"grad_norm": 0.13990509510040283,
	"learning_rate": 0.00019808841714756803,
	"loss": 1.1048,
	"step": 472
	},
	{
	"epoch": 0.03654059262828234,
	"grad_norm": 0.18784300982952118,
	"learning_rate": 0.00019807811211871394,
	"loss": 1.1676,
	"step": 474
	},
	{
	"epoch": 0.03669477234401349,
	"grad_norm": 0.152045339345932,
	"learning_rate": 0.00019806780708985986,
	"loss": 1.1303,
	"step": 476
	},
	{
	"epoch": 0.03684895205974464,
	"grad_norm": 0.1409967988729477,
	"learning_rate": 0.00019805750206100577,
	"loss": 1.0972,
	"step": 478
	},
	{
	"epoch": 0.03700313177547579,
	"grad_norm": 0.13838854432106018,
	"learning_rate": 0.0001980471970321517,
	"loss": 1.101,
	"step": 480
	},
	{
	"epoch": 0.037157311491206935,
	"grad_norm": 0.1579430103302002,
	"learning_rate": 0.00019803689200329763,
	"loss": 1.1077,
	"step": 482
	},
	{
	"epoch": 0.03731149120693809,
	"grad_norm": 0.15061910450458527,
	"learning_rate": 0.00019802658697444354,
	"loss": 1.1239,
	"step": 484
	},
	{
	"epoch": 0.03746567092266924,
	"grad_norm": 0.16408291459083557,
	"learning_rate": 0.00019801628194558946,
	"loss": 1.0961,
	"step": 486
	},
	{
	"epoch": 0.037619850638400384,
	"grad_norm": 0.15612424910068512,
	"learning_rate": 0.00019800597691673537,
	"loss": 1.1299,
	"step": 488
	},
	{
	"epoch": 0.03777403035413154,
	"grad_norm": 0.14135530591011047,
	"learning_rate": 0.00019799567188788131,
	"loss": 1.0489,
	"step": 490
	},
	{
	"epoch": 0.03792821006986268,
	"grad_norm": 0.13743548095226288,
	"learning_rate": 0.00019798536685902723,
	"loss": 1.0837,
	"step": 492
	},
	{
	"epoch": 0.038082389785593834,
	"grad_norm": 0.157401442527771,
	"learning_rate": 0.00019797506183017314,
	"loss": 1.0573,
	"step": 494
	},
	{
	"epoch": 0.03823656950132498,
	"grad_norm": 0.14982052147388458,
	"learning_rate": 0.00019796475680131906,
	"loss": 1.0839,
	"step": 496
	},
	{
	"epoch": 0.03839074921705613,
	"grad_norm": 0.1347000151872635,
	"learning_rate": 0.00019795445177246497,
	"loss": 1.113,
	"step": 498
	},
	{
	"epoch": 0.03854492893278728,
	"grad_norm": 0.14478904008865356,
	"learning_rate": 0.0001979441467436109,
	"loss": 1.0514,
	"step": 500
	},
	{
	"epoch": 0.03854492893278728,
	"eval_loss": 1.1000746488571167,
	"eval_runtime": 185.5217,
	"eval_samples_per_second": 91.326,
	"eval_steps_per_second": 1.428,
	"step": 500
	},
	{
	"epoch": 0.03869910864851843,
	"grad_norm": 0.14274291694164276,
	"learning_rate": 0.00019793384171475683,
	"loss": 1.0847,
	"step": 502
	},
	{
	"epoch": 0.03885328836424958,
	"grad_norm": 0.14326965808868408,
	"learning_rate": 0.00019792353668590275,
	"loss": 1.0865,
	"step": 504
	},
	{
	"epoch": 0.03900746807998073,
	"grad_norm": 0.1575518548488617,
	"learning_rate": 0.00019791323165704866,
	"loss": 1.1258,
	"step": 506
	},
	{
	"epoch": 0.03916164779571188,
	"grad_norm": 0.14699862897396088,
	"learning_rate": 0.00019790292662819458,
	"loss": 1.1687,
	"step": 508
	},
	{
	"epoch": 0.039315827511443024,
	"grad_norm": 0.1394687294960022,
	"learning_rate": 0.0001978926215993405,
	"loss": 1.1214,
	"step": 510
	},
	{
	"epoch": 0.03947000722717418,
	"grad_norm": 0.14366985857486725,
	"learning_rate": 0.0001978823165704864,
	"loss": 1.0651,
	"step": 512
	},
	{
	"epoch": 0.03962418694290532,
	"grad_norm": 0.14171218872070312,
	"learning_rate": 0.00019787201154163232,
	"loss": 1.1398,
	"step": 514
	},
	{
	"epoch": 0.039778366658636474,
	"grad_norm": 0.13258612155914307,
	"learning_rate": 0.00019786170651277824,
	"loss": 1.1234,
	"step": 516
	},
	{
	"epoch": 0.03993254637436762,
	"grad_norm": 0.17693160474300385,
	"learning_rate": 0.00019785140148392415,
	"loss": 1.1121,
	"step": 518
	},
	{
	"epoch": 0.04008672609009877,
	"grad_norm": 0.143838569521904,
	"learning_rate": 0.00019784109645507006,
	"loss": 1.102,
	"step": 520
	},
	{
	"epoch": 0.04024090580582992,
	"grad_norm": 0.14078038930892944,
	"learning_rate": 0.000197830791426216,
	"loss": 1.1044,
	"step": 522
	},
	{
	"epoch": 0.04039508552156107,
	"grad_norm": 0.12367985397577286,
	"learning_rate": 0.00019782048639736192,
	"loss": 1.102,
	"step": 524
	},
	{
	"epoch": 0.04054926523729222,
	"grad_norm": 0.136929452419281,
	"learning_rate": 0.00019781018136850784,
	"loss": 1.0802,
	"step": 526
	},
	{
	"epoch": 0.04070344495302337,
	"grad_norm": 0.15831957757472992,
	"learning_rate": 0.00019779987633965375,
	"loss": 1.09,
	"step": 528
	},
	{
	"epoch": 0.04085762466875452,
	"grad_norm": 0.15482452511787415,
	"learning_rate": 0.00019778957131079967,
	"loss": 1.0828,
	"step": 530
	},
	{
	"epoch": 0.041011804384485664,
	"grad_norm": 0.13797122240066528,
	"learning_rate": 0.0001977792662819456,
	"loss": 1.1263,
	"step": 532
	},
	{
	"epoch": 0.04116598410021682,
	"grad_norm": 0.18304814398288727,
	"learning_rate": 0.00019776896125309152,
	"loss": 1.0991,
	"step": 534
	},
	{
	"epoch": 0.04132016381594796,
	"grad_norm": 0.1509987860918045,
	"learning_rate": 0.00019775865622423744,
	"loss": 1.0804,
	"step": 536
	},
	{
	"epoch": 0.041474343531679114,
	"grad_norm": 0.13406258821487427,
	"learning_rate": 0.00019774835119538335,
	"loss": 1.0348,
	"step": 538
	},
	{
	"epoch": 0.04162852324741026,
	"grad_norm": 0.1413736194372177,
	"learning_rate": 0.00019773804616652927,
	"loss": 1.066,
	"step": 540
	},
	{
	"epoch": 0.04178270296314141,
	"grad_norm": 0.1451394259929657,
	"learning_rate": 0.0001977277411376752,
	"loss": 1.0485,
	"step": 542
	},
	{
	"epoch": 0.041936882678872564,
	"grad_norm": 0.13275358080863953,
	"learning_rate": 0.00019771743610882113,
	"loss": 1.1164,
	"step": 544
	},
	{
	"epoch": 0.04209106239460371,
	"grad_norm": 0.15869611501693726,
	"learning_rate": 0.00019770713107996704,
	"loss": 1.1361,
	"step": 546
	},
	{
	"epoch": 0.04224524211033486,
	"grad_norm": 0.14091487228870392,
	"learning_rate": 0.00019769682605111295,
	"loss": 1.061,
	"step": 548
	},
	{
	"epoch": 0.04239942182606601,
	"grad_norm": 0.13538867235183716,
	"learning_rate": 0.00019768652102225887,
	"loss": 1.0607,
	"step": 550
	},
	{
	"epoch": 0.04255360154179716,
	"grad_norm": 0.15626317262649536,
	"learning_rate": 0.0001976762159934048,
	"loss": 1.0758,
	"step": 552
	},
	{
	"epoch": 0.042707781257528304,
	"grad_norm": 0.1293731927871704,
	"learning_rate": 0.00019766591096455073,
	"loss": 1.0434,
	"step": 554
	},
	{
	"epoch": 0.04286196097325946,
	"grad_norm": 0.13498535752296448,
	"learning_rate": 0.00019765560593569664,
	"loss": 1.0953,
	"step": 556
	},
	{
	"epoch": 0.0430161406889906,
	"grad_norm": 0.14134527742862701,
	"learning_rate": 0.00019764530090684256,
	"loss": 1.1559,
	"step": 558
	},
	{
	"epoch": 0.043170320404721754,
	"grad_norm": 0.13958705961704254,
	"learning_rate": 0.00019763499587798847,
	"loss": 1.2585,
	"step": 560
	},
	{
	"epoch": 0.0433245001204529,
	"grad_norm": 0.2181047797203064,
	"learning_rate": 0.0001976246908491344,
	"loss": 1.0164,
	"step": 562
	},
	{
	"epoch": 0.04347867983618405,
	"grad_norm": 0.1365436315536499,
	"learning_rate": 0.0001976143858202803,
	"loss": 1.124,
	"step": 564
	},
	{
	"epoch": 0.043632859551915204,
	"grad_norm": 0.12809793651103973,
	"learning_rate": 0.00019760408079142622,
	"loss": 1.0378,
	"step": 566
	},
	{
	"epoch": 0.04378703926764635,
	"grad_norm": 0.12341924756765366,
	"learning_rate": 0.00019759377576257213,
	"loss": 1.1091,
	"step": 568
	},
	{
	"epoch": 0.0439412189833775,
	"grad_norm": 0.14291982352733612,
	"learning_rate": 0.00019758347073371805,
	"loss": 1.1366,
	"step": 570
	},
	{
	"epoch": 0.04409539869910865,
	"grad_norm": 0.14486652612686157,
	"learning_rate": 0.000197573165704864,
	"loss": 1.0168,
	"step": 572
	},
	{
	"epoch": 0.0442495784148398,
	"grad_norm": 0.1724916249513626,
	"learning_rate": 0.0001975628606760099,
	"loss": 1.1037,
	"step": 574
	},
	{
	"epoch": 0.044403758130570944,
	"grad_norm": 0.13338427245616913,
	"learning_rate": 0.00019755255564715582,
	"loss": 1.0259,
	"step": 576
	},
	{
	"epoch": 0.0445579378463021,
	"grad_norm": 0.1372508853673935,
	"learning_rate": 0.00019754225061830173,
	"loss": 1.0784,
	"step": 578
	},
	{
	"epoch": 0.04471211756203324,
	"grad_norm": 0.11633725464344025,
	"learning_rate": 0.00019753194558944765,
	"loss": 1.0648,
	"step": 580
	},
	{
	"epoch": 0.044866297277764394,
	"grad_norm": 0.14386776089668274,
	"learning_rate": 0.00019752164056059356,
	"loss": 1.0777,
	"step": 582
	},
	{
	"epoch": 0.045020476993495546,
	"grad_norm": 0.14929193258285522,
	"learning_rate": 0.0001975113355317395,
	"loss": 1.1319,
	"step": 584
	},
	{
	"epoch": 0.04517465670922669,
	"grad_norm": 0.1324220448732376,
	"learning_rate": 0.00019750103050288542,
	"loss": 1.0614,
	"step": 586
	},
	{
	"epoch": 0.045328836424957844,
	"grad_norm": 0.1392926126718521,
	"learning_rate": 0.00019749072547403133,
	"loss": 1.142,
	"step": 588
	},
	{
	"epoch": 0.04548301614068899,
	"grad_norm": 0.2632090151309967,
	"learning_rate": 0.00019748042044517725,
	"loss": 1.0159,
	"step": 590
	},
	{
	"epoch": 0.04563719585642014,
	"grad_norm": 0.13699129223823547,
	"learning_rate": 0.00019747011541632316,
	"loss": 1.0778,
	"step": 592
	},
	{
	"epoch": 0.04579137557215129,
	"grad_norm": 0.13768675923347473,
	"learning_rate": 0.0001974598103874691,
	"loss": 1.0719,
	"step": 594
	},
	{
	"epoch": 0.04594555528788244,
	"grad_norm": 0.13458684086799622,
	"learning_rate": 0.00019744950535861502,
	"loss": 1.0145,
	"step": 596
	},
	{
	"epoch": 0.046099735003613584,
	"grad_norm": 0.1772696077823639,
	"learning_rate": 0.00019743920032976094,
	"loss": 1.0629,
	"step": 598
	},
	{
	"epoch": 0.04625391471934474,
	"grad_norm": 0.13998697698116302,
	"learning_rate": 0.00019742889530090685,
	"loss": 1.102,
	"step": 600
	},
	{
	"epoch": 0.04625391471934474,
	"eval_loss": 1.098169207572937,
	"eval_runtime": 185.5141,
	"eval_samples_per_second": 91.33,
	"eval_steps_per_second": 1.428,
	"step": 600
	},
	{
	"epoch": 0.04640809443507588,
	"grad_norm": 0.13928066194057465,
	"learning_rate": 0.00019741859027205277,
	"loss": 1.1527,
	"step": 602
	},
	{
	"epoch": 0.046562274150807034,
	"grad_norm": 0.13011601567268372,
	"learning_rate": 0.0001974082852431987,
	"loss": 1.1259,
	"step": 604
	},
	{
	"epoch": 0.046716453866538186,
	"grad_norm": 0.1306074559688568,
	"learning_rate": 0.00019739798021434462,
	"loss": 1.0951,
	"step": 606
	},
	{
	"epoch": 0.04687063358226933,
	"grad_norm": 0.14797037839889526,
	"learning_rate": 0.00019738767518549054,
	"loss": 1.0321,
	"step": 608
	},
	{
	"epoch": 0.047024813298000484,
	"grad_norm": 0.14849938452243805,
	"learning_rate": 0.00019737737015663645,
	"loss": 1.1096,
	"step": 610
	},
	{
	"epoch": 0.04717899301373163,
	"grad_norm": 0.12060682475566864,
	"learning_rate": 0.00019736706512778237,
	"loss": 1.0652,
	"step": 612
	},
	{
	"epoch": 0.04733317272946278,
	"grad_norm": 0.12754854559898376,
	"learning_rate": 0.00019735676009892828,
	"loss": 1.1097,
	"step": 614
	},
	{
	"epoch": 0.04748735244519393,
	"grad_norm": 0.12162326276302338,
	"learning_rate": 0.0001973464550700742,
	"loss": 1.1087,
	"step": 616
	},
	{
	"epoch": 0.04764153216092508,
	"grad_norm": 0.175630122423172,
	"learning_rate": 0.0001973361500412201,
	"loss": 1.0723,
	"step": 618
	},
	{
	"epoch": 0.047795711876656224,
	"grad_norm": 0.15365472435951233,
	"learning_rate": 0.00019732584501236603,
	"loss": 1.1009,
	"step": 620
	},
	{
	"epoch": 0.04794989159238738,
	"grad_norm": 0.13359837234020233,
	"learning_rate": 0.00019731553998351194,
	"loss": 1.0974,
	"step": 622
	},
	{
	"epoch": 0.04810407130811853,
	"grad_norm": 0.1482960432767868,
	"learning_rate": 0.00019730523495465788,
	"loss": 1.1214,
	"step": 624
	},
	{
	"epoch": 0.048258251023849674,
	"grad_norm": 0.1309668868780136,
	"learning_rate": 0.0001972949299258038,
	"loss": 1.0849,
	"step": 626
	},
	{
	"epoch": 0.048412430739580826,
	"grad_norm": 0.1544414609670639,
	"learning_rate": 0.00019728462489694971,
	"loss": 1.092,
	"step": 628
	},
	{
	"epoch": 0.04856661045531197,
	"grad_norm": 0.14907146990299225,
	"learning_rate": 0.00019727431986809563,
	"loss": 1.0671,
	"step": 630
	},
	{
	"epoch": 0.048720790171043124,
	"grad_norm": 0.16943813860416412,
	"learning_rate": 0.00019726401483924154,
	"loss": 1.1433,
	"step": 632
	},
	{
	"epoch": 0.04887496988677427,
	"grad_norm": 0.14070230722427368,
	"learning_rate": 0.00019725370981038749,
	"loss": 1.1613,
	"step": 634
	},
	{
	"epoch": 0.04902914960250542,
	"grad_norm": 0.15507204830646515,
	"learning_rate": 0.0001972434047815334,
	"loss": 1.1286,
	"step": 636
	},
	{
	"epoch": 0.04918332931823657,
	"grad_norm": 0.13587893545627594,
	"learning_rate": 0.00019723309975267932,
	"loss": 1.1094,
	"step": 638
	},
	{
	"epoch": 0.04933750903396772,
	"grad_norm": 0.12399852275848389,
	"learning_rate": 0.00019722279472382523,
	"loss": 1.058,
	"step": 640
	},
	{
	"epoch": 0.049491688749698864,
	"grad_norm": 0.12497518211603165,
	"learning_rate": 0.00019721248969497115,
	"loss": 1.0716,
	"step": 642
	},
	{
	"epoch": 0.04964586846543002,
	"grad_norm": 0.15282607078552246,
	"learning_rate": 0.0001972021846661171,
	"loss": 1.0912,
	"step": 644
	},
	{
	"epoch": 0.04980004818116117,
	"grad_norm": 0.14203013479709625,
	"learning_rate": 0.000197191879637263,
	"loss": 1.0846,
	"step": 646
	},
	{
	"epoch": 0.049954227896892314,
	"grad_norm": 0.12308704853057861,
	"learning_rate": 0.00019718157460840892,
	"loss": 1.1202,
	"step": 648
	},
	{
	"epoch": 0.050108407612623466,
	"grad_norm": 0.15226681530475616,
	"learning_rate": 0.00019717126957955483,
	"loss": 1.0626,
	"step": 650
	},
	{
	"epoch": 0.05026258732835461,
	"grad_norm": 0.12636694312095642,
	"learning_rate": 0.00019716096455070075,
	"loss": 1.1086,
	"step": 652
	},
	{
	"epoch": 0.050416767044085764,
	"grad_norm": 0.14969666302204132,
	"learning_rate": 0.0001971506595218467,
	"loss": 1.1602,
	"step": 654
	},
	{
	"epoch": 0.05057094675981691,
	"grad_norm": 0.130833700299263,
	"learning_rate": 0.0001971403544929926,
	"loss": 1.0657,
	"step": 656
	},
	{
	"epoch": 0.05072512647554806,
	"grad_norm": 0.1283751279115677,
	"learning_rate": 0.00019713004946413852,
	"loss": 1.0371,
	"step": 658
	},
	{
	"epoch": 0.05087930619127921,
	"grad_norm": 0.11827697604894638,
	"learning_rate": 0.00019711974443528443,
	"loss": 1.0308,
	"step": 660
	},
	{
	"epoch": 0.05103348590701036,
	"grad_norm": 0.12265590578317642,
	"learning_rate": 0.00019710943940643035,
	"loss": 1.1127,
	"step": 662
	},
	{
	"epoch": 0.05118766562274151,
	"grad_norm": 0.13979150354862213,
	"learning_rate": 0.0001970991343775763,
	"loss": 1.1011,
	"step": 664
	},
	{
	"epoch": 0.05134184533847266,
	"grad_norm": 0.1368461698293686,
	"learning_rate": 0.0001970888293487222,
	"loss": 1.0857,
	"step": 666
	},
	{
	"epoch": 0.05149602505420381,
	"grad_norm": 0.13669301569461823,
	"learning_rate": 0.00019707852431986812,
	"loss": 1.0971,
	"step": 668
	},
	{
	"epoch": 0.051650204769934954,
	"grad_norm": 0.12659449875354767,
	"learning_rate": 0.00019706821929101404,
	"loss": 1.0556,
	"step": 670
	},
	{
	"epoch": 0.051804384485666106,
	"grad_norm": 0.14103113114833832,
	"learning_rate": 0.00019705791426215995,
	"loss": 1.0913,
	"step": 672
	},
	{
	"epoch": 0.05195856420139725,
	"grad_norm": 0.16134017705917358,
	"learning_rate": 0.00019704760923330587,
	"loss": 1.0994,
	"step": 674
	},
	{
	"epoch": 0.052112743917128404,
	"grad_norm": 0.12725086510181427,
	"learning_rate": 0.00019703730420445178,
	"loss": 1.1008,
	"step": 676
	},
	{
	"epoch": 0.05226692363285955,
	"grad_norm": 0.12865908443927765,
	"learning_rate": 0.0001970269991755977,
	"loss": 1.0186,
	"step": 678
	},
	{
	"epoch": 0.0524211033485907,
	"grad_norm": 0.1661859154701233,
	"learning_rate": 0.0001970166941467436,
	"loss": 1.068,
	"step": 680
	},
	{
	"epoch": 0.05257528306432185,
	"grad_norm": 0.14370663464069366,
	"learning_rate": 0.00019700638911788953,
	"loss": 1.102,
	"step": 682
	},
	{
	"epoch": 0.052729462780053,
	"grad_norm": 0.13285204768180847,
	"learning_rate": 0.00019699608408903544,
	"loss": 1.1055,
	"step": 684
	},
	{
	"epoch": 0.05288364249578415,
	"grad_norm": 0.17762747406959534,
	"learning_rate": 0.00019698577906018138,
	"loss": 1.1601,
	"step": 686
	},
	{
	"epoch": 0.0530378222115153,
	"grad_norm": 0.12693317234516144,
	"learning_rate": 0.0001969754740313273,
	"loss": 1.0494,
	"step": 688
	},
	{
	"epoch": 0.05319200192724645,
	"grad_norm": 0.1302707940340042,
	"learning_rate": 0.0001969651690024732,
	"loss": 1.066,
	"step": 690
	},
	{
	"epoch": 0.053346181642977594,
	"grad_norm": 0.11844471096992493,
	"learning_rate": 0.00019695486397361913,
	"loss": 1.0085,
	"step": 692
	},
	{
	"epoch": 0.053500361358708746,
	"grad_norm": 0.12299422174692154,
	"learning_rate": 0.00019694455894476504,
	"loss": 1.0985,
	"step": 694
	},
	{
	"epoch": 0.05365454107443989,
	"grad_norm": 0.1222420409321785,
	"learning_rate": 0.00019693425391591098,
	"loss": 1.0648,
	"step": 696
	},
	{
	"epoch": 0.053808720790171044,
	"grad_norm": 0.13273879885673523,
	"learning_rate": 0.0001969239488870569,
	"loss": 1.1108,
	"step": 698
	},
	{
	"epoch": 0.05396290050590219,
	"grad_norm": 0.13202215731143951,
	"learning_rate": 0.00019691364385820281,
	"loss": 1.1013,
	"step": 700
	},
	{
	"epoch": 0.05396290050590219,
	"eval_loss": 1.0964874029159546,
	"eval_runtime": 185.3303,
	"eval_samples_per_second": 91.421,
	"eval_steps_per_second": 1.43,
	"step": 700
	},
	{
	"epoch": 0.05411708022163334,
	"grad_norm": 0.13038010895252228,
	"learning_rate": 0.00019690333882934873,
	"loss": 1.0642,
	"step": 702
	},
	{
	"epoch": 0.054271259937364494,
	"grad_norm": 0.18084144592285156,
	"learning_rate": 0.00019689303380049464,
	"loss": 1.0673,
	"step": 704
	},
	{
	"epoch": 0.05442543965309564,
	"grad_norm": 0.18958036601543427,
	"learning_rate": 0.00019688272877164059,
	"loss": 1.0925,
	"step": 706
	},
	{
	"epoch": 0.05457961936882679,
	"grad_norm": 0.13386841118335724,
	"learning_rate": 0.0001968724237427865,
	"loss": 1.0978,
	"step": 708
	},
	{
	"epoch": 0.05473379908455794,
	"grad_norm": 0.1408504843711853,
	"learning_rate": 0.00019686211871393242,
	"loss": 1.1158,
	"step": 710
	},
	{
	"epoch": 0.05488797880028909,
	"grad_norm": 0.12006545811891556,
	"learning_rate": 0.00019685181368507833,
	"loss": 1.0395,
	"step": 712
	},
	{
	"epoch": 0.055042158516020234,
	"grad_norm": 0.13973191380500793,
	"learning_rate": 0.00019684150865622425,
	"loss": 1.0685,
	"step": 714
	},
	{
	"epoch": 0.055196338231751386,
	"grad_norm": 0.14461107552051544,
	"learning_rate": 0.0001968312036273702,
	"loss": 1.0924,
	"step": 716
	},
	{
	"epoch": 0.05535051794748253,
	"grad_norm": 0.13358595967292786,
	"learning_rate": 0.0001968208985985161,
	"loss": 1.0479,
	"step": 718
	},
	{
	"epoch": 0.055504697663213684,
	"grad_norm": 0.13416843116283417,
	"learning_rate": 0.00019681059356966202,
	"loss": 1.0166,
	"step": 720
	},
	{
	"epoch": 0.05565887737894483,
	"grad_norm": 0.15217959880828857,
	"learning_rate": 0.00019680028854080793,
	"loss": 1.0918,
	"step": 722
	},
	{
	"epoch": 0.05581305709467598,
	"grad_norm": 0.13012762367725372,
	"learning_rate": 0.00019678998351195385,
	"loss": 1.0967,
	"step": 724
	},
	{
	"epoch": 0.055967236810407134,
	"grad_norm": 0.13023535907268524,
	"learning_rate": 0.00019677967848309976,
	"loss": 1.0247,
	"step": 726
	},
	{
	"epoch": 0.05612141652613828,
	"grad_norm": 0.13703665137290955,
	"learning_rate": 0.00019676937345424568,
	"loss": 1.0969,
	"step": 728
	},
	{
	"epoch": 0.05627559624186943,
	"grad_norm": 0.12767066061496735,
	"learning_rate": 0.0001967590684253916,
	"loss": 1.08,
	"step": 730
	},
	{
	"epoch": 0.05642977595760058,
	"grad_norm": 0.12238382548093796,
	"learning_rate": 0.0001967487633965375,
	"loss": 1.1233,
	"step": 732
	},
	{
	"epoch": 0.05658395567333173,
	"grad_norm": 0.1356974095106125,
	"learning_rate": 0.00019673845836768342,
	"loss": 1.0439,
	"step": 734
	},
	{
	"epoch": 0.056738135389062874,
	"grad_norm": 0.14199669659137726,
	"learning_rate": 0.00019672815333882936,
	"loss": 1.0753,
	"step": 736
	},
	{
	"epoch": 0.056892315104794026,
	"grad_norm": 0.12904112040996552,
	"learning_rate": 0.00019671784830997528,
	"loss": 1.0749,
	"step": 738
	},
	{
	"epoch": 0.05704649482052517,
	"grad_norm": 0.1235031932592392,
	"learning_rate": 0.0001967075432811212,
	"loss": 1.0275,
	"step": 740
	},
	{
	"epoch": 0.057200674536256324,
	"grad_norm": 0.170023113489151,
	"learning_rate": 0.0001966972382522671,
	"loss": 1.1295,
	"step": 742
	},
	{
	"epoch": 0.057354854251987476,
	"grad_norm": 0.15533532202243805,
	"learning_rate": 0.00019668693322341302,
	"loss": 1.0629,
	"step": 744
	},
	{
	"epoch": 0.05750903396771862,
	"grad_norm": 0.1602126806974411,
	"learning_rate": 0.00019667662819455897,
	"loss": 1.1538,
	"step": 746
	},
	{
	"epoch": 0.057663213683449774,
	"grad_norm": 0.16433580219745636,
	"learning_rate": 0.00019666632316570488,
	"loss": 1.1322,
	"step": 748
	},
	{
	"epoch": 0.05781739339918092,
	"grad_norm": 0.13925233483314514,
	"learning_rate": 0.0001966560181368508,
	"loss": 1.083,
	"step": 750
	},
	{
	"epoch": 0.05797157311491207,
	"grad_norm": 0.12234565615653992,
	"learning_rate": 0.0001966457131079967,
	"loss": 1.0113,
	"step": 752
	},
	{
	"epoch": 0.05812575283064322,
	"grad_norm": 0.1425125002861023,
	"learning_rate": 0.00019663540807914262,
	"loss": 1.0762,
	"step": 754
	},
	{
	"epoch": 0.05827993254637437,
	"grad_norm": 0.14309099316596985,
	"learning_rate": 0.00019662510305028854,
	"loss": 1.0633,
	"step": 756
	},
	{
	"epoch": 0.058434112262105514,
	"grad_norm": 0.1381814330816269,
	"learning_rate": 0.00019661479802143448,
	"loss": 1.142,
	"step": 758
	},
	{
	"epoch": 0.058588291977836666,
	"grad_norm": 0.15551595389842987,
	"learning_rate": 0.0001966044929925804,
	"loss": 1.026,
	"step": 760
	},
	{
	"epoch": 0.05874247169356781,
	"grad_norm": 0.14606410264968872,
	"learning_rate": 0.0001965941879637263,
	"loss": 1.1265,
	"step": 762
	},
	{
	"epoch": 0.058896651409298964,
	"grad_norm": 0.13017289340496063,
	"learning_rate": 0.00019658388293487223,
	"loss": 1.1051,
	"step": 764
	},
	{
	"epoch": 0.059050831125030116,
	"grad_norm": 0.1500990092754364,
	"learning_rate": 0.00019657357790601814,
	"loss": 1.0948,
	"step": 766
	},
	{
	"epoch": 0.05920501084076126,
	"grad_norm": 0.14307473599910736,
	"learning_rate": 0.00019656327287716408,
	"loss": 1.0667,
	"step": 768
	},
	{
	"epoch": 0.059359190556492414,
	"grad_norm": 0.13513712584972382,
	"learning_rate": 0.00019655296784831,
	"loss": 1.0488,
	"step": 770
	},
	{
	"epoch": 0.05951337027222356,
	"grad_norm": 0.13991938531398773,
	"learning_rate": 0.0001965426628194559,
	"loss": 1.0888,
	"step": 772
	},
	{
	"epoch": 0.05966754998795471,
	"grad_norm": 0.15015999972820282,
	"learning_rate": 0.00019653235779060183,
	"loss": 1.0774,
	"step": 774
	},
	{
	"epoch": 0.05982172970368586,
	"grad_norm": 0.16419099271297455,
	"learning_rate": 0.00019652205276174774,
	"loss": 1.0661,
	"step": 776
	},
	{
	"epoch": 0.05997590941941701,
	"grad_norm": 0.12072901427745819,
	"learning_rate": 0.00019651174773289366,
	"loss": 1.0645,
	"step": 778
	},
	{
	"epoch": 0.060130089135148154,
	"grad_norm": 0.13410696387290955,
	"learning_rate": 0.00019650144270403957,
	"loss": 1.0677,
	"step": 780
	},
	{
	"epoch": 0.060284268850879306,
	"grad_norm": 0.13373896479606628,
	"learning_rate": 0.0001964911376751855,
	"loss": 1.0055,
	"step": 782
	},
	{
	"epoch": 0.06043844856661046,
	"grad_norm": 0.13043928146362305,
	"learning_rate": 0.0001964808326463314,
	"loss": 1.0579,
	"step": 784
	},
	{
	"epoch": 0.060592628282341604,
	"grad_norm": 0.13334155082702637,
	"learning_rate": 0.00019647052761747732,
	"loss": 1.0781,
	"step": 786
	},
	{
	"epoch": 0.060746807998072756,
	"grad_norm": 0.14660002291202545,
	"learning_rate": 0.00019646022258862326,
	"loss": 1.1244,
	"step": 788
	},
	{
	"epoch": 0.0609009877138039,
	"grad_norm": 0.1240791380405426,
	"learning_rate": 0.00019644991755976917,
	"loss": 1.0353,
	"step": 790
	},
	{
	"epoch": 0.061055167429535054,
	"grad_norm": 0.12248943001031876,
	"learning_rate": 0.0001964396125309151,
	"loss": 1.1292,
	"step": 792
	},
	{
	"epoch": 0.0612093471452662,
	"grad_norm": 0.1340823471546173,
	"learning_rate": 0.000196429307502061,
	"loss": 1.0764,
	"step": 794
	},
	{
	"epoch": 0.06136352686099735,
	"grad_norm": 0.1297413557767868,
	"learning_rate": 0.00019641900247320692,
	"loss": 1.0998,
	"step": 796
	},
	{
	"epoch": 0.0615177065767285,
	"grad_norm": 0.13512568175792694,
	"learning_rate": 0.00019640869744435286,
	"loss": 1.0349,
	"step": 798
	},
	{
	"epoch": 0.06167188629245965,
	"grad_norm": 0.13964438438415527,
	"learning_rate": 0.00019639839241549878,
	"loss": 1.0543,
	"step": 800
	},
	{
	"epoch": 0.06167188629245965,
	"eval_loss": 1.0952669382095337,
	"eval_runtime": 185.8383,
	"eval_samples_per_second": 91.171,
	"eval_steps_per_second": 1.426,
	"step": 800
	},
	{
	"epoch": 0.061826066008190794,
	"grad_norm": 0.1318446695804596,
	"learning_rate": 0.0001963880873866447,
	"loss": 1.1469,
	"step": 802
	},
	{
	"epoch": 0.061980245723921946,
	"grad_norm": 0.13778544962406158,
	"learning_rate": 0.0001963777823577906,
	"loss": 1.0361,
	"step": 804
	},
	{
	"epoch": 0.0621344254396531,
	"grad_norm": 0.14804169535636902,
	"learning_rate": 0.00019636747732893652,
	"loss": 1.0537,
	"step": 806
	},
	{
	"epoch": 0.062288605155384244,
	"grad_norm": 0.1363479495048523,
	"learning_rate": 0.00019635717230008246,
	"loss": 1.0819,
	"step": 808
	},
	{
	"epoch": 0.062442784871115396,
	"grad_norm": 0.12277363240718842,
	"learning_rate": 0.00019634686727122838,
	"loss": 1.0629,
	"step": 810
	},
	{
	"epoch": 0.06259696458684655,
	"grad_norm": 0.13027344644069672,
	"learning_rate": 0.0001963365622423743,
	"loss": 1.0544,
	"step": 812
	},
	{
	"epoch": 0.0627511443025777,
	"grad_norm": 0.1274079531431198,
	"learning_rate": 0.0001963262572135202,
	"loss": 1.0685,
	"step": 814
	},
	{
	"epoch": 0.06290532401830884,
	"grad_norm": 0.1349189281463623,
	"learning_rate": 0.00019631595218466612,
	"loss": 1.0289,
	"step": 816
	},
	{
	"epoch": 0.06305950373403998,
	"grad_norm": 0.1265273541212082,
	"learning_rate": 0.00019630564715581206,
	"loss": 1.0765,
	"step": 818
	},
	{
	"epoch": 0.06321368344977114,
	"grad_norm": 0.1393941193819046,
	"learning_rate": 0.00019629534212695798,
	"loss": 1.0918,
	"step": 820
	},
	{
	"epoch": 0.06336786316550229,
	"grad_norm": 0.12475106865167618,
	"learning_rate": 0.0001962850370981039,
	"loss": 1.027,
	"step": 822
	},
	{
	"epoch": 0.06352204288123343,
	"grad_norm": 0.13844382762908936,
	"learning_rate": 0.0001962747320692498,
	"loss": 1.1482,
	"step": 824
	},
	{
	"epoch": 0.0636762225969646,
	"grad_norm": 0.1444624364376068,
	"learning_rate": 0.00019626442704039572,
	"loss": 1.0659,
	"step": 826
	},
	{
	"epoch": 0.06383040231269574,
	"grad_norm": 0.13939915597438812,
	"learning_rate": 0.00019625412201154164,
	"loss": 1.0392,
	"step": 828
	},
	{
	"epoch": 0.06398458202842688,
	"grad_norm": 0.12919913232326508,
	"learning_rate": 0.00019624381698268755,
	"loss": 1.0566,
	"step": 830
	},
	{
	"epoch": 0.06413876174415803,
	"grad_norm": 0.1297498196363449,
	"learning_rate": 0.00019623351195383347,
	"loss": 1.058,
	"step": 832
	},
	{
	"epoch": 0.06429294145988919,
	"grad_norm": 0.16311457753181458,
	"learning_rate": 0.00019622320692497938,
	"loss": 1.1175,
	"step": 834
	},
	{
	"epoch": 0.06444712117562033,
	"grad_norm": 0.14434239268302917,
	"learning_rate": 0.0001962129018961253,
	"loss": 1.0966,
	"step": 836
	},
	{
	"epoch": 0.06460130089135148,
	"grad_norm": 0.13500697910785675,
	"learning_rate": 0.00019620259686727121,
	"loss": 1.138,
	"step": 838
	},
	{
	"epoch": 0.06475548060708262,
	"grad_norm": 0.13175781071186066,
	"learning_rate": 0.00019619229183841716,
	"loss": 1.0744,
	"step": 840
	},
	{
	"epoch": 0.06490966032281378,
	"grad_norm": 0.142098531126976,
	"learning_rate": 0.00019618198680956307,
	"loss": 1.0686,
	"step": 842
	},
	{
	"epoch": 0.06506384003854493,
	"grad_norm": 0.16844119131565094,
	"learning_rate": 0.00019617168178070899,
	"loss": 1.0992,
	"step": 844
	},
	{
	"epoch": 0.06521801975427607,
	"grad_norm": 0.13562923669815063,
	"learning_rate": 0.0001961613767518549,
	"loss": 1.0749,
	"step": 846
	},
	{
	"epoch": 0.06537219947000723,
	"grad_norm": 0.14538466930389404,
	"learning_rate": 0.00019615107172300082,
	"loss": 1.123,
	"step": 848
	},
	{
	"epoch": 0.06552637918573838,
	"grad_norm": 0.13058879971504211,
	"learning_rate": 0.00019614076669414676,
	"loss": 1.0835,
	"step": 850
	},
	{
	"epoch": 0.06568055890146952,
	"grad_norm": 0.1567140519618988,
	"learning_rate": 0.00019613046166529267,
	"loss": 1.1157,
	"step": 852
	},
	{
	"epoch": 0.06583473861720067,
	"grad_norm": 0.12576104700565338,
	"learning_rate": 0.0001961201566364386,
	"loss": 1.0143,
	"step": 854
	},
	{
	"epoch": 0.06598891833293183,
	"grad_norm": 0.13823091983795166,
	"learning_rate": 0.0001961098516075845,
	"loss": 1.0797,
	"step": 856
	},
	{
	"epoch": 0.06614309804866297,
	"grad_norm": 0.12293639779090881,
	"learning_rate": 0.00019609954657873042,
	"loss": 1.0808,
	"step": 858
	},
	{
	"epoch": 0.06629727776439412,
	"grad_norm": 0.13951502740383148,
	"learning_rate": 0.00019608924154987636,
	"loss": 1.076,
	"step": 860
	},
	{
	"epoch": 0.06645145748012526,
	"grad_norm": 0.13900773227214813,
	"learning_rate": 0.00019607893652102227,
	"loss": 1.0846,
	"step": 862
	},
	{
	"epoch": 0.06660563719585642,
	"grad_norm": 0.14335249364376068,
	"learning_rate": 0.0001960686314921682,
	"loss": 1.0639,
	"step": 864
	},
	{
	"epoch": 0.06675981691158757,
	"grad_norm": 0.1712643951177597,
	"learning_rate": 0.0001960583264633141,
	"loss": 1.1411,
	"step": 866
	},
	{
	"epoch": 0.06691399662731871,
	"grad_norm": 0.12118082493543625,
	"learning_rate": 0.00019604802143446002,
	"loss": 1.0807,
	"step": 868
	},
	{
	"epoch": 0.06706817634304987,
	"grad_norm": 0.141808420419693,
	"learning_rate": 0.00019603771640560596,
	"loss": 1.0641,
	"step": 870
	},
	{
	"epoch": 0.06722235605878102,
	"grad_norm": 0.14798308908939362,
	"learning_rate": 0.00019602741137675188,
	"loss": 1.073,
	"step": 872
	},
	{
	"epoch": 0.06737653577451216,
	"grad_norm": 0.13768306374549866,
	"learning_rate": 0.0001960171063478978,
	"loss": 1.0735,
	"step": 874
	},
	{
	"epoch": 0.06753071549024331,
	"grad_norm": 0.12452355027198792,
	"learning_rate": 0.0001960068013190437,
	"loss": 1.0509,
	"step": 876
	},
	{
	"epoch": 0.06768489520597447,
	"grad_norm": 0.1402217000722885,
	"learning_rate": 0.00019599649629018962,
	"loss": 1.1157,
	"step": 878
	},
	{
	"epoch": 0.06783907492170561,
	"grad_norm": 0.12509870529174805,
	"learning_rate": 0.00019598619126133556,
	"loss": 1.0516,
	"step": 880
	},
	{
	"epoch": 0.06799325463743676,
	"grad_norm": 0.1574297547340393,
	"learning_rate": 0.00019597588623248148,
	"loss": 1.0823,
	"step": 882
	},
	{
	"epoch": 0.0681474343531679,
	"grad_norm": 0.14185413718223572,
	"learning_rate": 0.0001959655812036274,
	"loss": 1.0444,
	"step": 884
	},
	{
	"epoch": 0.06830161406889906,
	"grad_norm": 0.1380462348461151,
	"learning_rate": 0.0001959552761747733,
	"loss": 1.1066,
	"step": 886
	},
	{
	"epoch": 0.06845579378463021,
	"grad_norm": 0.12986746430397034,
	"learning_rate": 0.00019594497114591922,
	"loss": 1.1006,
	"step": 888
	},
	{
	"epoch": 0.06860997350036135,
	"grad_norm": 0.13894346356391907,
	"learning_rate": 0.00019593466611706514,
	"loss": 1.0569,
	"step": 890
	},
	{
	"epoch": 0.06876415321609251,
	"grad_norm": 0.12822435796260834,
	"learning_rate": 0.00019592436108821105,
	"loss": 1.0696,
	"step": 892
	},
	{
	"epoch": 0.06891833293182366,
	"grad_norm": 0.1369408816099167,
	"learning_rate": 0.00019591405605935697,
	"loss": 1.0691,
	"step": 894
	},
	{
	"epoch": 0.0690725126475548,
	"grad_norm": 0.13459660112857819,
	"learning_rate": 0.00019590375103050288,
	"loss": 1.0801,
	"step": 896
	},
	{
	"epoch": 0.06922669236328595,
	"grad_norm": 0.1299123764038086,
	"learning_rate": 0.0001958934460016488,
	"loss": 1.0885,
	"step": 898
	},
	{
	"epoch": 0.06938087207901711,
	"grad_norm": 0.12562230229377747,
	"learning_rate": 0.00019588314097279474,
	"loss": 1.183,
	"step": 900
	},
	{
	"epoch": 0.06938087207901711,
	"eval_loss": 1.0944268703460693,
	"eval_runtime": 185.3723,
	"eval_samples_per_second": 91.4,
	"eval_steps_per_second": 1.43,
	"step": 900
	},
	{
	"epoch": 0.06953505179474825,
	"grad_norm": 0.13996927440166473,
	"learning_rate": 0.00019587283594394065,
	"loss": 1.0356,
	"step": 902
	},
	{
	"epoch": 0.0696892315104794,
	"grad_norm": 0.128004252910614,
	"learning_rate": 0.00019586253091508657,
	"loss": 1.0343,
	"step": 904
	},
	{
	"epoch": 0.06984341122621056,
	"grad_norm": 0.15650418400764465,
	"learning_rate": 0.00019585222588623248,
	"loss": 1.1138,
	"step": 906
	},
	{
	"epoch": 0.0699975909419417,
	"grad_norm": 0.5840476751327515,
	"learning_rate": 0.0001958419208573784,
	"loss": 1.1785,
	"step": 908
	},
	{
	"epoch": 0.07015177065767285,
	"grad_norm": 0.15330374240875244,
	"learning_rate": 0.00019583161582852434,
	"loss": 1.0243,
	"step": 910
	},
	{
	"epoch": 0.070305950373404,
	"grad_norm": 0.1603543907403946,
	"learning_rate": 0.00019582131079967026,
	"loss": 1.1228,
	"step": 912
	},
	{
	"epoch": 0.07046013008913515,
	"grad_norm": 0.14209845662117004,
	"learning_rate": 0.00019581100577081617,
	"loss": 1.0939,
	"step": 914
	},
	{
	"epoch": 0.0706143098048663,
	"grad_norm": 0.16117019951343536,
	"learning_rate": 0.00019580070074196209,
	"loss": 1.1447,
	"step": 916
	},
	{
	"epoch": 0.07076848952059744,
	"grad_norm": 0.14068694412708282,
	"learning_rate": 0.000195790395713108,
	"loss": 1.0642,
	"step": 918
	},
	{
	"epoch": 0.07092266923632859,
	"grad_norm": 0.15248316526412964,
	"learning_rate": 0.00019578009068425394,
	"loss": 1.0162,
	"step": 920
	},
	{
	"epoch": 0.07107684895205975,
	"grad_norm": 0.22734233736991882,
	"learning_rate": 0.00019576978565539986,
	"loss": 1.1123,
	"step": 922
	},
	{
	"epoch": 0.0712310286677909,
	"grad_norm": 0.1393287032842636,
	"learning_rate": 0.00019575948062654577,
	"loss": 1.0862,
	"step": 924
	},
	{
	"epoch": 0.07138520838352204,
	"grad_norm": 0.12911191582679749,
	"learning_rate": 0.0001957491755976917,
	"loss": 1.0651,
	"step": 926
	},
	{
	"epoch": 0.0715393880992532,
	"grad_norm": 0.12298440933227539,
	"learning_rate": 0.0001957388705688376,
	"loss": 1.1227,
	"step": 928
	},
	{
	"epoch": 0.07169356781498434,
	"grad_norm": 0.14941005408763885,
	"learning_rate": 0.00019572856553998352,
	"loss": 1.0989,
	"step": 930
	},
	{
	"epoch": 0.07184774753071549,
	"grad_norm": 0.1411515325307846,
	"learning_rate": 0.00019571826051112946,
	"loss": 1.0816,
	"step": 932
	},
	{
	"epoch": 0.07200192724644663,
	"grad_norm": 0.11999720335006714,
	"learning_rate": 0.00019570795548227537,
	"loss": 1.0306,
	"step": 934
	},
	{
	"epoch": 0.0721561069621778,
	"grad_norm": 0.1500861495733261,
	"learning_rate": 0.0001956976504534213,
	"loss": 1.0678,
	"step": 936
	},
	{
	"epoch": 0.07231028667790894,
	"grad_norm": 0.12102475017309189,
	"learning_rate": 0.0001956873454245672,
	"loss": 1.0534,
	"step": 938
	},
	{
	"epoch": 0.07246446639364008,
	"grad_norm": 0.11554603278636932,
	"learning_rate": 0.00019567704039571312,
	"loss": 1.0535,
	"step": 940
	},
	{
	"epoch": 0.07261864610937123,
	"grad_norm": 0.12290264666080475,
	"learning_rate": 0.00019566673536685903,
	"loss": 1.0738,
	"step": 942
	},
	{
	"epoch": 0.07277282582510239,
	"grad_norm": 0.17740991711616516,
	"learning_rate": 0.00019565643033800495,
	"loss": 1.0811,
	"step": 944
	},
	{
	"epoch": 0.07292700554083353,
	"grad_norm": 0.14767777919769287,
	"learning_rate": 0.00019564612530915086,
	"loss": 1.105,
	"step": 946
	},
	{
	"epoch": 0.07308118525656468,
	"grad_norm": 0.13773177564144135,
	"learning_rate": 0.00019563582028029678,
	"loss": 1.0983,
	"step": 948
	},
	{
	"epoch": 0.07323536497229584,
	"grad_norm": 0.13891370594501495,
	"learning_rate": 0.0001956255152514427,
	"loss": 1.1349,
	"step": 950
	},
	{
	"epoch": 0.07338954468802698,
	"grad_norm": 0.14717017114162445,
	"learning_rate": 0.00019561521022258863,
	"loss": 1.134,
	"step": 952
	},
	{
	"epoch": 0.07354372440375813,
	"grad_norm": 0.15095743536949158,
	"learning_rate": 0.00019560490519373455,
	"loss": 1.063,
	"step": 954
	},
	{
	"epoch": 0.07369790411948927,
	"grad_norm": 0.12851206958293915,
	"learning_rate": 0.00019559460016488046,
	"loss": 1.1005,
	"step": 956
	},
	{
	"epoch": 0.07385208383522043,
	"grad_norm": 0.13364006578922272,
	"learning_rate": 0.00019558429513602638,
	"loss": 1.0429,
	"step": 958
	},
	{
	"epoch": 0.07400626355095158,
	"grad_norm": 0.1326039433479309,
	"learning_rate": 0.0001955739901071723,
	"loss": 1.1586,
	"step": 960
	},
	{
	"epoch": 0.07416044326668272,
	"grad_norm": 0.13149486482143402,
	"learning_rate": 0.00019556368507831824,
	"loss": 1.109,
	"step": 962
	},
	{
	"epoch": 0.07431462298241387,
	"grad_norm": 0.1189669519662857,
	"learning_rate": 0.00019555338004946415,
	"loss": 1.0462,
	"step": 964
	},
	{
	"epoch": 0.07446880269814503,
	"grad_norm": 0.14341482520103455,
	"learning_rate": 0.00019554307502061007,
	"loss": 1.0623,
	"step": 966
	},
	{
	"epoch": 0.07462298241387617,
	"grad_norm": 0.14133721590042114,
	"learning_rate": 0.00019553276999175598,
	"loss": 1.0945,
	"step": 968
	},
	{
	"epoch": 0.07477716212960732,
	"grad_norm": 0.1351941078901291,
	"learning_rate": 0.0001955224649629019,
	"loss": 1.0327,
	"step": 970
	},
	{
	"epoch": 0.07493134184533848,
	"grad_norm": 0.12836019694805145,
	"learning_rate": 0.00019551215993404784,
	"loss": 1.069,
	"step": 972
	},
	{
	"epoch": 0.07508552156106962,
	"grad_norm": 0.13199055194854736,
	"learning_rate": 0.00019550185490519375,
	"loss": 1.0323,
	"step": 974
	},
	{
	"epoch": 0.07523970127680077,
	"grad_norm": 0.14991353452205658,
	"learning_rate": 0.00019549154987633967,
	"loss": 1.0625,
	"step": 976
	},
	{
	"epoch": 0.07539388099253191,
	"grad_norm": 0.13832435011863708,
	"learning_rate": 0.00019548124484748558,
	"loss": 1.1031,
	"step": 978
	},
	{
	"epoch": 0.07554806070826307,
	"grad_norm": 0.12351599335670471,
	"learning_rate": 0.0001954709398186315,
	"loss": 1.0286,
	"step": 980
	},
	{
	"epoch": 0.07570224042399422,
	"grad_norm": 0.12360050529241562,
	"learning_rate": 0.00019546063478977744,
	"loss": 1.0652,
	"step": 982
	},
	{
	"epoch": 0.07585642013972536,
	"grad_norm": 0.13384872674942017,
	"learning_rate": 0.00019545032976092335,
	"loss": 1.1125,
	"step": 984
	},
	{
	"epoch": 0.07601059985545652,
	"grad_norm": 0.13200527429580688,
	"learning_rate": 0.00019544002473206927,
	"loss": 1.0727,
	"step": 986
	},
	{
	"epoch": 0.07616477957118767,
	"grad_norm": 0.143647700548172,
	"learning_rate": 0.00019542971970321518,
	"loss": 1.1207,
	"step": 988
	},
	{
	"epoch": 0.07631895928691881,
	"grad_norm": 0.13605177402496338,
	"learning_rate": 0.0001954194146743611,
	"loss": 1.0225,
	"step": 990
	},
	{
	"epoch": 0.07647313900264996,
	"grad_norm": 0.12646125257015228,
	"learning_rate": 0.00019540910964550701,
	"loss": 1.11,
	"step": 992
	},
	{
	"epoch": 0.07662731871838112,
	"grad_norm": 0.132467120885849,
	"learning_rate": 0.00019539880461665293,
	"loss": 1.1092,
	"step": 994
	},
	{
	"epoch": 0.07678149843411226,
	"grad_norm": 0.12461701035499573,
	"learning_rate": 0.00019538849958779884,
	"loss": 1.0854,
	"step": 996
	},
	{
	"epoch": 0.07693567814984341,
	"grad_norm": 0.13430501520633698,
	"learning_rate": 0.00019537819455894476,
	"loss": 1.2,
	"step": 998
	},
	{
	"epoch": 0.07708985786557455,
	"grad_norm": 0.12623916566371918,
	"learning_rate": 0.00019536788953009067,
	"loss": 1.0522,
	"step": 1000
	},
	{
	"epoch": 0.07708985786557455,
	"eval_loss": 1.0930616855621338,
	"eval_runtime": 185.4001,
	"eval_samples_per_second": 91.386,
	"eval_steps_per_second": 1.429,
	"step": 1000
	},
	{
	"epoch": 0.07724403758130571,
	"grad_norm": 0.11760087311267853,
	"learning_rate": 0.00019535758450123662,
	"loss": 1.1566,
	"step": 1002
	},
	{
	"epoch": 0.07739821729703686,
	"grad_norm": 0.145633727312088,
	"learning_rate": 0.00019534727947238253,
	"loss": 1.094,
	"step": 1004
	},
	{
	"epoch": 0.077552397012768,
	"grad_norm": 0.1311633288860321,
	"learning_rate": 0.00019533697444352845,
	"loss": 1.0792,
	"step": 1006
	},
	{
	"epoch": 0.07770657672849916,
	"grad_norm": 0.12563548982143402,
	"learning_rate": 0.00019532666941467436,
	"loss": 1.0601,
	"step": 1008
	},
	{
	"epoch": 0.07786075644423031,
	"grad_norm": 0.14429886639118195,
	"learning_rate": 0.00019531636438582028,
	"loss": 1.0926,
	"step": 1010
	},
	{
	"epoch": 0.07801493615996145,
	"grad_norm": 0.13131891191005707,
	"learning_rate": 0.0001953060593569662,
	"loss": 1.1012,
	"step": 1012
	},
	{
	"epoch": 0.0781691158756926,
	"grad_norm": 0.14185300469398499,
	"learning_rate": 0.00019529575432811213,
	"loss": 1.1113,
	"step": 1014
	},
	{
	"epoch": 0.07832329559142376,
	"grad_norm": 0.14298418164253235,
	"learning_rate": 0.00019528544929925805,
	"loss": 1.0909,
	"step": 1016
	},
	{
	"epoch": 0.0784774753071549,
	"grad_norm": 0.1339821219444275,
	"learning_rate": 0.00019527514427040396,
	"loss": 1.0994,
	"step": 1018
	},
	{
	"epoch": 0.07863165502288605,
	"grad_norm": 0.1252928525209427,
	"learning_rate": 0.00019526483924154988,
	"loss": 1.0316,
	"step": 1020
	},
	{
	"epoch": 0.0787858347386172,
	"grad_norm": 0.1277703046798706,
	"learning_rate": 0.0001952545342126958,
	"loss": 1.1067,
	"step": 1022
	},
	{
	"epoch": 0.07894001445434835,
	"grad_norm": 0.12644124031066895,
	"learning_rate": 0.00019524422918384173,
	"loss": 1.0176,
	"step": 1024
	},
	{
	"epoch": 0.0790941941700795,
	"grad_norm": 0.13443627953529358,
	"learning_rate": 0.00019523392415498765,
	"loss": 1.0754,
	"step": 1026
	},
	{
	"epoch": 0.07924837388581064,
	"grad_norm": 0.1895609050989151,
	"learning_rate": 0.00019522361912613356,
	"loss": 1.0551,
	"step": 1028
	},
	{
	"epoch": 0.0794025536015418,
	"grad_norm": 0.1372397392988205,
	"learning_rate": 0.00019521331409727948,
	"loss": 1.0442,
	"step": 1030
	},
	{
	"epoch": 0.07955673331727295,
	"grad_norm": 0.14173942804336548,
	"learning_rate": 0.0001952030090684254,
	"loss": 1.0692,
	"step": 1032
	},
	{
	"epoch": 0.0797109130330041,
	"grad_norm": 0.12321804463863373,
	"learning_rate": 0.00019519270403957134,
	"loss": 1.0276,
	"step": 1034
	},
	{
	"epoch": 0.07986509274873524,
	"grad_norm": 0.12327130138874054,
	"learning_rate": 0.00019518239901071725,
	"loss": 1.0376,
	"step": 1036
	},
	{
	"epoch": 0.0800192724644664,
	"grad_norm": 0.12301841378211975,
	"learning_rate": 0.00019517209398186317,
	"loss": 1.0887,
	"step": 1038
	},
	{
	"epoch": 0.08017345218019754,
	"grad_norm": 0.1429559886455536,
	"learning_rate": 0.00019516178895300908,
	"loss": 1.0321,
	"step": 1040
	},
	{
	"epoch": 0.08032763189592869,
	"grad_norm": 0.13955366611480713,
	"learning_rate": 0.000195151483924155,
	"loss": 1.1081,
	"step": 1042
	},
	{
	"epoch": 0.08048181161165983,
	"grad_norm": 0.13553303480148315,
	"learning_rate": 0.00019514117889530094,
	"loss": 1.0252,
	"step": 1044
	},
	{
	"epoch": 0.080635991327391,
	"grad_norm": 0.14100225269794464,
	"learning_rate": 0.00019513087386644685,
	"loss": 1.1071,
	"step": 1046
	},
	{
	"epoch": 0.08079017104312214,
	"grad_norm": 0.14522643387317657,
	"learning_rate": 0.00019512056883759277,
	"loss": 1.0653,
	"step": 1048
	},
	{
	"epoch": 0.08094435075885328,
	"grad_norm": 0.14540371298789978,
	"learning_rate": 0.00019511026380873868,
	"loss": 1.01,
	"step": 1050
	},
	{
	"epoch": 0.08109853047458444,
	"grad_norm": 0.1459018737077713,
	"learning_rate": 0.0001950999587798846,
	"loss": 1.1147,
	"step": 1052
	},
	{
	"epoch": 0.08125271019031559,
	"grad_norm": 0.12590867280960083,
	"learning_rate": 0.0001950896537510305,
	"loss": 1.0685,
	"step": 1054
	},
	{
	"epoch": 0.08140688990604673,
	"grad_norm": 0.11943504959344864,
	"learning_rate": 0.00019507934872217643,
	"loss": 1.0854,
	"step": 1056
	},
	{
	"epoch": 0.08156106962177788,
	"grad_norm": 0.12039398401975632,
	"learning_rate": 0.00019506904369332234,
	"loss": 1.1397,
	"step": 1058
	},
	{
	"epoch": 0.08171524933750904,
	"grad_norm": 0.1411554217338562,
	"learning_rate": 0.00019505873866446826,
	"loss": 1.1271,
	"step": 1060
	},
	{
	"epoch": 0.08186942905324018,
	"grad_norm": 0.1402871012687683,
	"learning_rate": 0.00019504843363561417,
	"loss": 1.0425,
	"step": 1062
	},
	{
	"epoch": 0.08202360876897133,
	"grad_norm": 0.13545840978622437,
	"learning_rate": 0.00019503812860676011,
	"loss": 1.0571,
	"step": 1064
	},
	{
	"epoch": 0.08217778848470249,
	"grad_norm": 0.12789209187030792,
	"learning_rate": 0.00019502782357790603,
	"loss": 1.0596,
	"step": 1066
	},
	{
	"epoch": 0.08233196820043363,
	"grad_norm": 0.13018928468227386,
	"learning_rate": 0.00019501751854905194,
	"loss": 1.1188,
	"step": 1068
	},
	{
	"epoch": 0.08248614791616478,
	"grad_norm": 0.12482234835624695,
	"learning_rate": 0.00019500721352019786,
	"loss": 1.0831,
	"step": 1070
	},
	{
	"epoch": 0.08264032763189592,
	"grad_norm": 0.11897309869527817,
	"learning_rate": 0.00019499690849134377,
	"loss": 1.0658,
	"step": 1072
	},
	{
	"epoch": 0.08279450734762708,
	"grad_norm": 0.12954497337341309,
	"learning_rate": 0.00019498660346248972,
	"loss": 1.0204,
	"step": 1074
	},
	{
	"epoch": 0.08294868706335823,
	"grad_norm": 0.14220042526721954,
	"learning_rate": 0.00019497629843363563,
	"loss": 1.1101,
	"step": 1076
	},
	{
	"epoch": 0.08310286677908937,
	"grad_norm": 0.1631559580564499,
	"learning_rate": 0.00019496599340478155,
	"loss": 1.1352,
	"step": 1078
	},
	{
	"epoch": 0.08325704649482052,
	"grad_norm": 0.13439539074897766,
	"learning_rate": 0.00019495568837592746,
	"loss": 1.0108,
	"step": 1080
	},
	{
	"epoch": 0.08341122621055168,
	"grad_norm": 0.12389718741178513,
	"learning_rate": 0.00019494538334707338,
	"loss": 1.0155,
	"step": 1082
	},
	{
	"epoch": 0.08356540592628282,
	"grad_norm": 0.1241556853055954,
	"learning_rate": 0.00019493507831821932,
	"loss": 1.1428,
	"step": 1084
	},
	{
	"epoch": 0.08371958564201397,
	"grad_norm": 0.13087880611419678,
	"learning_rate": 0.00019492477328936523,
	"loss": 1.0876,
	"step": 1086
	},
	{
	"epoch": 0.08387376535774513,
	"grad_norm": 0.12431449443101883,
	"learning_rate": 0.00019491446826051115,
	"loss": 1.0758,
	"step": 1088
	},
	{
	"epoch": 0.08402794507347627,
	"grad_norm": 0.13807635009288788,
	"learning_rate": 0.00019490416323165706,
	"loss": 1.0902,
	"step": 1090
	},
	{
	"epoch": 0.08418212478920742,
	"grad_norm": 0.12751048803329468,
	"learning_rate": 0.00019489385820280298,
	"loss": 1.0732,
	"step": 1092
	},
	{
	"epoch": 0.08433630450493856,
	"grad_norm": 0.15594707429409027,
	"learning_rate": 0.00019488355317394892,
	"loss": 1.1115,
	"step": 1094
	},
	{
	"epoch": 0.08449048422066972,
	"grad_norm": 0.11647301912307739,
	"learning_rate": 0.00019487324814509483,
	"loss": 1.1592,
	"step": 1096
	},
	{
	"epoch": 0.08464466393640087,
	"grad_norm": 0.13609850406646729,
	"learning_rate": 0.00019486294311624075,
	"loss": 1.1139,
	"step": 1098
	},
	{
	"epoch": 0.08479884365213201,
	"grad_norm": 0.1234198659658432,
	"learning_rate": 0.00019485263808738666,
	"loss": 1.0682,
	"step": 1100
	},
	{
	"epoch": 0.08479884365213201,
	"eval_loss": 1.0920624732971191,
	"eval_runtime": 185.5142,
	"eval_samples_per_second": 91.33,
	"eval_steps_per_second": 1.428,
	"step": 1100
	},
	{
	"epoch": 0.08495302336786316,
	"grad_norm": 0.1375039666891098,
	"learning_rate": 0.00019484233305853258,
	"loss": 1.0585,
	"step": 1102
	},
	{
	"epoch": 0.08510720308359432,
	"grad_norm": 0.14471521973609924,
	"learning_rate": 0.0001948320280296785,
	"loss": 1.1115,
	"step": 1104
	},
	{
	"epoch": 0.08526138279932546,
	"grad_norm": 0.12425632029771805,
	"learning_rate": 0.0001948217230008244,
	"loss": 1.0501,
	"step": 1106
	},
	{
	"epoch": 0.08541556251505661,
	"grad_norm": 0.1161596029996872,
	"learning_rate": 0.00019481141797197032,
	"loss": 1.0182,
	"step": 1108
	},
	{
	"epoch": 0.08556974223078777,
	"grad_norm": 0.11700072139501572,
	"learning_rate": 0.00019480111294311624,
	"loss": 1.0579,
	"step": 1110
	},
	{
	"epoch": 0.08572392194651891,
	"grad_norm": 0.14330415427684784,
	"learning_rate": 0.00019479080791426215,
	"loss": 1.1211,
	"step": 1112
	},
	{
	"epoch": 0.08587810166225006,
	"grad_norm": 0.14039026200771332,
	"learning_rate": 0.00019478050288540807,
	"loss": 1.0826,
	"step": 1114
	},
	{
	"epoch": 0.0860322813779812,
	"grad_norm": 0.14031362533569336,
	"learning_rate": 0.000194770197856554,
	"loss": 1.0871,
	"step": 1116
	},
	{
	"epoch": 0.08618646109371236,
	"grad_norm": 0.12351037561893463,
	"learning_rate": 0.00019475989282769993,
	"loss": 1.001,
	"step": 1118
	},
	{
	"epoch": 0.08634064080944351,
	"grad_norm": 0.11667052656412125,
	"learning_rate": 0.00019474958779884584,
	"loss": 1.0421,
	"step": 1120
	},
	{
	"epoch": 0.08649482052517465,
	"grad_norm": 0.1489124447107315,
	"learning_rate": 0.00019473928276999175,
	"loss": 1.1644,
	"step": 1122
	},
	{
	"epoch": 0.0866490002409058,
	"grad_norm": 0.1338202804327011,
	"learning_rate": 0.00019472897774113767,
	"loss": 1.1239,
	"step": 1124
	},
	{
	"epoch": 0.08680317995663696,
	"grad_norm": 0.13266493380069733,
	"learning_rate": 0.0001947186727122836,
	"loss": 1.0839,
	"step": 1126
	},
	{
	"epoch": 0.0869573596723681,
	"grad_norm": 0.13726286590099335,
	"learning_rate": 0.00019470836768342953,
	"loss": 1.1325,
	"step": 1128
	},
	{
	"epoch": 0.08711153938809925,
	"grad_norm": 0.14077100157737732,
	"learning_rate": 0.00019469806265457544,
	"loss": 1.0429,
	"step": 1130
	},
	{
	"epoch": 0.08726571910383041,
	"grad_norm": 0.1362866312265396,
	"learning_rate": 0.00019468775762572136,
	"loss": 1.0715,
	"step": 1132
	},
	{
	"epoch": 0.08741989881956155,
	"grad_norm": 0.12472223490476608,
	"learning_rate": 0.00019467745259686727,
	"loss": 1.0503,
	"step": 1134
	},
	{
	"epoch": 0.0875740785352927,
	"grad_norm": 0.1350635141134262,
	"learning_rate": 0.0001946671475680132,
	"loss": 1.0498,
	"step": 1136
	},
	{
	"epoch": 0.08772825825102384,
	"grad_norm": 0.1424301117658615,
	"learning_rate": 0.00019465684253915913,
	"loss": 1.1589,
	"step": 1138
	},
	{
	"epoch": 0.087882437966755,
	"grad_norm": 0.12365067005157471,
	"learning_rate": 0.00019464653751030504,
	"loss": 1.1065,
	"step": 1140
	},
	{
	"epoch": 0.08803661768248615,
	"grad_norm": 0.16497495770454407,
	"learning_rate": 0.00019463623248145096,
	"loss": 1.0189,
	"step": 1142
	},
	{
	"epoch": 0.0881907973982173,
	"grad_norm": 0.1381298303604126,
	"learning_rate": 0.00019462592745259687,
	"loss": 1.0426,
	"step": 1144
	},
	{
	"epoch": 0.08834497711394845,
	"grad_norm": 0.15007291734218597,
	"learning_rate": 0.00019461562242374282,
	"loss": 1.1108,
	"step": 1146
	},
	{
	"epoch": 0.0884991568296796,
	"grad_norm": 0.19384606182575226,
	"learning_rate": 0.00019460531739488873,
	"loss": 1.0664,
	"step": 1148
	},
	{
	"epoch": 0.08865333654541074,
	"grad_norm": 0.12032177299261093,
	"learning_rate": 0.00019459501236603465,
	"loss": 1.018,
	"step": 1150
	},
	{
	"epoch": 0.08880751626114189,
	"grad_norm": 0.1197669506072998,
	"learning_rate": 0.00019458470733718056,
	"loss": 1.071,
	"step": 1152
	},
	{
	"epoch": 0.08896169597687305,
	"grad_norm": 0.12108784914016724,
	"learning_rate": 0.00019457440230832647,
	"loss": 1.0499,
	"step": 1154
	},
	{
	"epoch": 0.0891158756926042,
	"grad_norm": 0.1270270049571991,
	"learning_rate": 0.0001945640972794724,
	"loss": 1.1172,
	"step": 1156
	},
	{
	"epoch": 0.08927005540833534,
	"grad_norm": 0.13599786162376404,
	"learning_rate": 0.0001945537922506183,
	"loss": 1.103,
	"step": 1158
	},
	{
	"epoch": 0.08942423512406648,
	"grad_norm": 0.12051045894622803,
	"learning_rate": 0.00019454348722176422,
	"loss": 1.0905,
	"step": 1160
	},
	{
	"epoch": 0.08957841483979764,
	"grad_norm": 0.12117696553468704,
	"learning_rate": 0.00019453318219291013,
	"loss": 1.0611,
	"step": 1162
	},
	{
	"epoch": 0.08973259455552879,
	"grad_norm": 0.13710887730121613,
	"learning_rate": 0.00019452287716405605,
	"loss": 1.0242,
	"step": 1164
	},
	{
	"epoch": 0.08988677427125993,
	"grad_norm": 0.1160813644528389,
	"learning_rate": 0.000194512572135202,
	"loss": 1.0863,
	"step": 1166
	},
	{
	"epoch": 0.09004095398699109,
	"grad_norm": 0.1754099279642105,
	"learning_rate": 0.0001945022671063479,
	"loss": 1.0938,
	"step": 1168
	},
	{
	"epoch": 0.09019513370272224,
	"grad_norm": 0.1331128627061844,
	"learning_rate": 0.00019449196207749382,
	"loss": 1.0692,
	"step": 1170
	},
	{
	"epoch": 0.09034931341845338,
	"grad_norm": 0.13422611355781555,
	"learning_rate": 0.00019448165704863974,
	"loss": 1.0699,
	"step": 1172
	},
	{
	"epoch": 0.09050349313418453,
	"grad_norm": 0.12999802827835083,
	"learning_rate": 0.00019447135201978565,
	"loss": 1.0957,
	"step": 1174
	},
	{
	"epoch": 0.09065767284991569,
	"grad_norm": 0.13413815200328827,
	"learning_rate": 0.0001944610469909316,
	"loss": 1.0869,
	"step": 1176
	},
	{
	"epoch": 0.09081185256564683,
	"grad_norm": 0.12901006639003754,
	"learning_rate": 0.0001944507419620775,
	"loss": 1.0442,
	"step": 1178
	},
	{
	"epoch": 0.09096603228137798,
	"grad_norm": 0.11824194341897964,
	"learning_rate": 0.00019444043693322342,
	"loss": 1.0935,
	"step": 1180
	},
	{
	"epoch": 0.09112021199710912,
	"grad_norm": 0.14895616471767426,
	"learning_rate": 0.00019443013190436934,
	"loss": 1.0624,
	"step": 1182
	},
	{
	"epoch": 0.09127439171284028,
	"grad_norm": 0.13515722751617432,
	"learning_rate": 0.00019441982687551525,
	"loss": 1.0797,
	"step": 1184
	},
	{
	"epoch": 0.09142857142857143,
	"grad_norm": 0.13411575555801392,
	"learning_rate": 0.00019440952184666117,
	"loss": 1.0637,
	"step": 1186
	},
	{
	"epoch": 0.09158275114430257,
	"grad_norm": 0.12519463896751404,
	"learning_rate": 0.0001943992168178071,
	"loss": 1.0608,
	"step": 1188
	},
	{
	"epoch": 0.09173693086003373,
	"grad_norm": 0.1267428696155548,
	"learning_rate": 0.00019438891178895302,
	"loss": 1.0182,
	"step": 1190
	},
	{
	"epoch": 0.09189111057576488,
	"grad_norm": 0.13116560876369476,
	"learning_rate": 0.00019437860676009894,
	"loss": 1.1139,
	"step": 1192
	},
	{
	"epoch": 0.09204529029149602,
	"grad_norm": 0.14659713208675385,
	"learning_rate": 0.00019436830173124485,
	"loss": 1.1275,
	"step": 1194
	},
	{
	"epoch": 0.09219947000722717,
	"grad_norm": 0.12913885712623596,
	"learning_rate": 0.00019435799670239077,
	"loss": 1.0858,
	"step": 1196
	},
	{
	"epoch": 0.09235364972295833,
	"grad_norm": 0.12855856120586395,
	"learning_rate": 0.0001943476916735367,
	"loss": 1.0811,
	"step": 1198
	},
	{
	"epoch": 0.09250782943868947,
	"grad_norm": 0.1391747146844864,
	"learning_rate": 0.00019433738664468263,
	"loss": 1.0146,
	"step": 1200
	},
	{
	"epoch": 0.09250782943868947,
	"eval_loss": 1.0912913084030151,
	"eval_runtime": 185.3661,
	"eval_samples_per_second": 91.403,
	"eval_steps_per_second": 1.43,
	"step": 1200
	},
	{
	"epoch": 0.09266200915442062,
	"grad_norm": 0.13186782598495483,
	"learning_rate": 0.00019432708161582854,
	"loss": 1.1017,
	"step": 1202
	},
	{
	"epoch": 0.09281618887015176,
	"grad_norm": 0.12913943827152252,
	"learning_rate": 0.00019431677658697446,
	"loss": 1.1027,
	"step": 1204
	},
	{
	"epoch": 0.09297036858588292,
	"grad_norm": 0.1349743753671646,
	"learning_rate": 0.00019430647155812037,
	"loss": 1.1023,
	"step": 1206
	},
	{
	"epoch": 0.09312454830161407,
	"grad_norm": 0.12534667551517487,
	"learning_rate": 0.00019429616652926629,
	"loss": 1.0659,
	"step": 1208
	},
	{
	"epoch": 0.09327872801734521,
	"grad_norm": 0.11720700562000275,
	"learning_rate": 0.0001942858615004122,
	"loss": 1.0532,
	"step": 1210
	},
	{
	"epoch": 0.09343290773307637,
	"grad_norm": 0.1364222913980484,
	"learning_rate": 0.00019427555647155812,
	"loss": 1.0575,
	"step": 1212
	},
	{
	"epoch": 0.09358708744880752,
	"grad_norm": 0.15532977879047394,
	"learning_rate": 0.00019426525144270403,
	"loss": 1.1145,
	"step": 1214
	},
	{
	"epoch": 0.09374126716453866,
	"grad_norm": 0.1377478837966919,
	"learning_rate": 0.00019425494641384995,
	"loss": 1.0505,
	"step": 1216
	},
	{
	"epoch": 0.09389544688026981,
	"grad_norm": 0.1273409128189087,
	"learning_rate": 0.0001942446413849959,
	"loss": 1.0873,
	"step": 1218
	},
	{
	"epoch": 0.09404962659600097,
	"grad_norm": 0.11990435421466827,
	"learning_rate": 0.0001942343363561418,
	"loss": 1.0829,
	"step": 1220
	},
	{
	"epoch": 0.09420380631173211,
	"grad_norm": 0.14191892743110657,
	"learning_rate": 0.00019422403132728772,
	"loss": 1.0992,
	"step": 1222
	},
	{
	"epoch": 0.09435798602746326,
	"grad_norm": 0.14520397782325745,
	"learning_rate": 0.00019421372629843363,
	"loss": 1.0712,
	"step": 1224
	},
	{
	"epoch": 0.09451216574319442,
	"grad_norm": 0.13780727982521057,
	"learning_rate": 0.00019420342126957955,
	"loss": 0.9943,
	"step": 1226
	},
	{
	"epoch": 0.09466634545892556,
	"grad_norm": 0.13550738990306854,
	"learning_rate": 0.0001941931162407255,
	"loss": 1.1264,
	"step": 1228
	},
	{
	"epoch": 0.09482052517465671,
	"grad_norm": 0.12125276774168015,
	"learning_rate": 0.0001941828112118714,
	"loss": 1.1207,
	"step": 1230
	},
	{
	"epoch": 0.09497470489038785,
	"grad_norm": 0.14529301226139069,
	"learning_rate": 0.00019417250618301732,
	"loss": 1.144,
	"step": 1232
	},
	{
	"epoch": 0.09512888460611901,
	"grad_norm": 0.15477551519870758,
	"learning_rate": 0.00019416220115416323,
	"loss": 1.0568,
	"step": 1234
	},
	{
	"epoch": 0.09528306432185016,
	"grad_norm": 0.1299963742494583,
	"learning_rate": 0.00019415189612530915,
	"loss": 1.0235,
	"step": 1236
	},
	{
	"epoch": 0.0954372440375813,
	"grad_norm": 0.1372281014919281,
	"learning_rate": 0.0001941415910964551,
	"loss": 1.0764,
	"step": 1238
	},
	{
	"epoch": 0.09559142375331245,
	"grad_norm": 0.1247306764125824,
	"learning_rate": 0.000194131286067601,
	"loss": 1.1345,
	"step": 1240
	},
	{
	"epoch": 0.09574560346904361,
	"grad_norm": 0.1330571472644806,
	"learning_rate": 0.00019412098103874692,
	"loss": 1.1596,
	"step": 1242
	},
	{
	"epoch": 0.09589978318477475,
	"grad_norm": 0.15787385404109955,
	"learning_rate": 0.00019411067600989284,
	"loss": 1.1067,
	"step": 1244
	},
	{
	"epoch": 0.0960539629005059,
	"grad_norm": 0.12646274268627167,
	"learning_rate": 0.00019410037098103875,
	"loss": 1.0769,
	"step": 1246
	},
	{
	"epoch": 0.09620814261623706,
	"grad_norm": 0.16424262523651123,
	"learning_rate": 0.0001940900659521847,
	"loss": 1.0459,
	"step": 1248
	},
	{
	"epoch": 0.0963623223319682,
	"grad_norm": 0.1401062309741974,
	"learning_rate": 0.0001940797609233306,
	"loss": 1.1308,
	"step": 1250
	},
	{
	"epoch": 0.09651650204769935,
	"grad_norm": 0.13971561193466187,
	"learning_rate": 0.00019406945589447652,
	"loss": 1.1457,
	"step": 1252
	},
	{
	"epoch": 0.0966706817634305,
	"grad_norm": 0.13544687628746033,
	"learning_rate": 0.00019405915086562244,
	"loss": 1.0532,
	"step": 1254
	},
	{
	"epoch": 0.09682486147916165,
	"grad_norm": 0.13527531921863556,
	"learning_rate": 0.00019404884583676835,
	"loss": 1.0376,
	"step": 1256
	},
	{
	"epoch": 0.0969790411948928,
	"grad_norm": 0.1731848120689392,
	"learning_rate": 0.0001940385408079143,
	"loss": 1.2252,
	"step": 1258
	},
	{
	"epoch": 0.09713322091062394,
	"grad_norm": 0.13142083585262299,
	"learning_rate": 0.0001940282357790602,
	"loss": 1.0254,
	"step": 1260
	},
	{
	"epoch": 0.09728740062635509,
	"grad_norm": 0.13390247523784637,
	"learning_rate": 0.00019401793075020612,
	"loss": 1.0448,
	"step": 1262
	},
	{
	"epoch": 0.09744158034208625,
	"grad_norm": 0.15188650786876678,
	"learning_rate": 0.00019400762572135204,
	"loss": 1.1019,
	"step": 1264
	},
	{
	"epoch": 0.0975957600578174,
	"grad_norm": 0.14055617153644562,
	"learning_rate": 0.00019399732069249795,
	"loss": 1.0835,
	"step": 1266
	},
	{
	"epoch": 0.09774993977354854,
	"grad_norm": 0.12209255248308182,
	"learning_rate": 0.00019398701566364387,
	"loss": 1.0675,
	"step": 1268
	},
	{
	"epoch": 0.0979041194892797,
	"grad_norm": 0.14639706909656525,
	"learning_rate": 0.00019397671063478978,
	"loss": 1.049,
	"step": 1270
	},
	{
	"epoch": 0.09805829920501084,
	"grad_norm": 0.13672591745853424,
	"learning_rate": 0.0001939664056059357,
	"loss": 1.1057,
	"step": 1272
	},
	{
	"epoch": 0.09821247892074199,
	"grad_norm": 0.1522635966539383,
	"learning_rate": 0.00019395610057708161,
	"loss": 1.14,
	"step": 1274
	},
	{
	"epoch": 0.09836665863647313,
	"grad_norm": 0.13887491822242737,
	"learning_rate": 0.00019394579554822753,
	"loss": 1.069,
	"step": 1276
	},
	{
	"epoch": 0.09852083835220429,
	"grad_norm": 0.13854965567588806,
	"learning_rate": 0.00019393549051937344,
	"loss": 1.0704,
	"step": 1278
	},
	{
	"epoch": 0.09867501806793544,
	"grad_norm": 0.12839765846729279,
	"learning_rate": 0.00019392518549051939,
	"loss": 1.0512,
	"step": 1280
	},
	{
	"epoch": 0.09882919778366658,
	"grad_norm": 0.1270405352115631,
	"learning_rate": 0.0001939148804616653,
	"loss": 1.0251,
	"step": 1282
	},
	{
	"epoch": 0.09898337749939773,
	"grad_norm": 0.1269143521785736,
	"learning_rate": 0.00019390457543281122,
	"loss": 1.0433,
	"step": 1284
	},
	{
	"epoch": 0.09913755721512889,
	"grad_norm": 0.14292192459106445,
	"learning_rate": 0.00019389427040395713,
	"loss": 1.1507,
	"step": 1286
	},
	{
	"epoch": 0.09929173693086003,
	"grad_norm": 0.12512263655662537,
	"learning_rate": 0.00019388396537510305,
	"loss": 1.0918,
	"step": 1288
	},
	{
	"epoch": 0.09944591664659118,
	"grad_norm": 0.11927679181098938,
	"learning_rate": 0.000193873660346249,
	"loss": 1.0924,
	"step": 1290
	},
	{
	"epoch": 0.09960009636232234,
	"grad_norm": 0.13639990985393524,
	"learning_rate": 0.0001938633553173949,
	"loss": 1.1024,
	"step": 1292
	},
	{
	"epoch": 0.09975427607805348,
	"grad_norm": 0.142363503575325,
	"learning_rate": 0.00019385305028854082,
	"loss": 1.021,
	"step": 1294
	},
	{
	"epoch": 0.09990845579378463,
	"grad_norm": 0.1389359086751938,
	"learning_rate": 0.00019384274525968673,
	"loss": 1.0269,
	"step": 1296
	},
	{
	"epoch": 0.10006263550951577,
	"grad_norm": 0.15595073997974396,
	"learning_rate": 0.00019383244023083265,
	"loss": 1.0913,
	"step": 1298
	},
	{
	"epoch": 0.10021681522524693,
	"grad_norm": 0.1324295848608017,
	"learning_rate": 0.0001938221352019786,
	"loss": 1.1001,
	"step": 1300
	},
	{
	"epoch": 0.10021681522524693,
	"eval_loss": 1.0909266471862793,
	"eval_runtime": 185.4116,
	"eval_samples_per_second": 91.38,
	"eval_steps_per_second": 1.429,
	"step": 1300
	},
	{
	"epoch": 0.10037099494097808,
	"grad_norm": 0.139576256275177,
	"learning_rate": 0.0001938118301731245,
	"loss": 1.1147,
	"step": 1302
	},
	{
	"epoch": 0.10052517465670922,
	"grad_norm": 0.12854811549186707,
	"learning_rate": 0.00019380152514427042,
	"loss": 1.0973,
	"step": 1304
	},
	{
	"epoch": 0.10067935437244037,
	"grad_norm": 0.1245393380522728,
	"learning_rate": 0.00019379122011541633,
	"loss": 1.0485,
	"step": 1306
	},
	{
	"epoch": 0.10083353408817153,
	"grad_norm": 0.13261497020721436,
	"learning_rate": 0.00019378091508656225,
	"loss": 1.156,
	"step": 1308
	},
	{
	"epoch": 0.10098771380390267,
	"grad_norm": 0.1255144327878952,
	"learning_rate": 0.0001937706100577082,
	"loss": 1.0852,
	"step": 1310
	},
	{
	"epoch": 0.10114189351963382,
	"grad_norm": 0.1412706971168518,
	"learning_rate": 0.0001937603050288541,
	"loss": 1.0766,
	"step": 1312
	},
	{
	"epoch": 0.10129607323536498,
	"grad_norm": 0.1281047761440277,
	"learning_rate": 0.00019375000000000002,
	"loss": 1.0824,
	"step": 1314
	},
	{
	"epoch": 0.10145025295109612,
	"grad_norm": 0.13307350873947144,
	"learning_rate": 0.00019373969497114594,
	"loss": 1.0887,
	"step": 1316
	},
	{
	"epoch": 0.10160443266682727,
	"grad_norm": 0.1287691742181778,
	"learning_rate": 0.00019372938994229185,
	"loss": 1.0705,
	"step": 1318
	},
	{
	"epoch": 0.10175861238255841,
	"grad_norm": 0.1303441971540451,
	"learning_rate": 0.00019371908491343777,
	"loss": 1.1684,
	"step": 1320
	},
	{
	"epoch": 0.10191279209828957,
	"grad_norm": 0.13304616510868073,
	"learning_rate": 0.00019370877988458368,
	"loss": 1.0944,
	"step": 1322
	},
	{
	"epoch": 0.10206697181402072,
	"grad_norm": 0.13905592262744904,
	"learning_rate": 0.0001936984748557296,
	"loss": 1.0915,
	"step": 1324
	},
	{
	"epoch": 0.10222115152975186,
	"grad_norm": 0.13225632905960083,
	"learning_rate": 0.0001936881698268755,
	"loss": 1.0418,
	"step": 1326
	},
	{
	"epoch": 0.10237533124548302,
	"grad_norm": 0.1267402619123459,
	"learning_rate": 0.00019367786479802142,
	"loss": 1.0446,
	"step": 1328
	},
	{
	"epoch": 0.10252951096121417,
	"grad_norm": 0.1439935863018036,
	"learning_rate": 0.00019366755976916737,
	"loss": 1.0582,
	"step": 1330
	},
	{
	"epoch": 0.10268369067694531,
	"grad_norm": 0.1267223060131073,
	"learning_rate": 0.00019365725474031328,
	"loss": 1.0176,
	"step": 1332
	},
	{
	"epoch": 0.10283787039267646,
	"grad_norm": 0.1298942118883133,
	"learning_rate": 0.0001936469497114592,
	"loss": 1.0552,
	"step": 1334
	},
	{
	"epoch": 0.10299205010840762,
	"grad_norm": 0.13010933995246887,
	"learning_rate": 0.0001936366446826051,
	"loss": 1.0848,
	"step": 1336
	},
	{
	"epoch": 0.10314622982413876,
	"grad_norm": 0.13728559017181396,
	"learning_rate": 0.00019362633965375103,
	"loss": 1.0779,
	"step": 1338
	},
	{
	"epoch": 0.10330040953986991,
	"grad_norm": 0.13863548636436462,
	"learning_rate": 0.00019361603462489697,
	"loss": 1.0326,
	"step": 1340
	},
	{
	"epoch": 0.10345458925560105,
	"grad_norm": 0.12995532155036926,
	"learning_rate": 0.00019360572959604288,
	"loss": 1.1427,
	"step": 1342
	},
	{
	"epoch": 0.10360876897133221,
	"grad_norm": 0.13650789856910706,
	"learning_rate": 0.0001935954245671888,
	"loss": 1.0528,
	"step": 1344
	},
	{
	"epoch": 0.10376294868706336,
	"grad_norm": 0.1336941123008728,
	"learning_rate": 0.0001935851195383347,
	"loss": 1.1155,
	"step": 1346
	},
	{
	"epoch": 0.1039171284027945,
	"grad_norm": 0.13927003741264343,
	"learning_rate": 0.00019357481450948063,
	"loss": 1.0551,
	"step": 1348
	},
	{
	"epoch": 0.10407130811852566,
	"grad_norm": 0.14504994451999664,
	"learning_rate": 0.00019356450948062657,
	"loss": 1.1014,
	"step": 1350
	},
	{
	"epoch": 0.10422548783425681,
	"grad_norm": 0.15796230733394623,
	"learning_rate": 0.00019355420445177248,
	"loss": 1.2115,
	"step": 1352
	},
	{
	"epoch": 0.10437966754998795,
	"grad_norm": 0.1317984163761139,
	"learning_rate": 0.0001935438994229184,
	"loss": 1.0933,
	"step": 1354
	},
	{
	"epoch": 0.1045338472657191,
	"grad_norm": 0.13189563155174255,
	"learning_rate": 0.00019353359439406431,
	"loss": 1.0664,
	"step": 1356
	},
	{
	"epoch": 0.10468802698145026,
	"grad_norm": 0.1323234885931015,
	"learning_rate": 0.00019352328936521023,
	"loss": 1.0824,
	"step": 1358
	},
	{
	"epoch": 0.1048422066971814,
	"grad_norm": 0.13659097254276276,
	"learning_rate": 0.00019351298433635614,
	"loss": 1.0334,
	"step": 1360
	},
	{
	"epoch": 0.10499638641291255,
	"grad_norm": 0.11882172524929047,
	"learning_rate": 0.0001935026793075021,
	"loss": 1.0401,
	"step": 1362
	},
	{
	"epoch": 0.1051505661286437,
	"grad_norm": 0.13025067746639252,
	"learning_rate": 0.000193492374278648,
	"loss": 1.0838,
	"step": 1364
	},
	{
	"epoch": 0.10530474584437485,
	"grad_norm": 0.1249939501285553,
	"learning_rate": 0.00019348206924979392,
	"loss": 1.0349,
	"step": 1366
	},
	{
	"epoch": 0.105458925560106,
	"grad_norm": 0.12588031589984894,
	"learning_rate": 0.00019347176422093983,
	"loss": 1.079,
	"step": 1368
	},
	{
	"epoch": 0.10561310527583714,
	"grad_norm": 0.12548890709877014,
	"learning_rate": 0.00019346145919208575,
	"loss": 1.0062,
	"step": 1370
	},
	{
	"epoch": 0.1057672849915683,
	"grad_norm": 0.13328798115253448,
	"learning_rate": 0.00019345115416323166,
	"loss": 1.1154,
	"step": 1372
	},
	{
	"epoch": 0.10592146470729945,
	"grad_norm": 0.1443903148174286,
	"learning_rate": 0.00019344084913437758,
	"loss": 1.097,
	"step": 1374
	},
	{
	"epoch": 0.1060756444230306,
	"grad_norm": 0.12835648655891418,
	"learning_rate": 0.0001934305441055235,
	"loss": 1.0723,
	"step": 1376
	},
	{
	"epoch": 0.10622982413876174,
	"grad_norm": 0.13068312406539917,
	"learning_rate": 0.0001934202390766694,
	"loss": 1.1128,
	"step": 1378
	},
	{
	"epoch": 0.1063840038544929,
	"grad_norm": 0.13628961145877838,
	"learning_rate": 0.00019340993404781532,
	"loss": 1.1146,
	"step": 1380
	},
	{
	"epoch": 0.10653818357022404,
	"grad_norm": 0.12263484299182892,
	"learning_rate": 0.00019339962901896126,
	"loss": 1.0947,
	"step": 1382
	},
	{
	"epoch": 0.10669236328595519,
	"grad_norm": 0.12684424221515656,
	"learning_rate": 0.00019338932399010718,
	"loss": 1.059,
	"step": 1384
	},
	{
	"epoch": 0.10684654300168633,
	"grad_norm": 0.1421595960855484,
	"learning_rate": 0.0001933790189612531,
	"loss": 1.0688,
	"step": 1386
	},
	{
	"epoch": 0.10700072271741749,
	"grad_norm": 0.12416025251150131,
	"learning_rate": 0.000193368713932399,
	"loss": 1.0905,
	"step": 1388
	},
	{
	"epoch": 0.10715490243314864,
	"grad_norm": 0.1284332126379013,
	"learning_rate": 0.00019335840890354492,
	"loss": 1.0612,
	"step": 1390
	},
	{
	"epoch": 0.10730908214887978,
	"grad_norm": 0.1282491385936737,
	"learning_rate": 0.00019334810387469086,
	"loss": 1.0851,
	"step": 1392
	},
	{
	"epoch": 0.10746326186461094,
	"grad_norm": 0.13221289217472076,
	"learning_rate": 0.00019333779884583678,
	"loss": 1.0446,
	"step": 1394
	},
	{
	"epoch": 0.10761744158034209,
	"grad_norm": 0.12401736527681351,
	"learning_rate": 0.0001933274938169827,
	"loss": 1.0826,
	"step": 1396
	},
	{
	"epoch": 0.10777162129607323,
	"grad_norm": 0.14316771924495697,
	"learning_rate": 0.0001933171887881286,
	"loss": 1.1136,
	"step": 1398
	},
	{
	"epoch": 0.10792580101180438,
	"grad_norm": 0.17223364114761353,
	"learning_rate": 0.00019330688375927452,
	"loss": 1.0752,
	"step": 1400
	},
	{
	"epoch": 0.10792580101180438,
	"eval_loss": 1.0899540185928345,
	"eval_runtime": 185.3818,
	"eval_samples_per_second": 91.395,
	"eval_steps_per_second": 1.429,
	"step": 1400
	},
	{
	"epoch": 0.10807998072753554,
	"grad_norm": 0.15027141571044922,
	"learning_rate": 0.00019329657873042047,
	"loss": 1.0371,
	"step": 1402
	},
	{
	"epoch": 0.10823416044326668,
	"grad_norm": 0.19876505434513092,
	"learning_rate": 0.00019328627370156638,
	"loss": 1.0312,
	"step": 1404
	},
	{
	"epoch": 0.10838834015899783,
	"grad_norm": 0.1422131210565567,
	"learning_rate": 0.0001932759686727123,
	"loss": 1.0597,
	"step": 1406
	},
	{
	"epoch": 0.10854251987472899,
	"grad_norm": 0.13597753643989563,
	"learning_rate": 0.0001932656636438582,
	"loss": 1.0939,
	"step": 1408
	},
	{
	"epoch": 0.10869669959046013,
	"grad_norm": 0.16808953881263733,
	"learning_rate": 0.00019325535861500413,
	"loss": 1.1221,
	"step": 1410
	},
	{
	"epoch": 0.10885087930619128,
	"grad_norm": 0.14884881675243378,
	"learning_rate": 0.00019324505358615007,
	"loss": 1.1114,
	"step": 1412
	},
	{
	"epoch": 0.10900505902192242,
	"grad_norm": 0.12680503726005554,
	"learning_rate": 0.00019323474855729598,
	"loss": 1.1032,
	"step": 1414
	},
	{
	"epoch": 0.10915923873765358,
	"grad_norm": 0.13997766375541687,
	"learning_rate": 0.0001932244435284419,
	"loss": 1.0799,
	"step": 1416
	},
	{
	"epoch": 0.10931341845338473,
	"grad_norm": 0.1343669593334198,
	"learning_rate": 0.0001932141384995878,
	"loss": 1.0778,
	"step": 1418
	},
	{
	"epoch": 0.10946759816911587,
	"grad_norm": 0.12029851973056793,
	"learning_rate": 0.00019320383347073373,
	"loss": 1.1021,
	"step": 1420
	},
	{
	"epoch": 0.10962177788484702,
	"grad_norm": 0.1322990357875824,
	"learning_rate": 0.00019319352844187967,
	"loss": 1.1061,
	"step": 1422
	},
	{
	"epoch": 0.10977595760057818,
	"grad_norm": 0.13710594177246094,
	"learning_rate": 0.00019318322341302558,
	"loss": 1.0786,
	"step": 1424
	},
	{
	"epoch": 0.10993013731630932,
	"grad_norm": 0.11956049501895905,
	"learning_rate": 0.0001931729183841715,
	"loss": 1.0711,
	"step": 1426
	},
	{
	"epoch": 0.11008431703204047,
	"grad_norm": 0.139973446726799,
	"learning_rate": 0.00019316261335531741,
	"loss": 1.1162,
	"step": 1428
	},
	{
	"epoch": 0.11023849674777163,
	"grad_norm": 0.1525941640138626,
	"learning_rate": 0.00019315230832646333,
	"loss": 1.0572,
	"step": 1430
	},
	{
	"epoch": 0.11039267646350277,
	"grad_norm": 0.1349973976612091,
	"learning_rate": 0.00019314200329760924,
	"loss": 1.1048,
	"step": 1432
	},
	{
	"epoch": 0.11054685617923392,
	"grad_norm": 0.1305711269378662,
	"learning_rate": 0.00019313169826875516,
	"loss": 1.0841,
	"step": 1434
	},
	{
	"epoch": 0.11070103589496506,
	"grad_norm": 0.16756822168827057,
	"learning_rate": 0.00019312139323990107,
	"loss": 1.0736,
	"step": 1436
	},
	{
	"epoch": 0.11085521561069622,
	"grad_norm": 0.13367486000061035,
	"learning_rate": 0.000193111088211047,
	"loss": 1.0774,
	"step": 1438
	},
	{
	"epoch": 0.11100939532642737,
	"grad_norm": 0.12484605610370636,
	"learning_rate": 0.0001931007831821929,
	"loss": 1.1196,
	"step": 1440
	},
	{
	"epoch": 0.11116357504215851,
	"grad_norm": 0.14064739644527435,
	"learning_rate": 0.00019309047815333885,
	"loss": 1.1101,
	"step": 1442
	},
	{
	"epoch": 0.11131775475788966,
	"grad_norm": 0.1366916447877884,
	"learning_rate": 0.00019308017312448476,
	"loss": 1.111,
	"step": 1444
	},
	{
	"epoch": 0.11147193447362082,
	"grad_norm": 0.11520934104919434,
	"learning_rate": 0.00019306986809563068,
	"loss": 1.065,
	"step": 1446
	},
	{
	"epoch": 0.11162611418935196,
	"grad_norm": 0.15567731857299805,
	"learning_rate": 0.0001930595630667766,
	"loss": 1.1036,
	"step": 1448
	},
	{
	"epoch": 0.11178029390508311,
	"grad_norm": 0.13628730177879333,
	"learning_rate": 0.0001930492580379225,
	"loss": 1.0717,
	"step": 1450
	},
	{
	"epoch": 0.11193447362081427,
	"grad_norm": 0.1359964907169342,
	"learning_rate": 0.00019303895300906842,
	"loss": 1.0986,
	"step": 1452
	},
	{
	"epoch": 0.11208865333654541,
	"grad_norm": 0.16372162103652954,
	"learning_rate": 0.00019302864798021436,
	"loss": 1.0306,
	"step": 1454
	},
	{
	"epoch": 0.11224283305227656,
	"grad_norm": 0.1724134087562561,
	"learning_rate": 0.00019301834295136028,
	"loss": 1.0753,
	"step": 1456
	},
	{
	"epoch": 0.1123970127680077,
	"grad_norm": 0.13646383583545685,
	"learning_rate": 0.0001930080379225062,
	"loss": 1.0975,
	"step": 1458
	},
	{
	"epoch": 0.11255119248373886,
	"grad_norm": 0.1522134691476822,
	"learning_rate": 0.0001929977328936521,
	"loss": 1.1031,
	"step": 1460
	},
	{
	"epoch": 0.11270537219947001,
	"grad_norm": 0.13656160235404968,
	"learning_rate": 0.00019298742786479802,
	"loss": 1.0602,
	"step": 1462
	},
	{
	"epoch": 0.11285955191520115,
	"grad_norm": 0.14140130579471588,
	"learning_rate": 0.00019297712283594396,
	"loss": 1.1289,
	"step": 1464
	},
	{
	"epoch": 0.1130137316309323,
	"grad_norm": 0.1383032351732254,
	"learning_rate": 0.00019296681780708988,
	"loss": 1.0797,
	"step": 1466
	},
	{
	"epoch": 0.11316791134666346,
	"grad_norm": 0.15723556280136108,
	"learning_rate": 0.0001929565127782358,
	"loss": 1.1156,
	"step": 1468
	},
	{
	"epoch": 0.1133220910623946,
	"grad_norm": 0.13462230563163757,
	"learning_rate": 0.0001929462077493817,
	"loss": 1.0953,
	"step": 1470
	},
	{
	"epoch": 0.11347627077812575,
	"grad_norm": 0.14101319015026093,
	"learning_rate": 0.00019293590272052762,
	"loss": 1.1152,
	"step": 1472
	},
	{
	"epoch": 0.11363045049385691,
	"grad_norm": 0.13705132901668549,
	"learning_rate": 0.00019292559769167357,
	"loss": 1.0886,
	"step": 1474
	},
	{
	"epoch": 0.11378463020958805,
	"grad_norm": 0.1206672340631485,
	"learning_rate": 0.00019291529266281948,
	"loss": 1.0995,
	"step": 1476
	},
	{
	"epoch": 0.1139388099253192,
	"grad_norm": 0.13666383922100067,
	"learning_rate": 0.0001929049876339654,
	"loss": 1.058,
	"step": 1478
	},
	{
	"epoch": 0.11409298964105034,
	"grad_norm": 0.1265423446893692,
	"learning_rate": 0.0001928946826051113,
	"loss": 1.0676,
	"step": 1480
	},
	{
	"epoch": 0.1142471693567815,
	"grad_norm": 0.1528097242116928,
	"learning_rate": 0.00019288437757625723,
	"loss": 1.0675,
	"step": 1482
	},
	{
	"epoch": 0.11440134907251265,
	"grad_norm": 0.16541676223278046,
	"learning_rate": 0.00019287407254740314,
	"loss": 1.1539,
	"step": 1484
	},
	{
	"epoch": 0.1145555287882438,
	"grad_norm": 0.20383091270923615,
	"learning_rate": 0.00019286376751854906,
	"loss": 1.0472,
	"step": 1486
	},
	{
	"epoch": 0.11470970850397495,
	"grad_norm": 0.13806484639644623,
	"learning_rate": 0.00019285346248969497,
	"loss": 1.0408,
	"step": 1488
	},
	{
	"epoch": 0.1148638882197061,
	"grad_norm": 0.1251746118068695,
	"learning_rate": 0.00019284315746084089,
	"loss": 1.1207,
	"step": 1490
	},
	{
	"epoch": 0.11501806793543724,
	"grad_norm": 0.13218504190444946,
	"learning_rate": 0.0001928328524319868,
	"loss": 1.1131,
	"step": 1492
	},
	{
	"epoch": 0.11517224765116839,
	"grad_norm": 0.21616914868354797,
	"learning_rate": 0.00019282254740313274,
	"loss": 1.1103,
	"step": 1494
	},
	{
	"epoch": 0.11532642736689955,
	"grad_norm": 0.1437305361032486,
	"learning_rate": 0.00019281224237427866,
	"loss": 1.1243,
	"step": 1496
	},
	{
	"epoch": 0.11548060708263069,
	"grad_norm": 0.13094168901443481,
	"learning_rate": 0.00019280193734542457,
	"loss": 1.1012,
	"step": 1498
	},
	{
	"epoch": 0.11563478679836184,
	"grad_norm": 0.12384334206581116,
	"learning_rate": 0.0001927916323165705,
	"loss": 1.05,
	"step": 1500
	},
	{
	"epoch": 0.11563478679836184,
	"eval_loss": 1.0905406475067139,
	"eval_runtime": 185.4473,
	"eval_samples_per_second": 91.363,
	"eval_steps_per_second": 1.429,
	"step": 1500
	},
	{
	"epoch": 0.11578896651409298,
	"grad_norm": 0.12807106971740723,
	"learning_rate": 0.0001927813272877164,
	"loss": 1.0754,
	"step": 1502
	},
	{
	"epoch": 0.11594314622982414,
	"grad_norm": 0.12517131865024567,
	"learning_rate": 0.00019277102225886234,
	"loss": 1.1017,
	"step": 1504
	},
	{
	"epoch": 0.11609732594555529,
	"grad_norm": 0.1704496592283249,
	"learning_rate": 0.00019276071723000826,
	"loss": 1.098,
	"step": 1506
	},
	{
	"epoch": 0.11625150566128643,
	"grad_norm": 0.12152231484651566,
	"learning_rate": 0.00019275041220115417,
	"loss": 1.0738,
	"step": 1508
	},
	{
	"epoch": 0.11640568537701759,
	"grad_norm": 0.12952156364917755,
	"learning_rate": 0.0001927401071723001,
	"loss": 1.0479,
	"step": 1510
	},
	{
	"epoch": 0.11655986509274874,
	"grad_norm": 0.1499640941619873,
	"learning_rate": 0.000192729802143446,
	"loss": 1.1046,
	"step": 1512
	},
	{
	"epoch": 0.11671404480847988,
	"grad_norm": 0.1331593543291092,
	"learning_rate": 0.00019271949711459195,
	"loss": 1.1219,
	"step": 1514
	},
	{
	"epoch": 0.11686822452421103,
	"grad_norm": 0.1368558406829834,
	"learning_rate": 0.00019270919208573786,
	"loss": 1.1357,
	"step": 1516
	},
	{
	"epoch": 0.11702240423994219,
	"grad_norm": 0.12278290838003159,
	"learning_rate": 0.00019269888705688378,
	"loss": 1.1079,
	"step": 1518
	},
	{
	"epoch": 0.11717658395567333,
	"grad_norm": 0.11737775802612305,
	"learning_rate": 0.0001926885820280297,
	"loss": 1.1224,
	"step": 1520
	},
	{
	"epoch": 0.11733076367140448,
	"grad_norm": 0.13017341494560242,
	"learning_rate": 0.0001926782769991756,
	"loss": 1.0648,
	"step": 1522
	},
	{
	"epoch": 0.11748494338713562,
	"grad_norm": 0.11939583718776703,
	"learning_rate": 0.00019266797197032155,
	"loss": 1.0899,
	"step": 1524
	},
	{
	"epoch": 0.11763912310286678,
	"grad_norm": 0.12446755915880203,
	"learning_rate": 0.00019265766694146746,
	"loss": 1.0626,
	"step": 1526
	},
	{
	"epoch": 0.11779330281859793,
	"grad_norm": 0.13369430601596832,
	"learning_rate": 0.00019264736191261338,
	"loss": 1.0526,
	"step": 1528
	},
	{
	"epoch": 0.11794748253432907,
	"grad_norm": 0.13470736145973206,
	"learning_rate": 0.0001926370568837593,
	"loss": 1.0946,
	"step": 1530
	},
	{
	"epoch": 0.11810166225006023,
	"grad_norm": 0.14193174242973328,
	"learning_rate": 0.0001926267518549052,
	"loss": 1.1089,
	"step": 1532
	},
	{
	"epoch": 0.11825584196579138,
	"grad_norm": 0.14893026649951935,
	"learning_rate": 0.00019261644682605112,
	"loss": 1.0606,
	"step": 1534
	},
	{
	"epoch": 0.11841002168152252,
	"grad_norm": 0.20594976842403412,
	"learning_rate": 0.00019260614179719704,
	"loss": 1.0375,
	"step": 1536
	},
	{
	"epoch": 0.11856420139725367,
	"grad_norm": 0.15287873148918152,
	"learning_rate": 0.00019259583676834295,
	"loss": 1.1414,
	"step": 1538
	},
	{
	"epoch": 0.11871838111298483,
	"grad_norm": 0.1275177299976349,
	"learning_rate": 0.00019258553173948887,
	"loss": 1.1084,
	"step": 1540
	},
	{
	"epoch": 0.11887256082871597,
	"grad_norm": 0.20036157965660095,
	"learning_rate": 0.00019257522671063478,
	"loss": 1.1261,
	"step": 1542
	},
	{
	"epoch": 0.11902674054444712,
	"grad_norm": 0.14492087066173553,
	"learning_rate": 0.0001925649216817807,
	"loss": 1.1137,
	"step": 1544
	},
	{
	"epoch": 0.11918092026017826,
	"grad_norm": 0.1259312629699707,
	"learning_rate": 0.00019255461665292664,
	"loss": 1.0409,
	"step": 1546
	},
	{
	"epoch": 0.11933509997590942,
	"grad_norm": 0.1296795755624771,
	"learning_rate": 0.00019254431162407255,
	"loss": 1.0332,
	"step": 1548
	},
	{
	"epoch": 0.11948927969164057,
	"grad_norm": 0.13372276723384857,
	"learning_rate": 0.00019253400659521847,
	"loss": 1.1087,
	"step": 1550
	},
	{
	"epoch": 0.11964345940737171,
	"grad_norm": 0.14354725182056427,
	"learning_rate": 0.00019252370156636438,
	"loss": 1.0398,
	"step": 1552
	},
	{
	"epoch": 0.11979763912310287,
	"grad_norm": 0.1378318965435028,
	"learning_rate": 0.0001925133965375103,
	"loss": 1.0542,
	"step": 1554
	},
	{
	"epoch": 0.11995181883883402,
	"grad_norm": 0.12171255797147751,
	"learning_rate": 0.00019250309150865624,
	"loss": 1.0935,
	"step": 1556
	},
	{
	"epoch": 0.12010599855456516,
	"grad_norm": 0.11905664205551147,
	"learning_rate": 0.00019249278647980215,
	"loss": 1.0097,
	"step": 1558
	},
	{
	"epoch": 0.12026017827029631,
	"grad_norm": 0.12854760885238647,
	"learning_rate": 0.00019248248145094807,
	"loss": 1.1517,
	"step": 1560
	},
	{
	"epoch": 0.12041435798602747,
	"grad_norm": 0.247908353805542,
	"learning_rate": 0.00019247217642209398,
	"loss": 1.0876,
	"step": 1562
	},
	{
	"epoch": 0.12056853770175861,
	"grad_norm": 0.1441553235054016,
	"learning_rate": 0.0001924618713932399,
	"loss": 1.1414,
	"step": 1564
	},
	{
	"epoch": 0.12072271741748976,
	"grad_norm": 0.13307887315750122,
	"learning_rate": 0.00019245156636438584,
	"loss": 1.1012,
	"step": 1566
	},
	{
	"epoch": 0.12087689713322092,
	"grad_norm": 0.14192406833171844,
	"learning_rate": 0.00019244126133553176,
	"loss": 1.1418,
	"step": 1568
	},
	{
	"epoch": 0.12103107684895206,
	"grad_norm": 0.11530864983797073,
	"learning_rate": 0.00019243095630667767,
	"loss": 1.0776,
	"step": 1570
	},
	{
	"epoch": 0.12118525656468321,
	"grad_norm": 0.13385196030139923,
	"learning_rate": 0.00019242065127782359,
	"loss": 1.1311,
	"step": 1572
	},
	{
	"epoch": 0.12133943628041435,
	"grad_norm": 0.1308089643716812,
	"learning_rate": 0.0001924103462489695,
	"loss": 1.0625,
	"step": 1574
	},
	{
	"epoch": 0.12149361599614551,
	"grad_norm": 0.11851842701435089,
	"learning_rate": 0.00019240004122011544,
	"loss": 1.0182,
	"step": 1576
	},
	{
	"epoch": 0.12164779571187666,
	"grad_norm": 0.2496737688779831,
	"learning_rate": 0.00019238973619126136,
	"loss": 1.0746,
	"step": 1578
	},
	{
	"epoch": 0.1218019754276078,
	"grad_norm": 0.12962055206298828,
	"learning_rate": 0.00019237943116240727,
	"loss": 1.0245,
	"step": 1580
	},
	{
	"epoch": 0.12195615514333895,
	"grad_norm": 0.13170978426933289,
	"learning_rate": 0.0001923691261335532,
	"loss": 0.9897,
	"step": 1582
	},
	{
	"epoch": 0.12211033485907011,
	"grad_norm": 0.13226309418678284,
	"learning_rate": 0.0001923588211046991,
	"loss": 1.1035,
	"step": 1584
	},
	{
	"epoch": 0.12226451457480125,
	"grad_norm": 0.11901077628135681,
	"learning_rate": 0.00019234851607584502,
	"loss": 1.0084,
	"step": 1586
	},
	{
	"epoch": 0.1224186942905324,
	"grad_norm": 0.15274369716644287,
	"learning_rate": 0.00019233821104699093,
	"loss": 1.1436,
	"step": 1588
	},
	{
	"epoch": 0.12257287400626356,
	"grad_norm": 0.11832466721534729,
	"learning_rate": 0.00019232790601813685,
	"loss": 1.0179,
	"step": 1590
	},
	{
	"epoch": 0.1227270537219947,
	"grad_norm": 0.13038666546344757,
	"learning_rate": 0.00019231760098928276,
	"loss": 1.0779,
	"step": 1592
	},
	{
	"epoch": 0.12288123343772585,
	"grad_norm": 0.12837626039981842,
	"learning_rate": 0.00019230729596042868,
	"loss": 1.1404,
	"step": 1594
	},
	{
	"epoch": 0.123035413153457,
	"grad_norm": 0.1400509923696518,
	"learning_rate": 0.00019229699093157462,
	"loss": 1.1132,
	"step": 1596
	},
	{
	"epoch": 0.12318959286918815,
	"grad_norm": 0.13757595419883728,
	"learning_rate": 0.00019228668590272053,
	"loss": 1.0816,
	"step": 1598
	},
	{
	"epoch": 0.1233437725849193,
	"grad_norm": 0.12403321266174316,
	"learning_rate": 0.00019227638087386645,
	"loss": 1.039,
	"step": 1600
	},
	{
	"epoch": 0.1233437725849193,
	"eval_loss": 1.0888522863388062,
	"eval_runtime": 185.2371,
	"eval_samples_per_second": 91.467,
	"eval_steps_per_second": 1.431,
	"step": 1600
	},
	{
	"epoch": 0.12349795230065044,
	"grad_norm": 0.12380605190992355,
	"learning_rate": 0.00019226607584501236,
	"loss": 1.0903,
	"step": 1602
	},
	{
	"epoch": 0.12365213201638159,
	"grad_norm": 0.13564443588256836,
	"learning_rate": 0.00019225577081615828,
	"loss": 1.0768,
	"step": 1604
	},
	{
	"epoch": 0.12380631173211275,
	"grad_norm": 0.1533685177564621,
	"learning_rate": 0.00019224546578730422,
	"loss": 1.0852,
	"step": 1606
	},
	{
	"epoch": 0.12396049144784389,
	"grad_norm": 0.1163390502333641,
	"learning_rate": 0.00019223516075845014,
	"loss": 1.0574,
	"step": 1608
	},
	{
	"epoch": 0.12411467116357504,
	"grad_norm": 0.13867324590682983,
	"learning_rate": 0.00019222485572959605,
	"loss": 1.0992,
	"step": 1610
	},
	{
	"epoch": 0.1242688508793062,
	"grad_norm": 0.12759087979793549,
	"learning_rate": 0.00019221455070074197,
	"loss": 1.0738,
	"step": 1612
	},
	{
	"epoch": 0.12442303059503734,
	"grad_norm": 0.1237189844250679,
	"learning_rate": 0.00019220424567188788,
	"loss": 1.0974,
	"step": 1614
	},
	{
	"epoch": 0.12457721031076849,
	"grad_norm": 0.13331052660942078,
	"learning_rate": 0.00019219394064303382,
	"loss": 1.0917,
	"step": 1616
	},
	{
	"epoch": 0.12473139002649963,
	"grad_norm": 0.1290212869644165,
	"learning_rate": 0.00019218363561417974,
	"loss": 1.0696,
	"step": 1618
	},
	{
	"epoch": 0.12488556974223079,
	"grad_norm": 0.13309410214424133,
	"learning_rate": 0.00019217333058532565,
	"loss": 1.043,
	"step": 1620
	},
	{
	"epoch": 0.12503974945796192,
	"grad_norm": 0.13453248143196106,
	"learning_rate": 0.00019216302555647157,
	"loss": 1.0435,
	"step": 1622
	},
	{
	"epoch": 0.1251939291736931,
	"grad_norm": 0.11639372259378433,
	"learning_rate": 0.00019215272052761748,
	"loss": 1.0579,
	"step": 1624
	},
	{
	"epoch": 0.12534810888942424,
	"grad_norm": 0.13231517374515533,
	"learning_rate": 0.0001921424154987634,
	"loss": 1.1268,
	"step": 1626
	},
	{
	"epoch": 0.1255022886051554,
	"grad_norm": 0.1349351406097412,
	"learning_rate": 0.00019213211046990934,
	"loss": 1.1599,
	"step": 1628
	},
	{
	"epoch": 0.12565646832088653,
	"grad_norm": 0.13710346817970276,
	"learning_rate": 0.00019212180544105525,
	"loss": 1.0866,
	"step": 1630
	},
	{
	"epoch": 0.12581064803661768,
	"grad_norm": 0.14535072445869446,
	"learning_rate": 0.00019211150041220117,
	"loss": 1.0445,
	"step": 1632
	},
	{
	"epoch": 0.12596482775234882,
	"grad_norm": 0.11799806356430054,
	"learning_rate": 0.00019210119538334708,
	"loss": 1.0525,
	"step": 1634
	},
	{
	"epoch": 0.12611900746807997,
	"grad_norm": 0.13399624824523926,
	"learning_rate": 0.000192090890354493,
	"loss": 1.0246,
	"step": 1636
	},
	{
	"epoch": 0.12627318718381114,
	"grad_norm": 0.14404788613319397,
	"learning_rate": 0.00019208058532563894,
	"loss": 1.0582,
	"step": 1638
	},
	{
	"epoch": 0.1264273668995423,
	"grad_norm": 0.14395713806152344,
	"learning_rate": 0.00019207028029678486,
	"loss": 1.0686,
	"step": 1640
	},
	{
	"epoch": 0.12658154661527343,
	"grad_norm": 0.13249294459819794,
	"learning_rate": 0.00019205997526793077,
	"loss": 1.1286,
	"step": 1642
	},
	{
	"epoch": 0.12673572633100458,
	"grad_norm": 0.12791812419891357,
	"learning_rate": 0.00019204967023907669,
	"loss": 1.062,
	"step": 1644
	},
	{
	"epoch": 0.12688990604673572,
	"grad_norm": 0.12210959941148758,
	"learning_rate": 0.0001920393652102226,
	"loss": 1.0419,
	"step": 1646
	},
	{
	"epoch": 0.12704408576246687,
	"grad_norm": 0.13438813388347626,
	"learning_rate": 0.00019202906018136852,
	"loss": 1.0589,
	"step": 1648
	},
	{
	"epoch": 0.127198265478198,
	"grad_norm": 0.12953762710094452,
	"learning_rate": 0.00019201875515251443,
	"loss": 1.0128,
	"step": 1650
	},
	{
	"epoch": 0.1273524451939292,
	"grad_norm": 0.1318603903055191,
	"learning_rate": 0.00019200845012366035,
	"loss": 1.073,
	"step": 1652
	},
	{
	"epoch": 0.12750662490966033,
	"grad_norm": 0.12956051528453827,
	"learning_rate": 0.00019199814509480626,
	"loss": 1.0489,
	"step": 1654
	},
	{
	"epoch": 0.12766080462539148,
	"grad_norm": 0.13501368463039398,
	"learning_rate": 0.00019198784006595218,
	"loss": 1.0198,
	"step": 1656
	},
	{
	"epoch": 0.12781498434112262,
	"grad_norm": 0.13902342319488525,
	"learning_rate": 0.00019197753503709812,
	"loss": 1.0512,
	"step": 1658
	},
	{
	"epoch": 0.12796916405685377,
	"grad_norm": 0.15590503811836243,
	"learning_rate": 0.00019196723000824403,
	"loss": 1.1782,
	"step": 1660
	},
	{
	"epoch": 0.1281233437725849,
	"grad_norm": 0.13954932987689972,
	"learning_rate": 0.00019195692497938995,
	"loss": 1.0421,
	"step": 1662
	},
	{
	"epoch": 0.12827752348831606,
	"grad_norm": 0.11550859361886978,
	"learning_rate": 0.00019194661995053586,
	"loss": 1.086,
	"step": 1664
	},
	{
	"epoch": 0.1284317032040472,
	"grad_norm": 0.12175869196653366,
	"learning_rate": 0.00019193631492168178,
	"loss": 1.0704,
	"step": 1666
	},
	{
	"epoch": 0.12858588291977838,
	"grad_norm": 0.13503512740135193,
	"learning_rate": 0.00019192600989282772,
	"loss": 1.1166,
	"step": 1668
	},
	{
	"epoch": 0.12874006263550952,
	"grad_norm": 0.12849009037017822,
	"learning_rate": 0.00019191570486397363,
	"loss": 1.0315,
	"step": 1670
	},
	{
	"epoch": 0.12889424235124067,
	"grad_norm": 0.12484319508075714,
	"learning_rate": 0.00019190539983511955,
	"loss": 1.0737,
	"step": 1672
	},
	{
	"epoch": 0.1290484220669718,
	"grad_norm": 0.1364014446735382,
	"learning_rate": 0.00019189509480626546,
	"loss": 1.0619,
	"step": 1674
	},
	{
	"epoch": 0.12920260178270296,
	"grad_norm": 0.12930172681808472,
	"learning_rate": 0.00019188478977741138,
	"loss": 1.046,
	"step": 1676
	},
	{
	"epoch": 0.1293567814984341,
	"grad_norm": 0.13860805332660675,
	"learning_rate": 0.00019187448474855732,
	"loss": 1.0832,
	"step": 1678
	},
	{
	"epoch": 0.12951096121416525,
	"grad_norm": 0.1379111111164093,
	"learning_rate": 0.00019186417971970324,
	"loss": 1.1406,
	"step": 1680
	},
	{
	"epoch": 0.12966514092989642,
	"grad_norm": 0.1349123865365982,
	"learning_rate": 0.00019185387469084915,
	"loss": 1.1055,
	"step": 1682
	},
	{
	"epoch": 0.12981932064562757,
	"grad_norm": 0.13304142653942108,
	"learning_rate": 0.00019184356966199507,
	"loss": 1.0392,
	"step": 1684
	},
	{
	"epoch": 0.1299735003613587,
	"grad_norm": 0.12159105390310287,
	"learning_rate": 0.00019183326463314098,
	"loss": 1.0548,
	"step": 1686
	},
	{
	"epoch": 0.13012768007708986,
	"grad_norm": 0.12661418318748474,
	"learning_rate": 0.00019182295960428692,
	"loss": 1.0588,
	"step": 1688
	},
	{
	"epoch": 0.130281859792821,
	"grad_norm": 0.13691510260105133,
	"learning_rate": 0.00019181265457543284,
	"loss": 1.0854,
	"step": 1690
	},
	{
	"epoch": 0.13043603950855215,
	"grad_norm": 0.1401318609714508,
	"learning_rate": 0.00019180234954657875,
	"loss": 1.0864,
	"step": 1692
	},
	{
	"epoch": 0.1305902192242833,
	"grad_norm": 0.1355384737253189,
	"learning_rate": 0.00019179204451772467,
	"loss": 1.058,
	"step": 1694
	},
	{
	"epoch": 0.13074439894001447,
	"grad_norm": 0.13987474143505096,
	"learning_rate": 0.00019178173948887058,
	"loss": 1.06,
	"step": 1696
	},
	{
	"epoch": 0.1308985786557456,
	"grad_norm": 0.14350661635398865,
	"learning_rate": 0.0001917714344600165,
	"loss": 1.0731,
	"step": 1698
	},
	{
	"epoch": 0.13105275837147676,
	"grad_norm": 0.12443742901086807,
	"learning_rate": 0.0001917611294311624,
	"loss": 1.0987,
	"step": 1700
	},
	{
	"epoch": 0.13105275837147676,
	"eval_loss": 1.0880467891693115,
	"eval_runtime": 185.5457,
	"eval_samples_per_second": 91.314,
	"eval_steps_per_second": 1.428,
	"step": 1700
	},
	{
	"epoch": 0.1312069380872079,
	"grad_norm": 0.10956554859876633,
	"learning_rate": 0.00019175082440230833,
	"loss": 1.0393,
	"step": 1702
	},
	{
	"epoch": 0.13136111780293905,
	"grad_norm": 0.11846137791872025,
	"learning_rate": 0.00019174051937345424,
	"loss": 1.0998,
	"step": 1704
	},
	{
	"epoch": 0.1315152975186702,
	"grad_norm": 0.11894328892230988,
	"learning_rate": 0.00019173021434460016,
	"loss": 1.1007,
	"step": 1706
	},
	{
	"epoch": 0.13166947723440134,
	"grad_norm": 0.11090514808893204,
	"learning_rate": 0.00019171990931574607,
	"loss": 1.0343,
	"step": 1708
	},
	{
	"epoch": 0.1318236569501325,
	"grad_norm": 0.1276719868183136,
	"learning_rate": 0.000191709604286892,
	"loss": 1.0392,
	"step": 1710
	},
	{
	"epoch": 0.13197783666586366,
	"grad_norm": 0.12342885881662369,
	"learning_rate": 0.00019169929925803793,
	"loss": 1.063,
	"step": 1712
	},
	{
	"epoch": 0.1321320163815948,
	"grad_norm": 0.1237882748246193,
	"learning_rate": 0.00019168899422918384,
	"loss": 1.0558,
	"step": 1714
	},
	{
	"epoch": 0.13228619609732595,
	"grad_norm": 0.12958785891532898,
	"learning_rate": 0.00019167868920032976,
	"loss": 1.0493,
	"step": 1716
	},
	{
	"epoch": 0.1324403758130571,
	"grad_norm": 0.1181110367178917,
	"learning_rate": 0.00019166838417147567,
	"loss": 1.0668,
	"step": 1718
	},
	{
	"epoch": 0.13259455552878824,
	"grad_norm": 0.12053950875997543,
	"learning_rate": 0.00019165807914262162,
	"loss": 1.0392,
	"step": 1720
	},
	{
	"epoch": 0.13274873524451938,
	"grad_norm": 0.11725175380706787,
	"learning_rate": 0.00019164777411376753,
	"loss": 1.0188,
	"step": 1722
	},
	{
	"epoch": 0.13290291496025053,
	"grad_norm": 0.12475614994764328,
	"learning_rate": 0.00019163746908491344,
	"loss": 1.0134,
	"step": 1724
	},
	{
	"epoch": 0.1330570946759817,
	"grad_norm": 0.1231207475066185,
	"learning_rate": 0.00019162716405605936,
	"loss": 1.0309,
	"step": 1726
	},
	{
	"epoch": 0.13321127439171285,
	"grad_norm": 0.1269765943288803,
	"learning_rate": 0.00019161685902720527,
	"loss": 1.0918,
	"step": 1728
	},
	{
	"epoch": 0.133365454107444,
	"grad_norm": 0.12103556841611862,
	"learning_rate": 0.00019160655399835122,
	"loss": 1.0453,
	"step": 1730
	},
	{
	"epoch": 0.13351963382317514,
	"grad_norm": 0.12427771091461182,
	"learning_rate": 0.00019159624896949713,
	"loss": 1.1544,
	"step": 1732
	},
	{
	"epoch": 0.13367381353890628,
	"grad_norm": 0.13416282832622528,
	"learning_rate": 0.00019158594394064305,
	"loss": 1.0941,
	"step": 1734
	},
	{
	"epoch": 0.13382799325463743,
	"grad_norm": 0.13207705318927765,
	"learning_rate": 0.00019157563891178896,
	"loss": 1.0998,
	"step": 1736
	},
	{
	"epoch": 0.13398217297036857,
	"grad_norm": 0.1436687856912613,
	"learning_rate": 0.00019156533388293488,
	"loss": 1.0723,
	"step": 1738
	},
	{
	"epoch": 0.13413635268609975,
	"grad_norm": 0.1206304207444191,
	"learning_rate": 0.00019155502885408082,
	"loss": 1.0279,
	"step": 1740
	},
	{
	"epoch": 0.1342905324018309,
	"grad_norm": 0.12685900926589966,
	"learning_rate": 0.00019154472382522673,
	"loss": 1.0683,
	"step": 1742
	},
	{
	"epoch": 0.13444471211756204,
	"grad_norm": 0.12833228707313538,
	"learning_rate": 0.00019153441879637265,
	"loss": 1.0904,
	"step": 1744
	},
	{
	"epoch": 0.13459889183329318,
	"grad_norm": 0.12999312579631805,
	"learning_rate": 0.00019152411376751856,
	"loss": 1.0492,
	"step": 1746
	},
	{
	"epoch": 0.13475307154902433,
	"grad_norm": 0.13486912846565247,
	"learning_rate": 0.00019151380873866448,
	"loss": 1.101,
	"step": 1748
	},
	{
	"epoch": 0.13490725126475547,
	"grad_norm": 0.12793023884296417,
	"learning_rate": 0.0001915035037098104,
	"loss": 1.1135,
	"step": 1750
	},
	{
	"epoch": 0.13506143098048662,
	"grad_norm": 0.12652675807476044,
	"learning_rate": 0.0001914931986809563,
	"loss": 1.0902,
	"step": 1752
	},
	{
	"epoch": 0.1352156106962178,
	"grad_norm": 0.12431836873292923,
	"learning_rate": 0.00019148289365210222,
	"loss": 1.0922,
	"step": 1754
	},
	{
	"epoch": 0.13536979041194894,
	"grad_norm": 0.13665209710597992,
	"learning_rate": 0.00019147258862324814,
	"loss": 1.0584,
	"step": 1756
	},
	{
	"epoch": 0.13552397012768008,
	"grad_norm": 0.1355196088552475,
	"learning_rate": 0.00019146228359439405,
	"loss": 1.1199,
	"step": 1758
	},
	{
	"epoch": 0.13567814984341123,
	"grad_norm": 0.14115893840789795,
	"learning_rate": 0.00019145197856554,
	"loss": 1.0697,
	"step": 1760
	},
	{
	"epoch": 0.13583232955914237,
	"grad_norm": 0.13009534776210785,
	"learning_rate": 0.0001914416735366859,
	"loss": 1.1111,
	"step": 1762
	},
	{
	"epoch": 0.13598650927487352,
	"grad_norm": 0.12280994653701782,
	"learning_rate": 0.00019143136850783182,
	"loss": 1.0341,
	"step": 1764
	},
	{
	"epoch": 0.13614068899060466,
	"grad_norm": 0.15171582996845245,
	"learning_rate": 0.00019142106347897774,
	"loss": 1.1275,
	"step": 1766
	},
	{
	"epoch": 0.1362948687063358,
	"grad_norm": 0.15258526802062988,
	"learning_rate": 0.00019141075845012365,
	"loss": 1.0513,
	"step": 1768
	},
	{
	"epoch": 0.13644904842206698,
	"grad_norm": 0.132346972823143,
	"learning_rate": 0.0001914004534212696,
	"loss": 1.0878,
	"step": 1770
	},
	{
	"epoch": 0.13660322813779813,
	"grad_norm": 0.13237041234970093,
	"learning_rate": 0.0001913901483924155,
	"loss": 1.0845,
	"step": 1772
	},
	{
	"epoch": 0.13675740785352927,
	"grad_norm": 0.13837209343910217,
	"learning_rate": 0.00019137984336356143,
	"loss": 1.1221,
	"step": 1774
	},
	{
	"epoch": 0.13691158756926042,
	"grad_norm": 0.17590375244617462,
	"learning_rate": 0.00019136953833470734,
	"loss": 1.1963,
	"step": 1776
	},
	{
	"epoch": 0.13706576728499156,
	"grad_norm": 0.12898488342761993,
	"learning_rate": 0.00019135923330585326,
	"loss": 1.1306,
	"step": 1778
	},
	{
	"epoch": 0.1372199470007227,
	"grad_norm": 0.12428785115480423,
	"learning_rate": 0.0001913489282769992,
	"loss": 1.068,
	"step": 1780
	},
	{
	"epoch": 0.13737412671645385,
	"grad_norm": 0.12678809463977814,
	"learning_rate": 0.0001913386232481451,
	"loss": 1.0709,
	"step": 1782
	},
	{
	"epoch": 0.13752830643218503,
	"grad_norm": 0.1344168782234192,
	"learning_rate": 0.00019132831821929103,
	"loss": 1.1073,
	"step": 1784
	},
	{
	"epoch": 0.13768248614791617,
	"grad_norm": 0.14730733633041382,
	"learning_rate": 0.00019131801319043694,
	"loss": 1.0073,
	"step": 1786
	},
	{
	"epoch": 0.13783666586364732,
	"grad_norm": 0.13661792874336243,
	"learning_rate": 0.00019130770816158286,
	"loss": 1.0637,
	"step": 1788
	},
	{
	"epoch": 0.13799084557937846,
	"grad_norm": 0.1342434138059616,
	"learning_rate": 0.0001912974031327288,
	"loss": 1.1069,
	"step": 1790
	},
	{
	"epoch": 0.1381450252951096,
	"grad_norm": 0.11941581219434738,
	"learning_rate": 0.00019128709810387471,
	"loss": 1.1023,
	"step": 1792
	},
	{
	"epoch": 0.13829920501084075,
	"grad_norm": 0.13641759753227234,
	"learning_rate": 0.00019127679307502063,
	"loss": 1.0564,
	"step": 1794
	},
	{
	"epoch": 0.1384533847265719,
	"grad_norm": 0.11148608475923538,
	"learning_rate": 0.00019126648804616654,
	"loss": 1.0255,
	"step": 1796
	},
	{
	"epoch": 0.13860756444230307,
	"grad_norm": 0.1387186199426651,
	"learning_rate": 0.00019125618301731246,
	"loss": 1.0663,
	"step": 1798
	},
	{
	"epoch": 0.13876174415803422,
	"grad_norm": 0.12380651384592056,
	"learning_rate": 0.00019124587798845837,
	"loss": 1.1222,
	"step": 1800
	},
	{
	"epoch": 0.13876174415803422,
	"eval_loss": 1.0875153541564941,
	"eval_runtime": 185.4605,
	"eval_samples_per_second": 91.356,
	"eval_steps_per_second": 1.429,
	"step": 1800
	},
	{
	"epoch": 0.13891592387376536,
	"grad_norm": 0.13224369287490845,
	"learning_rate": 0.00019123557295960432,
	"loss": 1.0821,
	"step": 1802
	},
	{
	"epoch": 0.1390701035894965,
	"grad_norm": 0.13096244633197784,
	"learning_rate": 0.00019122526793075023,
	"loss": 1.0097,
	"step": 1804
	},
	{
	"epoch": 0.13922428330522765,
	"grad_norm": 0.11652527749538422,
	"learning_rate": 0.00019121496290189615,
	"loss": 1.0517,
	"step": 1806
	},
	{
	"epoch": 0.1393784630209588,
	"grad_norm": 0.13449358940124512,
	"learning_rate": 0.00019120465787304206,
	"loss": 1.0915,
	"step": 1808
	},
	{
	"epoch": 0.13953264273668994,
	"grad_norm": 0.11550068855285645,
	"learning_rate": 0.00019119435284418798,
	"loss": 1.0568,
	"step": 1810
	},
	{
	"epoch": 0.13968682245242112,
	"grad_norm": 0.13804587721824646,
	"learning_rate": 0.0001911840478153339,
	"loss": 1.0933,
	"step": 1812
	},
	{
	"epoch": 0.13984100216815226,
	"grad_norm": 0.12062159180641174,
	"learning_rate": 0.0001911737427864798,
	"loss": 1.0517,
	"step": 1814
	},
	{
	"epoch": 0.1399951818838834,
	"grad_norm": 0.12154779583215714,
	"learning_rate": 0.00019116343775762572,
	"loss": 1.0955,
	"step": 1816
	},
	{
	"epoch": 0.14014936159961455,
	"grad_norm": 0.11615799367427826,
	"learning_rate": 0.00019115313272877164,
	"loss": 0.968,
	"step": 1818
	},
	{
	"epoch": 0.1403035413153457,
	"grad_norm": 0.1207037940621376,
	"learning_rate": 0.00019114282769991755,
	"loss": 1.0896,
	"step": 1820
	},
	{
	"epoch": 0.14045772103107684,
	"grad_norm": 0.12750887870788574,
	"learning_rate": 0.0001911325226710635,
	"loss": 1.065,
	"step": 1822
	},
	{
	"epoch": 0.140611900746808,
	"grad_norm": 0.16391952335834503,
	"learning_rate": 0.0001911222176422094,
	"loss": 1.0232,
	"step": 1824
	},
	{
	"epoch": 0.14076608046253913,
	"grad_norm": 0.14626921713352203,
	"learning_rate": 0.00019111191261335532,
	"loss": 1.0375,
	"step": 1826
	},
	{
	"epoch": 0.1409202601782703,
	"grad_norm": 0.12393996119499207,
	"learning_rate": 0.00019110160758450124,
	"loss": 1.0345,
	"step": 1828
	},
	{
	"epoch": 0.14107443989400145,
	"grad_norm": 0.13275925815105438,
	"learning_rate": 0.00019109130255564715,
	"loss": 1.071,
	"step": 1830
	},
	{
	"epoch": 0.1412286196097326,
	"grad_norm": 0.1255485862493515,
	"learning_rate": 0.0001910809975267931,
	"loss": 1.1026,
	"step": 1832
	},
	{
	"epoch": 0.14138279932546374,
	"grad_norm": 0.13399668037891388,
	"learning_rate": 0.000191070692497939,
	"loss": 1.11,
	"step": 1834
	},
	{
	"epoch": 0.1415369790411949,
	"grad_norm": 0.13084925711154938,
	"learning_rate": 0.00019106038746908492,
	"loss": 1.0528,
	"step": 1836
	},
	{
	"epoch": 0.14169115875692603,
	"grad_norm": 0.15695689618587494,
	"learning_rate": 0.00019105008244023084,
	"loss": 1.1336,
	"step": 1838
	},
	{
	"epoch": 0.14184533847265718,
	"grad_norm": 0.13630808889865875,
	"learning_rate": 0.00019103977741137675,
	"loss": 1.0767,
	"step": 1840
	},
	{
	"epoch": 0.14199951818838835,
	"grad_norm": 0.11874844878911972,
	"learning_rate": 0.0001910294723825227,
	"loss": 1.0511,
	"step": 1842
	},
	{
	"epoch": 0.1421536979041195,
	"grad_norm": 0.11898507922887802,
	"learning_rate": 0.0001910191673536686,
	"loss": 1.0866,
	"step": 1844
	},
	{
	"epoch": 0.14230787761985064,
	"grad_norm": 0.1393211930990219,
	"learning_rate": 0.00019100886232481453,
	"loss": 1.0553,
	"step": 1846
	},
	{
	"epoch": 0.1424620573355818,
	"grad_norm": 0.1382310539484024,
	"learning_rate": 0.00019099855729596044,
	"loss": 1.07,
	"step": 1848
	},
	{
	"epoch": 0.14261623705131293,
	"grad_norm": 0.1471824198961258,
	"learning_rate": 0.00019098825226710636,
	"loss": 1.0893,
	"step": 1850
	},
	{
	"epoch": 0.14277041676704408,
	"grad_norm": 0.12706084549427032,
	"learning_rate": 0.0001909779472382523,
	"loss": 1.0848,
	"step": 1852
	},
	{
	"epoch": 0.14292459648277522,
	"grad_norm": 0.1324569135904312,
	"learning_rate": 0.0001909676422093982,
	"loss": 1.024,
	"step": 1854
	},
	{
	"epoch": 0.1430787761985064,
	"grad_norm": 0.11245544254779816,
	"learning_rate": 0.00019095733718054413,
	"loss": 1.0802,
	"step": 1856
	},
	{
	"epoch": 0.14323295591423754,
	"grad_norm": 0.15419217944145203,
	"learning_rate": 0.00019094703215169004,
	"loss": 1.1101,
	"step": 1858
	},
	{
	"epoch": 0.1433871356299687,
	"grad_norm": 0.1071443036198616,
	"learning_rate": 0.00019093672712283596,
	"loss": 1.0576,
	"step": 1860
	},
	{
	"epoch": 0.14354131534569983,
	"grad_norm": 0.1341090053319931,
	"learning_rate": 0.00019092642209398187,
	"loss": 1.0606,
	"step": 1862
	},
	{
	"epoch": 0.14369549506143098,
	"grad_norm": 0.11848092079162598,
	"learning_rate": 0.0001909161170651278,
	"loss": 1.0714,
	"step": 1864
	},
	{
	"epoch": 0.14384967477716212,
	"grad_norm": 0.12697815895080566,
	"learning_rate": 0.0001909058120362737,
	"loss": 1.092,
	"step": 1866
	},
	{
	"epoch": 0.14400385449289327,
	"grad_norm": 0.11891257762908936,
	"learning_rate": 0.00019089550700741962,
	"loss": 0.9649,
	"step": 1868
	},
	{
	"epoch": 0.14415803420862444,
	"grad_norm": 0.12616439163684845,
	"learning_rate": 0.00019088520197856553,
	"loss": 1.0962,
	"step": 1870
	},
	{
	"epoch": 0.1443122139243556,
	"grad_norm": 0.12141067534685135,
	"learning_rate": 0.00019087489694971147,
	"loss": 1.0838,
	"step": 1872
	},
	{
	"epoch": 0.14446639364008673,
	"grad_norm": 0.13279564678668976,
	"learning_rate": 0.0001908645919208574,
	"loss": 1.0484,
	"step": 1874
	},
	{
	"epoch": 0.14462057335581788,
	"grad_norm": 0.15748505294322968,
	"learning_rate": 0.0001908542868920033,
	"loss": 1.1433,
	"step": 1876
	},
	{
	"epoch": 0.14477475307154902,
	"grad_norm": 0.11593475937843323,
	"learning_rate": 0.00019084398186314922,
	"loss": 1.1483,
	"step": 1878
	},
	{
	"epoch": 0.14492893278728017,
	"grad_norm": 0.14499489963054657,
	"learning_rate": 0.00019083367683429513,
	"loss": 1.0782,
	"step": 1880
	},
	{
	"epoch": 0.1450831125030113,
	"grad_norm": 0.13570410013198853,
	"learning_rate": 0.00019082337180544105,
	"loss": 1.0989,
	"step": 1882
	},
	{
	"epoch": 0.14523729221874246,
	"grad_norm": 0.12810774147510529,
	"learning_rate": 0.000190813066776587,
	"loss": 1.0374,
	"step": 1884
	},
	{
	"epoch": 0.14539147193447363,
	"grad_norm": 0.11781581491231918,
	"learning_rate": 0.0001908027617477329,
	"loss": 1.0796,
	"step": 1886
	},
	{
	"epoch": 0.14554565165020478,
	"grad_norm": 0.12243229150772095,
	"learning_rate": 0.00019079245671887882,
	"loss": 1.0477,
	"step": 1888
	},
	{
	"epoch": 0.14569983136593592,
	"grad_norm": 0.1385030299425125,
	"learning_rate": 0.00019078215169002474,
	"loss": 1.0349,
	"step": 1890
	},
	{
	"epoch": 0.14585401108166707,
	"grad_norm": 0.12011386454105377,
	"learning_rate": 0.00019077184666117065,
	"loss": 1.0718,
	"step": 1892
	},
	{
	"epoch": 0.1460081907973982,
	"grad_norm": 0.12646062672138214,
	"learning_rate": 0.0001907615416323166,
	"loss": 1.1228,
	"step": 1894
	},
	{
	"epoch": 0.14616237051312936,
	"grad_norm": 0.1284620612859726,
	"learning_rate": 0.0001907512366034625,
	"loss": 1.079,
	"step": 1896
	},
	{
	"epoch": 0.1463165502288605,
	"grad_norm": 0.15374581515789032,
	"learning_rate": 0.00019074093157460842,
	"loss": 1.1147,
	"step": 1898
	},
	{
	"epoch": 0.14647072994459168,
	"grad_norm": 0.1325882524251938,
	"learning_rate": 0.00019073062654575434,
	"loss": 1.0404,
	"step": 1900
	},
	{
	"epoch": 0.14647072994459168,
	"eval_loss": 1.0869932174682617,
	"eval_runtime": 185.4754,
	"eval_samples_per_second": 91.349,
	"eval_steps_per_second": 1.429,
	"step": 1900
	},
	{
	"epoch": 0.14662490966032282,
	"grad_norm": 0.14041611552238464,
	"learning_rate": 0.00019072032151690025,
	"loss": 1.095,
	"step": 1902
	},
	{
	"epoch": 0.14677908937605397,
	"grad_norm": 0.14162160456180573,
	"learning_rate": 0.0001907100164880462,
	"loss": 1.1714,
	"step": 1904
	},
	{
	"epoch": 0.1469332690917851,
	"grad_norm": 0.12077832221984863,
	"learning_rate": 0.0001906997114591921,
	"loss": 1.1109,
	"step": 1906
	},
	{
	"epoch": 0.14708744880751626,
	"grad_norm": 0.1738968789577484,
	"learning_rate": 0.00019068940643033802,
	"loss": 1.0838,
	"step": 1908
	},
	{
	"epoch": 0.1472416285232474,
	"grad_norm": 0.13948039710521698,
	"learning_rate": 0.00019067910140148394,
	"loss": 1.0494,
	"step": 1910
	},
	{
	"epoch": 0.14739580823897855,
	"grad_norm": 0.21179239451885223,
	"learning_rate": 0.00019066879637262985,
	"loss": 1.0962,
	"step": 1912
	},
	{
	"epoch": 0.14754998795470972,
	"grad_norm": 0.12927787005901337,
	"learning_rate": 0.00019065849134377577,
	"loss": 1.1113,
	"step": 1914
	},
	{
	"epoch": 0.14770416767044087,
	"grad_norm": 0.1296701431274414,
	"learning_rate": 0.00019064818631492168,
	"loss": 1.0603,
	"step": 1916
	},
	{
	"epoch": 0.147858347386172,
	"grad_norm": 0.1282590925693512,
	"learning_rate": 0.0001906378812860676,
	"loss": 1.0594,
	"step": 1918
	},
	{
	"epoch": 0.14801252710190316,
	"grad_norm": 0.13304758071899414,
	"learning_rate": 0.0001906275762572135,
	"loss": 1.0784,
	"step": 1920
	},
	{
	"epoch": 0.1481667068176343,
	"grad_norm": 0.15661965310573578,
	"learning_rate": 0.00019061727122835943,
	"loss": 1.008,
	"step": 1922
	},
	{
	"epoch": 0.14832088653336545,
	"grad_norm": 0.12986873090267181,
	"learning_rate": 0.00019060696619950537,
	"loss": 1.0788,
	"step": 1924
	},
	{
	"epoch": 0.1484750662490966,
	"grad_norm": 0.1128251776099205,
	"learning_rate": 0.00019059666117065128,
	"loss": 1.1449,
	"step": 1926
	},
	{
	"epoch": 0.14862924596482774,
	"grad_norm": 0.13722160458564758,
	"learning_rate": 0.0001905863561417972,
	"loss": 1.0914,
	"step": 1928
	},
	{
	"epoch": 0.1487834256805589,
	"grad_norm": 0.1507786512374878,
	"learning_rate": 0.00019057605111294311,
	"loss": 1.0694,
	"step": 1930
	},
	{
	"epoch": 0.14893760539629006,
	"grad_norm": 0.1368752121925354,
	"learning_rate": 0.00019056574608408903,
	"loss": 1.0417,
	"step": 1932
	},
	{
	"epoch": 0.1490917851120212,
	"grad_norm": 0.12566259503364563,
	"learning_rate": 0.00019055544105523497,
	"loss": 1.0853,
	"step": 1934
	},
	{
	"epoch": 0.14924596482775235,
	"grad_norm": 0.12362397462129593,
	"learning_rate": 0.0001905451360263809,
	"loss": 1.1136,
	"step": 1936
	},
	{
	"epoch": 0.1494001445434835,
	"grad_norm": 0.12472514808177948,
	"learning_rate": 0.0001905348309975268,
	"loss": 1.0628,
	"step": 1938
	},
	{
	"epoch": 0.14955432425921464,
	"grad_norm": 0.1355161964893341,
	"learning_rate": 0.00019052452596867272,
	"loss": 1.1211,
	"step": 1940
	},
	{
	"epoch": 0.14970850397494578,
	"grad_norm": 0.13438721001148224,
	"learning_rate": 0.00019051422093981863,
	"loss": 1.0758,
	"step": 1942
	},
	{
	"epoch": 0.14986268369067696,
	"grad_norm": 0.11768204718828201,
	"learning_rate": 0.00019050391591096457,
	"loss": 1.0533,
	"step": 1944
	},
	{
	"epoch": 0.1500168634064081,
	"grad_norm": 0.13892577588558197,
	"learning_rate": 0.0001904936108821105,
	"loss": 1.1076,
	"step": 1946
	},
	{
	"epoch": 0.15017104312213925,
	"grad_norm": 0.1532358080148697,
	"learning_rate": 0.0001904833058532564,
	"loss": 1.0706,
	"step": 1948
	},
	{
	"epoch": 0.1503252228378704,
	"grad_norm": 0.13364464044570923,
	"learning_rate": 0.00019047300082440232,
	"loss": 1.1322,
	"step": 1950
	},
	{
	"epoch": 0.15047940255360154,
	"grad_norm": 0.12663134932518005,
	"learning_rate": 0.00019046269579554823,
	"loss": 1.0749,
	"step": 1952
	},
	{
	"epoch": 0.15063358226933268,
	"grad_norm": 0.1297607123851776,
	"learning_rate": 0.00019045239076669417,
	"loss": 1.0594,
	"step": 1954
	},
	{
	"epoch": 0.15078776198506383,
	"grad_norm": 0.11931920051574707,
	"learning_rate": 0.0001904420857378401,
	"loss": 1.0522,
	"step": 1956
	},
	{
	"epoch": 0.150941941700795,
	"grad_norm": 0.1334810107946396,
	"learning_rate": 0.000190431780708986,
	"loss": 1.0674,
	"step": 1958
	},
	{
	"epoch": 0.15109612141652615,
	"grad_norm": 0.12633340060710907,
	"learning_rate": 0.00019042147568013192,
	"loss": 1.0139,
	"step": 1960
	},
	{
	"epoch": 0.1512503011322573,
	"grad_norm": 0.12485836446285248,
	"learning_rate": 0.00019041117065127783,
	"loss": 1.0288,
	"step": 1962
	},
	{
	"epoch": 0.15140448084798844,
	"grad_norm": 0.10940799117088318,
	"learning_rate": 0.00019040086562242375,
	"loss": 1.0475,
	"step": 1964
	},
	{
	"epoch": 0.15155866056371958,
	"grad_norm": 0.12229325622320175,
	"learning_rate": 0.00019039056059356966,
	"loss": 1.0628,
	"step": 1966
	},
	{
	"epoch": 0.15171284027945073,
	"grad_norm": 0.14333505928516388,
	"learning_rate": 0.00019038025556471558,
	"loss": 1.0423,
	"step": 1968
	},
	{
	"epoch": 0.15186701999518187,
	"grad_norm": 0.12773017585277557,
	"learning_rate": 0.0001903699505358615,
	"loss": 1.1283,
	"step": 1970
	},
	{
	"epoch": 0.15202119971091305,
	"grad_norm": 0.11913473904132843,
	"learning_rate": 0.0001903596455070074,
	"loss": 1.0646,
	"step": 1972
	},
	{
	"epoch": 0.1521753794266442,
	"grad_norm": 0.13321518898010254,
	"learning_rate": 0.00019034934047815332,
	"loss": 1.0476,
	"step": 1974
	},
	{
	"epoch": 0.15232955914237534,
	"grad_norm": 0.1362799108028412,
	"learning_rate": 0.00019033903544929927,
	"loss": 1.0937,
	"step": 1976
	},
	{
	"epoch": 0.15248373885810648,
	"grad_norm": 0.13804180920124054,
	"learning_rate": 0.00019032873042044518,
	"loss": 1.113,
	"step": 1978
	},
	{
	"epoch": 0.15263791857383763,
	"grad_norm": 0.1774570494890213,
	"learning_rate": 0.0001903184253915911,
	"loss": 1.0795,
	"step": 1980
	},
	{
	"epoch": 0.15279209828956877,
	"grad_norm": 0.13106994330883026,
	"learning_rate": 0.000190308120362737,
	"loss": 1.098,
	"step": 1982
	},
	{
	"epoch": 0.15294627800529992,
	"grad_norm": 0.14435411989688873,
	"learning_rate": 0.00019029781533388293,
	"loss": 1.0814,
	"step": 1984
	},
	{
	"epoch": 0.15310045772103106,
	"grad_norm": 0.13178013265132904,
	"learning_rate": 0.00019028751030502887,
	"loss": 1.1002,
	"step": 1986
	},
	{
	"epoch": 0.15325463743676224,
	"grad_norm": 0.1283218264579773,
	"learning_rate": 0.00019027720527617478,
	"loss": 1.0749,
	"step": 1988
	},
	{
	"epoch": 0.15340881715249338,
	"grad_norm": 0.12113723158836365,
	"learning_rate": 0.0001902669002473207,
	"loss": 1.0831,
	"step": 1990
	},
	{
	"epoch": 0.15356299686822453,
	"grad_norm": 0.12649892270565033,
	"learning_rate": 0.0001902565952184666,
	"loss": 1.0166,
	"step": 1992
	},
	{
	"epoch": 0.15371717658395567,
	"grad_norm": 0.12823793292045593,
	"learning_rate": 0.00019024629018961253,
	"loss": 1.0273,
	"step": 1994
	},
	{
	"epoch": 0.15387135629968682,
	"grad_norm": 0.1291527897119522,
	"learning_rate": 0.00019023598516075847,
	"loss": 1.1092,
	"step": 1996
	},
	{
	"epoch": 0.15402553601541796,
	"grad_norm": 0.12588894367218018,
	"learning_rate": 0.00019022568013190438,
	"loss": 1.0627,
	"step": 1998
	},
	{
	"epoch": 0.1541797157311491,
	"grad_norm": 0.12996312975883484,
	"learning_rate": 0.0001902153751030503,
	"loss": 1.1196,
	"step": 2000
	},
	{
	"epoch": 0.1541797157311491,
	"eval_loss": 1.0863893032073975,
	"eval_runtime": 185.3254,
	"eval_samples_per_second": 91.423,
	"eval_steps_per_second": 1.43,
	"step": 2000
	},
	{
	"epoch": 0.15433389544688028,
	"grad_norm": 0.14361834526062012,
	"learning_rate": 0.00019020507007419621,
	"loss": 1.1151,
	"step": 2002
	},
	{
	"epoch": 0.15448807516261143,
	"grad_norm": 0.12650837004184723,
	"learning_rate": 0.00019019476504534213,
	"loss": 1.1155,
	"step": 2004
	},
	{
	"epoch": 0.15464225487834257,
	"grad_norm": 0.13820499181747437,
	"learning_rate": 0.00019018446001648807,
	"loss": 1.1243,
	"step": 2006
	},
	{
	"epoch": 0.15479643459407372,
	"grad_norm": 0.13205693662166595,
	"learning_rate": 0.00019017415498763399,
	"loss": 1.0626,
	"step": 2008
	},
	{
	"epoch": 0.15495061430980486,
	"grad_norm": 0.13930106163024902,
	"learning_rate": 0.0001901638499587799,
	"loss": 1.1105,
	"step": 2010
	},
	{
	"epoch": 0.155104794025536,
	"grad_norm": 0.14711922407150269,
	"learning_rate": 0.00019015354492992582,
	"loss": 1.0556,
	"step": 2012
	},
	{
	"epoch": 0.15525897374126715,
	"grad_norm": 0.11909156292676926,
	"learning_rate": 0.00019014323990107173,
	"loss": 1.1025,
	"step": 2014
	},
	{
	"epoch": 0.15541315345699833,
	"grad_norm": 0.14099714159965515,
	"learning_rate": 0.00019013293487221767,
	"loss": 1.064,
	"step": 2016
	},
	{
	"epoch": 0.15556733317272947,
	"grad_norm": 0.11500216275453568,
	"learning_rate": 0.0001901226298433636,
	"loss": 1.1196,
	"step": 2018
	},
	{
	"epoch": 0.15572151288846062,
	"grad_norm": 0.12341683357954025,
	"learning_rate": 0.0001901123248145095,
	"loss": 1.0625,
	"step": 2020
	},
	{
	"epoch": 0.15587569260419176,
	"grad_norm": 0.1390669196844101,
	"learning_rate": 0.00019010201978565542,
	"loss": 1.0526,
	"step": 2022
	},
	{
	"epoch": 0.1560298723199229,
	"grad_norm": 0.13482992351055145,
	"learning_rate": 0.00019009171475680133,
	"loss": 1.1074,
	"step": 2024
	},
	{
	"epoch": 0.15618405203565405,
	"grad_norm": 0.12277045845985413,
	"learning_rate": 0.00019008140972794725,
	"loss": 1.0648,
	"step": 2026
	},
	{
	"epoch": 0.1563382317513852,
	"grad_norm": 0.13579949736595154,
	"learning_rate": 0.00019007110469909316,
	"loss": 1.1235,
	"step": 2028
	},
	{
	"epoch": 0.15649241146711637,
	"grad_norm": 0.14128637313842773,
	"learning_rate": 0.00019006079967023908,
	"loss": 1.0442,
	"step": 2030
	},
	{
	"epoch": 0.15664659118284752,
	"grad_norm": 0.13722474873065948,
	"learning_rate": 0.000190050494641385,
	"loss": 1.1215,
	"step": 2032
	},
	{
	"epoch": 0.15680077089857866,
	"grad_norm": 0.13500674068927765,
	"learning_rate": 0.0001900401896125309,
	"loss": 1.0776,
	"step": 2034
	},
	{
	"epoch": 0.1569549506143098,
	"grad_norm": 0.11917294561862946,
	"learning_rate": 0.00019002988458367685,
	"loss": 1.0698,
	"step": 2036
	},
	{
	"epoch": 0.15710913033004095,
	"grad_norm": 0.12245581299066544,
	"learning_rate": 0.00019001957955482276,
	"loss": 1.0166,
	"step": 2038
	},
	{
	"epoch": 0.1572633100457721,
	"grad_norm": 0.12556669116020203,
	"learning_rate": 0.00019000927452596868,
	"loss": 1.0846,
	"step": 2040
	},
	{
	"epoch": 0.15741748976150324,
	"grad_norm": 0.13316373527050018,
	"learning_rate": 0.0001899989694971146,
	"loss": 1.0566,
	"step": 2042
	},
	{
	"epoch": 0.1575716694772344,
	"grad_norm": 0.1296815425157547,
	"learning_rate": 0.0001899886644682605,
	"loss": 1.0824,
	"step": 2044
	},
	{
	"epoch": 0.15772584919296556,
	"grad_norm": 0.1288246214389801,
	"learning_rate": 0.00018997835943940645,
	"loss": 1.0974,
	"step": 2046
	},
	{
	"epoch": 0.1578800289086967,
	"grad_norm": 0.1185479462146759,
	"learning_rate": 0.00018996805441055237,
	"loss": 1.1443,
	"step": 2048
	},
	{
	"epoch": 0.15803420862442785,
	"grad_norm": 0.12504369020462036,
	"learning_rate": 0.00018995774938169828,
	"loss": 1.0899,
	"step": 2050
	},
	{
	"epoch": 0.158188388340159,
	"grad_norm": 0.1266452521085739,
	"learning_rate": 0.0001899474443528442,
	"loss": 1.0654,
	"step": 2052
	},
	{
	"epoch": 0.15834256805589014,
	"grad_norm": 0.13447126746177673,
	"learning_rate": 0.0001899371393239901,
	"loss": 1.0649,
	"step": 2054
	},
	{
	"epoch": 0.1584967477716213,
	"grad_norm": 0.1446131467819214,
	"learning_rate": 0.00018992683429513603,
	"loss": 1.1439,
	"step": 2056
	},
	{
	"epoch": 0.15865092748735243,
	"grad_norm": 0.12688389420509338,
	"learning_rate": 0.00018991652926628197,
	"loss": 1.0262,
	"step": 2058
	},
	{
	"epoch": 0.1588051072030836,
	"grad_norm": 0.12581713497638702,
	"learning_rate": 0.00018990622423742788,
	"loss": 1.0723,
	"step": 2060
	},
	{
	"epoch": 0.15895928691881475,
	"grad_norm": 0.15745951235294342,
	"learning_rate": 0.0001898959192085738,
	"loss": 1.1038,
	"step": 2062
	},
	{
	"epoch": 0.1591134666345459,
	"grad_norm": 0.14457587897777557,
	"learning_rate": 0.0001898856141797197,
	"loss": 1.1072,
	"step": 2064
	},
	{
	"epoch": 0.15926764635027704,
	"grad_norm": 0.11454683542251587,
	"learning_rate": 0.00018987530915086563,
	"loss": 1.0605,
	"step": 2066
	},
	{
	"epoch": 0.1594218260660082,
	"grad_norm": 0.1137547716498375,
	"learning_rate": 0.00018986500412201157,
	"loss": 1.0405,
	"step": 2068
	},
	{
	"epoch": 0.15957600578173933,
	"grad_norm": 0.1220378428697586,
	"learning_rate": 0.00018985469909315748,
	"loss": 1.086,
	"step": 2070
	},
	{
	"epoch": 0.15973018549747048,
	"grad_norm": 0.13579098880290985,
	"learning_rate": 0.0001898443940643034,
	"loss": 1.0334,
	"step": 2072
	},
	{
	"epoch": 0.15988436521320165,
	"grad_norm": 0.1529407948255539,
	"learning_rate": 0.00018983408903544931,
	"loss": 1.0614,
	"step": 2074
	},
	{
	"epoch": 0.1600385449289328,
	"grad_norm": 0.13769444823265076,
	"learning_rate": 0.00018982378400659523,
	"loss": 1.1212,
	"step": 2076
	},
	{
	"epoch": 0.16019272464466394,
	"grad_norm": 0.12095335125923157,
	"learning_rate": 0.00018981347897774114,
	"loss": 1.047,
	"step": 2078
	},
	{
	"epoch": 0.1603469043603951,
	"grad_norm": 0.12483233958482742,
	"learning_rate": 0.00018980317394888706,
	"loss": 1.0808,
	"step": 2080
	},
	{
	"epoch": 0.16050108407612623,
	"grad_norm": 0.12451382726430893,
	"learning_rate": 0.00018979286892003297,
	"loss": 1.1259,
	"step": 2082
	},
	{
	"epoch": 0.16065526379185738,
	"grad_norm": 0.12540730834007263,
	"learning_rate": 0.0001897825638911789,
	"loss": 1.0761,
	"step": 2084
	},
	{
	"epoch": 0.16080944350758852,
	"grad_norm": 0.12948516011238098,
	"learning_rate": 0.0001897722588623248,
	"loss": 1.0621,
	"step": 2086
	},
	{
	"epoch": 0.16096362322331967,
	"grad_norm": 0.1349886953830719,
	"learning_rate": 0.00018976195383347075,
	"loss": 1.0549,
	"step": 2088
	},
	{
	"epoch": 0.16111780293905084,
	"grad_norm": 0.1249813437461853,
	"learning_rate": 0.00018975164880461666,
	"loss": 1.0828,
	"step": 2090
	},
	{
	"epoch": 0.161271982654782,
	"grad_norm": 0.1299104243516922,
	"learning_rate": 0.00018974134377576258,
	"loss": 1.097,
	"step": 2092
	},
	{
	"epoch": 0.16142616237051313,
	"grad_norm": 0.13004744052886963,
	"learning_rate": 0.0001897310387469085,
	"loss": 1.0417,
	"step": 2094
	},
	{
	"epoch": 0.16158034208624428,
	"grad_norm": 0.11553830653429031,
	"learning_rate": 0.0001897207337180544,
	"loss": 1.0563,
	"step": 2096
	},
	{
	"epoch": 0.16173452180197542,
	"grad_norm": 0.12000396102666855,
	"learning_rate": 0.00018971042868920035,
	"loss": 1.077,
	"step": 2098
	},
	{
	"epoch": 0.16188870151770657,
	"grad_norm": 0.13707685470581055,
	"learning_rate": 0.00018970012366034626,
	"loss": 1.0994,
	"step": 2100
	},
	{
	"epoch": 0.16188870151770657,
	"eval_loss": 1.0858707427978516,
	"eval_runtime": 185.7188,
	"eval_samples_per_second": 91.229,
	"eval_steps_per_second": 1.427,
	"step": 2100
	}
	],
	"logging_steps": 2,
	"max_steps": 38916,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 100,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 7.132999221824717e+18,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}