trainer_state.json · botbot-ai/CabraQwen7b at 36726daffaa8a76ecb97ebd13a600de35599de05

CabraQwen7b / trainer_state.json

Upload folder using huggingface_hub

36726da verified 9 months ago

91.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.999207397622193,
	"eval_steps": 500,
	"global_step": 2838,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 54.60578280011217,
	"learning_rate": 3.4482758620689656e-07,
	"loss": 2.0852,
	"step": 1
	},
	{
	"epoch": 0.01,
	"grad_norm": 42.54745106429926,
	"learning_rate": 1.724137931034483e-06,
	"loss": 2.0381,
	"step": 5
	},
	{
	"epoch": 0.01,
	"grad_norm": 9.212853479586382,
	"learning_rate": 3.448275862068966e-06,
	"loss": 1.6632,
	"step": 10
	},
	{
	"epoch": 0.02,
	"grad_norm": 5.314912275996213,
	"learning_rate": 5.172413793103449e-06,
	"loss": 1.3468,
	"step": 15
	},
	{
	"epoch": 0.02,
	"grad_norm": 4.03433890035307,
	"learning_rate": 6.896551724137932e-06,
	"loss": 1.2538,
	"step": 20
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.6447411660183016,
	"learning_rate": 8.620689655172414e-06,
	"loss": 1.2604,
	"step": 25
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.1857065034640795,
	"learning_rate": 9.999996872939885e-06,
	"loss": 1.1935,
	"step": 30
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.7526909326796276,
	"learning_rate": 9.999887426246524e-06,
	"loss": 1.1939,
	"step": 35
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.5378704654179458,
	"learning_rate": 9.999621630458743e-06,
	"loss": 1.1626,
	"step": 40
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.3071739468687105,
	"learning_rate": 9.999199493888118e-06,
	"loss": 1.122,
	"step": 45
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.1982413397341172,
	"learning_rate": 9.998621029735082e-06,
	"loss": 1.1191,
	"step": 50
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.0956550608235818,
	"learning_rate": 9.997886256088507e-06,
	"loss": 1.123,
	"step": 55
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.0821639142212824,
	"learning_rate": 9.996995195925152e-06,
	"loss": 1.0751,
	"step": 60
	},
	{
	"epoch": 0.07,
	"grad_norm": 1.0865870956103822,
	"learning_rate": 9.995947877108933e-06,
	"loss": 1.114,
	"step": 65
	},
	{
	"epoch": 0.07,
	"grad_norm": 1.0582468505041362,
	"learning_rate": 9.99474433239006e-06,
	"loss": 1.0609,
	"step": 70
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.0556893008132,
	"learning_rate": 9.993384599404001e-06,
	"loss": 1.0861,
	"step": 75
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.053104954690895,
	"learning_rate": 9.991868720670322e-06,
	"loss": 1.0792,
	"step": 80
	},
	{
	"epoch": 0.09,
	"grad_norm": 1.069931327549148,
	"learning_rate": 9.990196743591341e-06,
	"loss": 1.0722,
	"step": 85
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.0793525694046096,
	"learning_rate": 9.988368720450656e-06,
	"loss": 1.0561,
	"step": 90
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.0449093375062701,
	"learning_rate": 9.986384708411507e-06,
	"loss": 1.0675,
	"step": 95
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.9947694351867048,
	"learning_rate": 9.984244769514988e-06,
	"loss": 1.0395,
	"step": 100
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.0281907914775885,
	"learning_rate": 9.981948970678107e-06,
	"loss": 1.0455,
	"step": 105
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.0429607059919377,
	"learning_rate": 9.979497383691695e-06,
	"loss": 1.014,
	"step": 110
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.1551790238118493,
	"learning_rate": 9.976890085218157e-06,
	"loss": 1.0335,
	"step": 115
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.0958017153997939,
	"learning_rate": 9.974127156789082e-06,
	"loss": 1.0566,
	"step": 120
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.0545164230640043,
	"learning_rate": 9.971208684802686e-06,
	"loss": 1.0234,
	"step": 125
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.1119539198620567,
	"learning_rate": 9.968134760521114e-06,
	"loss": 0.9956,
	"step": 130
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.045532676163788,
	"learning_rate": 9.964905480067585e-06,
	"loss": 1.0103,
	"step": 135
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.0818099938062198,
	"learning_rate": 9.96152094442339e-06,
	"loss": 0.987,
	"step": 140
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.06916616510137,
	"learning_rate": 9.957981259424724e-06,
	"loss": 1.0189,
	"step": 145
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.1000812098052206,
	"learning_rate": 9.954286535759394e-06,
	"loss": 1.0025,
	"step": 150
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.0740685860653156,
	"learning_rate": 9.950436888963337e-06,
	"loss": 1.0394,
	"step": 155
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.0578416601226404,
	"learning_rate": 9.946432439417021e-06,
	"loss": 1.0419,
	"step": 160
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.1378367934770748,
	"learning_rate": 9.942273312341679e-06,
	"loss": 1.04,
	"step": 165
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.106141894903122,
	"learning_rate": 9.937959637795389e-06,
	"loss": 1.0112,
	"step": 170
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.0459501547982482,
	"learning_rate": 9.93349155066901e-06,
	"loss": 0.9959,
	"step": 175
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.1420602608538855,
	"learning_rate": 9.928869190681964e-06,
	"loss": 0.9952,
	"step": 180
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.0748374838181862,
	"learning_rate": 9.924092702377863e-06,
	"loss": 1.0094,
	"step": 185
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.0535011085546289,
	"learning_rate": 9.919162235119996e-06,
	"loss": 1.0054,
	"step": 190
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.0310625793824704,
	"learning_rate": 9.91407794308665e-06,
	"loss": 1.0117,
	"step": 195
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.0359842004906923,
	"learning_rate": 9.908839985266297e-06,
	"loss": 0.9982,
	"step": 200
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.084059570369228,
	"learning_rate": 9.903448525452618e-06,
	"loss": 1.0127,
	"step": 205
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.1227120329409497,
	"learning_rate": 9.89790373223938e-06,
	"loss": 1.048,
	"step": 210
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.0615021518173307,
	"learning_rate": 9.892205779015167e-06,
	"loss": 1.0021,
	"step": 215
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.070318683802529,
	"learning_rate": 9.886354843957953e-06,
	"loss": 1.0043,
	"step": 220
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.0419755132096296,
	"learning_rate": 9.88035111002954e-06,
	"loss": 0.9743,
	"step": 225
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.1796172322040084,
	"learning_rate": 9.874194764969827e-06,
	"loss": 0.9957,
	"step": 230
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.0933963352790785,
	"learning_rate": 9.867886001290943e-06,
	"loss": 0.9814,
	"step": 235
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.1066280030775704,
	"learning_rate": 9.861425016271227e-06,
	"loss": 0.9832,
	"step": 240
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.1138948008724274,
	"learning_rate": 9.854812011949059e-06,
	"loss": 0.9871,
	"step": 245
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.0644401239508805,
	"learning_rate": 9.848047195116543e-06,
	"loss": 0.9951,
	"step": 250
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.1880183474724784,
	"learning_rate": 9.841130777313039e-06,
	"loss": 0.9902,
	"step": 255
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.0747113009717828,
	"learning_rate": 9.834062974818547e-06,
	"loss": 0.9433,
	"step": 260
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.1442114734348945,
	"learning_rate": 9.826844008646949e-06,
	"loss": 0.9703,
	"step": 265
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.0895758630826766,
	"learning_rate": 9.81947410453909e-06,
	"loss": 1.0236,
	"step": 270
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.996075250542336,
	"learning_rate": 9.811953492955728e-06,
	"loss": 0.9577,
	"step": 275
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.1734623195649692,
	"learning_rate": 9.80428240907032e-06,
	"loss": 0.9752,
	"step": 280
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.282701051609298,
	"learning_rate": 9.796461092761668e-06,
	"loss": 0.987,
	"step": 285
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.0721992980205135,
	"learning_rate": 9.788489788606423e-06,
	"loss": 0.944,
	"step": 290
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.105694230535082,
	"learning_rate": 9.780368745871438e-06,
	"loss": 0.9804,
	"step": 295
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.1121587653939105,
	"learning_rate": 9.772098218505963e-06,
	"loss": 1.0099,
	"step": 300
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.1073177873687883,
	"learning_rate": 9.763678465133712e-06,
	"loss": 0.9887,
	"step": 305
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.1986141459298305,
	"learning_rate": 9.755109749044781e-06,
	"loss": 0.9749,
	"step": 310
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.0864391212895972,
	"learning_rate": 9.7463923381874e-06,
	"loss": 0.9767,
	"step": 315
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.0595953209575595,
	"learning_rate": 9.737526505159564e-06,
	"loss": 0.9297,
	"step": 320
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.083224438455533,
	"learning_rate": 9.728512527200509e-06,
	"loss": 0.9498,
	"step": 325
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.1306776282190978,
	"learning_rate": 9.719350686182041e-06,
	"loss": 0.982,
	"step": 330
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.07939319367538,
	"learning_rate": 9.710041268599718e-06,
	"loss": 0.9669,
	"step": 335
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.1100410279851476,
	"learning_rate": 9.700584565563897e-06,
	"loss": 0.956,
	"step": 340
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.0917533373255544,
	"learning_rate": 9.690980872790627e-06,
	"loss": 0.9878,
	"step": 345
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.1287494016251205,
	"learning_rate": 9.681230490592403e-06,
	"loss": 0.9604,
	"step": 350
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.0366025693971206,
	"learning_rate": 9.671333723868773e-06,
	"loss": 0.9809,
	"step": 355
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.1876939558601538,
	"learning_rate": 9.66129088209681e-06,
	"loss": 0.9324,
	"step": 360
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.1296469706806582,
	"learning_rate": 9.651102279321429e-06,
	"loss": 0.98,
	"step": 365
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.0920615981549329,
	"learning_rate": 9.640768234145563e-06,
	"loss": 0.9474,
	"step": 370
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.045353192143218,
	"learning_rate": 9.630289069720213e-06,
	"loss": 0.9416,
	"step": 375
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.0546831730532094,
	"learning_rate": 9.619665113734327e-06,
	"loss": 0.9583,
	"step": 380
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.120397617115956,
	"learning_rate": 9.608896698404567e-06,
	"loss": 0.9739,
	"step": 385
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.0897789727469696,
	"learning_rate": 9.597984160464908e-06,
	"loss": 0.9882,
	"step": 390
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.0655227440534312,
	"learning_rate": 9.586927841156121e-06,
	"loss": 0.973,
	"step": 395
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.024445190271631,
	"learning_rate": 9.575728086215093e-06,
	"loss": 0.9488,
	"step": 400
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.0957551302719917,
	"learning_rate": 9.564385245864015e-06,
	"loss": 0.9395,
	"step": 405
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.0348921383964815,
	"learning_rate": 9.552899674799438e-06,
	"loss": 0.9618,
	"step": 410
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.1320917241343242,
	"learning_rate": 9.541271732181174e-06,
	"loss": 0.9737,
	"step": 415
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.0955620287950987,
	"learning_rate": 9.52950178162107e-06,
	"loss": 0.9765,
	"step": 420
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.0865957472837047,
	"learning_rate": 9.517590191171638e-06,
	"loss": 0.9402,
	"step": 425
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.0608004961340336,
	"learning_rate": 9.505537333314534e-06,
	"loss": 0.938,
	"step": 430
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.0436288259170787,
	"learning_rate": 9.493343584948931e-06,
	"loss": 0.9495,
	"step": 435
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.0827000850655668,
	"learning_rate": 9.481009327379714e-06,
	"loss": 0.9505,
	"step": 440
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.0958366892000795,
	"learning_rate": 9.46853494630557e-06,
	"loss": 0.9536,
	"step": 445
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.0431220913897328,
	"learning_rate": 9.455920831806917e-06,
	"loss": 0.942,
	"step": 450
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.1372655798293543,
	"learning_rate": 9.443167378333711e-06,
	"loss": 0.9447,
	"step": 455
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.0890187843066097,
	"learning_rate": 9.43027498469311e-06,
	"loss": 0.9291,
	"step": 460
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.128255566030822,
	"learning_rate": 9.41724405403701e-06,
	"loss": 0.9418,
	"step": 465
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.0200134644324146,
	"learning_rate": 9.404074993849421e-06,
	"loss": 0.927,
	"step": 470
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.0912622433950008,
	"learning_rate": 9.390768215933746e-06,
	"loss": 0.943,
	"step": 475
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.1784430852167105,
	"learning_rate": 9.377324136399887e-06,
	"loss": 0.9409,
	"step": 480
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.0732445497397998,
	"learning_rate": 9.36374317565124e-06,
	"loss": 0.9401,
	"step": 485
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.1241973380928443,
	"learning_rate": 9.350025758371554e-06,
	"loss": 0.9188,
	"step": 490
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.0680249447424572,
	"learning_rate": 9.336172313511636e-06,
	"loss": 0.9304,
	"step": 495
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.0400938648362148,
	"learning_rate": 9.322183274275954e-06,
	"loss": 0.9465,
	"step": 500
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.1484166178621282,
	"learning_rate": 9.308059078109078e-06,
	"loss": 0.9431,
	"step": 505
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.0928763685485705,
	"learning_rate": 9.29380016668201e-06,
	"loss": 0.9368,
	"step": 510
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.0470334802413224,
	"learning_rate": 9.279406985878367e-06,
	"loss": 0.9529,
	"step": 515
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.055693577627048,
	"learning_rate": 9.264879985780436e-06,
	"loss": 0.9237,
	"step": 520
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.0582407523485609,
	"learning_rate": 9.250219620655112e-06,
	"loss": 0.9455,
	"step": 525
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.0392740863841614,
	"learning_rate": 9.235426348939674e-06,
	"loss": 0.9866,
	"step": 530
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.087021743413759,
	"learning_rate": 9.220500633227467e-06,
	"loss": 0.9797,
	"step": 535
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.0905659766649087,
	"learning_rate": 9.205442940253426e-06,
	"loss": 0.9231,
	"step": 540
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.0838061353931883,
	"learning_rate": 9.190253740879484e-06,
	"loss": 0.9155,
	"step": 545
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.1721559515157844,
	"learning_rate": 9.174933510079847e-06,
	"loss": 0.9132,
	"step": 550
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.0711291424853389,
	"learning_rate": 9.159482726926147e-06,
	"loss": 0.9368,
	"step": 555
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.0906836737125443,
	"learning_rate": 9.14390187457245e-06,
	"loss": 0.9652,
	"step": 560
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.2147816750505283,
	"learning_rate": 9.128191440240159e-06,
	"loss": 0.922,
	"step": 565
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.0745698856829782,
	"learning_rate": 9.11235191520277e-06,
	"loss": 0.9267,
	"step": 570
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.1107563079565528,
	"learning_rate": 9.096383794770513e-06,
	"loss": 0.9403,
	"step": 575
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.0645734678937102,
	"learning_rate": 9.080287578274866e-06,
	"loss": 0.9149,
	"step": 580
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.1729380707889032,
	"learning_rate": 9.064063769052933e-06,
	"loss": 0.9236,
	"step": 585
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.0634029251400858,
	"learning_rate": 9.047712874431716e-06,
	"loss": 0.9264,
	"step": 590
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.185148731024843,
	"learning_rate": 9.031235405712239e-06,
	"loss": 0.9632,
	"step": 595
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.1238661801404854,
	"learning_rate": 9.014631878153564e-06,
	"loss": 0.9364,
	"step": 600
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.1101591200426506,
	"learning_rate": 8.997902810956682e-06,
	"loss": 0.9121,
	"step": 605
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.1328306862765927,
	"learning_rate": 8.98104872724827e-06,
	"loss": 0.9637,
	"step": 610
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.1182389860600772,
	"learning_rate": 8.964070154064343e-06,
	"loss": 0.9431,
	"step": 615
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.2315329373588069,
	"learning_rate": 8.94696762233376e-06,
	"loss": 0.9261,
	"step": 620
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.0785263989248792,
	"learning_rate": 8.92974166686163e-06,
	"loss": 0.9218,
	"step": 625
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.0293877329539916,
	"learning_rate": 8.912392826312595e-06,
	"loss": 0.9516,
	"step": 630
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.0797961930582287,
	"learning_rate": 8.894921643193966e-06,
	"loss": 0.94,
	"step": 635
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.0052477432214972,
	"learning_rate": 8.877328663838776e-06,
	"loss": 0.9207,
	"step": 640
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.0126272743426095,
	"learning_rate": 8.85961443838869e-06,
	"loss": 0.9292,
	"step": 645
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.0166858946265631,
	"learning_rate": 8.841779520776803e-06,
	"loss": 0.9171,
	"step": 650
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.0674058891203713,
	"learning_rate": 8.823824468710312e-06,
	"loss": 0.9238,
	"step": 655
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.0826543746678357,
	"learning_rate": 8.805749843653086e-06,
	"loss": 0.8903,
	"step": 660
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.0474293060948185,
	"learning_rate": 8.787556210808101e-06,
	"loss": 0.8952,
	"step": 665
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.1092322508696293,
	"learning_rate": 8.769244139099774e-06,
	"loss": 0.9191,
	"step": 670
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.0453618423472522,
	"learning_rate": 8.750814201156157e-06,
	"loss": 0.9287,
	"step": 675
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.0150902528617922,
	"learning_rate": 8.732266973291053e-06,
	"loss": 0.9005,
	"step": 680
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.111573072134849,
	"learning_rate": 8.713603035485972e-06,
	"loss": 0.9061,
	"step": 685
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.0266552996471214,
	"learning_rate": 8.694822971372012e-06,
	"loss": 0.8981,
	"step": 690
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.026959416886306,
	"learning_rate": 8.675927368211599e-06,
	"loss": 0.9119,
	"step": 695
	},
	{
	"epoch": 0.74,
	"grad_norm": 0.990879098356618,
	"learning_rate": 8.656916816880122e-06,
	"loss": 0.934,
	"step": 700
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.016936193517629,
	"learning_rate": 8.637791911847462e-06,
	"loss": 0.9031,
	"step": 705
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.0105346034407392,
	"learning_rate": 8.618553251159405e-06,
	"loss": 0.8918,
	"step": 710
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.0219526658502593,
	"learning_rate": 8.599201436418927e-06,
	"loss": 0.9202,
	"step": 715
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.0611008297726183,
	"learning_rate": 8.579737072767396e-06,
	"loss": 0.8956,
	"step": 720
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.0532525094762688,
	"learning_rate": 8.560160768865642e-06,
	"loss": 0.8782,
	"step": 725
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.0472370063073,
	"learning_rate": 8.540473136874926e-06,
	"loss": 0.9215,
	"step": 730
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.0503901600633805,
	"learning_rate": 8.520674792437793e-06,
	"loss": 0.905,
	"step": 735
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.0699401745712223,
	"learning_rate": 8.50076635465883e-06,
	"loss": 0.8914,
	"step": 740
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.1604934245734189,
	"learning_rate": 8.480748446085293e-06,
	"loss": 0.923,
	"step": 745
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.0575469862405844,
	"learning_rate": 8.460621692687656e-06,
	"loss": 0.91,
	"step": 750
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.1861862918344839,
	"learning_rate": 8.44038672384002e-06,
	"loss": 0.9183,
	"step": 755
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.0866238920331526,
	"learning_rate": 8.420044172300443e-06,
	"loss": 0.9012,
	"step": 760
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.0963030089254635,
	"learning_rate": 8.399594674191147e-06,
	"loss": 0.8867,
	"step": 765
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.0516263694748806,
	"learning_rate": 8.379038868978635e-06,
	"loss": 0.9204,
	"step": 770
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.0602404388082067,
	"learning_rate": 8.358377399453684e-06,
	"loss": 0.8975,
	"step": 775
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.0524212623827451,
	"learning_rate": 8.337610911711248e-06,
	"loss": 0.9182,
	"step": 780
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.0486851629524967,
	"learning_rate": 8.316740055130263e-06,
	"loss": 0.8996,
	"step": 785
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.0382393662171674,
	"learning_rate": 8.295765482353326e-06,
	"loss": 0.8898,
	"step": 790
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.0801053233779676,
	"learning_rate": 8.274687849266295e-06,
	"loss": 0.8942,
	"step": 795
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.082914632918619,
	"learning_rate": 8.253507814977779e-06,
	"loss": 0.9335,
	"step": 800
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.115797305584172,
	"learning_rate": 8.232226041798528e-06,
	"loss": 0.8733,
	"step": 805
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.0758274816242523,
	"learning_rate": 8.210843195220717e-06,
	"loss": 0.9121,
	"step": 810
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.9966437564306923,
	"learning_rate": 8.189359943897137e-06,
	"loss": 0.9126,
	"step": 815
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.1254388184304862,
	"learning_rate": 8.167776959620298e-06,
	"loss": 0.9113,
	"step": 820
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.033615919920944,
	"learning_rate": 8.1460949173014e-06,
	"loss": 0.8863,
	"step": 825
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.0126421627367477,
	"learning_rate": 8.124314494949247e-06,
	"loss": 0.9044,
	"step": 830
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.0545539629522227,
	"learning_rate": 8.102436373649029e-06,
	"loss": 0.8942,
	"step": 835
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.004956283976033,
	"learning_rate": 8.080461237541049e-06,
	"loss": 0.9255,
	"step": 840
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.0862660155528163,
	"learning_rate": 8.0583897737993e-06,
	"loss": 0.9275,
	"step": 845
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.0697124134441602,
	"learning_rate": 8.036222672609994e-06,
	"loss": 0.9161,
	"step": 850
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.0639070724236763,
	"learning_rate": 8.013960627149981e-06,
	"loss": 0.8874,
	"step": 855
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.166900094582672,
	"learning_rate": 7.991604333565062e-06,
	"loss": 0.8897,
	"step": 860
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.1335592965754175,
	"learning_rate": 7.969154490948225e-06,
	"loss": 0.8964,
	"step": 865
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.0520381511921073,
	"learning_rate": 7.946611801317794e-06,
	"loss": 0.8736,
	"step": 870
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.16753848747216,
	"learning_rate": 7.923976969595459e-06,
	"loss": 0.9112,
	"step": 875
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.0772133099773151,
	"learning_rate": 7.901250703584245e-06,
	"loss": 0.9155,
	"step": 880
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.1464686627860388,
	"learning_rate": 7.878433713946373e-06,
	"loss": 0.8962,
	"step": 885
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.0835779136854178,
	"learning_rate": 7.855526714181041e-06,
	"loss": 0.9058,
	"step": 890
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.171366478493349,
	"learning_rate": 7.832530420602113e-06,
	"loss": 0.8756,
	"step": 895
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.040168900901505,
	"learning_rate": 7.809445552315714e-06,
	"loss": 0.8594,
	"step": 900
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.02166560480321,
	"learning_rate": 7.786272831197745e-06,
	"loss": 0.8935,
	"step": 905
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.1107392454183416,
	"learning_rate": 7.763012981871314e-06,
	"loss": 0.904,
	"step": 910
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.9896358057101541,
	"learning_rate": 7.739666731684073e-06,
	"loss": 0.9068,
	"step": 915
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.9788741930391702,
	"learning_rate": 7.716234810685476e-06,
	"loss": 0.8846,
	"step": 920
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.9931045191442167,
	"learning_rate": 7.692717951603942e-06,
	"loss": 0.8584,
	"step": 925
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.0645481368236074,
	"learning_rate": 7.669116889823955e-06,
	"loss": 0.8992,
	"step": 930
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.9816731950451545,
	"learning_rate": 7.645432363363057e-06,
	"loss": 0.8851,
	"step": 935
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.9899142833993008,
	"learning_rate": 7.621665112848776e-06,
	"loss": 0.8845,
	"step": 940
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.0638888300871174,
	"learning_rate": 7.597815881495465e-06,
	"loss": 0.8773,
	"step": 945
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.031662431521578,
	"learning_rate": 7.573885415081059e-06,
	"loss": 0.8258,
	"step": 950
	},
	{
	"epoch": 1.01,
	"grad_norm": 1.040426497974828,
	"learning_rate": 7.54987446192376e-06,
	"loss": 0.7907,
	"step": 955
	},
	{
	"epoch": 1.01,
	"grad_norm": 0.9887566903005512,
	"learning_rate": 7.525783772858624e-06,
	"loss": 0.8091,
	"step": 960
	},
	{
	"epoch": 1.02,
	"grad_norm": 1.0542179478307365,
	"learning_rate": 7.5016141012141e-06,
	"loss": 0.7815,
	"step": 965
	},
	{
	"epoch": 1.03,
	"grad_norm": 1.0738731959256824,
	"learning_rate": 7.477366202788456e-06,
	"loss": 0.7734,
	"step": 970
	},
	{
	"epoch": 1.03,
	"grad_norm": 0.9975806760235982,
	"learning_rate": 7.45304083582616e-06,
	"loss": 0.7824,
	"step": 975
	},
	{
	"epoch": 1.04,
	"grad_norm": 1.005274019925314,
	"learning_rate": 7.4286387609941544e-06,
	"loss": 0.769,
	"step": 980
	},
	{
	"epoch": 1.04,
	"grad_norm": 1.0937329481520819,
	"learning_rate": 7.40416074135808e-06,
	"loss": 0.791,
	"step": 985
	},
	{
	"epoch": 1.05,
	"grad_norm": 0.9987999174071854,
	"learning_rate": 7.379607542358414e-06,
	"loss": 0.7983,
	"step": 990
	},
	{
	"epoch": 1.05,
	"grad_norm": 1.074721973505265,
	"learning_rate": 7.3549799317865235e-06,
	"loss": 0.8264,
	"step": 995
	},
	{
	"epoch": 1.06,
	"grad_norm": 1.0023766389640552,
	"learning_rate": 7.330278679760673e-06,
	"loss": 0.8166,
	"step": 1000
	},
	{
	"epoch": 1.06,
	"grad_norm": 1.0263488491446793,
	"learning_rate": 7.3055045587019315e-06,
	"loss": 0.7756,
	"step": 1005
	},
	{
	"epoch": 1.07,
	"grad_norm": 1.222252310199244,
	"learning_rate": 7.280658343310016e-06,
	"loss": 0.8113,
	"step": 1010
	},
	{
	"epoch": 1.07,
	"grad_norm": 1.0803171037496995,
	"learning_rate": 7.255740810539078e-06,
	"loss": 0.7773,
	"step": 1015
	},
	{
	"epoch": 1.08,
	"grad_norm": 1.0429385720996782,
	"learning_rate": 7.230752739573398e-06,
	"loss": 0.7959,
	"step": 1020
	},
	{
	"epoch": 1.08,
	"grad_norm": 1.0525788357504489,
	"learning_rate": 7.205694911803019e-06,
	"loss": 0.7962,
	"step": 1025
	},
	{
	"epoch": 1.09,
	"grad_norm": 0.986228023483833,
	"learning_rate": 7.18056811079932e-06,
	"loss": 0.79,
	"step": 1030
	},
	{
	"epoch": 1.09,
	"grad_norm": 1.031179895714868,
	"learning_rate": 7.155373122290508e-06,
	"loss": 0.8101,
	"step": 1035
	},
	{
	"epoch": 1.1,
	"grad_norm": 1.0379629517770603,
	"learning_rate": 7.13011073413705e-06,
	"loss": 0.781,
	"step": 1040
	},
	{
	"epoch": 1.1,
	"grad_norm": 1.033153108919124,
	"learning_rate": 7.1047817363070325e-06,
	"loss": 0.8418,
	"step": 1045
	},
	{
	"epoch": 1.11,
	"grad_norm": 1.0357203376239867,
	"learning_rate": 7.079386920851466e-06,
	"loss": 0.8065,
	"step": 1050
	},
	{
	"epoch": 1.11,
	"grad_norm": 1.0540192082846203,
	"learning_rate": 7.053927081879505e-06,
	"loss": 0.7956,
	"step": 1055
	},
	{
	"epoch": 1.12,
	"grad_norm": 1.0552828635725824,
	"learning_rate": 7.0284030155336315e-06,
	"loss": 0.7945,
	"step": 1060
	},
	{
	"epoch": 1.13,
	"grad_norm": 0.9810627289945896,
	"learning_rate": 7.002815519964745e-06,
	"loss": 0.7965,
	"step": 1065
	},
	{
	"epoch": 1.13,
	"grad_norm": 1.0916102744452092,
	"learning_rate": 6.977165395307215e-06,
	"loss": 0.7991,
	"step": 1070
	},
	{
	"epoch": 1.14,
	"grad_norm": 1.1543690326062077,
	"learning_rate": 6.951453443653852e-06,
	"loss": 0.7896,
	"step": 1075
	},
	{
	"epoch": 1.14,
	"grad_norm": 1.1170103600405488,
	"learning_rate": 6.9256804690308276e-06,
	"loss": 0.7828,
	"step": 1080
	},
	{
	"epoch": 1.15,
	"grad_norm": 1.0526733296614392,
	"learning_rate": 6.899847277372538e-06,
	"loss": 0.7923,
	"step": 1085
	},
	{
	"epoch": 1.15,
	"grad_norm": 1.0770254342023697,
	"learning_rate": 6.873954676496395e-06,
	"loss": 0.8128,
	"step": 1090
	},
	{
	"epoch": 1.16,
	"grad_norm": 1.037705594081886,
	"learning_rate": 6.848003476077567e-06,
	"loss": 0.7856,
	"step": 1095
	},
	{
	"epoch": 1.16,
	"grad_norm": 1.0319807068181204,
	"learning_rate": 6.8219944876236645e-06,
	"loss": 0.7949,
	"step": 1100
	},
	{
	"epoch": 1.17,
	"grad_norm": 1.0927555007584646,
	"learning_rate": 6.795928524449354e-06,
	"loss": 0.7941,
	"step": 1105
	},
	{
	"epoch": 1.17,
	"grad_norm": 0.9869897993273156,
	"learning_rate": 6.769806401650936e-06,
	"loss": 0.7667,
	"step": 1110
	},
	{
	"epoch": 1.18,
	"grad_norm": 1.0055956062759406,
	"learning_rate": 6.743628936080852e-06,
	"loss": 0.7855,
	"step": 1115
	},
	{
	"epoch": 1.18,
	"grad_norm": 1.0283367881989096,
	"learning_rate": 6.717396946322137e-06,
	"loss": 0.7745,
	"step": 1120
	},
	{
	"epoch": 1.19,
	"grad_norm": 1.0345829389670045,
	"learning_rate": 6.6911112526628295e-06,
	"loss": 0.7842,
	"step": 1125
	},
	{
	"epoch": 1.19,
	"grad_norm": 1.0711135328845822,
	"learning_rate": 6.664772677070316e-06,
	"loss": 0.7558,
	"step": 1130
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.9877769296594265,
	"learning_rate": 6.638382043165628e-06,
	"loss": 0.7788,
	"step": 1135
	},
	{
	"epoch": 1.2,
	"grad_norm": 1.131836138091609,
	"learning_rate": 6.611940176197688e-06,
	"loss": 0.7901,
	"step": 1140
	},
	{
	"epoch": 1.21,
	"grad_norm": 1.058249641590972,
	"learning_rate": 6.585447903017506e-06,
	"loss": 0.7936,
	"step": 1145
	},
	{
	"epoch": 1.22,
	"grad_norm": 1.073971008814511,
	"learning_rate": 6.558906052052314e-06,
	"loss": 0.7835,
	"step": 1150
	},
	{
	"epoch": 1.22,
	"grad_norm": 1.0491301969369466,
	"learning_rate": 6.532315453279673e-06,
	"loss": 0.7902,
	"step": 1155
	},
	{
	"epoch": 1.23,
	"grad_norm": 1.046297097483487,
	"learning_rate": 6.505676938201512e-06,
	"loss": 0.7767,
	"step": 1160
	},
	{
	"epoch": 1.23,
	"grad_norm": 1.046022517875942,
	"learning_rate": 6.478991339818128e-06,
	"loss": 0.8091,
	"step": 1165
	},
	{
	"epoch": 1.24,
	"grad_norm": 1.0086633248074561,
	"learning_rate": 6.4522594926021355e-06,
	"loss": 0.7797,
	"step": 1170
	},
	{
	"epoch": 1.24,
	"grad_norm": 1.0965955454651117,
	"learning_rate": 6.425482232472377e-06,
	"loss": 0.7702,
	"step": 1175
	},
	{
	"epoch": 1.25,
	"grad_norm": 1.0362189192150881,
	"learning_rate": 6.3986603967677805e-06,
	"loss": 0.7931,
	"step": 1180
	},
	{
	"epoch": 1.25,
	"grad_norm": 1.110468197330772,
	"learning_rate": 6.371794824221173e-06,
	"loss": 0.7917,
	"step": 1185
	},
	{
	"epoch": 1.26,
	"grad_norm": 1.0163659020071605,
	"learning_rate": 6.344886354933058e-06,
	"loss": 0.7886,
	"step": 1190
	},
	{
	"epoch": 1.26,
	"grad_norm": 1.0115549227695064,
	"learning_rate": 6.3179358303453386e-06,
	"loss": 0.7511,
	"step": 1195
	},
	{
	"epoch": 1.27,
	"grad_norm": 1.0872016119161863,
	"learning_rate": 6.290944093215016e-06,
	"loss": 0.8036,
	"step": 1200
	},
	{
	"epoch": 1.27,
	"grad_norm": 1.0553500518484338,
	"learning_rate": 6.263911987587822e-06,
	"loss": 0.7938,
	"step": 1205
	},
	{
	"epoch": 1.28,
	"grad_norm": 0.993815270148442,
	"learning_rate": 6.236840358771837e-06,
	"loss": 0.7788,
	"step": 1210
	},
	{
	"epoch": 1.28,
	"grad_norm": 1.0605675582324252,
	"learning_rate": 6.20973005331105e-06,
	"loss": 0.7781,
	"step": 1215
	},
	{
	"epoch": 1.29,
	"grad_norm": 1.0965085071552372,
	"learning_rate": 6.1825819189588885e-06,
	"loss": 0.7872,
	"step": 1220
	},
	{
	"epoch": 1.29,
	"grad_norm": 1.040866195350916,
	"learning_rate": 6.155396804651714e-06,
	"loss": 0.7966,
	"step": 1225
	},
	{
	"epoch": 1.3,
	"grad_norm": 1.0593376609536802,
	"learning_rate": 6.128175560482264e-06,
	"loss": 0.7832,
	"step": 1230
	},
	{
	"epoch": 1.31,
	"grad_norm": 1.0081718313330637,
	"learning_rate": 6.1009190376730785e-06,
	"loss": 0.7772,
	"step": 1235
	},
	{
	"epoch": 1.31,
	"grad_norm": 0.9892554397828908,
	"learning_rate": 6.07362808854988e-06,
	"loss": 0.7856,
	"step": 1240
	},
	{
	"epoch": 1.32,
	"grad_norm": 1.0515874983049542,
	"learning_rate": 6.046303566514919e-06,
	"loss": 0.7812,
	"step": 1245
	},
	{
	"epoch": 1.32,
	"grad_norm": 1.01738547568124,
	"learning_rate": 6.018946326020287e-06,
	"loss": 0.7824,
	"step": 1250
	},
	{
	"epoch": 1.33,
	"grad_norm": 0.992994982201507,
	"learning_rate": 5.991557222541201e-06,
	"loss": 0.7842,
	"step": 1255
	},
	{
	"epoch": 1.33,
	"grad_norm": 0.9928822859609259,
	"learning_rate": 5.964137112549251e-06,
	"loss": 0.7906,
	"step": 1260
	},
	{
	"epoch": 1.34,
	"grad_norm": 1.0673862770846931,
	"learning_rate": 5.9366868534856115e-06,
	"loss": 0.7896,
	"step": 1265
	},
	{
	"epoch": 1.34,
	"grad_norm": 1.0627251705995355,
	"learning_rate": 5.909207303734241e-06,
	"loss": 0.7965,
	"step": 1270
	},
	{
	"epoch": 1.35,
	"grad_norm": 1.0050051635503012,
	"learning_rate": 5.881699322595031e-06,
	"loss": 0.7775,
	"step": 1275
	},
	{
	"epoch": 1.35,
	"grad_norm": 1.0049258262531797,
	"learning_rate": 5.854163770256934e-06,
	"loss": 0.7659,
	"step": 1280
	},
	{
	"epoch": 1.36,
	"grad_norm": 1.1097225296353777,
	"learning_rate": 5.826601507771073e-06,
	"loss": 0.7699,
	"step": 1285
	},
	{
	"epoch": 1.36,
	"grad_norm": 1.0610730723756006,
	"learning_rate": 5.799013397023806e-06,
	"loss": 0.7996,
	"step": 1290
	},
	{
	"epoch": 1.37,
	"grad_norm": 1.0285633823079718,
	"learning_rate": 5.771400300709785e-06,
	"loss": 0.7829,
	"step": 1295
	},
	{
	"epoch": 1.37,
	"grad_norm": 1.0484599021027985,
	"learning_rate": 5.743763082304973e-06,
	"loss": 0.7619,
	"step": 1300
	},
	{
	"epoch": 1.38,
	"grad_norm": 1.0137701786577156,
	"learning_rate": 5.7161026060396375e-06,
	"loss": 0.798,
	"step": 1305
	},
	{
	"epoch": 1.38,
	"grad_norm": 1.0289414598602742,
	"learning_rate": 5.688419736871341e-06,
	"loss": 0.7827,
	"step": 1310
	},
	{
	"epoch": 1.39,
	"grad_norm": 1.058376335913828,
	"learning_rate": 5.660715340457874e-06,
	"loss": 0.7921,
	"step": 1315
	},
	{
	"epoch": 1.39,
	"grad_norm": 1.0011219088912342,
	"learning_rate": 5.632990283130204e-06,
	"loss": 0.781,
	"step": 1320
	},
	{
	"epoch": 1.4,
	"grad_norm": 0.984264955084216,
	"learning_rate": 5.605245431865368e-06,
	"loss": 0.7772,
	"step": 1325
	},
	{
	"epoch": 1.41,
	"grad_norm": 1.0151072044919451,
	"learning_rate": 5.577481654259377e-06,
	"loss": 0.7735,
	"step": 1330
	},
	{
	"epoch": 1.41,
	"grad_norm": 1.063533843295668,
	"learning_rate": 5.549699818500074e-06,
	"loss": 0.7682,
	"step": 1335
	},
	{
	"epoch": 1.42,
	"grad_norm": 1.0434635789190496,
	"learning_rate": 5.521900793339989e-06,
	"loss": 0.7915,
	"step": 1340
	},
	{
	"epoch": 1.42,
	"grad_norm": 1.0587561050751115,
	"learning_rate": 5.494085448069181e-06,
	"loss": 0.7997,
	"step": 1345
	},
	{
	"epoch": 1.43,
	"grad_norm": 1.0758864296233028,
	"learning_rate": 5.466254652488036e-06,
	"loss": 0.7964,
	"step": 1350
	},
	{
	"epoch": 1.43,
	"grad_norm": 1.0556751372323996,
	"learning_rate": 5.438409276880089e-06,
	"loss": 0.8062,
	"step": 1355
	},
	{
	"epoch": 1.44,
	"grad_norm": 0.9792859835280993,
	"learning_rate": 5.410550191984798e-06,
	"loss": 0.787,
	"step": 1360
	},
	{
	"epoch": 1.44,
	"grad_norm": 1.0231438624972786,
	"learning_rate": 5.3826782689703115e-06,
	"loss": 0.7803,
	"step": 1365
	},
	{
	"epoch": 1.45,
	"grad_norm": 1.0660534726358564,
	"learning_rate": 5.354794379406242e-06,
	"loss": 0.78,
	"step": 1370
	},
	{
	"epoch": 1.45,
	"grad_norm": 0.9527414539128428,
	"learning_rate": 5.3268993952363936e-06,
	"loss": 0.796,
	"step": 1375
	},
	{
	"epoch": 1.46,
	"grad_norm": 0.9870931434726852,
	"learning_rate": 5.29899418875151e-06,
	"loss": 0.7652,
	"step": 1380
	},
	{
	"epoch": 1.46,
	"grad_norm": 1.0537299945885146,
	"learning_rate": 5.271079632561992e-06,
	"loss": 0.7854,
	"step": 1385
	},
	{
	"epoch": 1.47,
	"grad_norm": 1.1396368040574916,
	"learning_rate": 5.243156599570606e-06,
	"loss": 0.7617,
	"step": 1390
	},
	{
	"epoch": 1.47,
	"grad_norm": 1.0924704024745873,
	"learning_rate": 5.2152259629451986e-06,
	"loss": 0.7713,
	"step": 1395
	},
	{
	"epoch": 1.48,
	"grad_norm": 1.021493417245078,
	"learning_rate": 5.18728859609138e-06,
	"loss": 0.7609,
	"step": 1400
	},
	{
	"epoch": 1.48,
	"grad_norm": 1.0148194958691719,
	"learning_rate": 5.159345372625223e-06,
	"loss": 0.7788,
	"step": 1405
	},
	{
	"epoch": 1.49,
	"grad_norm": 1.0402765811164951,
	"learning_rate": 5.131397166345938e-06,
	"loss": 0.7599,
	"step": 1410
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.9966250584272072,
	"learning_rate": 5.103444851208549e-06,
	"loss": 0.7874,
	"step": 1415
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.9871275158697829,
	"learning_rate": 5.075489301296567e-06,
	"loss": 0.7566,
	"step": 1420
	},
	{
	"epoch": 1.51,
	"grad_norm": 1.0896451679213162,
	"learning_rate": 5.047531390794661e-06,
	"loss": 0.7699,
	"step": 1425
	},
	{
	"epoch": 1.51,
	"grad_norm": 1.1203863877988638,
	"learning_rate": 5.019571993961307e-06,
	"loss": 0.8088,
	"step": 1430
	},
	{
	"epoch": 1.52,
	"grad_norm": 1.03311513179617,
	"learning_rate": 4.9916119851014664e-06,
	"loss": 0.7739,
	"step": 1435
	},
	{
	"epoch": 1.52,
	"grad_norm": 1.0389351009988612,
	"learning_rate": 4.96365223853924e-06,
	"loss": 0.7816,
	"step": 1440
	},
	{
	"epoch": 1.53,
	"grad_norm": 0.9960641498632878,
	"learning_rate": 4.93569362859052e-06,
	"loss": 0.775,
	"step": 1445
	},
	{
	"epoch": 1.53,
	"grad_norm": 0.9388823495229471,
	"learning_rate": 4.907737029535664e-06,
	"loss": 0.756,
	"step": 1450
	},
	{
	"epoch": 1.54,
	"grad_norm": 1.0662538022442485,
	"learning_rate": 4.8797833155921396e-06,
	"loss": 0.7992,
	"step": 1455
	},
	{
	"epoch": 1.54,
	"grad_norm": 1.0350212904727674,
	"learning_rate": 4.8518333608872015e-06,
	"loss": 0.7595,
	"step": 1460
	},
	{
	"epoch": 1.55,
	"grad_norm": 0.9967538128228846,
	"learning_rate": 4.823888039430551e-06,
	"loss": 0.7582,
	"step": 1465
	},
	{
	"epoch": 1.55,
	"grad_norm": 1.0139079612075497,
	"learning_rate": 4.795948225087001e-06,
	"loss": 0.7709,
	"step": 1470
	},
	{
	"epoch": 1.56,
	"grad_norm": 1.0510044388149635,
	"learning_rate": 4.7680147915491585e-06,
	"loss": 0.7692,
	"step": 1475
	},
	{
	"epoch": 1.56,
	"grad_norm": 1.0641353890612333,
	"learning_rate": 4.740088612310096e-06,
	"loss": 0.7847,
	"step": 1480
	},
	{
	"epoch": 1.57,
	"grad_norm": 1.0192435995305715,
	"learning_rate": 4.7121705606360424e-06,
	"loss": 0.7732,
	"step": 1485
	},
	{
	"epoch": 1.57,
	"grad_norm": 1.0076325415256413,
	"learning_rate": 4.684261509539072e-06,
	"loss": 0.7701,
	"step": 1490
	},
	{
	"epoch": 1.58,
	"grad_norm": 0.9707102286396411,
	"learning_rate": 4.65636233174981e-06,
	"loss": 0.77,
	"step": 1495
	},
	{
	"epoch": 1.59,
	"grad_norm": 1.0835636202474823,
	"learning_rate": 4.628473899690133e-06,
	"loss": 0.7849,
	"step": 1500
	},
	{
	"epoch": 1.59,
	"grad_norm": 1.0157410126136626,
	"learning_rate": 4.600597085445894e-06,
	"loss": 0.784,
	"step": 1505
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.0616186913926178,
	"learning_rate": 4.572732760739653e-06,
	"loss": 0.7785,
	"step": 1510
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.006516145178769,
	"learning_rate": 4.5448817969034165e-06,
	"loss": 0.7753,
	"step": 1515
	},
	{
	"epoch": 1.61,
	"grad_norm": 1.0480529823653495,
	"learning_rate": 4.517045064851386e-06,
	"loss": 0.7989,
	"step": 1520
	},
	{
	"epoch": 1.61,
	"grad_norm": 1.0432567441250045,
	"learning_rate": 4.489223435052732e-06,
	"loss": 0.7946,
	"step": 1525
	},
	{
	"epoch": 1.62,
	"grad_norm": 1.0461342178531015,
	"learning_rate": 4.461417777504363e-06,
	"loss": 0.7676,
	"step": 1530
	},
	{
	"epoch": 1.62,
	"grad_norm": 1.0045382622138492,
	"learning_rate": 4.433628961703733e-06,
	"loss": 0.7651,
	"step": 1535
	},
	{
	"epoch": 1.63,
	"grad_norm": 0.9890094489435823,
	"learning_rate": 4.405857856621644e-06,
	"loss": 0.7943,
	"step": 1540
	},
	{
	"epoch": 1.63,
	"grad_norm": 1.0127639919495397,
	"learning_rate": 4.378105330675074e-06,
	"loss": 0.7895,
	"step": 1545
	},
	{
	"epoch": 1.64,
	"grad_norm": 1.0398544121817734,
	"learning_rate": 4.350372251700025e-06,
	"loss": 0.8004,
	"step": 1550
	},
	{
	"epoch": 1.64,
	"grad_norm": 1.037857459368961,
	"learning_rate": 4.322659486924373e-06,
	"loss": 0.7963,
	"step": 1555
	},
	{
	"epoch": 1.65,
	"grad_norm": 1.106103919813531,
	"learning_rate": 4.294967902940768e-06,
	"loss": 0.787,
	"step": 1560
	},
	{
	"epoch": 1.65,
	"grad_norm": 1.0865617469424886,
	"learning_rate": 4.267298365679522e-06,
	"loss": 0.788,
	"step": 1565
	},
	{
	"epoch": 1.66,
	"grad_norm": 1.0303226290700802,
	"learning_rate": 4.239651740381534e-06,
	"loss": 0.7642,
	"step": 1570
	},
	{
	"epoch": 1.66,
	"grad_norm": 1.0512505166055992,
	"learning_rate": 4.212028891571237e-06,
	"loss": 0.7832,
	"step": 1575
	},
	{
	"epoch": 1.67,
	"grad_norm": 1.0750316874597787,
	"learning_rate": 4.184430683029552e-06,
	"loss": 0.7599,
	"step": 1580
	},
	{
	"epoch": 1.68,
	"grad_norm": 1.0622608820174235,
	"learning_rate": 4.156857977766896e-06,
	"loss": 0.7841,
	"step": 1585
	},
	{
	"epoch": 1.68,
	"grad_norm": 1.0023528643121005,
	"learning_rate": 4.129311637996182e-06,
	"loss": 0.7845,
	"step": 1590
	},
	{
	"epoch": 1.69,
	"grad_norm": 1.0597451506484419,
	"learning_rate": 4.101792525105857e-06,
	"loss": 0.7802,
	"step": 1595
	},
	{
	"epoch": 1.69,
	"grad_norm": 0.9622973096022323,
	"learning_rate": 4.0743014996329764e-06,
	"loss": 0.7678,
	"step": 1600
	},
	{
	"epoch": 1.7,
	"grad_norm": 1.051095411122212,
	"learning_rate": 4.046839421236276e-06,
	"loss": 0.7972,
	"step": 1605
	},
	{
	"epoch": 1.7,
	"grad_norm": 1.0082128589578265,
	"learning_rate": 4.019407148669312e-06,
	"loss": 0.7948,
	"step": 1610
	},
	{
	"epoch": 1.71,
	"grad_norm": 1.0901759578931909,
	"learning_rate": 3.992005539753592e-06,
	"loss": 0.7914,
	"step": 1615
	},
	{
	"epoch": 1.71,
	"grad_norm": 1.0584302499373435,
	"learning_rate": 3.964635451351758e-06,
	"loss": 0.7821,
	"step": 1620
	},
	{
	"epoch": 1.72,
	"grad_norm": 1.043189384648134,
	"learning_rate": 3.937297739340783e-06,
	"loss": 0.778,
	"step": 1625
	},
	{
	"epoch": 1.72,
	"grad_norm": 1.0245392793145456,
	"learning_rate": 3.909993258585219e-06,
	"loss": 0.7908,
	"step": 1630
	},
	{
	"epoch": 1.73,
	"grad_norm": 1.0082519645854728,
	"learning_rate": 3.882722862910458e-06,
	"loss": 0.7793,
	"step": 1635
	},
	{
	"epoch": 1.73,
	"grad_norm": 1.0211341337802105,
	"learning_rate": 3.8554874050760345e-06,
	"loss": 0.8042,
	"step": 1640
	},
	{
	"epoch": 1.74,
	"grad_norm": 0.9920127978660441,
	"learning_rate": 3.828287736748957e-06,
	"loss": 0.758,
	"step": 1645
	},
	{
	"epoch": 1.74,
	"grad_norm": 1.0187229111502758,
	"learning_rate": 3.8011247084770754e-06,
	"loss": 0.7986,
	"step": 1650
	},
	{
	"epoch": 1.75,
	"grad_norm": 0.9982295207578855,
	"learning_rate": 3.773999169662489e-06,
	"loss": 0.7623,
	"step": 1655
	},
	{
	"epoch": 1.75,
	"grad_norm": 1.025180441312379,
	"learning_rate": 3.746911968534982e-06,
	"loss": 0.7454,
	"step": 1660
	},
	{
	"epoch": 1.76,
	"grad_norm": 0.9884338430346545,
	"learning_rate": 3.7198639521254988e-06,
	"loss": 0.7671,
	"step": 1665
	},
	{
	"epoch": 1.76,
	"grad_norm": 0.9685352318412103,
	"learning_rate": 3.6928559662396574e-06,
	"loss": 0.7583,
	"step": 1670
	},
	{
	"epoch": 1.77,
	"grad_norm": 1.029404957630594,
	"learning_rate": 3.6658888554312967e-06,
	"loss": 0.7868,
	"step": 1675
	},
	{
	"epoch": 1.78,
	"grad_norm": 0.9921023940146521,
	"learning_rate": 3.6389634629760763e-06,
	"loss": 0.7555,
	"step": 1680
	},
	{
	"epoch": 1.78,
	"grad_norm": 1.017350986680598,
	"learning_rate": 3.612080630845096e-06,
	"loss": 0.7905,
	"step": 1685
	},
	{
	"epoch": 1.79,
	"grad_norm": 1.0430603602540587,
	"learning_rate": 3.5852411996785776e-06,
	"loss": 0.7947,
	"step": 1690
	},
	{
	"epoch": 1.79,
	"grad_norm": 0.9737056004061376,
	"learning_rate": 3.558446008759569e-06,
	"loss": 0.7789,
	"step": 1695
	},
	{
	"epoch": 1.8,
	"grad_norm": 1.0212119960635129,
	"learning_rate": 3.5316958959876985e-06,
	"loss": 0.7671,
	"step": 1700
	},
	{
	"epoch": 1.8,
	"grad_norm": 1.0072141418910243,
	"learning_rate": 3.504991697852983e-06,
	"loss": 0.7844,
	"step": 1705
	},
	{
	"epoch": 1.81,
	"grad_norm": 1.059809521658242,
	"learning_rate": 3.4783342494096627e-06,
	"loss": 0.7845,
	"step": 1710
	},
	{
	"epoch": 1.81,
	"grad_norm": 1.032182317108509,
	"learning_rate": 3.451724384250091e-06,
	"loss": 0.7792,
	"step": 1715
	},
	{
	"epoch": 1.82,
	"grad_norm": 0.9779053888998924,
	"learning_rate": 3.4251629344786675e-06,
	"loss": 0.7591,
	"step": 1720
	},
	{
	"epoch": 1.82,
	"grad_norm": 1.0116163318504925,
	"learning_rate": 3.398650730685813e-06,
	"loss": 0.7556,
	"step": 1725
	},
	{
	"epoch": 1.83,
	"grad_norm": 1.0511489470052602,
	"learning_rate": 3.372188601922006e-06,
	"loss": 0.7637,
	"step": 1730
	},
	{
	"epoch": 1.83,
	"grad_norm": 1.0172930500825146,
	"learning_rate": 3.3457773756718513e-06,
	"loss": 0.7696,
	"step": 1735
	},
	{
	"epoch": 1.84,
	"grad_norm": 1.039493994412079,
	"learning_rate": 3.3194178778282046e-06,
	"loss": 0.7931,
	"step": 1740
	},
	{
	"epoch": 1.84,
	"grad_norm": 1.033662637919394,
	"learning_rate": 3.293110932666349e-06,
	"loss": 0.7692,
	"step": 1745
	},
	{
	"epoch": 1.85,
	"grad_norm": 1.0584694868797393,
	"learning_rate": 3.2668573628182145e-06,
	"loss": 0.7792,
	"step": 1750
	},
	{
	"epoch": 1.85,
	"grad_norm": 0.994626270021195,
	"learning_rate": 3.2406579892466582e-06,
	"loss": 0.7682,
	"step": 1755
	},
	{
	"epoch": 1.86,
	"grad_norm": 0.9270237802993908,
	"learning_rate": 3.2145136312197943e-06,
	"loss": 0.7552,
	"step": 1760
	},
	{
	"epoch": 1.87,
	"grad_norm": 2.0595234604236357,
	"learning_rate": 3.18842510628537e-06,
	"loss": 0.7749,
	"step": 1765
	},
	{
	"epoch": 1.87,
	"grad_norm": 1.0396319816767299,
	"learning_rate": 3.162393230245203e-06,
	"loss": 0.804,
	"step": 1770
	},
	{
	"epoch": 1.88,
	"grad_norm": 1.0214462086054552,
	"learning_rate": 3.1364188171296677e-06,
	"loss": 0.7744,
	"step": 1775
	},
	{
	"epoch": 1.88,
	"grad_norm": 1.0145502545771508,
	"learning_rate": 3.110502679172246e-06,
	"loss": 0.7824,
	"step": 1780
	},
	{
	"epoch": 1.89,
	"grad_norm": 1.0196641711891408,
	"learning_rate": 3.084645626784124e-06,
	"loss": 0.7745,
	"step": 1785
	},
	{
	"epoch": 1.89,
	"grad_norm": 1.0197064636159427,
	"learning_rate": 3.058848468528852e-06,
	"loss": 0.8031,
	"step": 1790
	},
	{
	"epoch": 1.9,
	"grad_norm": 0.9907125667454302,
	"learning_rate": 3.03311201109706e-06,
	"loss": 0.7919,
	"step": 1795
	},
	{
	"epoch": 1.9,
	"grad_norm": 1.017942513059757,
	"learning_rate": 3.0074370592812286e-06,
	"loss": 0.7907,
	"step": 1800
	},
	{
	"epoch": 1.91,
	"grad_norm": 1.0821499695866912,
	"learning_rate": 2.9818244159505265e-06,
	"loss": 0.7901,
	"step": 1805
	},
	{
	"epoch": 1.91,
	"grad_norm": 0.9934394662674368,
	"learning_rate": 2.956274882025706e-06,
	"loss": 0.7638,
	"step": 1810
	},
	{
	"epoch": 1.92,
	"grad_norm": 1.0313411208961847,
	"learning_rate": 2.930789256454052e-06,
	"loss": 0.7553,
	"step": 1815
	},
	{
	"epoch": 1.92,
	"grad_norm": 0.9950833531614097,
	"learning_rate": 2.905368336184406e-06,
	"loss": 0.7576,
	"step": 1820
	},
	{
	"epoch": 1.93,
	"grad_norm": 0.9936896686220547,
	"learning_rate": 2.8800129161422365e-06,
	"loss": 0.7671,
	"step": 1825
	},
	{
	"epoch": 1.93,
	"grad_norm": 0.9909860465997411,
	"learning_rate": 2.8547237892047852e-06,
	"loss": 0.74,
	"step": 1830
	},
	{
	"epoch": 1.94,
	"grad_norm": 0.9788752840880554,
	"learning_rate": 2.8295017461762806e-06,
	"loss": 0.767,
	"step": 1835
	},
	{
	"epoch": 1.94,
	"grad_norm": 0.9764110020200104,
	"learning_rate": 2.804347575763193e-06,
	"loss": 0.7668,
	"step": 1840
	},
	{
	"epoch": 1.95,
	"grad_norm": 0.9772254707929505,
	"learning_rate": 2.7792620645495917e-06,
	"loss": 0.7425,
	"step": 1845
	},
	{
	"epoch": 1.96,
	"grad_norm": 1.0000854462976456,
	"learning_rate": 2.7542459969725215e-06,
	"loss": 0.7466,
	"step": 1850
	},
	{
	"epoch": 1.96,
	"grad_norm": 1.0352323998365711,
	"learning_rate": 2.729300155297504e-06,
	"loss": 0.771,
	"step": 1855
	},
	{
	"epoch": 1.97,
	"grad_norm": 0.9811051893834364,
	"learning_rate": 2.704425319594049e-06,
	"loss": 0.7778,
	"step": 1860
	},
	{
	"epoch": 1.97,
	"grad_norm": 1.0284677234046133,
	"learning_rate": 2.6796222677112825e-06,
	"loss": 0.7796,
	"step": 1865
	},
	{
	"epoch": 1.98,
	"grad_norm": 0.9664217044137716,
	"learning_rate": 2.6548917752535997e-06,
	"loss": 0.771,
	"step": 1870
	},
	{
	"epoch": 1.98,
	"grad_norm": 1.0008524753186703,
	"learning_rate": 2.6302346155564385e-06,
	"loss": 0.7963,
	"step": 1875
	},
	{
	"epoch": 1.99,
	"grad_norm": 1.0088045948631796,
	"learning_rate": 2.6056515596620715e-06,
	"loss": 0.7571,
	"step": 1880
	},
	{
	"epoch": 1.99,
	"grad_norm": 0.9727997698934588,
	"learning_rate": 2.581143376295516e-06,
	"loss": 0.7968,
	"step": 1885
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.9760428822299934,
	"learning_rate": 2.556710831840481e-06,
	"loss": 0.7829,
	"step": 1890
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.1893585643467264,
	"learning_rate": 2.5323546903154074e-06,
	"loss": 0.7363,
	"step": 1895
	},
	{
	"epoch": 2.01,
	"grad_norm": 1.0408498899558132,
	"learning_rate": 2.508075713349575e-06,
	"loss": 0.683,
	"step": 1900
	},
	{
	"epoch": 2.01,
	"grad_norm": 1.0852218097728863,
	"learning_rate": 2.483874660159294e-06,
	"loss": 0.6388,
	"step": 1905
	},
	{
	"epoch": 2.02,
	"grad_norm": 1.0636193658435114,
	"learning_rate": 2.45975228752415e-06,
	"loss": 0.6785,
	"step": 1910
	},
	{
	"epoch": 2.02,
	"grad_norm": 1.05164052954354,
	"learning_rate": 2.435709349763354e-06,
	"loss": 0.7024,
	"step": 1915
	},
	{
	"epoch": 2.03,
	"grad_norm": 1.0744751292672923,
	"learning_rate": 2.4117465987121357e-06,
	"loss": 0.6714,
	"step": 1920
	},
	{
	"epoch": 2.03,
	"grad_norm": 1.0221167769747221,
	"learning_rate": 2.387864783698258e-06,
	"loss": 0.6441,
	"step": 1925
	},
	{
	"epoch": 2.04,
	"grad_norm": 1.0453109653021675,
	"learning_rate": 2.3640646515185596e-06,
	"loss": 0.6668,
	"step": 1930
	},
	{
	"epoch": 2.04,
	"grad_norm": 1.0035196656143317,
	"learning_rate": 2.3403469464156235e-06,
	"loss": 0.6711,
	"step": 1935
	},
	{
	"epoch": 2.05,
	"grad_norm": 1.0614923887712562,
	"learning_rate": 2.31671241005449e-06,
	"loss": 0.6801,
	"step": 1940
	},
	{
	"epoch": 2.06,
	"grad_norm": 1.0457688195463548,
	"learning_rate": 2.2931617814994704e-06,
	"loss": 0.6676,
	"step": 1945
	},
	{
	"epoch": 2.06,
	"grad_norm": 1.094973586743587,
	"learning_rate": 2.269695797191032e-06,
	"loss": 0.6467,
	"step": 1950
	},
	{
	"epoch": 2.07,
	"grad_norm": 1.0312304548353073,
	"learning_rate": 2.2463151909227804e-06,
	"loss": 0.6626,
	"step": 1955
	},
	{
	"epoch": 2.07,
	"grad_norm": 1.0435526510546405,
	"learning_rate": 2.223020693818495e-06,
	"loss": 0.6565,
	"step": 1960
	},
	{
	"epoch": 2.08,
	"grad_norm": 1.0361388218534178,
	"learning_rate": 2.1998130343092866e-06,
	"loss": 0.655,
	"step": 1965
	},
	{
	"epoch": 2.08,
	"grad_norm": 1.071971382261616,
	"learning_rate": 2.176692938110801e-06,
	"loss": 0.6628,
	"step": 1970
	},
	{
	"epoch": 2.09,
	"grad_norm": 1.0449189624346316,
	"learning_rate": 2.1536611282005374e-06,
	"loss": 0.6742,
	"step": 1975
	},
	{
	"epoch": 2.09,
	"grad_norm": 1.0076278447431801,
	"learning_rate": 2.130718324795234e-06,
	"loss": 0.6615,
	"step": 1980
	},
	{
	"epoch": 2.1,
	"grad_norm": 1.044357139317297,
	"learning_rate": 2.107865245328354e-06,
	"loss": 0.6707,
	"step": 1985
	},
	{
	"epoch": 2.1,
	"grad_norm": 1.0155250644507565,
	"learning_rate": 2.0851026044276405e-06,
	"loss": 0.6701,
	"step": 1990
	},
	{
	"epoch": 2.11,
	"grad_norm": 1.012020172763002,
	"learning_rate": 2.0624311138927795e-06,
	"loss": 0.6531,
	"step": 1995
	},
	{
	"epoch": 2.11,
	"grad_norm": 1.0209851165233697,
	"learning_rate": 2.0398514826731326e-06,
	"loss": 0.6685,
	"step": 2000
	},
	{
	"epoch": 2.12,
	"grad_norm": 1.0147123852944229,
	"learning_rate": 2.017364416845579e-06,
	"loss": 0.6506,
	"step": 2005
	},
	{
	"epoch": 2.12,
	"grad_norm": 1.06994559921509,
	"learning_rate": 1.9949706195924235e-06,
	"loss": 0.6743,
	"step": 2010
	},
	{
	"epoch": 2.13,
	"grad_norm": 0.9930487524595831,
	"learning_rate": 1.97267079117942e-06,
	"loss": 0.6596,
	"step": 2015
	},
	{
	"epoch": 2.13,
	"grad_norm": 1.0334858708046972,
	"learning_rate": 1.950465628933863e-06,
	"loss": 0.6679,
	"step": 2020
	},
	{
	"epoch": 2.14,
	"grad_norm": 1.060064879245556,
	"learning_rate": 1.9283558272227866e-06,
	"loss": 0.6749,
	"step": 2025
	},
	{
	"epoch": 2.15,
	"grad_norm": 1.0171368650427,
	"learning_rate": 1.9063420774312509e-06,
	"loss": 0.6703,
	"step": 2030
	},
	{
	"epoch": 2.15,
	"grad_norm": 0.9646165360014197,
	"learning_rate": 1.8844250679407272e-06,
	"loss": 0.6878,
	"step": 2035
	},
	{
	"epoch": 2.16,
	"grad_norm": 1.0209055430674492,
	"learning_rate": 1.862605484107562e-06,
	"loss": 0.7052,
	"step": 2040
	},
	{
	"epoch": 2.16,
	"grad_norm": 1.0216869737250995,
	"learning_rate": 1.840884008241549e-06,
	"loss": 0.6778,
	"step": 2045
	},
	{
	"epoch": 2.17,
	"grad_norm": 0.990030094537176,
	"learning_rate": 1.819261319584602e-06,
	"loss": 0.675,
	"step": 2050
	},
	{
	"epoch": 2.17,
	"grad_norm": 0.9972968188321764,
	"learning_rate": 1.7977380942895007e-06,
	"loss": 0.6832,
	"step": 2055
	},
	{
	"epoch": 2.18,
	"grad_norm": 1.002919858574642,
	"learning_rate": 1.7763150053987532e-06,
	"loss": 0.6669,
	"step": 2060
	},
	{
	"epoch": 2.18,
	"grad_norm": 1.040641077805689,
	"learning_rate": 1.7549927228235547e-06,
	"loss": 0.6874,
	"step": 2065
	},
	{
	"epoch": 2.19,
	"grad_norm": 1.0136593089712416,
	"learning_rate": 1.7337719133228308e-06,
	"loss": 0.6662,
	"step": 2070
	},
	{
	"epoch": 2.19,
	"grad_norm": 1.0032381970613455,
	"learning_rate": 1.7126532404823898e-06,
	"loss": 0.657,
	"step": 2075
	},
	{
	"epoch": 2.2,
	"grad_norm": 1.0107311218156156,
	"learning_rate": 1.6916373646941774e-06,
	"loss": 0.6706,
	"step": 2080
	},
	{
	"epoch": 2.2,
	"grad_norm": 1.0313882769598175,
	"learning_rate": 1.6707249431356188e-06,
	"loss": 0.6803,
	"step": 2085
	},
	{
	"epoch": 2.21,
	"grad_norm": 1.0013867402651844,
	"learning_rate": 1.6499166297490716e-06,
	"loss": 0.6896,
	"step": 2090
	},
	{
	"epoch": 2.21,
	"grad_norm": 0.9974367112606389,
	"learning_rate": 1.6292130752213747e-06,
	"loss": 0.6773,
	"step": 2095
	},
	{
	"epoch": 2.22,
	"grad_norm": 1.0457782650116,
	"learning_rate": 1.6086149269635081e-06,
	"loss": 0.668,
	"step": 2100
	},
	{
	"epoch": 2.22,
	"grad_norm": 0.9930241935385495,
	"learning_rate": 1.5881228290903367e-06,
	"loss": 0.6508,
	"step": 2105
	},
	{
	"epoch": 2.23,
	"grad_norm": 1.0059354322817335,
	"learning_rate": 1.5677374224004793e-06,
	"loss": 0.6529,
	"step": 2110
	},
	{
	"epoch": 2.24,
	"grad_norm": 1.0338579100235163,
	"learning_rate": 1.547459344356262e-06,
	"loss": 0.6614,
	"step": 2115
	},
	{
	"epoch": 2.24,
	"grad_norm": 1.0203126239591027,
	"learning_rate": 1.5272892290637892e-06,
	"loss": 0.6749,
	"step": 2120
	},
	{
	"epoch": 2.25,
	"grad_norm": 0.983643586611109,
	"learning_rate": 1.5072277072531127e-06,
	"loss": 0.6517,
	"step": 2125
	},
	{
	"epoch": 2.25,
	"grad_norm": 1.0203957676102433,
	"learning_rate": 1.4872754062585126e-06,
	"loss": 0.6716,
	"step": 2130
	},
	{
	"epoch": 2.26,
	"grad_norm": 1.036201909144992,
	"learning_rate": 1.4674329499988737e-06,
	"loss": 0.6574,
	"step": 2135
	},
	{
	"epoch": 2.26,
	"grad_norm": 1.0277085537623492,
	"learning_rate": 1.4477009589581787e-06,
	"loss": 0.6593,
	"step": 2140
	},
	{
	"epoch": 2.27,
	"grad_norm": 0.9713425669443266,
	"learning_rate": 1.4280800501661057e-06,
	"loss": 0.6621,
	"step": 2145
	},
	{
	"epoch": 2.27,
	"grad_norm": 1.028497947768737,
	"learning_rate": 1.408570837178735e-06,
	"loss": 0.6656,
	"step": 2150
	},
	{
	"epoch": 2.28,
	"grad_norm": 1.0565632370972053,
	"learning_rate": 1.3891739300593559e-06,
	"loss": 0.6644,
	"step": 2155
	},
	{
	"epoch": 2.28,
	"grad_norm": 1.0043346444991121,
	"learning_rate": 1.369889935359402e-06,
	"loss": 0.6539,
	"step": 2160
	},
	{
	"epoch": 2.29,
	"grad_norm": 1.0294689299797029,
	"learning_rate": 1.3507194560994657e-06,
	"loss": 0.6666,
	"step": 2165
	},
	{
	"epoch": 2.29,
	"grad_norm": 1.0123495429792864,
	"learning_rate": 1.331663091750463e-06,
	"loss": 0.6928,
	"step": 2170
	},
	{
	"epoch": 2.3,
	"grad_norm": 0.9951164224382856,
	"learning_rate": 1.312721438214869e-06,
	"loss": 0.6501,
	"step": 2175
	},
	{
	"epoch": 2.3,
	"grad_norm": 1.025832661356824,
	"learning_rate": 1.293895087808098e-06,
	"loss": 0.6658,
	"step": 2180
	},
	{
	"epoch": 2.31,
	"grad_norm": 0.9888366700648139,
	"learning_rate": 1.2751846292399705e-06,
	"loss": 0.6592,
	"step": 2185
	},
	{
	"epoch": 2.31,
	"grad_norm": 1.0208359350524125,
	"learning_rate": 1.2565906475963102e-06,
	"loss": 0.6483,
	"step": 2190
	},
	{
	"epoch": 2.32,
	"grad_norm": 1.0568986951058392,
	"learning_rate": 1.2381137243206455e-06,
	"loss": 0.6557,
	"step": 2195
	},
	{
	"epoch": 2.32,
	"grad_norm": 0.9849389521844061,
	"learning_rate": 1.2197544371960317e-06,
	"loss": 0.6488,
	"step": 2200
	},
	{
	"epoch": 2.33,
	"grad_norm": 1.0466426799607875,
	"learning_rate": 1.2015133603269753e-06,
	"loss": 0.6596,
	"step": 2205
	},
	{
	"epoch": 2.34,
	"grad_norm": 0.9985742048846067,
	"learning_rate": 1.183391064121493e-06,
	"loss": 0.6572,
	"step": 2210
	},
	{
	"epoch": 2.34,
	"grad_norm": 0.9661312369342807,
	"learning_rate": 1.1653881152732582e-06,
	"loss": 0.6439,
	"step": 2215
	},
	{
	"epoch": 2.35,
	"grad_norm": 1.0327058718249167,
	"learning_rate": 1.1475050767439e-06,
	"loss": 0.6811,
	"step": 2220
	},
	{
	"epoch": 2.35,
	"grad_norm": 1.0365200638536969,
	"learning_rate": 1.129742507745382e-06,
	"loss": 0.6588,
	"step": 2225
	},
	{
	"epoch": 2.36,
	"grad_norm": 0.9804079029045045,
	"learning_rate": 1.1121009637225283e-06,
	"loss": 0.6783,
	"step": 2230
	},
	{
	"epoch": 2.36,
	"grad_norm": 1.0326866018136251,
	"learning_rate": 1.0945809963356442e-06,
	"loss": 0.6705,
	"step": 2235
	},
	{
	"epoch": 2.37,
	"grad_norm": 1.0314679157662048,
	"learning_rate": 1.0771831534432714e-06,
	"loss": 0.6353,
	"step": 2240
	},
	{
	"epoch": 2.37,
	"grad_norm": 0.9589889108924486,
	"learning_rate": 1.0599079790850542e-06,
	"loss": 0.655,
	"step": 2245
	},
	{
	"epoch": 2.38,
	"grad_norm": 0.9894914192305704,
	"learning_rate": 1.0427560134647308e-06,
	"loss": 0.643,
	"step": 2250
	},
	{
	"epoch": 2.38,
	"grad_norm": 1.0693419775513076,
	"learning_rate": 1.0257277929332332e-06,
	"loss": 0.6611,
	"step": 2255
	},
	{
	"epoch": 2.39,
	"grad_norm": 0.9951590219864285,
	"learning_rate": 1.0088238499719254e-06,
	"loss": 0.6403,
	"step": 2260
	},
	{
	"epoch": 2.39,
	"grad_norm": 1.0105626202971048,
	"learning_rate": 9.920447131759392e-07,
	"loss": 0.6707,
	"step": 2265
	},
	{
	"epoch": 2.4,
	"grad_norm": 1.0186289750333066,
	"learning_rate": 9.753909072376594e-07,
	"loss": 0.6809,
	"step": 2270
	},
	{
	"epoch": 2.4,
	"grad_norm": 1.0267980845318398,
	"learning_rate": 9.58862952930304e-07,
	"loss": 0.6642,
	"step": 2275
	},
	{
	"epoch": 2.41,
	"grad_norm": 1.0314667402705489,
	"learning_rate": 9.424613670916499e-07,
	"loss": 0.6815,
	"step": 2280
	},
	{
	"epoch": 2.41,
	"grad_norm": 0.9818510396592551,
	"learning_rate": 9.261866626078625e-07,
	"loss": 0.6579,
	"step": 2285
	},
	{
	"epoch": 2.42,
	"grad_norm": 0.998040916561116,
	"learning_rate": 9.100393483974612e-07,
	"loss": 0.6815,
	"step": 2290
	},
	{
	"epoch": 2.43,
	"grad_norm": 1.007529165875462,
	"learning_rate": 8.940199293954033e-07,
	"loss": 0.6609,
	"step": 2295
	},
	{
	"epoch": 2.43,
	"grad_norm": 1.0489165413908048,
	"learning_rate": 8.781289065373016e-07,
	"loss": 0.6661,
	"step": 2300
	},
	{
	"epoch": 2.44,
	"grad_norm": 1.0586483881635766,
	"learning_rate": 8.623667767437483e-07,
	"loss": 0.6494,
	"step": 2305
	},
	{
	"epoch": 2.44,
	"grad_norm": 0.970861929985865,
	"learning_rate": 8.467340329047874e-07,
	"loss": 0.6403,
	"step": 2310
	},
	{
	"epoch": 2.45,
	"grad_norm": 1.0315170437890622,
	"learning_rate": 8.312311638644888e-07,
	"loss": 0.6802,
	"step": 2315
	},
	{
	"epoch": 2.45,
	"grad_norm": 1.018615901485097,
	"learning_rate": 8.158586544056791e-07,
	"loss": 0.6813,
	"step": 2320
	},
	{
	"epoch": 2.46,
	"grad_norm": 0.9991739019084611,
	"learning_rate": 8.00616985234764e-07,
	"loss": 0.6757,
	"step": 2325
	},
	{
	"epoch": 2.46,
	"grad_norm": 1.039226698329409,
	"learning_rate": 7.855066329667121e-07,
	"loss": 0.6421,
	"step": 2330
	},
	{
	"epoch": 2.47,
	"grad_norm": 1.0505394427255816,
	"learning_rate": 7.705280701101392e-07,
	"loss": 0.6655,
	"step": 2335
	},
	{
	"epoch": 2.47,
	"grad_norm": 0.9750027460632938,
	"learning_rate": 7.556817650525383e-07,
	"loss": 0.6526,
	"step": 2340
	},
	{
	"epoch": 2.48,
	"grad_norm": 0.989246982143368,
	"learning_rate": 7.409681820456315e-07,
	"loss": 0.667,
	"step": 2345
	},
	{
	"epoch": 2.48,
	"grad_norm": 0.9977414734019189,
	"learning_rate": 7.263877811908553e-07,
	"loss": 0.6647,
	"step": 2350
	},
	{
	"epoch": 2.49,
	"grad_norm": 0.9875292562685886,
	"learning_rate": 7.11941018424967e-07,
	"loss": 0.667,
	"step": 2355
	},
	{
	"epoch": 2.49,
	"grad_norm": 0.9932801930288735,
	"learning_rate": 6.97628345505797e-07,
	"loss": 0.6511,
	"step": 2360
	},
	{
	"epoch": 2.5,
	"grad_norm": 1.0199295886729471,
	"learning_rate": 6.83450209998106e-07,
	"loss": 0.6556,
	"step": 2365
	},
	{
	"epoch": 2.5,
	"grad_norm": 1.0279710885988984,
	"learning_rate": 6.694070552596105e-07,
	"loss": 0.6676,
	"step": 2370
	},
	{
	"epoch": 2.51,
	"grad_norm": 1.0221845787587531,
	"learning_rate": 6.554993204270993e-07,
	"loss": 0.6512,
	"step": 2375
	},
	{
	"epoch": 2.52,
	"grad_norm": 0.9597530531552908,
	"learning_rate": 6.417274404027163e-07,
	"loss": 0.6482,
	"step": 2380
	},
	{
	"epoch": 2.52,
	"grad_norm": 1.0201542647464452,
	"learning_rate": 6.280918458403506e-07,
	"loss": 0.6623,
	"step": 2385
	},
	{
	"epoch": 2.53,
	"grad_norm": 0.9818765108255797,
	"learning_rate": 6.14592963132174e-07,
	"loss": 0.6599,
	"step": 2390
	},
	{
	"epoch": 2.53,
	"grad_norm": 1.0020031777534095,
	"learning_rate": 6.012312143953075e-07,
	"loss": 0.6818,
	"step": 2395
	},
	{
	"epoch": 2.54,
	"grad_norm": 1.020601700800406,
	"learning_rate": 5.880070174586228e-07,
	"loss": 0.6794,
	"step": 2400
	},
	{
	"epoch": 2.54,
	"grad_norm": 0.9781529112263975,
	"learning_rate": 5.74920785849673e-07,
	"loss": 0.6612,
	"step": 2405
	},
	{
	"epoch": 2.55,
	"grad_norm": 1.020456830272749,
	"learning_rate": 5.619729287817621e-07,
	"loss": 0.6638,
	"step": 2410
	},
	{
	"epoch": 2.55,
	"grad_norm": 1.0134058298180835,
	"learning_rate": 5.49163851141154e-07,
	"loss": 0.6468,
	"step": 2415
	},
	{
	"epoch": 2.56,
	"grad_norm": 1.0051724307379968,
	"learning_rate": 5.36493953474404e-07,
	"loss": 0.6411,
	"step": 2420
	},
	{
	"epoch": 2.56,
	"grad_norm": 0.9963926377815217,
	"learning_rate": 5.239636319758356e-07,
	"loss": 0.668,
	"step": 2425
	},
	{
	"epoch": 2.57,
	"grad_norm": 0.9731428272925532,
	"learning_rate": 5.115732784751576e-07,
	"loss": 0.6444,
	"step": 2430
	},
	{
	"epoch": 2.57,
	"grad_norm": 1.0185774017291327,
	"learning_rate": 4.993232804252018e-07,
	"loss": 0.6529,
	"step": 2435
	},
	{
	"epoch": 2.58,
	"grad_norm": 1.00711656230006,
	"learning_rate": 4.872140208898118e-07,
	"loss": 0.6539,
	"step": 2440
	},
	{
	"epoch": 2.58,
	"grad_norm": 1.0045164786035452,
	"learning_rate": 4.7524587853186866e-07,
	"loss": 0.6629,
	"step": 2445
	},
	{
	"epoch": 2.59,
	"grad_norm": 0.9961645157673277,
	"learning_rate": 4.634192276014399e-07,
	"loss": 0.6738,
	"step": 2450
	},
	{
	"epoch": 2.59,
	"grad_norm": 1.0214318273829783,
	"learning_rate": 4.5173443792408625e-07,
	"loss": 0.6552,
	"step": 2455
	},
	{
	"epoch": 2.6,
	"grad_norm": 1.0163355618069994,
	"learning_rate": 4.4019187488928914e-07,
	"loss": 0.6638,
	"step": 2460
	},
	{
	"epoch": 2.61,
	"grad_norm": 1.032574771687925,
	"learning_rate": 4.2879189943903335e-07,
	"loss": 0.6877,
	"step": 2465
	},
	{
	"epoch": 2.61,
	"grad_norm": 0.9930486578442914,
	"learning_rate": 4.1753486805651e-07,
	"loss": 0.6832,
	"step": 2470
	},
	{
	"epoch": 2.62,
	"grad_norm": 0.969259241462703,
	"learning_rate": 4.064211327549794e-07,
	"loss": 0.6738,
	"step": 2475
	},
	{
	"epoch": 2.62,
	"grad_norm": 1.018380412495952,
	"learning_rate": 3.95451041066755e-07,
	"loss": 0.671,
	"step": 2480
	},
	{
	"epoch": 2.63,
	"grad_norm": 0.9735720562840744,
	"learning_rate": 3.8462493603234064e-07,
	"loss": 0.6433,
	"step": 2485
	},
	{
	"epoch": 2.63,
	"grad_norm": 1.023935871901339,
	"learning_rate": 3.739431561897011e-07,
	"loss": 0.6593,
	"step": 2490
	},
	{
	"epoch": 2.64,
	"grad_norm": 0.9931869209408388,
	"learning_rate": 3.634060355636798e-07,
	"loss": 0.6647,
	"step": 2495
	},
	{
	"epoch": 2.64,
	"grad_norm": 1.0007736035504975,
	"learning_rate": 3.53013903655548e-07,
	"loss": 0.6683,
	"step": 2500
	},
	{
	"epoch": 2.65,
	"grad_norm": 0.9926593135266999,
	"learning_rate": 3.427670854327042e-07,
	"loss": 0.6668,
	"step": 2505
	},
	{
	"epoch": 2.65,
	"grad_norm": 0.9870259704326787,
	"learning_rate": 3.3266590131851296e-07,
	"loss": 0.6583,
	"step": 2510
	},
	{
	"epoch": 2.66,
	"grad_norm": 1.0298553599069395,
	"learning_rate": 3.227106671822849e-07,
	"loss": 0.6835,
	"step": 2515
	},
	{
	"epoch": 2.66,
	"grad_norm": 0.9915918166378904,
	"learning_rate": 3.1290169432939556e-07,
	"loss": 0.6428,
	"step": 2520
	},
	{
	"epoch": 2.67,
	"grad_norm": 1.060474012796049,
	"learning_rate": 3.03239289491557e-07,
	"loss": 0.6571,
	"step": 2525
	},
	{
	"epoch": 2.67,
	"grad_norm": 1.0203183687136719,
	"learning_rate": 2.937237548172206e-07,
	"loss": 0.6511,
	"step": 2530
	},
	{
	"epoch": 2.68,
	"grad_norm": 0.989507237700814,
	"learning_rate": 2.8435538786213134e-07,
	"loss": 0.6746,
	"step": 2535
	},
	{
	"epoch": 2.68,
	"grad_norm": 0.9853274639882493,
	"learning_rate": 2.7513448158002334e-07,
	"loss": 0.6657,
	"step": 2540
	},
	{
	"epoch": 2.69,
	"grad_norm": 0.9957797339050202,
	"learning_rate": 2.66061324313458e-07,
	"loss": 0.6496,
	"step": 2545
	},
	{
	"epoch": 2.69,
	"grad_norm": 1.0073836211394178,
	"learning_rate": 2.5713619978480653e-07,
	"loss": 0.6596,
	"step": 2550
	},
	{
	"epoch": 2.7,
	"grad_norm": 0.9798969178233458,
	"learning_rate": 2.483593870873829e-07,
	"loss": 0.654,
	"step": 2555
	},
	{
	"epoch": 2.71,
	"grad_norm": 0.9936847658098146,
	"learning_rate": 2.3973116067670665e-07,
	"loss": 0.6457,
	"step": 2560
	},
	{
	"epoch": 2.71,
	"grad_norm": 1.0224466038654803,
	"learning_rate": 2.3125179036193214e-07,
	"loss": 0.6572,
	"step": 2565
	},
	{
	"epoch": 2.72,
	"grad_norm": 1.0378183041017084,
	"learning_rate": 2.2292154129740117e-07,
	"loss": 0.6554,
	"step": 2570
	},
	{
	"epoch": 2.72,
	"grad_norm": 0.9787357607930246,
	"learning_rate": 2.147406739743596e-07,
	"loss": 0.6689,
	"step": 2575
	},
	{
	"epoch": 2.73,
	"grad_norm": 1.003947207260689,
	"learning_rate": 2.0670944421280646e-07,
	"loss": 0.6458,
	"step": 2580
	},
	{
	"epoch": 2.73,
	"grad_norm": 1.0063190015667964,
	"learning_rate": 1.9882810315349554e-07,
	"loss": 0.6648,
	"step": 2585
	},
	{
	"epoch": 2.74,
	"grad_norm": 1.0148103533053272,
	"learning_rate": 1.9109689725008317e-07,
	"loss": 0.6738,
	"step": 2590
	},
	{
	"epoch": 2.74,
	"grad_norm": 1.0122729219524842,
	"learning_rate": 1.8351606826142176e-07,
	"loss": 0.6796,
	"step": 2595
	},
	{
	"epoch": 2.75,
	"grad_norm": 1.0170129872933447,
	"learning_rate": 1.7608585324399684e-07,
	"loss": 0.6798,
	"step": 2600
	},
	{
	"epoch": 2.75,
	"grad_norm": 0.992464215850126,
	"learning_rate": 1.688064845445192e-07,
	"loss": 0.6695,
	"step": 2605
	},
	{
	"epoch": 2.76,
	"grad_norm": 0.9778375876093532,
	"learning_rate": 1.6167818979265282e-07,
	"loss": 0.6563,
	"step": 2610
	},
	{
	"epoch": 2.76,
	"grad_norm": 1.0165595693382412,
	"learning_rate": 1.5470119189390342e-07,
	"loss": 0.6709,
	"step": 2615
	},
	{
	"epoch": 2.77,
	"grad_norm": 0.9846854115443192,
	"learning_rate": 1.4787570902264293e-07,
	"loss": 0.6468,
	"step": 2620
	},
	{
	"epoch": 2.77,
	"grad_norm": 1.0226129803358943,
	"learning_rate": 1.4120195461529097e-07,
	"loss": 0.6699,
	"step": 2625
	},
	{
	"epoch": 2.78,
	"grad_norm": 1.0082916511837874,
	"learning_rate": 1.3468013736363694e-07,
	"loss": 0.6516,
	"step": 2630
	},
	{
	"epoch": 2.78,
	"grad_norm": 1.0086534086914538,
	"learning_rate": 1.2831046120831692e-07,
	"loss": 0.6483,
	"step": 2635
	},
	{
	"epoch": 2.79,
	"grad_norm": 0.9957571698657345,
	"learning_rate": 1.2209312533243535e-07,
	"loss": 0.6632,
	"step": 2640
	},
	{
	"epoch": 2.8,
	"grad_norm": 1.0298383480420663,
	"learning_rate": 1.1602832415533616e-07,
	"loss": 0.6645,
	"step": 2645
	},
	{
	"epoch": 2.8,
	"grad_norm": 1.0188314052602203,
	"learning_rate": 1.1011624732652437e-07,
	"loss": 0.6752,
	"step": 2650
	},
	{
	"epoch": 2.81,
	"grad_norm": 1.0019681746822835,
	"learning_rate": 1.0435707971973297e-07,
	"loss": 0.6573,
	"step": 2655
	},
	{
	"epoch": 2.81,
	"grad_norm": 0.9926022445477827,
	"learning_rate": 9.875100142714478e-08,
	"loss": 0.6396,
	"step": 2660
	},
	{
	"epoch": 2.82,
	"grad_norm": 0.9847567872289796,
	"learning_rate": 9.329818775376088e-08,
	"loss": 0.672,
	"step": 2665
	},
	{
	"epoch": 2.82,
	"grad_norm": 1.0103069579844817,
	"learning_rate": 8.79988092119144e-08,
	"loss": 0.678,
	"step": 2670
	},
	{
	"epoch": 2.83,
	"grad_norm": 1.0092463732513441,
	"learning_rate": 8.285303151594537e-08,
	"loss": 0.6837,
	"step": 2675
	},
	{
	"epoch": 2.83,
	"grad_norm": 1.0032753352403014,
	"learning_rate": 7.786101557701209e-08,
	"loss": 0.6494,
	"step": 2680
	},
	{
	"epoch": 2.84,
	"grad_norm": 1.0278927407365124,
	"learning_rate": 7.302291749806345e-08,
	"loss": 0.6597,
	"step": 2685
	},
	{
	"epoch": 2.84,
	"grad_norm": 0.9985234255556347,
	"learning_rate": 6.833888856895676e-08,
	"loss": 0.6672,
	"step": 2690
	},
	{
	"epoch": 2.85,
	"grad_norm": 1.0086435046290338,
	"learning_rate": 6.380907526172597e-08,
	"loss": 0.6768,
	"step": 2695
	},
	{
	"epoch": 2.85,
	"grad_norm": 0.9639413787477988,
	"learning_rate": 5.943361922600255e-08,
	"loss": 0.6346,
	"step": 2700
	},
	{
	"epoch": 2.86,
	"grad_norm": 0.9898392259409212,
	"learning_rate": 5.521265728458347e-08,
	"loss": 0.6655,
	"step": 2705
	},
	{
	"epoch": 2.86,
	"grad_norm": 1.0000733408715612,
	"learning_rate": 5.114632142915687e-08,
	"loss": 0.638,
	"step": 2710
	},
	{
	"epoch": 2.87,
	"grad_norm": 0.990452054352071,
	"learning_rate": 4.723473881617147e-08,
	"loss": 0.6583,
	"step": 2715
	},
	{
	"epoch": 2.87,
	"grad_norm": 0.988717000145255,
	"learning_rate": 4.347803176286025e-08,
	"loss": 0.6708,
	"step": 2720
	},
	{
	"epoch": 2.88,
	"grad_norm": 0.9868081897157113,
	"learning_rate": 3.98763177434186e-08,
	"loss": 0.6583,
	"step": 2725
	},
	{
	"epoch": 2.89,
	"grad_norm": 1.001603936622736,
	"learning_rate": 3.642970938532553e-08,
	"loss": 0.6754,
	"step": 2730
	},
	{
	"epoch": 2.89,
	"grad_norm": 1.0028854813842756,
	"learning_rate": 3.313831446582816e-08,
	"loss": 0.6784,
	"step": 2735
	},
	{
	"epoch": 2.9,
	"grad_norm": 0.9840591494137083,
	"learning_rate": 3.000223590856666e-08,
	"loss": 0.6651,
	"step": 2740
	},
	{
	"epoch": 2.9,
	"grad_norm": 1.0425902900408417,
	"learning_rate": 2.7021571780356804e-08,
	"loss": 0.6489,
	"step": 2745
	},
	{
	"epoch": 2.91,
	"grad_norm": 1.0016271763738829,
	"learning_rate": 2.419641528812522e-08,
	"loss": 0.6501,
	"step": 2750
	},
	{
	"epoch": 2.91,
	"grad_norm": 0.9875844742537229,
	"learning_rate": 2.1526854775992255e-08,
	"loss": 0.667,
	"step": 2755
	},
	{
	"epoch": 2.92,
	"grad_norm": 0.9909068409835267,
	"learning_rate": 1.901297372251143e-08,
	"loss": 0.6649,
	"step": 2760
	},
	{
	"epoch": 2.92,
	"grad_norm": 1.0200770120528766,
	"learning_rate": 1.665485073805817e-08,
	"loss": 0.6542,
	"step": 2765
	},
	{
	"epoch": 2.93,
	"grad_norm": 0.9699214260408161,
	"learning_rate": 1.4452559562370683e-08,
	"loss": 0.6644,
	"step": 2770
	},
	{
	"epoch": 2.93,
	"grad_norm": 0.9962874170809767,
	"learning_rate": 1.2406169062246232e-08,
	"loss": 0.6502,
	"step": 2775
	},
	{
	"epoch": 2.94,
	"grad_norm": 1.0264867036759864,
	"learning_rate": 1.0515743229385645e-08,
	"loss": 0.6698,
	"step": 2780
	},
	{
	"epoch": 2.94,
	"grad_norm": 1.0133222133442825,
	"learning_rate": 8.781341178393244e-09,
	"loss": 0.6723,
	"step": 2785
	},
	{
	"epoch": 2.95,
	"grad_norm": 1.0159129157737807,
	"learning_rate": 7.203017144927771e-09,
	"loss": 0.6561,
	"step": 2790
	},
	{
	"epoch": 2.95,
	"grad_norm": 0.9931795490054022,
	"learning_rate": 5.780820484007632e-09,
	"loss": 0.6563,
	"step": 2795
	},
	{
	"epoch": 2.96,
	"grad_norm": 1.0195254872888724,
	"learning_rate": 4.514795668466576e-09,
	"loss": 0.6808,
	"step": 2800
	},
	{
	"epoch": 2.96,
	"grad_norm": 1.0210108366337896,
	"learning_rate": 3.4049822875614757e-09,
	"loss": 0.6723,
	"step": 2805
	},
	{
	"epoch": 2.97,
	"grad_norm": 0.9891130306027911,
	"learning_rate": 2.4514150457377594e-09,
	"loss": 0.6763,
	"step": 2810
	},
	{
	"epoch": 2.97,
	"grad_norm": 0.9876265686294937,
	"learning_rate": 1.654123761541393e-09,
	"loss": 0.6652,
	"step": 2815
	},
	{
	"epoch": 2.98,
	"grad_norm": 0.9719073327336301,
	"learning_rate": 1.0131333666885124e-09,
	"loss": 0.6793,
	"step": 2820
	},
	{
	"epoch": 2.99,
	"grad_norm": 1.004648101535836,
	"learning_rate": 5.284639052832718e-10,
	"loss": 0.6643,
	"step": 2825
	},
	{
	"epoch": 2.99,
	"grad_norm": 1.0172517540637482,
	"learning_rate": 2.0013053319334341e-10,
	"loss": 0.6768,
	"step": 2830
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.9650966122076953,
	"learning_rate": 2.814351757529643e-11,
	"loss": 0.6356,
	"step": 2835
	},
	{
	"epoch": 3.0,
	"step": 2838,
	"total_flos": 1471706245890048.0,
	"train_loss": 0.8058284866381398,
	"train_runtime": 31310.8966,
	"train_samples_per_second": 5.802,
	"train_steps_per_second": 0.091
	}
	],
	"logging_steps": 5,
	"max_steps": 2838,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"total_flos": 1471706245890048.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}