QWEN2.5-32B-e2-adapter / trainer_state.json

Upload folder using huggingface_hub

b3da1cf verified over 1 year ago

456 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.4332965821389196,
	"eval_steps": 500,
	"global_step": 2600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005512679162072767,
	"grad_norm": 12.100004196166992,
	"learning_rate": 2.9999999999999997e-05,
	"loss": 1.4741,
	"step": 1
	},
	{
	"epoch": 0.0011025358324145535,
	"grad_norm": 11.976073265075684,
	"learning_rate": 5.9999999999999995e-05,
	"loss": 1.4512,
	"step": 2
	},
	{
	"epoch": 0.0016538037486218302,
	"grad_norm": 4.930200576782227,
	"learning_rate": 8.999999999999999e-05,
	"loss": 1.3853,
	"step": 3
	},
	{
	"epoch": 0.002205071664829107,
	"grad_norm": 1.8625606298446655,
	"learning_rate": 0.00011999999999999999,
	"loss": 1.12,
	"step": 4
	},
	{
	"epoch": 0.0027563395810363835,
	"grad_norm": 1.4577418565750122,
	"learning_rate": 0.00015,
	"loss": 1.005,
	"step": 5
	},
	{
	"epoch": 0.0033076074972436605,
	"grad_norm": 1.1385219097137451,
	"learning_rate": 0.00017999999999999998,
	"loss": 0.8992,
	"step": 6
	},
	{
	"epoch": 0.003858875413450937,
	"grad_norm": 1.5815627574920654,
	"learning_rate": 0.00020999999999999998,
	"loss": 0.815,
	"step": 7
	},
	{
	"epoch": 0.004410143329658214,
	"grad_norm": 0.6205328702926636,
	"learning_rate": 0.00023999999999999998,
	"loss": 0.7967,
	"step": 8
	},
	{
	"epoch": 0.004961411245865491,
	"grad_norm": 1.6408820152282715,
	"learning_rate": 0.00027,
	"loss": 0.7702,
	"step": 9
	},
	{
	"epoch": 0.005512679162072767,
	"grad_norm": 0.8569570183753967,
	"learning_rate": 0.0003,
	"loss": 0.7845,
	"step": 10
	},
	{
	"epoch": 0.006063947078280044,
	"grad_norm": 0.67384272813797,
	"learning_rate": 0.0002999170812603648,
	"loss": 0.7192,
	"step": 11
	},
	{
	"epoch": 0.006615214994487321,
	"grad_norm": 2.0132830142974854,
	"learning_rate": 0.00029983416252072964,
	"loss": 0.7354,
	"step": 12
	},
	{
	"epoch": 0.007166482910694598,
	"grad_norm": 0.6772907972335815,
	"learning_rate": 0.0002997512437810945,
	"loss": 0.715,
	"step": 13
	},
	{
	"epoch": 0.007717750826901874,
	"grad_norm": 0.5798671245574951,
	"learning_rate": 0.00029966832504145936,
	"loss": 0.7477,
	"step": 14
	},
	{
	"epoch": 0.008269018743109152,
	"grad_norm": 0.49168965220451355,
	"learning_rate": 0.00029958540630182416,
	"loss": 0.713,
	"step": 15
	},
	{
	"epoch": 0.008820286659316428,
	"grad_norm": 0.478697806596756,
	"learning_rate": 0.000299502487562189,
	"loss": 0.6915,
	"step": 16
	},
	{
	"epoch": 0.009371554575523704,
	"grad_norm": 0.4884359538555145,
	"learning_rate": 0.0002994195688225539,
	"loss": 0.7305,
	"step": 17
	},
	{
	"epoch": 0.009922822491730982,
	"grad_norm": 0.4691940248012543,
	"learning_rate": 0.00029933665008291874,
	"loss": 0.6646,
	"step": 18
	},
	{
	"epoch": 0.010474090407938258,
	"grad_norm": 0.4946594834327698,
	"learning_rate": 0.00029925373134328354,
	"loss": 0.7137,
	"step": 19
	},
	{
	"epoch": 0.011025358324145534,
	"grad_norm": 0.4412364363670349,
	"learning_rate": 0.0002991708126036484,
	"loss": 0.7063,
	"step": 20
	},
	{
	"epoch": 0.011576626240352812,
	"grad_norm": 0.5092226266860962,
	"learning_rate": 0.0002990878938640132,
	"loss": 0.684,
	"step": 21
	},
	{
	"epoch": 0.012127894156560088,
	"grad_norm": 0.45330244302749634,
	"learning_rate": 0.00029900497512437807,
	"loss": 0.6677,
	"step": 22
	},
	{
	"epoch": 0.012679162072767364,
	"grad_norm": 0.4717816710472107,
	"learning_rate": 0.0002989220563847429,
	"loss": 0.6898,
	"step": 23
	},
	{
	"epoch": 0.013230429988974642,
	"grad_norm": 0.41348159313201904,
	"learning_rate": 0.0002988391376451078,
	"loss": 0.6735,
	"step": 24
	},
	{
	"epoch": 0.013781697905181918,
	"grad_norm": 0.44471853971481323,
	"learning_rate": 0.0002987562189054726,
	"loss": 0.6732,
	"step": 25
	},
	{
	"epoch": 0.014332965821389196,
	"grad_norm": 0.44660595059394836,
	"learning_rate": 0.00029867330016583745,
	"loss": 0.7058,
	"step": 26
	},
	{
	"epoch": 0.014884233737596472,
	"grad_norm": 0.3917936086654663,
	"learning_rate": 0.0002985903814262023,
	"loss": 0.6486,
	"step": 27
	},
	{
	"epoch": 0.015435501653803748,
	"grad_norm": 0.3844316899776459,
	"learning_rate": 0.00029850746268656717,
	"loss": 0.6726,
	"step": 28
	},
	{
	"epoch": 0.015986769570011026,
	"grad_norm": 0.38220199942588806,
	"learning_rate": 0.00029842454394693197,
	"loss": 0.6835,
	"step": 29
	},
	{
	"epoch": 0.016538037486218304,
	"grad_norm": 0.3823130428791046,
	"learning_rate": 0.00029834162520729683,
	"loss": 0.6818,
	"step": 30
	},
	{
	"epoch": 0.017089305402425578,
	"grad_norm": 0.3354315161705017,
	"learning_rate": 0.00029825870646766164,
	"loss": 0.6421,
	"step": 31
	},
	{
	"epoch": 0.017640573318632856,
	"grad_norm": 0.3261851966381073,
	"learning_rate": 0.0002981757877280265,
	"loss": 0.6254,
	"step": 32
	},
	{
	"epoch": 0.018191841234840134,
	"grad_norm": 0.3275938928127289,
	"learning_rate": 0.00029809286898839135,
	"loss": 0.6529,
	"step": 33
	},
	{
	"epoch": 0.018743109151047408,
	"grad_norm": 0.3375149667263031,
	"learning_rate": 0.0002980099502487562,
	"loss": 0.664,
	"step": 34
	},
	{
	"epoch": 0.019294377067254686,
	"grad_norm": 0.33320432901382446,
	"learning_rate": 0.000297927031509121,
	"loss": 0.6157,
	"step": 35
	},
	{
	"epoch": 0.019845644983461964,
	"grad_norm": 0.30827271938323975,
	"learning_rate": 0.0002978441127694859,
	"loss": 0.6418,
	"step": 36
	},
	{
	"epoch": 0.020396912899669238,
	"grad_norm": 0.3377619683742523,
	"learning_rate": 0.00029776119402985074,
	"loss": 0.6454,
	"step": 37
	},
	{
	"epoch": 0.020948180815876516,
	"grad_norm": 0.32735955715179443,
	"learning_rate": 0.0002976782752902156,
	"loss": 0.632,
	"step": 38
	},
	{
	"epoch": 0.021499448732083794,
	"grad_norm": 0.37884464859962463,
	"learning_rate": 0.0002975953565505804,
	"loss": 0.6223,
	"step": 39
	},
	{
	"epoch": 0.022050716648291068,
	"grad_norm": 0.3301836848258972,
	"learning_rate": 0.00029751243781094526,
	"loss": 0.6654,
	"step": 40
	},
	{
	"epoch": 0.022601984564498346,
	"grad_norm": 0.3196747303009033,
	"learning_rate": 0.00029742951907131006,
	"loss": 0.6445,
	"step": 41
	},
	{
	"epoch": 0.023153252480705624,
	"grad_norm": 0.3292658030986786,
	"learning_rate": 0.0002973466003316749,
	"loss": 0.6271,
	"step": 42
	},
	{
	"epoch": 0.023704520396912898,
	"grad_norm": 0.32541969418525696,
	"learning_rate": 0.0002972636815920398,
	"loss": 0.6217,
	"step": 43
	},
	{
	"epoch": 0.024255788313120176,
	"grad_norm": 0.3059806823730469,
	"learning_rate": 0.00029718076285240464,
	"loss": 0.6029,
	"step": 44
	},
	{
	"epoch": 0.024807056229327454,
	"grad_norm": 0.3427717983722687,
	"learning_rate": 0.00029709784411276945,
	"loss": 0.6523,
	"step": 45
	},
	{
	"epoch": 0.025358324145534728,
	"grad_norm": 0.33184289932250977,
	"learning_rate": 0.0002970149253731343,
	"loss": 0.6475,
	"step": 46
	},
	{
	"epoch": 0.025909592061742006,
	"grad_norm": 0.32376739382743835,
	"learning_rate": 0.00029693200663349917,
	"loss": 0.6588,
	"step": 47
	},
	{
	"epoch": 0.026460859977949284,
	"grad_norm": 0.30022457242012024,
	"learning_rate": 0.000296849087893864,
	"loss": 0.6316,
	"step": 48
	},
	{
	"epoch": 0.02701212789415656,
	"grad_norm": 0.3170008957386017,
	"learning_rate": 0.00029676616915422883,
	"loss": 0.5847,
	"step": 49
	},
	{
	"epoch": 0.027563395810363836,
	"grad_norm": 0.3455023765563965,
	"learning_rate": 0.0002966832504145937,
	"loss": 0.6668,
	"step": 50
	},
	{
	"epoch": 0.028114663726571114,
	"grad_norm": 0.3004387617111206,
	"learning_rate": 0.0002966003316749585,
	"loss": 0.6599,
	"step": 51
	},
	{
	"epoch": 0.02866593164277839,
	"grad_norm": 0.33361348509788513,
	"learning_rate": 0.00029651741293532335,
	"loss": 0.6502,
	"step": 52
	},
	{
	"epoch": 0.029217199558985666,
	"grad_norm": 0.34541115164756775,
	"learning_rate": 0.0002964344941956882,
	"loss": 0.6764,
	"step": 53
	},
	{
	"epoch": 0.029768467475192944,
	"grad_norm": 0.32801833748817444,
	"learning_rate": 0.00029635157545605307,
	"loss": 0.6347,
	"step": 54
	},
	{
	"epoch": 0.03031973539140022,
	"grad_norm": 0.30410563945770264,
	"learning_rate": 0.0002962686567164179,
	"loss": 0.6117,
	"step": 55
	},
	{
	"epoch": 0.030871003307607496,
	"grad_norm": 0.31390225887298584,
	"learning_rate": 0.00029618573797678274,
	"loss": 0.5973,
	"step": 56
	},
	{
	"epoch": 0.031422271223814774,
	"grad_norm": 0.34744319319725037,
	"learning_rate": 0.0002961028192371476,
	"loss": 0.6544,
	"step": 57
	},
	{
	"epoch": 0.03197353914002205,
	"grad_norm": 0.3452775180339813,
	"learning_rate": 0.0002960199004975124,
	"loss": 0.6234,
	"step": 58
	},
	{
	"epoch": 0.03252480705622933,
	"grad_norm": 0.34327036142349243,
	"learning_rate": 0.00029593698175787726,
	"loss": 0.6485,
	"step": 59
	},
	{
	"epoch": 0.03307607497243661,
	"grad_norm": 0.317579448223114,
	"learning_rate": 0.00029585406301824206,
	"loss": 0.6182,
	"step": 60
	},
	{
	"epoch": 0.03362734288864388,
	"grad_norm": 0.3586544692516327,
	"learning_rate": 0.0002957711442786069,
	"loss": 0.6149,
	"step": 61
	},
	{
	"epoch": 0.034178610804851156,
	"grad_norm": 0.3077372908592224,
	"learning_rate": 0.0002956882255389718,
	"loss": 0.5806,
	"step": 62
	},
	{
	"epoch": 0.034729878721058434,
	"grad_norm": 0.33191806077957153,
	"learning_rate": 0.00029560530679933664,
	"loss": 0.631,
	"step": 63
	},
	{
	"epoch": 0.03528114663726571,
	"grad_norm": 0.32726630568504333,
	"learning_rate": 0.00029552238805970145,
	"loss": 0.6364,
	"step": 64
	},
	{
	"epoch": 0.03583241455347299,
	"grad_norm": 0.3058015704154968,
	"learning_rate": 0.0002954394693200663,
	"loss": 0.6193,
	"step": 65
	},
	{
	"epoch": 0.03638368246968027,
	"grad_norm": 0.30789121985435486,
	"learning_rate": 0.00029535655058043116,
	"loss": 0.6322,
	"step": 66
	},
	{
	"epoch": 0.03693495038588754,
	"grad_norm": 0.33515268564224243,
	"learning_rate": 0.000295273631840796,
	"loss": 0.6581,
	"step": 67
	},
	{
	"epoch": 0.037486218302094816,
	"grad_norm": 0.3196898400783539,
	"learning_rate": 0.00029519071310116083,
	"loss": 0.6134,
	"step": 68
	},
	{
	"epoch": 0.038037486218302094,
	"grad_norm": 0.3255867660045624,
	"learning_rate": 0.0002951077943615257,
	"loss": 0.6176,
	"step": 69
	},
	{
	"epoch": 0.03858875413450937,
	"grad_norm": 0.3257988691329956,
	"learning_rate": 0.0002950248756218905,
	"loss": 0.6214,
	"step": 70
	},
	{
	"epoch": 0.03914002205071665,
	"grad_norm": 0.29037123918533325,
	"learning_rate": 0.00029494195688225535,
	"loss": 0.6098,
	"step": 71
	},
	{
	"epoch": 0.03969128996692393,
	"grad_norm": 0.3127928674221039,
	"learning_rate": 0.0002948590381426202,
	"loss": 0.6532,
	"step": 72
	},
	{
	"epoch": 0.0402425578831312,
	"grad_norm": 0.2821784019470215,
	"learning_rate": 0.00029477611940298507,
	"loss": 0.6101,
	"step": 73
	},
	{
	"epoch": 0.040793825799338476,
	"grad_norm": 0.2889716923236847,
	"learning_rate": 0.0002946932006633499,
	"loss": 0.6097,
	"step": 74
	},
	{
	"epoch": 0.041345093715545754,
	"grad_norm": 0.3002908527851105,
	"learning_rate": 0.00029461028192371473,
	"loss": 0.626,
	"step": 75
	},
	{
	"epoch": 0.04189636163175303,
	"grad_norm": 0.2943056523799896,
	"learning_rate": 0.0002945273631840796,
	"loss": 0.6061,
	"step": 76
	},
	{
	"epoch": 0.04244762954796031,
	"grad_norm": 0.31590160727500916,
	"learning_rate": 0.00029444444444444445,
	"loss": 0.6279,
	"step": 77
	},
	{
	"epoch": 0.04299889746416759,
	"grad_norm": 0.31002211570739746,
	"learning_rate": 0.00029436152570480926,
	"loss": 0.6066,
	"step": 78
	},
	{
	"epoch": 0.043550165380374865,
	"grad_norm": 0.27883172035217285,
	"learning_rate": 0.0002942786069651741,
	"loss": 0.6053,
	"step": 79
	},
	{
	"epoch": 0.044101433296582136,
	"grad_norm": 0.3098636567592621,
	"learning_rate": 0.0002941956882255389,
	"loss": 0.6041,
	"step": 80
	},
	{
	"epoch": 0.044652701212789414,
	"grad_norm": 0.31574317812919617,
	"learning_rate": 0.0002941127694859038,
	"loss": 0.6132,
	"step": 81
	},
	{
	"epoch": 0.04520396912899669,
	"grad_norm": 0.2871106266975403,
	"learning_rate": 0.00029402985074626864,
	"loss": 0.5759,
	"step": 82
	},
	{
	"epoch": 0.04575523704520397,
	"grad_norm": 0.2808583676815033,
	"learning_rate": 0.0002939469320066335,
	"loss": 0.583,
	"step": 83
	},
	{
	"epoch": 0.04630650496141125,
	"grad_norm": 0.29489415884017944,
	"learning_rate": 0.0002938640132669983,
	"loss": 0.6018,
	"step": 84
	},
	{
	"epoch": 0.046857772877618525,
	"grad_norm": 0.28468286991119385,
	"learning_rate": 0.00029378109452736316,
	"loss": 0.602,
	"step": 85
	},
	{
	"epoch": 0.047409040793825796,
	"grad_norm": 0.28690364956855774,
	"learning_rate": 0.000293698175787728,
	"loss": 0.5802,
	"step": 86
	},
	{
	"epoch": 0.047960308710033074,
	"grad_norm": 0.30015993118286133,
	"learning_rate": 0.0002936152570480929,
	"loss": 0.5889,
	"step": 87
	},
	{
	"epoch": 0.04851157662624035,
	"grad_norm": 0.3080478310585022,
	"learning_rate": 0.0002935323383084577,
	"loss": 0.6106,
	"step": 88
	},
	{
	"epoch": 0.04906284454244763,
	"grad_norm": 0.2852279245853424,
	"learning_rate": 0.00029344941956882254,
	"loss": 0.5902,
	"step": 89
	},
	{
	"epoch": 0.04961411245865491,
	"grad_norm": 0.2944631278514862,
	"learning_rate": 0.00029336650082918735,
	"loss": 0.6222,
	"step": 90
	},
	{
	"epoch": 0.050165380374862185,
	"grad_norm": 0.29476436972618103,
	"learning_rate": 0.0002932835820895522,
	"loss": 0.6151,
	"step": 91
	},
	{
	"epoch": 0.050716648291069456,
	"grad_norm": 0.2786809802055359,
	"learning_rate": 0.00029320066334991707,
	"loss": 0.5801,
	"step": 92
	},
	{
	"epoch": 0.051267916207276734,
	"grad_norm": 0.27844133973121643,
	"learning_rate": 0.0002931177446102819,
	"loss": 0.5708,
	"step": 93
	},
	{
	"epoch": 0.05181918412348401,
	"grad_norm": 0.2947113811969757,
	"learning_rate": 0.00029303482587064673,
	"loss": 0.5951,
	"step": 94
	},
	{
	"epoch": 0.05237045203969129,
	"grad_norm": 0.2926524877548218,
	"learning_rate": 0.0002929519071310116,
	"loss": 0.6281,
	"step": 95
	},
	{
	"epoch": 0.05292171995589857,
	"grad_norm": 0.27508488297462463,
	"learning_rate": 0.00029286898839137645,
	"loss": 0.5769,
	"step": 96
	},
	{
	"epoch": 0.053472987872105845,
	"grad_norm": 0.2983228862285614,
	"learning_rate": 0.0002927860696517413,
	"loss": 0.5808,
	"step": 97
	},
	{
	"epoch": 0.05402425578831312,
	"grad_norm": 0.28955212235450745,
	"learning_rate": 0.0002927031509121061,
	"loss": 0.6009,
	"step": 98
	},
	{
	"epoch": 0.054575523704520394,
	"grad_norm": 0.30267390608787537,
	"learning_rate": 0.0002926202321724709,
	"loss": 0.5938,
	"step": 99
	},
	{
	"epoch": 0.05512679162072767,
	"grad_norm": 0.2869952917098999,
	"learning_rate": 0.0002925373134328358,
	"loss": 0.5695,
	"step": 100
	},
	{
	"epoch": 0.05567805953693495,
	"grad_norm": 0.28908076882362366,
	"learning_rate": 0.00029245439469320064,
	"loss": 0.5904,
	"step": 101
	},
	{
	"epoch": 0.05622932745314223,
	"grad_norm": 0.2866143584251404,
	"learning_rate": 0.0002923714759535655,
	"loss": 0.5945,
	"step": 102
	},
	{
	"epoch": 0.056780595369349506,
	"grad_norm": 0.2788505554199219,
	"learning_rate": 0.0002922885572139303,
	"loss": 0.5861,
	"step": 103
	},
	{
	"epoch": 0.05733186328555678,
	"grad_norm": 0.2852947413921356,
	"learning_rate": 0.00029220563847429516,
	"loss": 0.6012,
	"step": 104
	},
	{
	"epoch": 0.057883131201764054,
	"grad_norm": 0.27692896127700806,
	"learning_rate": 0.00029212271973466,
	"loss": 0.5797,
	"step": 105
	},
	{
	"epoch": 0.05843439911797133,
	"grad_norm": 0.27395880222320557,
	"learning_rate": 0.0002920398009950249,
	"loss": 0.5854,
	"step": 106
	},
	{
	"epoch": 0.05898566703417861,
	"grad_norm": 0.2730069160461426,
	"learning_rate": 0.0002919568822553897,
	"loss": 0.5882,
	"step": 107
	},
	{
	"epoch": 0.05953693495038589,
	"grad_norm": 0.2808207869529724,
	"learning_rate": 0.00029187396351575454,
	"loss": 0.5868,
	"step": 108
	},
	{
	"epoch": 0.060088202866593166,
	"grad_norm": 0.26693934202194214,
	"learning_rate": 0.00029179104477611935,
	"loss": 0.5656,
	"step": 109
	},
	{
	"epoch": 0.06063947078280044,
	"grad_norm": 0.29277607798576355,
	"learning_rate": 0.0002917081260364842,
	"loss": 0.608,
	"step": 110
	},
	{
	"epoch": 0.061190738699007714,
	"grad_norm": 0.29922837018966675,
	"learning_rate": 0.00029162520729684907,
	"loss": 0.5952,
	"step": 111
	},
	{
	"epoch": 0.06174200661521499,
	"grad_norm": 0.26753753423690796,
	"learning_rate": 0.0002915422885572139,
	"loss": 0.5964,
	"step": 112
	},
	{
	"epoch": 0.06229327453142227,
	"grad_norm": 0.2910638451576233,
	"learning_rate": 0.00029145936981757873,
	"loss": 0.5822,
	"step": 113
	},
	{
	"epoch": 0.06284454244762955,
	"grad_norm": 0.3202199339866638,
	"learning_rate": 0.0002913764510779436,
	"loss": 0.5927,
	"step": 114
	},
	{
	"epoch": 0.06339581036383682,
	"grad_norm": 0.26713207364082336,
	"learning_rate": 0.00029129353233830845,
	"loss": 0.5698,
	"step": 115
	},
	{
	"epoch": 0.0639470782800441,
	"grad_norm": 0.3109968304634094,
	"learning_rate": 0.0002912106135986733,
	"loss": 0.5954,
	"step": 116
	},
	{
	"epoch": 0.06449834619625137,
	"grad_norm": 0.30233150720596313,
	"learning_rate": 0.0002911276948590381,
	"loss": 0.5941,
	"step": 117
	},
	{
	"epoch": 0.06504961411245866,
	"grad_norm": 0.28545138239860535,
	"learning_rate": 0.00029104477611940297,
	"loss": 0.5773,
	"step": 118
	},
	{
	"epoch": 0.06560088202866593,
	"grad_norm": 0.29633569717407227,
	"learning_rate": 0.0002909618573797678,
	"loss": 0.6014,
	"step": 119
	},
	{
	"epoch": 0.06615214994487321,
	"grad_norm": 0.29278406500816345,
	"learning_rate": 0.00029087893864013264,
	"loss": 0.6001,
	"step": 120
	},
	{
	"epoch": 0.06670341786108049,
	"grad_norm": 0.29871347546577454,
	"learning_rate": 0.0002907960199004975,
	"loss": 0.629,
	"step": 121
	},
	{
	"epoch": 0.06725468577728776,
	"grad_norm": 0.27272510528564453,
	"learning_rate": 0.00029071310116086235,
	"loss": 0.5502,
	"step": 122
	},
	{
	"epoch": 0.06780595369349504,
	"grad_norm": 0.2796414792537689,
	"learning_rate": 0.00029063018242122716,
	"loss": 0.5712,
	"step": 123
	},
	{
	"epoch": 0.06835722160970231,
	"grad_norm": 0.277700811624527,
	"learning_rate": 0.000290547263681592,
	"loss": 0.5654,
	"step": 124
	},
	{
	"epoch": 0.0689084895259096,
	"grad_norm": 0.2710396647453308,
	"learning_rate": 0.0002904643449419569,
	"loss": 0.5866,
	"step": 125
	},
	{
	"epoch": 0.06945975744211687,
	"grad_norm": 0.28910425305366516,
	"learning_rate": 0.00029038142620232174,
	"loss": 0.5679,
	"step": 126
	},
	{
	"epoch": 0.07001102535832414,
	"grad_norm": 0.2892954647541046,
	"learning_rate": 0.00029029850746268654,
	"loss": 0.5915,
	"step": 127
	},
	{
	"epoch": 0.07056229327453142,
	"grad_norm": 0.3241787552833557,
	"learning_rate": 0.0002902155887230514,
	"loss": 0.5818,
	"step": 128
	},
	{
	"epoch": 0.0711135611907387,
	"grad_norm": 0.29878735542297363,
	"learning_rate": 0.0002901326699834162,
	"loss": 0.5813,
	"step": 129
	},
	{
	"epoch": 0.07166482910694598,
	"grad_norm": 0.27833399176597595,
	"learning_rate": 0.00029004975124378106,
	"loss": 0.5865,
	"step": 130
	},
	{
	"epoch": 0.07221609702315325,
	"grad_norm": 0.3239665627479553,
	"learning_rate": 0.0002899668325041459,
	"loss": 0.5898,
	"step": 131
	},
	{
	"epoch": 0.07276736493936053,
	"grad_norm": 0.31001126766204834,
	"learning_rate": 0.0002898839137645108,
	"loss": 0.577,
	"step": 132
	},
	{
	"epoch": 0.0733186328555678,
	"grad_norm": 0.2673737704753876,
	"learning_rate": 0.0002898009950248756,
	"loss": 0.5684,
	"step": 133
	},
	{
	"epoch": 0.07386990077177508,
	"grad_norm": 0.3218002915382385,
	"learning_rate": 0.00028971807628524045,
	"loss": 0.5826,
	"step": 134
	},
	{
	"epoch": 0.07442116868798236,
	"grad_norm": 0.2867553234100342,
	"learning_rate": 0.00028963515754560525,
	"loss": 0.5679,
	"step": 135
	},
	{
	"epoch": 0.07497243660418963,
	"grad_norm": 0.2790491282939911,
	"learning_rate": 0.00028955223880597017,
	"loss": 0.5532,
	"step": 136
	},
	{
	"epoch": 0.07552370452039692,
	"grad_norm": 0.3101596534252167,
	"learning_rate": 0.00028946932006633497,
	"loss": 0.616,
	"step": 137
	},
	{
	"epoch": 0.07607497243660419,
	"grad_norm": 0.2670627534389496,
	"learning_rate": 0.00028938640132669983,
	"loss": 0.5147,
	"step": 138
	},
	{
	"epoch": 0.07662624035281147,
	"grad_norm": 0.28873148560523987,
	"learning_rate": 0.00028930348258706463,
	"loss": 0.5723,
	"step": 139
	},
	{
	"epoch": 0.07717750826901874,
	"grad_norm": 0.3042322099208832,
	"learning_rate": 0.0002892205638474295,
	"loss": 0.5483,
	"step": 140
	},
	{
	"epoch": 0.07772877618522601,
	"grad_norm": 0.30197396874427795,
	"learning_rate": 0.00028913764510779435,
	"loss": 0.5731,
	"step": 141
	},
	{
	"epoch": 0.0782800441014333,
	"grad_norm": 0.2676428258419037,
	"learning_rate": 0.0002890547263681592,
	"loss": 0.5384,
	"step": 142
	},
	{
	"epoch": 0.07883131201764057,
	"grad_norm": 0.2983885705471039,
	"learning_rate": 0.000288971807628524,
	"loss": 0.5777,
	"step": 143
	},
	{
	"epoch": 0.07938257993384785,
	"grad_norm": 0.3119770586490631,
	"learning_rate": 0.0002888888888888888,
	"loss": 0.5682,
	"step": 144
	},
	{
	"epoch": 0.07993384785005513,
	"grad_norm": 0.28664880990982056,
	"learning_rate": 0.0002888059701492537,
	"loss": 0.5875,
	"step": 145
	},
	{
	"epoch": 0.0804851157662624,
	"grad_norm": 0.2691631615161896,
	"learning_rate": 0.00028872305140961854,
	"loss": 0.5841,
	"step": 146
	},
	{
	"epoch": 0.08103638368246968,
	"grad_norm": 0.29469335079193115,
	"learning_rate": 0.0002886401326699834,
	"loss": 0.6111,
	"step": 147
	},
	{
	"epoch": 0.08158765159867695,
	"grad_norm": 0.27499398589134216,
	"learning_rate": 0.0002885572139303482,
	"loss": 0.5984,
	"step": 148
	},
	{
	"epoch": 0.08213891951488424,
	"grad_norm": 0.2869040369987488,
	"learning_rate": 0.00028847429519071306,
	"loss": 0.5862,
	"step": 149
	},
	{
	"epoch": 0.08269018743109151,
	"grad_norm": 0.25979968905448914,
	"learning_rate": 0.0002883913764510779,
	"loss": 0.5948,
	"step": 150
	},
	{
	"epoch": 0.08324145534729879,
	"grad_norm": 0.2581140398979187,
	"learning_rate": 0.0002883084577114428,
	"loss": 0.543,
	"step": 151
	},
	{
	"epoch": 0.08379272326350606,
	"grad_norm": 0.3241422474384308,
	"learning_rate": 0.0002882255389718076,
	"loss": 0.5584,
	"step": 152
	},
	{
	"epoch": 0.08434399117971333,
	"grad_norm": 0.3122616112232208,
	"learning_rate": 0.00028814262023217245,
	"loss": 0.6101,
	"step": 153
	},
	{
	"epoch": 0.08489525909592062,
	"grad_norm": 0.28104907274246216,
	"learning_rate": 0.00028805970149253725,
	"loss": 0.5721,
	"step": 154
	},
	{
	"epoch": 0.08544652701212789,
	"grad_norm": 0.32965442538261414,
	"learning_rate": 0.0002879767827529021,
	"loss": 0.5396,
	"step": 155
	},
	{
	"epoch": 0.08599779492833518,
	"grad_norm": 0.32811254262924194,
	"learning_rate": 0.00028789386401326697,
	"loss": 0.5819,
	"step": 156
	},
	{
	"epoch": 0.08654906284454245,
	"grad_norm": 0.3046472668647766,
	"learning_rate": 0.00028781094527363183,
	"loss": 0.5756,
	"step": 157
	},
	{
	"epoch": 0.08710033076074973,
	"grad_norm": 0.308413028717041,
	"learning_rate": 0.00028772802653399663,
	"loss": 0.611,
	"step": 158
	},
	{
	"epoch": 0.087651598676957,
	"grad_norm": 0.2636229693889618,
	"learning_rate": 0.0002876451077943615,
	"loss": 0.5608,
	"step": 159
	},
	{
	"epoch": 0.08820286659316427,
	"grad_norm": 0.29085874557495117,
	"learning_rate": 0.00028756218905472635,
	"loss": 0.553,
	"step": 160
	},
	{
	"epoch": 0.08875413450937156,
	"grad_norm": 0.2887280285358429,
	"learning_rate": 0.0002874792703150912,
	"loss": 0.5958,
	"step": 161
	},
	{
	"epoch": 0.08930540242557883,
	"grad_norm": 0.26728978753089905,
	"learning_rate": 0.000287396351575456,
	"loss": 0.5487,
	"step": 162
	},
	{
	"epoch": 0.08985667034178611,
	"grad_norm": 0.25967663526535034,
	"learning_rate": 0.0002873134328358209,
	"loss": 0.5657,
	"step": 163
	},
	{
	"epoch": 0.09040793825799338,
	"grad_norm": 0.2513408064842224,
	"learning_rate": 0.0002872305140961857,
	"loss": 0.5358,
	"step": 164
	},
	{
	"epoch": 0.09095920617420065,
	"grad_norm": 0.28536808490753174,
	"learning_rate": 0.00028714759535655054,
	"loss": 0.6057,
	"step": 165
	},
	{
	"epoch": 0.09151047409040794,
	"grad_norm": 0.28766608238220215,
	"learning_rate": 0.0002870646766169154,
	"loss": 0.6108,
	"step": 166
	},
	{
	"epoch": 0.09206174200661521,
	"grad_norm": 0.25628137588500977,
	"learning_rate": 0.00028698175787728026,
	"loss": 0.53,
	"step": 167
	},
	{
	"epoch": 0.0926130099228225,
	"grad_norm": 0.2983819246292114,
	"learning_rate": 0.00028689883913764506,
	"loss": 0.5997,
	"step": 168
	},
	{
	"epoch": 0.09316427783902977,
	"grad_norm": 0.27762502431869507,
	"learning_rate": 0.0002868159203980099,
	"loss": 0.5833,
	"step": 169
	},
	{
	"epoch": 0.09371554575523705,
	"grad_norm": 0.28496429324150085,
	"learning_rate": 0.0002867330016583748,
	"loss": 0.5863,
	"step": 170
	},
	{
	"epoch": 0.09426681367144432,
	"grad_norm": 0.26081910729408264,
	"learning_rate": 0.00028665008291873964,
	"loss": 0.5943,
	"step": 171
	},
	{
	"epoch": 0.09481808158765159,
	"grad_norm": 0.27544835209846497,
	"learning_rate": 0.00028656716417910444,
	"loss": 0.6175,
	"step": 172
	},
	{
	"epoch": 0.09536934950385888,
	"grad_norm": 0.2690446972846985,
	"learning_rate": 0.0002864842454394693,
	"loss": 0.5473,
	"step": 173
	},
	{
	"epoch": 0.09592061742006615,
	"grad_norm": 0.2816300690174103,
	"learning_rate": 0.0002864013266998341,
	"loss": 0.5908,
	"step": 174
	},
	{
	"epoch": 0.09647188533627343,
	"grad_norm": 0.26558321714401245,
	"learning_rate": 0.00028631840796019897,
	"loss": 0.5711,
	"step": 175
	},
	{
	"epoch": 0.0970231532524807,
	"grad_norm": 0.2692832946777344,
	"learning_rate": 0.0002862354892205638,
	"loss": 0.5731,
	"step": 176
	},
	{
	"epoch": 0.09757442116868799,
	"grad_norm": 0.2814270555973053,
	"learning_rate": 0.0002861525704809287,
	"loss": 0.5353,
	"step": 177
	},
	{
	"epoch": 0.09812568908489526,
	"grad_norm": 0.26562657952308655,
	"learning_rate": 0.0002860696517412935,
	"loss": 0.5955,
	"step": 178
	},
	{
	"epoch": 0.09867695700110253,
	"grad_norm": 0.2592059075832367,
	"learning_rate": 0.00028598673300165835,
	"loss": 0.5617,
	"step": 179
	},
	{
	"epoch": 0.09922822491730982,
	"grad_norm": 0.26579222083091736,
	"learning_rate": 0.0002859038142620232,
	"loss": 0.5725,
	"step": 180
	},
	{
	"epoch": 0.09977949283351709,
	"grad_norm": 0.2731139063835144,
	"learning_rate": 0.00028582089552238807,
	"loss": 0.5614,
	"step": 181
	},
	{
	"epoch": 0.10033076074972437,
	"grad_norm": 0.2470698207616806,
	"learning_rate": 0.00028573797678275287,
	"loss": 0.5347,
	"step": 182
	},
	{
	"epoch": 0.10088202866593164,
	"grad_norm": 0.24656972289085388,
	"learning_rate": 0.00028565505804311773,
	"loss": 0.5481,
	"step": 183
	},
	{
	"epoch": 0.10143329658213891,
	"grad_norm": 0.2857254445552826,
	"learning_rate": 0.00028557213930348254,
	"loss": 0.602,
	"step": 184
	},
	{
	"epoch": 0.1019845644983462,
	"grad_norm": 0.27286651730537415,
	"learning_rate": 0.0002854892205638474,
	"loss": 0.5585,
	"step": 185
	},
	{
	"epoch": 0.10253583241455347,
	"grad_norm": 0.2675493359565735,
	"learning_rate": 0.00028540630182421225,
	"loss": 0.567,
	"step": 186
	},
	{
	"epoch": 0.10308710033076075,
	"grad_norm": 0.26535746455192566,
	"learning_rate": 0.00028532338308457706,
	"loss": 0.5696,
	"step": 187
	},
	{
	"epoch": 0.10363836824696802,
	"grad_norm": 0.2633534371852875,
	"learning_rate": 0.0002852404643449419,
	"loss": 0.5326,
	"step": 188
	},
	{
	"epoch": 0.10418963616317531,
	"grad_norm": 0.2724531292915344,
	"learning_rate": 0.0002851575456053068,
	"loss": 0.5905,
	"step": 189
	},
	{
	"epoch": 0.10474090407938258,
	"grad_norm": 0.2680416405200958,
	"learning_rate": 0.00028507462686567164,
	"loss": 0.5924,
	"step": 190
	},
	{
	"epoch": 0.10529217199558985,
	"grad_norm": 0.28108882904052734,
	"learning_rate": 0.00028499170812603644,
	"loss": 0.5926,
	"step": 191
	},
	{
	"epoch": 0.10584343991179714,
	"grad_norm": 0.2787463366985321,
	"learning_rate": 0.0002849087893864013,
	"loss": 0.5699,
	"step": 192
	},
	{
	"epoch": 0.1063947078280044,
	"grad_norm": 0.2674010396003723,
	"learning_rate": 0.0002848258706467661,
	"loss": 0.587,
	"step": 193
	},
	{
	"epoch": 0.10694597574421169,
	"grad_norm": 0.27142807841300964,
	"learning_rate": 0.00028474295190713097,
	"loss": 0.5762,
	"step": 194
	},
	{
	"epoch": 0.10749724366041896,
	"grad_norm": 0.2817786633968353,
	"learning_rate": 0.0002846600331674958,
	"loss": 0.5672,
	"step": 195
	},
	{
	"epoch": 0.10804851157662625,
	"grad_norm": 0.250627338886261,
	"learning_rate": 0.0002845771144278607,
	"loss": 0.5425,
	"step": 196
	},
	{
	"epoch": 0.10859977949283352,
	"grad_norm": 0.2636951506137848,
	"learning_rate": 0.0002844941956882255,
	"loss": 0.579,
	"step": 197
	},
	{
	"epoch": 0.10915104740904079,
	"grad_norm": 0.2613438665866852,
	"learning_rate": 0.00028441127694859035,
	"loss": 0.5531,
	"step": 198
	},
	{
	"epoch": 0.10970231532524807,
	"grad_norm": 0.28677162528038025,
	"learning_rate": 0.0002843283582089552,
	"loss": 0.5875,
	"step": 199
	},
	{
	"epoch": 0.11025358324145534,
	"grad_norm": 0.2670292258262634,
	"learning_rate": 0.00028424543946932007,
	"loss": 0.5625,
	"step": 200
	},
	{
	"epoch": 0.11080485115766263,
	"grad_norm": 0.23815321922302246,
	"learning_rate": 0.00028416252072968487,
	"loss": 0.5484,
	"step": 201
	},
	{
	"epoch": 0.1113561190738699,
	"grad_norm": 0.2709272503852844,
	"learning_rate": 0.00028407960199004973,
	"loss": 0.5387,
	"step": 202
	},
	{
	"epoch": 0.11190738699007717,
	"grad_norm": 0.25918126106262207,
	"learning_rate": 0.00028399668325041453,
	"loss": 0.5686,
	"step": 203
	},
	{
	"epoch": 0.11245865490628446,
	"grad_norm": 0.27118560671806335,
	"learning_rate": 0.0002839137645107794,
	"loss": 0.5637,
	"step": 204
	},
	{
	"epoch": 0.11300992282249173,
	"grad_norm": 0.26395100355148315,
	"learning_rate": 0.00028383084577114425,
	"loss": 0.5499,
	"step": 205
	},
	{
	"epoch": 0.11356119073869901,
	"grad_norm": 0.272989422082901,
	"learning_rate": 0.0002837479270315091,
	"loss": 0.5606,
	"step": 206
	},
	{
	"epoch": 0.11411245865490628,
	"grad_norm": 0.2708880603313446,
	"learning_rate": 0.0002836650082918739,
	"loss": 0.534,
	"step": 207
	},
	{
	"epoch": 0.11466372657111357,
	"grad_norm": 0.28653857111930847,
	"learning_rate": 0.0002835820895522388,
	"loss": 0.5727,
	"step": 208
	},
	{
	"epoch": 0.11521499448732084,
	"grad_norm": 0.2767845392227173,
	"learning_rate": 0.00028349917081260364,
	"loss": 0.5664,
	"step": 209
	},
	{
	"epoch": 0.11576626240352811,
	"grad_norm": 0.27690836787223816,
	"learning_rate": 0.0002834162520729685,
	"loss": 0.5656,
	"step": 210
	},
	{
	"epoch": 0.1163175303197354,
	"grad_norm": 0.2831721007823944,
	"learning_rate": 0.0002833333333333333,
	"loss": 0.596,
	"step": 211
	},
	{
	"epoch": 0.11686879823594266,
	"grad_norm": 0.3024809658527374,
	"learning_rate": 0.00028325041459369816,
	"loss": 0.5849,
	"step": 212
	},
	{
	"epoch": 0.11742006615214995,
	"grad_norm": 0.2787605822086334,
	"learning_rate": 0.00028316749585406296,
	"loss": 0.5606,
	"step": 213
	},
	{
	"epoch": 0.11797133406835722,
	"grad_norm": 0.2734401226043701,
	"learning_rate": 0.0002830845771144278,
	"loss": 0.5524,
	"step": 214
	},
	{
	"epoch": 0.1185226019845645,
	"grad_norm": 0.2717944085597992,
	"learning_rate": 0.0002830016583747927,
	"loss": 0.5533,
	"step": 215
	},
	{
	"epoch": 0.11907386990077178,
	"grad_norm": 0.2634055018424988,
	"learning_rate": 0.00028291873963515754,
	"loss": 0.5552,
	"step": 216
	},
	{
	"epoch": 0.11962513781697905,
	"grad_norm": 0.27231520414352417,
	"learning_rate": 0.00028283582089552235,
	"loss": 0.5608,
	"step": 217
	},
	{
	"epoch": 0.12017640573318633,
	"grad_norm": 0.2709995210170746,
	"learning_rate": 0.0002827529021558872,
	"loss": 0.5608,
	"step": 218
	},
	{
	"epoch": 0.1207276736493936,
	"grad_norm": 0.24507290124893188,
	"learning_rate": 0.00028266998341625206,
	"loss": 0.5324,
	"step": 219
	},
	{
	"epoch": 0.12127894156560089,
	"grad_norm": 0.26341697573661804,
	"learning_rate": 0.0002825870646766169,
	"loss": 0.5686,
	"step": 220
	},
	{
	"epoch": 0.12183020948180816,
	"grad_norm": 0.2655317783355713,
	"learning_rate": 0.00028250414593698173,
	"loss": 0.5792,
	"step": 221
	},
	{
	"epoch": 0.12238147739801543,
	"grad_norm": 0.263235867023468,
	"learning_rate": 0.0002824212271973466,
	"loss": 0.5633,
	"step": 222
	},
	{
	"epoch": 0.12293274531422271,
	"grad_norm": 0.28087055683135986,
	"learning_rate": 0.0002823383084577114,
	"loss": 0.559,
	"step": 223
	},
	{
	"epoch": 0.12348401323042998,
	"grad_norm": 0.2734236717224121,
	"learning_rate": 0.00028225538971807625,
	"loss": 0.5772,
	"step": 224
	},
	{
	"epoch": 0.12403528114663727,
	"grad_norm": 0.2594766318798065,
	"learning_rate": 0.0002821724709784411,
	"loss": 0.5698,
	"step": 225
	},
	{
	"epoch": 0.12458654906284454,
	"grad_norm": 0.2490595132112503,
	"learning_rate": 0.00028208955223880597,
	"loss": 0.5419,
	"step": 226
	},
	{
	"epoch": 0.12513781697905182,
	"grad_norm": 0.25069767236709595,
	"learning_rate": 0.0002820066334991708,
	"loss": 0.531,
	"step": 227
	},
	{
	"epoch": 0.1256890848952591,
	"grad_norm": 0.2518230080604553,
	"learning_rate": 0.00028192371475953563,
	"loss": 0.5509,
	"step": 228
	},
	{
	"epoch": 0.12624035281146637,
	"grad_norm": 0.2488110512495041,
	"learning_rate": 0.0002818407960199005,
	"loss": 0.5341,
	"step": 229
	},
	{
	"epoch": 0.12679162072767364,
	"grad_norm": 0.26115381717681885,
	"learning_rate": 0.00028175787728026535,
	"loss": 0.5433,
	"step": 230
	},
	{
	"epoch": 0.12734288864388094,
	"grad_norm": 0.24792101979255676,
	"learning_rate": 0.00028167495854063016,
	"loss": 0.5672,
	"step": 231
	},
	{
	"epoch": 0.1278941565600882,
	"grad_norm": 0.2637925148010254,
	"learning_rate": 0.00028159203980099496,
	"loss": 0.5868,
	"step": 232
	},
	{
	"epoch": 0.12844542447629548,
	"grad_norm": 0.2799462676048279,
	"learning_rate": 0.0002815091210613598,
	"loss": 0.5514,
	"step": 233
	},
	{
	"epoch": 0.12899669239250275,
	"grad_norm": 0.2809968590736389,
	"learning_rate": 0.0002814262023217247,
	"loss": 0.5847,
	"step": 234
	},
	{
	"epoch": 0.12954796030871002,
	"grad_norm": 0.27108708024024963,
	"learning_rate": 0.00028134328358208954,
	"loss": 0.5718,
	"step": 235
	},
	{
	"epoch": 0.13009922822491732,
	"grad_norm": 0.2557702660560608,
	"learning_rate": 0.00028126036484245434,
	"loss": 0.575,
	"step": 236
	},
	{
	"epoch": 0.1306504961411246,
	"grad_norm": 0.2593226134777069,
	"learning_rate": 0.0002811774461028192,
	"loss": 0.5534,
	"step": 237
	},
	{
	"epoch": 0.13120176405733186,
	"grad_norm": 0.2657114565372467,
	"learning_rate": 0.00028109452736318406,
	"loss": 0.5605,
	"step": 238
	},
	{
	"epoch": 0.13175303197353913,
	"grad_norm": 0.25616228580474854,
	"learning_rate": 0.0002810116086235489,
	"loss": 0.5227,
	"step": 239
	},
	{
	"epoch": 0.13230429988974643,
	"grad_norm": 0.2749009430408478,
	"learning_rate": 0.0002809286898839137,
	"loss": 0.536,
	"step": 240
	},
	{
	"epoch": 0.1328555678059537,
	"grad_norm": 0.2617826759815216,
	"learning_rate": 0.0002808457711442786,
	"loss": 0.5602,
	"step": 241
	},
	{
	"epoch": 0.13340683572216097,
	"grad_norm": 0.2576202154159546,
	"learning_rate": 0.0002807628524046434,
	"loss": 0.5205,
	"step": 242
	},
	{
	"epoch": 0.13395810363836824,
	"grad_norm": 0.2764850854873657,
	"learning_rate": 0.00028067993366500825,
	"loss": 0.5752,
	"step": 243
	},
	{
	"epoch": 0.1345093715545755,
	"grad_norm": 0.2652502954006195,
	"learning_rate": 0.0002805970149253731,
	"loss": 0.5495,
	"step": 244
	},
	{
	"epoch": 0.1350606394707828,
	"grad_norm": 0.24600890278816223,
	"learning_rate": 0.00028051409618573797,
	"loss": 0.5146,
	"step": 245
	},
	{
	"epoch": 0.13561190738699008,
	"grad_norm": 0.253635048866272,
	"learning_rate": 0.0002804311774461028,
	"loss": 0.5483,
	"step": 246
	},
	{
	"epoch": 0.13616317530319735,
	"grad_norm": 0.24037104845046997,
	"learning_rate": 0.00028034825870646763,
	"loss": 0.5624,
	"step": 247
	},
	{
	"epoch": 0.13671444321940462,
	"grad_norm": 0.24676042795181274,
	"learning_rate": 0.0002802653399668325,
	"loss": 0.537,
	"step": 248
	},
	{
	"epoch": 0.1372657111356119,
	"grad_norm": 0.25283971428871155,
	"learning_rate": 0.00028018242122719735,
	"loss": 0.5705,
	"step": 249
	},
	{
	"epoch": 0.1378169790518192,
	"grad_norm": 0.2672947347164154,
	"learning_rate": 0.00028009950248756216,
	"loss": 0.5699,
	"step": 250
	},
	{
	"epoch": 0.13836824696802646,
	"grad_norm": 0.25930237770080566,
	"learning_rate": 0.000280016583747927,
	"loss": 0.5581,
	"step": 251
	},
	{
	"epoch": 0.13891951488423374,
	"grad_norm": 0.24674735963344574,
	"learning_rate": 0.0002799336650082918,
	"loss": 0.5282,
	"step": 252
	},
	{
	"epoch": 0.139470782800441,
	"grad_norm": 0.2826119065284729,
	"learning_rate": 0.0002798507462686567,
	"loss": 0.5261,
	"step": 253
	},
	{
	"epoch": 0.14002205071664828,
	"grad_norm": 0.290584534406662,
	"learning_rate": 0.00027976782752902154,
	"loss": 0.5245,
	"step": 254
	},
	{
	"epoch": 0.14057331863285558,
	"grad_norm": 0.25072574615478516,
	"learning_rate": 0.0002796849087893864,
	"loss": 0.5264,
	"step": 255
	},
	{
	"epoch": 0.14112458654906285,
	"grad_norm": 0.24929046630859375,
	"learning_rate": 0.0002796019900497512,
	"loss": 0.5698,
	"step": 256
	},
	{
	"epoch": 0.14167585446527012,
	"grad_norm": 0.24978522956371307,
	"learning_rate": 0.00027951907131011606,
	"loss": 0.5269,
	"step": 257
	},
	{
	"epoch": 0.1422271223814774,
	"grad_norm": 0.26195666193962097,
	"learning_rate": 0.0002794361525704809,
	"loss": 0.5801,
	"step": 258
	},
	{
	"epoch": 0.1427783902976847,
	"grad_norm": 0.27321335673332214,
	"learning_rate": 0.0002793532338308458,
	"loss": 0.5556,
	"step": 259
	},
	{
	"epoch": 0.14332965821389196,
	"grad_norm": 0.2694965898990631,
	"learning_rate": 0.0002792703150912106,
	"loss": 0.5715,
	"step": 260
	},
	{
	"epoch": 0.14388092613009923,
	"grad_norm": 0.2757553160190582,
	"learning_rate": 0.00027918739635157544,
	"loss": 0.5645,
	"step": 261
	},
	{
	"epoch": 0.1444321940463065,
	"grad_norm": 0.2602946162223816,
	"learning_rate": 0.00027910447761194025,
	"loss": 0.5703,
	"step": 262
	},
	{
	"epoch": 0.14498346196251377,
	"grad_norm": 0.24068838357925415,
	"learning_rate": 0.0002790215588723051,
	"loss": 0.5168,
	"step": 263
	},
	{
	"epoch": 0.14553472987872107,
	"grad_norm": 0.26140162348747253,
	"learning_rate": 0.00027893864013266997,
	"loss": 0.5271,
	"step": 264
	},
	{
	"epoch": 0.14608599779492834,
	"grad_norm": 0.26940983533859253,
	"learning_rate": 0.0002788557213930348,
	"loss": 0.5571,
	"step": 265
	},
	{
	"epoch": 0.1466372657111356,
	"grad_norm": 0.24524417519569397,
	"learning_rate": 0.00027877280265339963,
	"loss": 0.5227,
	"step": 266
	},
	{
	"epoch": 0.14718853362734288,
	"grad_norm": 0.2636984884738922,
	"learning_rate": 0.0002786898839137645,
	"loss": 0.5335,
	"step": 267
	},
	{
	"epoch": 0.14773980154355015,
	"grad_norm": 0.24600271880626678,
	"learning_rate": 0.00027860696517412935,
	"loss": 0.5601,
	"step": 268
	},
	{
	"epoch": 0.14829106945975745,
	"grad_norm": 0.24977444112300873,
	"learning_rate": 0.0002785240464344942,
	"loss": 0.5437,
	"step": 269
	},
	{
	"epoch": 0.14884233737596472,
	"grad_norm": 0.27960002422332764,
	"learning_rate": 0.000278441127694859,
	"loss": 0.548,
	"step": 270
	},
	{
	"epoch": 0.149393605292172,
	"grad_norm": 0.2514914870262146,
	"learning_rate": 0.00027835820895522387,
	"loss": 0.5335,
	"step": 271
	},
	{
	"epoch": 0.14994487320837926,
	"grad_norm": 0.2503030300140381,
	"learning_rate": 0.0002782752902155887,
	"loss": 0.5538,
	"step": 272
	},
	{
	"epoch": 0.15049614112458654,
	"grad_norm": 0.28311678767204285,
	"learning_rate": 0.00027819237147595354,
	"loss": 0.5649,
	"step": 273
	},
	{
	"epoch": 0.15104740904079383,
	"grad_norm": 0.27529653906822205,
	"learning_rate": 0.0002781094527363184,
	"loss": 0.5432,
	"step": 274
	},
	{
	"epoch": 0.1515986769570011,
	"grad_norm": 0.266111820936203,
	"learning_rate": 0.0002780265339966832,
	"loss": 0.5475,
	"step": 275
	},
	{
	"epoch": 0.15214994487320838,
	"grad_norm": 0.2525365352630615,
	"learning_rate": 0.00027794361525704806,
	"loss": 0.5252,
	"step": 276
	},
	{
	"epoch": 0.15270121278941565,
	"grad_norm": 0.2655681371688843,
	"learning_rate": 0.0002778606965174129,
	"loss": 0.5406,
	"step": 277
	},
	{
	"epoch": 0.15325248070562295,
	"grad_norm": 0.29118314385414124,
	"learning_rate": 0.0002777777777777778,
	"loss": 0.5324,
	"step": 278
	},
	{
	"epoch": 0.15380374862183022,
	"grad_norm": 0.2875930070877075,
	"learning_rate": 0.0002776948590381426,
	"loss": 0.5804,
	"step": 279
	},
	{
	"epoch": 0.1543550165380375,
	"grad_norm": 0.26764920353889465,
	"learning_rate": 0.00027761194029850744,
	"loss": 0.5391,
	"step": 280
	},
	{
	"epoch": 0.15490628445424476,
	"grad_norm": 0.2753891348838806,
	"learning_rate": 0.00027752902155887225,
	"loss": 0.5573,
	"step": 281
	},
	{
	"epoch": 0.15545755237045203,
	"grad_norm": 0.26174411177635193,
	"learning_rate": 0.0002774461028192371,
	"loss": 0.5543,
	"step": 282
	},
	{
	"epoch": 0.15600882028665933,
	"grad_norm": 0.25004303455352783,
	"learning_rate": 0.00027736318407960196,
	"loss": 0.5546,
	"step": 283
	},
	{
	"epoch": 0.1565600882028666,
	"grad_norm": 0.2634401023387909,
	"learning_rate": 0.0002772802653399668,
	"loss": 0.524,
	"step": 284
	},
	{
	"epoch": 0.15711135611907387,
	"grad_norm": 0.26751798391342163,
	"learning_rate": 0.00027719734660033163,
	"loss": 0.574,
	"step": 285
	},
	{
	"epoch": 0.15766262403528114,
	"grad_norm": 0.2556850016117096,
	"learning_rate": 0.0002771144278606965,
	"loss": 0.5533,
	"step": 286
	},
	{
	"epoch": 0.1582138919514884,
	"grad_norm": 0.2557762563228607,
	"learning_rate": 0.00027703150912106135,
	"loss": 0.546,
	"step": 287
	},
	{
	"epoch": 0.1587651598676957,
	"grad_norm": 0.25817009806632996,
	"learning_rate": 0.0002769485903814262,
	"loss": 0.5519,
	"step": 288
	},
	{
	"epoch": 0.15931642778390298,
	"grad_norm": 0.26580142974853516,
	"learning_rate": 0.000276865671641791,
	"loss": 0.5438,
	"step": 289
	},
	{
	"epoch": 0.15986769570011025,
	"grad_norm": 0.25780072808265686,
	"learning_rate": 0.00027678275290215587,
	"loss": 0.549,
	"step": 290
	},
	{
	"epoch": 0.16041896361631752,
	"grad_norm": 0.2627890706062317,
	"learning_rate": 0.0002766998341625207,
	"loss": 0.5565,
	"step": 291
	},
	{
	"epoch": 0.1609702315325248,
	"grad_norm": 0.26781341433525085,
	"learning_rate": 0.00027661691542288553,
	"loss": 0.542,
	"step": 292
	},
	{
	"epoch": 0.1615214994487321,
	"grad_norm": 0.253888338804245,
	"learning_rate": 0.0002765339966832504,
	"loss": 0.5424,
	"step": 293
	},
	{
	"epoch": 0.16207276736493936,
	"grad_norm": 0.2835153043270111,
	"learning_rate": 0.00027645107794361525,
	"loss": 0.5354,
	"step": 294
	},
	{
	"epoch": 0.16262403528114663,
	"grad_norm": 0.286640465259552,
	"learning_rate": 0.00027636815920398006,
	"loss": 0.5209,
	"step": 295
	},
	{
	"epoch": 0.1631753031973539,
	"grad_norm": 0.25742077827453613,
	"learning_rate": 0.0002762852404643449,
	"loss": 0.5198,
	"step": 296
	},
	{
	"epoch": 0.1637265711135612,
	"grad_norm": 0.24710626900196075,
	"learning_rate": 0.0002762023217247098,
	"loss": 0.5189,
	"step": 297
	},
	{
	"epoch": 0.16427783902976847,
	"grad_norm": 0.28113001585006714,
	"learning_rate": 0.00027611940298507464,
	"loss": 0.5519,
	"step": 298
	},
	{
	"epoch": 0.16482910694597575,
	"grad_norm": 0.2573966085910797,
	"learning_rate": 0.00027603648424543944,
	"loss": 0.5307,
	"step": 299
	},
	{
	"epoch": 0.16538037486218302,
	"grad_norm": 0.24416916072368622,
	"learning_rate": 0.0002759535655058043,
	"loss": 0.5519,
	"step": 300
	},
	{
	"epoch": 0.1659316427783903,
	"grad_norm": 0.25596654415130615,
	"learning_rate": 0.0002758706467661691,
	"loss": 0.5344,
	"step": 301
	},
	{
	"epoch": 0.16648291069459759,
	"grad_norm": 0.25158900022506714,
	"learning_rate": 0.00027578772802653396,
	"loss": 0.5399,
	"step": 302
	},
	{
	"epoch": 0.16703417861080486,
	"grad_norm": 0.24854016304016113,
	"learning_rate": 0.0002757048092868988,
	"loss": 0.5389,
	"step": 303
	},
	{
	"epoch": 0.16758544652701213,
	"grad_norm": 0.2592412233352661,
	"learning_rate": 0.0002756218905472637,
	"loss": 0.5584,
	"step": 304
	},
	{
	"epoch": 0.1681367144432194,
	"grad_norm": 0.2527318298816681,
	"learning_rate": 0.0002755389718076285,
	"loss": 0.5604,
	"step": 305
	},
	{
	"epoch": 0.16868798235942667,
	"grad_norm": 0.26560983061790466,
	"learning_rate": 0.00027545605306799335,
	"loss": 0.5561,
	"step": 306
	},
	{
	"epoch": 0.16923925027563397,
	"grad_norm": 0.2634880542755127,
	"learning_rate": 0.0002753731343283582,
	"loss": 0.5281,
	"step": 307
	},
	{
	"epoch": 0.16979051819184124,
	"grad_norm": 0.2732850909233093,
	"learning_rate": 0.00027529021558872306,
	"loss": 0.5398,
	"step": 308
	},
	{
	"epoch": 0.1703417861080485,
	"grad_norm": 0.23158006370067596,
	"learning_rate": 0.00027520729684908787,
	"loss": 0.5325,
	"step": 309
	},
	{
	"epoch": 0.17089305402425578,
	"grad_norm": 0.24649128317832947,
	"learning_rate": 0.00027512437810945273,
	"loss": 0.5381,
	"step": 310
	},
	{
	"epoch": 0.17144432194046305,
	"grad_norm": 0.2770949602127075,
	"learning_rate": 0.00027504145936981753,
	"loss": 0.5498,
	"step": 311
	},
	{
	"epoch": 0.17199558985667035,
	"grad_norm": 0.25388598442077637,
	"learning_rate": 0.0002749585406301824,
	"loss": 0.5389,
	"step": 312
	},
	{
	"epoch": 0.17254685777287762,
	"grad_norm": 0.2431599199771881,
	"learning_rate": 0.00027487562189054725,
	"loss": 0.5343,
	"step": 313
	},
	{
	"epoch": 0.1730981256890849,
	"grad_norm": 0.24289795756340027,
	"learning_rate": 0.0002747927031509121,
	"loss": 0.5073,
	"step": 314
	},
	{
	"epoch": 0.17364939360529216,
	"grad_norm": 0.2458408623933792,
	"learning_rate": 0.0002747097844112769,
	"loss": 0.5278,
	"step": 315
	},
	{
	"epoch": 0.17420066152149946,
	"grad_norm": 0.24127742648124695,
	"learning_rate": 0.0002746268656716418,
	"loss": 0.5345,
	"step": 316
	},
	{
	"epoch": 0.17475192943770673,
	"grad_norm": 0.26737701892852783,
	"learning_rate": 0.00027454394693200663,
	"loss": 0.5395,
	"step": 317
	},
	{
	"epoch": 0.175303197353914,
	"grad_norm": 0.26361507177352905,
	"learning_rate": 0.0002744610281923715,
	"loss": 0.5405,
	"step": 318
	},
	{
	"epoch": 0.17585446527012127,
	"grad_norm": 0.24210020899772644,
	"learning_rate": 0.0002743781094527363,
	"loss": 0.5268,
	"step": 319
	},
	{
	"epoch": 0.17640573318632854,
	"grad_norm": 0.2510232627391815,
	"learning_rate": 0.0002742951907131011,
	"loss": 0.5373,
	"step": 320
	},
	{
	"epoch": 0.17695700110253584,
	"grad_norm": 0.23939576745033264,
	"learning_rate": 0.00027421227197346596,
	"loss": 0.5561,
	"step": 321
	},
	{
	"epoch": 0.17750826901874311,
	"grad_norm": 0.273258239030838,
	"learning_rate": 0.0002741293532338308,
	"loss": 0.5507,
	"step": 322
	},
	{
	"epoch": 0.17805953693495039,
	"grad_norm": 0.23547501862049103,
	"learning_rate": 0.0002740464344941957,
	"loss": 0.5293,
	"step": 323
	},
	{
	"epoch": 0.17861080485115766,
	"grad_norm": 0.24796201288700104,
	"learning_rate": 0.0002739635157545605,
	"loss": 0.5378,
	"step": 324
	},
	{
	"epoch": 0.17916207276736493,
	"grad_norm": 0.23436011373996735,
	"learning_rate": 0.00027388059701492534,
	"loss": 0.5432,
	"step": 325
	},
	{
	"epoch": 0.17971334068357223,
	"grad_norm": 0.22892701625823975,
	"learning_rate": 0.0002737976782752902,
	"loss": 0.5221,
	"step": 326
	},
	{
	"epoch": 0.1802646085997795,
	"grad_norm": 0.23817826807498932,
	"learning_rate": 0.00027371475953565506,
	"loss": 0.5284,
	"step": 327
	},
	{
	"epoch": 0.18081587651598677,
	"grad_norm": 0.23703162372112274,
	"learning_rate": 0.00027363184079601987,
	"loss": 0.5223,
	"step": 328
	},
	{
	"epoch": 0.18136714443219404,
	"grad_norm": 0.24087084829807281,
	"learning_rate": 0.0002735489220563847,
	"loss": 0.5489,
	"step": 329
	},
	{
	"epoch": 0.1819184123484013,
	"grad_norm": 0.2529735267162323,
	"learning_rate": 0.00027346600331674953,
	"loss": 0.5485,
	"step": 330
	},
	{
	"epoch": 0.1824696802646086,
	"grad_norm": 0.23450088500976562,
	"learning_rate": 0.0002733830845771144,
	"loss": 0.4971,
	"step": 331
	},
	{
	"epoch": 0.18302094818081588,
	"grad_norm": 0.23895451426506042,
	"learning_rate": 0.00027330016583747925,
	"loss": 0.5165,
	"step": 332
	},
	{
	"epoch": 0.18357221609702315,
	"grad_norm": 0.24417142570018768,
	"learning_rate": 0.0002732172470978441,
	"loss": 0.5491,
	"step": 333
	},
	{
	"epoch": 0.18412348401323042,
	"grad_norm": 0.2527695596218109,
	"learning_rate": 0.0002731343283582089,
	"loss": 0.5255,
	"step": 334
	},
	{
	"epoch": 0.18467475192943772,
	"grad_norm": 0.24978198111057281,
	"learning_rate": 0.00027305140961857377,
	"loss": 0.5389,
	"step": 335
	},
	{
	"epoch": 0.185226019845645,
	"grad_norm": 0.2539977431297302,
	"learning_rate": 0.00027296849087893863,
	"loss": 0.5392,
	"step": 336
	},
	{
	"epoch": 0.18577728776185226,
	"grad_norm": 0.24033623933792114,
	"learning_rate": 0.0002728855721393035,
	"loss": 0.5356,
	"step": 337
	},
	{
	"epoch": 0.18632855567805953,
	"grad_norm": 0.24697022140026093,
	"learning_rate": 0.0002728026533996683,
	"loss": 0.5159,
	"step": 338
	},
	{
	"epoch": 0.1868798235942668,
	"grad_norm": 0.25741416215896606,
	"learning_rate": 0.00027271973466003315,
	"loss": 0.56,
	"step": 339
	},
	{
	"epoch": 0.1874310915104741,
	"grad_norm": 0.2324167639017105,
	"learning_rate": 0.00027263681592039796,
	"loss": 0.5379,
	"step": 340
	},
	{
	"epoch": 0.18798235942668137,
	"grad_norm": 0.24800144135951996,
	"learning_rate": 0.0002725538971807628,
	"loss": 0.5129,
	"step": 341
	},
	{
	"epoch": 0.18853362734288864,
	"grad_norm": 0.26905378699302673,
	"learning_rate": 0.0002724709784411277,
	"loss": 0.5226,
	"step": 342
	},
	{
	"epoch": 0.18908489525909591,
	"grad_norm": 0.25401249527931213,
	"learning_rate": 0.00027238805970149254,
	"loss": 0.5313,
	"step": 343
	},
	{
	"epoch": 0.18963616317530319,
	"grad_norm": 0.24307483434677124,
	"learning_rate": 0.00027230514096185734,
	"loss": 0.5427,
	"step": 344
	},
	{
	"epoch": 0.19018743109151048,
	"grad_norm": 0.25807374715805054,
	"learning_rate": 0.0002722222222222222,
	"loss": 0.524,
	"step": 345
	},
	{
	"epoch": 0.19073869900771775,
	"grad_norm": 0.2321993112564087,
	"learning_rate": 0.00027213930348258706,
	"loss": 0.5314,
	"step": 346
	},
	{
	"epoch": 0.19128996692392503,
	"grad_norm": 0.23558932542800903,
	"learning_rate": 0.0002720563847429519,
	"loss": 0.5223,
	"step": 347
	},
	{
	"epoch": 0.1918412348401323,
	"grad_norm": 0.25960054993629456,
	"learning_rate": 0.0002719734660033167,
	"loss": 0.5436,
	"step": 348
	},
	{
	"epoch": 0.19239250275633957,
	"grad_norm": 0.2273932248353958,
	"learning_rate": 0.0002718905472636816,
	"loss": 0.5048,
	"step": 349
	},
	{
	"epoch": 0.19294377067254687,
	"grad_norm": 0.2279786467552185,
	"learning_rate": 0.0002718076285240464,
	"loss": 0.5164,
	"step": 350
	},
	{
	"epoch": 0.19349503858875414,
	"grad_norm": 0.23833182454109192,
	"learning_rate": 0.00027172470978441125,
	"loss": 0.5378,
	"step": 351
	},
	{
	"epoch": 0.1940463065049614,
	"grad_norm": 0.2499193549156189,
	"learning_rate": 0.0002716417910447761,
	"loss": 0.5494,
	"step": 352
	},
	{
	"epoch": 0.19459757442116868,
	"grad_norm": 0.2734036147594452,
	"learning_rate": 0.00027155887230514097,
	"loss": 0.5391,
	"step": 353
	},
	{
	"epoch": 0.19514884233737598,
	"grad_norm": 0.25754764676094055,
	"learning_rate": 0.00027147595356550577,
	"loss": 0.5212,
	"step": 354
	},
	{
	"epoch": 0.19570011025358325,
	"grad_norm": 0.22964167594909668,
	"learning_rate": 0.00027139303482587063,
	"loss": 0.5301,
	"step": 355
	},
	{
	"epoch": 0.19625137816979052,
	"grad_norm": 0.24985463917255402,
	"learning_rate": 0.0002713101160862355,
	"loss": 0.5177,
	"step": 356
	},
	{
	"epoch": 0.1968026460859978,
	"grad_norm": 0.27296510338783264,
	"learning_rate": 0.00027122719734660035,
	"loss": 0.5443,
	"step": 357
	},
	{
	"epoch": 0.19735391400220506,
	"grad_norm": 0.2506982982158661,
	"learning_rate": 0.00027114427860696515,
	"loss": 0.5419,
	"step": 358
	},
	{
	"epoch": 0.19790518191841236,
	"grad_norm": 0.2600388526916504,
	"learning_rate": 0.00027106135986733,
	"loss": 0.5402,
	"step": 359
	},
	{
	"epoch": 0.19845644983461963,
	"grad_norm": 0.25040823221206665,
	"learning_rate": 0.0002709784411276948,
	"loss": 0.5463,
	"step": 360
	},
	{
	"epoch": 0.1990077177508269,
	"grad_norm": 0.25567591190338135,
	"learning_rate": 0.0002708955223880597,
	"loss": 0.5189,
	"step": 361
	},
	{
	"epoch": 0.19955898566703417,
	"grad_norm": 0.24336600303649902,
	"learning_rate": 0.00027081260364842454,
	"loss": 0.5393,
	"step": 362
	},
	{
	"epoch": 0.20011025358324144,
	"grad_norm": 0.23660831153392792,
	"learning_rate": 0.00027072968490878934,
	"loss": 0.5121,
	"step": 363
	},
	{
	"epoch": 0.20066152149944874,
	"grad_norm": 0.23589812219142914,
	"learning_rate": 0.0002706467661691542,
	"loss": 0.5016,
	"step": 364
	},
	{
	"epoch": 0.201212789415656,
	"grad_norm": 0.2517778277397156,
	"learning_rate": 0.000270563847429519,
	"loss": 0.5127,
	"step": 365
	},
	{
	"epoch": 0.20176405733186328,
	"grad_norm": 0.263662189245224,
	"learning_rate": 0.0002704809286898839,
	"loss": 0.5518,
	"step": 366
	},
	{
	"epoch": 0.20231532524807055,
	"grad_norm": 0.25211676955223083,
	"learning_rate": 0.0002703980099502487,
	"loss": 0.5362,
	"step": 367
	},
	{
	"epoch": 0.20286659316427783,
	"grad_norm": 0.22718675434589386,
	"learning_rate": 0.0002703150912106136,
	"loss": 0.5127,
	"step": 368
	},
	{
	"epoch": 0.20341786108048512,
	"grad_norm": 0.24481582641601562,
	"learning_rate": 0.0002702321724709784,
	"loss": 0.5084,
	"step": 369
	},
	{
	"epoch": 0.2039691289966924,
	"grad_norm": 0.2656586766242981,
	"learning_rate": 0.00027014925373134325,
	"loss": 0.5454,
	"step": 370
	},
	{
	"epoch": 0.20452039691289967,
	"grad_norm": 0.2491103559732437,
	"learning_rate": 0.0002700663349917081,
	"loss": 0.5412,
	"step": 371
	},
	{
	"epoch": 0.20507166482910694,
	"grad_norm": 0.252030611038208,
	"learning_rate": 0.00026998341625207296,
	"loss": 0.5761,
	"step": 372
	},
	{
	"epoch": 0.20562293274531424,
	"grad_norm": 0.24894152581691742,
	"learning_rate": 0.00026990049751243777,
	"loss": 0.5264,
	"step": 373
	},
	{
	"epoch": 0.2061742006615215,
	"grad_norm": 0.25231489539146423,
	"learning_rate": 0.00026981757877280263,
	"loss": 0.5295,
	"step": 374
	},
	{
	"epoch": 0.20672546857772878,
	"grad_norm": 0.25147655606269836,
	"learning_rate": 0.00026973466003316743,
	"loss": 0.5126,
	"step": 375
	},
	{
	"epoch": 0.20727673649393605,
	"grad_norm": 0.2379835844039917,
	"learning_rate": 0.0002696517412935323,
	"loss": 0.4937,
	"step": 376
	},
	{
	"epoch": 0.20782800441014332,
	"grad_norm": 0.24038439989089966,
	"learning_rate": 0.00026956882255389715,
	"loss": 0.5426,
	"step": 377
	},
	{
	"epoch": 0.20837927232635062,
	"grad_norm": 0.24591150879859924,
	"learning_rate": 0.000269485903814262,
	"loss": 0.5191,
	"step": 378
	},
	{
	"epoch": 0.2089305402425579,
	"grad_norm": 0.23723675310611725,
	"learning_rate": 0.0002694029850746268,
	"loss": 0.5247,
	"step": 379
	},
	{
	"epoch": 0.20948180815876516,
	"grad_norm": 0.2618078887462616,
	"learning_rate": 0.0002693200663349917,
	"loss": 0.5559,
	"step": 380
	},
	{
	"epoch": 0.21003307607497243,
	"grad_norm": 0.2556595504283905,
	"learning_rate": 0.00026923714759535653,
	"loss": 0.544,
	"step": 381
	},
	{
	"epoch": 0.2105843439911797,
	"grad_norm": 0.24010786414146423,
	"learning_rate": 0.0002691542288557214,
	"loss": 0.4958,
	"step": 382
	},
	{
	"epoch": 0.211135611907387,
	"grad_norm": 0.253151535987854,
	"learning_rate": 0.0002690713101160862,
	"loss": 0.5371,
	"step": 383
	},
	{
	"epoch": 0.21168687982359427,
	"grad_norm": 0.2715364694595337,
	"learning_rate": 0.00026898839137645106,
	"loss": 0.5788,
	"step": 384
	},
	{
	"epoch": 0.21223814773980154,
	"grad_norm": 0.2472977191209793,
	"learning_rate": 0.00026890547263681586,
	"loss": 0.5359,
	"step": 385
	},
	{
	"epoch": 0.2127894156560088,
	"grad_norm": 0.2925645411014557,
	"learning_rate": 0.0002688225538971807,
	"loss": 0.5373,
	"step": 386
	},
	{
	"epoch": 0.21334068357221608,
	"grad_norm": 0.23534104228019714,
	"learning_rate": 0.0002687396351575456,
	"loss": 0.5421,
	"step": 387
	},
	{
	"epoch": 0.21389195148842338,
	"grad_norm": 0.25397318601608276,
	"learning_rate": 0.00026865671641791044,
	"loss": 0.5538,
	"step": 388
	},
	{
	"epoch": 0.21444321940463065,
	"grad_norm": 0.26708152890205383,
	"learning_rate": 0.00026857379767827524,
	"loss": 0.5088,
	"step": 389
	},
	{
	"epoch": 0.21499448732083792,
	"grad_norm": 0.24131494760513306,
	"learning_rate": 0.0002684908789386401,
	"loss": 0.5215,
	"step": 390
	},
	{
	"epoch": 0.2155457552370452,
	"grad_norm": 0.25981369614601135,
	"learning_rate": 0.00026840796019900496,
	"loss": 0.5481,
	"step": 391
	},
	{
	"epoch": 0.2160970231532525,
	"grad_norm": 0.25831639766693115,
	"learning_rate": 0.0002683250414593698,
	"loss": 0.5352,
	"step": 392
	},
	{
	"epoch": 0.21664829106945976,
	"grad_norm": 0.24388836324214935,
	"learning_rate": 0.0002682421227197346,
	"loss": 0.5047,
	"step": 393
	},
	{
	"epoch": 0.21719955898566704,
	"grad_norm": 0.25614237785339355,
	"learning_rate": 0.0002681592039800995,
	"loss": 0.5236,
	"step": 394
	},
	{
	"epoch": 0.2177508269018743,
	"grad_norm": 0.23628944158554077,
	"learning_rate": 0.0002680762852404643,
	"loss": 0.5118,
	"step": 395
	},
	{
	"epoch": 0.21830209481808158,
	"grad_norm": 0.25390875339508057,
	"learning_rate": 0.00026799336650082915,
	"loss": 0.5231,
	"step": 396
	},
	{
	"epoch": 0.21885336273428888,
	"grad_norm": 0.27364251017570496,
	"learning_rate": 0.000267910447761194,
	"loss": 0.5573,
	"step": 397
	},
	{
	"epoch": 0.21940463065049615,
	"grad_norm": 0.25110650062561035,
	"learning_rate": 0.00026782752902155887,
	"loss": 0.5078,
	"step": 398
	},
	{
	"epoch": 0.21995589856670342,
	"grad_norm": 0.24438323080539703,
	"learning_rate": 0.0002677446102819237,
	"loss": 0.5026,
	"step": 399
	},
	{
	"epoch": 0.2205071664829107,
	"grad_norm": 0.23745465278625488,
	"learning_rate": 0.00026766169154228853,
	"loss": 0.5568,
	"step": 400
	},
	{
	"epoch": 0.22105843439911796,
	"grad_norm": 0.25559869408607483,
	"learning_rate": 0.0002675787728026534,
	"loss": 0.5286,
	"step": 401
	},
	{
	"epoch": 0.22160970231532526,
	"grad_norm": 0.24587516486644745,
	"learning_rate": 0.00026749585406301825,
	"loss": 0.5258,
	"step": 402
	},
	{
	"epoch": 0.22216097023153253,
	"grad_norm": 0.26151949167251587,
	"learning_rate": 0.00026741293532338306,
	"loss": 0.5426,
	"step": 403
	},
	{
	"epoch": 0.2227122381477398,
	"grad_norm": 0.2910129427909851,
	"learning_rate": 0.0002673300165837479,
	"loss": 0.5376,
	"step": 404
	},
	{
	"epoch": 0.22326350606394707,
	"grad_norm": 0.28276947140693665,
	"learning_rate": 0.0002672470978441127,
	"loss": 0.5271,
	"step": 405
	},
	{
	"epoch": 0.22381477398015434,
	"grad_norm": 0.25096046924591064,
	"learning_rate": 0.0002671641791044776,
	"loss": 0.5439,
	"step": 406
	},
	{
	"epoch": 0.22436604189636164,
	"grad_norm": 0.2461530715227127,
	"learning_rate": 0.00026708126036484244,
	"loss": 0.5239,
	"step": 407
	},
	{
	"epoch": 0.2249173098125689,
	"grad_norm": 0.2833070456981659,
	"learning_rate": 0.00026699834162520724,
	"loss": 0.531,
	"step": 408
	},
	{
	"epoch": 0.22546857772877618,
	"grad_norm": 0.24600760638713837,
	"learning_rate": 0.0002669154228855721,
	"loss": 0.5419,
	"step": 409
	},
	{
	"epoch": 0.22601984564498345,
	"grad_norm": 0.2620793581008911,
	"learning_rate": 0.00026683250414593696,
	"loss": 0.5033,
	"step": 410
	},
	{
	"epoch": 0.22657111356119075,
	"grad_norm": 0.27523407340049744,
	"learning_rate": 0.0002667495854063018,
	"loss": 0.5257,
	"step": 411
	},
	{
	"epoch": 0.22712238147739802,
	"grad_norm": 0.2630368769168854,
	"learning_rate": 0.0002666666666666666,
	"loss": 0.5156,
	"step": 412
	},
	{
	"epoch": 0.2276736493936053,
	"grad_norm": 0.24897338449954987,
	"learning_rate": 0.0002665837479270315,
	"loss": 0.5301,
	"step": 413
	},
	{
	"epoch": 0.22822491730981256,
	"grad_norm": 0.26213693618774414,
	"learning_rate": 0.0002665008291873963,
	"loss": 0.5563,
	"step": 414
	},
	{
	"epoch": 0.22877618522601983,
	"grad_norm": 0.23822888731956482,
	"learning_rate": 0.00026641791044776115,
	"loss": 0.5273,
	"step": 415
	},
	{
	"epoch": 0.22932745314222713,
	"grad_norm": 0.22970083355903625,
	"learning_rate": 0.000266334991708126,
	"loss": 0.5321,
	"step": 416
	},
	{
	"epoch": 0.2298787210584344,
	"grad_norm": 0.26430296897888184,
	"learning_rate": 0.00026625207296849087,
	"loss": 0.5539,
	"step": 417
	},
	{
	"epoch": 0.23042998897464168,
	"grad_norm": 0.25960785150527954,
	"learning_rate": 0.00026616915422885567,
	"loss": 0.5357,
	"step": 418
	},
	{
	"epoch": 0.23098125689084895,
	"grad_norm": 0.23449423909187317,
	"learning_rate": 0.00026608623548922053,
	"loss": 0.5143,
	"step": 419
	},
	{
	"epoch": 0.23153252480705622,
	"grad_norm": 0.2795349061489105,
	"learning_rate": 0.0002660033167495854,
	"loss": 0.5363,
	"step": 420
	},
	{
	"epoch": 0.23208379272326352,
	"grad_norm": 0.2637255787849426,
	"learning_rate": 0.00026592039800995025,
	"loss": 0.5607,
	"step": 421
	},
	{
	"epoch": 0.2326350606394708,
	"grad_norm": 0.23269203305244446,
	"learning_rate": 0.00026583747927031505,
	"loss": 0.5239,
	"step": 422
	},
	{
	"epoch": 0.23318632855567806,
	"grad_norm": 0.2501350939273834,
	"learning_rate": 0.0002657545605306799,
	"loss": 0.5303,
	"step": 423
	},
	{
	"epoch": 0.23373759647188533,
	"grad_norm": 0.25998207926750183,
	"learning_rate": 0.0002656716417910447,
	"loss": 0.5258,
	"step": 424
	},
	{
	"epoch": 0.2342888643880926,
	"grad_norm": 0.25762224197387695,
	"learning_rate": 0.0002655887230514096,
	"loss": 0.5427,
	"step": 425
	},
	{
	"epoch": 0.2348401323042999,
	"grad_norm": 0.2542650103569031,
	"learning_rate": 0.00026550580431177444,
	"loss": 0.5363,
	"step": 426
	},
	{
	"epoch": 0.23539140022050717,
	"grad_norm": 0.24817922711372375,
	"learning_rate": 0.0002654228855721393,
	"loss": 0.5294,
	"step": 427
	},
	{
	"epoch": 0.23594266813671444,
	"grad_norm": 0.23553630709648132,
	"learning_rate": 0.0002653399668325041,
	"loss": 0.5401,
	"step": 428
	},
	{
	"epoch": 0.2364939360529217,
	"grad_norm": 0.2774706184864044,
	"learning_rate": 0.00026525704809286896,
	"loss": 0.5352,
	"step": 429
	},
	{
	"epoch": 0.237045203969129,
	"grad_norm": 0.2383023351430893,
	"learning_rate": 0.0002651741293532338,
	"loss": 0.5243,
	"step": 430
	},
	{
	"epoch": 0.23759647188533628,
	"grad_norm": 0.23838096857070923,
	"learning_rate": 0.0002650912106135987,
	"loss": 0.5336,
	"step": 431
	},
	{
	"epoch": 0.23814773980154355,
	"grad_norm": 0.2416170984506607,
	"learning_rate": 0.0002650082918739635,
	"loss": 0.5044,
	"step": 432
	},
	{
	"epoch": 0.23869900771775082,
	"grad_norm": 0.24407121539115906,
	"learning_rate": 0.00026492537313432834,
	"loss": 0.5383,
	"step": 433
	},
	{
	"epoch": 0.2392502756339581,
	"grad_norm": 0.26349690556526184,
	"learning_rate": 0.00026484245439469315,
	"loss": 0.5553,
	"step": 434
	},
	{
	"epoch": 0.2398015435501654,
	"grad_norm": 0.27343693375587463,
	"learning_rate": 0.000264759535655058,
	"loss": 0.5593,
	"step": 435
	},
	{
	"epoch": 0.24035281146637266,
	"grad_norm": 0.22751976549625397,
	"learning_rate": 0.00026467661691542287,
	"loss": 0.5254,
	"step": 436
	},
	{
	"epoch": 0.24090407938257993,
	"grad_norm": 0.2342759519815445,
	"learning_rate": 0.0002645936981757877,
	"loss": 0.5076,
	"step": 437
	},
	{
	"epoch": 0.2414553472987872,
	"grad_norm": 0.25039923191070557,
	"learning_rate": 0.00026451077943615253,
	"loss": 0.4816,
	"step": 438
	},
	{
	"epoch": 0.24200661521499447,
	"grad_norm": 0.24585099518299103,
	"learning_rate": 0.0002644278606965174,
	"loss": 0.5132,
	"step": 439
	},
	{
	"epoch": 0.24255788313120177,
	"grad_norm": 0.24062813818454742,
	"learning_rate": 0.00026434494195688225,
	"loss": 0.5152,
	"step": 440
	},
	{
	"epoch": 0.24310915104740904,
	"grad_norm": 0.23549048602581024,
	"learning_rate": 0.0002642620232172471,
	"loss": 0.5201,
	"step": 441
	},
	{
	"epoch": 0.24366041896361632,
	"grad_norm": 0.24712547659873962,
	"learning_rate": 0.0002641791044776119,
	"loss": 0.5252,
	"step": 442
	},
	{
	"epoch": 0.2442116868798236,
	"grad_norm": 0.25113359093666077,
	"learning_rate": 0.00026409618573797677,
	"loss": 0.5593,
	"step": 443
	},
	{
	"epoch": 0.24476295479603086,
	"grad_norm": 0.24021007120609283,
	"learning_rate": 0.0002640132669983416,
	"loss": 0.5338,
	"step": 444
	},
	{
	"epoch": 0.24531422271223816,
	"grad_norm": 0.23334236443042755,
	"learning_rate": 0.00026393034825870643,
	"loss": 0.4842,
	"step": 445
	},
	{
	"epoch": 0.24586549062844543,
	"grad_norm": 0.25075432658195496,
	"learning_rate": 0.0002638474295190713,
	"loss": 0.5498,
	"step": 446
	},
	{
	"epoch": 0.2464167585446527,
	"grad_norm": 0.23466569185256958,
	"learning_rate": 0.00026376451077943615,
	"loss": 0.5125,
	"step": 447
	},
	{
	"epoch": 0.24696802646085997,
	"grad_norm": 0.23975308239459991,
	"learning_rate": 0.00026368159203980096,
	"loss": 0.5315,
	"step": 448
	},
	{
	"epoch": 0.24751929437706727,
	"grad_norm": 0.227213054895401,
	"learning_rate": 0.0002635986733001658,
	"loss": 0.4826,
	"step": 449
	},
	{
	"epoch": 0.24807056229327454,
	"grad_norm": 0.23588328063488007,
	"learning_rate": 0.0002635157545605307,
	"loss": 0.4902,
	"step": 450
	},
	{
	"epoch": 0.2486218302094818,
	"grad_norm": 0.24110263586044312,
	"learning_rate": 0.00026343283582089554,
	"loss": 0.5152,
	"step": 451
	},
	{
	"epoch": 0.24917309812568908,
	"grad_norm": 0.24417544901371002,
	"learning_rate": 0.00026334991708126034,
	"loss": 0.5326,
	"step": 452
	},
	{
	"epoch": 0.24972436604189635,
	"grad_norm": 0.24150699377059937,
	"learning_rate": 0.00026326699834162515,
	"loss": 0.547,
	"step": 453
	},
	{
	"epoch": 0.25027563395810365,
	"grad_norm": 0.26009777188301086,
	"learning_rate": 0.00026318407960199,
	"loss": 0.5315,
	"step": 454
	},
	{
	"epoch": 0.2508269018743109,
	"grad_norm": 0.2537683844566345,
	"learning_rate": 0.00026310116086235486,
	"loss": 0.5304,
	"step": 455
	},
	{
	"epoch": 0.2513781697905182,
	"grad_norm": 0.2526278495788574,
	"learning_rate": 0.0002630182421227197,
	"loss": 0.5194,
	"step": 456
	},
	{
	"epoch": 0.2519294377067255,
	"grad_norm": 0.24355928599834442,
	"learning_rate": 0.00026293532338308453,
	"loss": 0.5096,
	"step": 457
	},
	{
	"epoch": 0.25248070562293273,
	"grad_norm": 0.243259459733963,
	"learning_rate": 0.0002628524046434494,
	"loss": 0.4971,
	"step": 458
	},
	{
	"epoch": 0.25303197353914003,
	"grad_norm": 0.2597525417804718,
	"learning_rate": 0.00026276948590381425,
	"loss": 0.5224,
	"step": 459
	},
	{
	"epoch": 0.2535832414553473,
	"grad_norm": 0.2498249113559723,
	"learning_rate": 0.0002626865671641791,
	"loss": 0.506,
	"step": 460
	},
	{
	"epoch": 0.2541345093715546,
	"grad_norm": 0.21408714354038239,
	"learning_rate": 0.0002626036484245439,
	"loss": 0.5076,
	"step": 461
	},
	{
	"epoch": 0.25468577728776187,
	"grad_norm": 0.25370824337005615,
	"learning_rate": 0.00026252072968490877,
	"loss": 0.5065,
	"step": 462
	},
	{
	"epoch": 0.2552370452039691,
	"grad_norm": 0.25148823857307434,
	"learning_rate": 0.0002624378109452736,
	"loss": 0.4932,
	"step": 463
	},
	{
	"epoch": 0.2557883131201764,
	"grad_norm": 0.24903985857963562,
	"learning_rate": 0.00026235489220563843,
	"loss": 0.5366,
	"step": 464
	},
	{
	"epoch": 0.25633958103638366,
	"grad_norm": 0.2521916329860687,
	"learning_rate": 0.0002622719734660033,
	"loss": 0.5392,
	"step": 465
	},
	{
	"epoch": 0.25689084895259096,
	"grad_norm": 0.24553993344306946,
	"learning_rate": 0.00026218905472636815,
	"loss": 0.5382,
	"step": 466
	},
	{
	"epoch": 0.25744211686879825,
	"grad_norm": 0.23382090032100677,
	"learning_rate": 0.00026210613598673296,
	"loss": 0.523,
	"step": 467
	},
	{
	"epoch": 0.2579933847850055,
	"grad_norm": 0.25337761640548706,
	"learning_rate": 0.0002620232172470978,
	"loss": 0.5147,
	"step": 468
	},
	{
	"epoch": 0.2585446527012128,
	"grad_norm": 0.25433778762817383,
	"learning_rate": 0.0002619402985074627,
	"loss": 0.5012,
	"step": 469
	},
	{
	"epoch": 0.25909592061742004,
	"grad_norm": 0.2362672984600067,
	"learning_rate": 0.00026185737976782753,
	"loss": 0.5328,
	"step": 470
	},
	{
	"epoch": 0.25964718853362734,
	"grad_norm": 0.241427481174469,
	"learning_rate": 0.00026177446102819234,
	"loss": 0.5207,
	"step": 471
	},
	{
	"epoch": 0.26019845644983464,
	"grad_norm": 0.24943798780441284,
	"learning_rate": 0.0002616915422885572,
	"loss": 0.5607,
	"step": 472
	},
	{
	"epoch": 0.2607497243660419,
	"grad_norm": 0.21813860535621643,
	"learning_rate": 0.000261608623548922,
	"loss": 0.5036,
	"step": 473
	},
	{
	"epoch": 0.2613009922822492,
	"grad_norm": 0.22680509090423584,
	"learning_rate": 0.00026152570480928686,
	"loss": 0.4765,
	"step": 474
	},
	{
	"epoch": 0.2618522601984565,
	"grad_norm": 0.23577630519866943,
	"learning_rate": 0.0002614427860696517,
	"loss": 0.5267,
	"step": 475
	},
	{
	"epoch": 0.2624035281146637,
	"grad_norm": 0.22560511529445648,
	"learning_rate": 0.0002613598673300166,
	"loss": 0.5089,
	"step": 476
	},
	{
	"epoch": 0.262954796030871,
	"grad_norm": 0.2485722452402115,
	"learning_rate": 0.0002612769485903814,
	"loss": 0.5231,
	"step": 477
	},
	{
	"epoch": 0.26350606394707826,
	"grad_norm": 0.2396019846200943,
	"learning_rate": 0.00026119402985074624,
	"loss": 0.515,
	"step": 478
	},
	{
	"epoch": 0.26405733186328556,
	"grad_norm": 0.24977676570415497,
	"learning_rate": 0.0002611111111111111,
	"loss": 0.5303,
	"step": 479
	},
	{
	"epoch": 0.26460859977949286,
	"grad_norm": 0.2788902521133423,
	"learning_rate": 0.00026102819237147596,
	"loss": 0.5324,
	"step": 480
	},
	{
	"epoch": 0.2651598676957001,
	"grad_norm": 0.2515452802181244,
	"learning_rate": 0.00026094527363184077,
	"loss": 0.5373,
	"step": 481
	},
	{
	"epoch": 0.2657111356119074,
	"grad_norm": 0.2408224493265152,
	"learning_rate": 0.0002608623548922056,
	"loss": 0.5021,
	"step": 482
	},
	{
	"epoch": 0.26626240352811464,
	"grad_norm": 0.25597700476646423,
	"learning_rate": 0.00026077943615257043,
	"loss": 0.5292,
	"step": 483
	},
	{
	"epoch": 0.26681367144432194,
	"grad_norm": 0.24885378777980804,
	"learning_rate": 0.0002606965174129353,
	"loss": 0.5047,
	"step": 484
	},
	{
	"epoch": 0.26736493936052924,
	"grad_norm": 0.24355795979499817,
	"learning_rate": 0.00026061359867330015,
	"loss": 0.5258,
	"step": 485
	},
	{
	"epoch": 0.2679162072767365,
	"grad_norm": 0.2580486238002777,
	"learning_rate": 0.000260530679933665,
	"loss": 0.5533,
	"step": 486
	},
	{
	"epoch": 0.2684674751929438,
	"grad_norm": 0.27081531286239624,
	"learning_rate": 0.0002604477611940298,
	"loss": 0.525,
	"step": 487
	},
	{
	"epoch": 0.269018743109151,
	"grad_norm": 0.2559351325035095,
	"learning_rate": 0.0002603648424543947,
	"loss": 0.5074,
	"step": 488
	},
	{
	"epoch": 0.2695700110253583,
	"grad_norm": 0.2617773711681366,
	"learning_rate": 0.00026028192371475953,
	"loss": 0.5244,
	"step": 489
	},
	{
	"epoch": 0.2701212789415656,
	"grad_norm": 0.23218858242034912,
	"learning_rate": 0.0002601990049751244,
	"loss": 0.5048,
	"step": 490
	},
	{
	"epoch": 0.27067254685777287,
	"grad_norm": 0.24924521148204803,
	"learning_rate": 0.0002601160862354892,
	"loss": 0.521,
	"step": 491
	},
	{
	"epoch": 0.27122381477398017,
	"grad_norm": 0.26815906167030334,
	"learning_rate": 0.00026003316749585406,
	"loss": 0.5574,
	"step": 492
	},
	{
	"epoch": 0.2717750826901874,
	"grad_norm": 0.240220308303833,
	"learning_rate": 0.00025995024875621886,
	"loss": 0.483,
	"step": 493
	},
	{
	"epoch": 0.2723263506063947,
	"grad_norm": 0.24979090690612793,
	"learning_rate": 0.0002598673300165837,
	"loss": 0.5262,
	"step": 494
	},
	{
	"epoch": 0.272877618522602,
	"grad_norm": 0.24111522734165192,
	"learning_rate": 0.0002597844112769486,
	"loss": 0.5068,
	"step": 495
	},
	{
	"epoch": 0.27342888643880925,
	"grad_norm": 0.2612921893596649,
	"learning_rate": 0.0002597014925373134,
	"loss": 0.519,
	"step": 496
	},
	{
	"epoch": 0.27398015435501655,
	"grad_norm": 0.24324454367160797,
	"learning_rate": 0.00025961857379767824,
	"loss": 0.4826,
	"step": 497
	},
	{
	"epoch": 0.2745314222712238,
	"grad_norm": 0.2406265288591385,
	"learning_rate": 0.0002595356550580431,
	"loss": 0.5223,
	"step": 498
	},
	{
	"epoch": 0.2750826901874311,
	"grad_norm": 0.2597537934780121,
	"learning_rate": 0.00025945273631840796,
	"loss": 0.535,
	"step": 499
	},
	{
	"epoch": 0.2756339581036384,
	"grad_norm": 0.2446909099817276,
	"learning_rate": 0.00025936981757877277,
	"loss": 0.5108,
	"step": 500
	},
	{
	"epoch": 0.2756339581036384,
	"eval_loss": 0.5157487988471985,
	"eval_runtime": 312.0533,
	"eval_samples_per_second": 3.733,
	"eval_steps_per_second": 0.468,
	"step": 500
	},
	{
	"epoch": 0.27618522601984563,
	"grad_norm": 0.2623630166053772,
	"learning_rate": 0.0002592868988391376,
	"loss": 0.5414,
	"step": 501
	},
	{
	"epoch": 0.27673649393605293,
	"grad_norm": 0.2578775882720947,
	"learning_rate": 0.00025920398009950243,
	"loss": 0.5121,
	"step": 502
	},
	{
	"epoch": 0.2772877618522602,
	"grad_norm": 0.23712347447872162,
	"learning_rate": 0.0002591210613598673,
	"loss": 0.5085,
	"step": 503
	},
	{
	"epoch": 0.27783902976846747,
	"grad_norm": 0.22108785808086395,
	"learning_rate": 0.00025903814262023215,
	"loss": 0.5202,
	"step": 504
	},
	{
	"epoch": 0.27839029768467477,
	"grad_norm": 0.25034549832344055,
	"learning_rate": 0.000258955223880597,
	"loss": 0.5389,
	"step": 505
	},
	{
	"epoch": 0.278941565600882,
	"grad_norm": 0.21812468767166138,
	"learning_rate": 0.0002588723051409618,
	"loss": 0.4994,
	"step": 506
	},
	{
	"epoch": 0.2794928335170893,
	"grad_norm": 0.22681641578674316,
	"learning_rate": 0.00025878938640132667,
	"loss": 0.5219,
	"step": 507
	},
	{
	"epoch": 0.28004410143329656,
	"grad_norm": 0.25568950176239014,
	"learning_rate": 0.00025870646766169153,
	"loss": 0.5188,
	"step": 508
	},
	{
	"epoch": 0.28059536934950385,
	"grad_norm": 0.24642765522003174,
	"learning_rate": 0.0002586235489220564,
	"loss": 0.4978,
	"step": 509
	},
	{
	"epoch": 0.28114663726571115,
	"grad_norm": 0.22820910811424255,
	"learning_rate": 0.0002585406301824212,
	"loss": 0.5168,
	"step": 510
	},
	{
	"epoch": 0.2816979051819184,
	"grad_norm": 0.23360006511211395,
	"learning_rate": 0.00025845771144278605,
	"loss": 0.5059,
	"step": 511
	},
	{
	"epoch": 0.2822491730981257,
	"grad_norm": 0.24599935114383698,
	"learning_rate": 0.00025837479270315086,
	"loss": 0.5293,
	"step": 512
	},
	{
	"epoch": 0.282800441014333,
	"grad_norm": 0.23006513714790344,
	"learning_rate": 0.0002582918739635157,
	"loss": 0.5028,
	"step": 513
	},
	{
	"epoch": 0.28335170893054024,
	"grad_norm": 0.22950898110866547,
	"learning_rate": 0.0002582089552238806,
	"loss": 0.5064,
	"step": 514
	},
	{
	"epoch": 0.28390297684674753,
	"grad_norm": 0.23649993538856506,
	"learning_rate": 0.00025812603648424544,
	"loss": 0.515,
	"step": 515
	},
	{
	"epoch": 0.2844542447629548,
	"grad_norm": 0.23335647583007812,
	"learning_rate": 0.00025804311774461024,
	"loss": 0.4977,
	"step": 516
	},
	{
	"epoch": 0.2850055126791621,
	"grad_norm": 0.21914584934711456,
	"learning_rate": 0.0002579601990049751,
	"loss": 0.5018,
	"step": 517
	},
	{
	"epoch": 0.2855567805953694,
	"grad_norm": 0.2474760264158249,
	"learning_rate": 0.00025787728026533996,
	"loss": 0.542,
	"step": 518
	},
	{
	"epoch": 0.2861080485115766,
	"grad_norm": 0.24011823534965515,
	"learning_rate": 0.0002577943615257048,
	"loss": 0.5243,
	"step": 519
	},
	{
	"epoch": 0.2866593164277839,
	"grad_norm": 0.2619330883026123,
	"learning_rate": 0.0002577114427860696,
	"loss": 0.5657,
	"step": 520
	},
	{
	"epoch": 0.28721058434399116,
	"grad_norm": 0.2715679407119751,
	"learning_rate": 0.0002576285240464345,
	"loss": 0.5506,
	"step": 521
	},
	{
	"epoch": 0.28776185226019846,
	"grad_norm": 0.26569628715515137,
	"learning_rate": 0.0002575456053067993,
	"loss": 0.5525,
	"step": 522
	},
	{
	"epoch": 0.28831312017640576,
	"grad_norm": 0.23253163695335388,
	"learning_rate": 0.00025746268656716415,
	"loss": 0.5184,
	"step": 523
	},
	{
	"epoch": 0.288864388092613,
	"grad_norm": 0.2698347866535187,
	"learning_rate": 0.000257379767827529,
	"loss": 0.5274,
	"step": 524
	},
	{
	"epoch": 0.2894156560088203,
	"grad_norm": 0.2556426227092743,
	"learning_rate": 0.00025729684908789386,
	"loss": 0.5032,
	"step": 525
	},
	{
	"epoch": 0.28996692392502754,
	"grad_norm": 0.252575546503067,
	"learning_rate": 0.00025721393034825867,
	"loss": 0.525,
	"step": 526
	},
	{
	"epoch": 0.29051819184123484,
	"grad_norm": 0.26160725951194763,
	"learning_rate": 0.00025713101160862353,
	"loss": 0.552,
	"step": 527
	},
	{
	"epoch": 0.29106945975744214,
	"grad_norm": 0.250885546207428,
	"learning_rate": 0.0002570480928689884,
	"loss": 0.5159,
	"step": 528
	},
	{
	"epoch": 0.2916207276736494,
	"grad_norm": 0.24888747930526733,
	"learning_rate": 0.00025696517412935325,
	"loss": 0.5104,
	"step": 529
	},
	{
	"epoch": 0.2921719955898567,
	"grad_norm": 0.2554168105125427,
	"learning_rate": 0.00025688225538971805,
	"loss": 0.4867,
	"step": 530
	},
	{
	"epoch": 0.2927232635060639,
	"grad_norm": 0.24712808430194855,
	"learning_rate": 0.0002567993366500829,
	"loss": 0.5087,
	"step": 531
	},
	{
	"epoch": 0.2932745314222712,
	"grad_norm": 0.26169416308403015,
	"learning_rate": 0.0002567164179104477,
	"loss": 0.5094,
	"step": 532
	},
	{
	"epoch": 0.2938257993384785,
	"grad_norm": 0.25625213980674744,
	"learning_rate": 0.0002566334991708126,
	"loss": 0.5264,
	"step": 533
	},
	{
	"epoch": 0.29437706725468576,
	"grad_norm": 0.22383877635002136,
	"learning_rate": 0.00025655058043117743,
	"loss": 0.4719,
	"step": 534
	},
	{
	"epoch": 0.29492833517089306,
	"grad_norm": 0.2579217851161957,
	"learning_rate": 0.0002564676616915423,
	"loss": 0.5254,
	"step": 535
	},
	{
	"epoch": 0.2954796030871003,
	"grad_norm": 0.25349318981170654,
	"learning_rate": 0.0002563847429519071,
	"loss": 0.4932,
	"step": 536
	},
	{
	"epoch": 0.2960308710033076,
	"grad_norm": 0.25384828448295593,
	"learning_rate": 0.00025630182421227196,
	"loss": 0.51,
	"step": 537
	},
	{
	"epoch": 0.2965821389195149,
	"grad_norm": 0.22186040878295898,
	"learning_rate": 0.0002562189054726368,
	"loss": 0.5074,
	"step": 538
	},
	{
	"epoch": 0.29713340683572215,
	"grad_norm": 0.2735055685043335,
	"learning_rate": 0.0002561359867330017,
	"loss": 0.5151,
	"step": 539
	},
	{
	"epoch": 0.29768467475192945,
	"grad_norm": 0.24992069602012634,
	"learning_rate": 0.0002560530679933665,
	"loss": 0.4987,
	"step": 540
	},
	{
	"epoch": 0.2982359426681367,
	"grad_norm": 0.24067966639995575,
	"learning_rate": 0.0002559701492537313,
	"loss": 0.5434,
	"step": 541
	},
	{
	"epoch": 0.298787210584344,
	"grad_norm": 0.22907654941082,
	"learning_rate": 0.00025588723051409614,
	"loss": 0.5091,
	"step": 542
	},
	{
	"epoch": 0.2993384785005513,
	"grad_norm": 0.21983608603477478,
	"learning_rate": 0.000255804311774461,
	"loss": 0.5234,
	"step": 543
	},
	{
	"epoch": 0.29988974641675853,
	"grad_norm": 0.2439606636762619,
	"learning_rate": 0.00025572139303482586,
	"loss": 0.5271,
	"step": 544
	},
	{
	"epoch": 0.30044101433296583,
	"grad_norm": 0.25168585777282715,
	"learning_rate": 0.00025563847429519067,
	"loss": 0.4998,
	"step": 545
	},
	{
	"epoch": 0.30099228224917307,
	"grad_norm": 0.22324073314666748,
	"learning_rate": 0.00025555555555555553,
	"loss": 0.5086,
	"step": 546
	},
	{
	"epoch": 0.30154355016538037,
	"grad_norm": 0.22652758657932281,
	"learning_rate": 0.0002554726368159204,
	"loss": 0.5044,
	"step": 547
	},
	{
	"epoch": 0.30209481808158767,
	"grad_norm": 0.2422345131635666,
	"learning_rate": 0.00025538971807628525,
	"loss": 0.4968,
	"step": 548
	},
	{
	"epoch": 0.3026460859977949,
	"grad_norm": 0.24840863049030304,
	"learning_rate": 0.00025530679933665005,
	"loss": 0.5267,
	"step": 549
	},
	{
	"epoch": 0.3031973539140022,
	"grad_norm": 0.26198020577430725,
	"learning_rate": 0.0002552238805970149,
	"loss": 0.528,
	"step": 550
	},
	{
	"epoch": 0.3037486218302095,
	"grad_norm": 0.24763406813144684,
	"learning_rate": 0.0002551409618573797,
	"loss": 0.5387,
	"step": 551
	},
	{
	"epoch": 0.30429988974641675,
	"grad_norm": 0.22976034879684448,
	"learning_rate": 0.0002550580431177446,
	"loss": 0.5171,
	"step": 552
	},
	{
	"epoch": 0.30485115766262405,
	"grad_norm": 0.26161912083625793,
	"learning_rate": 0.00025497512437810943,
	"loss": 0.4956,
	"step": 553
	},
	{
	"epoch": 0.3054024255788313,
	"grad_norm": 0.2695063650608063,
	"learning_rate": 0.0002548922056384743,
	"loss": 0.5339,
	"step": 554
	},
	{
	"epoch": 0.3059536934950386,
	"grad_norm": 0.22745662927627563,
	"learning_rate": 0.0002548092868988391,
	"loss": 0.4769,
	"step": 555
	},
	{
	"epoch": 0.3065049614112459,
	"grad_norm": 0.2539026439189911,
	"learning_rate": 0.00025472636815920396,
	"loss": 0.5085,
	"step": 556
	},
	{
	"epoch": 0.30705622932745313,
	"grad_norm": 0.25683802366256714,
	"learning_rate": 0.0002546434494195688,
	"loss": 0.4828,
	"step": 557
	},
	{
	"epoch": 0.30760749724366043,
	"grad_norm": 0.24806293845176697,
	"learning_rate": 0.0002545605306799337,
	"loss": 0.534,
	"step": 558
	},
	{
	"epoch": 0.3081587651598677,
	"grad_norm": 0.24956698715686798,
	"learning_rate": 0.0002544776119402985,
	"loss": 0.4988,
	"step": 559
	},
	{
	"epoch": 0.308710033076075,
	"grad_norm": 0.2466159611940384,
	"learning_rate": 0.00025439469320066334,
	"loss": 0.525,
	"step": 560
	},
	{
	"epoch": 0.3092613009922823,
	"grad_norm": 0.2732326090335846,
	"learning_rate": 0.00025431177446102814,
	"loss": 0.5096,
	"step": 561
	},
	{
	"epoch": 0.3098125689084895,
	"grad_norm": 0.257656067609787,
	"learning_rate": 0.000254228855721393,
	"loss": 0.5241,
	"step": 562
	},
	{
	"epoch": 0.3103638368246968,
	"grad_norm": 0.2280483990907669,
	"learning_rate": 0.00025414593698175786,
	"loss": 0.5051,
	"step": 563
	},
	{
	"epoch": 0.31091510474090406,
	"grad_norm": 0.24017442762851715,
	"learning_rate": 0.0002540630182421227,
	"loss": 0.4923,
	"step": 564
	},
	{
	"epoch": 0.31146637265711136,
	"grad_norm": 0.27770093083381653,
	"learning_rate": 0.0002539800995024875,
	"loss": 0.5068,
	"step": 565
	},
	{
	"epoch": 0.31201764057331866,
	"grad_norm": 0.2428130954504013,
	"learning_rate": 0.0002538971807628524,
	"loss": 0.5223,
	"step": 566
	},
	{
	"epoch": 0.3125689084895259,
	"grad_norm": 0.24798986315727234,
	"learning_rate": 0.00025381426202321724,
	"loss": 0.5269,
	"step": 567
	},
	{
	"epoch": 0.3131201764057332,
	"grad_norm": 0.2388242930173874,
	"learning_rate": 0.0002537313432835821,
	"loss": 0.5328,
	"step": 568
	},
	{
	"epoch": 0.31367144432194044,
	"grad_norm": 0.24993616342544556,
	"learning_rate": 0.0002536484245439469,
	"loss": 0.523,
	"step": 569
	},
	{
	"epoch": 0.31422271223814774,
	"grad_norm": 0.22417233884334564,
	"learning_rate": 0.00025356550580431177,
	"loss": 0.5162,
	"step": 570
	},
	{
	"epoch": 0.31477398015435504,
	"grad_norm": 0.25001853704452515,
	"learning_rate": 0.00025348258706467657,
	"loss": 0.5172,
	"step": 571
	},
	{
	"epoch": 0.3153252480705623,
	"grad_norm": 0.24982157349586487,
	"learning_rate": 0.00025339966832504143,
	"loss": 0.516,
	"step": 572
	},
	{
	"epoch": 0.3158765159867696,
	"grad_norm": 0.23938202857971191,
	"learning_rate": 0.0002533167495854063,
	"loss": 0.4984,
	"step": 573
	},
	{
	"epoch": 0.3164277839029768,
	"grad_norm": 0.23941190540790558,
	"learning_rate": 0.00025323383084577115,
	"loss": 0.5285,
	"step": 574
	},
	{
	"epoch": 0.3169790518191841,
	"grad_norm": 0.26152345538139343,
	"learning_rate": 0.00025315091210613595,
	"loss": 0.5354,
	"step": 575
	},
	{
	"epoch": 0.3175303197353914,
	"grad_norm": 0.2364695519208908,
	"learning_rate": 0.0002530679933665008,
	"loss": 0.4926,
	"step": 576
	},
	{
	"epoch": 0.31808158765159866,
	"grad_norm": 0.2498009353876114,
	"learning_rate": 0.00025298507462686567,
	"loss": 0.4879,
	"step": 577
	},
	{
	"epoch": 0.31863285556780596,
	"grad_norm": 0.2434455007314682,
	"learning_rate": 0.00025290215588723053,
	"loss": 0.4941,
	"step": 578
	},
	{
	"epoch": 0.3191841234840132,
	"grad_norm": 0.2500743269920349,
	"learning_rate": 0.00025281923714759534,
	"loss": 0.5224,
	"step": 579
	},
	{
	"epoch": 0.3197353914002205,
	"grad_norm": 0.24151727557182312,
	"learning_rate": 0.0002527363184079602,
	"loss": 0.5056,
	"step": 580
	},
	{
	"epoch": 0.3202866593164278,
	"grad_norm": 0.23307417333126068,
	"learning_rate": 0.000252653399668325,
	"loss": 0.4944,
	"step": 581
	},
	{
	"epoch": 0.32083792723263505,
	"grad_norm": 0.25184640288352966,
	"learning_rate": 0.00025257048092868986,
	"loss": 0.5471,
	"step": 582
	},
	{
	"epoch": 0.32138919514884234,
	"grad_norm": 0.21968768537044525,
	"learning_rate": 0.0002524875621890547,
	"loss": 0.4773,
	"step": 583
	},
	{
	"epoch": 0.3219404630650496,
	"grad_norm": 0.22851119935512543,
	"learning_rate": 0.0002524046434494195,
	"loss": 0.4964,
	"step": 584
	},
	{
	"epoch": 0.3224917309812569,
	"grad_norm": 0.2595960795879364,
	"learning_rate": 0.0002523217247097844,
	"loss": 0.5109,
	"step": 585
	},
	{
	"epoch": 0.3230429988974642,
	"grad_norm": 0.25090447068214417,
	"learning_rate": 0.00025223880597014924,
	"loss": 0.4932,
	"step": 586
	},
	{
	"epoch": 0.3235942668136714,
	"grad_norm": 0.24583864212036133,
	"learning_rate": 0.0002521558872305141,
	"loss": 0.4779,
	"step": 587
	},
	{
	"epoch": 0.3241455347298787,
	"grad_norm": 0.23779521882534027,
	"learning_rate": 0.0002520729684908789,
	"loss": 0.4925,
	"step": 588
	},
	{
	"epoch": 0.324696802646086,
	"grad_norm": 0.2614596486091614,
	"learning_rate": 0.00025199004975124377,
	"loss": 0.5064,
	"step": 589
	},
	{
	"epoch": 0.32524807056229327,
	"grad_norm": 0.2449434995651245,
	"learning_rate": 0.00025190713101160857,
	"loss": 0.4768,
	"step": 590
	},
	{
	"epoch": 0.32579933847850057,
	"grad_norm": 0.24249720573425293,
	"learning_rate": 0.00025182421227197343,
	"loss": 0.5183,
	"step": 591
	},
	{
	"epoch": 0.3263506063947078,
	"grad_norm": 0.2366262972354889,
	"learning_rate": 0.0002517412935323383,
	"loss": 0.5119,
	"step": 592
	},
	{
	"epoch": 0.3269018743109151,
	"grad_norm": 0.2465352565050125,
	"learning_rate": 0.00025165837479270315,
	"loss": 0.5133,
	"step": 593
	},
	{
	"epoch": 0.3274531422271224,
	"grad_norm": 0.24108771979808807,
	"learning_rate": 0.00025157545605306795,
	"loss": 0.5139,
	"step": 594
	},
	{
	"epoch": 0.32800441014332965,
	"grad_norm": 0.25272470712661743,
	"learning_rate": 0.0002514925373134328,
	"loss": 0.5161,
	"step": 595
	},
	{
	"epoch": 0.32855567805953695,
	"grad_norm": 0.23254331946372986,
	"learning_rate": 0.00025140961857379767,
	"loss": 0.5048,
	"step": 596
	},
	{
	"epoch": 0.3291069459757442,
	"grad_norm": 0.24523723125457764,
	"learning_rate": 0.00025132669983416253,
	"loss": 0.5234,
	"step": 597
	},
	{
	"epoch": 0.3296582138919515,
	"grad_norm": 0.2396179735660553,
	"learning_rate": 0.00025124378109452733,
	"loss": 0.4865,
	"step": 598
	},
	{
	"epoch": 0.3302094818081588,
	"grad_norm": 0.24812306463718414,
	"learning_rate": 0.0002511608623548922,
	"loss": 0.5262,
	"step": 599
	},
	{
	"epoch": 0.33076074972436603,
	"grad_norm": 0.21982058882713318,
	"learning_rate": 0.000251077943615257,
	"loss": 0.5067,
	"step": 600
	},
	{
	"epoch": 0.33131201764057333,
	"grad_norm": 0.23328660428524017,
	"learning_rate": 0.00025099502487562186,
	"loss": 0.5166,
	"step": 601
	},
	{
	"epoch": 0.3318632855567806,
	"grad_norm": 0.23042722046375275,
	"learning_rate": 0.0002509121061359867,
	"loss": 0.4754,
	"step": 602
	},
	{
	"epoch": 0.3324145534729879,
	"grad_norm": 0.2361726462841034,
	"learning_rate": 0.0002508291873963516,
	"loss": 0.5048,
	"step": 603
	},
	{
	"epoch": 0.33296582138919517,
	"grad_norm": 0.22569622099399567,
	"learning_rate": 0.0002507462686567164,
	"loss": 0.5272,
	"step": 604
	},
	{
	"epoch": 0.3335170893054024,
	"grad_norm": 0.28286513686180115,
	"learning_rate": 0.00025066334991708124,
	"loss": 0.5316,
	"step": 605
	},
	{
	"epoch": 0.3340683572216097,
	"grad_norm": 0.2402937114238739,
	"learning_rate": 0.0002505804311774461,
	"loss": 0.5213,
	"step": 606
	},
	{
	"epoch": 0.33461962513781696,
	"grad_norm": 0.23157329857349396,
	"learning_rate": 0.00025049751243781096,
	"loss": 0.5259,
	"step": 607
	},
	{
	"epoch": 0.33517089305402425,
	"grad_norm": 0.24995861947536469,
	"learning_rate": 0.00025041459369817576,
	"loss": 0.4986,
	"step": 608
	},
	{
	"epoch": 0.33572216097023155,
	"grad_norm": 0.2656213939189911,
	"learning_rate": 0.0002503316749585406,
	"loss": 0.4951,
	"step": 609
	},
	{
	"epoch": 0.3362734288864388,
	"grad_norm": 0.2361687421798706,
	"learning_rate": 0.00025024875621890543,
	"loss": 0.4897,
	"step": 610
	},
	{
	"epoch": 0.3368246968026461,
	"grad_norm": 0.23117870092391968,
	"learning_rate": 0.0002501658374792703,
	"loss": 0.5115,
	"step": 611
	},
	{
	"epoch": 0.33737596471885334,
	"grad_norm": 0.2605067491531372,
	"learning_rate": 0.00025008291873963515,
	"loss": 0.4969,
	"step": 612
	},
	{
	"epoch": 0.33792723263506064,
	"grad_norm": 0.2486005276441574,
	"learning_rate": 0.00025,
	"loss": 0.4853,
	"step": 613
	},
	{
	"epoch": 0.33847850055126794,
	"grad_norm": 0.2559118866920471,
	"learning_rate": 0.0002499170812603648,
	"loss": 0.5279,
	"step": 614
	},
	{
	"epoch": 0.3390297684674752,
	"grad_norm": 0.2579089403152466,
	"learning_rate": 0.00024983416252072967,
	"loss": 0.4942,
	"step": 615
	},
	{
	"epoch": 0.3395810363836825,
	"grad_norm": 0.24982236325740814,
	"learning_rate": 0.0002497512437810945,
	"loss": 0.5061,
	"step": 616
	},
	{
	"epoch": 0.3401323042998897,
	"grad_norm": 0.22861437499523163,
	"learning_rate": 0.0002496683250414594,
	"loss": 0.4935,
	"step": 617
	},
	{
	"epoch": 0.340683572216097,
	"grad_norm": 0.26352861523628235,
	"learning_rate": 0.0002495854063018242,
	"loss": 0.4989,
	"step": 618
	},
	{
	"epoch": 0.3412348401323043,
	"grad_norm": 0.26364725828170776,
	"learning_rate": 0.00024950248756218905,
	"loss": 0.5178,
	"step": 619
	},
	{
	"epoch": 0.34178610804851156,
	"grad_norm": 0.2375265508890152,
	"learning_rate": 0.00024941956882255386,
	"loss": 0.5081,
	"step": 620
	},
	{
	"epoch": 0.34233737596471886,
	"grad_norm": 0.24559634923934937,
	"learning_rate": 0.0002493366500829187,
	"loss": 0.5231,
	"step": 621
	},
	{
	"epoch": 0.3428886438809261,
	"grad_norm": 0.25992295145988464,
	"learning_rate": 0.0002492537313432836,
	"loss": 0.4919,
	"step": 622
	},
	{
	"epoch": 0.3434399117971334,
	"grad_norm": 0.2260003536939621,
	"learning_rate": 0.00024917081260364843,
	"loss": 0.4798,
	"step": 623
	},
	{
	"epoch": 0.3439911797133407,
	"grad_norm": 0.24474291503429413,
	"learning_rate": 0.00024908789386401324,
	"loss": 0.5063,
	"step": 624
	},
	{
	"epoch": 0.34454244762954794,
	"grad_norm": 0.27368757128715515,
	"learning_rate": 0.0002490049751243781,
	"loss": 0.5138,
	"step": 625
	},
	{
	"epoch": 0.34509371554575524,
	"grad_norm": 0.23762589693069458,
	"learning_rate": 0.0002489220563847429,
	"loss": 0.4739,
	"step": 626
	},
	{
	"epoch": 0.34564498346196254,
	"grad_norm": 0.26609158515930176,
	"learning_rate": 0.00024883913764510776,
	"loss": 0.5017,
	"step": 627
	},
	{
	"epoch": 0.3461962513781698,
	"grad_norm": 0.26183345913887024,
	"learning_rate": 0.0002487562189054726,
	"loss": 0.5278,
	"step": 628
	},
	{
	"epoch": 0.3467475192943771,
	"grad_norm": 0.254160076379776,
	"learning_rate": 0.0002486733001658374,
	"loss": 0.5178,
	"step": 629
	},
	{
	"epoch": 0.3472987872105843,
	"grad_norm": 0.23745757341384888,
	"learning_rate": 0.0002485903814262023,
	"loss": 0.5152,
	"step": 630
	},
	{
	"epoch": 0.3478500551267916,
	"grad_norm": 0.24215815961360931,
	"learning_rate": 0.00024850746268656714,
	"loss": 0.4821,
	"step": 631
	},
	{
	"epoch": 0.3484013230429989,
	"grad_norm": 0.2696283459663391,
	"learning_rate": 0.000248424543946932,
	"loss": 0.4868,
	"step": 632
	},
	{
	"epoch": 0.34895259095920617,
	"grad_norm": 0.2615061402320862,
	"learning_rate": 0.0002483416252072968,
	"loss": 0.5066,
	"step": 633
	},
	{
	"epoch": 0.34950385887541346,
	"grad_norm": 0.2618487775325775,
	"learning_rate": 0.00024825870646766167,
	"loss": 0.5084,
	"step": 634
	},
	{
	"epoch": 0.3500551267916207,
	"grad_norm": 0.2500843107700348,
	"learning_rate": 0.00024817578772802647,
	"loss": 0.5065,
	"step": 635
	},
	{
	"epoch": 0.350606394707828,
	"grad_norm": 0.2559143304824829,
	"learning_rate": 0.00024809286898839133,
	"loss": 0.5058,
	"step": 636
	},
	{
	"epoch": 0.3511576626240353,
	"grad_norm": 0.2498316466808319,
	"learning_rate": 0.0002480099502487562,
	"loss": 0.5033,
	"step": 637
	},
	{
	"epoch": 0.35170893054024255,
	"grad_norm": 0.2778237760066986,
	"learning_rate": 0.00024792703150912105,
	"loss": 0.5319,
	"step": 638
	},
	{
	"epoch": 0.35226019845644985,
	"grad_norm": 0.22850993275642395,
	"learning_rate": 0.00024784411276948585,
	"loss": 0.4852,
	"step": 639
	},
	{
	"epoch": 0.3528114663726571,
	"grad_norm": 0.22482328116893768,
	"learning_rate": 0.0002477611940298507,
	"loss": 0.5044,
	"step": 640
	},
	{
	"epoch": 0.3533627342888644,
	"grad_norm": 0.2470054179430008,
	"learning_rate": 0.0002476782752902156,
	"loss": 0.5119,
	"step": 641
	},
	{
	"epoch": 0.3539140022050717,
	"grad_norm": 0.26223158836364746,
	"learning_rate": 0.00024759535655058043,
	"loss": 0.5276,
	"step": 642
	},
	{
	"epoch": 0.35446527012127893,
	"grad_norm": 0.25175783038139343,
	"learning_rate": 0.00024751243781094524,
	"loss": 0.4963,
	"step": 643
	},
	{
	"epoch": 0.35501653803748623,
	"grad_norm": 0.26237010955810547,
	"learning_rate": 0.0002474295190713101,
	"loss": 0.4989,
	"step": 644
	},
	{
	"epoch": 0.35556780595369347,
	"grad_norm": 0.23380139470100403,
	"learning_rate": 0.0002473466003316749,
	"loss": 0.5143,
	"step": 645
	},
	{
	"epoch": 0.35611907386990077,
	"grad_norm": 0.23414726555347443,
	"learning_rate": 0.00024726368159203976,
	"loss": 0.4837,
	"step": 646
	},
	{
	"epoch": 0.35667034178610807,
	"grad_norm": 0.2426154464483261,
	"learning_rate": 0.0002471807628524046,
	"loss": 0.4953,
	"step": 647
	},
	{
	"epoch": 0.3572216097023153,
	"grad_norm": 0.25034722685813904,
	"learning_rate": 0.0002470978441127695,
	"loss": 0.505,
	"step": 648
	},
	{
	"epoch": 0.3577728776185226,
	"grad_norm": 0.21789918839931488,
	"learning_rate": 0.0002470149253731343,
	"loss": 0.5121,
	"step": 649
	},
	{
	"epoch": 0.35832414553472985,
	"grad_norm": 0.2339979112148285,
	"learning_rate": 0.00024693200663349914,
	"loss": 0.5065,
	"step": 650
	},
	{
	"epoch": 0.35887541345093715,
	"grad_norm": 0.22365735471248627,
	"learning_rate": 0.000246849087893864,
	"loss": 0.4952,
	"step": 651
	},
	{
	"epoch": 0.35942668136714445,
	"grad_norm": 0.2149263620376587,
	"learning_rate": 0.00024676616915422886,
	"loss": 0.4677,
	"step": 652
	},
	{
	"epoch": 0.3599779492833517,
	"grad_norm": 0.2143101543188095,
	"learning_rate": 0.00024668325041459367,
	"loss": 0.4881,
	"step": 653
	},
	{
	"epoch": 0.360529217199559,
	"grad_norm": 0.23739519715309143,
	"learning_rate": 0.0002466003316749585,
	"loss": 0.5006,
	"step": 654
	},
	{
	"epoch": 0.36108048511576624,
	"grad_norm": 0.24234917759895325,
	"learning_rate": 0.00024651741293532333,
	"loss": 0.5206,
	"step": 655
	},
	{
	"epoch": 0.36163175303197354,
	"grad_norm": 0.2366551011800766,
	"learning_rate": 0.0002464344941956882,
	"loss": 0.5075,
	"step": 656
	},
	{
	"epoch": 0.36218302094818083,
	"grad_norm": 0.2543952465057373,
	"learning_rate": 0.00024635157545605305,
	"loss": 0.4985,
	"step": 657
	},
	{
	"epoch": 0.3627342888643881,
	"grad_norm": 0.24470911920070648,
	"learning_rate": 0.0002462686567164179,
	"loss": 0.5128,
	"step": 658
	},
	{
	"epoch": 0.3632855567805954,
	"grad_norm": 0.22214102745056152,
	"learning_rate": 0.0002461857379767827,
	"loss": 0.5125,
	"step": 659
	},
	{
	"epoch": 0.3638368246968026,
	"grad_norm": 0.24312040209770203,
	"learning_rate": 0.00024610281923714757,
	"loss": 0.4936,
	"step": 660
	},
	{
	"epoch": 0.3643880926130099,
	"grad_norm": 0.25986719131469727,
	"learning_rate": 0.00024601990049751243,
	"loss": 0.5347,
	"step": 661
	},
	{
	"epoch": 0.3649393605292172,
	"grad_norm": 0.22576284408569336,
	"learning_rate": 0.0002459369817578773,
	"loss": 0.4747,
	"step": 662
	},
	{
	"epoch": 0.36549062844542446,
	"grad_norm": 0.257548451423645,
	"learning_rate": 0.0002458540630182421,
	"loss": 0.5083,
	"step": 663
	},
	{
	"epoch": 0.36604189636163176,
	"grad_norm": 0.26048266887664795,
	"learning_rate": 0.00024577114427860695,
	"loss": 0.539,
	"step": 664
	},
	{
	"epoch": 0.36659316427783906,
	"grad_norm": 0.2594940662384033,
	"learning_rate": 0.00024568822553897176,
	"loss": 0.5003,
	"step": 665
	},
	{
	"epoch": 0.3671444321940463,
	"grad_norm": 0.2651066482067108,
	"learning_rate": 0.0002456053067993366,
	"loss": 0.4979,
	"step": 666
	},
	{
	"epoch": 0.3676957001102536,
	"grad_norm": 0.2542423903942108,
	"learning_rate": 0.0002455223880597015,
	"loss": 0.5338,
	"step": 667
	},
	{
	"epoch": 0.36824696802646084,
	"grad_norm": 0.24032056331634521,
	"learning_rate": 0.00024543946932006634,
	"loss": 0.5101,
	"step": 668
	},
	{
	"epoch": 0.36879823594266814,
	"grad_norm": 0.26019784808158875,
	"learning_rate": 0.00024535655058043114,
	"loss": 0.5217,
	"step": 669
	},
	{
	"epoch": 0.36934950385887544,
	"grad_norm": 0.24449752271175385,
	"learning_rate": 0.000245273631840796,
	"loss": 0.5318,
	"step": 670
	},
	{
	"epoch": 0.3699007717750827,
	"grad_norm": 0.22685208916664124,
	"learning_rate": 0.00024519071310116086,
	"loss": 0.5186,
	"step": 671
	},
	{
	"epoch": 0.37045203969129,
	"grad_norm": 0.2340528517961502,
	"learning_rate": 0.00024510779436152566,
	"loss": 0.4879,
	"step": 672
	},
	{
	"epoch": 0.3710033076074972,
	"grad_norm": 0.2637344002723694,
	"learning_rate": 0.0002450248756218905,
	"loss": 0.5225,
	"step": 673
	},
	{
	"epoch": 0.3715545755237045,
	"grad_norm": 0.2515370845794678,
	"learning_rate": 0.00024494195688225533,
	"loss": 0.4913,
	"step": 674
	},
	{
	"epoch": 0.3721058434399118,
	"grad_norm": 0.22438743710517883,
	"learning_rate": 0.0002448590381426202,
	"loss": 0.4733,
	"step": 675
	},
	{
	"epoch": 0.37265711135611906,
	"grad_norm": 0.24447986483573914,
	"learning_rate": 0.00024477611940298505,
	"loss": 0.5138,
	"step": 676
	},
	{
	"epoch": 0.37320837927232636,
	"grad_norm": 0.2652420699596405,
	"learning_rate": 0.0002446932006633499,
	"loss": 0.4897,
	"step": 677
	},
	{
	"epoch": 0.3737596471885336,
	"grad_norm": 0.23273025453090668,
	"learning_rate": 0.0002446102819237147,
	"loss": 0.4823,
	"step": 678
	},
	{
	"epoch": 0.3743109151047409,
	"grad_norm": 0.24014912545681,
	"learning_rate": 0.00024452736318407957,
	"loss": 0.4963,
	"step": 679
	},
	{
	"epoch": 0.3748621830209482,
	"grad_norm": 0.2454654574394226,
	"learning_rate": 0.00024444444444444443,
	"loss": 0.5367,
	"step": 680
	},
	{
	"epoch": 0.37541345093715545,
	"grad_norm": 0.23897579312324524,
	"learning_rate": 0.0002443615257048093,
	"loss": 0.5038,
	"step": 681
	},
	{
	"epoch": 0.37596471885336274,
	"grad_norm": 0.25277066230773926,
	"learning_rate": 0.0002442786069651741,
	"loss": 0.506,
	"step": 682
	},
	{
	"epoch": 0.37651598676957,
	"grad_norm": 0.22470998764038086,
	"learning_rate": 0.00024419568822553895,
	"loss": 0.5038,
	"step": 683
	},
	{
	"epoch": 0.3770672546857773,
	"grad_norm": 0.2490270882844925,
	"learning_rate": 0.00024411276948590378,
	"loss": 0.5073,
	"step": 684
	},
	{
	"epoch": 0.3776185226019846,
	"grad_norm": 0.23964819312095642,
	"learning_rate": 0.00024402985074626864,
	"loss": 0.4932,
	"step": 685
	},
	{
	"epoch": 0.37816979051819183,
	"grad_norm": 0.2595767676830292,
	"learning_rate": 0.00024394693200663348,
	"loss": 0.5263,
	"step": 686
	},
	{
	"epoch": 0.3787210584343991,
	"grad_norm": 0.23740339279174805,
	"learning_rate": 0.00024386401326699833,
	"loss": 0.5019,
	"step": 687
	},
	{
	"epoch": 0.37927232635060637,
	"grad_norm": 0.23046371340751648,
	"learning_rate": 0.00024378109452736314,
	"loss": 0.5071,
	"step": 688
	},
	{
	"epoch": 0.37982359426681367,
	"grad_norm": 0.24483554065227509,
	"learning_rate": 0.000243698175787728,
	"loss": 0.4978,
	"step": 689
	},
	{
	"epoch": 0.38037486218302097,
	"grad_norm": 0.23441949486732483,
	"learning_rate": 0.00024361525704809283,
	"loss": 0.5217,
	"step": 690
	},
	{
	"epoch": 0.3809261300992282,
	"grad_norm": 0.23334890604019165,
	"learning_rate": 0.0002435323383084577,
	"loss": 0.4826,
	"step": 691
	},
	{
	"epoch": 0.3814773980154355,
	"grad_norm": 0.2869088053703308,
	"learning_rate": 0.00024344941956882252,
	"loss": 0.5199,
	"step": 692
	},
	{
	"epoch": 0.38202866593164275,
	"grad_norm": 0.22842839360237122,
	"learning_rate": 0.00024336650082918738,
	"loss": 0.4586,
	"step": 693
	},
	{
	"epoch": 0.38257993384785005,
	"grad_norm": 0.23558756709098816,
	"learning_rate": 0.0002432835820895522,
	"loss": 0.4775,
	"step": 694
	},
	{
	"epoch": 0.38313120176405735,
	"grad_norm": 0.2528475821018219,
	"learning_rate": 0.00024320066334991707,
	"loss": 0.5068,
	"step": 695
	},
	{
	"epoch": 0.3836824696802646,
	"grad_norm": 0.2580317258834839,
	"learning_rate": 0.0002431177446102819,
	"loss": 0.52,
	"step": 696
	},
	{
	"epoch": 0.3842337375964719,
	"grad_norm": 0.23449361324310303,
	"learning_rate": 0.00024303482587064676,
	"loss": 0.4776,
	"step": 697
	},
	{
	"epoch": 0.38478500551267913,
	"grad_norm": 0.2365398108959198,
	"learning_rate": 0.00024295190713101157,
	"loss": 0.5063,
	"step": 698
	},
	{
	"epoch": 0.38533627342888643,
	"grad_norm": 0.24017611145973206,
	"learning_rate": 0.00024286898839137643,
	"loss": 0.4989,
	"step": 699
	},
	{
	"epoch": 0.38588754134509373,
	"grad_norm": 0.237211212515831,
	"learning_rate": 0.00024278606965174126,
	"loss": 0.4942,
	"step": 700
	},
	{
	"epoch": 0.386438809261301,
	"grad_norm": 0.24133196473121643,
	"learning_rate": 0.00024270315091210612,
	"loss": 0.4991,
	"step": 701
	},
	{
	"epoch": 0.3869900771775083,
	"grad_norm": 0.23730522394180298,
	"learning_rate": 0.00024262023217247095,
	"loss": 0.4847,
	"step": 702
	},
	{
	"epoch": 0.3875413450937156,
	"grad_norm": 0.23267106711864471,
	"learning_rate": 0.0002425373134328358,
	"loss": 0.5304,
	"step": 703
	},
	{
	"epoch": 0.3880926130099228,
	"grad_norm": 0.22734446823596954,
	"learning_rate": 0.00024245439469320064,
	"loss": 0.4752,
	"step": 704
	},
	{
	"epoch": 0.3886438809261301,
	"grad_norm": 0.24138008058071136,
	"learning_rate": 0.0002423714759535655,
	"loss": 0.4831,
	"step": 705
	},
	{
	"epoch": 0.38919514884233736,
	"grad_norm": 0.24015116691589355,
	"learning_rate": 0.00024228855721393033,
	"loss": 0.506,
	"step": 706
	},
	{
	"epoch": 0.38974641675854466,
	"grad_norm": 0.23817308247089386,
	"learning_rate": 0.0002422056384742952,
	"loss": 0.4868,
	"step": 707
	},
	{
	"epoch": 0.39029768467475195,
	"grad_norm": 0.21546156704425812,
	"learning_rate": 0.00024212271973466,
	"loss": 0.5102,
	"step": 708
	},
	{
	"epoch": 0.3908489525909592,
	"grad_norm": 0.2489834874868393,
	"learning_rate": 0.00024203980099502486,
	"loss": 0.4985,
	"step": 709
	},
	{
	"epoch": 0.3914002205071665,
	"grad_norm": 0.23067452013492584,
	"learning_rate": 0.0002419568822553897,
	"loss": 0.4985,
	"step": 710
	},
	{
	"epoch": 0.39195148842337374,
	"grad_norm": 0.24763309955596924,
	"learning_rate": 0.00024187396351575455,
	"loss": 0.5124,
	"step": 711
	},
	{
	"epoch": 0.39250275633958104,
	"grad_norm": 0.2439269721508026,
	"learning_rate": 0.00024179104477611938,
	"loss": 0.4939,
	"step": 712
	},
	{
	"epoch": 0.39305402425578834,
	"grad_norm": 0.23163112998008728,
	"learning_rate": 0.00024170812603648424,
	"loss": 0.4954,
	"step": 713
	},
	{
	"epoch": 0.3936052921719956,
	"grad_norm": 0.24170540273189545,
	"learning_rate": 0.00024162520729684907,
	"loss": 0.4947,
	"step": 714
	},
	{
	"epoch": 0.3941565600882029,
	"grad_norm": 0.23549963533878326,
	"learning_rate": 0.00024154228855721393,
	"loss": 0.5132,
	"step": 715
	},
	{
	"epoch": 0.3947078280044101,
	"grad_norm": 0.2394574135541916,
	"learning_rate": 0.00024145936981757876,
	"loss": 0.5153,
	"step": 716
	},
	{
	"epoch": 0.3952590959206174,
	"grad_norm": 0.2615318298339844,
	"learning_rate": 0.00024137645107794357,
	"loss": 0.4971,
	"step": 717
	},
	{
	"epoch": 0.3958103638368247,
	"grad_norm": 0.2353423684835434,
	"learning_rate": 0.00024129353233830843,
	"loss": 0.4966,
	"step": 718
	},
	{
	"epoch": 0.39636163175303196,
	"grad_norm": 0.22130148112773895,
	"learning_rate": 0.00024121061359867326,
	"loss": 0.4487,
	"step": 719
	},
	{
	"epoch": 0.39691289966923926,
	"grad_norm": 0.234688401222229,
	"learning_rate": 0.00024112769485903812,
	"loss": 0.499,
	"step": 720
	},
	{
	"epoch": 0.3974641675854465,
	"grad_norm": 0.23247137665748596,
	"learning_rate": 0.00024104477611940295,
	"loss": 0.4944,
	"step": 721
	},
	{
	"epoch": 0.3980154355016538,
	"grad_norm": 0.2362777143716812,
	"learning_rate": 0.0002409618573797678,
	"loss": 0.481,
	"step": 722
	},
	{
	"epoch": 0.3985667034178611,
	"grad_norm": 0.24181120097637177,
	"learning_rate": 0.00024087893864013264,
	"loss": 0.5211,
	"step": 723
	},
	{
	"epoch": 0.39911797133406834,
	"grad_norm": 0.22298705577850342,
	"learning_rate": 0.0002407960199004975,
	"loss": 0.4888,
	"step": 724
	},
	{
	"epoch": 0.39966923925027564,
	"grad_norm": 0.2304617017507553,
	"learning_rate": 0.00024071310116086233,
	"loss": 0.4811,
	"step": 725
	},
	{
	"epoch": 0.4002205071664829,
	"grad_norm": 0.24691155552864075,
	"learning_rate": 0.0002406301824212272,
	"loss": 0.5189,
	"step": 726
	},
	{
	"epoch": 0.4007717750826902,
	"grad_norm": 0.25604429841041565,
	"learning_rate": 0.000240547263681592,
	"loss": 0.4927,
	"step": 727
	},
	{
	"epoch": 0.4013230429988975,
	"grad_norm": 0.2280474603176117,
	"learning_rate": 0.00024046434494195685,
	"loss": 0.4882,
	"step": 728
	},
	{
	"epoch": 0.4018743109151047,
	"grad_norm": 0.23425596952438354,
	"learning_rate": 0.0002403814262023217,
	"loss": 0.4875,
	"step": 729
	},
	{
	"epoch": 0.402425578831312,
	"grad_norm": 0.26156267523765564,
	"learning_rate": 0.00024029850746268655,
	"loss": 0.5087,
	"step": 730
	},
	{
	"epoch": 0.40297684674751927,
	"grad_norm": 0.23172809183597565,
	"learning_rate": 0.00024021558872305138,
	"loss": 0.5024,
	"step": 731
	},
	{
	"epoch": 0.40352811466372657,
	"grad_norm": 0.23358501493930817,
	"learning_rate": 0.00024013266998341624,
	"loss": 0.4972,
	"step": 732
	},
	{
	"epoch": 0.40407938257993387,
	"grad_norm": 0.23836782574653625,
	"learning_rate": 0.00024004975124378107,
	"loss": 0.5061,
	"step": 733
	},
	{
	"epoch": 0.4046306504961411,
	"grad_norm": 0.23341165482997894,
	"learning_rate": 0.00023996683250414593,
	"loss": 0.4927,
	"step": 734
	},
	{
	"epoch": 0.4051819184123484,
	"grad_norm": 0.2267657369375229,
	"learning_rate": 0.00023988391376451076,
	"loss": 0.4884,
	"step": 735
	},
	{
	"epoch": 0.40573318632855565,
	"grad_norm": 0.23333032429218292,
	"learning_rate": 0.00023980099502487562,
	"loss": 0.4764,
	"step": 736
	},
	{
	"epoch": 0.40628445424476295,
	"grad_norm": 0.24722862243652344,
	"learning_rate": 0.00023971807628524042,
	"loss": 0.5168,
	"step": 737
	},
	{
	"epoch": 0.40683572216097025,
	"grad_norm": 0.24919219315052032,
	"learning_rate": 0.00023963515754560528,
	"loss": 0.4953,
	"step": 738
	},
	{
	"epoch": 0.4073869900771775,
	"grad_norm": 0.22673016786575317,
	"learning_rate": 0.00023955223880597012,
	"loss": 0.4883,
	"step": 739
	},
	{
	"epoch": 0.4079382579933848,
	"grad_norm": 0.22796331346035004,
	"learning_rate": 0.00023946932006633497,
	"loss": 0.4683,
	"step": 740
	},
	{
	"epoch": 0.4084895259095921,
	"grad_norm": 0.23972417414188385,
	"learning_rate": 0.0002393864013266998,
	"loss": 0.4919,
	"step": 741
	},
	{
	"epoch": 0.40904079382579933,
	"grad_norm": 0.23933400213718414,
	"learning_rate": 0.00023930348258706467,
	"loss": 0.5053,
	"step": 742
	},
	{
	"epoch": 0.40959206174200663,
	"grad_norm": 0.24868054687976837,
	"learning_rate": 0.0002392205638474295,
	"loss": 0.4854,
	"step": 743
	},
	{
	"epoch": 0.4101433296582139,
	"grad_norm": 0.23096708953380585,
	"learning_rate": 0.00023913764510779436,
	"loss": 0.4739,
	"step": 744
	},
	{
	"epoch": 0.41069459757442117,
	"grad_norm": 0.2553226947784424,
	"learning_rate": 0.0002390547263681592,
	"loss": 0.4679,
	"step": 745
	},
	{
	"epoch": 0.41124586549062847,
	"grad_norm": 0.24697932600975037,
	"learning_rate": 0.00023897180762852405,
	"loss": 0.4858,
	"step": 746
	},
	{
	"epoch": 0.4117971334068357,
	"grad_norm": 0.2418091893196106,
	"learning_rate": 0.00023888888888888885,
	"loss": 0.5172,
	"step": 747
	},
	{
	"epoch": 0.412348401323043,
	"grad_norm": 0.24144020676612854,
	"learning_rate": 0.0002388059701492537,
	"loss": 0.4711,
	"step": 748
	},
	{
	"epoch": 0.41289966923925026,
	"grad_norm": 0.24137695133686066,
	"learning_rate": 0.00023872305140961854,
	"loss": 0.5106,
	"step": 749
	},
	{
	"epoch": 0.41345093715545755,
	"grad_norm": 0.220285102725029,
	"learning_rate": 0.0002386401326699834,
	"loss": 0.4704,
	"step": 750
	},
	{
	"epoch": 0.41400220507166485,
	"grad_norm": 0.24430547654628754,
	"learning_rate": 0.00023855721393034824,
	"loss": 0.5038,
	"step": 751
	},
	{
	"epoch": 0.4145534729878721,
	"grad_norm": 0.24019300937652588,
	"learning_rate": 0.0002384742951907131,
	"loss": 0.4949,
	"step": 752
	},
	{
	"epoch": 0.4151047409040794,
	"grad_norm": 0.22668643295764923,
	"learning_rate": 0.00023839137645107793,
	"loss": 0.4718,
	"step": 753
	},
	{
	"epoch": 0.41565600882028664,
	"grad_norm": 0.2277330756187439,
	"learning_rate": 0.00023830845771144279,
	"loss": 0.514,
	"step": 754
	},
	{
	"epoch": 0.41620727673649394,
	"grad_norm": 0.2215653359889984,
	"learning_rate": 0.00023822553897180762,
	"loss": 0.4873,
	"step": 755
	},
	{
	"epoch": 0.41675854465270123,
	"grad_norm": 0.22386564314365387,
	"learning_rate": 0.00023814262023217248,
	"loss": 0.4824,
	"step": 756
	},
	{
	"epoch": 0.4173098125689085,
	"grad_norm": 0.2562282681465149,
	"learning_rate": 0.00023805970149253728,
	"loss": 0.5177,
	"step": 757
	},
	{
	"epoch": 0.4178610804851158,
	"grad_norm": 0.25375691056251526,
	"learning_rate": 0.00023797678275290214,
	"loss": 0.51,
	"step": 758
	},
	{
	"epoch": 0.418412348401323,
	"grad_norm": 0.26564472913742065,
	"learning_rate": 0.00023789386401326697,
	"loss": 0.5048,
	"step": 759
	},
	{
	"epoch": 0.4189636163175303,
	"grad_norm": 0.24918165802955627,
	"learning_rate": 0.00023781094527363183,
	"loss": 0.4964,
	"step": 760
	},
	{
	"epoch": 0.4195148842337376,
	"grad_norm": 0.26909199357032776,
	"learning_rate": 0.00023772802653399666,
	"loss": 0.4511,
	"step": 761
	},
	{
	"epoch": 0.42006615214994486,
	"grad_norm": 0.27723434567451477,
	"learning_rate": 0.0002376451077943615,
	"loss": 0.4994,
	"step": 762
	},
	{
	"epoch": 0.42061742006615216,
	"grad_norm": 0.23842424154281616,
	"learning_rate": 0.00023756218905472636,
	"loss": 0.5127,
	"step": 763
	},
	{
	"epoch": 0.4211686879823594,
	"grad_norm": 0.2599777281284332,
	"learning_rate": 0.0002374792703150912,
	"loss": 0.5221,
	"step": 764
	},
	{
	"epoch": 0.4217199558985667,
	"grad_norm": 0.2541678845882416,
	"learning_rate": 0.00023739635157545605,
	"loss": 0.5086,
	"step": 765
	},
	{
	"epoch": 0.422271223814774,
	"grad_norm": 0.24489666521549225,
	"learning_rate": 0.00023731343283582085,
	"loss": 0.5052,
	"step": 766
	},
	{
	"epoch": 0.42282249173098124,
	"grad_norm": 0.23364123702049255,
	"learning_rate": 0.0002372305140961857,
	"loss": 0.4815,
	"step": 767
	},
	{
	"epoch": 0.42337375964718854,
	"grad_norm": 0.24420395493507385,
	"learning_rate": 0.00023714759535655054,
	"loss": 0.4799,
	"step": 768
	},
	{
	"epoch": 0.4239250275633958,
	"grad_norm": 0.2559242844581604,
	"learning_rate": 0.0002370646766169154,
	"loss": 0.5218,
	"step": 769
	},
	{
	"epoch": 0.4244762954796031,
	"grad_norm": 0.24033527076244354,
	"learning_rate": 0.00023698175787728023,
	"loss": 0.4951,
	"step": 770
	},
	{
	"epoch": 0.4250275633958104,
	"grad_norm": 0.2582804262638092,
	"learning_rate": 0.0002368988391376451,
	"loss": 0.4925,
	"step": 771
	},
	{
	"epoch": 0.4255788313120176,
	"grad_norm": 0.21231015026569366,
	"learning_rate": 0.00023681592039800992,
	"loss": 0.4975,
	"step": 772
	},
	{
	"epoch": 0.4261300992282249,
	"grad_norm": 0.23742909729480743,
	"learning_rate": 0.00023673300165837478,
	"loss": 0.5115,
	"step": 773
	},
	{
	"epoch": 0.42668136714443217,
	"grad_norm": 0.23761944472789764,
	"learning_rate": 0.00023665008291873962,
	"loss": 0.5117,
	"step": 774
	},
	{
	"epoch": 0.42723263506063947,
	"grad_norm": 0.25065210461616516,
	"learning_rate": 0.00023656716417910448,
	"loss": 0.5305,
	"step": 775
	},
	{
	"epoch": 0.42778390297684676,
	"grad_norm": 0.23839645087718964,
	"learning_rate": 0.00023648424543946928,
	"loss": 0.5245,
	"step": 776
	},
	{
	"epoch": 0.428335170893054,
	"grad_norm": 0.22241149842739105,
	"learning_rate": 0.00023640132669983414,
	"loss": 0.5041,
	"step": 777
	},
	{
	"epoch": 0.4288864388092613,
	"grad_norm": 0.23228657245635986,
	"learning_rate": 0.00023631840796019897,
	"loss": 0.4955,
	"step": 778
	},
	{
	"epoch": 0.4294377067254686,
	"grad_norm": 0.24807095527648926,
	"learning_rate": 0.00023623548922056383,
	"loss": 0.5057,
	"step": 779
	},
	{
	"epoch": 0.42998897464167585,
	"grad_norm": 0.253288209438324,
	"learning_rate": 0.00023615257048092866,
	"loss": 0.5179,
	"step": 780
	},
	{
	"epoch": 0.43054024255788315,
	"grad_norm": 0.2280365228652954,
	"learning_rate": 0.00023606965174129352,
	"loss": 0.5104,
	"step": 781
	},
	{
	"epoch": 0.4310915104740904,
	"grad_norm": 0.21497339010238647,
	"learning_rate": 0.00023598673300165835,
	"loss": 0.479,
	"step": 782
	},
	{
	"epoch": 0.4316427783902977,
	"grad_norm": 0.25969845056533813,
	"learning_rate": 0.0002359038142620232,
	"loss": 0.4952,
	"step": 783
	},
	{
	"epoch": 0.432194046306505,
	"grad_norm": 0.24241061508655548,
	"learning_rate": 0.00023582089552238804,
	"loss": 0.5147,
	"step": 784
	},
	{
	"epoch": 0.43274531422271223,
	"grad_norm": 0.23297248780727386,
	"learning_rate": 0.0002357379767827529,
	"loss": 0.4698,
	"step": 785
	},
	{
	"epoch": 0.43329658213891953,
	"grad_norm": 0.23766906559467316,
	"learning_rate": 0.0002356550580431177,
	"loss": 0.5127,
	"step": 786
	},
	{
	"epoch": 0.43384785005512677,
	"grad_norm": 0.225977823138237,
	"learning_rate": 0.00023557213930348257,
	"loss": 0.4698,
	"step": 787
	},
	{
	"epoch": 0.43439911797133407,
	"grad_norm": 0.25361236929893494,
	"learning_rate": 0.0002354892205638474,
	"loss": 0.4887,
	"step": 788
	},
	{
	"epoch": 0.43495038588754137,
	"grad_norm": 0.23103906214237213,
	"learning_rate": 0.00023540630182421226,
	"loss": 0.4831,
	"step": 789
	},
	{
	"epoch": 0.4355016538037486,
	"grad_norm": 0.23840244114398956,
	"learning_rate": 0.0002353233830845771,
	"loss": 0.501,
	"step": 790
	},
	{
	"epoch": 0.4360529217199559,
	"grad_norm": 0.2217642217874527,
	"learning_rate": 0.00023524046434494195,
	"loss": 0.4792,
	"step": 791
	},
	{
	"epoch": 0.43660418963616315,
	"grad_norm": 0.23963388800621033,
	"learning_rate": 0.00023515754560530678,
	"loss": 0.5043,
	"step": 792
	},
	{
	"epoch": 0.43715545755237045,
	"grad_norm": 0.2423614263534546,
	"learning_rate": 0.00023507462686567164,
	"loss": 0.4923,
	"step": 793
	},
	{
	"epoch": 0.43770672546857775,
	"grad_norm": 0.23817111551761627,
	"learning_rate": 0.00023499170812603645,
	"loss": 0.4836,
	"step": 794
	},
	{
	"epoch": 0.438257993384785,
	"grad_norm": 0.22162829339504242,
	"learning_rate": 0.00023490878938640133,
	"loss": 0.4919,
	"step": 795
	},
	{
	"epoch": 0.4388092613009923,
	"grad_norm": 0.22646528482437134,
	"learning_rate": 0.00023482587064676614,
	"loss": 0.4727,
	"step": 796
	},
	{
	"epoch": 0.43936052921719954,
	"grad_norm": 0.2530063986778259,
	"learning_rate": 0.000234742951907131,
	"loss": 0.4896,
	"step": 797
	},
	{
	"epoch": 0.43991179713340683,
	"grad_norm": 0.24201619625091553,
	"learning_rate": 0.00023466003316749583,
	"loss": 0.4664,
	"step": 798
	},
	{
	"epoch": 0.44046306504961413,
	"grad_norm": 0.22222551703453064,
	"learning_rate": 0.0002345771144278607,
	"loss": 0.4914,
	"step": 799
	},
	{
	"epoch": 0.4410143329658214,
	"grad_norm": 0.2384173721075058,
	"learning_rate": 0.00023449419568822552,
	"loss": 0.5029,
	"step": 800
	},
	{
	"epoch": 0.4415656008820287,
	"grad_norm": 0.23053288459777832,
	"learning_rate": 0.00023441127694859038,
	"loss": 0.5011,
	"step": 801
	},
	{
	"epoch": 0.4421168687982359,
	"grad_norm": 0.2338135987520218,
	"learning_rate": 0.0002343283582089552,
	"loss": 0.5145,
	"step": 802
	},
	{
	"epoch": 0.4426681367144432,
	"grad_norm": 0.2439098060131073,
	"learning_rate": 0.00023424543946932007,
	"loss": 0.5353,
	"step": 803
	},
	{
	"epoch": 0.4432194046306505,
	"grad_norm": 0.25395849347114563,
	"learning_rate": 0.00023416252072968488,
	"loss": 0.5287,
	"step": 804
	},
	{
	"epoch": 0.44377067254685776,
	"grad_norm": 0.24382875859737396,
	"learning_rate": 0.0002340796019900497,
	"loss": 0.4753,
	"step": 805
	},
	{
	"epoch": 0.44432194046306506,
	"grad_norm": 0.22943390905857086,
	"learning_rate": 0.00023399668325041457,
	"loss": 0.4899,
	"step": 806
	},
	{
	"epoch": 0.4448732083792723,
	"grad_norm": 0.23026274144649506,
	"learning_rate": 0.0002339137645107794,
	"loss": 0.4776,
	"step": 807
	},
	{
	"epoch": 0.4454244762954796,
	"grad_norm": 0.263637512922287,
	"learning_rate": 0.00023383084577114426,
	"loss": 0.5036,
	"step": 808
	},
	{
	"epoch": 0.4459757442116869,
	"grad_norm": 0.2239854782819748,
	"learning_rate": 0.0002337479270315091,
	"loss": 0.5074,
	"step": 809
	},
	{
	"epoch": 0.44652701212789414,
	"grad_norm": 0.24209174513816833,
	"learning_rate": 0.00023366500829187395,
	"loss": 0.4962,
	"step": 810
	},
	{
	"epoch": 0.44707828004410144,
	"grad_norm": 0.2574441730976105,
	"learning_rate": 0.00023358208955223878,
	"loss": 0.4833,
	"step": 811
	},
	{
	"epoch": 0.4476295479603087,
	"grad_norm": 0.24309788644313812,
	"learning_rate": 0.00023349917081260364,
	"loss": 0.4971,
	"step": 812
	},
	{
	"epoch": 0.448180815876516,
	"grad_norm": 0.23553608357906342,
	"learning_rate": 0.00023341625207296844,
	"loss": 0.4951,
	"step": 813
	},
	{
	"epoch": 0.4487320837927233,
	"grad_norm": 0.23820781707763672,
	"learning_rate": 0.0002333333333333333,
	"loss": 0.4974,
	"step": 814
	},
	{
	"epoch": 0.4492833517089305,
	"grad_norm": 0.26907938718795776,
	"learning_rate": 0.00023325041459369814,
	"loss": 0.4904,
	"step": 815
	},
	{
	"epoch": 0.4498346196251378,
	"grad_norm": 0.2529081702232361,
	"learning_rate": 0.000233167495854063,
	"loss": 0.5047,
	"step": 816
	},
	{
	"epoch": 0.4503858875413451,
	"grad_norm": 0.2080521285533905,
	"learning_rate": 0.00023308457711442783,
	"loss": 0.4676,
	"step": 817
	},
	{
	"epoch": 0.45093715545755236,
	"grad_norm": 0.25028982758522034,
	"learning_rate": 0.00023300165837479269,
	"loss": 0.5093,
	"step": 818
	},
	{
	"epoch": 0.45148842337375966,
	"grad_norm": 0.24182821810245514,
	"learning_rate": 0.00023291873963515752,
	"loss": 0.5082,
	"step": 819
	},
	{
	"epoch": 0.4520396912899669,
	"grad_norm": 0.23918956518173218,
	"learning_rate": 0.00023283582089552238,
	"loss": 0.4887,
	"step": 820
	},
	{
	"epoch": 0.4525909592061742,
	"grad_norm": 0.25016239285469055,
	"learning_rate": 0.0002327529021558872,
	"loss": 0.4887,
	"step": 821
	},
	{
	"epoch": 0.4531422271223815,
	"grad_norm": 0.2489538937807083,
	"learning_rate": 0.00023266998341625207,
	"loss": 0.5089,
	"step": 822
	},
	{
	"epoch": 0.45369349503858875,
	"grad_norm": 0.2490735650062561,
	"learning_rate": 0.00023258706467661687,
	"loss": 0.4812,
	"step": 823
	},
	{
	"epoch": 0.45424476295479604,
	"grad_norm": 0.26727011799812317,
	"learning_rate": 0.00023250414593698173,
	"loss": 0.4943,
	"step": 824
	},
	{
	"epoch": 0.4547960308710033,
	"grad_norm": 0.2334149330854416,
	"learning_rate": 0.00023242122719734656,
	"loss": 0.4743,
	"step": 825
	},
	{
	"epoch": 0.4553472987872106,
	"grad_norm": 0.24874447286128998,
	"learning_rate": 0.00023233830845771142,
	"loss": 0.5034,
	"step": 826
	},
	{
	"epoch": 0.4558985667034179,
	"grad_norm": 0.26186123490333557,
	"learning_rate": 0.00023225538971807626,
	"loss": 0.4986,
	"step": 827
	},
	{
	"epoch": 0.4564498346196251,
	"grad_norm": 0.22734478116035461,
	"learning_rate": 0.00023217247097844111,
	"loss": 0.479,
	"step": 828
	},
	{
	"epoch": 0.4570011025358324,
	"grad_norm": 0.24908246099948883,
	"learning_rate": 0.00023208955223880595,
	"loss": 0.5176,
	"step": 829
	},
	{
	"epoch": 0.45755237045203967,
	"grad_norm": 0.2561740279197693,
	"learning_rate": 0.0002320066334991708,
	"loss": 0.5181,
	"step": 830
	},
	{
	"epoch": 0.45810363836824697,
	"grad_norm": 0.24820713698863983,
	"learning_rate": 0.00023192371475953564,
	"loss": 0.5168,
	"step": 831
	},
	{
	"epoch": 0.45865490628445427,
	"grad_norm": 0.22865842282772064,
	"learning_rate": 0.0002318407960199005,
	"loss": 0.5034,
	"step": 832
	},
	{
	"epoch": 0.4592061742006615,
	"grad_norm": 0.2395135760307312,
	"learning_rate": 0.0002317578772802653,
	"loss": 0.4956,
	"step": 833
	},
	{
	"epoch": 0.4597574421168688,
	"grad_norm": 0.2375570386648178,
	"learning_rate": 0.00023167495854063016,
	"loss": 0.4939,
	"step": 834
	},
	{
	"epoch": 0.46030871003307605,
	"grad_norm": 0.24207614362239838,
	"learning_rate": 0.000231592039800995,
	"loss": 0.4998,
	"step": 835
	},
	{
	"epoch": 0.46085997794928335,
	"grad_norm": 0.231749027967453,
	"learning_rate": 0.00023150912106135985,
	"loss": 0.5071,
	"step": 836
	},
	{
	"epoch": 0.46141124586549065,
	"grad_norm": 0.2529800236225128,
	"learning_rate": 0.00023142620232172468,
	"loss": 0.5152,
	"step": 837
	},
	{
	"epoch": 0.4619625137816979,
	"grad_norm": 0.24748285114765167,
	"learning_rate": 0.00023134328358208954,
	"loss": 0.4929,
	"step": 838
	},
	{
	"epoch": 0.4625137816979052,
	"grad_norm": 0.2481345683336258,
	"learning_rate": 0.00023126036484245438,
	"loss": 0.5131,
	"step": 839
	},
	{
	"epoch": 0.46306504961411243,
	"grad_norm": 0.22557318210601807,
	"learning_rate": 0.00023117744610281923,
	"loss": 0.5111,
	"step": 840
	},
	{
	"epoch": 0.46361631753031973,
	"grad_norm": 0.24130286276340485,
	"learning_rate": 0.00023109452736318407,
	"loss": 0.486,
	"step": 841
	},
	{
	"epoch": 0.46416758544652703,
	"grad_norm": 0.2238035351037979,
	"learning_rate": 0.00023101160862354893,
	"loss": 0.4836,
	"step": 842
	},
	{
	"epoch": 0.4647188533627343,
	"grad_norm": 0.23449353873729706,
	"learning_rate": 0.00023092868988391373,
	"loss": 0.4714,
	"step": 843
	},
	{
	"epoch": 0.4652701212789416,
	"grad_norm": 0.2284533679485321,
	"learning_rate": 0.0002308457711442786,
	"loss": 0.4739,
	"step": 844
	},
	{
	"epoch": 0.4658213891951488,
	"grad_norm": 0.2420201152563095,
	"learning_rate": 0.00023076285240464342,
	"loss": 0.4797,
	"step": 845
	},
	{
	"epoch": 0.4663726571113561,
	"grad_norm": 0.2669530212879181,
	"learning_rate": 0.00023067993366500828,
	"loss": 0.5017,
	"step": 846
	},
	{
	"epoch": 0.4669239250275634,
	"grad_norm": 0.2415032982826233,
	"learning_rate": 0.0002305970149253731,
	"loss": 0.5023,
	"step": 847
	},
	{
	"epoch": 0.46747519294377066,
	"grad_norm": 0.2327703833580017,
	"learning_rate": 0.00023051409618573797,
	"loss": 0.5089,
	"step": 848
	},
	{
	"epoch": 0.46802646085997796,
	"grad_norm": 0.24102593958377838,
	"learning_rate": 0.0002304311774461028,
	"loss": 0.5092,
	"step": 849
	},
	{
	"epoch": 0.4685777287761852,
	"grad_norm": 0.22270776331424713,
	"learning_rate": 0.00023034825870646764,
	"loss": 0.4677,
	"step": 850
	},
	{
	"epoch": 0.4691289966923925,
	"grad_norm": 0.23423947393894196,
	"learning_rate": 0.0002302653399668325,
	"loss": 0.4909,
	"step": 851
	},
	{
	"epoch": 0.4696802646085998,
	"grad_norm": 0.24698768556118011,
	"learning_rate": 0.0002301824212271973,
	"loss": 0.5,
	"step": 852
	},
	{
	"epoch": 0.47023153252480704,
	"grad_norm": 0.24313125014305115,
	"learning_rate": 0.00023009950248756216,
	"loss": 0.4908,
	"step": 853
	},
	{
	"epoch": 0.47078280044101434,
	"grad_norm": 0.2673037648200989,
	"learning_rate": 0.000230016583747927,
	"loss": 0.4971,
	"step": 854
	},
	{
	"epoch": 0.47133406835722164,
	"grad_norm": 0.23639419674873352,
	"learning_rate": 0.00022993366500829185,
	"loss": 0.486,
	"step": 855
	},
	{
	"epoch": 0.4718853362734289,
	"grad_norm": 0.2316926270723343,
	"learning_rate": 0.00022985074626865668,
	"loss": 0.5045,
	"step": 856
	},
	{
	"epoch": 0.4724366041896362,
	"grad_norm": 0.23044279217720032,
	"learning_rate": 0.00022976782752902154,
	"loss": 0.4752,
	"step": 857
	},
	{
	"epoch": 0.4729878721058434,
	"grad_norm": 0.2599242329597473,
	"learning_rate": 0.00022968490878938637,
	"loss": 0.5058,
	"step": 858
	},
	{
	"epoch": 0.4735391400220507,
	"grad_norm": 0.2420707494020462,
	"learning_rate": 0.00022960199004975123,
	"loss": 0.4689,
	"step": 859
	},
	{
	"epoch": 0.474090407938258,
	"grad_norm": 0.26549097895622253,
	"learning_rate": 0.00022951907131011607,
	"loss": 0.5161,
	"step": 860
	},
	{
	"epoch": 0.47464167585446526,
	"grad_norm": 0.24539636075496674,
	"learning_rate": 0.00022943615257048092,
	"loss": 0.4887,
	"step": 861
	},
	{
	"epoch": 0.47519294377067256,
	"grad_norm": 0.23257140815258026,
	"learning_rate": 0.00022935323383084573,
	"loss": 0.4841,
	"step": 862
	},
	{
	"epoch": 0.4757442116868798,
	"grad_norm": 0.27551430463790894,
	"learning_rate": 0.0002292703150912106,
	"loss": 0.5369,
	"step": 863
	},
	{
	"epoch": 0.4762954796030871,
	"grad_norm": 0.2414499670267105,
	"learning_rate": 0.00022918739635157542,
	"loss": 0.5031,
	"step": 864
	},
	{
	"epoch": 0.4768467475192944,
	"grad_norm": 0.24039071798324585,
	"learning_rate": 0.00022910447761194028,
	"loss": 0.4958,
	"step": 865
	},
	{
	"epoch": 0.47739801543550164,
	"grad_norm": 0.23044785857200623,
	"learning_rate": 0.0002290215588723051,
	"loss": 0.4884,
	"step": 866
	},
	{
	"epoch": 0.47794928335170894,
	"grad_norm": 0.2677319645881653,
	"learning_rate": 0.00022893864013266997,
	"loss": 0.5096,
	"step": 867
	},
	{
	"epoch": 0.4785005512679162,
	"grad_norm": 0.22575704753398895,
	"learning_rate": 0.0002288557213930348,
	"loss": 0.4968,
	"step": 868
	},
	{
	"epoch": 0.4790518191841235,
	"grad_norm": 0.24338865280151367,
	"learning_rate": 0.00022877280265339966,
	"loss": 0.4669,
	"step": 869
	},
	{
	"epoch": 0.4796030871003308,
	"grad_norm": 0.25083914399147034,
	"learning_rate": 0.0002286898839137645,
	"loss": 0.5035,
	"step": 870
	},
	{
	"epoch": 0.480154355016538,
	"grad_norm": 0.24006043374538422,
	"learning_rate": 0.00022860696517412935,
	"loss": 0.459,
	"step": 871
	},
	{
	"epoch": 0.4807056229327453,
	"grad_norm": 0.2326238453388214,
	"learning_rate": 0.00022852404643449416,
	"loss": 0.4599,
	"step": 872
	},
	{
	"epoch": 0.48125689084895257,
	"grad_norm": 0.24134741723537445,
	"learning_rate": 0.00022844112769485902,
	"loss": 0.4755,
	"step": 873
	},
	{
	"epoch": 0.48180815876515987,
	"grad_norm": 0.2148948460817337,
	"learning_rate": 0.00022835820895522385,
	"loss": 0.4759,
	"step": 874
	},
	{
	"epoch": 0.48235942668136716,
	"grad_norm": 0.2361116260290146,
	"learning_rate": 0.0002282752902155887,
	"loss": 0.4771,
	"step": 875
	},
	{
	"epoch": 0.4829106945975744,
	"grad_norm": 0.24435687065124512,
	"learning_rate": 0.00022819237147595354,
	"loss": 0.492,
	"step": 876
	},
	{
	"epoch": 0.4834619625137817,
	"grad_norm": 0.23266686499118805,
	"learning_rate": 0.0002281094527363184,
	"loss": 0.5269,
	"step": 877
	},
	{
	"epoch": 0.48401323042998895,
	"grad_norm": 0.2184826284646988,
	"learning_rate": 0.00022802653399668323,
	"loss": 0.4741,
	"step": 878
	},
	{
	"epoch": 0.48456449834619625,
	"grad_norm": 0.24351243674755096,
	"learning_rate": 0.0002279436152570481,
	"loss": 0.5121,
	"step": 879
	},
	{
	"epoch": 0.48511576626240355,
	"grad_norm": 0.2366686463356018,
	"learning_rate": 0.00022786069651741292,
	"loss": 0.5002,
	"step": 880
	},
	{
	"epoch": 0.4856670341786108,
	"grad_norm": 0.23044729232788086,
	"learning_rate": 0.00022777777777777778,
	"loss": 0.4742,
	"step": 881
	},
	{
	"epoch": 0.4862183020948181,
	"grad_norm": 0.23718389868736267,
	"learning_rate": 0.0002276948590381426,
	"loss": 0.4864,
	"step": 882
	},
	{
	"epoch": 0.48676957001102533,
	"grad_norm": 0.25451889634132385,
	"learning_rate": 0.00022761194029850745,
	"loss": 0.4809,
	"step": 883
	},
	{
	"epoch": 0.48732083792723263,
	"grad_norm": 0.22073966264724731,
	"learning_rate": 0.00022752902155887228,
	"loss": 0.4853,
	"step": 884
	},
	{
	"epoch": 0.48787210584343993,
	"grad_norm": 0.24639108777046204,
	"learning_rate": 0.00022744610281923714,
	"loss": 0.4848,
	"step": 885
	},
	{
	"epoch": 0.4884233737596472,
	"grad_norm": 0.2543313503265381,
	"learning_rate": 0.00022736318407960197,
	"loss": 0.5109,
	"step": 886
	},
	{
	"epoch": 0.48897464167585447,
	"grad_norm": 0.24580398201942444,
	"learning_rate": 0.00022728026533996683,
	"loss": 0.4919,
	"step": 887
	},
	{
	"epoch": 0.4895259095920617,
	"grad_norm": 0.23678098618984222,
	"learning_rate": 0.00022719734660033166,
	"loss": 0.48,
	"step": 888
	},
	{
	"epoch": 0.490077177508269,
	"grad_norm": 0.2219116985797882,
	"learning_rate": 0.00022711442786069652,
	"loss": 0.4647,
	"step": 889
	},
	{
	"epoch": 0.4906284454244763,
	"grad_norm": 0.2577376067638397,
	"learning_rate": 0.00022703150912106135,
	"loss": 0.4729,
	"step": 890
	},
	{
	"epoch": 0.49117971334068355,
	"grad_norm": 0.2527279853820801,
	"learning_rate": 0.0002269485903814262,
	"loss": 0.4899,
	"step": 891
	},
	{
	"epoch": 0.49173098125689085,
	"grad_norm": 0.2718394100666046,
	"learning_rate": 0.00022686567164179102,
	"loss": 0.5247,
	"step": 892
	},
	{
	"epoch": 0.49228224917309815,
	"grad_norm": 0.23161333799362183,
	"learning_rate": 0.00022678275290215585,
	"loss": 0.4786,
	"step": 893
	},
	{
	"epoch": 0.4928335170893054,
	"grad_norm": 0.22976607084274292,
	"learning_rate": 0.0002266998341625207,
	"loss": 0.4963,
	"step": 894
	},
	{
	"epoch": 0.4933847850055127,
	"grad_norm": 0.26446732878685,
	"learning_rate": 0.00022661691542288554,
	"loss": 0.5076,
	"step": 895
	},
	{
	"epoch": 0.49393605292171994,
	"grad_norm": 0.2513757348060608,
	"learning_rate": 0.0002265339966832504,
	"loss": 0.4906,
	"step": 896
	},
	{
	"epoch": 0.49448732083792724,
	"grad_norm": 0.2355221062898636,
	"learning_rate": 0.00022645107794361523,
	"loss": 0.5083,
	"step": 897
	},
	{
	"epoch": 0.49503858875413453,
	"grad_norm": 0.24008940160274506,
	"learning_rate": 0.0002263681592039801,
	"loss": 0.5075,
	"step": 898
	},
	{
	"epoch": 0.4955898566703418,
	"grad_norm": 0.23088522255420685,
	"learning_rate": 0.00022628524046434492,
	"loss": 0.4975,
	"step": 899
	},
	{
	"epoch": 0.4961411245865491,
	"grad_norm": 0.2754332721233368,
	"learning_rate": 0.00022620232172470978,
	"loss": 0.5144,
	"step": 900
	},
	{
	"epoch": 0.4966923925027563,
	"grad_norm": 0.25219646096229553,
	"learning_rate": 0.00022611940298507459,
	"loss": 0.4854,
	"step": 901
	},
	{
	"epoch": 0.4972436604189636,
	"grad_norm": 0.2489755004644394,
	"learning_rate": 0.00022603648424543944,
	"loss": 0.4708,
	"step": 902
	},
	{
	"epoch": 0.4977949283351709,
	"grad_norm": 0.24141034483909607,
	"learning_rate": 0.00022595356550580428,
	"loss": 0.4917,
	"step": 903
	},
	{
	"epoch": 0.49834619625137816,
	"grad_norm": 0.23453152179718018,
	"learning_rate": 0.00022587064676616914,
	"loss": 0.4754,
	"step": 904
	},
	{
	"epoch": 0.49889746416758546,
	"grad_norm": 0.25601381063461304,
	"learning_rate": 0.00022578772802653397,
	"loss": 0.4909,
	"step": 905
	},
	{
	"epoch": 0.4994487320837927,
	"grad_norm": 0.22102084755897522,
	"learning_rate": 0.00022570480928689883,
	"loss": 0.4673,
	"step": 906
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.2369261085987091,
	"learning_rate": 0.00022562189054726366,
	"loss": 0.4544,
	"step": 907
	},
	{
	"epoch": 0.5005512679162073,
	"grad_norm": 0.25789421796798706,
	"learning_rate": 0.00022553897180762852,
	"loss": 0.5032,
	"step": 908
	},
	{
	"epoch": 0.5011025358324146,
	"grad_norm": 0.2342817783355713,
	"learning_rate": 0.00022545605306799335,
	"loss": 0.4649,
	"step": 909
	},
	{
	"epoch": 0.5016538037486218,
	"grad_norm": 0.25317567586898804,
	"learning_rate": 0.0002253731343283582,
	"loss": 0.4974,
	"step": 910
	},
	{
	"epoch": 0.5022050716648291,
	"grad_norm": 0.23973771929740906,
	"learning_rate": 0.00022529021558872301,
	"loss": 0.5093,
	"step": 911
	},
	{
	"epoch": 0.5027563395810364,
	"grad_norm": 0.24858252704143524,
	"learning_rate": 0.00022520729684908787,
	"loss": 0.4781,
	"step": 912
	},
	{
	"epoch": 0.5033076074972437,
	"grad_norm": 0.25571468472480774,
	"learning_rate": 0.0002251243781094527,
	"loss": 0.4992,
	"step": 913
	},
	{
	"epoch": 0.503858875413451,
	"grad_norm": 0.2476612776517868,
	"learning_rate": 0.00022504145936981756,
	"loss": 0.4803,
	"step": 914
	},
	{
	"epoch": 0.5044101433296582,
	"grad_norm": 0.24917398393154144,
	"learning_rate": 0.0002249585406301824,
	"loss": 0.5022,
	"step": 915
	},
	{
	"epoch": 0.5049614112458655,
	"grad_norm": 0.24204300343990326,
	"learning_rate": 0.00022487562189054726,
	"loss": 0.4919,
	"step": 916
	},
	{
	"epoch": 0.5055126791620728,
	"grad_norm": 0.23442697525024414,
	"learning_rate": 0.0002247927031509121,
	"loss": 0.4754,
	"step": 917
	},
	{
	"epoch": 0.5060639470782801,
	"grad_norm": 0.26630768179893494,
	"learning_rate": 0.00022470978441127695,
	"loss": 0.5119,
	"step": 918
	},
	{
	"epoch": 0.5066152149944874,
	"grad_norm": 0.2312323898077011,
	"learning_rate": 0.00022462686567164175,
	"loss": 0.4735,
	"step": 919
	},
	{
	"epoch": 0.5071664829106945,
	"grad_norm": 0.23444309830665588,
	"learning_rate": 0.0002245439469320066,
	"loss": 0.4718,
	"step": 920
	},
	{
	"epoch": 0.5077177508269018,
	"grad_norm": 0.2260974645614624,
	"learning_rate": 0.00022446102819237144,
	"loss": 0.48,
	"step": 921
	},
	{
	"epoch": 0.5082690187431091,
	"grad_norm": 0.2403731793165207,
	"learning_rate": 0.0002243781094527363,
	"loss": 0.5014,
	"step": 922
	},
	{
	"epoch": 0.5088202866593164,
	"grad_norm": 0.240118607878685,
	"learning_rate": 0.00022429519071310113,
	"loss": 0.4669,
	"step": 923
	},
	{
	"epoch": 0.5093715545755237,
	"grad_norm": 0.2268829345703125,
	"learning_rate": 0.000224212271973466,
	"loss": 0.4924,
	"step": 924
	},
	{
	"epoch": 0.5099228224917309,
	"grad_norm": 0.23937518894672394,
	"learning_rate": 0.00022412935323383083,
	"loss": 0.4743,
	"step": 925
	},
	{
	"epoch": 0.5104740904079382,
	"grad_norm": 0.25224533677101135,
	"learning_rate": 0.00022404643449419568,
	"loss": 0.502,
	"step": 926
	},
	{
	"epoch": 0.5110253583241455,
	"grad_norm": 0.23434899747371674,
	"learning_rate": 0.00022396351575456052,
	"loss": 0.4825,
	"step": 927
	},
	{
	"epoch": 0.5115766262403528,
	"grad_norm": 0.249129980802536,
	"learning_rate": 0.00022388059701492538,
	"loss": 0.4689,
	"step": 928
	},
	{
	"epoch": 0.5121278941565601,
	"grad_norm": 0.2530542314052582,
	"learning_rate": 0.00022379767827529018,
	"loss": 0.4726,
	"step": 929
	},
	{
	"epoch": 0.5126791620727673,
	"grad_norm": 0.2488546073436737,
	"learning_rate": 0.00022371475953565504,
	"loss": 0.5024,
	"step": 930
	},
	{
	"epoch": 0.5132304299889746,
	"grad_norm": 0.23048900067806244,
	"learning_rate": 0.00022363184079601987,
	"loss": 0.4633,
	"step": 931
	},
	{
	"epoch": 0.5137816979051819,
	"grad_norm": 0.2485697716474533,
	"learning_rate": 0.00022354892205638473,
	"loss": 0.4955,
	"step": 932
	},
	{
	"epoch": 0.5143329658213892,
	"grad_norm": 0.23724399507045746,
	"learning_rate": 0.00022346600331674956,
	"loss": 0.4859,
	"step": 933
	},
	{
	"epoch": 0.5148842337375965,
	"grad_norm": 0.2424692064523697,
	"learning_rate": 0.00022338308457711442,
	"loss": 0.5115,
	"step": 934
	},
	{
	"epoch": 0.5154355016538037,
	"grad_norm": 0.24387586116790771,
	"learning_rate": 0.00022330016583747925,
	"loss": 0.4969,
	"step": 935
	},
	{
	"epoch": 0.515986769570011,
	"grad_norm": 0.22749263048171997,
	"learning_rate": 0.0002232172470978441,
	"loss": 0.5014,
	"step": 936
	},
	{
	"epoch": 0.5165380374862183,
	"grad_norm": 0.22205640375614166,
	"learning_rate": 0.00022313432835820894,
	"loss": 0.4912,
	"step": 937
	},
	{
	"epoch": 0.5170893054024256,
	"grad_norm": 0.23504669964313507,
	"learning_rate": 0.00022305140961857375,
	"loss": 0.4841,
	"step": 938
	},
	{
	"epoch": 0.5176405733186329,
	"grad_norm": 0.2282828390598297,
	"learning_rate": 0.0002229684908789386,
	"loss": 0.463,
	"step": 939
	},
	{
	"epoch": 0.5181918412348401,
	"grad_norm": 0.23592360317707062,
	"learning_rate": 0.00022288557213930344,
	"loss": 0.48,
	"step": 940
	},
	{
	"epoch": 0.5187431091510474,
	"grad_norm": 0.2408529818058014,
	"learning_rate": 0.0002228026533996683,
	"loss": 0.485,
	"step": 941
	},
	{
	"epoch": 0.5192943770672547,
	"grad_norm": 0.2507123351097107,
	"learning_rate": 0.00022271973466003313,
	"loss": 0.4696,
	"step": 942
	},
	{
	"epoch": 0.519845644983462,
	"grad_norm": 0.21724364161491394,
	"learning_rate": 0.000222636815920398,
	"loss": 0.4883,
	"step": 943
	},
	{
	"epoch": 0.5203969128996693,
	"grad_norm": 0.22868378460407257,
	"learning_rate": 0.00022255389718076282,
	"loss": 0.4852,
	"step": 944
	},
	{
	"epoch": 0.5209481808158766,
	"grad_norm": 0.23937176167964935,
	"learning_rate": 0.00022247097844112768,
	"loss": 0.4966,
	"step": 945
	},
	{
	"epoch": 0.5214994487320838,
	"grad_norm": 0.24673771858215332,
	"learning_rate": 0.00022238805970149251,
	"loss": 0.5089,
	"step": 946
	},
	{
	"epoch": 0.5220507166482911,
	"grad_norm": 0.23318541049957275,
	"learning_rate": 0.00022230514096185737,
	"loss": 0.4847,
	"step": 947
	},
	{
	"epoch": 0.5226019845644984,
	"grad_norm": 0.2237371951341629,
	"learning_rate": 0.00022222222222222218,
	"loss": 0.4745,
	"step": 948
	},
	{
	"epoch": 0.5231532524807057,
	"grad_norm": 0.22587883472442627,
	"learning_rate": 0.00022213930348258704,
	"loss": 0.502,
	"step": 949
	},
	{
	"epoch": 0.523704520396913,
	"grad_norm": 0.237474262714386,
	"learning_rate": 0.00022205638474295187,
	"loss": 0.5003,
	"step": 950
	},
	{
	"epoch": 0.5242557883131201,
	"grad_norm": 0.2394198328256607,
	"learning_rate": 0.00022197346600331673,
	"loss": 0.5032,
	"step": 951
	},
	{
	"epoch": 0.5248070562293274,
	"grad_norm": 0.22187075018882751,
	"learning_rate": 0.00022189054726368156,
	"loss": 0.4543,
	"step": 952
	},
	{
	"epoch": 0.5253583241455347,
	"grad_norm": 0.23657891154289246,
	"learning_rate": 0.00022180762852404642,
	"loss": 0.496,
	"step": 953
	},
	{
	"epoch": 0.525909592061742,
	"grad_norm": 0.23503652215003967,
	"learning_rate": 0.00022172470978441125,
	"loss": 0.4724,
	"step": 954
	},
	{
	"epoch": 0.5264608599779493,
	"grad_norm": 0.2500884532928467,
	"learning_rate": 0.0002216417910447761,
	"loss": 0.4837,
	"step": 955
	},
	{
	"epoch": 0.5270121278941565,
	"grad_norm": 0.2291148602962494,
	"learning_rate": 0.00022155887230514094,
	"loss": 0.4884,
	"step": 956
	},
	{
	"epoch": 0.5275633958103638,
	"grad_norm": 0.2256416380405426,
	"learning_rate": 0.0002214759535655058,
	"loss": 0.4743,
	"step": 957
	},
	{
	"epoch": 0.5281146637265711,
	"grad_norm": 0.23922450840473175,
	"learning_rate": 0.0002213930348258706,
	"loss": 0.4784,
	"step": 958
	},
	{
	"epoch": 0.5286659316427784,
	"grad_norm": 0.24849876761436462,
	"learning_rate": 0.00022131011608623547,
	"loss": 0.498,
	"step": 959
	},
	{
	"epoch": 0.5292171995589857,
	"grad_norm": 0.2211284190416336,
	"learning_rate": 0.0002212271973466003,
	"loss": 0.4711,
	"step": 960
	},
	{
	"epoch": 0.5297684674751929,
	"grad_norm": 0.2296118289232254,
	"learning_rate": 0.00022114427860696516,
	"loss": 0.49,
	"step": 961
	},
	{
	"epoch": 0.5303197353914002,
	"grad_norm": 0.22921642661094666,
	"learning_rate": 0.00022106135986733,
	"loss": 0.4864,
	"step": 962
	},
	{
	"epoch": 0.5308710033076075,
	"grad_norm": 0.23854584991931915,
	"learning_rate": 0.00022097844112769485,
	"loss": 0.4976,
	"step": 963
	},
	{
	"epoch": 0.5314222712238148,
	"grad_norm": 0.22192314267158508,
	"learning_rate": 0.00022089552238805968,
	"loss": 0.4889,
	"step": 964
	},
	{
	"epoch": 0.5319735391400221,
	"grad_norm": 0.24450358748435974,
	"learning_rate": 0.00022081260364842454,
	"loss": 0.4784,
	"step": 965
	},
	{
	"epoch": 0.5325248070562293,
	"grad_norm": 0.2145015150308609,
	"learning_rate": 0.00022072968490878937,
	"loss": 0.4543,
	"step": 966
	},
	{
	"epoch": 0.5330760749724366,
	"grad_norm": 0.22203224897384644,
	"learning_rate": 0.00022064676616915423,
	"loss": 0.4892,
	"step": 967
	},
	{
	"epoch": 0.5336273428886439,
	"grad_norm": 0.2423708289861679,
	"learning_rate": 0.00022056384742951904,
	"loss": 0.4866,
	"step": 968
	},
	{
	"epoch": 0.5341786108048512,
	"grad_norm": 0.2290901392698288,
	"learning_rate": 0.0002204809286898839,
	"loss": 0.4809,
	"step": 969
	},
	{
	"epoch": 0.5347298787210585,
	"grad_norm": 0.22281813621520996,
	"learning_rate": 0.00022039800995024873,
	"loss": 0.5083,
	"step": 970
	},
	{
	"epoch": 0.5352811466372657,
	"grad_norm": 0.23863239586353302,
	"learning_rate": 0.0002203150912106136,
	"loss": 0.4732,
	"step": 971
	},
	{
	"epoch": 0.535832414553473,
	"grad_norm": 0.2304835319519043,
	"learning_rate": 0.00022023217247097842,
	"loss": 0.4898,
	"step": 972
	},
	{
	"epoch": 0.5363836824696803,
	"grad_norm": 0.23452985286712646,
	"learning_rate": 0.00022014925373134328,
	"loss": 0.5177,
	"step": 973
	},
	{
	"epoch": 0.5369349503858876,
	"grad_norm": 0.252209335565567,
	"learning_rate": 0.0002200663349917081,
	"loss": 0.482,
	"step": 974
	},
	{
	"epoch": 0.5374862183020949,
	"grad_norm": 0.23390796780586243,
	"learning_rate": 0.00021998341625207297,
	"loss": 0.4913,
	"step": 975
	},
	{
	"epoch": 0.538037486218302,
	"grad_norm": 0.24304579198360443,
	"learning_rate": 0.0002199004975124378,
	"loss": 0.4963,
	"step": 976
	},
	{
	"epoch": 0.5385887541345094,
	"grad_norm": 0.22291411459445953,
	"learning_rate": 0.00021981757877280266,
	"loss": 0.4835,
	"step": 977
	},
	{
	"epoch": 0.5391400220507166,
	"grad_norm": 0.23994603753089905,
	"learning_rate": 0.00021973466003316746,
	"loss": 0.4596,
	"step": 978
	},
	{
	"epoch": 0.539691289966924,
	"grad_norm": 0.2375342845916748,
	"learning_rate": 0.00021965174129353232,
	"loss": 0.5138,
	"step": 979
	},
	{
	"epoch": 0.5402425578831312,
	"grad_norm": 0.22774764895439148,
	"learning_rate": 0.00021956882255389716,
	"loss": 0.4949,
	"step": 980
	},
	{
	"epoch": 0.5407938257993384,
	"grad_norm": 0.2277144491672516,
	"learning_rate": 0.000219485903814262,
	"loss": 0.4843,
	"step": 981
	},
	{
	"epoch": 0.5413450937155457,
	"grad_norm": 0.23078951239585876,
	"learning_rate": 0.00021940298507462685,
	"loss": 0.5089,
	"step": 982
	},
	{
	"epoch": 0.541896361631753,
	"grad_norm": 0.23093165457248688,
	"learning_rate": 0.00021932006633499168,
	"loss": 0.4913,
	"step": 983
	},
	{
	"epoch": 0.5424476295479603,
	"grad_norm": 0.22961430251598358,
	"learning_rate": 0.00021923714759535654,
	"loss": 0.4957,
	"step": 984
	},
	{
	"epoch": 0.5429988974641676,
	"grad_norm": 0.2303048074245453,
	"learning_rate": 0.00021915422885572137,
	"loss": 0.4991,
	"step": 985
	},
	{
	"epoch": 0.5435501653803748,
	"grad_norm": 0.2352553904056549,
	"learning_rate": 0.00021907131011608623,
	"loss": 0.4838,
	"step": 986
	},
	{
	"epoch": 0.5441014332965821,
	"grad_norm": 0.2251589596271515,
	"learning_rate": 0.00021898839137645103,
	"loss": 0.4928,
	"step": 987
	},
	{
	"epoch": 0.5446527012127894,
	"grad_norm": 0.2577657103538513,
	"learning_rate": 0.0002189054726368159,
	"loss": 0.4897,
	"step": 988
	},
	{
	"epoch": 0.5452039691289967,
	"grad_norm": 0.23328843712806702,
	"learning_rate": 0.00021882255389718073,
	"loss": 0.4949,
	"step": 989
	},
	{
	"epoch": 0.545755237045204,
	"grad_norm": 0.23206306993961334,
	"learning_rate": 0.00021873963515754558,
	"loss": 0.4791,
	"step": 990
	},
	{
	"epoch": 0.5463065049614112,
	"grad_norm": 0.2417128086090088,
	"learning_rate": 0.00021865671641791042,
	"loss": 0.5161,
	"step": 991
	},
	{
	"epoch": 0.5468577728776185,
	"grad_norm": 0.2541581988334656,
	"learning_rate": 0.00021857379767827528,
	"loss": 0.5253,
	"step": 992
	},
	{
	"epoch": 0.5474090407938258,
	"grad_norm": 0.23152418434619904,
	"learning_rate": 0.0002184908789386401,
	"loss": 0.4854,
	"step": 993
	},
	{
	"epoch": 0.5479603087100331,
	"grad_norm": 0.21505197882652283,
	"learning_rate": 0.00021840796019900497,
	"loss": 0.4664,
	"step": 994
	},
	{
	"epoch": 0.5485115766262404,
	"grad_norm": 0.23766584694385529,
	"learning_rate": 0.0002183250414593698,
	"loss": 0.4976,
	"step": 995
	},
	{
	"epoch": 0.5490628445424476,
	"grad_norm": 0.23223701119422913,
	"learning_rate": 0.00021824212271973466,
	"loss": 0.4485,
	"step": 996
	},
	{
	"epoch": 0.5496141124586549,
	"grad_norm": 0.25161734223365784,
	"learning_rate": 0.00021815920398009946,
	"loss": 0.4818,
	"step": 997
	},
	{
	"epoch": 0.5501653803748622,
	"grad_norm": 0.23082609474658966,
	"learning_rate": 0.00021807628524046432,
	"loss": 0.502,
	"step": 998
	},
	{
	"epoch": 0.5507166482910695,
	"grad_norm": 0.23080939054489136,
	"learning_rate": 0.00021799336650082915,
	"loss": 0.5005,
	"step": 999
	},
	{
	"epoch": 0.5512679162072768,
	"grad_norm": 0.22184456884860992,
	"learning_rate": 0.00021791044776119401,
	"loss": 0.4833,
	"step": 1000
	},
	{
	"epoch": 0.5512679162072768,
	"eval_loss": 0.48357656598091125,
	"eval_runtime": 311.7364,
	"eval_samples_per_second": 3.737,
	"eval_steps_per_second": 0.468,
	"step": 1000
	},
	{
	"epoch": 0.551819184123484,
	"grad_norm": 0.25572869181632996,
	"learning_rate": 0.00021782752902155885,
	"loss": 0.4925,
	"step": 1001
	},
	{
	"epoch": 0.5523704520396913,
	"grad_norm": 0.2477078139781952,
	"learning_rate": 0.0002177446102819237,
	"loss": 0.4847,
	"step": 1002
	},
	{
	"epoch": 0.5529217199558986,
	"grad_norm": 0.23749567568302155,
	"learning_rate": 0.00021766169154228854,
	"loss": 0.4933,
	"step": 1003
	},
	{
	"epoch": 0.5534729878721059,
	"grad_norm": 0.22248369455337524,
	"learning_rate": 0.0002175787728026534,
	"loss": 0.4883,
	"step": 1004
	},
	{
	"epoch": 0.5540242557883132,
	"grad_norm": 0.23769117891788483,
	"learning_rate": 0.00021749585406301823,
	"loss": 0.4977,
	"step": 1005
	},
	{
	"epoch": 0.5545755237045203,
	"grad_norm": 0.22872841358184814,
	"learning_rate": 0.0002174129353233831,
	"loss": 0.4952,
	"step": 1006
	},
	{
	"epoch": 0.5551267916207276,
	"grad_norm": 0.23627693951129913,
	"learning_rate": 0.0002173300165837479,
	"loss": 0.4653,
	"step": 1007
	},
	{
	"epoch": 0.5556780595369349,
	"grad_norm": 0.24900414049625397,
	"learning_rate": 0.00021724709784411275,
	"loss": 0.4833,
	"step": 1008
	},
	{
	"epoch": 0.5562293274531422,
	"grad_norm": 0.2288302332162857,
	"learning_rate": 0.00021716417910447758,
	"loss": 0.4735,
	"step": 1009
	},
	{
	"epoch": 0.5567805953693495,
	"grad_norm": 0.2251368761062622,
	"learning_rate": 0.00021708126036484244,
	"loss": 0.4887,
	"step": 1010
	},
	{
	"epoch": 0.5573318632855567,
	"grad_norm": 0.2496083676815033,
	"learning_rate": 0.00021699834162520727,
	"loss": 0.4959,
	"step": 1011
	},
	{
	"epoch": 0.557883131201764,
	"grad_norm": 0.23241998255252838,
	"learning_rate": 0.00021691542288557213,
	"loss": 0.462,
	"step": 1012
	},
	{
	"epoch": 0.5584343991179713,
	"grad_norm": 0.239312544465065,
	"learning_rate": 0.00021683250414593697,
	"loss": 0.4792,
	"step": 1013
	},
	{
	"epoch": 0.5589856670341786,
	"grad_norm": 0.22684402763843536,
	"learning_rate": 0.00021674958540630182,
	"loss": 0.4825,
	"step": 1014
	},
	{
	"epoch": 0.5595369349503859,
	"grad_norm": 0.23261615633964539,
	"learning_rate": 0.00021666666666666666,
	"loss": 0.4604,
	"step": 1015
	},
	{
	"epoch": 0.5600882028665931,
	"grad_norm": 0.26163482666015625,
	"learning_rate": 0.00021658374792703152,
	"loss": 0.5158,
	"step": 1016
	},
	{
	"epoch": 0.5606394707828004,
	"grad_norm": 0.2275197058916092,
	"learning_rate": 0.00021650082918739632,
	"loss": 0.4733,
	"step": 1017
	},
	{
	"epoch": 0.5611907386990077,
	"grad_norm": 0.2636192739009857,
	"learning_rate": 0.00021641791044776118,
	"loss": 0.5018,
	"step": 1018
	},
	{
	"epoch": 0.561742006615215,
	"grad_norm": 0.2224932312965393,
	"learning_rate": 0.000216334991708126,
	"loss": 0.5064,
	"step": 1019
	},
	{
	"epoch": 0.5622932745314223,
	"grad_norm": 0.2518375813961029,
	"learning_rate": 0.00021625207296849087,
	"loss": 0.4874,
	"step": 1020
	},
	{
	"epoch": 0.5628445424476296,
	"grad_norm": 0.24104849994182587,
	"learning_rate": 0.0002161691542288557,
	"loss": 0.4864,
	"step": 1021
	},
	{
	"epoch": 0.5633958103638368,
	"grad_norm": 0.25608646869659424,
	"learning_rate": 0.00021608623548922056,
	"loss": 0.4752,
	"step": 1022
	},
	{
	"epoch": 0.5639470782800441,
	"grad_norm": 0.24174031615257263,
	"learning_rate": 0.0002160033167495854,
	"loss": 0.4986,
	"step": 1023
	},
	{
	"epoch": 0.5644983461962514,
	"grad_norm": 0.23120078444480896,
	"learning_rate": 0.00021592039800995025,
	"loss": 0.4615,
	"step": 1024
	},
	{
	"epoch": 0.5650496141124587,
	"grad_norm": 0.2599080204963684,
	"learning_rate": 0.00021583747927031509,
	"loss": 0.4994,
	"step": 1025
	},
	{
	"epoch": 0.565600882028666,
	"grad_norm": 0.23741313815116882,
	"learning_rate": 0.0002157545605306799,
	"loss": 0.4745,
	"step": 1026
	},
	{
	"epoch": 0.5661521499448732,
	"grad_norm": 0.24400565028190613,
	"learning_rate": 0.00021567164179104475,
	"loss": 0.4891,
	"step": 1027
	},
	{
	"epoch": 0.5667034178610805,
	"grad_norm": 0.2503412663936615,
	"learning_rate": 0.00021558872305140958,
	"loss": 0.5014,
	"step": 1028
	},
	{
	"epoch": 0.5672546857772878,
	"grad_norm": 0.23471197485923767,
	"learning_rate": 0.00021550580431177444,
	"loss": 0.4958,
	"step": 1029
	},
	{
	"epoch": 0.5678059536934951,
	"grad_norm": 0.2323479950428009,
	"learning_rate": 0.00021542288557213927,
	"loss": 0.4691,
	"step": 1030
	},
	{
	"epoch": 0.5683572216097024,
	"grad_norm": 0.23778273165225983,
	"learning_rate": 0.00021533996683250413,
	"loss": 0.4881,
	"step": 1031
	},
	{
	"epoch": 0.5689084895259096,
	"grad_norm": 0.21465396881103516,
	"learning_rate": 0.00021525704809286896,
	"loss": 0.4689,
	"step": 1032
	},
	{
	"epoch": 0.5694597574421169,
	"grad_norm": 0.2397712767124176,
	"learning_rate": 0.00021517412935323382,
	"loss": 0.4873,
	"step": 1033
	},
	{
	"epoch": 0.5700110253583242,
	"grad_norm": 0.2142529934644699,
	"learning_rate": 0.00021509121061359863,
	"loss": 0.4686,
	"step": 1034
	},
	{
	"epoch": 0.5705622932745315,
	"grad_norm": 0.24334488809108734,
	"learning_rate": 0.00021500829187396351,
	"loss": 0.508,
	"step": 1035
	},
	{
	"epoch": 0.5711135611907387,
	"grad_norm": 0.2391451597213745,
	"learning_rate": 0.00021492537313432832,
	"loss": 0.5049,
	"step": 1036
	},
	{
	"epoch": 0.5716648291069459,
	"grad_norm": 0.25972914695739746,
	"learning_rate": 0.00021484245439469318,
	"loss": 0.5022,
	"step": 1037
	},
	{
	"epoch": 0.5722160970231532,
	"grad_norm": 0.23072604835033417,
	"learning_rate": 0.000214759535655058,
	"loss": 0.4888,
	"step": 1038
	},
	{
	"epoch": 0.5727673649393605,
	"grad_norm": 0.2415681630373001,
	"learning_rate": 0.00021467661691542287,
	"loss": 0.4787,
	"step": 1039
	},
	{
	"epoch": 0.5733186328555678,
	"grad_norm": 0.24707187712192535,
	"learning_rate": 0.0002145936981757877,
	"loss": 0.4877,
	"step": 1040
	},
	{
	"epoch": 0.5738699007717751,
	"grad_norm": 0.24816669523715973,
	"learning_rate": 0.00021451077943615256,
	"loss": 0.4704,
	"step": 1041
	},
	{
	"epoch": 0.5744211686879823,
	"grad_norm": 0.23687899112701416,
	"learning_rate": 0.0002144278606965174,
	"loss": 0.4757,
	"step": 1042
	},
	{
	"epoch": 0.5749724366041896,
	"grad_norm": 0.25993046164512634,
	"learning_rate": 0.00021434494195688225,
	"loss": 0.4919,
	"step": 1043
	},
	{
	"epoch": 0.5755237045203969,
	"grad_norm": 0.23352675139904022,
	"learning_rate": 0.00021426202321724706,
	"loss": 0.4762,
	"step": 1044
	},
	{
	"epoch": 0.5760749724366042,
	"grad_norm": 0.23056983947753906,
	"learning_rate": 0.00021417910447761192,
	"loss": 0.4638,
	"step": 1045
	},
	{
	"epoch": 0.5766262403528115,
	"grad_norm": 0.22587046027183533,
	"learning_rate": 0.00021409618573797675,
	"loss": 0.4777,
	"step": 1046
	},
	{
	"epoch": 0.5771775082690187,
	"grad_norm": 0.2561855912208557,
	"learning_rate": 0.0002140132669983416,
	"loss": 0.5056,
	"step": 1047
	},
	{
	"epoch": 0.577728776185226,
	"grad_norm": 0.24537737667560577,
	"learning_rate": 0.00021393034825870644,
	"loss": 0.497,
	"step": 1048
	},
	{
	"epoch": 0.5782800441014333,
	"grad_norm": 0.22903874516487122,
	"learning_rate": 0.0002138474295190713,
	"loss": 0.4749,
	"step": 1049
	},
	{
	"epoch": 0.5788313120176406,
	"grad_norm": 0.24069786071777344,
	"learning_rate": 0.00021376451077943613,
	"loss": 0.4901,
	"step": 1050
	},
	{
	"epoch": 0.5793825799338479,
	"grad_norm": 0.2355291098356247,
	"learning_rate": 0.000213681592039801,
	"loss": 0.478,
	"step": 1051
	},
	{
	"epoch": 0.5799338478500551,
	"grad_norm": 0.24105066061019897,
	"learning_rate": 0.00021359867330016582,
	"loss": 0.4832,
	"step": 1052
	},
	{
	"epoch": 0.5804851157662624,
	"grad_norm": 0.22479461133480072,
	"learning_rate": 0.00021351575456053068,
	"loss": 0.4657,
	"step": 1053
	},
	{
	"epoch": 0.5810363836824697,
	"grad_norm": 0.24978676438331604,
	"learning_rate": 0.00021343283582089549,
	"loss": 0.4795,
	"step": 1054
	},
	{
	"epoch": 0.581587651598677,
	"grad_norm": 0.22877342998981476,
	"learning_rate": 0.00021334991708126034,
	"loss": 0.476,
	"step": 1055
	},
	{
	"epoch": 0.5821389195148843,
	"grad_norm": 0.230316624045372,
	"learning_rate": 0.00021326699834162518,
	"loss": 0.4854,
	"step": 1056
	},
	{
	"epoch": 0.5826901874310915,
	"grad_norm": 0.2178526371717453,
	"learning_rate": 0.00021318407960199004,
	"loss": 0.4798,
	"step": 1057
	},
	{
	"epoch": 0.5832414553472988,
	"grad_norm": 0.23913492262363434,
	"learning_rate": 0.00021310116086235487,
	"loss": 0.4759,
	"step": 1058
	},
	{
	"epoch": 0.5837927232635061,
	"grad_norm": 0.23534056544303894,
	"learning_rate": 0.00021301824212271973,
	"loss": 0.475,
	"step": 1059
	},
	{
	"epoch": 0.5843439911797134,
	"grad_norm": 0.23057684302330017,
	"learning_rate": 0.00021293532338308456,
	"loss": 0.4835,
	"step": 1060
	},
	{
	"epoch": 0.5848952590959207,
	"grad_norm": 0.2420724630355835,
	"learning_rate": 0.00021285240464344942,
	"loss": 0.4684,
	"step": 1061
	},
	{
	"epoch": 0.5854465270121278,
	"grad_norm": 0.23270656168460846,
	"learning_rate": 0.00021276948590381425,
	"loss": 0.4714,
	"step": 1062
	},
	{
	"epoch": 0.5859977949283351,
	"grad_norm": 0.22105982899665833,
	"learning_rate": 0.0002126865671641791,
	"loss": 0.4739,
	"step": 1063
	},
	{
	"epoch": 0.5865490628445424,
	"grad_norm": 0.22896204888820648,
	"learning_rate": 0.00021260364842454391,
	"loss": 0.4792,
	"step": 1064
	},
	{
	"epoch": 0.5871003307607497,
	"grad_norm": 0.22883784770965576,
	"learning_rate": 0.00021252072968490877,
	"loss": 0.4775,
	"step": 1065
	},
	{
	"epoch": 0.587651598676957,
	"grad_norm": 0.22493380308151245,
	"learning_rate": 0.0002124378109452736,
	"loss": 0.4565,
	"step": 1066
	},
	{
	"epoch": 0.5882028665931642,
	"grad_norm": 0.20627589523792267,
	"learning_rate": 0.00021235489220563846,
	"loss": 0.4421,
	"step": 1067
	},
	{
	"epoch": 0.5887541345093715,
	"grad_norm": 0.22995707392692566,
	"learning_rate": 0.0002122719734660033,
	"loss": 0.5007,
	"step": 1068
	},
	{
	"epoch": 0.5893054024255788,
	"grad_norm": 0.22702358663082123,
	"learning_rate": 0.00021218905472636813,
	"loss": 0.4848,
	"step": 1069
	},
	{
	"epoch": 0.5898566703417861,
	"grad_norm": 0.2274836003780365,
	"learning_rate": 0.000212106135986733,
	"loss": 0.4512,
	"step": 1070
	},
	{
	"epoch": 0.5904079382579934,
	"grad_norm": 0.25226280093193054,
	"learning_rate": 0.00021202321724709782,
	"loss": 0.4739,
	"step": 1071
	},
	{
	"epoch": 0.5909592061742006,
	"grad_norm": 0.21378135681152344,
	"learning_rate": 0.00021194029850746268,
	"loss": 0.4902,
	"step": 1072
	},
	{
	"epoch": 0.5915104740904079,
	"grad_norm": 0.2266150563955307,
	"learning_rate": 0.00021185737976782748,
	"loss": 0.4787,
	"step": 1073
	},
	{
	"epoch": 0.5920617420066152,
	"grad_norm": 0.24346543848514557,
	"learning_rate": 0.00021177446102819234,
	"loss": 0.4758,
	"step": 1074
	},
	{
	"epoch": 0.5926130099228225,
	"grad_norm": 0.23416201770305634,
	"learning_rate": 0.00021169154228855718,
	"loss": 0.4976,
	"step": 1075
	},
	{
	"epoch": 0.5931642778390298,
	"grad_norm": 0.22314603626728058,
	"learning_rate": 0.00021160862354892203,
	"loss": 0.483,
	"step": 1076
	},
	{
	"epoch": 0.593715545755237,
	"grad_norm": 0.23636144399642944,
	"learning_rate": 0.00021152570480928687,
	"loss": 0.4883,
	"step": 1077
	},
	{
	"epoch": 0.5942668136714443,
	"grad_norm": 0.25075021386146545,
	"learning_rate": 0.00021144278606965173,
	"loss": 0.5093,
	"step": 1078
	},
	{
	"epoch": 0.5948180815876516,
	"grad_norm": 0.25016966462135315,
	"learning_rate": 0.00021135986733001656,
	"loss": 0.4901,
	"step": 1079
	},
	{
	"epoch": 0.5953693495038589,
	"grad_norm": 0.22505664825439453,
	"learning_rate": 0.00021127694859038142,
	"loss": 0.4982,
	"step": 1080
	},
	{
	"epoch": 0.5959206174200662,
	"grad_norm": 0.2462112158536911,
	"learning_rate": 0.00021119402985074625,
	"loss": 0.4925,
	"step": 1081
	},
	{
	"epoch": 0.5964718853362734,
	"grad_norm": 0.24048367142677307,
	"learning_rate": 0.0002111111111111111,
	"loss": 0.4711,
	"step": 1082
	},
	{
	"epoch": 0.5970231532524807,
	"grad_norm": 0.2399929016828537,
	"learning_rate": 0.0002110281923714759,
	"loss": 0.4534,
	"step": 1083
	},
	{
	"epoch": 0.597574421168688,
	"grad_norm": 0.22102728486061096,
	"learning_rate": 0.00021094527363184077,
	"loss": 0.475,
	"step": 1084
	},
	{
	"epoch": 0.5981256890848953,
	"grad_norm": 0.22623874247074127,
	"learning_rate": 0.0002108623548922056,
	"loss": 0.4771,
	"step": 1085
	},
	{
	"epoch": 0.5986769570011026,
	"grad_norm": 0.22739335894584656,
	"learning_rate": 0.00021077943615257046,
	"loss": 0.4524,
	"step": 1086
	},
	{
	"epoch": 0.5992282249173098,
	"grad_norm": 0.22587355971336365,
	"learning_rate": 0.0002106965174129353,
	"loss": 0.481,
	"step": 1087
	},
	{
	"epoch": 0.5997794928335171,
	"grad_norm": 0.238664448261261,
	"learning_rate": 0.00021061359867330015,
	"loss": 0.4812,
	"step": 1088
	},
	{
	"epoch": 0.6003307607497244,
	"grad_norm": 0.2626015245914459,
	"learning_rate": 0.00021053067993366499,
	"loss": 0.5396,
	"step": 1089
	},
	{
	"epoch": 0.6008820286659317,
	"grad_norm": 0.23110847175121307,
	"learning_rate": 0.00021044776119402985,
	"loss": 0.4768,
	"step": 1090
	},
	{
	"epoch": 0.601433296582139,
	"grad_norm": 0.2324095070362091,
	"learning_rate": 0.00021036484245439468,
	"loss": 0.4569,
	"step": 1091
	},
	{
	"epoch": 0.6019845644983461,
	"grad_norm": 0.2298206239938736,
	"learning_rate": 0.00021028192371475954,
	"loss": 0.4867,
	"step": 1092
	},
	{
	"epoch": 0.6025358324145534,
	"grad_norm": 0.23651166260242462,
	"learning_rate": 0.00021019900497512434,
	"loss": 0.5119,
	"step": 1093
	},
	{
	"epoch": 0.6030871003307607,
	"grad_norm": 0.24213020503520966,
	"learning_rate": 0.0002101160862354892,
	"loss": 0.4989,
	"step": 1094
	},
	{
	"epoch": 0.603638368246968,
	"grad_norm": 0.2975553572177887,
	"learning_rate": 0.00021003316749585403,
	"loss": 0.4937,
	"step": 1095
	},
	{
	"epoch": 0.6041896361631753,
	"grad_norm": 0.22954276204109192,
	"learning_rate": 0.0002099502487562189,
	"loss": 0.4569,
	"step": 1096
	},
	{
	"epoch": 0.6047409040793826,
	"grad_norm": 0.23405365645885468,
	"learning_rate": 0.00020986733001658372,
	"loss": 0.476,
	"step": 1097
	},
	{
	"epoch": 0.6052921719955898,
	"grad_norm": 0.22513137757778168,
	"learning_rate": 0.00020978441127694858,
	"loss": 0.4561,
	"step": 1098
	},
	{
	"epoch": 0.6058434399117971,
	"grad_norm": 0.2296430617570877,
	"learning_rate": 0.00020970149253731341,
	"loss": 0.4628,
	"step": 1099
	},
	{
	"epoch": 0.6063947078280044,
	"grad_norm": 0.24347829818725586,
	"learning_rate": 0.00020961857379767827,
	"loss": 0.5152,
	"step": 1100
	},
	{
	"epoch": 0.6069459757442117,
	"grad_norm": 0.2580801546573639,
	"learning_rate": 0.0002095356550580431,
	"loss": 0.4751,
	"step": 1101
	},
	{
	"epoch": 0.607497243660419,
	"grad_norm": 0.22813639044761658,
	"learning_rate": 0.00020945273631840797,
	"loss": 0.4807,
	"step": 1102
	},
	{
	"epoch": 0.6080485115766262,
	"grad_norm": 0.22047673165798187,
	"learning_rate": 0.00020936981757877277,
	"loss": 0.4686,
	"step": 1103
	},
	{
	"epoch": 0.6085997794928335,
	"grad_norm": 0.2241135686635971,
	"learning_rate": 0.00020928689883913763,
	"loss": 0.4826,
	"step": 1104
	},
	{
	"epoch": 0.6091510474090408,
	"grad_norm": 0.24011586606502533,
	"learning_rate": 0.00020920398009950246,
	"loss": 0.4559,
	"step": 1105
	},
	{
	"epoch": 0.6097023153252481,
	"grad_norm": 0.2351463884115219,
	"learning_rate": 0.00020912106135986732,
	"loss": 0.4523,
	"step": 1106
	},
	{
	"epoch": 0.6102535832414554,
	"grad_norm": 0.2268303632736206,
	"learning_rate": 0.00020903814262023215,
	"loss": 0.486,
	"step": 1107
	},
	{
	"epoch": 0.6108048511576626,
	"grad_norm": 0.2280043363571167,
	"learning_rate": 0.000208955223880597,
	"loss": 0.4902,
	"step": 1108
	},
	{
	"epoch": 0.6113561190738699,
	"grad_norm": 0.21859845519065857,
	"learning_rate": 0.00020887230514096184,
	"loss": 0.4593,
	"step": 1109
	},
	{
	"epoch": 0.6119073869900772,
	"grad_norm": 0.23152512311935425,
	"learning_rate": 0.0002087893864013267,
	"loss": 0.4762,
	"step": 1110
	},
	{
	"epoch": 0.6124586549062845,
	"grad_norm": 0.23346808552742004,
	"learning_rate": 0.00020870646766169153,
	"loss": 0.4919,
	"step": 1111
	},
	{
	"epoch": 0.6130099228224918,
	"grad_norm": 0.2313188761472702,
	"learning_rate": 0.0002086235489220564,
	"loss": 0.4792,
	"step": 1112
	},
	{
	"epoch": 0.613561190738699,
	"grad_norm": 0.2261422574520111,
	"learning_rate": 0.0002085406301824212,
	"loss": 0.5008,
	"step": 1113
	},
	{
	"epoch": 0.6141124586549063,
	"grad_norm": 0.24444694817066193,
	"learning_rate": 0.00020845771144278603,
	"loss": 0.503,
	"step": 1114
	},
	{
	"epoch": 0.6146637265711136,
	"grad_norm": 0.23184862732887268,
	"learning_rate": 0.0002083747927031509,
	"loss": 0.5024,
	"step": 1115
	},
	{
	"epoch": 0.6152149944873209,
	"grad_norm": 0.22305606305599213,
	"learning_rate": 0.00020829187396351572,
	"loss": 0.4815,
	"step": 1116
	},
	{
	"epoch": 0.6157662624035282,
	"grad_norm": 0.24641431868076324,
	"learning_rate": 0.00020820895522388058,
	"loss": 0.5079,
	"step": 1117
	},
	{
	"epoch": 0.6163175303197354,
	"grad_norm": 0.24148327112197876,
	"learning_rate": 0.0002081260364842454,
	"loss": 0.507,
	"step": 1118
	},
	{
	"epoch": 0.6168687982359427,
	"grad_norm": 0.23938195407390594,
	"learning_rate": 0.00020804311774461027,
	"loss": 0.4668,
	"step": 1119
	},
	{
	"epoch": 0.61742006615215,
	"grad_norm": 0.2462988644838333,
	"learning_rate": 0.0002079601990049751,
	"loss": 0.4941,
	"step": 1120
	},
	{
	"epoch": 0.6179713340683572,
	"grad_norm": 0.23903852701187134,
	"learning_rate": 0.00020787728026533996,
	"loss": 0.4684,
	"step": 1121
	},
	{
	"epoch": 0.6185226019845645,
	"grad_norm": 0.2402830719947815,
	"learning_rate": 0.00020779436152570477,
	"loss": 0.4705,
	"step": 1122
	},
	{
	"epoch": 0.6190738699007717,
	"grad_norm": 0.24639341235160828,
	"learning_rate": 0.00020771144278606963,
	"loss": 0.4874,
	"step": 1123
	},
	{
	"epoch": 0.619625137816979,
	"grad_norm": 0.22861522436141968,
	"learning_rate": 0.00020762852404643446,
	"loss": 0.4696,
	"step": 1124
	},
	{
	"epoch": 0.6201764057331863,
	"grad_norm": 0.23462949693202972,
	"learning_rate": 0.00020754560530679932,
	"loss": 0.509,
	"step": 1125
	},
	{
	"epoch": 0.6207276736493936,
	"grad_norm": 0.24041415750980377,
	"learning_rate": 0.00020746268656716415,
	"loss": 0.4792,
	"step": 1126
	},
	{
	"epoch": 0.6212789415656009,
	"grad_norm": 0.23339125514030457,
	"learning_rate": 0.000207379767827529,
	"loss": 0.4603,
	"step": 1127
	},
	{
	"epoch": 0.6218302094818081,
	"grad_norm": 0.23568972945213318,
	"learning_rate": 0.00020729684908789384,
	"loss": 0.4882,
	"step": 1128
	},
	{
	"epoch": 0.6223814773980154,
	"grad_norm": 0.24162200093269348,
	"learning_rate": 0.0002072139303482587,
	"loss": 0.4835,
	"step": 1129
	},
	{
	"epoch": 0.6229327453142227,
	"grad_norm": 0.24957728385925293,
	"learning_rate": 0.00020713101160862353,
	"loss": 0.4871,
	"step": 1130
	},
	{
	"epoch": 0.62348401323043,
	"grad_norm": 0.24710482358932495,
	"learning_rate": 0.0002070480928689884,
	"loss": 0.4604,
	"step": 1131
	},
	{
	"epoch": 0.6240352811466373,
	"grad_norm": 0.24623054265975952,
	"learning_rate": 0.0002069651741293532,
	"loss": 0.4986,
	"step": 1132
	},
	{
	"epoch": 0.6245865490628445,
	"grad_norm": 0.24791941046714783,
	"learning_rate": 0.00020688225538971806,
	"loss": 0.4665,
	"step": 1133
	},
	{
	"epoch": 0.6251378169790518,
	"grad_norm": 0.26239630579948425,
	"learning_rate": 0.0002067993366500829,
	"loss": 0.5193,
	"step": 1134
	},
	{
	"epoch": 0.6256890848952591,
	"grad_norm": 0.2580834925174713,
	"learning_rate": 0.00020671641791044775,
	"loss": 0.5162,
	"step": 1135
	},
	{
	"epoch": 0.6262403528114664,
	"grad_norm": 0.21768338978290558,
	"learning_rate": 0.00020663349917081258,
	"loss": 0.4626,
	"step": 1136
	},
	{
	"epoch": 0.6267916207276737,
	"grad_norm": 0.24815984070301056,
	"learning_rate": 0.00020655058043117744,
	"loss": 0.4943,
	"step": 1137
	},
	{
	"epoch": 0.6273428886438809,
	"grad_norm": 0.2349233627319336,
	"learning_rate": 0.00020646766169154227,
	"loss": 0.4819,
	"step": 1138
	},
	{
	"epoch": 0.6278941565600882,
	"grad_norm": 0.23029837012290955,
	"learning_rate": 0.00020638474295190713,
	"loss": 0.488,
	"step": 1139
	},
	{
	"epoch": 0.6284454244762955,
	"grad_norm": 0.23574088513851166,
	"learning_rate": 0.00020630182421227196,
	"loss": 0.4791,
	"step": 1140
	},
	{
	"epoch": 0.6289966923925028,
	"grad_norm": 0.23277179896831512,
	"learning_rate": 0.00020621890547263682,
	"loss": 0.5047,
	"step": 1141
	},
	{
	"epoch": 0.6295479603087101,
	"grad_norm": 0.2530352473258972,
	"learning_rate": 0.00020613598673300163,
	"loss": 0.5143,
	"step": 1142
	},
	{
	"epoch": 0.6300992282249173,
	"grad_norm": 0.2136935591697693,
	"learning_rate": 0.00020605306799336649,
	"loss": 0.4768,
	"step": 1143
	},
	{
	"epoch": 0.6306504961411246,
	"grad_norm": 0.23165372014045715,
	"learning_rate": 0.00020597014925373132,
	"loss": 0.4802,
	"step": 1144
	},
	{
	"epoch": 0.6312017640573319,
	"grad_norm": 0.23744627833366394,
	"learning_rate": 0.00020588723051409618,
	"loss": 0.4751,
	"step": 1145
	},
	{
	"epoch": 0.6317530319735392,
	"grad_norm": 0.2552582323551178,
	"learning_rate": 0.000205804311774461,
	"loss": 0.4949,
	"step": 1146
	},
	{
	"epoch": 0.6323042998897465,
	"grad_norm": 0.22193565964698792,
	"learning_rate": 0.00020572139303482587,
	"loss": 0.4629,
	"step": 1147
	},
	{
	"epoch": 0.6328555678059536,
	"grad_norm": 0.2249847799539566,
	"learning_rate": 0.0002056384742951907,
	"loss": 0.46,
	"step": 1148
	},
	{
	"epoch": 0.6334068357221609,
	"grad_norm": 0.234629824757576,
	"learning_rate": 0.00020555555555555556,
	"loss": 0.4792,
	"step": 1149
	},
	{
	"epoch": 0.6339581036383682,
	"grad_norm": 0.23007982969284058,
	"learning_rate": 0.0002054726368159204,
	"loss": 0.4857,
	"step": 1150
	},
	{
	"epoch": 0.6345093715545755,
	"grad_norm": 0.24549317359924316,
	"learning_rate": 0.00020538971807628525,
	"loss": 0.4697,
	"step": 1151
	},
	{
	"epoch": 0.6350606394707828,
	"grad_norm": 0.26415401697158813,
	"learning_rate": 0.00020530679933665005,
	"loss": 0.4858,
	"step": 1152
	},
	{
	"epoch": 0.63561190738699,
	"grad_norm": 0.20789586007595062,
	"learning_rate": 0.00020522388059701491,
	"loss": 0.4312,
	"step": 1153
	},
	{
	"epoch": 0.6361631753031973,
	"grad_norm": 0.23789043724536896,
	"learning_rate": 0.00020514096185737975,
	"loss": 0.4816,
	"step": 1154
	},
	{
	"epoch": 0.6367144432194046,
	"grad_norm": 0.23785383999347687,
	"learning_rate": 0.0002050580431177446,
	"loss": 0.4743,
	"step": 1155
	},
	{
	"epoch": 0.6372657111356119,
	"grad_norm": 0.26521044969558716,
	"learning_rate": 0.00020497512437810944,
	"loss": 0.4904,
	"step": 1156
	},
	{
	"epoch": 0.6378169790518192,
	"grad_norm": 0.25412556529045105,
	"learning_rate": 0.0002048922056384743,
	"loss": 0.5,
	"step": 1157
	},
	{
	"epoch": 0.6383682469680264,
	"grad_norm": 0.23178859055042267,
	"learning_rate": 0.00020480928689883913,
	"loss": 0.4791,
	"step": 1158
	},
	{
	"epoch": 0.6389195148842337,
	"grad_norm": 0.23838523030281067,
	"learning_rate": 0.00020472636815920393,
	"loss": 0.4539,
	"step": 1159
	},
	{
	"epoch": 0.639470782800441,
	"grad_norm": 0.23378612101078033,
	"learning_rate": 0.0002046434494195688,
	"loss": 0.492,
	"step": 1160
	},
	{
	"epoch": 0.6400220507166483,
	"grad_norm": 0.24227279424667358,
	"learning_rate": 0.00020456053067993362,
	"loss": 0.474,
	"step": 1161
	},
	{
	"epoch": 0.6405733186328556,
	"grad_norm": 0.23166267573833466,
	"learning_rate": 0.00020447761194029848,
	"loss": 0.4684,
	"step": 1162
	},
	{
	"epoch": 0.6411245865490628,
	"grad_norm": 0.23626738786697388,
	"learning_rate": 0.00020439469320066332,
	"loss": 0.4744,
	"step": 1163
	},
	{
	"epoch": 0.6416758544652701,
	"grad_norm": 0.2464771568775177,
	"learning_rate": 0.00020431177446102817,
	"loss": 0.47,
	"step": 1164
	},
	{
	"epoch": 0.6422271223814774,
	"grad_norm": 0.23458126187324524,
	"learning_rate": 0.000204228855721393,
	"loss": 0.4442,
	"step": 1165
	},
	{
	"epoch": 0.6427783902976847,
	"grad_norm": 0.23561522364616394,
	"learning_rate": 0.00020414593698175787,
	"loss": 0.4696,
	"step": 1166
	},
	{
	"epoch": 0.643329658213892,
	"grad_norm": 0.2327614575624466,
	"learning_rate": 0.0002040630182421227,
	"loss": 0.486,
	"step": 1167
	},
	{
	"epoch": 0.6438809261300992,
	"grad_norm": 0.22742946445941925,
	"learning_rate": 0.00020398009950248756,
	"loss": 0.4448,
	"step": 1168
	},
	{
	"epoch": 0.6444321940463065,
	"grad_norm": 0.22767378389835358,
	"learning_rate": 0.00020389718076285236,
	"loss": 0.4749,
	"step": 1169
	},
	{
	"epoch": 0.6449834619625138,
	"grad_norm": 0.21805496513843536,
	"learning_rate": 0.00020381426202321722,
	"loss": 0.4976,
	"step": 1170
	},
	{
	"epoch": 0.6455347298787211,
	"grad_norm": 0.23068863153457642,
	"learning_rate": 0.00020373134328358205,
	"loss": 0.4839,
	"step": 1171
	},
	{
	"epoch": 0.6460859977949284,
	"grad_norm": 0.24028991162776947,
	"learning_rate": 0.0002036484245439469,
	"loss": 0.4613,
	"step": 1172
	},
	{
	"epoch": 0.6466372657111357,
	"grad_norm": 0.2558547854423523,
	"learning_rate": 0.00020356550580431174,
	"loss": 0.4795,
	"step": 1173
	},
	{
	"epoch": 0.6471885336273429,
	"grad_norm": 0.2363976091146469,
	"learning_rate": 0.0002034825870646766,
	"loss": 0.4819,
	"step": 1174
	},
	{
	"epoch": 0.6477398015435502,
	"grad_norm": 0.23440702259540558,
	"learning_rate": 0.00020339966832504144,
	"loss": 0.4676,
	"step": 1175
	},
	{
	"epoch": 0.6482910694597575,
	"grad_norm": 0.23950831592082977,
	"learning_rate": 0.0002033167495854063,
	"loss": 0.4775,
	"step": 1176
	},
	{
	"epoch": 0.6488423373759648,
	"grad_norm": 0.23549869656562805,
	"learning_rate": 0.00020323383084577113,
	"loss": 0.471,
	"step": 1177
	},
	{
	"epoch": 0.649393605292172,
	"grad_norm": 0.2294132113456726,
	"learning_rate": 0.00020315091210613599,
	"loss": 0.4584,
	"step": 1178
	},
	{
	"epoch": 0.6499448732083792,
	"grad_norm": 0.2511732280254364,
	"learning_rate": 0.0002030679933665008,
	"loss": 0.4886,
	"step": 1179
	},
	{
	"epoch": 0.6504961411245865,
	"grad_norm": 0.23680317401885986,
	"learning_rate": 0.00020298507462686565,
	"loss": 0.5026,
	"step": 1180
	},
	{
	"epoch": 0.6510474090407938,
	"grad_norm": 0.24410556256771088,
	"learning_rate": 0.00020290215588723048,
	"loss": 0.4862,
	"step": 1181
	},
	{
	"epoch": 0.6515986769570011,
	"grad_norm": 0.24827975034713745,
	"learning_rate": 0.00020281923714759534,
	"loss": 0.4734,
	"step": 1182
	},
	{
	"epoch": 0.6521499448732084,
	"grad_norm": 0.24595201015472412,
	"learning_rate": 0.00020273631840796017,
	"loss": 0.4754,
	"step": 1183
	},
	{
	"epoch": 0.6527012127894156,
	"grad_norm": 0.24838019907474518,
	"learning_rate": 0.00020265339966832503,
	"loss": 0.4923,
	"step": 1184
	},
	{
	"epoch": 0.6532524807056229,
	"grad_norm": 0.23605762422084808,
	"learning_rate": 0.00020257048092868986,
	"loss": 0.477,
	"step": 1185
	},
	{
	"epoch": 0.6538037486218302,
	"grad_norm": 0.24502962827682495,
	"learning_rate": 0.00020248756218905472,
	"loss": 0.482,
	"step": 1186
	},
	{
	"epoch": 0.6543550165380375,
	"grad_norm": 0.24489161372184753,
	"learning_rate": 0.00020240464344941956,
	"loss": 0.4783,
	"step": 1187
	},
	{
	"epoch": 0.6549062844542448,
	"grad_norm": 0.236792653799057,
	"learning_rate": 0.00020232172470978441,
	"loss": 0.4899,
	"step": 1188
	},
	{
	"epoch": 0.655457552370452,
	"grad_norm": 0.2327335923910141,
	"learning_rate": 0.00020223880597014922,
	"loss": 0.4915,
	"step": 1189
	},
	{
	"epoch": 0.6560088202866593,
	"grad_norm": 0.21822991967201233,
	"learning_rate": 0.00020215588723051408,
	"loss": 0.472,
	"step": 1190
	},
	{
	"epoch": 0.6565600882028666,
	"grad_norm": 0.2524334788322449,
	"learning_rate": 0.0002020729684908789,
	"loss": 0.4942,
	"step": 1191
	},
	{
	"epoch": 0.6571113561190739,
	"grad_norm": 0.23585528135299683,
	"learning_rate": 0.00020199004975124377,
	"loss": 0.5011,
	"step": 1192
	},
	{
	"epoch": 0.6576626240352812,
	"grad_norm": 0.24948836863040924,
	"learning_rate": 0.0002019071310116086,
	"loss": 0.4831,
	"step": 1193
	},
	{
	"epoch": 0.6582138919514884,
	"grad_norm": 0.2369844615459442,
	"learning_rate": 0.00020182421227197346,
	"loss": 0.4923,
	"step": 1194
	},
	{
	"epoch": 0.6587651598676957,
	"grad_norm": 0.22455725073814392,
	"learning_rate": 0.0002017412935323383,
	"loss": 0.4699,
	"step": 1195
	},
	{
	"epoch": 0.659316427783903,
	"grad_norm": 0.22049696743488312,
	"learning_rate": 0.00020165837479270315,
	"loss": 0.4569,
	"step": 1196
	},
	{
	"epoch": 0.6598676957001103,
	"grad_norm": 0.21964412927627563,
	"learning_rate": 0.00020157545605306798,
	"loss": 0.4818,
	"step": 1197
	},
	{
	"epoch": 0.6604189636163176,
	"grad_norm": 0.24084921181201935,
	"learning_rate": 0.00020149253731343284,
	"loss": 0.4834,
	"step": 1198
	},
	{
	"epoch": 0.6609702315325248,
	"grad_norm": 0.2169031798839569,
	"learning_rate": 0.00020140961857379765,
	"loss": 0.458,
	"step": 1199
	},
	{
	"epoch": 0.6615214994487321,
	"grad_norm": 0.2437864989042282,
	"learning_rate": 0.0002013266998341625,
	"loss": 0.4998,
	"step": 1200
	},
	{
	"epoch": 0.6620727673649394,
	"grad_norm": 0.2373666912317276,
	"learning_rate": 0.00020124378109452734,
	"loss": 0.4593,
	"step": 1201
	},
	{
	"epoch": 0.6626240352811467,
	"grad_norm": 0.2300565093755722,
	"learning_rate": 0.00020116086235489217,
	"loss": 0.4698,
	"step": 1202
	},
	{
	"epoch": 0.663175303197354,
	"grad_norm": 0.2500588595867157,
	"learning_rate": 0.00020107794361525703,
	"loss": 0.4847,
	"step": 1203
	},
	{
	"epoch": 0.6637265711135611,
	"grad_norm": 0.24038562178611755,
	"learning_rate": 0.00020099502487562186,
	"loss": 0.4746,
	"step": 1204
	},
	{
	"epoch": 0.6642778390297684,
	"grad_norm": 0.2691898047924042,
	"learning_rate": 0.00020091210613598672,
	"loss": 0.4547,
	"step": 1205
	},
	{
	"epoch": 0.6648291069459757,
	"grad_norm": 0.23530587553977966,
	"learning_rate": 0.00020082918739635155,
	"loss": 0.4618,
	"step": 1206
	},
	{
	"epoch": 0.665380374862183,
	"grad_norm": 0.24838554859161377,
	"learning_rate": 0.0002007462686567164,
	"loss": 0.5093,
	"step": 1207
	},
	{
	"epoch": 0.6659316427783903,
	"grad_norm": 0.24996088445186615,
	"learning_rate": 0.00020066334991708122,
	"loss": 0.4703,
	"step": 1208
	},
	{
	"epoch": 0.6664829106945975,
	"grad_norm": 0.2432130128145218,
	"learning_rate": 0.00020058043117744608,
	"loss": 0.4651,
	"step": 1209
	},
	{
	"epoch": 0.6670341786108048,
	"grad_norm": 0.2394338846206665,
	"learning_rate": 0.0002004975124378109,
	"loss": 0.4679,
	"step": 1210
	},
	{
	"epoch": 0.6675854465270121,
	"grad_norm": 0.23440587520599365,
	"learning_rate": 0.00020041459369817577,
	"loss": 0.4552,
	"step": 1211
	},
	{
	"epoch": 0.6681367144432194,
	"grad_norm": 0.25409042835235596,
	"learning_rate": 0.0002003316749585406,
	"loss": 0.4879,
	"step": 1212
	},
	{
	"epoch": 0.6686879823594267,
	"grad_norm": 0.24675914645195007,
	"learning_rate": 0.00020024875621890546,
	"loss": 0.4935,
	"step": 1213
	},
	{
	"epoch": 0.6692392502756339,
	"grad_norm": 0.2398385852575302,
	"learning_rate": 0.0002001658374792703,
	"loss": 0.4588,
	"step": 1214
	},
	{
	"epoch": 0.6697905181918412,
	"grad_norm": 0.23646225035190582,
	"learning_rate": 0.00020008291873963515,
	"loss": 0.486,
	"step": 1215
	},
	{
	"epoch": 0.6703417861080485,
	"grad_norm": 0.2433752566576004,
	"learning_rate": 0.00019999999999999998,
	"loss": 0.5,
	"step": 1216
	},
	{
	"epoch": 0.6708930540242558,
	"grad_norm": 0.22759981453418732,
	"learning_rate": 0.00019991708126036484,
	"loss": 0.482,
	"step": 1217
	},
	{
	"epoch": 0.6714443219404631,
	"grad_norm": 0.2414034903049469,
	"learning_rate": 0.00019983416252072965,
	"loss": 0.4754,
	"step": 1218
	},
	{
	"epoch": 0.6719955898566703,
	"grad_norm": 0.23548895120620728,
	"learning_rate": 0.0001997512437810945,
	"loss": 0.4793,
	"step": 1219
	},
	{
	"epoch": 0.6725468577728776,
	"grad_norm": 0.22510850429534912,
	"learning_rate": 0.00019966832504145934,
	"loss": 0.474,
	"step": 1220
	},
	{
	"epoch": 0.6730981256890849,
	"grad_norm": 0.21878324449062347,
	"learning_rate": 0.0001995854063018242,
	"loss": 0.4349,
	"step": 1221
	},
	{
	"epoch": 0.6736493936052922,
	"grad_norm": 0.234661266207695,
	"learning_rate": 0.00019950248756218903,
	"loss": 0.4602,
	"step": 1222
	},
	{
	"epoch": 0.6742006615214995,
	"grad_norm": 0.24233828485012054,
	"learning_rate": 0.0001994195688225539,
	"loss": 0.4932,
	"step": 1223
	},
	{
	"epoch": 0.6747519294377067,
	"grad_norm": 0.22866547107696533,
	"learning_rate": 0.00019933665008291872,
	"loss": 0.4697,
	"step": 1224
	},
	{
	"epoch": 0.675303197353914,
	"grad_norm": 0.2325911670923233,
	"learning_rate": 0.00019925373134328358,
	"loss": 0.4631,
	"step": 1225
	},
	{
	"epoch": 0.6758544652701213,
	"grad_norm": 0.22702381014823914,
	"learning_rate": 0.0001991708126036484,
	"loss": 0.4631,
	"step": 1226
	},
	{
	"epoch": 0.6764057331863286,
	"grad_norm": 0.23354612290859222,
	"learning_rate": 0.00019908789386401327,
	"loss": 0.4687,
	"step": 1227
	},
	{
	"epoch": 0.6769570011025359,
	"grad_norm": 0.2386290431022644,
	"learning_rate": 0.00019900497512437808,
	"loss": 0.4777,
	"step": 1228
	},
	{
	"epoch": 0.6775082690187431,
	"grad_norm": 0.24729053676128387,
	"learning_rate": 0.00019892205638474293,
	"loss": 0.4785,
	"step": 1229
	},
	{
	"epoch": 0.6780595369349504,
	"grad_norm": 0.2109660655260086,
	"learning_rate": 0.00019883913764510777,
	"loss": 0.464,
	"step": 1230
	},
	{
	"epoch": 0.6786108048511577,
	"grad_norm": 0.24349510669708252,
	"learning_rate": 0.00019875621890547263,
	"loss": 0.4972,
	"step": 1231
	},
	{
	"epoch": 0.679162072767365,
	"grad_norm": 0.236436665058136,
	"learning_rate": 0.00019867330016583746,
	"loss": 0.4655,
	"step": 1232
	},
	{
	"epoch": 0.6797133406835723,
	"grad_norm": 0.22133763134479523,
	"learning_rate": 0.00019859038142620232,
	"loss": 0.4856,
	"step": 1233
	},
	{
	"epoch": 0.6802646085997794,
	"grad_norm": 0.23461799323558807,
	"learning_rate": 0.00019850746268656715,
	"loss": 0.4974,
	"step": 1234
	},
	{
	"epoch": 0.6808158765159867,
	"grad_norm": 0.23802213370800018,
	"learning_rate": 0.000198424543946932,
	"loss": 0.4634,
	"step": 1235
	},
	{
	"epoch": 0.681367144432194,
	"grad_norm": 0.23866182565689087,
	"learning_rate": 0.00019834162520729684,
	"loss": 0.4962,
	"step": 1236
	},
	{
	"epoch": 0.6819184123484013,
	"grad_norm": 0.20461198687553406,
	"learning_rate": 0.0001982587064676617,
	"loss": 0.479,
	"step": 1237
	},
	{
	"epoch": 0.6824696802646086,
	"grad_norm": 0.2442476749420166,
	"learning_rate": 0.0001981757877280265,
	"loss": 0.5007,
	"step": 1238
	},
	{
	"epoch": 0.6830209481808158,
	"grad_norm": 0.2257671356201172,
	"learning_rate": 0.00019809286898839136,
	"loss": 0.4899,
	"step": 1239
	},
	{
	"epoch": 0.6835722160970231,
	"grad_norm": 0.214102640748024,
	"learning_rate": 0.0001980099502487562,
	"loss": 0.4536,
	"step": 1240
	},
	{
	"epoch": 0.6841234840132304,
	"grad_norm": 0.21543948352336884,
	"learning_rate": 0.00019792703150912105,
	"loss": 0.4811,
	"step": 1241
	},
	{
	"epoch": 0.6846747519294377,
	"grad_norm": 0.25430455803871155,
	"learning_rate": 0.00019784411276948589,
	"loss": 0.486,
	"step": 1242
	},
	{
	"epoch": 0.685226019845645,
	"grad_norm": 0.2656538486480713,
	"learning_rate": 0.00019776119402985075,
	"loss": 0.462,
	"step": 1243
	},
	{
	"epoch": 0.6857772877618522,
	"grad_norm": 0.23967699706554413,
	"learning_rate": 0.00019767827529021558,
	"loss": 0.5004,
	"step": 1244
	},
	{
	"epoch": 0.6863285556780595,
	"grad_norm": 0.22987446188926697,
	"learning_rate": 0.00019759535655058044,
	"loss": 0.4804,
	"step": 1245
	},
	{
	"epoch": 0.6868798235942668,
	"grad_norm": 0.20953255891799927,
	"learning_rate": 0.00019751243781094527,
	"loss": 0.4793,
	"step": 1246
	},
	{
	"epoch": 0.6874310915104741,
	"grad_norm": 0.256028413772583,
	"learning_rate": 0.00019742951907131007,
	"loss": 0.4881,
	"step": 1247
	},
	{
	"epoch": 0.6879823594266814,
	"grad_norm": 0.23885922133922577,
	"learning_rate": 0.00019734660033167493,
	"loss": 0.508,
	"step": 1248
	},
	{
	"epoch": 0.6885336273428887,
	"grad_norm": 0.24736814200878143,
	"learning_rate": 0.00019726368159203976,
	"loss": 0.4935,
	"step": 1249
	},
	{
	"epoch": 0.6890848952590959,
	"grad_norm": 0.23237743973731995,
	"learning_rate": 0.00019718076285240462,
	"loss": 0.4775,
	"step": 1250
	},
	{
	"epoch": 0.6896361631753032,
	"grad_norm": 0.24340516328811646,
	"learning_rate": 0.00019709784411276946,
	"loss": 0.4987,
	"step": 1251
	},
	{
	"epoch": 0.6901874310915105,
	"grad_norm": 0.22015541791915894,
	"learning_rate": 0.00019701492537313432,
	"loss": 0.4524,
	"step": 1252
	},
	{
	"epoch": 0.6907386990077178,
	"grad_norm": 0.25280436873435974,
	"learning_rate": 0.00019693200663349915,
	"loss": 0.4953,
	"step": 1253
	},
	{
	"epoch": 0.6912899669239251,
	"grad_norm": 0.22572125494480133,
	"learning_rate": 0.000196849087893864,
	"loss": 0.4692,
	"step": 1254
	},
	{
	"epoch": 0.6918412348401323,
	"grad_norm": 0.2326386719942093,
	"learning_rate": 0.00019676616915422884,
	"loss": 0.475,
	"step": 1255
	},
	{
	"epoch": 0.6923925027563396,
	"grad_norm": 0.2248145192861557,
	"learning_rate": 0.0001966832504145937,
	"loss": 0.4463,
	"step": 1256
	},
	{
	"epoch": 0.6929437706725469,
	"grad_norm": 0.236514613032341,
	"learning_rate": 0.0001966003316749585,
	"loss": 0.4502,
	"step": 1257
	},
	{
	"epoch": 0.6934950385887542,
	"grad_norm": 0.2295265942811966,
	"learning_rate": 0.00019651741293532336,
	"loss": 0.4559,
	"step": 1258
	},
	{
	"epoch": 0.6940463065049615,
	"grad_norm": 0.24026772379875183,
	"learning_rate": 0.0001964344941956882,
	"loss": 0.4642,
	"step": 1259
	},
	{
	"epoch": 0.6945975744211687,
	"grad_norm": 0.2558375298976898,
	"learning_rate": 0.00019635157545605305,
	"loss": 0.4864,
	"step": 1260
	},
	{
	"epoch": 0.695148842337376,
	"grad_norm": 0.2334502935409546,
	"learning_rate": 0.00019626865671641788,
	"loss": 0.47,
	"step": 1261
	},
	{
	"epoch": 0.6957001102535832,
	"grad_norm": 0.23098182678222656,
	"learning_rate": 0.00019618573797678274,
	"loss": 0.4786,
	"step": 1262
	},
	{
	"epoch": 0.6962513781697905,
	"grad_norm": 0.22288668155670166,
	"learning_rate": 0.00019610281923714758,
	"loss": 0.4638,
	"step": 1263
	},
	{
	"epoch": 0.6968026460859978,
	"grad_norm": 0.23454713821411133,
	"learning_rate": 0.00019601990049751244,
	"loss": 0.4661,
	"step": 1264
	},
	{
	"epoch": 0.697353914002205,
	"grad_norm": 0.22980453073978424,
	"learning_rate": 0.00019593698175787727,
	"loss": 0.4681,
	"step": 1265
	},
	{
	"epoch": 0.6979051819184123,
	"grad_norm": 0.20731012523174286,
	"learning_rate": 0.00019585406301824213,
	"loss": 0.4439,
	"step": 1266
	},
	{
	"epoch": 0.6984564498346196,
	"grad_norm": 0.22292488813400269,
	"learning_rate": 0.00019577114427860693,
	"loss": 0.4663,
	"step": 1267
	},
	{
	"epoch": 0.6990077177508269,
	"grad_norm": 0.22497937083244324,
	"learning_rate": 0.0001956882255389718,
	"loss": 0.4751,
	"step": 1268
	},
	{
	"epoch": 0.6995589856670342,
	"grad_norm": 0.2342757284641266,
	"learning_rate": 0.00019560530679933662,
	"loss": 0.4544,
	"step": 1269
	},
	{
	"epoch": 0.7001102535832414,
	"grad_norm": 0.23075568675994873,
	"learning_rate": 0.00019552238805970148,
	"loss": 0.4634,
	"step": 1270
	},
	{
	"epoch": 0.7006615214994487,
	"grad_norm": 0.2278735637664795,
	"learning_rate": 0.0001954394693200663,
	"loss": 0.4895,
	"step": 1271
	},
	{
	"epoch": 0.701212789415656,
	"grad_norm": 0.25607171654701233,
	"learning_rate": 0.00019535655058043117,
	"loss": 0.49,
	"step": 1272
	},
	{
	"epoch": 0.7017640573318633,
	"grad_norm": 0.2315627932548523,
	"learning_rate": 0.000195273631840796,
	"loss": 0.4522,
	"step": 1273
	},
	{
	"epoch": 0.7023153252480706,
	"grad_norm": 0.2047976851463318,
	"learning_rate": 0.00019519071310116086,
	"loss": 0.4356,
	"step": 1274
	},
	{
	"epoch": 0.7028665931642778,
	"grad_norm": 0.24180057644844055,
	"learning_rate": 0.00019510779436152567,
	"loss": 0.4749,
	"step": 1275
	},
	{
	"epoch": 0.7034178610804851,
	"grad_norm": 0.2599826753139496,
	"learning_rate": 0.00019502487562189055,
	"loss": 0.5082,
	"step": 1276
	},
	{
	"epoch": 0.7039691289966924,
	"grad_norm": 0.23944783210754395,
	"learning_rate": 0.00019494195688225536,
	"loss": 0.4828,
	"step": 1277
	},
	{
	"epoch": 0.7045203969128997,
	"grad_norm": 0.21794094145298004,
	"learning_rate": 0.00019485903814262022,
	"loss": 0.4691,
	"step": 1278
	},
	{
	"epoch": 0.705071664829107,
	"grad_norm": 0.23379597067832947,
	"learning_rate": 0.00019477611940298505,
	"loss": 0.486,
	"step": 1279
	},
	{
	"epoch": 0.7056229327453142,
	"grad_norm": 0.21778427064418793,
	"learning_rate": 0.0001946932006633499,
	"loss": 0.4483,
	"step": 1280
	},
	{
	"epoch": 0.7061742006615215,
	"grad_norm": 0.23941390216350555,
	"learning_rate": 0.00019461028192371474,
	"loss": 0.4885,
	"step": 1281
	},
	{
	"epoch": 0.7067254685777288,
	"grad_norm": 0.23993995785713196,
	"learning_rate": 0.0001945273631840796,
	"loss": 0.5098,
	"step": 1282
	},
	{
	"epoch": 0.7072767364939361,
	"grad_norm": 0.2523173391819,
	"learning_rate": 0.00019444444444444443,
	"loss": 0.4752,
	"step": 1283
	},
	{
	"epoch": 0.7078280044101434,
	"grad_norm": 0.23337773978710175,
	"learning_rate": 0.0001943615257048093,
	"loss": 0.5198,
	"step": 1284
	},
	{
	"epoch": 0.7083792723263506,
	"grad_norm": 0.24418905377388,
	"learning_rate": 0.0001942786069651741,
	"loss": 0.519,
	"step": 1285
	},
	{
	"epoch": 0.7089305402425579,
	"grad_norm": 0.24214893579483032,
	"learning_rate": 0.00019419568822553896,
	"loss": 0.4625,
	"step": 1286
	},
	{
	"epoch": 0.7094818081587652,
	"grad_norm": 0.25616276264190674,
	"learning_rate": 0.0001941127694859038,
	"loss": 0.483,
	"step": 1287
	},
	{
	"epoch": 0.7100330760749725,
	"grad_norm": 0.2434643656015396,
	"learning_rate": 0.00019402985074626865,
	"loss": 0.4834,
	"step": 1288
	},
	{
	"epoch": 0.7105843439911798,
	"grad_norm": 0.23342913389205933,
	"learning_rate": 0.00019394693200663348,
	"loss": 0.4577,
	"step": 1289
	},
	{
	"epoch": 0.7111356119073869,
	"grad_norm": 0.23564305901527405,
	"learning_rate": 0.0001938640132669983,
	"loss": 0.4731,
	"step": 1290
	},
	{
	"epoch": 0.7116868798235942,
	"grad_norm": 0.2814309000968933,
	"learning_rate": 0.00019378109452736317,
	"loss": 0.4845,
	"step": 1291
	},
	{
	"epoch": 0.7122381477398015,
	"grad_norm": 0.2305363267660141,
	"learning_rate": 0.000193698175787728,
	"loss": 0.4577,
	"step": 1292
	},
	{
	"epoch": 0.7127894156560088,
	"grad_norm": 0.2413802593946457,
	"learning_rate": 0.00019361525704809286,
	"loss": 0.5005,
	"step": 1293
	},
	{
	"epoch": 0.7133406835722161,
	"grad_norm": 0.22398939728736877,
	"learning_rate": 0.00019353233830845767,
	"loss": 0.4645,
	"step": 1294
	},
	{
	"epoch": 0.7138919514884233,
	"grad_norm": 0.2510089874267578,
	"learning_rate": 0.00019344941956882253,
	"loss": 0.4721,
	"step": 1295
	},
	{
	"epoch": 0.7144432194046306,
	"grad_norm": 0.23676623404026031,
	"learning_rate": 0.00019336650082918736,
	"loss": 0.5126,
	"step": 1296
	},
	{
	"epoch": 0.7149944873208379,
	"grad_norm": 0.22751228511333466,
	"learning_rate": 0.00019328358208955222,
	"loss": 0.4403,
	"step": 1297
	},
	{
	"epoch": 0.7155457552370452,
	"grad_norm": 0.23468491435050964,
	"learning_rate": 0.00019320066334991705,
	"loss": 0.4697,
	"step": 1298
	},
	{
	"epoch": 0.7160970231532525,
	"grad_norm": 0.2132336050271988,
	"learning_rate": 0.0001931177446102819,
	"loss": 0.4468,
	"step": 1299
	},
	{
	"epoch": 0.7166482910694597,
	"grad_norm": 0.22579894959926605,
	"learning_rate": 0.00019303482587064674,
	"loss": 0.458,
	"step": 1300
	},
	{
	"epoch": 0.717199558985667,
	"grad_norm": 0.22772036492824554,
	"learning_rate": 0.0001929519071310116,
	"loss": 0.457,
	"step": 1301
	},
	{
	"epoch": 0.7177508269018743,
	"grad_norm": 0.2290082722902298,
	"learning_rate": 0.00019286898839137643,
	"loss": 0.4771,
	"step": 1302
	},
	{
	"epoch": 0.7183020948180816,
	"grad_norm": 0.2190980762243271,
	"learning_rate": 0.0001927860696517413,
	"loss": 0.4754,
	"step": 1303
	},
	{
	"epoch": 0.7188533627342889,
	"grad_norm": 0.2228933423757553,
	"learning_rate": 0.0001927031509121061,
	"loss": 0.476,
	"step": 1304
	},
	{
	"epoch": 0.7194046306504961,
	"grad_norm": 0.23896026611328125,
	"learning_rate": 0.00019262023217247096,
	"loss": 0.5008,
	"step": 1305
	},
	{
	"epoch": 0.7199558985667034,
	"grad_norm": 0.222875714302063,
	"learning_rate": 0.0001925373134328358,
	"loss": 0.4526,
	"step": 1306
	},
	{
	"epoch": 0.7205071664829107,
	"grad_norm": 0.22457565367221832,
	"learning_rate": 0.00019245439469320065,
	"loss": 0.5019,
	"step": 1307
	},
	{
	"epoch": 0.721058434399118,
	"grad_norm": 0.24464376270771027,
	"learning_rate": 0.00019237147595356548,
	"loss": 0.4896,
	"step": 1308
	},
	{
	"epoch": 0.7216097023153253,
	"grad_norm": 0.22952450811862946,
	"learning_rate": 0.00019228855721393034,
	"loss": 0.4751,
	"step": 1309
	},
	{
	"epoch": 0.7221609702315325,
	"grad_norm": 0.22557076811790466,
	"learning_rate": 0.00019220563847429517,
	"loss": 0.4859,
	"step": 1310
	},
	{
	"epoch": 0.7227122381477398,
	"grad_norm": 0.2599719762802124,
	"learning_rate": 0.00019212271973466003,
	"loss": 0.4871,
	"step": 1311
	},
	{
	"epoch": 0.7232635060639471,
	"grad_norm": 0.2541002333164215,
	"learning_rate": 0.00019203980099502486,
	"loss": 0.5076,
	"step": 1312
	},
	{
	"epoch": 0.7238147739801544,
	"grad_norm": 0.234733447432518,
	"learning_rate": 0.00019195688225538972,
	"loss": 0.471,
	"step": 1313
	},
	{
	"epoch": 0.7243660418963617,
	"grad_norm": 0.23307423293590546,
	"learning_rate": 0.00019187396351575452,
	"loss": 0.4758,
	"step": 1314
	},
	{
	"epoch": 0.7249173098125689,
	"grad_norm": 0.22905585169792175,
	"learning_rate": 0.00019179104477611938,
	"loss": 0.4674,
	"step": 1315
	},
	{
	"epoch": 0.7254685777287762,
	"grad_norm": 0.24311380088329315,
	"learning_rate": 0.00019170812603648422,
	"loss": 0.4838,
	"step": 1316
	},
	{
	"epoch": 0.7260198456449835,
	"grad_norm": 0.24221283197402954,
	"learning_rate": 0.00019162520729684907,
	"loss": 0.4671,
	"step": 1317
	},
	{
	"epoch": 0.7265711135611908,
	"grad_norm": 0.2364143580198288,
	"learning_rate": 0.0001915422885572139,
	"loss": 0.4496,
	"step": 1318
	},
	{
	"epoch": 0.727122381477398,
	"grad_norm": 0.2382567673921585,
	"learning_rate": 0.00019145936981757877,
	"loss": 0.4516,
	"step": 1319
	},
	{
	"epoch": 0.7276736493936052,
	"grad_norm": 0.281539648771286,
	"learning_rate": 0.0001913764510779436,
	"loss": 0.4742,
	"step": 1320
	},
	{
	"epoch": 0.7282249173098125,
	"grad_norm": 0.2738378345966339,
	"learning_rate": 0.00019129353233830846,
	"loss": 0.5158,
	"step": 1321
	},
	{
	"epoch": 0.7287761852260198,
	"grad_norm": 0.23668839037418365,
	"learning_rate": 0.0001912106135986733,
	"loss": 0.4907,
	"step": 1322
	},
	{
	"epoch": 0.7293274531422271,
	"grad_norm": 0.2443835288286209,
	"learning_rate": 0.00019112769485903815,
	"loss": 0.4887,
	"step": 1323
	},
	{
	"epoch": 0.7298787210584344,
	"grad_norm": 0.2538048028945923,
	"learning_rate": 0.00019104477611940295,
	"loss": 0.4413,
	"step": 1324
	},
	{
	"epoch": 0.7304299889746417,
	"grad_norm": 0.24266113340854645,
	"learning_rate": 0.0001909618573797678,
	"loss": 0.4618,
	"step": 1325
	},
	{
	"epoch": 0.7309812568908489,
	"grad_norm": 0.2522546648979187,
	"learning_rate": 0.00019087893864013264,
	"loss": 0.493,
	"step": 1326
	},
	{
	"epoch": 0.7315325248070562,
	"grad_norm": 0.24361646175384521,
	"learning_rate": 0.0001907960199004975,
	"loss": 0.4552,
	"step": 1327
	},
	{
	"epoch": 0.7320837927232635,
	"grad_norm": 0.24726730585098267,
	"learning_rate": 0.00019071310116086234,
	"loss": 0.4899,
	"step": 1328
	},
	{
	"epoch": 0.7326350606394708,
	"grad_norm": 0.23533383011817932,
	"learning_rate": 0.0001906301824212272,
	"loss": 0.4674,
	"step": 1329
	},
	{
	"epoch": 0.7331863285556781,
	"grad_norm": 0.23652805387973785,
	"learning_rate": 0.00019054726368159203,
	"loss": 0.4734,
	"step": 1330
	},
	{
	"epoch": 0.7337375964718853,
	"grad_norm": 0.24334965646266937,
	"learning_rate": 0.00019046434494195689,
	"loss": 0.4897,
	"step": 1331
	},
	{
	"epoch": 0.7342888643880926,
	"grad_norm": 0.2077738642692566,
	"learning_rate": 0.00019038142620232172,
	"loss": 0.4516,
	"step": 1332
	},
	{
	"epoch": 0.7348401323042999,
	"grad_norm": 0.23306086659431458,
	"learning_rate": 0.00019029850746268658,
	"loss": 0.5076,
	"step": 1333
	},
	{
	"epoch": 0.7353914002205072,
	"grad_norm": 0.2449159324169159,
	"learning_rate": 0.00019021558872305138,
	"loss": 0.4618,
	"step": 1334
	},
	{
	"epoch": 0.7359426681367145,
	"grad_norm": 0.24829532206058502,
	"learning_rate": 0.00019013266998341621,
	"loss": 0.4614,
	"step": 1335
	},
	{
	"epoch": 0.7364939360529217,
	"grad_norm": 0.23648925125598907,
	"learning_rate": 0.00019004975124378107,
	"loss": 0.4616,
	"step": 1336
	},
	{
	"epoch": 0.737045203969129,
	"grad_norm": 0.23551128804683685,
	"learning_rate": 0.0001899668325041459,
	"loss": 0.4724,
	"step": 1337
	},
	{
	"epoch": 0.7375964718853363,
	"grad_norm": 0.23878498375415802,
	"learning_rate": 0.00018988391376451076,
	"loss": 0.4639,
	"step": 1338
	},
	{
	"epoch": 0.7381477398015436,
	"grad_norm": 0.24612358212471008,
	"learning_rate": 0.0001898009950248756,
	"loss": 0.4757,
	"step": 1339
	},
	{
	"epoch": 0.7386990077177509,
	"grad_norm": 0.2288011610507965,
	"learning_rate": 0.00018971807628524046,
	"loss": 0.4598,
	"step": 1340
	},
	{
	"epoch": 0.7392502756339581,
	"grad_norm": 0.2329450398683548,
	"learning_rate": 0.0001896351575456053,
	"loss": 0.4884,
	"step": 1341
	},
	{
	"epoch": 0.7398015435501654,
	"grad_norm": 0.23273812234401703,
	"learning_rate": 0.00018955223880597015,
	"loss": 0.4834,
	"step": 1342
	},
	{
	"epoch": 0.7403528114663727,
	"grad_norm": 0.24095992743968964,
	"learning_rate": 0.00018946932006633495,
	"loss": 0.4352,
	"step": 1343
	},
	{
	"epoch": 0.74090407938258,
	"grad_norm": 0.24149319529533386,
	"learning_rate": 0.0001893864013266998,
	"loss": 0.4675,
	"step": 1344
	},
	{
	"epoch": 0.7414553472987873,
	"grad_norm": 0.24013857543468475,
	"learning_rate": 0.00018930348258706464,
	"loss": 0.4879,
	"step": 1345
	},
	{
	"epoch": 0.7420066152149944,
	"grad_norm": 0.23142081499099731,
	"learning_rate": 0.0001892205638474295,
	"loss": 0.4607,
	"step": 1346
	},
	{
	"epoch": 0.7425578831312017,
	"grad_norm": 0.2619989514350891,
	"learning_rate": 0.00018913764510779433,
	"loss": 0.4784,
	"step": 1347
	},
	{
	"epoch": 0.743109151047409,
	"grad_norm": 0.23706799745559692,
	"learning_rate": 0.0001890547263681592,
	"loss": 0.4716,
	"step": 1348
	},
	{
	"epoch": 0.7436604189636163,
	"grad_norm": 0.25641632080078125,
	"learning_rate": 0.00018897180762852403,
	"loss": 0.4951,
	"step": 1349
	},
	{
	"epoch": 0.7442116868798236,
	"grad_norm": 0.225026935338974,
	"learning_rate": 0.00018888888888888888,
	"loss": 0.4742,
	"step": 1350
	},
	{
	"epoch": 0.7447629547960308,
	"grad_norm": 0.21225763857364655,
	"learning_rate": 0.00018880597014925372,
	"loss": 0.4484,
	"step": 1351
	},
	{
	"epoch": 0.7453142227122381,
	"grad_norm": 0.2503174841403961,
	"learning_rate": 0.00018872305140961858,
	"loss": 0.4832,
	"step": 1352
	},
	{
	"epoch": 0.7458654906284454,
	"grad_norm": 0.25594860315322876,
	"learning_rate": 0.00018864013266998338,
	"loss": 0.4952,
	"step": 1353
	},
	{
	"epoch": 0.7464167585446527,
	"grad_norm": 0.23849812150001526,
	"learning_rate": 0.00018855721393034824,
	"loss": 0.4927,
	"step": 1354
	},
	{
	"epoch": 0.74696802646086,
	"grad_norm": 0.22114640474319458,
	"learning_rate": 0.00018847429519071307,
	"loss": 0.4475,
	"step": 1355
	},
	{
	"epoch": 0.7475192943770672,
	"grad_norm": 0.23791830241680145,
	"learning_rate": 0.00018839137645107793,
	"loss": 0.4846,
	"step": 1356
	},
	{
	"epoch": 0.7480705622932745,
	"grad_norm": 0.2577480673789978,
	"learning_rate": 0.00018830845771144276,
	"loss": 0.4541,
	"step": 1357
	},
	{
	"epoch": 0.7486218302094818,
	"grad_norm": 0.2754758596420288,
	"learning_rate": 0.00018822553897180762,
	"loss": 0.4958,
	"step": 1358
	},
	{
	"epoch": 0.7491730981256891,
	"grad_norm": 0.2309567779302597,
	"learning_rate": 0.00018814262023217245,
	"loss": 0.4671,
	"step": 1359
	},
	{
	"epoch": 0.7497243660418964,
	"grad_norm": 0.24164016544818878,
	"learning_rate": 0.0001880597014925373,
	"loss": 0.4712,
	"step": 1360
	},
	{
	"epoch": 0.7502756339581036,
	"grad_norm": 0.21853327751159668,
	"learning_rate": 0.00018797678275290215,
	"loss": 0.503,
	"step": 1361
	},
	{
	"epoch": 0.7508269018743109,
	"grad_norm": 0.22078783810138702,
	"learning_rate": 0.000187893864013267,
	"loss": 0.4654,
	"step": 1362
	},
	{
	"epoch": 0.7513781697905182,
	"grad_norm": 0.23638005554676056,
	"learning_rate": 0.0001878109452736318,
	"loss": 0.4742,
	"step": 1363
	},
	{
	"epoch": 0.7519294377067255,
	"grad_norm": 0.23174162209033966,
	"learning_rate": 0.00018772802653399667,
	"loss": 0.4599,
	"step": 1364
	},
	{
	"epoch": 0.7524807056229328,
	"grad_norm": 0.23956626653671265,
	"learning_rate": 0.0001876451077943615,
	"loss": 0.477,
	"step": 1365
	},
	{
	"epoch": 0.75303197353914,
	"grad_norm": 0.23747730255126953,
	"learning_rate": 0.00018756218905472636,
	"loss": 0.46,
	"step": 1366
	},
	{
	"epoch": 0.7535832414553473,
	"grad_norm": 0.22467990219593048,
	"learning_rate": 0.0001874792703150912,
	"loss": 0.4502,
	"step": 1367
	},
	{
	"epoch": 0.7541345093715546,
	"grad_norm": 0.230741485953331,
	"learning_rate": 0.00018739635157545605,
	"loss": 0.4718,
	"step": 1368
	},
	{
	"epoch": 0.7546857772877619,
	"grad_norm": 0.24028630554676056,
	"learning_rate": 0.00018731343283582088,
	"loss": 0.4619,
	"step": 1369
	},
	{
	"epoch": 0.7552370452039692,
	"grad_norm": 0.24253641068935394,
	"learning_rate": 0.00018723051409618574,
	"loss": 0.4817,
	"step": 1370
	},
	{
	"epoch": 0.7557883131201764,
	"grad_norm": 0.22565878927707672,
	"learning_rate": 0.00018714759535655057,
	"loss": 0.4663,
	"step": 1371
	},
	{
	"epoch": 0.7563395810363837,
	"grad_norm": 0.23143254220485687,
	"learning_rate": 0.00018706467661691543,
	"loss": 0.4536,
	"step": 1372
	},
	{
	"epoch": 0.756890848952591,
	"grad_norm": 0.23320366442203522,
	"learning_rate": 0.00018698175787728024,
	"loss": 0.4304,
	"step": 1373
	},
	{
	"epoch": 0.7574421168687983,
	"grad_norm": 0.23350325226783752,
	"learning_rate": 0.0001868988391376451,
	"loss": 0.4649,
	"step": 1374
	},
	{
	"epoch": 0.7579933847850056,
	"grad_norm": 0.2501453757286072,
	"learning_rate": 0.00018681592039800993,
	"loss": 0.4696,
	"step": 1375
	},
	{
	"epoch": 0.7585446527012127,
	"grad_norm": 0.22919632494449615,
	"learning_rate": 0.0001867330016583748,
	"loss": 0.4751,
	"step": 1376
	},
	{
	"epoch": 0.75909592061742,
	"grad_norm": 0.2562139332294464,
	"learning_rate": 0.00018665008291873962,
	"loss": 0.49,
	"step": 1377
	},
	{
	"epoch": 0.7596471885336273,
	"grad_norm": 0.2472946047782898,
	"learning_rate": 0.00018656716417910445,
	"loss": 0.4873,
	"step": 1378
	},
	{
	"epoch": 0.7601984564498346,
	"grad_norm": 0.22273144125938416,
	"learning_rate": 0.0001864842454394693,
	"loss": 0.4569,
	"step": 1379
	},
	{
	"epoch": 0.7607497243660419,
	"grad_norm": 0.24337974190711975,
	"learning_rate": 0.00018640132669983414,
	"loss": 0.4717,
	"step": 1380
	},
	{
	"epoch": 0.7613009922822491,
	"grad_norm": 0.23919668793678284,
	"learning_rate": 0.000186318407960199,
	"loss": 0.4966,
	"step": 1381
	},
	{
	"epoch": 0.7618522601984564,
	"grad_norm": 0.25102800130844116,
	"learning_rate": 0.0001862354892205638,
	"loss": 0.4551,
	"step": 1382
	},
	{
	"epoch": 0.7624035281146637,
	"grad_norm": 0.22430755198001862,
	"learning_rate": 0.00018615257048092867,
	"loss": 0.4628,
	"step": 1383
	},
	{
	"epoch": 0.762954796030871,
	"grad_norm": 0.2542060613632202,
	"learning_rate": 0.0001860696517412935,
	"loss": 0.474,
	"step": 1384
	},
	{
	"epoch": 0.7635060639470783,
	"grad_norm": 0.24267995357513428,
	"learning_rate": 0.00018598673300165836,
	"loss": 0.4709,
	"step": 1385
	},
	{
	"epoch": 0.7640573318632855,
	"grad_norm": 0.24730850756168365,
	"learning_rate": 0.0001859038142620232,
	"loss": 0.4703,
	"step": 1386
	},
	{
	"epoch": 0.7646085997794928,
	"grad_norm": 0.22491230070590973,
	"learning_rate": 0.00018582089552238805,
	"loss": 0.4572,
	"step": 1387
	},
	{
	"epoch": 0.7651598676957001,
	"grad_norm": 0.25823476910591125,
	"learning_rate": 0.00018573797678275288,
	"loss": 0.4911,
	"step": 1388
	},
	{
	"epoch": 0.7657111356119074,
	"grad_norm": 0.2442496418952942,
	"learning_rate": 0.00018565505804311774,
	"loss": 0.4514,
	"step": 1389
	},
	{
	"epoch": 0.7662624035281147,
	"grad_norm": 0.22842232882976532,
	"learning_rate": 0.00018557213930348257,
	"loss": 0.459,
	"step": 1390
	},
	{
	"epoch": 0.7668136714443219,
	"grad_norm": 0.24691414833068848,
	"learning_rate": 0.00018548922056384743,
	"loss": 0.4958,
	"step": 1391
	},
	{
	"epoch": 0.7673649393605292,
	"grad_norm": 0.22024598717689514,
	"learning_rate": 0.00018540630182421224,
	"loss": 0.4621,
	"step": 1392
	},
	{
	"epoch": 0.7679162072767365,
	"grad_norm": 0.24100075662136078,
	"learning_rate": 0.0001853233830845771,
	"loss": 0.486,
	"step": 1393
	},
	{
	"epoch": 0.7684674751929438,
	"grad_norm": 0.2123764157295227,
	"learning_rate": 0.00018524046434494193,
	"loss": 0.4575,
	"step": 1394
	},
	{
	"epoch": 0.7690187431091511,
	"grad_norm": 0.239015132188797,
	"learning_rate": 0.0001851575456053068,
	"loss": 0.4777,
	"step": 1395
	},
	{
	"epoch": 0.7695700110253583,
	"grad_norm": 0.22858455777168274,
	"learning_rate": 0.00018507462686567162,
	"loss": 0.438,
	"step": 1396
	},
	{
	"epoch": 0.7701212789415656,
	"grad_norm": 0.23843710124492645,
	"learning_rate": 0.00018499170812603648,
	"loss": 0.456,
	"step": 1397
	},
	{
	"epoch": 0.7706725468577729,
	"grad_norm": 0.23079745471477509,
	"learning_rate": 0.0001849087893864013,
	"loss": 0.4648,
	"step": 1398
	},
	{
	"epoch": 0.7712238147739802,
	"grad_norm": 0.23103727400302887,
	"learning_rate": 0.00018482587064676617,
	"loss": 0.4589,
	"step": 1399
	},
	{
	"epoch": 0.7717750826901875,
	"grad_norm": 0.2261170893907547,
	"learning_rate": 0.00018474295190713097,
	"loss": 0.4734,
	"step": 1400
	},
	{
	"epoch": 0.7723263506063948,
	"grad_norm": 0.2249629944562912,
	"learning_rate": 0.00018466003316749586,
	"loss": 0.4542,
	"step": 1401
	},
	{
	"epoch": 0.772877618522602,
	"grad_norm": 0.2366032898426056,
	"learning_rate": 0.00018457711442786067,
	"loss": 0.458,
	"step": 1402
	},
	{
	"epoch": 0.7734288864388092,
	"grad_norm": 0.2598401606082916,
	"learning_rate": 0.00018449419568822552,
	"loss": 0.4557,
	"step": 1403
	},
	{
	"epoch": 0.7739801543550165,
	"grad_norm": 0.23570790886878967,
	"learning_rate": 0.00018441127694859036,
	"loss": 0.4656,
	"step": 1404
	},
	{
	"epoch": 0.7745314222712238,
	"grad_norm": 0.23591196537017822,
	"learning_rate": 0.00018432835820895522,
	"loss": 0.4689,
	"step": 1405
	},
	{
	"epoch": 0.7750826901874311,
	"grad_norm": 0.2540998160839081,
	"learning_rate": 0.00018424543946932005,
	"loss": 0.4977,
	"step": 1406
	},
	{
	"epoch": 0.7756339581036383,
	"grad_norm": 0.22981034219264984,
	"learning_rate": 0.0001841625207296849,
	"loss": 0.4718,
	"step": 1407
	},
	{
	"epoch": 0.7761852260198456,
	"grad_norm": 0.2221202403306961,
	"learning_rate": 0.00018407960199004974,
	"loss": 0.4784,
	"step": 1408
	},
	{
	"epoch": 0.7767364939360529,
	"grad_norm": 0.2501460909843445,
	"learning_rate": 0.0001839966832504146,
	"loss": 0.4806,
	"step": 1409
	},
	{
	"epoch": 0.7772877618522602,
	"grad_norm": 0.2174586057662964,
	"learning_rate": 0.0001839137645107794,
	"loss": 0.4833,
	"step": 1410
	},
	{
	"epoch": 0.7778390297684675,
	"grad_norm": 0.2424350082874298,
	"learning_rate": 0.00018383084577114426,
	"loss": 0.4902,
	"step": 1411
	},
	{
	"epoch": 0.7783902976846747,
	"grad_norm": 0.25260457396507263,
	"learning_rate": 0.0001837479270315091,
	"loss": 0.4843,
	"step": 1412
	},
	{
	"epoch": 0.778941565600882,
	"grad_norm": 0.27532869577407837,
	"learning_rate": 0.00018366500829187395,
	"loss": 0.4914,
	"step": 1413
	},
	{
	"epoch": 0.7794928335170893,
	"grad_norm": 0.24072158336639404,
	"learning_rate": 0.00018358208955223879,
	"loss": 0.4888,
	"step": 1414
	},
	{
	"epoch": 0.7800441014332966,
	"grad_norm": 0.24182955920696259,
	"learning_rate": 0.00018349917081260364,
	"loss": 0.4589,
	"step": 1415
	},
	{
	"epoch": 0.7805953693495039,
	"grad_norm": 0.25824496150016785,
	"learning_rate": 0.00018341625207296848,
	"loss": 0.4868,
	"step": 1416
	},
	{
	"epoch": 0.7811466372657111,
	"grad_norm": 0.2336832731962204,
	"learning_rate": 0.00018333333333333334,
	"loss": 0.472,
	"step": 1417
	},
	{
	"epoch": 0.7816979051819184,
	"grad_norm": 0.24849727749824524,
	"learning_rate": 0.00018325041459369817,
	"loss": 0.4743,
	"step": 1418
	},
	{
	"epoch": 0.7822491730981257,
	"grad_norm": 0.21890904009342194,
	"learning_rate": 0.00018316749585406303,
	"loss": 0.465,
	"step": 1419
	},
	{
	"epoch": 0.782800441014333,
	"grad_norm": 0.2601034343242645,
	"learning_rate": 0.00018308457711442783,
	"loss": 0.4531,
	"step": 1420
	},
	{
	"epoch": 0.7833517089305403,
	"grad_norm": 0.2441786229610443,
	"learning_rate": 0.0001830016583747927,
	"loss": 0.4536,
	"step": 1421
	},
	{
	"epoch": 0.7839029768467475,
	"grad_norm": 0.2240273654460907,
	"learning_rate": 0.00018291873963515752,
	"loss": 0.461,
	"step": 1422
	},
	{
	"epoch": 0.7844542447629548,
	"grad_norm": 0.2334737479686737,
	"learning_rate": 0.00018283582089552235,
	"loss": 0.4779,
	"step": 1423
	},
	{
	"epoch": 0.7850055126791621,
	"grad_norm": 0.23395971953868866,
	"learning_rate": 0.00018275290215588721,
	"loss": 0.4585,
	"step": 1424
	},
	{
	"epoch": 0.7855567805953694,
	"grad_norm": 0.24163080751895905,
	"learning_rate": 0.00018266998341625205,
	"loss": 0.4781,
	"step": 1425
	},
	{
	"epoch": 0.7861080485115767,
	"grad_norm": 0.23681163787841797,
	"learning_rate": 0.0001825870646766169,
	"loss": 0.4518,
	"step": 1426
	},
	{
	"epoch": 0.7866593164277839,
	"grad_norm": 0.2450489103794098,
	"learning_rate": 0.00018250414593698174,
	"loss": 0.4741,
	"step": 1427
	},
	{
	"epoch": 0.7872105843439912,
	"grad_norm": 0.23335276544094086,
	"learning_rate": 0.0001824212271973466,
	"loss": 0.4938,
	"step": 1428
	},
	{
	"epoch": 0.7877618522601985,
	"grad_norm": 0.22969652712345123,
	"learning_rate": 0.0001823383084577114,
	"loss": 0.4577,
	"step": 1429
	},
	{
	"epoch": 0.7883131201764058,
	"grad_norm": 0.2162095010280609,
	"learning_rate": 0.00018225538971807626,
	"loss": 0.4632,
	"step": 1430
	},
	{
	"epoch": 0.7888643880926131,
	"grad_norm": 0.2445029318332672,
	"learning_rate": 0.0001821724709784411,
	"loss": 0.4657,
	"step": 1431
	},
	{
	"epoch": 0.7894156560088202,
	"grad_norm": 0.21864482760429382,
	"learning_rate": 0.00018208955223880595,
	"loss": 0.4759,
	"step": 1432
	},
	{
	"epoch": 0.7899669239250275,
	"grad_norm": 0.24577899277210236,
	"learning_rate": 0.00018200663349917078,
	"loss": 0.4717,
	"step": 1433
	},
	{
	"epoch": 0.7905181918412348,
	"grad_norm": 0.21177740395069122,
	"learning_rate": 0.00018192371475953564,
	"loss": 0.4564,
	"step": 1434
	},
	{
	"epoch": 0.7910694597574421,
	"grad_norm": 0.2460215985774994,
	"learning_rate": 0.00018184079601990047,
	"loss": 0.4921,
	"step": 1435
	},
	{
	"epoch": 0.7916207276736494,
	"grad_norm": 0.24731247127056122,
	"learning_rate": 0.00018175787728026533,
	"loss": 0.4655,
	"step": 1436
	},
	{
	"epoch": 0.7921719955898566,
	"grad_norm": 0.24188898503780365,
	"learning_rate": 0.00018167495854063017,
	"loss": 0.4665,
	"step": 1437
	},
	{
	"epoch": 0.7927232635060639,
	"grad_norm": 0.2347448617219925,
	"learning_rate": 0.00018159203980099502,
	"loss": 0.4563,
	"step": 1438
	},
	{
	"epoch": 0.7932745314222712,
	"grad_norm": 0.242751806974411,
	"learning_rate": 0.00018150912106135983,
	"loss": 0.4622,
	"step": 1439
	},
	{
	"epoch": 0.7938257993384785,
	"grad_norm": 0.2598075270652771,
	"learning_rate": 0.0001814262023217247,
	"loss": 0.4679,
	"step": 1440
	},
	{
	"epoch": 0.7943770672546858,
	"grad_norm": 0.23368312418460846,
	"learning_rate": 0.00018134328358208952,
	"loss": 0.4627,
	"step": 1441
	},
	{
	"epoch": 0.794928335170893,
	"grad_norm": 0.24804770946502686,
	"learning_rate": 0.00018126036484245438,
	"loss": 0.4663,
	"step": 1442
	},
	{
	"epoch": 0.7954796030871003,
	"grad_norm": 0.22588974237442017,
	"learning_rate": 0.0001811774461028192,
	"loss": 0.4514,
	"step": 1443
	},
	{
	"epoch": 0.7960308710033076,
	"grad_norm": 0.22374935448169708,
	"learning_rate": 0.00018109452736318407,
	"loss": 0.4552,
	"step": 1444
	},
	{
	"epoch": 0.7965821389195149,
	"grad_norm": 0.24665199220180511,
	"learning_rate": 0.0001810116086235489,
	"loss": 0.4639,
	"step": 1445
	},
	{
	"epoch": 0.7971334068357222,
	"grad_norm": 0.25782036781311035,
	"learning_rate": 0.00018092868988391376,
	"loss": 0.4592,
	"step": 1446
	},
	{
	"epoch": 0.7976846747519294,
	"grad_norm": 0.21815195679664612,
	"learning_rate": 0.0001808457711442786,
	"loss": 0.4724,
	"step": 1447
	},
	{
	"epoch": 0.7982359426681367,
	"grad_norm": 0.24236443638801575,
	"learning_rate": 0.00018076285240464345,
	"loss": 0.473,
	"step": 1448
	},
	{
	"epoch": 0.798787210584344,
	"grad_norm": 0.23173320293426514,
	"learning_rate": 0.00018067993366500826,
	"loss": 0.4771,
	"step": 1449
	},
	{
	"epoch": 0.7993384785005513,
	"grad_norm": 0.22303089499473572,
	"learning_rate": 0.00018059701492537312,
	"loss": 0.4545,
	"step": 1450
	},
	{
	"epoch": 0.7998897464167586,
	"grad_norm": 0.23491422832012177,
	"learning_rate": 0.00018051409618573795,
	"loss": 0.4807,
	"step": 1451
	},
	{
	"epoch": 0.8004410143329658,
	"grad_norm": 0.23925326764583588,
	"learning_rate": 0.0001804311774461028,
	"loss": 0.4705,
	"step": 1452
	},
	{
	"epoch": 0.8009922822491731,
	"grad_norm": 0.2446267306804657,
	"learning_rate": 0.00018034825870646764,
	"loss": 0.4514,
	"step": 1453
	},
	{
	"epoch": 0.8015435501653804,
	"grad_norm": 0.2514120936393738,
	"learning_rate": 0.0001802653399668325,
	"loss": 0.4823,
	"step": 1454
	},
	{
	"epoch": 0.8020948180815877,
	"grad_norm": 0.2469882369041443,
	"learning_rate": 0.00018018242122719733,
	"loss": 0.45,
	"step": 1455
	},
	{
	"epoch": 0.802646085997795,
	"grad_norm": 0.23653636872768402,
	"learning_rate": 0.0001800995024875622,
	"loss": 0.4649,
	"step": 1456
	},
	{
	"epoch": 0.8031973539140022,
	"grad_norm": 0.22585710883140564,
	"learning_rate": 0.00018001658374792702,
	"loss": 0.4384,
	"step": 1457
	},
	{
	"epoch": 0.8037486218302095,
	"grad_norm": 0.24817028641700745,
	"learning_rate": 0.00017993366500829188,
	"loss": 0.4739,
	"step": 1458
	},
	{
	"epoch": 0.8042998897464168,
	"grad_norm": 0.25585106015205383,
	"learning_rate": 0.0001798507462686567,
	"loss": 0.4958,
	"step": 1459
	},
	{
	"epoch": 0.804851157662624,
	"grad_norm": 0.25958600640296936,
	"learning_rate": 0.00017976782752902155,
	"loss": 0.4673,
	"step": 1460
	},
	{
	"epoch": 0.8054024255788313,
	"grad_norm": 0.2447502166032791,
	"learning_rate": 0.00017968490878938638,
	"loss": 0.484,
	"step": 1461
	},
	{
	"epoch": 0.8059536934950385,
	"grad_norm": 0.22878794372081757,
	"learning_rate": 0.00017960199004975124,
	"loss": 0.4832,
	"step": 1462
	},
	{
	"epoch": 0.8065049614112458,
	"grad_norm": 0.24230952560901642,
	"learning_rate": 0.00017951907131011607,
	"loss": 0.4498,
	"step": 1463
	},
	{
	"epoch": 0.8070562293274531,
	"grad_norm": 0.2345331311225891,
	"learning_rate": 0.00017943615257048093,
	"loss": 0.4529,
	"step": 1464
	},
	{
	"epoch": 0.8076074972436604,
	"grad_norm": 0.2564900815486908,
	"learning_rate": 0.00017935323383084576,
	"loss": 0.4747,
	"step": 1465
	},
	{
	"epoch": 0.8081587651598677,
	"grad_norm": 0.2226727157831192,
	"learning_rate": 0.00017927031509121062,
	"loss": 0.4453,
	"step": 1466
	},
	{
	"epoch": 0.8087100330760749,
	"grad_norm": 0.26586976647377014,
	"learning_rate": 0.00017918739635157545,
	"loss": 0.5032,
	"step": 1467
	},
	{
	"epoch": 0.8092613009922822,
	"grad_norm": 0.23573876917362213,
	"learning_rate": 0.00017910447761194026,
	"loss": 0.4674,
	"step": 1468
	},
	{
	"epoch": 0.8098125689084895,
	"grad_norm": 0.24506725370883942,
	"learning_rate": 0.00017902155887230512,
	"loss": 0.4605,
	"step": 1469
	},
	{
	"epoch": 0.8103638368246968,
	"grad_norm": 0.2386348396539688,
	"learning_rate": 0.00017893864013266995,
	"loss": 0.4618,
	"step": 1470
	},
	{
	"epoch": 0.8109151047409041,
	"grad_norm": 0.24811455607414246,
	"learning_rate": 0.0001788557213930348,
	"loss": 0.4615,
	"step": 1471
	},
	{
	"epoch": 0.8114663726571113,
	"grad_norm": 0.2334372103214264,
	"learning_rate": 0.00017877280265339964,
	"loss": 0.474,
	"step": 1472
	},
	{
	"epoch": 0.8120176405733186,
	"grad_norm": 0.247808575630188,
	"learning_rate": 0.0001786898839137645,
	"loss": 0.4504,
	"step": 1473
	},
	{
	"epoch": 0.8125689084895259,
	"grad_norm": 0.21028272807598114,
	"learning_rate": 0.00017860696517412933,
	"loss": 0.4425,
	"step": 1474
	},
	{
	"epoch": 0.8131201764057332,
	"grad_norm": 0.22339411079883575,
	"learning_rate": 0.0001785240464344942,
	"loss": 0.449,
	"step": 1475
	},
	{
	"epoch": 0.8136714443219405,
	"grad_norm": 0.23447810113430023,
	"learning_rate": 0.00017844112769485902,
	"loss": 0.4593,
	"step": 1476
	},
	{
	"epoch": 0.8142227122381478,
	"grad_norm": 0.22381900250911713,
	"learning_rate": 0.00017835820895522388,
	"loss": 0.4603,
	"step": 1477
	},
	{
	"epoch": 0.814773980154355,
	"grad_norm": 0.22677209973335266,
	"learning_rate": 0.00017827529021558869,
	"loss": 0.4525,
	"step": 1478
	},
	{
	"epoch": 0.8153252480705623,
	"grad_norm": 0.2385341227054596,
	"learning_rate": 0.00017819237147595354,
	"loss": 0.49,
	"step": 1479
	},
	{
	"epoch": 0.8158765159867696,
	"grad_norm": 0.24088934063911438,
	"learning_rate": 0.00017810945273631838,
	"loss": 0.4984,
	"step": 1480
	},
	{
	"epoch": 0.8164277839029769,
	"grad_norm": 0.20627839863300323,
	"learning_rate": 0.00017802653399668324,
	"loss": 0.4597,
	"step": 1481
	},
	{
	"epoch": 0.8169790518191842,
	"grad_norm": 0.2268056422472,
	"learning_rate": 0.00017794361525704807,
	"loss": 0.4581,
	"step": 1482
	},
	{
	"epoch": 0.8175303197353914,
	"grad_norm": 0.24342721700668335,
	"learning_rate": 0.00017786069651741293,
	"loss": 0.4715,
	"step": 1483
	},
	{
	"epoch": 0.8180815876515987,
	"grad_norm": 0.23494994640350342,
	"learning_rate": 0.00017777777777777776,
	"loss": 0.4859,
	"step": 1484
	},
	{
	"epoch": 0.818632855567806,
	"grad_norm": 0.23297634720802307,
	"learning_rate": 0.00017769485903814262,
	"loss": 0.4644,
	"step": 1485
	},
	{
	"epoch": 0.8191841234840133,
	"grad_norm": 0.24424344301223755,
	"learning_rate": 0.00017761194029850745,
	"loss": 0.456,
	"step": 1486
	},
	{
	"epoch": 0.8197353914002206,
	"grad_norm": 0.2417961210012436,
	"learning_rate": 0.0001775290215588723,
	"loss": 0.5005,
	"step": 1487
	},
	{
	"epoch": 0.8202866593164277,
	"grad_norm": 0.24089650809764862,
	"learning_rate": 0.00017744610281923711,
	"loss": 0.4953,
	"step": 1488
	},
	{
	"epoch": 0.820837927232635,
	"grad_norm": 0.22983671724796295,
	"learning_rate": 0.00017736318407960197,
	"loss": 0.4544,
	"step": 1489
	},
	{
	"epoch": 0.8213891951488423,
	"grad_norm": 0.20966455340385437,
	"learning_rate": 0.0001772802653399668,
	"loss": 0.4724,
	"step": 1490
	},
	{
	"epoch": 0.8219404630650496,
	"grad_norm": 0.24843506515026093,
	"learning_rate": 0.00017719734660033166,
	"loss": 0.4799,
	"step": 1491
	},
	{
	"epoch": 0.8224917309812569,
	"grad_norm": 0.22664618492126465,
	"learning_rate": 0.0001771144278606965,
	"loss": 0.4421,
	"step": 1492
	},
	{
	"epoch": 0.8230429988974641,
	"grad_norm": 0.22813642024993896,
	"learning_rate": 0.00017703150912106136,
	"loss": 0.4622,
	"step": 1493
	},
	{
	"epoch": 0.8235942668136714,
	"grad_norm": 0.2250567078590393,
	"learning_rate": 0.0001769485903814262,
	"loss": 0.4526,
	"step": 1494
	},
	{
	"epoch": 0.8241455347298787,
	"grad_norm": 0.2317907065153122,
	"learning_rate": 0.00017686567164179105,
	"loss": 0.4743,
	"step": 1495
	},
	{
	"epoch": 0.824696802646086,
	"grad_norm": 0.22760067880153656,
	"learning_rate": 0.00017678275290215588,
	"loss": 0.4765,
	"step": 1496
	},
	{
	"epoch": 0.8252480705622933,
	"grad_norm": 0.21815039217472076,
	"learning_rate": 0.00017669983416252074,
	"loss": 0.4588,
	"step": 1497
	},
	{
	"epoch": 0.8257993384785005,
	"grad_norm": 0.25006452202796936,
	"learning_rate": 0.00017661691542288554,
	"loss": 0.451,
	"step": 1498
	},
	{
	"epoch": 0.8263506063947078,
	"grad_norm": 0.22310319542884827,
	"learning_rate": 0.0001765339966832504,
	"loss": 0.4754,
	"step": 1499
	},
	{
	"epoch": 0.8269018743109151,
	"grad_norm": 0.26363706588745117,
	"learning_rate": 0.00017645107794361523,
	"loss": 0.4834,
	"step": 1500
	},
	{
	"epoch": 0.8269018743109151,
	"eval_loss": 0.4649047255516052,
	"eval_runtime": 312.7946,
	"eval_samples_per_second": 3.724,
	"eval_steps_per_second": 0.467,
	"step": 1500
	},
	{
	"epoch": 0.8274531422271224,
	"grad_norm": 0.22052568197250366,
	"learning_rate": 0.0001763681592039801,
	"loss": 0.4931,
	"step": 1501
	},
	{
	"epoch": 0.8280044101433297,
	"grad_norm": 0.23108328878879547,
	"learning_rate": 0.00017628524046434493,
	"loss": 0.4901,
	"step": 1502
	},
	{
	"epoch": 0.8285556780595369,
	"grad_norm": 0.23075662553310394,
	"learning_rate": 0.00017620232172470978,
	"loss": 0.4484,
	"step": 1503
	},
	{
	"epoch": 0.8291069459757442,
	"grad_norm": 0.24602019786834717,
	"learning_rate": 0.00017611940298507462,
	"loss": 0.4427,
	"step": 1504
	},
	{
	"epoch": 0.8296582138919515,
	"grad_norm": 0.2438734471797943,
	"learning_rate": 0.00017603648424543948,
	"loss": 0.4731,
	"step": 1505
	},
	{
	"epoch": 0.8302094818081588,
	"grad_norm": 0.23441627621650696,
	"learning_rate": 0.0001759535655058043,
	"loss": 0.4628,
	"step": 1506
	},
	{
	"epoch": 0.8307607497243661,
	"grad_norm": 0.23310305178165436,
	"learning_rate": 0.00017587064676616917,
	"loss": 0.4929,
	"step": 1507
	},
	{
	"epoch": 0.8313120176405733,
	"grad_norm": 0.25448939204216003,
	"learning_rate": 0.00017578772802653397,
	"loss": 0.4851,
	"step": 1508
	},
	{
	"epoch": 0.8318632855567806,
	"grad_norm": 0.2438756674528122,
	"learning_rate": 0.00017570480928689883,
	"loss": 0.4706,
	"step": 1509
	},
	{
	"epoch": 0.8324145534729879,
	"grad_norm": 0.25436931848526,
	"learning_rate": 0.00017562189054726366,
	"loss": 0.4869,
	"step": 1510
	},
	{
	"epoch": 0.8329658213891952,
	"grad_norm": 0.22301998734474182,
	"learning_rate": 0.0001755389718076285,
	"loss": 0.4593,
	"step": 1511
	},
	{
	"epoch": 0.8335170893054025,
	"grad_norm": 0.24233976006507874,
	"learning_rate": 0.00017545605306799335,
	"loss": 0.5016,
	"step": 1512
	},
	{
	"epoch": 0.8340683572216097,
	"grad_norm": 0.22516629099845886,
	"learning_rate": 0.00017537313432835819,
	"loss": 0.4732,
	"step": 1513
	},
	{
	"epoch": 0.834619625137817,
	"grad_norm": 0.22612155973911285,
	"learning_rate": 0.00017529021558872305,
	"loss": 0.4625,
	"step": 1514
	},
	{
	"epoch": 0.8351708930540243,
	"grad_norm": 0.23177853226661682,
	"learning_rate": 0.00017520729684908785,
	"loss": 0.4776,
	"step": 1515
	},
	{
	"epoch": 0.8357221609702316,
	"grad_norm": 0.24279583990573883,
	"learning_rate": 0.00017512437810945274,
	"loss": 0.4721,
	"step": 1516
	},
	{
	"epoch": 0.8362734288864389,
	"grad_norm": 0.23456443846225739,
	"learning_rate": 0.00017504145936981754,
	"loss": 0.4635,
	"step": 1517
	},
	{
	"epoch": 0.836824696802646,
	"grad_norm": 0.23287171125411987,
	"learning_rate": 0.0001749585406301824,
	"loss": 0.4739,
	"step": 1518
	},
	{
	"epoch": 0.8373759647188533,
	"grad_norm": 0.22415684163570404,
	"learning_rate": 0.00017487562189054723,
	"loss": 0.4769,
	"step": 1519
	},
	{
	"epoch": 0.8379272326350606,
	"grad_norm": 0.2180211991071701,
	"learning_rate": 0.0001747927031509121,
	"loss": 0.4388,
	"step": 1520
	},
	{
	"epoch": 0.8384785005512679,
	"grad_norm": 0.2260761708021164,
	"learning_rate": 0.00017470978441127692,
	"loss": 0.4972,
	"step": 1521
	},
	{
	"epoch": 0.8390297684674752,
	"grad_norm": 0.22887657582759857,
	"learning_rate": 0.00017462686567164178,
	"loss": 0.4554,
	"step": 1522
	},
	{
	"epoch": 0.8395810363836824,
	"grad_norm": 0.241640105843544,
	"learning_rate": 0.00017454394693200662,
	"loss": 0.4732,
	"step": 1523
	},
	{
	"epoch": 0.8401323042998897,
	"grad_norm": 0.2288465052843094,
	"learning_rate": 0.00017446102819237147,
	"loss": 0.4527,
	"step": 1524
	},
	{
	"epoch": 0.840683572216097,
	"grad_norm": 0.23457041382789612,
	"learning_rate": 0.00017437810945273628,
	"loss": 0.4574,
	"step": 1525
	},
	{
	"epoch": 0.8412348401323043,
	"grad_norm": 0.25197815895080566,
	"learning_rate": 0.00017429519071310114,
	"loss": 0.4597,
	"step": 1526
	},
	{
	"epoch": 0.8417861080485116,
	"grad_norm": 0.2385404258966446,
	"learning_rate": 0.00017421227197346597,
	"loss": 0.4649,
	"step": 1527
	},
	{
	"epoch": 0.8423373759647188,
	"grad_norm": 0.23451651632785797,
	"learning_rate": 0.00017412935323383083,
	"loss": 0.4646,
	"step": 1528
	},
	{
	"epoch": 0.8428886438809261,
	"grad_norm": 0.2421046793460846,
	"learning_rate": 0.00017404643449419566,
	"loss": 0.4852,
	"step": 1529
	},
	{
	"epoch": 0.8434399117971334,
	"grad_norm": 0.25406989455223083,
	"learning_rate": 0.00017396351575456052,
	"loss": 0.4804,
	"step": 1530
	},
	{
	"epoch": 0.8439911797133407,
	"grad_norm": 0.24752497673034668,
	"learning_rate": 0.00017388059701492535,
	"loss": 0.4777,
	"step": 1531
	},
	{
	"epoch": 0.844542447629548,
	"grad_norm": 0.226281076669693,
	"learning_rate": 0.0001737976782752902,
	"loss": 0.4747,
	"step": 1532
	},
	{
	"epoch": 0.8450937155457552,
	"grad_norm": 0.2519485652446747,
	"learning_rate": 0.00017371475953565504,
	"loss": 0.4639,
	"step": 1533
	},
	{
	"epoch": 0.8456449834619625,
	"grad_norm": 0.2347985804080963,
	"learning_rate": 0.0001736318407960199,
	"loss": 0.4715,
	"step": 1534
	},
	{
	"epoch": 0.8461962513781698,
	"grad_norm": 0.24425053596496582,
	"learning_rate": 0.0001735489220563847,
	"loss": 0.445,
	"step": 1535
	},
	{
	"epoch": 0.8467475192943771,
	"grad_norm": 0.2559725046157837,
	"learning_rate": 0.00017346600331674957,
	"loss": 0.49,
	"step": 1536
	},
	{
	"epoch": 0.8472987872105844,
	"grad_norm": 0.23750551044940948,
	"learning_rate": 0.0001733830845771144,
	"loss": 0.4663,
	"step": 1537
	},
	{
	"epoch": 0.8478500551267916,
	"grad_norm": 0.22861897945404053,
	"learning_rate": 0.00017330016583747926,
	"loss": 0.45,
	"step": 1538
	},
	{
	"epoch": 0.8484013230429989,
	"grad_norm": 0.24839669466018677,
	"learning_rate": 0.0001732172470978441,
	"loss": 0.4856,
	"step": 1539
	},
	{
	"epoch": 0.8489525909592062,
	"grad_norm": 0.23960521817207336,
	"learning_rate": 0.00017313432835820895,
	"loss": 0.4933,
	"step": 1540
	},
	{
	"epoch": 0.8495038588754135,
	"grad_norm": 0.23533576726913452,
	"learning_rate": 0.00017305140961857378,
	"loss": 0.4698,
	"step": 1541
	},
	{
	"epoch": 0.8500551267916208,
	"grad_norm": 0.23979732394218445,
	"learning_rate": 0.00017296849087893864,
	"loss": 0.4953,
	"step": 1542
	},
	{
	"epoch": 0.850606394707828,
	"grad_norm": 0.24841150641441345,
	"learning_rate": 0.00017288557213930347,
	"loss": 0.4845,
	"step": 1543
	},
	{
	"epoch": 0.8511576626240352,
	"grad_norm": 0.22132597863674164,
	"learning_rate": 0.00017280265339966833,
	"loss": 0.4643,
	"step": 1544
	},
	{
	"epoch": 0.8517089305402425,
	"grad_norm": 0.22431734204292297,
	"learning_rate": 0.00017271973466003314,
	"loss": 0.4547,
	"step": 1545
	},
	{
	"epoch": 0.8522601984564498,
	"grad_norm": 0.22704413533210754,
	"learning_rate": 0.000172636815920398,
	"loss": 0.4665,
	"step": 1546
	},
	{
	"epoch": 0.8528114663726571,
	"grad_norm": 0.22971755266189575,
	"learning_rate": 0.00017255389718076283,
	"loss": 0.4709,
	"step": 1547
	},
	{
	"epoch": 0.8533627342888643,
	"grad_norm": 0.2435724288225174,
	"learning_rate": 0.0001724709784411277,
	"loss": 0.4733,
	"step": 1548
	},
	{
	"epoch": 0.8539140022050716,
	"grad_norm": 0.24051538109779358,
	"learning_rate": 0.00017238805970149252,
	"loss": 0.4695,
	"step": 1549
	},
	{
	"epoch": 0.8544652701212789,
	"grad_norm": 0.26592954993247986,
	"learning_rate": 0.00017230514096185738,
	"loss": 0.4683,
	"step": 1550
	},
	{
	"epoch": 0.8550165380374862,
	"grad_norm": 0.24452587962150574,
	"learning_rate": 0.0001722222222222222,
	"loss": 0.4623,
	"step": 1551
	},
	{
	"epoch": 0.8555678059536935,
	"grad_norm": 0.23351791501045227,
	"learning_rate": 0.00017213930348258707,
	"loss": 0.4559,
	"step": 1552
	},
	{
	"epoch": 0.8561190738699008,
	"grad_norm": 0.23652702569961548,
	"learning_rate": 0.0001720563847429519,
	"loss": 0.4507,
	"step": 1553
	},
	{
	"epoch": 0.856670341786108,
	"grad_norm": 0.22390702366828918,
	"learning_rate": 0.00017197346600331676,
	"loss": 0.4521,
	"step": 1554
	},
	{
	"epoch": 0.8572216097023153,
	"grad_norm": 0.24590735137462616,
	"learning_rate": 0.00017189054726368157,
	"loss": 0.4712,
	"step": 1555
	},
	{
	"epoch": 0.8577728776185226,
	"grad_norm": 0.21954110264778137,
	"learning_rate": 0.0001718076285240464,
	"loss": 0.4447,
	"step": 1556
	},
	{
	"epoch": 0.8583241455347299,
	"grad_norm": 0.23404909670352936,
	"learning_rate": 0.00017172470978441126,
	"loss": 0.4699,
	"step": 1557
	},
	{
	"epoch": 0.8588754134509372,
	"grad_norm": 0.24352899193763733,
	"learning_rate": 0.0001716417910447761,
	"loss": 0.4904,
	"step": 1558
	},
	{
	"epoch": 0.8594266813671444,
	"grad_norm": 0.30317431688308716,
	"learning_rate": 0.00017155887230514095,
	"loss": 0.4606,
	"step": 1559
	},
	{
	"epoch": 0.8599779492833517,
	"grad_norm": 0.22517681121826172,
	"learning_rate": 0.00017147595356550578,
	"loss": 0.4892,
	"step": 1560
	},
	{
	"epoch": 0.860529217199559,
	"grad_norm": 0.23503634333610535,
	"learning_rate": 0.00017139303482587064,
	"loss": 0.4755,
	"step": 1561
	},
	{
	"epoch": 0.8610804851157663,
	"grad_norm": 0.22381718456745148,
	"learning_rate": 0.00017131011608623547,
	"loss": 0.4492,
	"step": 1562
	},
	{
	"epoch": 0.8616317530319736,
	"grad_norm": 0.24450813233852386,
	"learning_rate": 0.00017122719734660033,
	"loss": 0.4764,
	"step": 1563
	},
	{
	"epoch": 0.8621830209481808,
	"grad_norm": 0.2357473075389862,
	"learning_rate": 0.00017114427860696513,
	"loss": 0.4727,
	"step": 1564
	},
	{
	"epoch": 0.8627342888643881,
	"grad_norm": 0.22676219046115875,
	"learning_rate": 0.00017106135986733,
	"loss": 0.454,
	"step": 1565
	},
	{
	"epoch": 0.8632855567805954,
	"grad_norm": 0.24174387753009796,
	"learning_rate": 0.00017097844112769483,
	"loss": 0.4451,
	"step": 1566
	},
	{
	"epoch": 0.8638368246968027,
	"grad_norm": 0.24716874957084656,
	"learning_rate": 0.00017089552238805969,
	"loss": 0.4639,
	"step": 1567
	},
	{
	"epoch": 0.86438809261301,
	"grad_norm": 0.24672383069992065,
	"learning_rate": 0.00017081260364842452,
	"loss": 0.4811,
	"step": 1568
	},
	{
	"epoch": 0.8649393605292172,
	"grad_norm": 0.2504035234451294,
	"learning_rate": 0.00017072968490878938,
	"loss": 0.4715,
	"step": 1569
	},
	{
	"epoch": 0.8654906284454245,
	"grad_norm": 0.2296275794506073,
	"learning_rate": 0.0001706467661691542,
	"loss": 0.4552,
	"step": 1570
	},
	{
	"epoch": 0.8660418963616318,
	"grad_norm": 0.24308894574642181,
	"learning_rate": 0.00017056384742951907,
	"loss": 0.4798,
	"step": 1571
	},
	{
	"epoch": 0.8665931642778391,
	"grad_norm": 0.25587549805641174,
	"learning_rate": 0.0001704809286898839,
	"loss": 0.473,
	"step": 1572
	},
	{
	"epoch": 0.8671444321940464,
	"grad_norm": 0.22006462514400482,
	"learning_rate": 0.00017039800995024876,
	"loss": 0.4512,
	"step": 1573
	},
	{
	"epoch": 0.8676957001102535,
	"grad_norm": 0.2469773143529892,
	"learning_rate": 0.00017031509121061356,
	"loss": 0.4651,
	"step": 1574
	},
	{
	"epoch": 0.8682469680264608,
	"grad_norm": 0.23426435887813568,
	"learning_rate": 0.00017023217247097842,
	"loss": 0.4658,
	"step": 1575
	},
	{
	"epoch": 0.8687982359426681,
	"grad_norm": 0.2696544826030731,
	"learning_rate": 0.00017014925373134325,
	"loss": 0.4555,
	"step": 1576
	},
	{
	"epoch": 0.8693495038588754,
	"grad_norm": 0.24263867735862732,
	"learning_rate": 0.00017006633499170811,
	"loss": 0.4426,
	"step": 1577
	},
	{
	"epoch": 0.8699007717750827,
	"grad_norm": 0.24693246185779572,
	"learning_rate": 0.00016998341625207295,
	"loss": 0.4876,
	"step": 1578
	},
	{
	"epoch": 0.8704520396912899,
	"grad_norm": 0.24460558593273163,
	"learning_rate": 0.0001699004975124378,
	"loss": 0.4704,
	"step": 1579
	},
	{
	"epoch": 0.8710033076074972,
	"grad_norm": 0.2212182730436325,
	"learning_rate": 0.00016981757877280264,
	"loss": 0.4496,
	"step": 1580
	},
	{
	"epoch": 0.8715545755237045,
	"grad_norm": 0.23751485347747803,
	"learning_rate": 0.0001697346600331675,
	"loss": 0.4546,
	"step": 1581
	},
	{
	"epoch": 0.8721058434399118,
	"grad_norm": 0.2521110475063324,
	"learning_rate": 0.00016965174129353233,
	"loss": 0.4706,
	"step": 1582
	},
	{
	"epoch": 0.8726571113561191,
	"grad_norm": 0.24147383868694305,
	"learning_rate": 0.0001695688225538972,
	"loss": 0.4519,
	"step": 1583
	},
	{
	"epoch": 0.8732083792723263,
	"grad_norm": 0.2279898077249527,
	"learning_rate": 0.000169485903814262,
	"loss": 0.4648,
	"step": 1584
	},
	{
	"epoch": 0.8737596471885336,
	"grad_norm": 0.24053026735782623,
	"learning_rate": 0.00016940298507462685,
	"loss": 0.4747,
	"step": 1585
	},
	{
	"epoch": 0.8743109151047409,
	"grad_norm": 0.24321089684963226,
	"learning_rate": 0.00016932006633499168,
	"loss": 0.4562,
	"step": 1586
	},
	{
	"epoch": 0.8748621830209482,
	"grad_norm": 0.2396124303340912,
	"learning_rate": 0.00016923714759535654,
	"loss": 0.4631,
	"step": 1587
	},
	{
	"epoch": 0.8754134509371555,
	"grad_norm": 0.23284991085529327,
	"learning_rate": 0.00016915422885572137,
	"loss": 0.4452,
	"step": 1588
	},
	{
	"epoch": 0.8759647188533627,
	"grad_norm": 0.2377912849187851,
	"learning_rate": 0.00016907131011608623,
	"loss": 0.4471,
	"step": 1589
	},
	{
	"epoch": 0.87651598676957,
	"grad_norm": 0.23828253149986267,
	"learning_rate": 0.00016898839137645107,
	"loss": 0.4463,
	"step": 1590
	},
	{
	"epoch": 0.8770672546857773,
	"grad_norm": 0.24640867114067078,
	"learning_rate": 0.00016890547263681593,
	"loss": 0.4776,
	"step": 1591
	},
	{
	"epoch": 0.8776185226019846,
	"grad_norm": 0.24699927866458893,
	"learning_rate": 0.00016882255389718076,
	"loss": 0.437,
	"step": 1592
	},
	{
	"epoch": 0.8781697905181919,
	"grad_norm": 0.24521562457084656,
	"learning_rate": 0.00016873963515754562,
	"loss": 0.4805,
	"step": 1593
	},
	{
	"epoch": 0.8787210584343991,
	"grad_norm": 0.2375350147485733,
	"learning_rate": 0.00016865671641791042,
	"loss": 0.4835,
	"step": 1594
	},
	{
	"epoch": 0.8792723263506064,
	"grad_norm": 0.23784852027893066,
	"learning_rate": 0.00016857379767827528,
	"loss": 0.49,
	"step": 1595
	},
	{
	"epoch": 0.8798235942668137,
	"grad_norm": 0.23371200263500214,
	"learning_rate": 0.0001684908789386401,
	"loss": 0.4701,
	"step": 1596
	},
	{
	"epoch": 0.880374862183021,
	"grad_norm": 0.23373621702194214,
	"learning_rate": 0.00016840796019900497,
	"loss": 0.4765,
	"step": 1597
	},
	{
	"epoch": 0.8809261300992283,
	"grad_norm": 0.25964394211769104,
	"learning_rate": 0.0001683250414593698,
	"loss": 0.4505,
	"step": 1598
	},
	{
	"epoch": 0.8814773980154355,
	"grad_norm": 0.2420414835214615,
	"learning_rate": 0.00016824212271973464,
	"loss": 0.5,
	"step": 1599
	},
	{
	"epoch": 0.8820286659316428,
	"grad_norm": 0.24534733593463898,
	"learning_rate": 0.0001681592039800995,
	"loss": 0.4625,
	"step": 1600
	},
	{
	"epoch": 0.88257993384785,
	"grad_norm": 0.22338466346263885,
	"learning_rate": 0.00016807628524046433,
	"loss": 0.4383,
	"step": 1601
	},
	{
	"epoch": 0.8831312017640573,
	"grad_norm": 0.24304436147212982,
	"learning_rate": 0.00016799336650082919,
	"loss": 0.4717,
	"step": 1602
	},
	{
	"epoch": 0.8836824696802646,
	"grad_norm": 0.24378708004951477,
	"learning_rate": 0.000167910447761194,
	"loss": 0.4732,
	"step": 1603
	},
	{
	"epoch": 0.8842337375964718,
	"grad_norm": 0.22068338096141815,
	"learning_rate": 0.00016782752902155885,
	"loss": 0.4709,
	"step": 1604
	},
	{
	"epoch": 0.8847850055126791,
	"grad_norm": 0.25752487778663635,
	"learning_rate": 0.00016774461028192368,
	"loss": 0.4571,
	"step": 1605
	},
	{
	"epoch": 0.8853362734288864,
	"grad_norm": 0.21915499866008759,
	"learning_rate": 0.00016766169154228854,
	"loss": 0.4551,
	"step": 1606
	},
	{
	"epoch": 0.8858875413450937,
	"grad_norm": 0.220630943775177,
	"learning_rate": 0.00016757877280265337,
	"loss": 0.4336,
	"step": 1607
	},
	{
	"epoch": 0.886438809261301,
	"grad_norm": 0.2279721051454544,
	"learning_rate": 0.00016749585406301823,
	"loss": 0.4546,
	"step": 1608
	},
	{
	"epoch": 0.8869900771775082,
	"grad_norm": 0.23162703216075897,
	"learning_rate": 0.00016741293532338306,
	"loss": 0.4596,
	"step": 1609
	},
	{
	"epoch": 0.8875413450937155,
	"grad_norm": 0.22968967258930206,
	"learning_rate": 0.00016733001658374792,
	"loss": 0.4457,
	"step": 1610
	},
	{
	"epoch": 0.8880926130099228,
	"grad_norm": 0.23839277029037476,
	"learning_rate": 0.00016724709784411276,
	"loss": 0.444,
	"step": 1611
	},
	{
	"epoch": 0.8886438809261301,
	"grad_norm": 0.2291092872619629,
	"learning_rate": 0.00016716417910447761,
	"loss": 0.4796,
	"step": 1612
	},
	{
	"epoch": 0.8891951488423374,
	"grad_norm": 0.2277524322271347,
	"learning_rate": 0.00016708126036484242,
	"loss": 0.4373,
	"step": 1613
	},
	{
	"epoch": 0.8897464167585446,
	"grad_norm": 0.24553948640823364,
	"learning_rate": 0.00016699834162520728,
	"loss": 0.4948,
	"step": 1614
	},
	{
	"epoch": 0.8902976846747519,
	"grad_norm": 0.21850357949733734,
	"learning_rate": 0.0001669154228855721,
	"loss": 0.4575,
	"step": 1615
	},
	{
	"epoch": 0.8908489525909592,
	"grad_norm": 0.23171943426132202,
	"learning_rate": 0.00016683250414593697,
	"loss": 0.4947,
	"step": 1616
	},
	{
	"epoch": 0.8914002205071665,
	"grad_norm": 0.22626076638698578,
	"learning_rate": 0.0001667495854063018,
	"loss": 0.4619,
	"step": 1617
	},
	{
	"epoch": 0.8919514884233738,
	"grad_norm": 0.23768572509288788,
	"learning_rate": 0.00016666666666666666,
	"loss": 0.4535,
	"step": 1618
	},
	{
	"epoch": 0.892502756339581,
	"grad_norm": 0.2264167070388794,
	"learning_rate": 0.0001665837479270315,
	"loss": 0.467,
	"step": 1619
	},
	{
	"epoch": 0.8930540242557883,
	"grad_norm": 0.2234300673007965,
	"learning_rate": 0.00016650082918739635,
	"loss": 0.4331,
	"step": 1620
	},
	{
	"epoch": 0.8936052921719956,
	"grad_norm": 0.22206327319145203,
	"learning_rate": 0.00016641791044776118,
	"loss": 0.4442,
	"step": 1621
	},
	{
	"epoch": 0.8941565600882029,
	"grad_norm": 0.22858171164989471,
	"learning_rate": 0.00016633499170812604,
	"loss": 0.4611,
	"step": 1622
	},
	{
	"epoch": 0.8947078280044102,
	"grad_norm": 0.24421337246894836,
	"learning_rate": 0.00016625207296849085,
	"loss": 0.4551,
	"step": 1623
	},
	{
	"epoch": 0.8952590959206174,
	"grad_norm": 0.20711436867713928,
	"learning_rate": 0.0001661691542288557,
	"loss": 0.4555,
	"step": 1624
	},
	{
	"epoch": 0.8958103638368247,
	"grad_norm": 0.22994433343410492,
	"learning_rate": 0.00016608623548922054,
	"loss": 0.4745,
	"step": 1625
	},
	{
	"epoch": 0.896361631753032,
	"grad_norm": 0.22984014451503754,
	"learning_rate": 0.0001660033167495854,
	"loss": 0.4613,
	"step": 1626
	},
	{
	"epoch": 0.8969128996692393,
	"grad_norm": 0.2339726984500885,
	"learning_rate": 0.00016592039800995023,
	"loss": 0.469,
	"step": 1627
	},
	{
	"epoch": 0.8974641675854466,
	"grad_norm": 0.23884552717208862,
	"learning_rate": 0.0001658374792703151,
	"loss": 0.4812,
	"step": 1628
	},
	{
	"epoch": 0.8980154355016539,
	"grad_norm": 0.23677459359169006,
	"learning_rate": 0.00016575456053067992,
	"loss": 0.471,
	"step": 1629
	},
	{
	"epoch": 0.898566703417861,
	"grad_norm": 0.22945214807987213,
	"learning_rate": 0.00016567164179104478,
	"loss": 0.4666,
	"step": 1630
	},
	{
	"epoch": 0.8991179713340683,
	"grad_norm": 0.231664776802063,
	"learning_rate": 0.0001655887230514096,
	"loss": 0.4657,
	"step": 1631
	},
	{
	"epoch": 0.8996692392502756,
	"grad_norm": 0.22424204647541046,
	"learning_rate": 0.00016550580431177447,
	"loss": 0.4682,
	"step": 1632
	},
	{
	"epoch": 0.9002205071664829,
	"grad_norm": 0.23469983041286469,
	"learning_rate": 0.00016542288557213928,
	"loss": 0.4761,
	"step": 1633
	},
	{
	"epoch": 0.9007717750826902,
	"grad_norm": 0.2397875040769577,
	"learning_rate": 0.00016533996683250414,
	"loss": 0.4763,
	"step": 1634
	},
	{
	"epoch": 0.9013230429988974,
	"grad_norm": 0.21035277843475342,
	"learning_rate": 0.00016525704809286897,
	"loss": 0.4225,
	"step": 1635
	},
	{
	"epoch": 0.9018743109151047,
	"grad_norm": 0.24221475422382355,
	"learning_rate": 0.00016517412935323383,
	"loss": 0.4666,
	"step": 1636
	},
	{
	"epoch": 0.902425578831312,
	"grad_norm": 0.22903227806091309,
	"learning_rate": 0.00016509121061359866,
	"loss": 0.4699,
	"step": 1637
	},
	{
	"epoch": 0.9029768467475193,
	"grad_norm": 0.23368406295776367,
	"learning_rate": 0.00016500829187396352,
	"loss": 0.4763,
	"step": 1638
	},
	{
	"epoch": 0.9035281146637266,
	"grad_norm": 0.2397768199443817,
	"learning_rate": 0.00016492537313432835,
	"loss": 0.4552,
	"step": 1639
	},
	{
	"epoch": 0.9040793825799338,
	"grad_norm": 0.24322962760925293,
	"learning_rate": 0.0001648424543946932,
	"loss": 0.4441,
	"step": 1640
	},
	{
	"epoch": 0.9046306504961411,
	"grad_norm": 0.21771124005317688,
	"learning_rate": 0.00016475953565505801,
	"loss": 0.4635,
	"step": 1641
	},
	{
	"epoch": 0.9051819184123484,
	"grad_norm": 0.21717268228530884,
	"learning_rate": 0.0001646766169154229,
	"loss": 0.4459,
	"step": 1642
	},
	{
	"epoch": 0.9057331863285557,
	"grad_norm": 0.23191964626312256,
	"learning_rate": 0.0001645936981757877,
	"loss": 0.4605,
	"step": 1643
	},
	{
	"epoch": 0.906284454244763,
	"grad_norm": 0.24638865888118744,
	"learning_rate": 0.00016451077943615254,
	"loss": 0.4477,
	"step": 1644
	},
	{
	"epoch": 0.9068357221609702,
	"grad_norm": 0.24050134420394897,
	"learning_rate": 0.0001644278606965174,
	"loss": 0.4389,
	"step": 1645
	},
	{
	"epoch": 0.9073869900771775,
	"grad_norm": 0.23574888706207275,
	"learning_rate": 0.00016434494195688223,
	"loss": 0.4556,
	"step": 1646
	},
	{
	"epoch": 0.9079382579933848,
	"grad_norm": 0.23960547149181366,
	"learning_rate": 0.0001642620232172471,
	"loss": 0.4599,
	"step": 1647
	},
	{
	"epoch": 0.9084895259095921,
	"grad_norm": 0.22923794388771057,
	"learning_rate": 0.00016417910447761192,
	"loss": 0.4566,
	"step": 1648
	},
	{
	"epoch": 0.9090407938257994,
	"grad_norm": 0.23294423520565033,
	"learning_rate": 0.00016409618573797678,
	"loss": 0.4726,
	"step": 1649
	},
	{
	"epoch": 0.9095920617420066,
	"grad_norm": 0.24964945018291473,
	"learning_rate": 0.00016401326699834158,
	"loss": 0.483,
	"step": 1650
	},
	{
	"epoch": 0.9101433296582139,
	"grad_norm": 0.22729866206645966,
	"learning_rate": 0.00016393034825870644,
	"loss": 0.4708,
	"step": 1651
	},
	{
	"epoch": 0.9106945975744212,
	"grad_norm": 0.22324109077453613,
	"learning_rate": 0.00016384742951907128,
	"loss": 0.4798,
	"step": 1652
	},
	{
	"epoch": 0.9112458654906285,
	"grad_norm": 0.2301269918680191,
	"learning_rate": 0.00016376451077943613,
	"loss": 0.4659,
	"step": 1653
	},
	{
	"epoch": 0.9117971334068358,
	"grad_norm": 0.26973679661750793,
	"learning_rate": 0.00016368159203980097,
	"loss": 0.4743,
	"step": 1654
	},
	{
	"epoch": 0.912348401323043,
	"grad_norm": 0.2236243188381195,
	"learning_rate": 0.00016359867330016583,
	"loss": 0.4464,
	"step": 1655
	},
	{
	"epoch": 0.9128996692392503,
	"grad_norm": 0.23898382484912872,
	"learning_rate": 0.00016351575456053066,
	"loss": 0.4715,
	"step": 1656
	},
	{
	"epoch": 0.9134509371554576,
	"grad_norm": 0.226115882396698,
	"learning_rate": 0.00016343283582089552,
	"loss": 0.452,
	"step": 1657
	},
	{
	"epoch": 0.9140022050716649,
	"grad_norm": 0.24120070040225983,
	"learning_rate": 0.00016334991708126035,
	"loss": 0.4594,
	"step": 1658
	},
	{
	"epoch": 0.9145534729878722,
	"grad_norm": 0.2507602870464325,
	"learning_rate": 0.0001632669983416252,
	"loss": 0.4759,
	"step": 1659
	},
	{
	"epoch": 0.9151047409040793,
	"grad_norm": 0.26350581645965576,
	"learning_rate": 0.00016318407960199,
	"loss": 0.4553,
	"step": 1660
	},
	{
	"epoch": 0.9156560088202866,
	"grad_norm": 0.23043513298034668,
	"learning_rate": 0.00016310116086235487,
	"loss": 0.4754,
	"step": 1661
	},
	{
	"epoch": 0.9162072767364939,
	"grad_norm": 0.22888733446598053,
	"learning_rate": 0.0001630182421227197,
	"loss": 0.4602,
	"step": 1662
	},
	{
	"epoch": 0.9167585446527012,
	"grad_norm": 0.23566976189613342,
	"learning_rate": 0.00016293532338308456,
	"loss": 0.4492,
	"step": 1663
	},
	{
	"epoch": 0.9173098125689085,
	"grad_norm": 0.2403411716222763,
	"learning_rate": 0.0001628524046434494,
	"loss": 0.4529,
	"step": 1664
	},
	{
	"epoch": 0.9178610804851157,
	"grad_norm": 0.24615786969661713,
	"learning_rate": 0.00016276948590381425,
	"loss": 0.4688,
	"step": 1665
	},
	{
	"epoch": 0.918412348401323,
	"grad_norm": 0.2582218647003174,
	"learning_rate": 0.0001626865671641791,
	"loss": 0.4626,
	"step": 1666
	},
	{
	"epoch": 0.9189636163175303,
	"grad_norm": 0.2405799925327301,
	"learning_rate": 0.00016260364842454395,
	"loss": 0.4529,
	"step": 1667
	},
	{
	"epoch": 0.9195148842337376,
	"grad_norm": 0.2288394719362259,
	"learning_rate": 0.00016252072968490878,
	"loss": 0.4513,
	"step": 1668
	},
	{
	"epoch": 0.9200661521499449,
	"grad_norm": 0.22039665281772614,
	"learning_rate": 0.00016243781094527364,
	"loss": 0.4636,
	"step": 1669
	},
	{
	"epoch": 0.9206174200661521,
	"grad_norm": 0.2359505444765091,
	"learning_rate": 0.00016235489220563844,
	"loss": 0.4703,
	"step": 1670
	},
	{
	"epoch": 0.9211686879823594,
	"grad_norm": 0.25222134590148926,
	"learning_rate": 0.0001622719734660033,
	"loss": 0.4729,
	"step": 1671
	},
	{
	"epoch": 0.9217199558985667,
	"grad_norm": 0.24714909493923187,
	"learning_rate": 0.00016218905472636813,
	"loss": 0.4376,
	"step": 1672
	},
	{
	"epoch": 0.922271223814774,
	"grad_norm": 0.271454781293869,
	"learning_rate": 0.000162106135986733,
	"loss": 0.4771,
	"step": 1673
	},
	{
	"epoch": 0.9228224917309813,
	"grad_norm": 0.2408027946949005,
	"learning_rate": 0.00016202321724709782,
	"loss": 0.4581,
	"step": 1674
	},
	{
	"epoch": 0.9233737596471885,
	"grad_norm": 0.25041836500167847,
	"learning_rate": 0.00016194029850746268,
	"loss": 0.4685,
	"step": 1675
	},
	{
	"epoch": 0.9239250275633958,
	"grad_norm": 0.2697443664073944,
	"learning_rate": 0.00016185737976782752,
	"loss": 0.4905,
	"step": 1676
	},
	{
	"epoch": 0.9244762954796031,
	"grad_norm": 0.261924684047699,
	"learning_rate": 0.00016177446102819237,
	"loss": 0.5045,
	"step": 1677
	},
	{
	"epoch": 0.9250275633958104,
	"grad_norm": 0.23671838641166687,
	"learning_rate": 0.0001616915422885572,
	"loss": 0.4477,
	"step": 1678
	},
	{
	"epoch": 0.9255788313120177,
	"grad_norm": 0.26420533657073975,
	"learning_rate": 0.00016160862354892207,
	"loss": 0.4922,
	"step": 1679
	},
	{
	"epoch": 0.9261300992282249,
	"grad_norm": 0.2353939265012741,
	"learning_rate": 0.00016152570480928687,
	"loss": 0.4434,
	"step": 1680
	},
	{
	"epoch": 0.9266813671444322,
	"grad_norm": 0.23843790590763092,
	"learning_rate": 0.00016144278606965173,
	"loss": 0.4567,
	"step": 1681
	},
	{
	"epoch": 0.9272326350606395,
	"grad_norm": 0.22744010388851166,
	"learning_rate": 0.00016135986733001656,
	"loss": 0.4607,
	"step": 1682
	},
	{
	"epoch": 0.9277839029768468,
	"grad_norm": 0.2599264979362488,
	"learning_rate": 0.00016127694859038142,
	"loss": 0.4839,
	"step": 1683
	},
	{
	"epoch": 0.9283351708930541,
	"grad_norm": 0.2337629646062851,
	"learning_rate": 0.00016119402985074625,
	"loss": 0.4697,
	"step": 1684
	},
	{
	"epoch": 0.9288864388092613,
	"grad_norm": 0.2365848571062088,
	"learning_rate": 0.0001611111111111111,
	"loss": 0.4589,
	"step": 1685
	},
	{
	"epoch": 0.9294377067254685,
	"grad_norm": 0.22954298555850983,
	"learning_rate": 0.00016102819237147594,
	"loss": 0.4071,
	"step": 1686
	},
	{
	"epoch": 0.9299889746416758,
	"grad_norm": 0.22945284843444824,
	"learning_rate": 0.00016094527363184078,
	"loss": 0.4432,
	"step": 1687
	},
	{
	"epoch": 0.9305402425578831,
	"grad_norm": 0.2274722009897232,
	"learning_rate": 0.00016086235489220564,
	"loss": 0.4537,
	"step": 1688
	},
	{
	"epoch": 0.9310915104740904,
	"grad_norm": 0.23572379350662231,
	"learning_rate": 0.00016077943615257044,
	"loss": 0.4621,
	"step": 1689
	},
	{
	"epoch": 0.9316427783902976,
	"grad_norm": 0.2582686245441437,
	"learning_rate": 0.0001606965174129353,
	"loss": 0.4845,
	"step": 1690
	},
	{
	"epoch": 0.9321940463065049,
	"grad_norm": 0.252638578414917,
	"learning_rate": 0.00016061359867330013,
	"loss": 0.4583,
	"step": 1691
	},
	{
	"epoch": 0.9327453142227122,
	"grad_norm": 0.24242907762527466,
	"learning_rate": 0.000160530679933665,
	"loss": 0.4659,
	"step": 1692
	},
	{
	"epoch": 0.9332965821389195,
	"grad_norm": 0.25426262617111206,
	"learning_rate": 0.00016044776119402982,
	"loss": 0.4615,
	"step": 1693
	},
	{
	"epoch": 0.9338478500551268,
	"grad_norm": 0.2503727972507477,
	"learning_rate": 0.00016036484245439468,
	"loss": 0.4732,
	"step": 1694
	},
	{
	"epoch": 0.934399117971334,
	"grad_norm": 0.23591485619544983,
	"learning_rate": 0.00016028192371475951,
	"loss": 0.4865,
	"step": 1695
	},
	{
	"epoch": 0.9349503858875413,
	"grad_norm": 0.2307887077331543,
	"learning_rate": 0.00016019900497512437,
	"loss": 0.4694,
	"step": 1696
	},
	{
	"epoch": 0.9355016538037486,
	"grad_norm": 0.24209177494049072,
	"learning_rate": 0.0001601160862354892,
	"loss": 0.4716,
	"step": 1697
	},
	{
	"epoch": 0.9360529217199559,
	"grad_norm": 0.23071332275867462,
	"learning_rate": 0.00016003316749585406,
	"loss": 0.4548,
	"step": 1698
	},
	{
	"epoch": 0.9366041896361632,
	"grad_norm": 0.2404324859380722,
	"learning_rate": 0.00015995024875621887,
	"loss": 0.4614,
	"step": 1699
	},
	{
	"epoch": 0.9371554575523704,
	"grad_norm": 0.24288049340248108,
	"learning_rate": 0.00015986733001658373,
	"loss": 0.477,
	"step": 1700
	},
	{
	"epoch": 0.9377067254685777,
	"grad_norm": 0.2315543293952942,
	"learning_rate": 0.00015978441127694856,
	"loss": 0.4294,
	"step": 1701
	},
	{
	"epoch": 0.938257993384785,
	"grad_norm": 0.24326400458812714,
	"learning_rate": 0.00015970149253731342,
	"loss": 0.4751,
	"step": 1702
	},
	{
	"epoch": 0.9388092613009923,
	"grad_norm": 0.23202817142009735,
	"learning_rate": 0.00015961857379767825,
	"loss": 0.4539,
	"step": 1703
	},
	{
	"epoch": 0.9393605292171996,
	"grad_norm": 0.24364544451236725,
	"learning_rate": 0.0001595356550580431,
	"loss": 0.4742,
	"step": 1704
	},
	{
	"epoch": 0.9399117971334069,
	"grad_norm": 0.24248524010181427,
	"learning_rate": 0.00015945273631840794,
	"loss": 0.4335,
	"step": 1705
	},
	{
	"epoch": 0.9404630650496141,
	"grad_norm": 0.2423916757106781,
	"learning_rate": 0.0001593698175787728,
	"loss": 0.4825,
	"step": 1706
	},
	{
	"epoch": 0.9410143329658214,
	"grad_norm": 0.22844377160072327,
	"learning_rate": 0.00015928689883913763,
	"loss": 0.468,
	"step": 1707
	},
	{
	"epoch": 0.9415656008820287,
	"grad_norm": 0.23481746017932892,
	"learning_rate": 0.0001592039800995025,
	"loss": 0.459,
	"step": 1708
	},
	{
	"epoch": 0.942116868798236,
	"grad_norm": 0.23676711320877075,
	"learning_rate": 0.0001591210613598673,
	"loss": 0.4748,
	"step": 1709
	},
	{
	"epoch": 0.9426681367144433,
	"grad_norm": 0.23470185697078705,
	"learning_rate": 0.00015903814262023216,
	"loss": 0.4538,
	"step": 1710
	},
	{
	"epoch": 0.9432194046306505,
	"grad_norm": 0.26180773973464966,
	"learning_rate": 0.000158955223880597,
	"loss": 0.4737,
	"step": 1711
	},
	{
	"epoch": 0.9437706725468578,
	"grad_norm": 0.23656126856803894,
	"learning_rate": 0.00015887230514096185,
	"loss": 0.4716,
	"step": 1712
	},
	{
	"epoch": 0.9443219404630651,
	"grad_norm": 0.2338191270828247,
	"learning_rate": 0.00015878938640132668,
	"loss": 0.4712,
	"step": 1713
	},
	{
	"epoch": 0.9448732083792724,
	"grad_norm": 0.2348823845386505,
	"learning_rate": 0.00015870646766169154,
	"loss": 0.4645,
	"step": 1714
	},
	{
	"epoch": 0.9454244762954797,
	"grad_norm": 0.23620596528053284,
	"learning_rate": 0.00015862354892205637,
	"loss": 0.4456,
	"step": 1715
	},
	{
	"epoch": 0.9459757442116868,
	"grad_norm": 0.25021445751190186,
	"learning_rate": 0.00015854063018242123,
	"loss": 0.4807,
	"step": 1716
	},
	{
	"epoch": 0.9465270121278941,
	"grad_norm": 0.23087383806705475,
	"learning_rate": 0.00015845771144278606,
	"loss": 0.4648,
	"step": 1717
	},
	{
	"epoch": 0.9470782800441014,
	"grad_norm": 0.23474477231502533,
	"learning_rate": 0.00015837479270315092,
	"loss": 0.4672,
	"step": 1718
	},
	{
	"epoch": 0.9476295479603087,
	"grad_norm": 0.2543323338031769,
	"learning_rate": 0.00015829187396351573,
	"loss": 0.473,
	"step": 1719
	},
	{
	"epoch": 0.948180815876516,
	"grad_norm": 0.2378506064414978,
	"learning_rate": 0.00015820895522388059,
	"loss": 0.4569,
	"step": 1720
	},
	{
	"epoch": 0.9487320837927232,
	"grad_norm": 0.23003467917442322,
	"learning_rate": 0.00015812603648424542,
	"loss": 0.4621,
	"step": 1721
	},
	{
	"epoch": 0.9492833517089305,
	"grad_norm": 0.24162529408931732,
	"learning_rate": 0.00015804311774461028,
	"loss": 0.445,
	"step": 1722
	},
	{
	"epoch": 0.9498346196251378,
	"grad_norm": 0.23978053033351898,
	"learning_rate": 0.0001579601990049751,
	"loss": 0.4753,
	"step": 1723
	},
	{
	"epoch": 0.9503858875413451,
	"grad_norm": 0.23133328557014465,
	"learning_rate": 0.00015787728026533997,
	"loss": 0.4735,
	"step": 1724
	},
	{
	"epoch": 0.9509371554575524,
	"grad_norm": 0.20942679047584534,
	"learning_rate": 0.0001577943615257048,
	"loss": 0.4208,
	"step": 1725
	},
	{
	"epoch": 0.9514884233737596,
	"grad_norm": 0.23965676128864288,
	"learning_rate": 0.00015771144278606966,
	"loss": 0.4758,
	"step": 1726
	},
	{
	"epoch": 0.9520396912899669,
	"grad_norm": 0.23537394404411316,
	"learning_rate": 0.0001576285240464345,
	"loss": 0.4276,
	"step": 1727
	},
	{
	"epoch": 0.9525909592061742,
	"grad_norm": 0.24360457062721252,
	"learning_rate": 0.00015754560530679935,
	"loss": 0.4686,
	"step": 1728
	},
	{
	"epoch": 0.9531422271223815,
	"grad_norm": 0.22790101170539856,
	"learning_rate": 0.00015746268656716416,
	"loss": 0.4501,
	"step": 1729
	},
	{
	"epoch": 0.9536934950385888,
	"grad_norm": 0.23862150311470032,
	"learning_rate": 0.00015737976782752901,
	"loss": 0.4545,
	"step": 1730
	},
	{
	"epoch": 0.954244762954796,
	"grad_norm": 0.24378471076488495,
	"learning_rate": 0.00015729684908789385,
	"loss": 0.4912,
	"step": 1731
	},
	{
	"epoch": 0.9547960308710033,
	"grad_norm": 0.23474174737930298,
	"learning_rate": 0.00015721393034825868,
	"loss": 0.4692,
	"step": 1732
	},
	{
	"epoch": 0.9553472987872106,
	"grad_norm": 0.24299736320972443,
	"learning_rate": 0.00015713101160862354,
	"loss": 0.4582,
	"step": 1733
	},
	{
	"epoch": 0.9558985667034179,
	"grad_norm": 0.23355722427368164,
	"learning_rate": 0.00015704809286898837,
	"loss": 0.4579,
	"step": 1734
	},
	{
	"epoch": 0.9564498346196252,
	"grad_norm": 0.2307385504245758,
	"learning_rate": 0.00015696517412935323,
	"loss": 0.4276,
	"step": 1735
	},
	{
	"epoch": 0.9570011025358324,
	"grad_norm": 0.25666573643684387,
	"learning_rate": 0.00015688225538971806,
	"loss": 0.4488,
	"step": 1736
	},
	{
	"epoch": 0.9575523704520397,
	"grad_norm": 0.2472536265850067,
	"learning_rate": 0.00015679933665008292,
	"loss": 0.4635,
	"step": 1737
	},
	{
	"epoch": 0.958103638368247,
	"grad_norm": 0.23561540246009827,
	"learning_rate": 0.00015671641791044772,
	"loss": 0.456,
	"step": 1738
	},
	{
	"epoch": 0.9586549062844543,
	"grad_norm": 0.2695865333080292,
	"learning_rate": 0.00015663349917081258,
	"loss": 0.4894,
	"step": 1739
	},
	{
	"epoch": 0.9592061742006616,
	"grad_norm": 0.23878848552703857,
	"learning_rate": 0.00015655058043117742,
	"loss": 0.4945,
	"step": 1740
	},
	{
	"epoch": 0.9597574421168688,
	"grad_norm": 0.2417537271976471,
	"learning_rate": 0.00015646766169154228,
	"loss": 0.4456,
	"step": 1741
	},
	{
	"epoch": 0.960308710033076,
	"grad_norm": 0.258645623922348,
	"learning_rate": 0.0001563847429519071,
	"loss": 0.4767,
	"step": 1742
	},
	{
	"epoch": 0.9608599779492834,
	"grad_norm": 0.23502197861671448,
	"learning_rate": 0.00015630182421227197,
	"loss": 0.4636,
	"step": 1743
	},
	{
	"epoch": 0.9614112458654906,
	"grad_norm": 0.22951334714889526,
	"learning_rate": 0.0001562189054726368,
	"loss": 0.4329,
	"step": 1744
	},
	{
	"epoch": 0.961962513781698,
	"grad_norm": 0.24502499401569366,
	"learning_rate": 0.00015613598673300166,
	"loss": 0.4452,
	"step": 1745
	},
	{
	"epoch": 0.9625137816979051,
	"grad_norm": 0.24659104645252228,
	"learning_rate": 0.0001560530679933665,
	"loss": 0.4489,
	"step": 1746
	},
	{
	"epoch": 0.9630650496141124,
	"grad_norm": 0.2458224892616272,
	"learning_rate": 0.00015597014925373135,
	"loss": 0.4903,
	"step": 1747
	},
	{
	"epoch": 0.9636163175303197,
	"grad_norm": 0.24105043709278107,
	"learning_rate": 0.00015588723051409615,
	"loss": 0.4738,
	"step": 1748
	},
	{
	"epoch": 0.964167585446527,
	"grad_norm": 0.2505391836166382,
	"learning_rate": 0.000155804311774461,
	"loss": 0.4643,
	"step": 1749
	},
	{
	"epoch": 0.9647188533627343,
	"grad_norm": 0.23488488793373108,
	"learning_rate": 0.00015572139303482584,
	"loss": 0.4731,
	"step": 1750
	},
	{
	"epoch": 0.9652701212789415,
	"grad_norm": 0.2317710667848587,
	"learning_rate": 0.0001556384742951907,
	"loss": 0.4736,
	"step": 1751
	},
	{
	"epoch": 0.9658213891951488,
	"grad_norm": 0.23009353876113892,
	"learning_rate": 0.00015555555555555554,
	"loss": 0.4512,
	"step": 1752
	},
	{
	"epoch": 0.9663726571113561,
	"grad_norm": 0.24625705182552338,
	"learning_rate": 0.0001554726368159204,
	"loss": 0.455,
	"step": 1753
	},
	{
	"epoch": 0.9669239250275634,
	"grad_norm": 0.2400812804698944,
	"learning_rate": 0.00015538971807628523,
	"loss": 0.4725,
	"step": 1754
	},
	{
	"epoch": 0.9674751929437707,
	"grad_norm": 0.26011791825294495,
	"learning_rate": 0.00015530679933665009,
	"loss": 0.4868,
	"step": 1755
	},
	{
	"epoch": 0.9680264608599779,
	"grad_norm": 0.2298017144203186,
	"learning_rate": 0.0001552238805970149,
	"loss": 0.4559,
	"step": 1756
	},
	{
	"epoch": 0.9685777287761852,
	"grad_norm": 0.23378150165081024,
	"learning_rate": 0.00015514096185737978,
	"loss": 0.4511,
	"step": 1757
	},
	{
	"epoch": 0.9691289966923925,
	"grad_norm": 0.24460946023464203,
	"learning_rate": 0.00015505804311774458,
	"loss": 0.4571,
	"step": 1758
	},
	{
	"epoch": 0.9696802646085998,
	"grad_norm": 0.241620734333992,
	"learning_rate": 0.00015497512437810944,
	"loss": 0.4743,
	"step": 1759
	},
	{
	"epoch": 0.9702315325248071,
	"grad_norm": 0.23285698890686035,
	"learning_rate": 0.00015489220563847427,
	"loss": 0.4619,
	"step": 1760
	},
	{
	"epoch": 0.9707828004410143,
	"grad_norm": 0.24175579845905304,
	"learning_rate": 0.00015480928689883913,
	"loss": 0.4544,
	"step": 1761
	},
	{
	"epoch": 0.9713340683572216,
	"grad_norm": 0.22799162566661835,
	"learning_rate": 0.00015472636815920396,
	"loss": 0.4679,
	"step": 1762
	},
	{
	"epoch": 0.9718853362734289,
	"grad_norm": 0.23015514016151428,
	"learning_rate": 0.00015464344941956882,
	"loss": 0.4867,
	"step": 1763
	},
	{
	"epoch": 0.9724366041896362,
	"grad_norm": 0.22983665764331818,
	"learning_rate": 0.00015456053067993366,
	"loss": 0.4608,
	"step": 1764
	},
	{
	"epoch": 0.9729878721058435,
	"grad_norm": 0.22515413165092468,
	"learning_rate": 0.00015447761194029851,
	"loss": 0.4578,
	"step": 1765
	},
	{
	"epoch": 0.9735391400220507,
	"grad_norm": 0.23187264800071716,
	"learning_rate": 0.00015439469320066332,
	"loss": 0.4253,
	"step": 1766
	},
	{
	"epoch": 0.974090407938258,
	"grad_norm": 0.23280374705791473,
	"learning_rate": 0.00015431177446102818,
	"loss": 0.4473,
	"step": 1767
	},
	{
	"epoch": 0.9746416758544653,
	"grad_norm": 0.2500572204589844,
	"learning_rate": 0.000154228855721393,
	"loss": 0.4519,
	"step": 1768
	},
	{
	"epoch": 0.9751929437706726,
	"grad_norm": 0.23001956939697266,
	"learning_rate": 0.00015414593698175787,
	"loss": 0.4708,
	"step": 1769
	},
	{
	"epoch": 0.9757442116868799,
	"grad_norm": 0.23875866830348969,
	"learning_rate": 0.0001540630182421227,
	"loss": 0.4679,
	"step": 1770
	},
	{
	"epoch": 0.976295479603087,
	"grad_norm": 0.22990469634532928,
	"learning_rate": 0.00015398009950248756,
	"loss": 0.4632,
	"step": 1771
	},
	{
	"epoch": 0.9768467475192943,
	"grad_norm": 0.24912653863430023,
	"learning_rate": 0.0001538971807628524,
	"loss": 0.4569,
	"step": 1772
	},
	{
	"epoch": 0.9773980154355016,
	"grad_norm": 0.2521923780441284,
	"learning_rate": 0.00015381426202321725,
	"loss": 0.4696,
	"step": 1773
	},
	{
	"epoch": 0.9779492833517089,
	"grad_norm": 0.23184111714363098,
	"learning_rate": 0.00015373134328358208,
	"loss": 0.4518,
	"step": 1774
	},
	{
	"epoch": 0.9785005512679162,
	"grad_norm": 0.22830599546432495,
	"learning_rate": 0.0001536484245439469,
	"loss": 0.4511,
	"step": 1775
	},
	{
	"epoch": 0.9790518191841234,
	"grad_norm": 0.24908460676670074,
	"learning_rate": 0.00015356550580431175,
	"loss": 0.4556,
	"step": 1776
	},
	{
	"epoch": 0.9796030871003307,
	"grad_norm": 0.2542704939842224,
	"learning_rate": 0.00015348258706467658,
	"loss": 0.4876,
	"step": 1777
	},
	{
	"epoch": 0.980154355016538,
	"grad_norm": 0.23091669380664825,
	"learning_rate": 0.00015339966832504144,
	"loss": 0.4502,
	"step": 1778
	},
	{
	"epoch": 0.9807056229327453,
	"grad_norm": 0.24079181253910065,
	"learning_rate": 0.00015331674958540627,
	"loss": 0.4549,
	"step": 1779
	},
	{
	"epoch": 0.9812568908489526,
	"grad_norm": 0.224042147397995,
	"learning_rate": 0.00015323383084577113,
	"loss": 0.4568,
	"step": 1780
	},
	{
	"epoch": 0.9818081587651599,
	"grad_norm": 0.23204737901687622,
	"learning_rate": 0.00015315091210613596,
	"loss": 0.4516,
	"step": 1781
	},
	{
	"epoch": 0.9823594266813671,
	"grad_norm": 0.24899733066558838,
	"learning_rate": 0.00015306799336650082,
	"loss": 0.4422,
	"step": 1782
	},
	{
	"epoch": 0.9829106945975744,
	"grad_norm": 0.2473718822002411,
	"learning_rate": 0.00015298507462686565,
	"loss": 0.4698,
	"step": 1783
	},
	{
	"epoch": 0.9834619625137817,
	"grad_norm": 0.23376363515853882,
	"learning_rate": 0.0001529021558872305,
	"loss": 0.4735,
	"step": 1784
	},
	{
	"epoch": 0.984013230429989,
	"grad_norm": 0.21901825070381165,
	"learning_rate": 0.00015281923714759532,
	"loss": 0.4055,
	"step": 1785
	},
	{
	"epoch": 0.9845644983461963,
	"grad_norm": 0.24539053440093994,
	"learning_rate": 0.00015273631840796018,
	"loss": 0.477,
	"step": 1786
	},
	{
	"epoch": 0.9851157662624035,
	"grad_norm": 0.2802634537220001,
	"learning_rate": 0.000152653399668325,
	"loss": 0.4924,
	"step": 1787
	},
	{
	"epoch": 0.9856670341786108,
	"grad_norm": 0.2387421429157257,
	"learning_rate": 0.00015257048092868987,
	"loss": 0.4671,
	"step": 1788
	},
	{
	"epoch": 0.9862183020948181,
	"grad_norm": 0.22999261319637299,
	"learning_rate": 0.0001524875621890547,
	"loss": 0.4682,
	"step": 1789
	},
	{
	"epoch": 0.9867695700110254,
	"grad_norm": 0.2567140758037567,
	"learning_rate": 0.00015240464344941956,
	"loss": 0.4395,
	"step": 1790
	},
	{
	"epoch": 0.9873208379272327,
	"grad_norm": 0.24533671140670776,
	"learning_rate": 0.0001523217247097844,
	"loss": 0.4415,
	"step": 1791
	},
	{
	"epoch": 0.9878721058434399,
	"grad_norm": 0.24147699773311615,
	"learning_rate": 0.00015223880597014925,
	"loss": 0.4731,
	"step": 1792
	},
	{
	"epoch": 0.9884233737596472,
	"grad_norm": 0.23697462677955627,
	"learning_rate": 0.00015215588723051408,
	"loss": 0.451,
	"step": 1793
	},
	{
	"epoch": 0.9889746416758545,
	"grad_norm": 0.2380775809288025,
	"learning_rate": 0.00015207296849087894,
	"loss": 0.452,
	"step": 1794
	},
	{
	"epoch": 0.9895259095920618,
	"grad_norm": 0.24654051661491394,
	"learning_rate": 0.00015199004975124375,
	"loss": 0.4724,
	"step": 1795
	},
	{
	"epoch": 0.9900771775082691,
	"grad_norm": 0.2548507750034332,
	"learning_rate": 0.0001519071310116086,
	"loss": 0.4578,
	"step": 1796
	},
	{
	"epoch": 0.9906284454244763,
	"grad_norm": 0.23419903218746185,
	"learning_rate": 0.00015182421227197344,
	"loss": 0.4627,
	"step": 1797
	},
	{
	"epoch": 0.9911797133406836,
	"grad_norm": 0.2721438705921173,
	"learning_rate": 0.0001517412935323383,
	"loss": 0.4704,
	"step": 1798
	},
	{
	"epoch": 0.9917309812568909,
	"grad_norm": 0.22823266685009003,
	"learning_rate": 0.00015165837479270313,
	"loss": 0.4402,
	"step": 1799
	},
	{
	"epoch": 0.9922822491730982,
	"grad_norm": 0.3155699372291565,
	"learning_rate": 0.000151575456053068,
	"loss": 0.4537,
	"step": 1800
	},
	{
	"epoch": 0.9928335170893055,
	"grad_norm": 0.24750587344169617,
	"learning_rate": 0.00015149253731343282,
	"loss": 0.4674,
	"step": 1801
	},
	{
	"epoch": 0.9933847850055126,
	"grad_norm": 0.23167037963867188,
	"learning_rate": 0.00015140961857379768,
	"loss": 0.4506,
	"step": 1802
	},
	{
	"epoch": 0.9939360529217199,
	"grad_norm": 0.24583961069583893,
	"learning_rate": 0.0001513266998341625,
	"loss": 0.4809,
	"step": 1803
	},
	{
	"epoch": 0.9944873208379272,
	"grad_norm": 0.23894868791103363,
	"learning_rate": 0.00015124378109452737,
	"loss": 0.4729,
	"step": 1804
	},
	{
	"epoch": 0.9950385887541345,
	"grad_norm": 0.23357604444026947,
	"learning_rate": 0.00015116086235489218,
	"loss": 0.4608,
	"step": 1805
	},
	{
	"epoch": 0.9955898566703418,
	"grad_norm": 0.2364039272069931,
	"learning_rate": 0.00015107794361525703,
	"loss": 0.4803,
	"step": 1806
	},
	{
	"epoch": 0.996141124586549,
	"grad_norm": 0.23034816980361938,
	"learning_rate": 0.00015099502487562187,
	"loss": 0.4687,
	"step": 1807
	},
	{
	"epoch": 0.9966923925027563,
	"grad_norm": 0.23677074909210205,
	"learning_rate": 0.00015091210613598673,
	"loss": 0.4591,
	"step": 1808
	},
	{
	"epoch": 0.9972436604189636,
	"grad_norm": 0.24638359248638153,
	"learning_rate": 0.00015082918739635156,
	"loss": 0.462,
	"step": 1809
	},
	{
	"epoch": 0.9977949283351709,
	"grad_norm": 0.23346304893493652,
	"learning_rate": 0.00015074626865671642,
	"loss": 0.4245,
	"step": 1810
	},
	{
	"epoch": 0.9983461962513782,
	"grad_norm": 0.2604617774486542,
	"learning_rate": 0.00015066334991708125,
	"loss": 0.4665,
	"step": 1811
	},
	{
	"epoch": 0.9988974641675854,
	"grad_norm": 0.22308942675590515,
	"learning_rate": 0.0001505804311774461,
	"loss": 0.4671,
	"step": 1812
	},
	{
	"epoch": 0.9994487320837927,
	"grad_norm": 0.2405402511358261,
	"learning_rate": 0.00015049751243781094,
	"loss": 0.4808,
	"step": 1813
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.2668411433696747,
	"learning_rate": 0.0001504145936981758,
	"loss": 0.4683,
	"step": 1814
	},
	{
	"epoch": 1.0005512679162072,
	"grad_norm": 0.23000217974185944,
	"learning_rate": 0.0001503316749585406,
	"loss": 0.3736,
	"step": 1815
	},
	{
	"epoch": 1.0011025358324146,
	"grad_norm": 0.2307773381471634,
	"learning_rate": 0.00015024875621890546,
	"loss": 0.3834,
	"step": 1816
	},
	{
	"epoch": 1.0016538037486218,
	"grad_norm": 0.23737002909183502,
	"learning_rate": 0.0001501658374792703,
	"loss": 0.3863,
	"step": 1817
	},
	{
	"epoch": 1.0022050716648292,
	"grad_norm": 0.2283601313829422,
	"learning_rate": 0.00015008291873963515,
	"loss": 0.3837,
	"step": 1818
	},
	{
	"epoch": 1.0027563395810364,
	"grad_norm": 0.21821331977844238,
	"learning_rate": 0.00015,
	"loss": 0.4085,
	"step": 1819
	},
	{
	"epoch": 1.0033076074972436,
	"grad_norm": 0.2391849011182785,
	"learning_rate": 0.00014991708126036482,
	"loss": 0.4207,
	"step": 1820
	},
	{
	"epoch": 1.003858875413451,
	"grad_norm": 0.23875446617603302,
	"learning_rate": 0.00014983416252072968,
	"loss": 0.4013,
	"step": 1821
	},
	{
	"epoch": 1.0044101433296582,
	"grad_norm": 0.24305221438407898,
	"learning_rate": 0.0001497512437810945,
	"loss": 0.4106,
	"step": 1822
	},
	{
	"epoch": 1.0049614112458656,
	"grad_norm": 0.21675904095172882,
	"learning_rate": 0.00014966832504145937,
	"loss": 0.3744,
	"step": 1823
	},
	{
	"epoch": 1.0055126791620728,
	"grad_norm": 0.23470553755760193,
	"learning_rate": 0.0001495854063018242,
	"loss": 0.3997,
	"step": 1824
	},
	{
	"epoch": 1.00606394707828,
	"grad_norm": 0.2310658097267151,
	"learning_rate": 0.00014950248756218903,
	"loss": 0.411,
	"step": 1825
	},
	{
	"epoch": 1.0066152149944874,
	"grad_norm": 0.23178675770759583,
	"learning_rate": 0.0001494195688225539,
	"loss": 0.3884,
	"step": 1826
	},
	{
	"epoch": 1.0071664829106945,
	"grad_norm": 0.23985427618026733,
	"learning_rate": 0.00014933665008291872,
	"loss": 0.4026,
	"step": 1827
	},
	{
	"epoch": 1.007717750826902,
	"grad_norm": 0.228210911154747,
	"learning_rate": 0.00014925373134328358,
	"loss": 0.3952,
	"step": 1828
	},
	{
	"epoch": 1.0082690187431091,
	"grad_norm": 0.22802165150642395,
	"learning_rate": 0.00014917081260364842,
	"loss": 0.4194,
	"step": 1829
	},
	{
	"epoch": 1.0088202866593163,
	"grad_norm": 0.2423812299966812,
	"learning_rate": 0.00014908789386401325,
	"loss": 0.4282,
	"step": 1830
	},
	{
	"epoch": 1.0093715545755237,
	"grad_norm": 0.23589813709259033,
	"learning_rate": 0.0001490049751243781,
	"loss": 0.3911,
	"step": 1831
	},
	{
	"epoch": 1.009922822491731,
	"grad_norm": 0.21917280554771423,
	"learning_rate": 0.00014892205638474294,
	"loss": 0.3723,
	"step": 1832
	},
	{
	"epoch": 1.0104740904079383,
	"grad_norm": 0.22650456428527832,
	"learning_rate": 0.0001488391376451078,
	"loss": 0.3962,
	"step": 1833
	},
	{
	"epoch": 1.0110253583241455,
	"grad_norm": 0.23731641471385956,
	"learning_rate": 0.00014875621890547263,
	"loss": 0.4235,
	"step": 1834
	},
	{
	"epoch": 1.0115766262403527,
	"grad_norm": 0.21167220175266266,
	"learning_rate": 0.00014867330016583746,
	"loss": 0.3786,
	"step": 1835
	},
	{
	"epoch": 1.0121278941565601,
	"grad_norm": 0.23506543040275574,
	"learning_rate": 0.00014859038142620232,
	"loss": 0.4098,
	"step": 1836
	},
	{
	"epoch": 1.0126791620727673,
	"grad_norm": 0.25581830739974976,
	"learning_rate": 0.00014850746268656715,
	"loss": 0.4052,
	"step": 1837
	},
	{
	"epoch": 1.0132304299889747,
	"grad_norm": 0.2236202359199524,
	"learning_rate": 0.000148424543946932,
	"loss": 0.3975,
	"step": 1838
	},
	{
	"epoch": 1.013781697905182,
	"grad_norm": 0.21659554541110992,
	"learning_rate": 0.00014834162520729684,
	"loss": 0.3843,
	"step": 1839
	},
	{
	"epoch": 1.014332965821389,
	"grad_norm": 0.22564005851745605,
	"learning_rate": 0.00014825870646766168,
	"loss": 0.4013,
	"step": 1840
	},
	{
	"epoch": 1.0148842337375965,
	"grad_norm": 0.225655660033226,
	"learning_rate": 0.00014817578772802654,
	"loss": 0.3976,
	"step": 1841
	},
	{
	"epoch": 1.0154355016538037,
	"grad_norm": 0.21095581352710724,
	"learning_rate": 0.00014809286898839137,
	"loss": 0.3812,
	"step": 1842
	},
	{
	"epoch": 1.015986769570011,
	"grad_norm": 0.23854820430278778,
	"learning_rate": 0.0001480099502487562,
	"loss": 0.4089,
	"step": 1843
	},
	{
	"epoch": 1.0165380374862183,
	"grad_norm": 0.22585038840770721,
	"learning_rate": 0.00014792703150912103,
	"loss": 0.4193,
	"step": 1844
	},
	{
	"epoch": 1.0170893054024255,
	"grad_norm": 0.2209796905517578,
	"learning_rate": 0.0001478441127694859,
	"loss": 0.3989,
	"step": 1845
	},
	{
	"epoch": 1.017640573318633,
	"grad_norm": 0.2113056629896164,
	"learning_rate": 0.00014776119402985072,
	"loss": 0.4089,
	"step": 1846
	},
	{
	"epoch": 1.01819184123484,
	"grad_norm": 0.22150270640850067,
	"learning_rate": 0.00014767827529021558,
	"loss": 0.3946,
	"step": 1847
	},
	{
	"epoch": 1.0187431091510475,
	"grad_norm": 0.22819051146507263,
	"learning_rate": 0.00014759535655058041,
	"loss": 0.3914,
	"step": 1848
	},
	{
	"epoch": 1.0192943770672547,
	"grad_norm": 0.21912482380867004,
	"learning_rate": 0.00014751243781094525,
	"loss": 0.3621,
	"step": 1849
	},
	{
	"epoch": 1.0198456449834619,
	"grad_norm": 0.22611315548419952,
	"learning_rate": 0.0001474295190713101,
	"loss": 0.386,
	"step": 1850
	},
	{
	"epoch": 1.0203969128996693,
	"grad_norm": 0.225437730550766,
	"learning_rate": 0.00014734660033167494,
	"loss": 0.4115,
	"step": 1851
	},
	{
	"epoch": 1.0209481808158765,
	"grad_norm": 0.22555771470069885,
	"learning_rate": 0.0001472636815920398,
	"loss": 0.4121,
	"step": 1852
	},
	{
	"epoch": 1.0214994487320839,
	"grad_norm": 0.22996987402439117,
	"learning_rate": 0.00014718076285240463,
	"loss": 0.3799,
	"step": 1853
	},
	{
	"epoch": 1.022050716648291,
	"grad_norm": 0.227546826004982,
	"learning_rate": 0.00014709784411276946,
	"loss": 0.406,
	"step": 1854
	},
	{
	"epoch": 1.0226019845644982,
	"grad_norm": 0.21384532749652863,
	"learning_rate": 0.00014701492537313432,
	"loss": 0.393,
	"step": 1855
	},
	{
	"epoch": 1.0231532524807057,
	"grad_norm": 0.21834981441497803,
	"learning_rate": 0.00014693200663349915,
	"loss": 0.3737,
	"step": 1856
	},
	{
	"epoch": 1.0237045203969128,
	"grad_norm": 0.2231069952249527,
	"learning_rate": 0.000146849087893864,
	"loss": 0.3755,
	"step": 1857
	},
	{
	"epoch": 1.0242557883131203,
	"grad_norm": 0.22336961328983307,
	"learning_rate": 0.00014676616915422884,
	"loss": 0.3936,
	"step": 1858
	},
	{
	"epoch": 1.0248070562293274,
	"grad_norm": 0.22250871360301971,
	"learning_rate": 0.00014668325041459367,
	"loss": 0.4021,
	"step": 1859
	},
	{
	"epoch": 1.0253583241455346,
	"grad_norm": 0.21691983938217163,
	"learning_rate": 0.00014660033167495853,
	"loss": 0.375,
	"step": 1860
	},
	{
	"epoch": 1.025909592061742,
	"grad_norm": 0.2267792969942093,
	"learning_rate": 0.00014651741293532337,
	"loss": 0.4089,
	"step": 1861
	},
	{
	"epoch": 1.0264608599779492,
	"grad_norm": 0.22236919403076172,
	"learning_rate": 0.00014643449419568823,
	"loss": 0.384,
	"step": 1862
	},
	{
	"epoch": 1.0270121278941566,
	"grad_norm": 0.2280534952878952,
	"learning_rate": 0.00014635157545605306,
	"loss": 0.3982,
	"step": 1863
	},
	{
	"epoch": 1.0275633958103638,
	"grad_norm": 0.23323461413383484,
	"learning_rate": 0.0001462686567164179,
	"loss": 0.3947,
	"step": 1864
	},
	{
	"epoch": 1.028114663726571,
	"grad_norm": 0.2187027931213379,
	"learning_rate": 0.00014618573797678275,
	"loss": 0.3758,
	"step": 1865
	},
	{
	"epoch": 1.0286659316427784,
	"grad_norm": 0.2233375459909439,
	"learning_rate": 0.00014610281923714758,
	"loss": 0.3889,
	"step": 1866
	},
	{
	"epoch": 1.0292171995589856,
	"grad_norm": 0.23430676758289337,
	"learning_rate": 0.00014601990049751244,
	"loss": 0.3919,
	"step": 1867
	},
	{
	"epoch": 1.029768467475193,
	"grad_norm": 0.22947613894939423,
	"learning_rate": 0.00014593698175787727,
	"loss": 0.3886,
	"step": 1868
	},
	{
	"epoch": 1.0303197353914002,
	"grad_norm": 0.23334287106990814,
	"learning_rate": 0.0001458540630182421,
	"loss": 0.413,
	"step": 1869
	},
	{
	"epoch": 1.0308710033076074,
	"grad_norm": 0.2178686261177063,
	"learning_rate": 0.00014577114427860696,
	"loss": 0.393,
	"step": 1870
	},
	{
	"epoch": 1.0314222712238148,
	"grad_norm": 0.2510049045085907,
	"learning_rate": 0.0001456882255389718,
	"loss": 0.413,
	"step": 1871
	},
	{
	"epoch": 1.031973539140022,
	"grad_norm": 0.23210124671459198,
	"learning_rate": 0.00014560530679933665,
	"loss": 0.3817,
	"step": 1872
	},
	{
	"epoch": 1.0325248070562294,
	"grad_norm": 0.23246748745441437,
	"learning_rate": 0.00014552238805970149,
	"loss": 0.4026,
	"step": 1873
	},
	{
	"epoch": 1.0330760749724366,
	"grad_norm": 0.22752533853054047,
	"learning_rate": 0.00014543946932006632,
	"loss": 0.411,
	"step": 1874
	},
	{
	"epoch": 1.0336273428886438,
	"grad_norm": 0.21562816202640533,
	"learning_rate": 0.00014535655058043118,
	"loss": 0.3966,
	"step": 1875
	},
	{
	"epoch": 1.0341786108048512,
	"grad_norm": 0.227711021900177,
	"learning_rate": 0.000145273631840796,
	"loss": 0.4008,
	"step": 1876
	},
	{
	"epoch": 1.0347298787210584,
	"grad_norm": 0.22064116597175598,
	"learning_rate": 0.00014519071310116087,
	"loss": 0.3855,
	"step": 1877
	},
	{
	"epoch": 1.0352811466372658,
	"grad_norm": 0.22657108306884766,
	"learning_rate": 0.0001451077943615257,
	"loss": 0.4147,
	"step": 1878
	},
	{
	"epoch": 1.035832414553473,
	"grad_norm": 0.220686674118042,
	"learning_rate": 0.00014502487562189053,
	"loss": 0.3953,
	"step": 1879
	},
	{
	"epoch": 1.0363836824696802,
	"grad_norm": 0.21113237738609314,
	"learning_rate": 0.0001449419568822554,
	"loss": 0.3908,
	"step": 1880
	},
	{
	"epoch": 1.0369349503858876,
	"grad_norm": 0.21575047075748444,
	"learning_rate": 0.00014485903814262022,
	"loss": 0.3917,
	"step": 1881
	},
	{
	"epoch": 1.0374862183020948,
	"grad_norm": 0.22273024916648865,
	"learning_rate": 0.00014477611940298508,
	"loss": 0.4007,
	"step": 1882
	},
	{
	"epoch": 1.0380374862183022,
	"grad_norm": 0.22036762535572052,
	"learning_rate": 0.00014469320066334991,
	"loss": 0.3797,
	"step": 1883
	},
	{
	"epoch": 1.0385887541345094,
	"grad_norm": 0.22144779562950134,
	"learning_rate": 0.00014461028192371475,
	"loss": 0.3911,
	"step": 1884
	},
	{
	"epoch": 1.0391400220507165,
	"grad_norm": 0.22937916219234467,
	"learning_rate": 0.0001445273631840796,
	"loss": 0.406,
	"step": 1885
	},
	{
	"epoch": 1.039691289966924,
	"grad_norm": 0.21770672500133514,
	"learning_rate": 0.0001444444444444444,
	"loss": 0.389,
	"step": 1886
	},
	{
	"epoch": 1.0402425578831311,
	"grad_norm": 0.2170240730047226,
	"learning_rate": 0.00014436152570480927,
	"loss": 0.4225,
	"step": 1887
	},
	{
	"epoch": 1.0407938257993385,
	"grad_norm": 0.23694483935832977,
	"learning_rate": 0.0001442786069651741,
	"loss": 0.4124,
	"step": 1888
	},
	{
	"epoch": 1.0413450937155457,
	"grad_norm": 0.2358977198600769,
	"learning_rate": 0.00014419568822553896,
	"loss": 0.3932,
	"step": 1889
	},
	{
	"epoch": 1.041896361631753,
	"grad_norm": 0.2379174828529358,
	"learning_rate": 0.0001441127694859038,
	"loss": 0.3921,
	"step": 1890
	},
	{
	"epoch": 1.0424476295479603,
	"grad_norm": 0.22685475647449493,
	"learning_rate": 0.00014402985074626863,
	"loss": 0.398,
	"step": 1891
	},
	{
	"epoch": 1.0429988974641675,
	"grad_norm": 0.2381109744310379,
	"learning_rate": 0.00014394693200663348,
	"loss": 0.4002,
	"step": 1892
	},
	{
	"epoch": 1.043550165380375,
	"grad_norm": 0.23132000863552094,
	"learning_rate": 0.00014386401326699832,
	"loss": 0.3917,
	"step": 1893
	},
	{
	"epoch": 1.0441014332965821,
	"grad_norm": 0.23595485091209412,
	"learning_rate": 0.00014378109452736318,
	"loss": 0.3811,
	"step": 1894
	},
	{
	"epoch": 1.0446527012127893,
	"grad_norm": 0.23046362400054932,
	"learning_rate": 0.000143698175787728,
	"loss": 0.389,
	"step": 1895
	},
	{
	"epoch": 1.0452039691289967,
	"grad_norm": 0.21979711949825287,
	"learning_rate": 0.00014361525704809284,
	"loss": 0.4008,
	"step": 1896
	},
	{
	"epoch": 1.045755237045204,
	"grad_norm": 0.21169352531433105,
	"learning_rate": 0.0001435323383084577,
	"loss": 0.3767,
	"step": 1897
	},
	{
	"epoch": 1.0463065049614113,
	"grad_norm": 0.2226918339729309,
	"learning_rate": 0.00014344941956882253,
	"loss": 0.4059,
	"step": 1898
	},
	{
	"epoch": 1.0468577728776185,
	"grad_norm": 0.23048485815525055,
	"learning_rate": 0.0001433665008291874,
	"loss": 0.4013,
	"step": 1899
	},
	{
	"epoch": 1.0474090407938257,
	"grad_norm": 0.22347117960453033,
	"learning_rate": 0.00014328358208955222,
	"loss": 0.4042,
	"step": 1900
	},
	{
	"epoch": 1.047960308710033,
	"grad_norm": 0.2321341335773468,
	"learning_rate": 0.00014320066334991705,
	"loss": 0.4055,
	"step": 1901
	},
	{
	"epoch": 1.0485115766262403,
	"grad_norm": 0.22918953001499176,
	"learning_rate": 0.0001431177446102819,
	"loss": 0.3845,
	"step": 1902
	},
	{
	"epoch": 1.0490628445424477,
	"grad_norm": 0.21781106293201447,
	"learning_rate": 0.00014303482587064675,
	"loss": 0.4067,
	"step": 1903
	},
	{
	"epoch": 1.0496141124586549,
	"grad_norm": 0.21180634200572968,
	"learning_rate": 0.0001429519071310116,
	"loss": 0.3891,
	"step": 1904
	},
	{
	"epoch": 1.0501653803748623,
	"grad_norm": 0.2400248795747757,
	"learning_rate": 0.00014286898839137644,
	"loss": 0.3878,
	"step": 1905
	},
	{
	"epoch": 1.0507166482910695,
	"grad_norm": 0.22464604675769806,
	"learning_rate": 0.00014278606965174127,
	"loss": 0.3909,
	"step": 1906
	},
	{
	"epoch": 1.0512679162072767,
	"grad_norm": 0.23820553719997406,
	"learning_rate": 0.00014270315091210613,
	"loss": 0.3967,
	"step": 1907
	},
	{
	"epoch": 1.051819184123484,
	"grad_norm": 0.23168790340423584,
	"learning_rate": 0.00014262023217247096,
	"loss": 0.4057,
	"step": 1908
	},
	{
	"epoch": 1.0523704520396913,
	"grad_norm": 0.2253868579864502,
	"learning_rate": 0.00014253731343283582,
	"loss": 0.3844,
	"step": 1909
	},
	{
	"epoch": 1.0529217199558987,
	"grad_norm": 0.21465058624744415,
	"learning_rate": 0.00014245439469320065,
	"loss": 0.3804,
	"step": 1910
	},
	{
	"epoch": 1.0534729878721059,
	"grad_norm": 0.22617360949516296,
	"learning_rate": 0.00014237147595356548,
	"loss": 0.3738,
	"step": 1911
	},
	{
	"epoch": 1.054024255788313,
	"grad_norm": 0.23942868411540985,
	"learning_rate": 0.00014228855721393034,
	"loss": 0.4044,
	"step": 1912
	},
	{
	"epoch": 1.0545755237045205,
	"grad_norm": 0.23497670888900757,
	"learning_rate": 0.00014220563847429517,
	"loss": 0.4138,
	"step": 1913
	},
	{
	"epoch": 1.0551267916207276,
	"grad_norm": 0.229624941945076,
	"learning_rate": 0.00014212271973466003,
	"loss": 0.402,
	"step": 1914
	},
	{
	"epoch": 1.055678059536935,
	"grad_norm": 0.22944937646389008,
	"learning_rate": 0.00014203980099502486,
	"loss": 0.4016,
	"step": 1915
	},
	{
	"epoch": 1.0562293274531422,
	"grad_norm": 0.2452874332666397,
	"learning_rate": 0.0001419568822553897,
	"loss": 0.4149,
	"step": 1916
	},
	{
	"epoch": 1.0567805953693494,
	"grad_norm": 0.23434410989284515,
	"learning_rate": 0.00014187396351575456,
	"loss": 0.3818,
	"step": 1917
	},
	{
	"epoch": 1.0573318632855568,
	"grad_norm": 0.22487396001815796,
	"learning_rate": 0.0001417910447761194,
	"loss": 0.4071,
	"step": 1918
	},
	{
	"epoch": 1.057883131201764,
	"grad_norm": 0.2129317820072174,
	"learning_rate": 0.00014170812603648425,
	"loss": 0.3653,
	"step": 1919
	},
	{
	"epoch": 1.0584343991179714,
	"grad_norm": 0.21573378145694733,
	"learning_rate": 0.00014162520729684908,
	"loss": 0.3924,
	"step": 1920
	},
	{
	"epoch": 1.0589856670341786,
	"grad_norm": 0.23635123670101166,
	"learning_rate": 0.0001415422885572139,
	"loss": 0.3883,
	"step": 1921
	},
	{
	"epoch": 1.0595369349503858,
	"grad_norm": 0.23705770075321198,
	"learning_rate": 0.00014145936981757877,
	"loss": 0.3865,
	"step": 1922
	},
	{
	"epoch": 1.0600882028665932,
	"grad_norm": 0.22904790937900543,
	"learning_rate": 0.0001413764510779436,
	"loss": 0.3851,
	"step": 1923
	},
	{
	"epoch": 1.0606394707828004,
	"grad_norm": 0.21958112716674805,
	"learning_rate": 0.00014129353233830846,
	"loss": 0.3965,
	"step": 1924
	},
	{
	"epoch": 1.0611907386990078,
	"grad_norm": 0.232145294547081,
	"learning_rate": 0.0001412106135986733,
	"loss": 0.4001,
	"step": 1925
	},
	{
	"epoch": 1.061742006615215,
	"grad_norm": 0.23748160898685455,
	"learning_rate": 0.00014112769485903813,
	"loss": 0.3809,
	"step": 1926
	},
	{
	"epoch": 1.0622932745314222,
	"grad_norm": 0.25450122356414795,
	"learning_rate": 0.00014104477611940298,
	"loss": 0.3986,
	"step": 1927
	},
	{
	"epoch": 1.0628445424476296,
	"grad_norm": 0.23028801381587982,
	"learning_rate": 0.00014096185737976782,
	"loss": 0.3905,
	"step": 1928
	},
	{
	"epoch": 1.0633958103638368,
	"grad_norm": 0.23206226527690887,
	"learning_rate": 0.00014087893864013268,
	"loss": 0.3757,
	"step": 1929
	},
	{
	"epoch": 1.0639470782800442,
	"grad_norm": 0.23685060441493988,
	"learning_rate": 0.00014079601990049748,
	"loss": 0.3844,
	"step": 1930
	},
	{
	"epoch": 1.0644983461962514,
	"grad_norm": 0.22835825383663177,
	"learning_rate": 0.00014071310116086234,
	"loss": 0.388,
	"step": 1931
	},
	{
	"epoch": 1.0650496141124586,
	"grad_norm": 0.2305503487586975,
	"learning_rate": 0.00014063018242122717,
	"loss": 0.4015,
	"step": 1932
	},
	{
	"epoch": 1.065600882028666,
	"grad_norm": 0.23914876580238342,
	"learning_rate": 0.00014054726368159203,
	"loss": 0.3826,
	"step": 1933
	},
	{
	"epoch": 1.0661521499448732,
	"grad_norm": 0.2508886158466339,
	"learning_rate": 0.00014046434494195686,
	"loss": 0.3948,
	"step": 1934
	},
	{
	"epoch": 1.0667034178610806,
	"grad_norm": 0.280200332403183,
	"learning_rate": 0.0001403814262023217,
	"loss": 0.4042,
	"step": 1935
	},
	{
	"epoch": 1.0672546857772878,
	"grad_norm": 0.22536714375019073,
	"learning_rate": 0.00014029850746268655,
	"loss": 0.3948,
	"step": 1936
	},
	{
	"epoch": 1.067805953693495,
	"grad_norm": 0.24053654074668884,
	"learning_rate": 0.0001402155887230514,
	"loss": 0.3976,
	"step": 1937
	},
	{
	"epoch": 1.0683572216097024,
	"grad_norm": 0.2461492270231247,
	"learning_rate": 0.00014013266998341625,
	"loss": 0.385,
	"step": 1938
	},
	{
	"epoch": 1.0689084895259096,
	"grad_norm": 0.24768413603305817,
	"learning_rate": 0.00014004975124378108,
	"loss": 0.3734,
	"step": 1939
	},
	{
	"epoch": 1.069459757442117,
	"grad_norm": 0.2460828721523285,
	"learning_rate": 0.0001399668325041459,
	"loss": 0.3924,
	"step": 1940
	},
	{
	"epoch": 1.0700110253583242,
	"grad_norm": 0.2739814519882202,
	"learning_rate": 0.00013988391376451077,
	"loss": 0.3779,
	"step": 1941
	},
	{
	"epoch": 1.0705622932745313,
	"grad_norm": 0.23434729874134064,
	"learning_rate": 0.0001398009950248756,
	"loss": 0.4186,
	"step": 1942
	},
	{
	"epoch": 1.0711135611907387,
	"grad_norm": 0.23552288115024567,
	"learning_rate": 0.00013971807628524046,
	"loss": 0.3951,
	"step": 1943
	},
	{
	"epoch": 1.071664829106946,
	"grad_norm": 0.2381044626235962,
	"learning_rate": 0.0001396351575456053,
	"loss": 0.3938,
	"step": 1944
	},
	{
	"epoch": 1.0722160970231533,
	"grad_norm": 0.25459203124046326,
	"learning_rate": 0.00013955223880597012,
	"loss": 0.3997,
	"step": 1945
	},
	{
	"epoch": 1.0727673649393605,
	"grad_norm": 0.2563784718513489,
	"learning_rate": 0.00013946932006633498,
	"loss": 0.404,
	"step": 1946
	},
	{
	"epoch": 1.0733186328555677,
	"grad_norm": 0.23130348324775696,
	"learning_rate": 0.00013938640132669982,
	"loss": 0.3844,
	"step": 1947
	},
	{
	"epoch": 1.0738699007717751,
	"grad_norm": 0.24562886357307434,
	"learning_rate": 0.00013930348258706467,
	"loss": 0.4131,
	"step": 1948
	},
	{
	"epoch": 1.0744211686879823,
	"grad_norm": 0.22779060900211334,
	"learning_rate": 0.0001392205638474295,
	"loss": 0.4107,
	"step": 1949
	},
	{
	"epoch": 1.0749724366041897,
	"grad_norm": 0.23528602719306946,
	"learning_rate": 0.00013913764510779434,
	"loss": 0.4128,
	"step": 1950
	},
	{
	"epoch": 1.075523704520397,
	"grad_norm": 0.23987142741680145,
	"learning_rate": 0.0001390547263681592,
	"loss": 0.3987,
	"step": 1951
	},
	{
	"epoch": 1.076074972436604,
	"grad_norm": 0.2401638627052307,
	"learning_rate": 0.00013897180762852403,
	"loss": 0.3923,
	"step": 1952
	},
	{
	"epoch": 1.0766262403528115,
	"grad_norm": 0.24218258261680603,
	"learning_rate": 0.0001388888888888889,
	"loss": 0.4001,
	"step": 1953
	},
	{
	"epoch": 1.0771775082690187,
	"grad_norm": 0.23231711983680725,
	"learning_rate": 0.00013880597014925372,
	"loss": 0.3795,
	"step": 1954
	},
	{
	"epoch": 1.0777287761852261,
	"grad_norm": 0.2225574404001236,
	"learning_rate": 0.00013872305140961855,
	"loss": 0.3867,
	"step": 1955
	},
	{
	"epoch": 1.0782800441014333,
	"grad_norm": 0.22481811046600342,
	"learning_rate": 0.0001386401326699834,
	"loss": 0.3946,
	"step": 1956
	},
	{
	"epoch": 1.0788313120176405,
	"grad_norm": 0.22649556398391724,
	"learning_rate": 0.00013855721393034824,
	"loss": 0.3834,
	"step": 1957
	},
	{
	"epoch": 1.079382579933848,
	"grad_norm": 0.21780644357204437,
	"learning_rate": 0.0001384742951907131,
	"loss": 0.3874,
	"step": 1958
	},
	{
	"epoch": 1.079933847850055,
	"grad_norm": 0.21539410948753357,
	"learning_rate": 0.00013839137645107794,
	"loss": 0.3788,
	"step": 1959
	},
	{
	"epoch": 1.0804851157662625,
	"grad_norm": 0.22845754027366638,
	"learning_rate": 0.00013830845771144277,
	"loss": 0.395,
	"step": 1960
	},
	{
	"epoch": 1.0810363836824697,
	"grad_norm": 0.23722249269485474,
	"learning_rate": 0.00013822553897180763,
	"loss": 0.3993,
	"step": 1961
	},
	{
	"epoch": 1.0815876515986769,
	"grad_norm": 0.2395038902759552,
	"learning_rate": 0.00013814262023217246,
	"loss": 0.4204,
	"step": 1962
	},
	{
	"epoch": 1.0821389195148843,
	"grad_norm": 0.2149537056684494,
	"learning_rate": 0.00013805970149253732,
	"loss": 0.381,
	"step": 1963
	},
	{
	"epoch": 1.0826901874310915,
	"grad_norm": 0.24547190964221954,
	"learning_rate": 0.00013797678275290215,
	"loss": 0.404,
	"step": 1964
	},
	{
	"epoch": 1.0832414553472989,
	"grad_norm": 0.21485422551631927,
	"learning_rate": 0.00013789386401326698,
	"loss": 0.3756,
	"step": 1965
	},
	{
	"epoch": 1.083792723263506,
	"grad_norm": 0.2199661284685135,
	"learning_rate": 0.00013781094527363184,
	"loss": 0.39,
	"step": 1966
	},
	{
	"epoch": 1.0843439911797133,
	"grad_norm": 0.2321014702320099,
	"learning_rate": 0.00013772802653399667,
	"loss": 0.3877,
	"step": 1967
	},
	{
	"epoch": 1.0848952590959207,
	"grad_norm": 0.23033714294433594,
	"learning_rate": 0.00013764510779436153,
	"loss": 0.4018,
	"step": 1968
	},
	{
	"epoch": 1.0854465270121278,
	"grad_norm": 0.2251034677028656,
	"learning_rate": 0.00013756218905472636,
	"loss": 0.3911,
	"step": 1969
	},
	{
	"epoch": 1.0859977949283353,
	"grad_norm": 0.22630800306797028,
	"learning_rate": 0.0001374792703150912,
	"loss": 0.397,
	"step": 1970
	},
	{
	"epoch": 1.0865490628445424,
	"grad_norm": 0.22938160598278046,
	"learning_rate": 0.00013739635157545606,
	"loss": 0.401,
	"step": 1971
	},
	{
	"epoch": 1.0871003307607496,
	"grad_norm": 0.24200983345508575,
	"learning_rate": 0.0001373134328358209,
	"loss": 0.3988,
	"step": 1972
	},
	{
	"epoch": 1.087651598676957,
	"grad_norm": 0.25386059284210205,
	"learning_rate": 0.00013723051409618575,
	"loss": 0.4093,
	"step": 1973
	},
	{
	"epoch": 1.0882028665931642,
	"grad_norm": 0.2258448451757431,
	"learning_rate": 0.00013714759535655055,
	"loss": 0.386,
	"step": 1974
	},
	{
	"epoch": 1.0887541345093716,
	"grad_norm": 0.2277601659297943,
	"learning_rate": 0.0001370646766169154,
	"loss": 0.4041,
	"step": 1975
	},
	{
	"epoch": 1.0893054024255788,
	"grad_norm": 0.20614218711853027,
	"learning_rate": 0.00013698175787728024,
	"loss": 0.3784,
	"step": 1976
	},
	{
	"epoch": 1.089856670341786,
	"grad_norm": 0.22764301300048828,
	"learning_rate": 0.0001368988391376451,
	"loss": 0.395,
	"step": 1977
	},
	{
	"epoch": 1.0904079382579934,
	"grad_norm": 0.23423810303211212,
	"learning_rate": 0.00013681592039800993,
	"loss": 0.4114,
	"step": 1978
	},
	{
	"epoch": 1.0909592061742006,
	"grad_norm": 0.2042825073003769,
	"learning_rate": 0.00013673300165837477,
	"loss": 0.3724,
	"step": 1979
	},
	{
	"epoch": 1.091510474090408,
	"grad_norm": 0.2203364223241806,
	"learning_rate": 0.00013665008291873962,
	"loss": 0.4084,
	"step": 1980
	},
	{
	"epoch": 1.0920617420066152,
	"grad_norm": 0.23350727558135986,
	"learning_rate": 0.00013656716417910446,
	"loss": 0.4041,
	"step": 1981
	},
	{
	"epoch": 1.0926130099228224,
	"grad_norm": 0.23900878429412842,
	"learning_rate": 0.00013648424543946932,
	"loss": 0.3976,
	"step": 1982
	},
	{
	"epoch": 1.0931642778390298,
	"grad_norm": 0.22579023241996765,
	"learning_rate": 0.00013640132669983415,
	"loss": 0.4019,
	"step": 1983
	},
	{
	"epoch": 1.093715545755237,
	"grad_norm": 0.23907893896102905,
	"learning_rate": 0.00013631840796019898,
	"loss": 0.4185,
	"step": 1984
	},
	{
	"epoch": 1.0942668136714444,
	"grad_norm": 0.22953177988529205,
	"learning_rate": 0.00013623548922056384,
	"loss": 0.4009,
	"step": 1985
	},
	{
	"epoch": 1.0948180815876516,
	"grad_norm": 0.22816117107868195,
	"learning_rate": 0.00013615257048092867,
	"loss": 0.3773,
	"step": 1986
	},
	{
	"epoch": 1.0953693495038588,
	"grad_norm": 0.2403888702392578,
	"learning_rate": 0.00013606965174129353,
	"loss": 0.3857,
	"step": 1987
	},
	{
	"epoch": 1.0959206174200662,
	"grad_norm": 0.2400594800710678,
	"learning_rate": 0.00013598673300165836,
	"loss": 0.398,
	"step": 1988
	},
	{
	"epoch": 1.0964718853362734,
	"grad_norm": 0.2451186329126358,
	"learning_rate": 0.0001359038142620232,
	"loss": 0.4066,
	"step": 1989
	},
	{
	"epoch": 1.0970231532524808,
	"grad_norm": 0.2371450811624527,
	"learning_rate": 0.00013582089552238805,
	"loss": 0.3855,
	"step": 1990
	},
	{
	"epoch": 1.097574421168688,
	"grad_norm": 0.2529587745666504,
	"learning_rate": 0.00013573797678275289,
	"loss": 0.3851,
	"step": 1991
	},
	{
	"epoch": 1.0981256890848952,
	"grad_norm": 0.23810137808322906,
	"learning_rate": 0.00013565505804311774,
	"loss": 0.3644,
	"step": 1992
	},
	{
	"epoch": 1.0986769570011026,
	"grad_norm": 0.23532289266586304,
	"learning_rate": 0.00013557213930348258,
	"loss": 0.3813,
	"step": 1993
	},
	{
	"epoch": 1.0992282249173098,
	"grad_norm": 0.2418917566537857,
	"learning_rate": 0.0001354892205638474,
	"loss": 0.3775,
	"step": 1994
	},
	{
	"epoch": 1.0997794928335172,
	"grad_norm": 0.2366194874048233,
	"learning_rate": 0.00013540630182421227,
	"loss": 0.4047,
	"step": 1995
	},
	{
	"epoch": 1.1003307607497244,
	"grad_norm": 0.23951660096645355,
	"learning_rate": 0.0001353233830845771,
	"loss": 0.3956,
	"step": 1996
	},
	{
	"epoch": 1.1008820286659315,
	"grad_norm": 0.260423481464386,
	"learning_rate": 0.00013524046434494196,
	"loss": 0.3979,
	"step": 1997
	},
	{
	"epoch": 1.101433296582139,
	"grad_norm": 0.22453179955482483,
	"learning_rate": 0.0001351575456053068,
	"loss": 0.3918,
	"step": 1998
	},
	{
	"epoch": 1.1019845644983461,
	"grad_norm": 0.2185899168252945,
	"learning_rate": 0.00013507462686567162,
	"loss": 0.38,
	"step": 1999
	},
	{
	"epoch": 1.1025358324145536,
	"grad_norm": 0.2236957997083664,
	"learning_rate": 0.00013499170812603648,
	"loss": 0.4007,
	"step": 2000
	},
	{
	"epoch": 1.1025358324145536,
	"eval_loss": 0.4581758677959442,
	"eval_runtime": 312.0177,
	"eval_samples_per_second": 3.734,
	"eval_steps_per_second": 0.468,
	"step": 2000
	},
	{
	"epoch": 1.1030871003307607,
	"grad_norm": 0.2543388903141022,
	"learning_rate": 0.00013490878938640131,
	"loss": 0.39,
	"step": 2001
	},
	{
	"epoch": 1.103638368246968,
	"grad_norm": 0.22843103110790253,
	"learning_rate": 0.00013482587064676615,
	"loss": 0.3835,
	"step": 2002
	},
	{
	"epoch": 1.1041896361631753,
	"grad_norm": 0.226676806807518,
	"learning_rate": 0.000134742951907131,
	"loss": 0.3907,
	"step": 2003
	},
	{
	"epoch": 1.1047409040793825,
	"grad_norm": 0.22164440155029297,
	"learning_rate": 0.00013466003316749584,
	"loss": 0.3727,
	"step": 2004
	},
	{
	"epoch": 1.10529217199559,
	"grad_norm": 0.2151675671339035,
	"learning_rate": 0.0001345771144278607,
	"loss": 0.3749,
	"step": 2005
	},
	{
	"epoch": 1.1058434399117971,
	"grad_norm": 0.23192958533763885,
	"learning_rate": 0.00013449419568822553,
	"loss": 0.407,
	"step": 2006
	},
	{
	"epoch": 1.1063947078280043,
	"grad_norm": 0.2130926102399826,
	"learning_rate": 0.00013441127694859036,
	"loss": 0.3702,
	"step": 2007
	},
	{
	"epoch": 1.1069459757442117,
	"grad_norm": 0.22862909734249115,
	"learning_rate": 0.00013432835820895522,
	"loss": 0.3784,
	"step": 2008
	},
	{
	"epoch": 1.107497243660419,
	"grad_norm": 0.22866345942020416,
	"learning_rate": 0.00013424543946932005,
	"loss": 0.4035,
	"step": 2009
	},
	{
	"epoch": 1.1080485115766263,
	"grad_norm": 0.2159378081560135,
	"learning_rate": 0.0001341625207296849,
	"loss": 0.3996,
	"step": 2010
	},
	{
	"epoch": 1.1085997794928335,
	"grad_norm": 0.22037655115127563,
	"learning_rate": 0.00013407960199004974,
	"loss": 0.3873,
	"step": 2011
	},
	{
	"epoch": 1.1091510474090407,
	"grad_norm": 0.24213933944702148,
	"learning_rate": 0.00013399668325041458,
	"loss": 0.4144,
	"step": 2012
	},
	{
	"epoch": 1.109702315325248,
	"grad_norm": 0.2235259711742401,
	"learning_rate": 0.00013391376451077943,
	"loss": 0.4028,
	"step": 2013
	},
	{
	"epoch": 1.1102535832414553,
	"grad_norm": 0.2354377955198288,
	"learning_rate": 0.00013383084577114427,
	"loss": 0.4103,
	"step": 2014
	},
	{
	"epoch": 1.1108048511576627,
	"grad_norm": 0.22363215684890747,
	"learning_rate": 0.00013374792703150913,
	"loss": 0.3962,
	"step": 2015
	},
	{
	"epoch": 1.1113561190738699,
	"grad_norm": 0.22264409065246582,
	"learning_rate": 0.00013366500829187396,
	"loss": 0.3818,
	"step": 2016
	},
	{
	"epoch": 1.111907386990077,
	"grad_norm": 0.22731584310531616,
	"learning_rate": 0.0001335820895522388,
	"loss": 0.4013,
	"step": 2017
	},
	{
	"epoch": 1.1124586549062845,
	"grad_norm": 0.22340711951255798,
	"learning_rate": 0.00013349917081260362,
	"loss": 0.3734,
	"step": 2018
	},
	{
	"epoch": 1.1130099228224917,
	"grad_norm": 0.23701246082782745,
	"learning_rate": 0.00013341625207296848,
	"loss": 0.3943,
	"step": 2019
	},
	{
	"epoch": 1.113561190738699,
	"grad_norm": 0.22929784655570984,
	"learning_rate": 0.0001333333333333333,
	"loss": 0.3848,
	"step": 2020
	},
	{
	"epoch": 1.1141124586549063,
	"grad_norm": 0.24790272116661072,
	"learning_rate": 0.00013325041459369814,
	"loss": 0.4047,
	"step": 2021
	},
	{
	"epoch": 1.1146637265711137,
	"grad_norm": 0.22452253103256226,
	"learning_rate": 0.000133167495854063,
	"loss": 0.385,
	"step": 2022
	},
	{
	"epoch": 1.1152149944873209,
	"grad_norm": 0.23337581753730774,
	"learning_rate": 0.00013308457711442784,
	"loss": 0.3791,
	"step": 2023
	},
	{
	"epoch": 1.115766262403528,
	"grad_norm": 0.23171287775039673,
	"learning_rate": 0.0001330016583747927,
	"loss": 0.3885,
	"step": 2024
	},
	{
	"epoch": 1.1163175303197355,
	"grad_norm": 0.24028973281383514,
	"learning_rate": 0.00013291873963515753,
	"loss": 0.4071,
	"step": 2025
	},
	{
	"epoch": 1.1168687982359427,
	"grad_norm": 0.23416177928447723,
	"learning_rate": 0.00013283582089552236,
	"loss": 0.3815,
	"step": 2026
	},
	{
	"epoch": 1.11742006615215,
	"grad_norm": 0.2444845736026764,
	"learning_rate": 0.00013275290215588722,
	"loss": 0.4048,
	"step": 2027
	},
	{
	"epoch": 1.1179713340683572,
	"grad_norm": 0.23157843947410583,
	"learning_rate": 0.00013266998341625205,
	"loss": 0.402,
	"step": 2028
	},
	{
	"epoch": 1.1185226019845644,
	"grad_norm": 0.24158456921577454,
	"learning_rate": 0.0001325870646766169,
	"loss": 0.3821,
	"step": 2029
	},
	{
	"epoch": 1.1190738699007718,
	"grad_norm": 0.23520436882972717,
	"learning_rate": 0.00013250414593698174,
	"loss": 0.3848,
	"step": 2030
	},
	{
	"epoch": 1.119625137816979,
	"grad_norm": 0.2458154559135437,
	"learning_rate": 0.00013242122719734657,
	"loss": 0.3926,
	"step": 2031
	},
	{
	"epoch": 1.1201764057331864,
	"grad_norm": 0.2308206707239151,
	"learning_rate": 0.00013233830845771143,
	"loss": 0.3982,
	"step": 2032
	},
	{
	"epoch": 1.1207276736493936,
	"grad_norm": 0.23016606271266937,
	"learning_rate": 0.00013225538971807626,
	"loss": 0.3936,
	"step": 2033
	},
	{
	"epoch": 1.1212789415656008,
	"grad_norm": 0.24838510155677795,
	"learning_rate": 0.00013217247097844112,
	"loss": 0.4081,
	"step": 2034
	},
	{
	"epoch": 1.1218302094818082,
	"grad_norm": 0.2287745475769043,
	"learning_rate": 0.00013208955223880596,
	"loss": 0.371,
	"step": 2035
	},
	{
	"epoch": 1.1223814773980154,
	"grad_norm": 0.23816218972206116,
	"learning_rate": 0.0001320066334991708,
	"loss": 0.3952,
	"step": 2036
	},
	{
	"epoch": 1.1229327453142228,
	"grad_norm": 0.2324012964963913,
	"learning_rate": 0.00013192371475953565,
	"loss": 0.3861,
	"step": 2037
	},
	{
	"epoch": 1.12348401323043,
	"grad_norm": 0.23907962441444397,
	"learning_rate": 0.00013184079601990048,
	"loss": 0.3927,
	"step": 2038
	},
	{
	"epoch": 1.1240352811466372,
	"grad_norm": 0.2464779168367386,
	"learning_rate": 0.00013175787728026534,
	"loss": 0.4246,
	"step": 2039
	},
	{
	"epoch": 1.1245865490628446,
	"grad_norm": 0.23501858115196228,
	"learning_rate": 0.00013167495854063017,
	"loss": 0.3918,
	"step": 2040
	},
	{
	"epoch": 1.1251378169790518,
	"grad_norm": 0.2514742314815521,
	"learning_rate": 0.000131592039800995,
	"loss": 0.3828,
	"step": 2041
	},
	{
	"epoch": 1.1256890848952592,
	"grad_norm": 0.25326284766197205,
	"learning_rate": 0.00013150912106135986,
	"loss": 0.4042,
	"step": 2042
	},
	{
	"epoch": 1.1262403528114664,
	"grad_norm": 0.23037280142307281,
	"learning_rate": 0.0001314262023217247,
	"loss": 0.3919,
	"step": 2043
	},
	{
	"epoch": 1.1267916207276736,
	"grad_norm": 0.241755872964859,
	"learning_rate": 0.00013134328358208955,
	"loss": 0.3867,
	"step": 2044
	},
	{
	"epoch": 1.127342888643881,
	"grad_norm": 0.27031564712524414,
	"learning_rate": 0.00013126036484245438,
	"loss": 0.3767,
	"step": 2045
	},
	{
	"epoch": 1.1278941565600882,
	"grad_norm": 0.24623173475265503,
	"learning_rate": 0.00013117744610281922,
	"loss": 0.4077,
	"step": 2046
	},
	{
	"epoch": 1.1284454244762956,
	"grad_norm": 0.24347223341464996,
	"learning_rate": 0.00013109452736318408,
	"loss": 0.3846,
	"step": 2047
	},
	{
	"epoch": 1.1289966923925028,
	"grad_norm": 0.24663501977920532,
	"learning_rate": 0.0001310116086235489,
	"loss": 0.3992,
	"step": 2048
	},
	{
	"epoch": 1.12954796030871,
	"grad_norm": 0.23556159436702728,
	"learning_rate": 0.00013092868988391377,
	"loss": 0.3949,
	"step": 2049
	},
	{
	"epoch": 1.1300992282249174,
	"grad_norm": 0.21868300437927246,
	"learning_rate": 0.0001308457711442786,
	"loss": 0.3824,
	"step": 2050
	},
	{
	"epoch": 1.1306504961411246,
	"grad_norm": 0.23438437283039093,
	"learning_rate": 0.00013076285240464343,
	"loss": 0.3801,
	"step": 2051
	},
	{
	"epoch": 1.131201764057332,
	"grad_norm": 0.22960849106311798,
	"learning_rate": 0.0001306799336650083,
	"loss": 0.4088,
	"step": 2052
	},
	{
	"epoch": 1.1317530319735392,
	"grad_norm": 0.240730881690979,
	"learning_rate": 0.00013059701492537312,
	"loss": 0.3644,
	"step": 2053
	},
	{
	"epoch": 1.1323042998897463,
	"grad_norm": 0.2219470739364624,
	"learning_rate": 0.00013051409618573798,
	"loss": 0.3817,
	"step": 2054
	},
	{
	"epoch": 1.1328555678059538,
	"grad_norm": 0.22481395304203033,
	"learning_rate": 0.0001304311774461028,
	"loss": 0.3858,
	"step": 2055
	},
	{
	"epoch": 1.133406835722161,
	"grad_norm": 0.24147982895374298,
	"learning_rate": 0.00013034825870646765,
	"loss": 0.3977,
	"step": 2056
	},
	{
	"epoch": 1.1339581036383684,
	"grad_norm": 0.2390933483839035,
	"learning_rate": 0.0001302653399668325,
	"loss": 0.3985,
	"step": 2057
	},
	{
	"epoch": 1.1345093715545755,
	"grad_norm": 0.24776338040828705,
	"learning_rate": 0.00013018242122719734,
	"loss": 0.4026,
	"step": 2058
	},
	{
	"epoch": 1.1350606394707827,
	"grad_norm": 0.23255294561386108,
	"learning_rate": 0.0001300995024875622,
	"loss": 0.3975,
	"step": 2059
	},
	{
	"epoch": 1.1356119073869901,
	"grad_norm": 0.2401493936777115,
	"learning_rate": 0.00013001658374792703,
	"loss": 0.3924,
	"step": 2060
	},
	{
	"epoch": 1.1361631753031973,
	"grad_norm": 0.2360658049583435,
	"learning_rate": 0.00012993366500829186,
	"loss": 0.3835,
	"step": 2061
	},
	{
	"epoch": 1.1367144432194047,
	"grad_norm": 0.24272675812244415,
	"learning_rate": 0.0001298507462686567,
	"loss": 0.3816,
	"step": 2062
	},
	{
	"epoch": 1.137265711135612,
	"grad_norm": 0.2370130568742752,
	"learning_rate": 0.00012976782752902155,
	"loss": 0.3807,
	"step": 2063
	},
	{
	"epoch": 1.137816979051819,
	"grad_norm": 0.22449509799480438,
	"learning_rate": 0.00012968490878938638,
	"loss": 0.3857,
	"step": 2064
	},
	{
	"epoch": 1.1383682469680265,
	"grad_norm": 0.2332579791545868,
	"learning_rate": 0.00012960199004975121,
	"loss": 0.3882,
	"step": 2065
	},
	{
	"epoch": 1.1389195148842337,
	"grad_norm": 0.23922313749790192,
	"learning_rate": 0.00012951907131011607,
	"loss": 0.3924,
	"step": 2066
	},
	{
	"epoch": 1.1394707828004411,
	"grad_norm": 0.23937387764453888,
	"learning_rate": 0.0001294361525704809,
	"loss": 0.3982,
	"step": 2067
	},
	{
	"epoch": 1.1400220507166483,
	"grad_norm": 0.23198926448822021,
	"learning_rate": 0.00012935323383084577,
	"loss": 0.3971,
	"step": 2068
	},
	{
	"epoch": 1.1405733186328555,
	"grad_norm": 0.23774142563343048,
	"learning_rate": 0.0001292703150912106,
	"loss": 0.419,
	"step": 2069
	},
	{
	"epoch": 1.141124586549063,
	"grad_norm": 0.23457486927509308,
	"learning_rate": 0.00012918739635157543,
	"loss": 0.3947,
	"step": 2070
	},
	{
	"epoch": 1.14167585446527,
	"grad_norm": 0.23662830889225006,
	"learning_rate": 0.0001291044776119403,
	"loss": 0.3989,
	"step": 2071
	},
	{
	"epoch": 1.1422271223814775,
	"grad_norm": 0.2307705134153366,
	"learning_rate": 0.00012902155887230512,
	"loss": 0.3988,
	"step": 2072
	},
	{
	"epoch": 1.1427783902976847,
	"grad_norm": 0.23430916666984558,
	"learning_rate": 0.00012893864013266998,
	"loss": 0.3956,
	"step": 2073
	},
	{
	"epoch": 1.1433296582138919,
	"grad_norm": 0.24138319492340088,
	"learning_rate": 0.0001288557213930348,
	"loss": 0.4103,
	"step": 2074
	},
	{
	"epoch": 1.1438809261300993,
	"grad_norm": 0.22443422675132751,
	"learning_rate": 0.00012877280265339964,
	"loss": 0.3839,
	"step": 2075
	},
	{
	"epoch": 1.1444321940463065,
	"grad_norm": 0.2313619703054428,
	"learning_rate": 0.0001286898839137645,
	"loss": 0.4063,
	"step": 2076
	},
	{
	"epoch": 1.1449834619625139,
	"grad_norm": 0.22947578132152557,
	"learning_rate": 0.00012860696517412933,
	"loss": 0.3852,
	"step": 2077
	},
	{
	"epoch": 1.145534729878721,
	"grad_norm": 0.2276720404624939,
	"learning_rate": 0.0001285240464344942,
	"loss": 0.3968,
	"step": 2078
	},
	{
	"epoch": 1.1460859977949283,
	"grad_norm": 0.22463871538639069,
	"learning_rate": 0.00012844112769485903,
	"loss": 0.3904,
	"step": 2079
	},
	{
	"epoch": 1.1466372657111357,
	"grad_norm": 0.22553198039531708,
	"learning_rate": 0.00012835820895522386,
	"loss": 0.3902,
	"step": 2080
	},
	{
	"epoch": 1.1471885336273429,
	"grad_norm": 0.23410287499427795,
	"learning_rate": 0.00012827529021558872,
	"loss": 0.3952,
	"step": 2081
	},
	{
	"epoch": 1.1477398015435503,
	"grad_norm": 0.2365550547838211,
	"learning_rate": 0.00012819237147595355,
	"loss": 0.3907,
	"step": 2082
	},
	{
	"epoch": 1.1482910694597575,
	"grad_norm": 0.22853030264377594,
	"learning_rate": 0.0001281094527363184,
	"loss": 0.4041,
	"step": 2083
	},
	{
	"epoch": 1.1488423373759646,
	"grad_norm": 0.23059257864952087,
	"learning_rate": 0.00012802653399668324,
	"loss": 0.4047,
	"step": 2084
	},
	{
	"epoch": 1.149393605292172,
	"grad_norm": 0.23414267599582672,
	"learning_rate": 0.00012794361525704807,
	"loss": 0.4077,
	"step": 2085
	},
	{
	"epoch": 1.1499448732083792,
	"grad_norm": 0.23295001685619354,
	"learning_rate": 0.00012786069651741293,
	"loss": 0.3942,
	"step": 2086
	},
	{
	"epoch": 1.1504961411245866,
	"grad_norm": 0.23734460771083832,
	"learning_rate": 0.00012777777777777776,
	"loss": 0.4074,
	"step": 2087
	},
	{
	"epoch": 1.1510474090407938,
	"grad_norm": 0.21490591764450073,
	"learning_rate": 0.00012769485903814262,
	"loss": 0.3747,
	"step": 2088
	},
	{
	"epoch": 1.151598676957001,
	"grad_norm": 0.22734799981117249,
	"learning_rate": 0.00012761194029850745,
	"loss": 0.3836,
	"step": 2089
	},
	{
	"epoch": 1.1521499448732084,
	"grad_norm": 0.22835008800029755,
	"learning_rate": 0.0001275290215588723,
	"loss": 0.3983,
	"step": 2090
	},
	{
	"epoch": 1.1527012127894156,
	"grad_norm": 0.2260267287492752,
	"learning_rate": 0.00012744610281923715,
	"loss": 0.3785,
	"step": 2091
	},
	{
	"epoch": 1.153252480705623,
	"grad_norm": 0.22667206823825836,
	"learning_rate": 0.00012736318407960198,
	"loss": 0.3945,
	"step": 2092
	},
	{
	"epoch": 1.1538037486218302,
	"grad_norm": 0.23218148946762085,
	"learning_rate": 0.00012728026533996684,
	"loss": 0.3967,
	"step": 2093
	},
	{
	"epoch": 1.1543550165380374,
	"grad_norm": 0.24123932421207428,
	"learning_rate": 0.00012719734660033167,
	"loss": 0.3994,
	"step": 2094
	},
	{
	"epoch": 1.1549062844542448,
	"grad_norm": 0.23074567317962646,
	"learning_rate": 0.0001271144278606965,
	"loss": 0.405,
	"step": 2095
	},
	{
	"epoch": 1.155457552370452,
	"grad_norm": 0.23828662931919098,
	"learning_rate": 0.00012703150912106136,
	"loss": 0.3886,
	"step": 2096
	},
	{
	"epoch": 1.1560088202866594,
	"grad_norm": 0.22315117716789246,
	"learning_rate": 0.0001269485903814262,
	"loss": 0.3925,
	"step": 2097
	},
	{
	"epoch": 1.1565600882028666,
	"grad_norm": 0.22071965038776398,
	"learning_rate": 0.00012686567164179105,
	"loss": 0.3997,
	"step": 2098
	},
	{
	"epoch": 1.1571113561190738,
	"grad_norm": 0.22145338356494904,
	"learning_rate": 0.00012678275290215588,
	"loss": 0.3784,
	"step": 2099
	},
	{
	"epoch": 1.1576626240352812,
	"grad_norm": 0.2308942675590515,
	"learning_rate": 0.00012669983416252072,
	"loss": 0.3576,
	"step": 2100
	},
	{
	"epoch": 1.1582138919514884,
	"grad_norm": 0.2193097174167633,
	"learning_rate": 0.00012661691542288557,
	"loss": 0.3806,
	"step": 2101
	},
	{
	"epoch": 1.1587651598676958,
	"grad_norm": 0.2277258038520813,
	"learning_rate": 0.0001265339966832504,
	"loss": 0.389,
	"step": 2102
	},
	{
	"epoch": 1.159316427783903,
	"grad_norm": 0.22830741107463837,
	"learning_rate": 0.00012645107794361527,
	"loss": 0.4132,
	"step": 2103
	},
	{
	"epoch": 1.1598676957001102,
	"grad_norm": 0.22856192290782928,
	"learning_rate": 0.0001263681592039801,
	"loss": 0.3879,
	"step": 2104
	},
	{
	"epoch": 1.1604189636163176,
	"grad_norm": 0.23155651986598969,
	"learning_rate": 0.00012628524046434493,
	"loss": 0.3902,
	"step": 2105
	},
	{
	"epoch": 1.1609702315325248,
	"grad_norm": 0.22571994364261627,
	"learning_rate": 0.00012620232172470976,
	"loss": 0.4017,
	"step": 2106
	},
	{
	"epoch": 1.1615214994487322,
	"grad_norm": 0.2258533239364624,
	"learning_rate": 0.00012611940298507462,
	"loss": 0.4027,
	"step": 2107
	},
	{
	"epoch": 1.1620727673649394,
	"grad_norm": 0.24114197492599487,
	"learning_rate": 0.00012603648424543945,
	"loss": 0.3983,
	"step": 2108
	},
	{
	"epoch": 1.1626240352811466,
	"grad_norm": 0.22286631166934967,
	"learning_rate": 0.00012595356550580429,
	"loss": 0.4026,
	"step": 2109
	},
	{
	"epoch": 1.163175303197354,
	"grad_norm": 0.2404211014509201,
	"learning_rate": 0.00012587064676616914,
	"loss": 0.4082,
	"step": 2110
	},
	{
	"epoch": 1.1637265711135611,
	"grad_norm": 0.22578535974025726,
	"learning_rate": 0.00012578772802653398,
	"loss": 0.3881,
	"step": 2111
	},
	{
	"epoch": 1.1642778390297686,
	"grad_norm": 0.24066035449504852,
	"learning_rate": 0.00012570480928689884,
	"loss": 0.4144,
	"step": 2112
	},
	{
	"epoch": 1.1648291069459757,
	"grad_norm": 0.22703833878040314,
	"learning_rate": 0.00012562189054726367,
	"loss": 0.3942,
	"step": 2113
	},
	{
	"epoch": 1.165380374862183,
	"grad_norm": 0.2277577817440033,
	"learning_rate": 0.0001255389718076285,
	"loss": 0.4116,
	"step": 2114
	},
	{
	"epoch": 1.1659316427783903,
	"grad_norm": 0.2201533019542694,
	"learning_rate": 0.00012545605306799336,
	"loss": 0.3961,
	"step": 2115
	},
	{
	"epoch": 1.1664829106945975,
	"grad_norm": 0.22969132661819458,
	"learning_rate": 0.0001253731343283582,
	"loss": 0.4146,
	"step": 2116
	},
	{
	"epoch": 1.167034178610805,
	"grad_norm": 0.2208871990442276,
	"learning_rate": 0.00012529021558872305,
	"loss": 0.3925,
	"step": 2117
	},
	{
	"epoch": 1.1675854465270121,
	"grad_norm": 0.24675814807415009,
	"learning_rate": 0.00012520729684908788,
	"loss": 0.3923,
	"step": 2118
	},
	{
	"epoch": 1.1681367144432193,
	"grad_norm": 0.25365886092185974,
	"learning_rate": 0.00012512437810945271,
	"loss": 0.4018,
	"step": 2119
	},
	{
	"epoch": 1.1686879823594267,
	"grad_norm": 0.2352716475725174,
	"learning_rate": 0.00012504145936981757,
	"loss": 0.4136,
	"step": 2120
	},
	{
	"epoch": 1.169239250275634,
	"grad_norm": 0.22656375169754028,
	"learning_rate": 0.0001249585406301824,
	"loss": 0.3896,
	"step": 2121
	},
	{
	"epoch": 1.1697905181918413,
	"grad_norm": 0.22290179133415222,
	"learning_rate": 0.00012487562189054724,
	"loss": 0.4059,
	"step": 2122
	},
	{
	"epoch": 1.1703417861080485,
	"grad_norm": 0.24139589071273804,
	"learning_rate": 0.0001247927031509121,
	"loss": 0.3999,
	"step": 2123
	},
	{
	"epoch": 1.1708930540242557,
	"grad_norm": 0.24391639232635498,
	"learning_rate": 0.00012470978441127693,
	"loss": 0.3876,
	"step": 2124
	},
	{
	"epoch": 1.171444321940463,
	"grad_norm": 0.2283831685781479,
	"learning_rate": 0.0001246268656716418,
	"loss": 0.3988,
	"step": 2125
	},
	{
	"epoch": 1.1719955898566703,
	"grad_norm": 0.24799783527851105,
	"learning_rate": 0.00012454394693200662,
	"loss": 0.396,
	"step": 2126
	},
	{
	"epoch": 1.1725468577728777,
	"grad_norm": 0.22174561023712158,
	"learning_rate": 0.00012446102819237145,
	"loss": 0.3809,
	"step": 2127
	},
	{
	"epoch": 1.173098125689085,
	"grad_norm": 0.22951188683509827,
	"learning_rate": 0.0001243781094527363,
	"loss": 0.3882,
	"step": 2128
	},
	{
	"epoch": 1.173649393605292,
	"grad_norm": 0.21973788738250732,
	"learning_rate": 0.00012429519071310114,
	"loss": 0.3872,
	"step": 2129
	},
	{
	"epoch": 1.1742006615214995,
	"grad_norm": 0.22701437771320343,
	"learning_rate": 0.000124212271973466,
	"loss": 0.3876,
	"step": 2130
	},
	{
	"epoch": 1.1747519294377067,
	"grad_norm": 0.22394593060016632,
	"learning_rate": 0.00012412935323383083,
	"loss": 0.3874,
	"step": 2131
	},
	{
	"epoch": 1.175303197353914,
	"grad_norm": 0.24040114879608154,
	"learning_rate": 0.00012404643449419567,
	"loss": 0.3856,
	"step": 2132
	},
	{
	"epoch": 1.1758544652701213,
	"grad_norm": 0.2295607030391693,
	"learning_rate": 0.00012396351575456052,
	"loss": 0.3861,
	"step": 2133
	},
	{
	"epoch": 1.1764057331863285,
	"grad_norm": 0.229506716132164,
	"learning_rate": 0.00012388059701492536,
	"loss": 0.3877,
	"step": 2134
	},
	{
	"epoch": 1.1769570011025359,
	"grad_norm": 0.24226558208465576,
	"learning_rate": 0.00012379767827529022,
	"loss": 0.4051,
	"step": 2135
	},
	{
	"epoch": 1.177508269018743,
	"grad_norm": 0.23359960317611694,
	"learning_rate": 0.00012371475953565505,
	"loss": 0.3911,
	"step": 2136
	},
	{
	"epoch": 1.1780595369349505,
	"grad_norm": 0.24533167481422424,
	"learning_rate": 0.00012363184079601988,
	"loss": 0.4075,
	"step": 2137
	},
	{
	"epoch": 1.1786108048511577,
	"grad_norm": 0.22445149719715118,
	"learning_rate": 0.00012354892205638474,
	"loss": 0.3762,
	"step": 2138
	},
	{
	"epoch": 1.1791620727673648,
	"grad_norm": 0.2399044781923294,
	"learning_rate": 0.00012346600331674957,
	"loss": 0.375,
	"step": 2139
	},
	{
	"epoch": 1.1797133406835723,
	"grad_norm": 0.2472797930240631,
	"learning_rate": 0.00012338308457711443,
	"loss": 0.4036,
	"step": 2140
	},
	{
	"epoch": 1.1802646085997794,
	"grad_norm": 0.2297624945640564,
	"learning_rate": 0.00012330016583747926,
	"loss": 0.4154,
	"step": 2141
	},
	{
	"epoch": 1.1808158765159869,
	"grad_norm": 0.23524117469787598,
	"learning_rate": 0.0001232172470978441,
	"loss": 0.3879,
	"step": 2142
	},
	{
	"epoch": 1.181367144432194,
	"grad_norm": 0.23935049772262573,
	"learning_rate": 0.00012313432835820895,
	"loss": 0.4107,
	"step": 2143
	},
	{
	"epoch": 1.1819184123484012,
	"grad_norm": 0.21305608749389648,
	"learning_rate": 0.00012305140961857379,
	"loss": 0.3964,
	"step": 2144
	},
	{
	"epoch": 1.1824696802646086,
	"grad_norm": 0.2339240163564682,
	"learning_rate": 0.00012296849087893864,
	"loss": 0.4185,
	"step": 2145
	},
	{
	"epoch": 1.1830209481808158,
	"grad_norm": 0.23344539105892181,
	"learning_rate": 0.00012288557213930348,
	"loss": 0.3934,
	"step": 2146
	},
	{
	"epoch": 1.1835722160970232,
	"grad_norm": 0.2274356484413147,
	"learning_rate": 0.0001228026533996683,
	"loss": 0.3854,
	"step": 2147
	},
	{
	"epoch": 1.1841234840132304,
	"grad_norm": 0.23241972923278809,
	"learning_rate": 0.00012271973466003317,
	"loss": 0.4106,
	"step": 2148
	},
	{
	"epoch": 1.1846747519294376,
	"grad_norm": 0.22595259547233582,
	"learning_rate": 0.000122636815920398,
	"loss": 0.401,
	"step": 2149
	},
	{
	"epoch": 1.185226019845645,
	"grad_norm": 0.22598454356193542,
	"learning_rate": 0.00012255389718076283,
	"loss": 0.4041,
	"step": 2150
	},
	{
	"epoch": 1.1857772877618522,
	"grad_norm": 0.233281672000885,
	"learning_rate": 0.00012247097844112766,
	"loss": 0.3763,
	"step": 2151
	},
	{
	"epoch": 1.1863285556780596,
	"grad_norm": 0.22901344299316406,
	"learning_rate": 0.00012238805970149252,
	"loss": 0.3949,
	"step": 2152
	},
	{
	"epoch": 1.1868798235942668,
	"grad_norm": 0.24648213386535645,
	"learning_rate": 0.00012230514096185736,
	"loss": 0.4229,
	"step": 2153
	},
	{
	"epoch": 1.187431091510474,
	"grad_norm": 0.24580827355384827,
	"learning_rate": 0.00012222222222222221,
	"loss": 0.4125,
	"step": 2154
	},
	{
	"epoch": 1.1879823594266814,
	"grad_norm": 0.23127946257591248,
	"learning_rate": 0.00012213930348258705,
	"loss": 0.3727,
	"step": 2155
	},
	{
	"epoch": 1.1885336273428886,
	"grad_norm": 0.2267657071352005,
	"learning_rate": 0.00012205638474295189,
	"loss": 0.3951,
	"step": 2156
	},
	{
	"epoch": 1.189084895259096,
	"grad_norm": 0.23497919738292694,
	"learning_rate": 0.00012197346600331674,
	"loss": 0.3721,
	"step": 2157
	},
	{
	"epoch": 1.1896361631753032,
	"grad_norm": 0.22601653635501862,
	"learning_rate": 0.00012189054726368157,
	"loss": 0.3945,
	"step": 2158
	},
	{
	"epoch": 1.1901874310915104,
	"grad_norm": 0.21945270895957947,
	"learning_rate": 0.00012180762852404642,
	"loss": 0.3574,
	"step": 2159
	},
	{
	"epoch": 1.1907386990077178,
	"grad_norm": 0.2285127341747284,
	"learning_rate": 0.00012172470978441126,
	"loss": 0.3891,
	"step": 2160
	},
	{
	"epoch": 1.191289966923925,
	"grad_norm": 0.23766474425792694,
	"learning_rate": 0.0001216417910447761,
	"loss": 0.3968,
	"step": 2161
	},
	{
	"epoch": 1.1918412348401324,
	"grad_norm": 0.23863717913627625,
	"learning_rate": 0.00012155887230514095,
	"loss": 0.389,
	"step": 2162
	},
	{
	"epoch": 1.1923925027563396,
	"grad_norm": 0.22550217807292938,
	"learning_rate": 0.00012147595356550578,
	"loss": 0.3842,
	"step": 2163
	},
	{
	"epoch": 1.1929437706725468,
	"grad_norm": 0.22460085153579712,
	"learning_rate": 0.00012139303482587063,
	"loss": 0.3874,
	"step": 2164
	},
	{
	"epoch": 1.1934950385887542,
	"grad_norm": 0.2168971300125122,
	"learning_rate": 0.00012131011608623548,
	"loss": 0.3783,
	"step": 2165
	},
	{
	"epoch": 1.1940463065049614,
	"grad_norm": 0.2768751084804535,
	"learning_rate": 0.00012122719734660032,
	"loss": 0.4206,
	"step": 2166
	},
	{
	"epoch": 1.1945975744211688,
	"grad_norm": 0.2357032299041748,
	"learning_rate": 0.00012114427860696517,
	"loss": 0.3943,
	"step": 2167
	},
	{
	"epoch": 1.195148842337376,
	"grad_norm": 0.24314233660697937,
	"learning_rate": 0.00012106135986733,
	"loss": 0.3983,
	"step": 2168
	},
	{
	"epoch": 1.1957001102535831,
	"grad_norm": 0.2605820596218109,
	"learning_rate": 0.00012097844112769484,
	"loss": 0.4036,
	"step": 2169
	},
	{
	"epoch": 1.1962513781697905,
	"grad_norm": 0.22138415277004242,
	"learning_rate": 0.00012089552238805969,
	"loss": 0.3794,
	"step": 2170
	},
	{
	"epoch": 1.1968026460859977,
	"grad_norm": 0.2328760325908661,
	"learning_rate": 0.00012081260364842454,
	"loss": 0.3948,
	"step": 2171
	},
	{
	"epoch": 1.1973539140022051,
	"grad_norm": 0.22606134414672852,
	"learning_rate": 0.00012072968490878938,
	"loss": 0.3958,
	"step": 2172
	},
	{
	"epoch": 1.1979051819184123,
	"grad_norm": 0.25683924555778503,
	"learning_rate": 0.00012064676616915421,
	"loss": 0.3939,
	"step": 2173
	},
	{
	"epoch": 1.1984564498346195,
	"grad_norm": 0.22325700521469116,
	"learning_rate": 0.00012056384742951906,
	"loss": 0.3915,
	"step": 2174
	},
	{
	"epoch": 1.199007717750827,
	"grad_norm": 0.21337918937206268,
	"learning_rate": 0.0001204809286898839,
	"loss": 0.3699,
	"step": 2175
	},
	{
	"epoch": 1.1995589856670341,
	"grad_norm": 0.2343214452266693,
	"learning_rate": 0.00012039800995024875,
	"loss": 0.4029,
	"step": 2176
	},
	{
	"epoch": 1.2001102535832415,
	"grad_norm": 0.2408185601234436,
	"learning_rate": 0.0001203150912106136,
	"loss": 0.3915,
	"step": 2177
	},
	{
	"epoch": 1.2006615214994487,
	"grad_norm": 0.2592547535896301,
	"learning_rate": 0.00012023217247097843,
	"loss": 0.409,
	"step": 2178
	},
	{
	"epoch": 1.201212789415656,
	"grad_norm": 0.2201685607433319,
	"learning_rate": 0.00012014925373134327,
	"loss": 0.381,
	"step": 2179
	},
	{
	"epoch": 1.2017640573318633,
	"grad_norm": 0.23619139194488525,
	"learning_rate": 0.00012006633499170812,
	"loss": 0.3708,
	"step": 2180
	},
	{
	"epoch": 1.2023153252480705,
	"grad_norm": 0.24719634652137756,
	"learning_rate": 0.00011998341625207296,
	"loss": 0.3996,
	"step": 2181
	},
	{
	"epoch": 1.202866593164278,
	"grad_norm": 0.24691031873226166,
	"learning_rate": 0.00011990049751243781,
	"loss": 0.3897,
	"step": 2182
	},
	{
	"epoch": 1.203417861080485,
	"grad_norm": 0.2518804967403412,
	"learning_rate": 0.00011981757877280264,
	"loss": 0.3886,
	"step": 2183
	},
	{
	"epoch": 1.2039691289966923,
	"grad_norm": 0.2279016375541687,
	"learning_rate": 0.00011973466003316749,
	"loss": 0.3791,
	"step": 2184
	},
	{
	"epoch": 1.2045203969128997,
	"grad_norm": 0.24580788612365723,
	"learning_rate": 0.00011965174129353233,
	"loss": 0.4013,
	"step": 2185
	},
	{
	"epoch": 1.2050716648291069,
	"grad_norm": 0.2422635406255722,
	"learning_rate": 0.00011956882255389718,
	"loss": 0.3831,
	"step": 2186
	},
	{
	"epoch": 1.2056229327453143,
	"grad_norm": 0.24743367731571198,
	"learning_rate": 0.00011948590381426202,
	"loss": 0.3939,
	"step": 2187
	},
	{
	"epoch": 1.2061742006615215,
	"grad_norm": 0.24504512548446655,
	"learning_rate": 0.00011940298507462686,
	"loss": 0.3976,
	"step": 2188
	},
	{
	"epoch": 1.2067254685777287,
	"grad_norm": 0.2121214121580124,
	"learning_rate": 0.0001193200663349917,
	"loss": 0.3692,
	"step": 2189
	},
	{
	"epoch": 1.207276736493936,
	"grad_norm": 0.23639699816703796,
	"learning_rate": 0.00011923714759535655,
	"loss": 0.3999,
	"step": 2190
	},
	{
	"epoch": 1.2078280044101433,
	"grad_norm": 0.2503402531147003,
	"learning_rate": 0.00011915422885572139,
	"loss": 0.3807,
	"step": 2191
	},
	{
	"epoch": 1.2083792723263507,
	"grad_norm": 0.2412857562303543,
	"learning_rate": 0.00011907131011608624,
	"loss": 0.397,
	"step": 2192
	},
	{
	"epoch": 1.2089305402425579,
	"grad_norm": 0.2293364554643631,
	"learning_rate": 0.00011898839137645107,
	"loss": 0.3752,
	"step": 2193
	},
	{
	"epoch": 1.209481808158765,
	"grad_norm": 0.23062635958194733,
	"learning_rate": 0.00011890547263681592,
	"loss": 0.3779,
	"step": 2194
	},
	{
	"epoch": 1.2100330760749725,
	"grad_norm": 0.23140175640583038,
	"learning_rate": 0.00011882255389718075,
	"loss": 0.3763,
	"step": 2195
	},
	{
	"epoch": 1.2105843439911796,
	"grad_norm": 0.23366335034370422,
	"learning_rate": 0.0001187396351575456,
	"loss": 0.3959,
	"step": 2196
	},
	{
	"epoch": 1.211135611907387,
	"grad_norm": 0.2382514774799347,
	"learning_rate": 0.00011865671641791043,
	"loss": 0.3876,
	"step": 2197
	},
	{
	"epoch": 1.2116868798235942,
	"grad_norm": 0.23558002710342407,
	"learning_rate": 0.00011857379767827527,
	"loss": 0.4032,
	"step": 2198
	},
	{
	"epoch": 1.2122381477398014,
	"grad_norm": 0.23793788254261017,
	"learning_rate": 0.00011849087893864012,
	"loss": 0.3909,
	"step": 2199
	},
	{
	"epoch": 1.2127894156560088,
	"grad_norm": 0.2181142121553421,
	"learning_rate": 0.00011840796019900496,
	"loss": 0.3923,
	"step": 2200
	},
	{
	"epoch": 1.213340683572216,
	"grad_norm": 0.21802657842636108,
	"learning_rate": 0.00011832504145936981,
	"loss": 0.3795,
	"step": 2201
	},
	{
	"epoch": 1.2138919514884234,
	"grad_norm": 0.2436913102865219,
	"learning_rate": 0.00011824212271973464,
	"loss": 0.3985,
	"step": 2202
	},
	{
	"epoch": 1.2144432194046306,
	"grad_norm": 0.22913113236427307,
	"learning_rate": 0.00011815920398009949,
	"loss": 0.3872,
	"step": 2203
	},
	{
	"epoch": 1.2149944873208378,
	"grad_norm": 0.2223367691040039,
	"learning_rate": 0.00011807628524046433,
	"loss": 0.3905,
	"step": 2204
	},
	{
	"epoch": 1.2155457552370452,
	"grad_norm": 0.23263731598854065,
	"learning_rate": 0.00011799336650082918,
	"loss": 0.4048,
	"step": 2205
	},
	{
	"epoch": 1.2160970231532524,
	"grad_norm": 0.2505498230457306,
	"learning_rate": 0.00011791044776119402,
	"loss": 0.395,
	"step": 2206
	},
	{
	"epoch": 1.2166482910694598,
	"grad_norm": 0.2553291916847229,
	"learning_rate": 0.00011782752902155885,
	"loss": 0.3935,
	"step": 2207
	},
	{
	"epoch": 1.217199558985667,
	"grad_norm": 0.22239425778388977,
	"learning_rate": 0.0001177446102819237,
	"loss": 0.381,
	"step": 2208
	},
	{
	"epoch": 1.2177508269018742,
	"grad_norm": 0.21807150542736053,
	"learning_rate": 0.00011766169154228855,
	"loss": 0.3878,
	"step": 2209
	},
	{
	"epoch": 1.2183020948180816,
	"grad_norm": 0.23478740453720093,
	"learning_rate": 0.00011757877280265339,
	"loss": 0.3815,
	"step": 2210
	},
	{
	"epoch": 1.2188533627342888,
	"grad_norm": 0.23702913522720337,
	"learning_rate": 0.00011749585406301822,
	"loss": 0.4001,
	"step": 2211
	},
	{
	"epoch": 1.2194046306504962,
	"grad_norm": 0.23261341452598572,
	"learning_rate": 0.00011741293532338307,
	"loss": 0.3935,
	"step": 2212
	},
	{
	"epoch": 1.2199558985667034,
	"grad_norm": 0.22314967215061188,
	"learning_rate": 0.00011733001658374791,
	"loss": 0.4048,
	"step": 2213
	},
	{
	"epoch": 1.2205071664829106,
	"grad_norm": 0.23277883231639862,
	"learning_rate": 0.00011724709784411276,
	"loss": 0.3739,
	"step": 2214
	},
	{
	"epoch": 1.221058434399118,
	"grad_norm": 0.24505817890167236,
	"learning_rate": 0.0001171641791044776,
	"loss": 0.3922,
	"step": 2215
	},
	{
	"epoch": 1.2216097023153252,
	"grad_norm": 0.24386508762836456,
	"learning_rate": 0.00011708126036484244,
	"loss": 0.3872,
	"step": 2216
	},
	{
	"epoch": 1.2221609702315326,
	"grad_norm": 0.2437102198600769,
	"learning_rate": 0.00011699834162520728,
	"loss": 0.4048,
	"step": 2217
	},
	{
	"epoch": 1.2227122381477398,
	"grad_norm": 0.22707347571849823,
	"learning_rate": 0.00011691542288557213,
	"loss": 0.3996,
	"step": 2218
	},
	{
	"epoch": 1.223263506063947,
	"grad_norm": 0.23951935768127441,
	"learning_rate": 0.00011683250414593697,
	"loss": 0.399,
	"step": 2219
	},
	{
	"epoch": 1.2238147739801544,
	"grad_norm": 0.27458345890045166,
	"learning_rate": 0.00011674958540630182,
	"loss": 0.4093,
	"step": 2220
	},
	{
	"epoch": 1.2243660418963616,
	"grad_norm": 0.23940932750701904,
	"learning_rate": 0.00011666666666666665,
	"loss": 0.3915,
	"step": 2221
	},
	{
	"epoch": 1.224917309812569,
	"grad_norm": 0.24100755155086517,
	"learning_rate": 0.0001165837479270315,
	"loss": 0.3915,
	"step": 2222
	},
	{
	"epoch": 1.2254685777287762,
	"grad_norm": 0.2423773556947708,
	"learning_rate": 0.00011650082918739634,
	"loss": 0.4061,
	"step": 2223
	},
	{
	"epoch": 1.2260198456449833,
	"grad_norm": 0.2552812099456787,
	"learning_rate": 0.00011641791044776119,
	"loss": 0.3922,
	"step": 2224
	},
	{
	"epoch": 1.2265711135611908,
	"grad_norm": 0.24121615290641785,
	"learning_rate": 0.00011633499170812603,
	"loss": 0.3949,
	"step": 2225
	},
	{
	"epoch": 1.227122381477398,
	"grad_norm": 0.24254634976387024,
	"learning_rate": 0.00011625207296849087,
	"loss": 0.3776,
	"step": 2226
	},
	{
	"epoch": 1.2276736493936053,
	"grad_norm": 0.2757539451122284,
	"learning_rate": 0.00011616915422885571,
	"loss": 0.4181,
	"step": 2227
	},
	{
	"epoch": 1.2282249173098125,
	"grad_norm": 0.25508221983909607,
	"learning_rate": 0.00011608623548922056,
	"loss": 0.4069,
	"step": 2228
	},
	{
	"epoch": 1.2287761852260197,
	"grad_norm": 0.24166013300418854,
	"learning_rate": 0.0001160033167495854,
	"loss": 0.3848,
	"step": 2229
	},
	{
	"epoch": 1.2293274531422271,
	"grad_norm": 0.23408280313014984,
	"learning_rate": 0.00011592039800995025,
	"loss": 0.3867,
	"step": 2230
	},
	{
	"epoch": 1.2298787210584343,
	"grad_norm": 0.2366735339164734,
	"learning_rate": 0.00011583747927031508,
	"loss": 0.407,
	"step": 2231
	},
	{
	"epoch": 1.2304299889746417,
	"grad_norm": 0.247688889503479,
	"learning_rate": 0.00011575456053067993,
	"loss": 0.3898,
	"step": 2232
	},
	{
	"epoch": 1.230981256890849,
	"grad_norm": 0.23416852951049805,
	"learning_rate": 0.00011567164179104477,
	"loss": 0.3871,
	"step": 2233
	},
	{
	"epoch": 1.231532524807056,
	"grad_norm": 0.243104949593544,
	"learning_rate": 0.00011558872305140962,
	"loss": 0.4209,
	"step": 2234
	},
	{
	"epoch": 1.2320837927232635,
	"grad_norm": 0.23723013699054718,
	"learning_rate": 0.00011550580431177446,
	"loss": 0.3867,
	"step": 2235
	},
	{
	"epoch": 1.2326350606394707,
	"grad_norm": 0.2383720874786377,
	"learning_rate": 0.0001154228855721393,
	"loss": 0.3861,
	"step": 2236
	},
	{
	"epoch": 1.2331863285556781,
	"grad_norm": 0.25127896666526794,
	"learning_rate": 0.00011533996683250414,
	"loss": 0.4039,
	"step": 2237
	},
	{
	"epoch": 1.2337375964718853,
	"grad_norm": 0.23529255390167236,
	"learning_rate": 0.00011525704809286899,
	"loss": 0.3838,
	"step": 2238
	},
	{
	"epoch": 1.2342888643880925,
	"grad_norm": 0.2100450098514557,
	"learning_rate": 0.00011517412935323382,
	"loss": 0.3639,
	"step": 2239
	},
	{
	"epoch": 1.2348401323043,
	"grad_norm": 0.24556870758533478,
	"learning_rate": 0.00011509121061359865,
	"loss": 0.3901,
	"step": 2240
	},
	{
	"epoch": 1.235391400220507,
	"grad_norm": 0.2549160420894623,
	"learning_rate": 0.0001150082918739635,
	"loss": 0.3871,
	"step": 2241
	},
	{
	"epoch": 1.2359426681367145,
	"grad_norm": 0.23175586760044098,
	"learning_rate": 0.00011492537313432834,
	"loss": 0.3886,
	"step": 2242
	},
	{
	"epoch": 1.2364939360529217,
	"grad_norm": 0.2296617478132248,
	"learning_rate": 0.00011484245439469319,
	"loss": 0.406,
	"step": 2243
	},
	{
	"epoch": 1.237045203969129,
	"grad_norm": 0.2378944754600525,
	"learning_rate": 0.00011475953565505803,
	"loss": 0.3949,
	"step": 2244
	},
	{
	"epoch": 1.2375964718853363,
	"grad_norm": 0.23094962537288666,
	"learning_rate": 0.00011467661691542286,
	"loss": 0.3875,
	"step": 2245
	},
	{
	"epoch": 1.2381477398015435,
	"grad_norm": 0.22399038076400757,
	"learning_rate": 0.00011459369817578771,
	"loss": 0.4009,
	"step": 2246
	},
	{
	"epoch": 1.2386990077177509,
	"grad_norm": 0.24871258437633514,
	"learning_rate": 0.00011451077943615256,
	"loss": 0.3926,
	"step": 2247
	},
	{
	"epoch": 1.239250275633958,
	"grad_norm": 0.23597979545593262,
	"learning_rate": 0.0001144278606965174,
	"loss": 0.3803,
	"step": 2248
	},
	{
	"epoch": 1.2398015435501655,
	"grad_norm": 0.23361554741859436,
	"learning_rate": 0.00011434494195688225,
	"loss": 0.3994,
	"step": 2249
	},
	{
	"epoch": 1.2403528114663727,
	"grad_norm": 0.2614096999168396,
	"learning_rate": 0.00011426202321724708,
	"loss": 0.3946,
	"step": 2250
	},
	{
	"epoch": 1.2409040793825798,
	"grad_norm": 0.23481406271457672,
	"learning_rate": 0.00011417910447761192,
	"loss": 0.3981,
	"step": 2251
	},
	{
	"epoch": 1.2414553472987873,
	"grad_norm": 0.21524877846240997,
	"learning_rate": 0.00011409618573797677,
	"loss": 0.3725,
	"step": 2252
	},
	{
	"epoch": 1.2420066152149944,
	"grad_norm": 0.2307668924331665,
	"learning_rate": 0.00011401326699834162,
	"loss": 0.3829,
	"step": 2253
	},
	{
	"epoch": 1.2425578831312019,
	"grad_norm": 0.2581194341182709,
	"learning_rate": 0.00011393034825870646,
	"loss": 0.3901,
	"step": 2254
	},
	{
	"epoch": 1.243109151047409,
	"grad_norm": 0.235372856259346,
	"learning_rate": 0.0001138474295190713,
	"loss": 0.3922,
	"step": 2255
	},
	{
	"epoch": 1.2436604189636162,
	"grad_norm": 0.23432569205760956,
	"learning_rate": 0.00011376451077943614,
	"loss": 0.3767,
	"step": 2256
	},
	{
	"epoch": 1.2442116868798236,
	"grad_norm": 0.2407122552394867,
	"learning_rate": 0.00011368159203980098,
	"loss": 0.4207,
	"step": 2257
	},
	{
	"epoch": 1.2447629547960308,
	"grad_norm": 0.25739043951034546,
	"learning_rate": 0.00011359867330016583,
	"loss": 0.3838,
	"step": 2258
	},
	{
	"epoch": 1.2453142227122382,
	"grad_norm": 0.25240135192871094,
	"learning_rate": 0.00011351575456053068,
	"loss": 0.3989,
	"step": 2259
	},
	{
	"epoch": 1.2458654906284454,
	"grad_norm": 0.22552815079689026,
	"learning_rate": 0.00011343283582089551,
	"loss": 0.3848,
	"step": 2260
	},
	{
	"epoch": 1.2464167585446526,
	"grad_norm": 0.2320718765258789,
	"learning_rate": 0.00011334991708126035,
	"loss": 0.382,
	"step": 2261
	},
	{
	"epoch": 1.24696802646086,
	"grad_norm": 0.23423726856708527,
	"learning_rate": 0.0001132669983416252,
	"loss": 0.3817,
	"step": 2262
	},
	{
	"epoch": 1.2475192943770672,
	"grad_norm": 0.22892701625823975,
	"learning_rate": 0.00011318407960199004,
	"loss": 0.3858,
	"step": 2263
	},
	{
	"epoch": 1.2480705622932746,
	"grad_norm": 0.23635762929916382,
	"learning_rate": 0.00011310116086235489,
	"loss": 0.3946,
	"step": 2264
	},
	{
	"epoch": 1.2486218302094818,
	"grad_norm": 0.23909956216812134,
	"learning_rate": 0.00011301824212271972,
	"loss": 0.3826,
	"step": 2265
	},
	{
	"epoch": 1.249173098125689,
	"grad_norm": 0.23733805119991302,
	"learning_rate": 0.00011293532338308457,
	"loss": 0.4215,
	"step": 2266
	},
	{
	"epoch": 1.2497243660418964,
	"grad_norm": 0.2257446050643921,
	"learning_rate": 0.00011285240464344941,
	"loss": 0.3959,
	"step": 2267
	},
	{
	"epoch": 1.2502756339581036,
	"grad_norm": 0.2394627183675766,
	"learning_rate": 0.00011276948590381426,
	"loss": 0.398,
	"step": 2268
	},
	{
	"epoch": 1.2508269018743108,
	"grad_norm": 0.22113938629627228,
	"learning_rate": 0.0001126865671641791,
	"loss": 0.3837,
	"step": 2269
	},
	{
	"epoch": 1.2513781697905182,
	"grad_norm": 0.22951479256153107,
	"learning_rate": 0.00011260364842454394,
	"loss": 0.391,
	"step": 2270
	},
	{
	"epoch": 1.2519294377067256,
	"grad_norm": 0.22468437254428864,
	"learning_rate": 0.00011252072968490878,
	"loss": 0.3788,
	"step": 2271
	},
	{
	"epoch": 1.2524807056229328,
	"grad_norm": 0.21054887771606445,
	"learning_rate": 0.00011243781094527363,
	"loss": 0.3891,
	"step": 2272
	},
	{
	"epoch": 1.25303197353914,
	"grad_norm": 0.2274617701768875,
	"learning_rate": 0.00011235489220563847,
	"loss": 0.3883,
	"step": 2273
	},
	{
	"epoch": 1.2535832414553472,
	"grad_norm": 0.22995011508464813,
	"learning_rate": 0.0001122719734660033,
	"loss": 0.3847,
	"step": 2274
	},
	{
	"epoch": 1.2541345093715546,
	"grad_norm": 0.22627364099025726,
	"learning_rate": 0.00011218905472636815,
	"loss": 0.3924,
	"step": 2275
	},
	{
	"epoch": 1.254685777287762,
	"grad_norm": 0.23559615015983582,
	"learning_rate": 0.000112106135986733,
	"loss": 0.3966,
	"step": 2276
	},
	{
	"epoch": 1.2552370452039692,
	"grad_norm": 0.21304303407669067,
	"learning_rate": 0.00011202321724709784,
	"loss": 0.3624,
	"step": 2277
	},
	{
	"epoch": 1.2557883131201764,
	"grad_norm": 0.241587296128273,
	"learning_rate": 0.00011194029850746269,
	"loss": 0.3719,
	"step": 2278
	},
	{
	"epoch": 1.2563395810363835,
	"grad_norm": 0.22992491722106934,
	"learning_rate": 0.00011185737976782752,
	"loss": 0.4019,
	"step": 2279
	},
	{
	"epoch": 1.256890848952591,
	"grad_norm": 0.2323186844587326,
	"learning_rate": 0.00011177446102819237,
	"loss": 0.3725,
	"step": 2280
	},
	{
	"epoch": 1.2574421168687984,
	"grad_norm": 0.23510509729385376,
	"learning_rate": 0.00011169154228855721,
	"loss": 0.4176,
	"step": 2281
	},
	{
	"epoch": 1.2579933847850056,
	"grad_norm": 0.23601877689361572,
	"learning_rate": 0.00011160862354892206,
	"loss": 0.4036,
	"step": 2282
	},
	{
	"epoch": 1.2585446527012127,
	"grad_norm": 0.23654739558696747,
	"learning_rate": 0.00011152570480928687,
	"loss": 0.403,
	"step": 2283
	},
	{
	"epoch": 1.25909592061742,
	"grad_norm": 0.2428976446390152,
	"learning_rate": 0.00011144278606965172,
	"loss": 0.3703,
	"step": 2284
	},
	{
	"epoch": 1.2596471885336273,
	"grad_norm": 0.23753516376018524,
	"learning_rate": 0.00011135986733001657,
	"loss": 0.3979,
	"step": 2285
	},
	{
	"epoch": 1.2601984564498347,
	"grad_norm": 0.2367447316646576,
	"learning_rate": 0.00011127694859038141,
	"loss": 0.3822,
	"step": 2286
	},
	{
	"epoch": 1.260749724366042,
	"grad_norm": 0.2365788072347641,
	"learning_rate": 0.00011119402985074626,
	"loss": 0.389,
	"step": 2287
	},
	{
	"epoch": 1.2613009922822491,
	"grad_norm": 0.22868278622627258,
	"learning_rate": 0.00011111111111111109,
	"loss": 0.391,
	"step": 2288
	},
	{
	"epoch": 1.2618522601984565,
	"grad_norm": 0.23099401593208313,
	"learning_rate": 0.00011102819237147593,
	"loss": 0.3947,
	"step": 2289
	},
	{
	"epoch": 1.2624035281146637,
	"grad_norm": 0.24031782150268555,
	"learning_rate": 0.00011094527363184078,
	"loss": 0.3839,
	"step": 2290
	},
	{
	"epoch": 1.2629547960308711,
	"grad_norm": 0.2490132451057434,
	"learning_rate": 0.00011086235489220563,
	"loss": 0.3896,
	"step": 2291
	},
	{
	"epoch": 1.2635060639470783,
	"grad_norm": 0.2366219013929367,
	"learning_rate": 0.00011077943615257047,
	"loss": 0.3933,
	"step": 2292
	},
	{
	"epoch": 1.2640573318632855,
	"grad_norm": 0.22578656673431396,
	"learning_rate": 0.0001106965174129353,
	"loss": 0.3723,
	"step": 2293
	},
	{
	"epoch": 1.264608599779493,
	"grad_norm": 0.23483921587467194,
	"learning_rate": 0.00011061359867330015,
	"loss": 0.3895,
	"step": 2294
	},
	{
	"epoch": 1.2651598676957,
	"grad_norm": 0.2586977481842041,
	"learning_rate": 0.000110530679933665,
	"loss": 0.4042,
	"step": 2295
	},
	{
	"epoch": 1.2657111356119075,
	"grad_norm": 0.23051442205905914,
	"learning_rate": 0.00011044776119402984,
	"loss": 0.3862,
	"step": 2296
	},
	{
	"epoch": 1.2662624035281147,
	"grad_norm": 0.2358439564704895,
	"learning_rate": 0.00011036484245439469,
	"loss": 0.3798,
	"step": 2297
	},
	{
	"epoch": 1.2668136714443219,
	"grad_norm": 0.23679201304912567,
	"learning_rate": 0.00011028192371475952,
	"loss": 0.4037,
	"step": 2298
	},
	{
	"epoch": 1.2673649393605293,
	"grad_norm": 0.23940104246139526,
	"learning_rate": 0.00011019900497512436,
	"loss": 0.3898,
	"step": 2299
	},
	{
	"epoch": 1.2679162072767365,
	"grad_norm": 0.23662586510181427,
	"learning_rate": 0.00011011608623548921,
	"loss": 0.4001,
	"step": 2300
	},
	{
	"epoch": 1.268467475192944,
	"grad_norm": 0.23159541189670563,
	"learning_rate": 0.00011003316749585405,
	"loss": 0.3919,
	"step": 2301
	},
	{
	"epoch": 1.269018743109151,
	"grad_norm": 0.21939191222190857,
	"learning_rate": 0.0001099502487562189,
	"loss": 0.3902,
	"step": 2302
	},
	{
	"epoch": 1.2695700110253583,
	"grad_norm": 0.24052447080612183,
	"learning_rate": 0.00010986733001658373,
	"loss": 0.391,
	"step": 2303
	},
	{
	"epoch": 1.2701212789415657,
	"grad_norm": 0.22359569370746613,
	"learning_rate": 0.00010978441127694858,
	"loss": 0.3813,
	"step": 2304
	},
	{
	"epoch": 1.2706725468577729,
	"grad_norm": 0.22367626428604126,
	"learning_rate": 0.00010970149253731342,
	"loss": 0.3873,
	"step": 2305
	},
	{
	"epoch": 1.2712238147739803,
	"grad_norm": 0.24156810343265533,
	"learning_rate": 0.00010961857379767827,
	"loss": 0.3996,
	"step": 2306
	},
	{
	"epoch": 1.2717750826901875,
	"grad_norm": 0.23700320720672607,
	"learning_rate": 0.00010953565505804311,
	"loss": 0.3901,
	"step": 2307
	},
	{
	"epoch": 1.2723263506063947,
	"grad_norm": 0.2303237020969391,
	"learning_rate": 0.00010945273631840795,
	"loss": 0.4031,
	"step": 2308
	},
	{
	"epoch": 1.272877618522602,
	"grad_norm": 0.2249428927898407,
	"learning_rate": 0.00010936981757877279,
	"loss": 0.3942,
	"step": 2309
	},
	{
	"epoch": 1.2734288864388092,
	"grad_norm": 0.2448328137397766,
	"learning_rate": 0.00010928689883913764,
	"loss": 0.3941,
	"step": 2310
	},
	{
	"epoch": 1.2739801543550167,
	"grad_norm": 0.23278410732746124,
	"learning_rate": 0.00010920398009950248,
	"loss": 0.395,
	"step": 2311
	},
	{
	"epoch": 1.2745314222712238,
	"grad_norm": 0.24542638659477234,
	"learning_rate": 0.00010912106135986733,
	"loss": 0.4278,
	"step": 2312
	},
	{
	"epoch": 1.275082690187431,
	"grad_norm": 0.22305360436439514,
	"learning_rate": 0.00010903814262023216,
	"loss": 0.3932,
	"step": 2313
	},
	{
	"epoch": 1.2756339581036384,
	"grad_norm": 0.24365827441215515,
	"learning_rate": 0.00010895522388059701,
	"loss": 0.3963,
	"step": 2314
	},
	{
	"epoch": 1.2761852260198456,
	"grad_norm": 0.24421466886997223,
	"learning_rate": 0.00010887230514096185,
	"loss": 0.3956,
	"step": 2315
	},
	{
	"epoch": 1.276736493936053,
	"grad_norm": 0.24353346228599548,
	"learning_rate": 0.0001087893864013267,
	"loss": 0.3837,
	"step": 2316
	},
	{
	"epoch": 1.2772877618522602,
	"grad_norm": 0.24044160544872284,
	"learning_rate": 0.00010870646766169154,
	"loss": 0.3964,
	"step": 2317
	},
	{
	"epoch": 1.2778390297684674,
	"grad_norm": 0.2651362717151642,
	"learning_rate": 0.00010862354892205638,
	"loss": 0.388,
	"step": 2318
	},
	{
	"epoch": 1.2783902976846748,
	"grad_norm": 0.23700033128261566,
	"learning_rate": 0.00010854063018242122,
	"loss": 0.38,
	"step": 2319
	},
	{
	"epoch": 1.278941565600882,
	"grad_norm": 0.23535655438899994,
	"learning_rate": 0.00010845771144278607,
	"loss": 0.3934,
	"step": 2320
	},
	{
	"epoch": 1.2794928335170894,
	"grad_norm": 0.26524481177330017,
	"learning_rate": 0.00010837479270315091,
	"loss": 0.3875,
	"step": 2321
	},
	{
	"epoch": 1.2800441014332966,
	"grad_norm": 0.24175146222114563,
	"learning_rate": 0.00010829187396351576,
	"loss": 0.3634,
	"step": 2322
	},
	{
	"epoch": 1.2805953693495038,
	"grad_norm": 0.231819286942482,
	"learning_rate": 0.00010820895522388059,
	"loss": 0.388,
	"step": 2323
	},
	{
	"epoch": 1.2811466372657112,
	"grad_norm": 0.21814289689064026,
	"learning_rate": 0.00010812603648424544,
	"loss": 0.3711,
	"step": 2324
	},
	{
	"epoch": 1.2816979051819184,
	"grad_norm": 0.23096728324890137,
	"learning_rate": 0.00010804311774461028,
	"loss": 0.3974,
	"step": 2325
	},
	{
	"epoch": 1.2822491730981258,
	"grad_norm": 0.24553930759429932,
	"learning_rate": 0.00010796019900497513,
	"loss": 0.3897,
	"step": 2326
	},
	{
	"epoch": 1.282800441014333,
	"grad_norm": 0.23141168057918549,
	"learning_rate": 0.00010787728026533995,
	"loss": 0.3898,
	"step": 2327
	},
	{
	"epoch": 1.2833517089305402,
	"grad_norm": 0.23394468426704407,
	"learning_rate": 0.00010779436152570479,
	"loss": 0.4049,
	"step": 2328
	},
	{
	"epoch": 1.2839029768467476,
	"grad_norm": 0.2231445461511612,
	"learning_rate": 0.00010771144278606964,
	"loss": 0.3911,
	"step": 2329
	},
	{
	"epoch": 1.2844542447629548,
	"grad_norm": 0.2506980299949646,
	"learning_rate": 0.00010762852404643448,
	"loss": 0.423,
	"step": 2330
	},
	{
	"epoch": 1.2850055126791622,
	"grad_norm": 0.23698961734771729,
	"learning_rate": 0.00010754560530679931,
	"loss": 0.4046,
	"step": 2331
	},
	{
	"epoch": 1.2855567805953694,
	"grad_norm": 0.24735629558563232,
	"learning_rate": 0.00010746268656716416,
	"loss": 0.4078,
	"step": 2332
	},
	{
	"epoch": 1.2861080485115766,
	"grad_norm": 0.25394487380981445,
	"learning_rate": 0.000107379767827529,
	"loss": 0.4027,
	"step": 2333
	},
	{
	"epoch": 1.286659316427784,
	"grad_norm": 0.24036946892738342,
	"learning_rate": 0.00010729684908789385,
	"loss": 0.4042,
	"step": 2334
	},
	{
	"epoch": 1.2872105843439912,
	"grad_norm": 0.24319007992744446,
	"learning_rate": 0.0001072139303482587,
	"loss": 0.3901,
	"step": 2335
	},
	{
	"epoch": 1.2877618522601986,
	"grad_norm": 0.23505842685699463,
	"learning_rate": 0.00010713101160862353,
	"loss": 0.3914,
	"step": 2336
	},
	{
	"epoch": 1.2883131201764058,
	"grad_norm": 0.24473319947719574,
	"learning_rate": 0.00010704809286898837,
	"loss": 0.4098,
	"step": 2337
	},
	{
	"epoch": 1.288864388092613,
	"grad_norm": 0.24411208927631378,
	"learning_rate": 0.00010696517412935322,
	"loss": 0.4158,
	"step": 2338
	},
	{
	"epoch": 1.2894156560088204,
	"grad_norm": 0.2365306317806244,
	"learning_rate": 0.00010688225538971807,
	"loss": 0.3955,
	"step": 2339
	},
	{
	"epoch": 1.2899669239250275,
	"grad_norm": 0.23471403121948242,
	"learning_rate": 0.00010679933665008291,
	"loss": 0.3796,
	"step": 2340
	},
	{
	"epoch": 1.290518191841235,
	"grad_norm": 0.22727487981319427,
	"learning_rate": 0.00010671641791044774,
	"loss": 0.4044,
	"step": 2341
	},
	{
	"epoch": 1.2910694597574421,
	"grad_norm": 0.22571586072444916,
	"learning_rate": 0.00010663349917081259,
	"loss": 0.3551,
	"step": 2342
	},
	{
	"epoch": 1.2916207276736493,
	"grad_norm": 0.24545998871326447,
	"learning_rate": 0.00010655058043117743,
	"loss": 0.4144,
	"step": 2343
	},
	{
	"epoch": 1.2921719955898567,
	"grad_norm": 0.2357962727546692,
	"learning_rate": 0.00010646766169154228,
	"loss": 0.391,
	"step": 2344
	},
	{
	"epoch": 1.292723263506064,
	"grad_norm": 0.23277200758457184,
	"learning_rate": 0.00010638474295190713,
	"loss": 0.4027,
	"step": 2345
	},
	{
	"epoch": 1.2932745314222713,
	"grad_norm": 0.2385130524635315,
	"learning_rate": 0.00010630182421227196,
	"loss": 0.4039,
	"step": 2346
	},
	{
	"epoch": 1.2938257993384785,
	"grad_norm": 0.21902373433113098,
	"learning_rate": 0.0001062189054726368,
	"loss": 0.3699,
	"step": 2347
	},
	{
	"epoch": 1.2943770672546857,
	"grad_norm": 0.23025818169116974,
	"learning_rate": 0.00010613598673300165,
	"loss": 0.3822,
	"step": 2348
	},
	{
	"epoch": 1.2949283351708931,
	"grad_norm": 0.2286684513092041,
	"learning_rate": 0.0001060530679933665,
	"loss": 0.401,
	"step": 2349
	},
	{
	"epoch": 1.2954796030871003,
	"grad_norm": 0.23381029069423676,
	"learning_rate": 0.00010597014925373134,
	"loss": 0.3991,
	"step": 2350
	},
	{
	"epoch": 1.2960308710033077,
	"grad_norm": 0.23572219908237457,
	"learning_rate": 0.00010588723051409617,
	"loss": 0.3993,
	"step": 2351
	},
	{
	"epoch": 1.296582138919515,
	"grad_norm": 0.22969138622283936,
	"learning_rate": 0.00010580431177446102,
	"loss": 0.3859,
	"step": 2352
	},
	{
	"epoch": 1.297133406835722,
	"grad_norm": 0.24054940044879913,
	"learning_rate": 0.00010572139303482586,
	"loss": 0.4137,
	"step": 2353
	},
	{
	"epoch": 1.2976846747519295,
	"grad_norm": 0.235767662525177,
	"learning_rate": 0.00010563847429519071,
	"loss": 0.377,
	"step": 2354
	},
	{
	"epoch": 1.2982359426681367,
	"grad_norm": 0.22807767987251282,
	"learning_rate": 0.00010555555555555555,
	"loss": 0.3974,
	"step": 2355
	},
	{
	"epoch": 1.298787210584344,
	"grad_norm": 0.22131551802158356,
	"learning_rate": 0.00010547263681592039,
	"loss": 0.4002,
	"step": 2356
	},
	{
	"epoch": 1.2993384785005513,
	"grad_norm": 0.24462686479091644,
	"learning_rate": 0.00010538971807628523,
	"loss": 0.4169,
	"step": 2357
	},
	{
	"epoch": 1.2998897464167585,
	"grad_norm": 0.24126161634922028,
	"learning_rate": 0.00010530679933665008,
	"loss": 0.3846,
	"step": 2358
	},
	{
	"epoch": 1.3004410143329659,
	"grad_norm": 0.2536928951740265,
	"learning_rate": 0.00010522388059701492,
	"loss": 0.3883,
	"step": 2359
	},
	{
	"epoch": 1.300992282249173,
	"grad_norm": 0.23638053238391876,
	"learning_rate": 0.00010514096185737977,
	"loss": 0.3916,
	"step": 2360
	},
	{
	"epoch": 1.3015435501653805,
	"grad_norm": 0.21713566780090332,
	"learning_rate": 0.0001050580431177446,
	"loss": 0.382,
	"step": 2361
	},
	{
	"epoch": 1.3020948180815877,
	"grad_norm": 0.23291055858135223,
	"learning_rate": 0.00010497512437810945,
	"loss": 0.3831,
	"step": 2362
	},
	{
	"epoch": 1.3026460859977949,
	"grad_norm": 0.2169044464826584,
	"learning_rate": 0.00010489220563847429,
	"loss": 0.3705,
	"step": 2363
	},
	{
	"epoch": 1.3031973539140023,
	"grad_norm": 0.23216962814331055,
	"learning_rate": 0.00010480928689883914,
	"loss": 0.3691,
	"step": 2364
	},
	{
	"epoch": 1.3037486218302095,
	"grad_norm": 0.2367962896823883,
	"learning_rate": 0.00010472636815920398,
	"loss": 0.4011,
	"step": 2365
	},
	{
	"epoch": 1.3042998897464169,
	"grad_norm": 0.22988784313201904,
	"learning_rate": 0.00010464344941956881,
	"loss": 0.3904,
	"step": 2366
	},
	{
	"epoch": 1.304851157662624,
	"grad_norm": 0.21731241047382355,
	"learning_rate": 0.00010456053067993366,
	"loss": 0.3815,
	"step": 2367
	},
	{
	"epoch": 1.3054024255788312,
	"grad_norm": 0.25733426213264465,
	"learning_rate": 0.0001044776119402985,
	"loss": 0.4253,
	"step": 2368
	},
	{
	"epoch": 1.3059536934950386,
	"grad_norm": 0.23438294231891632,
	"learning_rate": 0.00010439469320066335,
	"loss": 0.4041,
	"step": 2369
	},
	{
	"epoch": 1.3065049614112458,
	"grad_norm": 0.22011101245880127,
	"learning_rate": 0.0001043117744610282,
	"loss": 0.3948,
	"step": 2370
	},
	{
	"epoch": 1.3070562293274532,
	"grad_norm": 0.2404097616672516,
	"learning_rate": 0.00010422885572139302,
	"loss": 0.3996,
	"step": 2371
	},
	{
	"epoch": 1.3076074972436604,
	"grad_norm": 0.23479090631008148,
	"learning_rate": 0.00010414593698175786,
	"loss": 0.4048,
	"step": 2372
	},
	{
	"epoch": 1.3081587651598676,
	"grad_norm": 0.22892162203788757,
	"learning_rate": 0.0001040630182421227,
	"loss": 0.3751,
	"step": 2373
	},
	{
	"epoch": 1.308710033076075,
	"grad_norm": 0.22712910175323486,
	"learning_rate": 0.00010398009950248755,
	"loss": 0.3777,
	"step": 2374
	},
	{
	"epoch": 1.3092613009922822,
	"grad_norm": 0.22894370555877686,
	"learning_rate": 0.00010389718076285238,
	"loss": 0.3936,
	"step": 2375
	},
	{
	"epoch": 1.3098125689084896,
	"grad_norm": 0.24097605049610138,
	"learning_rate": 0.00010381426202321723,
	"loss": 0.3693,
	"step": 2376
	},
	{
	"epoch": 1.3103638368246968,
	"grad_norm": 0.23055890202522278,
	"learning_rate": 0.00010373134328358208,
	"loss": 0.3777,
	"step": 2377
	},
	{
	"epoch": 1.310915104740904,
	"grad_norm": 0.23357531428337097,
	"learning_rate": 0.00010364842454394692,
	"loss": 0.3945,
	"step": 2378
	},
	{
	"epoch": 1.3114663726571114,
	"grad_norm": 0.2378157526254654,
	"learning_rate": 0.00010356550580431177,
	"loss": 0.4077,
	"step": 2379
	},
	{
	"epoch": 1.3120176405733186,
	"grad_norm": 0.2348390370607376,
	"learning_rate": 0.0001034825870646766,
	"loss": 0.3905,
	"step": 2380
	},
	{
	"epoch": 1.312568908489526,
	"grad_norm": 0.24251805245876312,
	"learning_rate": 0.00010339966832504144,
	"loss": 0.4174,
	"step": 2381
	},
	{
	"epoch": 1.3131201764057332,
	"grad_norm": 0.23102574050426483,
	"learning_rate": 0.00010331674958540629,
	"loss": 0.3856,
	"step": 2382
	},
	{
	"epoch": 1.3136714443219404,
	"grad_norm": 0.2383720427751541,
	"learning_rate": 0.00010323383084577114,
	"loss": 0.3932,
	"step": 2383
	},
	{
	"epoch": 1.3142227122381478,
	"grad_norm": 0.22161129117012024,
	"learning_rate": 0.00010315091210613598,
	"loss": 0.396,
	"step": 2384
	},
	{
	"epoch": 1.314773980154355,
	"grad_norm": 0.2228018343448639,
	"learning_rate": 0.00010306799336650081,
	"loss": 0.3862,
	"step": 2385
	},
	{
	"epoch": 1.3153252480705624,
	"grad_norm": 0.22873203456401825,
	"learning_rate": 0.00010298507462686566,
	"loss": 0.3513,
	"step": 2386
	},
	{
	"epoch": 1.3158765159867696,
	"grad_norm": 0.23780828714370728,
	"learning_rate": 0.0001029021558872305,
	"loss": 0.3888,
	"step": 2387
	},
	{
	"epoch": 1.3164277839029768,
	"grad_norm": 0.2447124868631363,
	"learning_rate": 0.00010281923714759535,
	"loss": 0.4046,
	"step": 2388
	},
	{
	"epoch": 1.3169790518191842,
	"grad_norm": 0.24726513028144836,
	"learning_rate": 0.0001027363184079602,
	"loss": 0.4086,
	"step": 2389
	},
	{
	"epoch": 1.3175303197353914,
	"grad_norm": 0.2359735518693924,
	"learning_rate": 0.00010265339966832503,
	"loss": 0.4015,
	"step": 2390
	},
	{
	"epoch": 1.3180815876515988,
	"grad_norm": 0.23657964169979095,
	"learning_rate": 0.00010257048092868987,
	"loss": 0.3859,
	"step": 2391
	},
	{
	"epoch": 1.318632855567806,
	"grad_norm": 0.23830877244472504,
	"learning_rate": 0.00010248756218905472,
	"loss": 0.3864,
	"step": 2392
	},
	{
	"epoch": 1.3191841234840131,
	"grad_norm": 0.2303212434053421,
	"learning_rate": 0.00010240464344941956,
	"loss": 0.4036,
	"step": 2393
	},
	{
	"epoch": 1.3197353914002206,
	"grad_norm": 0.2221781462430954,
	"learning_rate": 0.0001023217247097844,
	"loss": 0.3712,
	"step": 2394
	},
	{
	"epoch": 1.3202866593164277,
	"grad_norm": 0.22085942327976227,
	"learning_rate": 0.00010223880597014924,
	"loss": 0.3708,
	"step": 2395
	},
	{
	"epoch": 1.3208379272326352,
	"grad_norm": 0.24135445058345795,
	"learning_rate": 0.00010215588723051409,
	"loss": 0.3896,
	"step": 2396
	},
	{
	"epoch": 1.3213891951488423,
	"grad_norm": 0.24116064608097076,
	"learning_rate": 0.00010207296849087893,
	"loss": 0.3866,
	"step": 2397
	},
	{
	"epoch": 1.3219404630650495,
	"grad_norm": 0.26890698075294495,
	"learning_rate": 0.00010199004975124378,
	"loss": 0.3795,
	"step": 2398
	},
	{
	"epoch": 1.322491730981257,
	"grad_norm": 0.2322501391172409,
	"learning_rate": 0.00010190713101160861,
	"loss": 0.3837,
	"step": 2399
	},
	{
	"epoch": 1.3230429988974641,
	"grad_norm": 0.24631264805793762,
	"learning_rate": 0.00010182421227197346,
	"loss": 0.3954,
	"step": 2400
	},
	{
	"epoch": 1.3235942668136715,
	"grad_norm": 0.2258647084236145,
	"learning_rate": 0.0001017412935323383,
	"loss": 0.3705,
	"step": 2401
	},
	{
	"epoch": 1.3241455347298787,
	"grad_norm": 0.2519420087337494,
	"learning_rate": 0.00010165837479270315,
	"loss": 0.3921,
	"step": 2402
	},
	{
	"epoch": 1.324696802646086,
	"grad_norm": 0.23400020599365234,
	"learning_rate": 0.00010157545605306799,
	"loss": 0.3702,
	"step": 2403
	},
	{
	"epoch": 1.3252480705622933,
	"grad_norm": 0.22752946615219116,
	"learning_rate": 0.00010149253731343282,
	"loss": 0.3756,
	"step": 2404
	},
	{
	"epoch": 1.3257993384785005,
	"grad_norm": 0.24144931137561798,
	"learning_rate": 0.00010140961857379767,
	"loss": 0.41,
	"step": 2405
	},
	{
	"epoch": 1.326350606394708,
	"grad_norm": 0.24649466574192047,
	"learning_rate": 0.00010132669983416252,
	"loss": 0.4227,
	"step": 2406
	},
	{
	"epoch": 1.326901874310915,
	"grad_norm": 0.22007010877132416,
	"learning_rate": 0.00010124378109452736,
	"loss": 0.3802,
	"step": 2407
	},
	{
	"epoch": 1.3274531422271223,
	"grad_norm": 0.2177124321460724,
	"learning_rate": 0.00010116086235489221,
	"loss": 0.3733,
	"step": 2408
	},
	{
	"epoch": 1.3280044101433297,
	"grad_norm": 0.23224158585071564,
	"learning_rate": 0.00010107794361525704,
	"loss": 0.3774,
	"step": 2409
	},
	{
	"epoch": 1.328555678059537,
	"grad_norm": 0.24728813767433167,
	"learning_rate": 0.00010099502487562188,
	"loss": 0.3926,
	"step": 2410
	},
	{
	"epoch": 1.3291069459757443,
	"grad_norm": 0.22190050780773163,
	"learning_rate": 0.00010091210613598673,
	"loss": 0.3826,
	"step": 2411
	},
	{
	"epoch": 1.3296582138919515,
	"grad_norm": 0.23956191539764404,
	"learning_rate": 0.00010082918739635158,
	"loss": 0.3982,
	"step": 2412
	},
	{
	"epoch": 1.3302094818081587,
	"grad_norm": 0.23789376020431519,
	"learning_rate": 0.00010074626865671642,
	"loss": 0.4032,
	"step": 2413
	},
	{
	"epoch": 1.330760749724366,
	"grad_norm": 0.24080632627010345,
	"learning_rate": 0.00010066334991708125,
	"loss": 0.3974,
	"step": 2414
	},
	{
	"epoch": 1.3313120176405733,
	"grad_norm": 0.22118644416332245,
	"learning_rate": 0.00010058043117744609,
	"loss": 0.3848,
	"step": 2415
	},
	{
	"epoch": 1.3318632855567807,
	"grad_norm": 0.24440258741378784,
	"learning_rate": 0.00010049751243781093,
	"loss": 0.3801,
	"step": 2416
	},
	{
	"epoch": 1.3324145534729879,
	"grad_norm": 0.23864087462425232,
	"learning_rate": 0.00010041459369817578,
	"loss": 0.4019,
	"step": 2417
	},
	{
	"epoch": 1.332965821389195,
	"grad_norm": 0.2365901917219162,
	"learning_rate": 0.00010033167495854061,
	"loss": 0.3827,
	"step": 2418
	},
	{
	"epoch": 1.3335170893054025,
	"grad_norm": 0.22480501234531403,
	"learning_rate": 0.00010024875621890545,
	"loss": 0.3696,
	"step": 2419
	},
	{
	"epoch": 1.3340683572216097,
	"grad_norm": 0.23156774044036865,
	"learning_rate": 0.0001001658374792703,
	"loss": 0.3803,
	"step": 2420
	},
	{
	"epoch": 1.334619625137817,
	"grad_norm": 0.22590211033821106,
	"learning_rate": 0.00010008291873963515,
	"loss": 0.387,
	"step": 2421
	},
	{
	"epoch": 1.3351708930540243,
	"grad_norm": 0.2270091325044632,
	"learning_rate": 9.999999999999999e-05,
	"loss": 0.381,
	"step": 2422
	},
	{
	"epoch": 1.3357221609702314,
	"grad_norm": 0.22601434588432312,
	"learning_rate": 9.991708126036482e-05,
	"loss": 0.3907,
	"step": 2423
	},
	{
	"epoch": 1.3362734288864389,
	"grad_norm": 0.2249268740415573,
	"learning_rate": 9.983416252072967e-05,
	"loss": 0.3794,
	"step": 2424
	},
	{
	"epoch": 1.336824696802646,
	"grad_norm": 0.2406623363494873,
	"learning_rate": 9.975124378109451e-05,
	"loss": 0.3912,
	"step": 2425
	},
	{
	"epoch": 1.3373759647188534,
	"grad_norm": 0.24089276790618896,
	"learning_rate": 9.966832504145936e-05,
	"loss": 0.3997,
	"step": 2426
	},
	{
	"epoch": 1.3379272326350606,
	"grad_norm": 0.2207108587026596,
	"learning_rate": 9.95854063018242e-05,
	"loss": 0.3804,
	"step": 2427
	},
	{
	"epoch": 1.3384785005512678,
	"grad_norm": 0.21747317910194397,
	"learning_rate": 9.950248756218904e-05,
	"loss": 0.3808,
	"step": 2428
	},
	{
	"epoch": 1.3390297684674752,
	"grad_norm": 0.2578473687171936,
	"learning_rate": 9.941956882255388e-05,
	"loss": 0.4195,
	"step": 2429
	},
	{
	"epoch": 1.3395810363836824,
	"grad_norm": 0.22663085162639618,
	"learning_rate": 9.933665008291873e-05,
	"loss": 0.3877,
	"step": 2430
	},
	{
	"epoch": 1.3401323042998898,
	"grad_norm": 0.24075528979301453,
	"learning_rate": 9.925373134328357e-05,
	"loss": 0.405,
	"step": 2431
	},
	{
	"epoch": 1.340683572216097,
	"grad_norm": 0.22877177596092224,
	"learning_rate": 9.917081260364842e-05,
	"loss": 0.382,
	"step": 2432
	},
	{
	"epoch": 1.3412348401323042,
	"grad_norm": 0.22892452776432037,
	"learning_rate": 9.908789386401325e-05,
	"loss": 0.3812,
	"step": 2433
	},
	{
	"epoch": 1.3417861080485116,
	"grad_norm": 0.24187688529491425,
	"learning_rate": 9.90049751243781e-05,
	"loss": 0.3825,
	"step": 2434
	},
	{
	"epoch": 1.3423373759647188,
	"grad_norm": 0.22903688251972198,
	"learning_rate": 9.892205638474294e-05,
	"loss": 0.3878,
	"step": 2435
	},
	{
	"epoch": 1.3428886438809262,
	"grad_norm": 0.22924572229385376,
	"learning_rate": 9.883913764510779e-05,
	"loss": 0.388,
	"step": 2436
	},
	{
	"epoch": 1.3434399117971334,
	"grad_norm": 0.24021534621715546,
	"learning_rate": 9.875621890547263e-05,
	"loss": 0.4031,
	"step": 2437
	},
	{
	"epoch": 1.3439911797133406,
	"grad_norm": 0.23757272958755493,
	"learning_rate": 9.867330016583747e-05,
	"loss": 0.3934,
	"step": 2438
	},
	{
	"epoch": 1.344542447629548,
	"grad_norm": 0.2555783987045288,
	"learning_rate": 9.859038142620231e-05,
	"loss": 0.3988,
	"step": 2439
	},
	{
	"epoch": 1.3450937155457552,
	"grad_norm": 0.23108243942260742,
	"learning_rate": 9.850746268656716e-05,
	"loss": 0.379,
	"step": 2440
	},
	{
	"epoch": 1.3456449834619626,
	"grad_norm": 0.24363455176353455,
	"learning_rate": 9.8424543946932e-05,
	"loss": 0.3939,
	"step": 2441
	},
	{
	"epoch": 1.3461962513781698,
	"grad_norm": 0.2295197993516922,
	"learning_rate": 9.834162520729685e-05,
	"loss": 0.3799,
	"step": 2442
	},
	{
	"epoch": 1.346747519294377,
	"grad_norm": 0.23563653230667114,
	"learning_rate": 9.825870646766168e-05,
	"loss": 0.3755,
	"step": 2443
	},
	{
	"epoch": 1.3472987872105844,
	"grad_norm": 0.2241990715265274,
	"learning_rate": 9.817578772802653e-05,
	"loss": 0.3794,
	"step": 2444
	},
	{
	"epoch": 1.3478500551267916,
	"grad_norm": 0.2593122124671936,
	"learning_rate": 9.809286898839137e-05,
	"loss": 0.3766,
	"step": 2445
	},
	{
	"epoch": 1.348401323042999,
	"grad_norm": 0.22955520451068878,
	"learning_rate": 9.800995024875622e-05,
	"loss": 0.3787,
	"step": 2446
	},
	{
	"epoch": 1.3489525909592062,
	"grad_norm": 0.23866330087184906,
	"learning_rate": 9.792703150912106e-05,
	"loss": 0.3955,
	"step": 2447
	},
	{
	"epoch": 1.3495038588754134,
	"grad_norm": 0.24115972220897675,
	"learning_rate": 9.78441127694859e-05,
	"loss": 0.3811,
	"step": 2448
	},
	{
	"epoch": 1.3500551267916208,
	"grad_norm": 0.23597833514213562,
	"learning_rate": 9.776119402985074e-05,
	"loss": 0.3831,
	"step": 2449
	},
	{
	"epoch": 1.350606394707828,
	"grad_norm": 0.2415011078119278,
	"learning_rate": 9.767827529021559e-05,
	"loss": 0.3896,
	"step": 2450
	},
	{
	"epoch": 1.3511576626240354,
	"grad_norm": 0.2416457235813141,
	"learning_rate": 9.759535655058043e-05,
	"loss": 0.3888,
	"step": 2451
	},
	{
	"epoch": 1.3517089305402425,
	"grad_norm": 0.23950545489788055,
	"learning_rate": 9.751243781094528e-05,
	"loss": 0.3942,
	"step": 2452
	},
	{
	"epoch": 1.3522601984564497,
	"grad_norm": 0.24059046804904938,
	"learning_rate": 9.742951907131011e-05,
	"loss": 0.4005,
	"step": 2453
	},
	{
	"epoch": 1.3528114663726571,
	"grad_norm": 0.2414311021566391,
	"learning_rate": 9.734660033167496e-05,
	"loss": 0.3795,
	"step": 2454
	},
	{
	"epoch": 1.3533627342888643,
	"grad_norm": 0.23370300233364105,
	"learning_rate": 9.72636815920398e-05,
	"loss": 0.3728,
	"step": 2455
	},
	{
	"epoch": 1.3539140022050717,
	"grad_norm": 0.23373939096927643,
	"learning_rate": 9.718076285240465e-05,
	"loss": 0.3925,
	"step": 2456
	},
	{
	"epoch": 1.354465270121279,
	"grad_norm": 0.22576579451560974,
	"learning_rate": 9.709784411276948e-05,
	"loss": 0.3787,
	"step": 2457
	},
	{
	"epoch": 1.3550165380374861,
	"grad_norm": 0.22904476523399353,
	"learning_rate": 9.701492537313432e-05,
	"loss": 0.3939,
	"step": 2458
	},
	{
	"epoch": 1.3555678059536935,
	"grad_norm": 0.24833030998706818,
	"learning_rate": 9.693200663349916e-05,
	"loss": 0.394,
	"step": 2459
	},
	{
	"epoch": 1.3561190738699007,
	"grad_norm": 0.22664152085781097,
	"learning_rate": 9.6849087893864e-05,
	"loss": 0.363,
	"step": 2460
	},
	{
	"epoch": 1.3566703417861081,
	"grad_norm": 0.23569191992282867,
	"learning_rate": 9.676616915422883e-05,
	"loss": 0.3823,
	"step": 2461
	},
	{
	"epoch": 1.3572216097023153,
	"grad_norm": 0.23659692704677582,
	"learning_rate": 9.668325041459368e-05,
	"loss": 0.3879,
	"step": 2462
	},
	{
	"epoch": 1.3577728776185225,
	"grad_norm": 0.22711534798145294,
	"learning_rate": 9.660033167495852e-05,
	"loss": 0.3761,
	"step": 2463
	},
	{
	"epoch": 1.35832414553473,
	"grad_norm": 0.23172332346439362,
	"learning_rate": 9.651741293532337e-05,
	"loss": 0.3774,
	"step": 2464
	},
	{
	"epoch": 1.358875413450937,
	"grad_norm": 0.23141370713710785,
	"learning_rate": 9.643449419568822e-05,
	"loss": 0.3976,
	"step": 2465
	},
	{
	"epoch": 1.3594266813671445,
	"grad_norm": 0.24368800222873688,
	"learning_rate": 9.635157545605305e-05,
	"loss": 0.3843,
	"step": 2466
	},
	{
	"epoch": 1.3599779492833517,
	"grad_norm": 0.22588768601417542,
	"learning_rate": 9.62686567164179e-05,
	"loss": 0.3798,
	"step": 2467
	},
	{
	"epoch": 1.3605292171995589,
	"grad_norm": 0.2269313633441925,
	"learning_rate": 9.618573797678274e-05,
	"loss": 0.3874,
	"step": 2468
	},
	{
	"epoch": 1.3610804851157663,
	"grad_norm": 0.23487702012062073,
	"learning_rate": 9.610281923714758e-05,
	"loss": 0.3888,
	"step": 2469
	},
	{
	"epoch": 1.3616317530319735,
	"grad_norm": 0.2513071894645691,
	"learning_rate": 9.601990049751243e-05,
	"loss": 0.4122,
	"step": 2470
	},
	{
	"epoch": 1.362183020948181,
	"grad_norm": 0.21708211302757263,
	"learning_rate": 9.593698175787726e-05,
	"loss": 0.3597,
	"step": 2471
	},
	{
	"epoch": 1.362734288864388,
	"grad_norm": 0.2279457300901413,
	"learning_rate": 9.585406301824211e-05,
	"loss": 0.3834,
	"step": 2472
	},
	{
	"epoch": 1.3632855567805953,
	"grad_norm": 0.22766946256160736,
	"learning_rate": 9.577114427860695e-05,
	"loss": 0.3682,
	"step": 2473
	},
	{
	"epoch": 1.3638368246968027,
	"grad_norm": 0.22673630714416504,
	"learning_rate": 9.56882255389718e-05,
	"loss": 0.3823,
	"step": 2474
	},
	{
	"epoch": 1.3643880926130099,
	"grad_norm": 0.23767007887363434,
	"learning_rate": 9.560530679933664e-05,
	"loss": 0.3991,
	"step": 2475
	},
	{
	"epoch": 1.3649393605292173,
	"grad_norm": 0.2326952964067459,
	"learning_rate": 9.552238805970148e-05,
	"loss": 0.39,
	"step": 2476
	},
	{
	"epoch": 1.3654906284454245,
	"grad_norm": 0.2336025983095169,
	"learning_rate": 9.543946932006632e-05,
	"loss": 0.3748,
	"step": 2477
	},
	{
	"epoch": 1.3660418963616316,
	"grad_norm": 0.23857955634593964,
	"learning_rate": 9.535655058043117e-05,
	"loss": 0.4077,
	"step": 2478
	},
	{
	"epoch": 1.366593164277839,
	"grad_norm": 0.22810246050357819,
	"learning_rate": 9.527363184079601e-05,
	"loss": 0.406,
	"step": 2479
	},
	{
	"epoch": 1.3671444321940462,
	"grad_norm": 0.23381425440311432,
	"learning_rate": 9.519071310116086e-05,
	"loss": 0.395,
	"step": 2480
	},
	{
	"epoch": 1.3676957001102537,
	"grad_norm": 0.21443428099155426,
	"learning_rate": 9.510779436152569e-05,
	"loss": 0.3772,
	"step": 2481
	},
	{
	"epoch": 1.3682469680264608,
	"grad_norm": 0.23185119032859802,
	"learning_rate": 9.502487562189054e-05,
	"loss": 0.3892,
	"step": 2482
	},
	{
	"epoch": 1.368798235942668,
	"grad_norm": 0.2298753708600998,
	"learning_rate": 9.494195688225538e-05,
	"loss": 0.3891,
	"step": 2483
	},
	{
	"epoch": 1.3693495038588754,
	"grad_norm": 0.216232031583786,
	"learning_rate": 9.485903814262023e-05,
	"loss": 0.382,
	"step": 2484
	},
	{
	"epoch": 1.3699007717750826,
	"grad_norm": 0.23376402258872986,
	"learning_rate": 9.477611940298507e-05,
	"loss": 0.3992,
	"step": 2485
	},
	{
	"epoch": 1.37045203969129,
	"grad_norm": 0.2535459101200104,
	"learning_rate": 9.46932006633499e-05,
	"loss": 0.3957,
	"step": 2486
	},
	{
	"epoch": 1.3710033076074972,
	"grad_norm": 0.22214862704277039,
	"learning_rate": 9.461028192371475e-05,
	"loss": 0.3713,
	"step": 2487
	},
	{
	"epoch": 1.3715545755237044,
	"grad_norm": 0.23064962029457092,
	"learning_rate": 9.45273631840796e-05,
	"loss": 0.3821,
	"step": 2488
	},
	{
	"epoch": 1.3721058434399118,
	"grad_norm": 0.249479740858078,
	"learning_rate": 9.444444444444444e-05,
	"loss": 0.3837,
	"step": 2489
	},
	{
	"epoch": 1.372657111356119,
	"grad_norm": 0.22704121470451355,
	"learning_rate": 9.436152570480929e-05,
	"loss": 0.3931,
	"step": 2490
	},
	{
	"epoch": 1.3732083792723264,
	"grad_norm": 0.23015405237674713,
	"learning_rate": 9.427860696517412e-05,
	"loss": 0.4049,
	"step": 2491
	},
	{
	"epoch": 1.3737596471885336,
	"grad_norm": 0.23387496173381805,
	"learning_rate": 9.419568822553897e-05,
	"loss": 0.3727,
	"step": 2492
	},
	{
	"epoch": 1.3743109151047408,
	"grad_norm": 0.21825988590717316,
	"learning_rate": 9.411276948590381e-05,
	"loss": 0.382,
	"step": 2493
	},
	{
	"epoch": 1.3748621830209482,
	"grad_norm": 0.2230725735425949,
	"learning_rate": 9.402985074626866e-05,
	"loss": 0.3935,
	"step": 2494
	},
	{
	"epoch": 1.3754134509371554,
	"grad_norm": 0.22703075408935547,
	"learning_rate": 9.39469320066335e-05,
	"loss": 0.3848,
	"step": 2495
	},
	{
	"epoch": 1.3759647188533628,
	"grad_norm": 0.2219892293214798,
	"learning_rate": 9.386401326699833e-05,
	"loss": 0.3898,
	"step": 2496
	},
	{
	"epoch": 1.37651598676957,
	"grad_norm": 0.23172403872013092,
	"learning_rate": 9.378109452736318e-05,
	"loss": 0.3861,
	"step": 2497
	},
	{
	"epoch": 1.3770672546857772,
	"grad_norm": 0.23237434029579163,
	"learning_rate": 9.369817578772803e-05,
	"loss": 0.3705,
	"step": 2498
	},
	{
	"epoch": 1.3776185226019846,
	"grad_norm": 0.2246798872947693,
	"learning_rate": 9.361525704809287e-05,
	"loss": 0.3679,
	"step": 2499
	},
	{
	"epoch": 1.3781697905181918,
	"grad_norm": 0.2427067756652832,
	"learning_rate": 9.353233830845772e-05,
	"loss": 0.4212,
	"step": 2500
	},
	{
	"epoch": 1.3781697905181918,
	"eval_loss": 0.4513299763202667,
	"eval_runtime": 311.7925,
	"eval_samples_per_second": 3.736,
	"eval_steps_per_second": 0.468,
	"step": 2500
	},
	{
	"epoch": 1.3787210584343992,
	"grad_norm": 0.2319420874118805,
	"learning_rate": 9.344941956882255e-05,
	"loss": 0.3887,
	"step": 2501
	},
	{
	"epoch": 1.3792723263506064,
	"grad_norm": 0.23304283618927002,
	"learning_rate": 9.33665008291874e-05,
	"loss": 0.396,
	"step": 2502
	},
	{
	"epoch": 1.3798235942668136,
	"grad_norm": 0.2571066617965698,
	"learning_rate": 9.328358208955223e-05,
	"loss": 0.3862,
	"step": 2503
	},
	{
	"epoch": 1.380374862183021,
	"grad_norm": 0.22332634031772614,
	"learning_rate": 9.320066334991707e-05,
	"loss": 0.3608,
	"step": 2504
	},
	{
	"epoch": 1.3809261300992282,
	"grad_norm": 0.2485717236995697,
	"learning_rate": 9.31177446102819e-05,
	"loss": 0.4238,
	"step": 2505
	},
	{
	"epoch": 1.3814773980154356,
	"grad_norm": 0.230104461312294,
	"learning_rate": 9.303482587064675e-05,
	"loss": 0.4036,
	"step": 2506
	},
	{
	"epoch": 1.3820286659316428,
	"grad_norm": 0.2558598816394806,
	"learning_rate": 9.29519071310116e-05,
	"loss": 0.3958,
	"step": 2507
	},
	{
	"epoch": 1.38257993384785,
	"grad_norm": 0.23400071263313293,
	"learning_rate": 9.286898839137644e-05,
	"loss": 0.3862,
	"step": 2508
	},
	{
	"epoch": 1.3831312017640573,
	"grad_norm": 0.23237945139408112,
	"learning_rate": 9.278606965174129e-05,
	"loss": 0.3753,
	"step": 2509
	},
	{
	"epoch": 1.3836824696802645,
	"grad_norm": 0.2357659935951233,
	"learning_rate": 9.270315091210612e-05,
	"loss": 0.3826,
	"step": 2510
	},
	{
	"epoch": 1.384233737596472,
	"grad_norm": 0.2599101960659027,
	"learning_rate": 9.262023217247096e-05,
	"loss": 0.4028,
	"step": 2511
	},
	{
	"epoch": 1.3847850055126791,
	"grad_norm": 0.2372962385416031,
	"learning_rate": 9.253731343283581e-05,
	"loss": 0.4181,
	"step": 2512
	},
	{
	"epoch": 1.3853362734288863,
	"grad_norm": 0.27277928590774536,
	"learning_rate": 9.245439469320065e-05,
	"loss": 0.4025,
	"step": 2513
	},
	{
	"epoch": 1.3858875413450937,
	"grad_norm": 0.22424361109733582,
	"learning_rate": 9.237147595356549e-05,
	"loss": 0.3735,
	"step": 2514
	},
	{
	"epoch": 1.386438809261301,
	"grad_norm": 0.2312849462032318,
	"learning_rate": 9.228855721393033e-05,
	"loss": 0.4009,
	"step": 2515
	},
	{
	"epoch": 1.3869900771775083,
	"grad_norm": 0.24405118823051453,
	"learning_rate": 9.220563847429518e-05,
	"loss": 0.4026,
	"step": 2516
	},
	{
	"epoch": 1.3875413450937155,
	"grad_norm": 0.25049299001693726,
	"learning_rate": 9.212271973466002e-05,
	"loss": 0.3878,
	"step": 2517
	},
	{
	"epoch": 1.3880926130099227,
	"grad_norm": 0.23999334871768951,
	"learning_rate": 9.203980099502487e-05,
	"loss": 0.3758,
	"step": 2518
	},
	{
	"epoch": 1.3886438809261301,
	"grad_norm": 0.23169536888599396,
	"learning_rate": 9.19568822553897e-05,
	"loss": 0.3758,
	"step": 2519
	},
	{
	"epoch": 1.3891951488423373,
	"grad_norm": 0.228010356426239,
	"learning_rate": 9.187396351575455e-05,
	"loss": 0.3731,
	"step": 2520
	},
	{
	"epoch": 1.3897464167585447,
	"grad_norm": 0.2497485876083374,
	"learning_rate": 9.179104477611939e-05,
	"loss": 0.3995,
	"step": 2521
	},
	{
	"epoch": 1.390297684674752,
	"grad_norm": 0.257614403963089,
	"learning_rate": 9.170812603648424e-05,
	"loss": 0.3873,
	"step": 2522
	},
	{
	"epoch": 1.390848952590959,
	"grad_norm": 0.22421546280384064,
	"learning_rate": 9.162520729684908e-05,
	"loss": 0.3746,
	"step": 2523
	},
	{
	"epoch": 1.3914002205071665,
	"grad_norm": 0.22990712523460388,
	"learning_rate": 9.154228855721392e-05,
	"loss": 0.3916,
	"step": 2524
	},
	{
	"epoch": 1.3919514884233737,
	"grad_norm": 0.24670518934726715,
	"learning_rate": 9.145936981757876e-05,
	"loss": 0.3983,
	"step": 2525
	},
	{
	"epoch": 1.392502756339581,
	"grad_norm": 0.23636974394321442,
	"learning_rate": 9.137645107794361e-05,
	"loss": 0.3776,
	"step": 2526
	},
	{
	"epoch": 1.3930540242557883,
	"grad_norm": 0.2319977879524231,
	"learning_rate": 9.129353233830845e-05,
	"loss": 0.3809,
	"step": 2527
	},
	{
	"epoch": 1.3936052921719955,
	"grad_norm": 0.22971488535404205,
	"learning_rate": 9.12106135986733e-05,
	"loss": 0.3643,
	"step": 2528
	},
	{
	"epoch": 1.3941565600882029,
	"grad_norm": 0.24024169147014618,
	"learning_rate": 9.112769485903813e-05,
	"loss": 0.3915,
	"step": 2529
	},
	{
	"epoch": 1.39470782800441,
	"grad_norm": 0.22295120358467102,
	"learning_rate": 9.104477611940298e-05,
	"loss": 0.3702,
	"step": 2530
	},
	{
	"epoch": 1.3952590959206175,
	"grad_norm": 0.23186278343200684,
	"learning_rate": 9.096185737976782e-05,
	"loss": 0.3733,
	"step": 2531
	},
	{
	"epoch": 1.3958103638368247,
	"grad_norm": 0.25662240386009216,
	"learning_rate": 9.087893864013267e-05,
	"loss": 0.3843,
	"step": 2532
	},
	{
	"epoch": 1.3963616317530319,
	"grad_norm": 0.24374930560588837,
	"learning_rate": 9.079601990049751e-05,
	"loss": 0.4025,
	"step": 2533
	},
	{
	"epoch": 1.3969128996692393,
	"grad_norm": 0.22312727570533752,
	"learning_rate": 9.071310116086234e-05,
	"loss": 0.3794,
	"step": 2534
	},
	{
	"epoch": 1.3974641675854464,
	"grad_norm": 0.21616993844509125,
	"learning_rate": 9.063018242122719e-05,
	"loss": 0.3771,
	"step": 2535
	},
	{
	"epoch": 1.3980154355016539,
	"grad_norm": 0.24162566661834717,
	"learning_rate": 9.054726368159204e-05,
	"loss": 0.3797,
	"step": 2536
	},
	{
	"epoch": 1.398566703417861,
	"grad_norm": 0.24157093465328217,
	"learning_rate": 9.046434494195688e-05,
	"loss": 0.3815,
	"step": 2537
	},
	{
	"epoch": 1.3991179713340682,
	"grad_norm": 0.2437802404165268,
	"learning_rate": 9.038142620232173e-05,
	"loss": 0.3944,
	"step": 2538
	},
	{
	"epoch": 1.3996692392502756,
	"grad_norm": 0.24138353765010834,
	"learning_rate": 9.029850746268656e-05,
	"loss": 0.392,
	"step": 2539
	},
	{
	"epoch": 1.4002205071664828,
	"grad_norm": 0.25548362731933594,
	"learning_rate": 9.02155887230514e-05,
	"loss": 0.408,
	"step": 2540
	},
	{
	"epoch": 1.4007717750826902,
	"grad_norm": 0.24517594277858734,
	"learning_rate": 9.013266998341625e-05,
	"loss": 0.3979,
	"step": 2541
	},
	{
	"epoch": 1.4013230429988974,
	"grad_norm": 0.24252092838287354,
	"learning_rate": 9.00497512437811e-05,
	"loss": 0.4122,
	"step": 2542
	},
	{
	"epoch": 1.4018743109151046,
	"grad_norm": 0.23663447797298431,
	"learning_rate": 8.996683250414594e-05,
	"loss": 0.3936,
	"step": 2543
	},
	{
	"epoch": 1.402425578831312,
	"grad_norm": 0.2445666640996933,
	"learning_rate": 8.988391376451077e-05,
	"loss": 0.3863,
	"step": 2544
	},
	{
	"epoch": 1.4029768467475192,
	"grad_norm": 0.24747510254383087,
	"learning_rate": 8.980099502487562e-05,
	"loss": 0.4024,
	"step": 2545
	},
	{
	"epoch": 1.4035281146637266,
	"grad_norm": 0.22010785341262817,
	"learning_rate": 8.971807628524046e-05,
	"loss": 0.3765,
	"step": 2546
	},
	{
	"epoch": 1.4040793825799338,
	"grad_norm": 0.24189656972885132,
	"learning_rate": 8.963515754560531e-05,
	"loss": 0.3735,
	"step": 2547
	},
	{
	"epoch": 1.404630650496141,
	"grad_norm": 0.23379263281822205,
	"learning_rate": 8.955223880597013e-05,
	"loss": 0.3886,
	"step": 2548
	},
	{
	"epoch": 1.4051819184123484,
	"grad_norm": 0.2319820672273636,
	"learning_rate": 8.946932006633497e-05,
	"loss": 0.3932,
	"step": 2549
	},
	{
	"epoch": 1.4057331863285556,
	"grad_norm": 0.2426556944847107,
	"learning_rate": 8.938640132669982e-05,
	"loss": 0.3579,
	"step": 2550
	},
	{
	"epoch": 1.406284454244763,
	"grad_norm": 0.23170387744903564,
	"learning_rate": 8.930348258706467e-05,
	"loss": 0.3657,
	"step": 2551
	},
	{
	"epoch": 1.4068357221609702,
	"grad_norm": 0.24107246100902557,
	"learning_rate": 8.922056384742951e-05,
	"loss": 0.4121,
	"step": 2552
	},
	{
	"epoch": 1.4073869900771774,
	"grad_norm": 0.23268483579158783,
	"learning_rate": 8.913764510779434e-05,
	"loss": 0.3964,
	"step": 2553
	},
	{
	"epoch": 1.4079382579933848,
	"grad_norm": 0.24437369406223297,
	"learning_rate": 8.905472636815919e-05,
	"loss": 0.3886,
	"step": 2554
	},
	{
	"epoch": 1.4084895259095922,
	"grad_norm": 0.2408677190542221,
	"learning_rate": 8.897180762852403e-05,
	"loss": 0.4128,
	"step": 2555
	},
	{
	"epoch": 1.4090407938257994,
	"grad_norm": 0.24828049540519714,
	"learning_rate": 8.888888888888888e-05,
	"loss": 0.3968,
	"step": 2556
	},
	{
	"epoch": 1.4095920617420066,
	"grad_norm": 0.25326454639434814,
	"learning_rate": 8.880597014925373e-05,
	"loss": 0.4163,
	"step": 2557
	},
	{
	"epoch": 1.4101433296582138,
	"grad_norm": 0.2104220986366272,
	"learning_rate": 8.872305140961856e-05,
	"loss": 0.3861,
	"step": 2558
	},
	{
	"epoch": 1.4106945975744212,
	"grad_norm": 0.24456249177455902,
	"learning_rate": 8.86401326699834e-05,
	"loss": 0.3969,
	"step": 2559
	},
	{
	"epoch": 1.4112458654906286,
	"grad_norm": 0.23775126039981842,
	"learning_rate": 8.855721393034825e-05,
	"loss": 0.4024,
	"step": 2560
	},
	{
	"epoch": 1.4117971334068358,
	"grad_norm": 0.2330765575170517,
	"learning_rate": 8.84742951907131e-05,
	"loss": 0.3988,
	"step": 2561
	},
	{
	"epoch": 1.412348401323043,
	"grad_norm": 0.23499152064323425,
	"learning_rate": 8.839137645107794e-05,
	"loss": 0.4021,
	"step": 2562
	},
	{
	"epoch": 1.4128996692392501,
	"grad_norm": 0.23784568905830383,
	"learning_rate": 8.830845771144277e-05,
	"loss": 0.4093,
	"step": 2563
	},
	{
	"epoch": 1.4134509371554576,
	"grad_norm": 0.25330281257629395,
	"learning_rate": 8.822553897180762e-05,
	"loss": 0.3896,
	"step": 2564
	},
	{
	"epoch": 1.414002205071665,
	"grad_norm": 0.2372010052204132,
	"learning_rate": 8.814262023217246e-05,
	"loss": 0.3887,
	"step": 2565
	},
	{
	"epoch": 1.4145534729878722,
	"grad_norm": 0.227810338139534,
	"learning_rate": 8.805970149253731e-05,
	"loss": 0.3727,
	"step": 2566
	},
	{
	"epoch": 1.4151047409040793,
	"grad_norm": 0.23357363045215607,
	"learning_rate": 8.797678275290215e-05,
	"loss": 0.3735,
	"step": 2567
	},
	{
	"epoch": 1.4156560088202865,
	"grad_norm": 0.23767000436782837,
	"learning_rate": 8.789386401326699e-05,
	"loss": 0.3906,
	"step": 2568
	},
	{
	"epoch": 1.416207276736494,
	"grad_norm": 0.22021612524986267,
	"learning_rate": 8.781094527363183e-05,
	"loss": 0.3907,
	"step": 2569
	},
	{
	"epoch": 1.4167585446527013,
	"grad_norm": 0.22677011787891388,
	"learning_rate": 8.772802653399668e-05,
	"loss": 0.3568,
	"step": 2570
	},
	{
	"epoch": 1.4173098125689085,
	"grad_norm": 0.23188649117946625,
	"learning_rate": 8.764510779436152e-05,
	"loss": 0.3872,
	"step": 2571
	},
	{
	"epoch": 1.4178610804851157,
	"grad_norm": 0.24772998690605164,
	"learning_rate": 8.756218905472637e-05,
	"loss": 0.4013,
	"step": 2572
	},
	{
	"epoch": 1.418412348401323,
	"grad_norm": 0.23278258740901947,
	"learning_rate": 8.74792703150912e-05,
	"loss": 0.3783,
	"step": 2573
	},
	{
	"epoch": 1.4189636163175303,
	"grad_norm": 0.24379077553749084,
	"learning_rate": 8.739635157545605e-05,
	"loss": 0.3929,
	"step": 2574
	},
	{
	"epoch": 1.4195148842337377,
	"grad_norm": 0.23344534635543823,
	"learning_rate": 8.731343283582089e-05,
	"loss": 0.3709,
	"step": 2575
	},
	{
	"epoch": 1.420066152149945,
	"grad_norm": 0.23678019642829895,
	"learning_rate": 8.723051409618574e-05,
	"loss": 0.3973,
	"step": 2576
	},
	{
	"epoch": 1.420617420066152,
	"grad_norm": 0.23193979263305664,
	"learning_rate": 8.714759535655057e-05,
	"loss": 0.3778,
	"step": 2577
	},
	{
	"epoch": 1.4211686879823593,
	"grad_norm": 0.24555335938930511,
	"learning_rate": 8.706467661691541e-05,
	"loss": 0.4252,
	"step": 2578
	},
	{
	"epoch": 1.4217199558985667,
	"grad_norm": 0.22985686361789703,
	"learning_rate": 8.698175787728026e-05,
	"loss": 0.3896,
	"step": 2579
	},
	{
	"epoch": 1.422271223814774,
	"grad_norm": 0.24446120858192444,
	"learning_rate": 8.68988391376451e-05,
	"loss": 0.3969,
	"step": 2580
	},
	{
	"epoch": 1.4228224917309813,
	"grad_norm": 0.22781571745872498,
	"learning_rate": 8.681592039800995e-05,
	"loss": 0.3836,
	"step": 2581
	},
	{
	"epoch": 1.4233737596471885,
	"grad_norm": 0.2543814778327942,
	"learning_rate": 8.673300165837478e-05,
	"loss": 0.3934,
	"step": 2582
	},
	{
	"epoch": 1.4239250275633957,
	"grad_norm": 0.2298593968153,
	"learning_rate": 8.665008291873963e-05,
	"loss": 0.3894,
	"step": 2583
	},
	{
	"epoch": 1.424476295479603,
	"grad_norm": 0.24680182337760925,
	"learning_rate": 8.656716417910447e-05,
	"loss": 0.3928,
	"step": 2584
	},
	{
	"epoch": 1.4250275633958105,
	"grad_norm": 0.2492562234401703,
	"learning_rate": 8.648424543946932e-05,
	"loss": 0.3793,
	"step": 2585
	},
	{
	"epoch": 1.4255788313120177,
	"grad_norm": 0.24546745419502258,
	"learning_rate": 8.640132669983417e-05,
	"loss": 0.3671,
	"step": 2586
	},
	{
	"epoch": 1.4261300992282249,
	"grad_norm": 0.24431215226650238,
	"learning_rate": 8.6318407960199e-05,
	"loss": 0.3613,
	"step": 2587
	},
	{
	"epoch": 1.426681367144432,
	"grad_norm": 0.24530234932899475,
	"learning_rate": 8.623548922056384e-05,
	"loss": 0.3894,
	"step": 2588
	},
	{
	"epoch": 1.4272326350606395,
	"grad_norm": 0.2521824240684509,
	"learning_rate": 8.615257048092869e-05,
	"loss": 0.3938,
	"step": 2589
	},
	{
	"epoch": 1.4277839029768469,
	"grad_norm": 0.23589465022087097,
	"learning_rate": 8.606965174129353e-05,
	"loss": 0.377,
	"step": 2590
	},
	{
	"epoch": 1.428335170893054,
	"grad_norm": 0.22879983484745026,
	"learning_rate": 8.598673300165838e-05,
	"loss": 0.387,
	"step": 2591
	},
	{
	"epoch": 1.4288864388092613,
	"grad_norm": 0.2426953762769699,
	"learning_rate": 8.59038142620232e-05,
	"loss": 0.3921,
	"step": 2592
	},
	{
	"epoch": 1.4294377067254687,
	"grad_norm": 0.2464035451412201,
	"learning_rate": 8.582089552238804e-05,
	"loss": 0.3842,
	"step": 2593
	},
	{
	"epoch": 1.4299889746416758,
	"grad_norm": 0.24871256947517395,
	"learning_rate": 8.573797678275289e-05,
	"loss": 0.4075,
	"step": 2594
	},
	{
	"epoch": 1.4305402425578833,
	"grad_norm": 0.22682443261146545,
	"learning_rate": 8.565505804311774e-05,
	"loss": 0.3538,
	"step": 2595
	},
	{
	"epoch": 1.4310915104740904,
	"grad_norm": 0.23264093697071075,
	"learning_rate": 8.557213930348257e-05,
	"loss": 0.3802,
	"step": 2596
	},
	{
	"epoch": 1.4316427783902976,
	"grad_norm": 0.2368372529745102,
	"learning_rate": 8.548922056384741e-05,
	"loss": 0.3897,
	"step": 2597
	},
	{
	"epoch": 1.432194046306505,
	"grad_norm": 0.23906560242176056,
	"learning_rate": 8.540630182421226e-05,
	"loss": 0.3691,
	"step": 2598
	},
	{
	"epoch": 1.4327453142227122,
	"grad_norm": 0.22911648452281952,
	"learning_rate": 8.53233830845771e-05,
	"loss": 0.3829,
	"step": 2599
	},
	{
	"epoch": 1.4332965821389196,
	"grad_norm": 0.23407630622386932,
	"learning_rate": 8.524046434494195e-05,
	"loss": 0.3841,
	"step": 2600
	}
	],
	"logging_steps": 1,
	"max_steps": 3628,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 200,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 6.918731552725244e+19,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}