mamba2-700m-c1.1 / trainer_state.json

Upload folder using huggingface_hub

3ce0a72 verified about 1 month ago

No virus

137 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.11786454262354065,
	"eval_steps": 200,
	"global_step": 19000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00015508492450465875,
	"grad_norm": 0.12764382362365723,
	"learning_rate": 0.0015,
	"loss": 3.062,
	"step": 25
	},
	{
	"epoch": 0.0003101698490093175,
	"grad_norm": 0.08861421793699265,
	"learning_rate": 0.0015,
	"loss": 3.0523,
	"step": 50
	},
	{
	"epoch": 0.00046525477351397625,
	"grad_norm": 0.10059793293476105,
	"learning_rate": 0.0015,
	"loss": 3.0271,
	"step": 75
	},
	{
	"epoch": 0.000620339698018635,
	"grad_norm": 0.09730365872383118,
	"learning_rate": 0.0015,
	"loss": 3.0421,
	"step": 100
	},
	{
	"epoch": 0.0007754246225232938,
	"grad_norm": 0.15407200157642365,
	"learning_rate": 0.0015,
	"loss": 2.9894,
	"step": 125
	},
	{
	"epoch": 0.0009305095470279525,
	"grad_norm": 0.12250959873199463,
	"learning_rate": 0.0015,
	"loss": 3.0055,
	"step": 150
	},
	{
	"epoch": 0.0010855944715326112,
	"grad_norm": 0.08540652692317963,
	"learning_rate": 0.0015,
	"loss": 3.0025,
	"step": 175
	},
	{
	"epoch": 0.00124067939603727,
	"grad_norm": 0.1479829102754593,
	"learning_rate": 0.0015,
	"loss": 2.9881,
	"step": 200
	},
	{
	"epoch": 0.00124067939603727,
	"eval_loss": 4.852784156799316,
	"perplexity": 128.09652709960938,
	"step": 200
	},
	{
	"epoch": 0.0013957643205419288,
	"grad_norm": 0.1036139577627182,
	"learning_rate": 0.0015,
	"loss": 2.9609,
	"step": 225
	},
	{
	"epoch": 0.0015508492450465876,
	"grad_norm": 0.10382606089115143,
	"learning_rate": 0.0015,
	"loss": 2.9771,
	"step": 250
	},
	{
	"epoch": 0.0017059341695512462,
	"grad_norm": 0.08648105710744858,
	"learning_rate": 0.0015,
	"loss": 2.9522,
	"step": 275
	},
	{
	"epoch": 0.001861019094055905,
	"grad_norm": 0.08675844967365265,
	"learning_rate": 0.0015,
	"loss": 2.9833,
	"step": 300
	},
	{
	"epoch": 0.0020161040185605636,
	"grad_norm": 0.1417882740497589,
	"learning_rate": 0.0015,
	"loss": 2.9626,
	"step": 325
	},
	{
	"epoch": 0.0021711889430652224,
	"grad_norm": 0.09860406816005707,
	"learning_rate": 0.0015,
	"loss": 2.9515,
	"step": 350
	},
	{
	"epoch": 0.002326273867569881,
	"grad_norm": 0.11757214367389679,
	"learning_rate": 0.0015,
	"loss": 2.9523,
	"step": 375
	},
	{
	"epoch": 0.00248135879207454,
	"grad_norm": 0.11415340006351471,
	"learning_rate": 0.0015,
	"loss": 2.9579,
	"step": 400
	},
	{
	"epoch": 0.00248135879207454,
	"eval_loss": 4.8426313400268555,
	"perplexity": 126.80257415771484,
	"step": 400
	},
	{
	"epoch": 0.002636443716579199,
	"grad_norm": 0.10692940652370453,
	"learning_rate": 0.0015,
	"loss": 2.9273,
	"step": 425
	},
	{
	"epoch": 0.0027915286410838576,
	"grad_norm": 0.12780559062957764,
	"learning_rate": 0.0015,
	"loss": 2.9577,
	"step": 450
	},
	{
	"epoch": 0.0029466135655885164,
	"grad_norm": 0.21147418022155762,
	"learning_rate": 0.0015,
	"loss": 2.9118,
	"step": 475
	},
	{
	"epoch": 0.003101698490093175,
	"grad_norm": 0.13209331035614014,
	"learning_rate": 0.0015,
	"loss": 2.9584,
	"step": 500
	},
	{
	"epoch": 0.0032567834145978336,
	"grad_norm": 0.13230836391448975,
	"learning_rate": 0.0015,
	"loss": 2.9621,
	"step": 525
	},
	{
	"epoch": 0.0034118683391024924,
	"grad_norm": 0.11265246570110321,
	"learning_rate": 0.0015,
	"loss": 2.941,
	"step": 550
	},
	{
	"epoch": 0.003566953263607151,
	"grad_norm": 0.10484226047992706,
	"learning_rate": 0.0015,
	"loss": 2.9311,
	"step": 575
	},
	{
	"epoch": 0.00372203818811181,
	"grad_norm": 0.13941314816474915,
	"learning_rate": 0.0015,
	"loss": 2.9741,
	"step": 600
	},
	{
	"epoch": 0.00372203818811181,
	"eval_loss": 4.831629276275635,
	"perplexity": 125.41513061523438,
	"step": 600
	},
	{
	"epoch": 0.0038771231126164688,
	"grad_norm": 0.0885343998670578,
	"learning_rate": 0.0015,
	"loss": 2.944,
	"step": 625
	},
	{
	"epoch": 0.004032208037121127,
	"grad_norm": 0.093564473092556,
	"learning_rate": 0.0015,
	"loss": 2.9673,
	"step": 650
	},
	{
	"epoch": 0.004187292961625786,
	"grad_norm": 0.15350665152072906,
	"learning_rate": 0.0015,
	"loss": 2.9314,
	"step": 675
	},
	{
	"epoch": 0.004342377886130445,
	"grad_norm": 0.11337901651859283,
	"learning_rate": 0.0015,
	"loss": 2.97,
	"step": 700
	},
	{
	"epoch": 0.004497462810635104,
	"grad_norm": 0.13508272171020508,
	"learning_rate": 0.0015,
	"loss": 2.9121,
	"step": 725
	},
	{
	"epoch": 0.004652547735139762,
	"grad_norm": 0.10049441456794739,
	"learning_rate": 0.0015,
	"loss": 2.9572,
	"step": 750
	},
	{
	"epoch": 0.004807632659644422,
	"grad_norm": 0.1017594188451767,
	"learning_rate": 0.0015,
	"loss": 2.9207,
	"step": 775
	},
	{
	"epoch": 0.00496271758414908,
	"grad_norm": 0.09874167293310165,
	"learning_rate": 0.0015,
	"loss": 2.9258,
	"step": 800
	},
	{
	"epoch": 0.00496271758414908,
	"eval_loss": 4.783432960510254,
	"perplexity": 119.51393127441406,
	"step": 800
	},
	{
	"epoch": 0.005117802508653739,
	"grad_norm": 0.09769408404827118,
	"learning_rate": 0.0015,
	"loss": 2.9606,
	"step": 825
	},
	{
	"epoch": 0.005272887433158398,
	"grad_norm": 0.11946038156747818,
	"learning_rate": 0.0015,
	"loss": 2.889,
	"step": 850
	},
	{
	"epoch": 0.005427972357663056,
	"grad_norm": 0.12191672623157501,
	"learning_rate": 0.0015,
	"loss": 2.9094,
	"step": 875
	},
	{
	"epoch": 0.005583057282167715,
	"grad_norm": 0.09349209070205688,
	"learning_rate": 0.0015,
	"loss": 2.9242,
	"step": 900
	},
	{
	"epoch": 0.0057381422066723736,
	"grad_norm": 0.07793531566858292,
	"learning_rate": 0.0015,
	"loss": 2.9692,
	"step": 925
	},
	{
	"epoch": 0.005893227131177033,
	"grad_norm": 0.1276599019765854,
	"learning_rate": 0.0015,
	"loss": 2.9339,
	"step": 950
	},
	{
	"epoch": 0.006048312055681691,
	"grad_norm": 0.11083021759986877,
	"learning_rate": 0.0015,
	"loss": 2.9251,
	"step": 975
	},
	{
	"epoch": 0.00620339698018635,
	"grad_norm": 0.13207702338695526,
	"learning_rate": 0.0015,
	"loss": 2.8567,
	"step": 1000
	},
	{
	"epoch": 0.00620339698018635,
	"eval_loss": 4.790068626403809,
	"perplexity": 120.30962371826172,
	"step": 1000
	},
	{
	"epoch": 0.006358481904691009,
	"grad_norm": 0.20453479886054993,
	"learning_rate": 0.0015,
	"loss": 2.9127,
	"step": 1025
	},
	{
	"epoch": 0.006513566829195667,
	"grad_norm": 0.12530989944934845,
	"learning_rate": 0.0015,
	"loss": 2.9147,
	"step": 1050
	},
	{
	"epoch": 0.006668651753700326,
	"grad_norm": 0.11520997434854507,
	"learning_rate": 0.0015,
	"loss": 2.936,
	"step": 1075
	},
	{
	"epoch": 0.006823736678204985,
	"grad_norm": 0.09191219508647919,
	"learning_rate": 0.0015,
	"loss": 2.9115,
	"step": 1100
	},
	{
	"epoch": 0.006978821602709644,
	"grad_norm": 0.07251202315092087,
	"learning_rate": 0.0015,
	"loss": 2.9154,
	"step": 1125
	},
	{
	"epoch": 0.007133906527214302,
	"grad_norm": 0.10054546594619751,
	"learning_rate": 0.0015,
	"loss": 2.8924,
	"step": 1150
	},
	{
	"epoch": 0.007288991451718962,
	"grad_norm": 0.1192697063088417,
	"learning_rate": 0.0015,
	"loss": 2.957,
	"step": 1175
	},
	{
	"epoch": 0.00744407637622362,
	"grad_norm": 0.14840476214885712,
	"learning_rate": 0.0015,
	"loss": 2.895,
	"step": 1200
	},
	{
	"epoch": 0.00744407637622362,
	"eval_loss": 4.770949363708496,
	"perplexity": 118.03124237060547,
	"step": 1200
	},
	{
	"epoch": 0.007599161300728279,
	"grad_norm": 0.11221906542778015,
	"learning_rate": 0.0015,
	"loss": 2.9131,
	"step": 1225
	},
	{
	"epoch": 0.0077542462252329376,
	"grad_norm": 0.11528974026441574,
	"learning_rate": 0.0015,
	"loss": 2.8783,
	"step": 1250
	},
	{
	"epoch": 0.007909331149737596,
	"grad_norm": 0.0807015597820282,
	"learning_rate": 0.0015,
	"loss": 2.91,
	"step": 1275
	},
	{
	"epoch": 0.008064416074242254,
	"grad_norm": 0.1435490846633911,
	"learning_rate": 0.0015,
	"loss": 2.9198,
	"step": 1300
	},
	{
	"epoch": 0.008219500998746914,
	"grad_norm": 0.11956608295440674,
	"learning_rate": 0.0015,
	"loss": 2.8771,
	"step": 1325
	},
	{
	"epoch": 0.008374585923251573,
	"grad_norm": 0.10362117737531662,
	"learning_rate": 0.0015,
	"loss": 2.8913,
	"step": 1350
	},
	{
	"epoch": 0.008529670847756231,
	"grad_norm": 0.07132004201412201,
	"learning_rate": 0.0015,
	"loss": 2.946,
	"step": 1375
	},
	{
	"epoch": 0.00868475577226089,
	"grad_norm": 0.08756817877292633,
	"learning_rate": 0.0015,
	"loss": 2.9015,
	"step": 1400
	},
	{
	"epoch": 0.00868475577226089,
	"eval_loss": 4.769084453582764,
	"perplexity": 117.81133270263672,
	"step": 1400
	},
	{
	"epoch": 0.00883984069676555,
	"grad_norm": 0.18067917227745056,
	"learning_rate": 0.0015,
	"loss": 2.8887,
	"step": 1425
	},
	{
	"epoch": 0.008994925621270208,
	"grad_norm": 0.09742950648069382,
	"learning_rate": 0.0015,
	"loss": 2.8834,
	"step": 1450
	},
	{
	"epoch": 0.009150010545774866,
	"grad_norm": 0.09857803583145142,
	"learning_rate": 0.0015,
	"loss": 2.8856,
	"step": 1475
	},
	{
	"epoch": 0.009305095470279525,
	"grad_norm": 0.17605328559875488,
	"learning_rate": 0.0015,
	"loss": 2.9238,
	"step": 1500
	},
	{
	"epoch": 0.009460180394784183,
	"grad_norm": 0.08441105484962463,
	"learning_rate": 0.0015,
	"loss": 2.8605,
	"step": 1525
	},
	{
	"epoch": 0.009615265319288843,
	"grad_norm": 0.15339621901512146,
	"learning_rate": 0.0015,
	"loss": 2.9421,
	"step": 1550
	},
	{
	"epoch": 0.009770350243793502,
	"grad_norm": 0.21426236629486084,
	"learning_rate": 0.0015,
	"loss": 2.8899,
	"step": 1575
	},
	{
	"epoch": 0.00992543516829816,
	"grad_norm": 0.16503557562828064,
	"learning_rate": 0.0015,
	"loss": 2.878,
	"step": 1600
	},
	{
	"epoch": 0.00992543516829816,
	"eval_loss": 4.774999618530273,
	"perplexity": 118.51026916503906,
	"step": 1600
	},
	{
	"epoch": 0.010080520092802818,
	"grad_norm": 0.11398541182279587,
	"learning_rate": 0.0015,
	"loss": 2.866,
	"step": 1625
	},
	{
	"epoch": 0.010235605017307478,
	"grad_norm": 0.16510234773159027,
	"learning_rate": 0.0015,
	"loss": 2.8936,
	"step": 1650
	},
	{
	"epoch": 0.010390689941812137,
	"grad_norm": 0.08827799558639526,
	"learning_rate": 0.0015,
	"loss": 2.8789,
	"step": 1675
	},
	{
	"epoch": 0.010545774866316795,
	"grad_norm": 0.12703286111354828,
	"learning_rate": 0.0015,
	"loss": 2.9104,
	"step": 1700
	},
	{
	"epoch": 0.010700859790821454,
	"grad_norm": 0.10185768455266953,
	"learning_rate": 0.0015,
	"loss": 2.8389,
	"step": 1725
	},
	{
	"epoch": 0.010855944715326112,
	"grad_norm": 0.13076236844062805,
	"learning_rate": 0.0015,
	"loss": 2.8603,
	"step": 1750
	},
	{
	"epoch": 0.011011029639830772,
	"grad_norm": 0.08955707401037216,
	"learning_rate": 0.0015,
	"loss": 2.8283,
	"step": 1775
	},
	{
	"epoch": 0.01116611456433543,
	"grad_norm": 0.07163148373365402,
	"learning_rate": 0.0015,
	"loss": 2.8852,
	"step": 1800
	},
	{
	"epoch": 0.01116611456433543,
	"eval_loss": 4.75281286239624,
	"perplexity": 115.90986633300781,
	"step": 1800
	},
	{
	"epoch": 0.011321199488840089,
	"grad_norm": 0.09710580855607986,
	"learning_rate": 0.0015,
	"loss": 2.8573,
	"step": 1825
	},
	{
	"epoch": 0.011476284413344747,
	"grad_norm": 0.11669810861349106,
	"learning_rate": 0.0015,
	"loss": 2.8674,
	"step": 1850
	},
	{
	"epoch": 0.011631369337849405,
	"grad_norm": 0.11174403876066208,
	"learning_rate": 0.0015,
	"loss": 2.9121,
	"step": 1875
	},
	{
	"epoch": 0.011786454262354066,
	"grad_norm": 0.09547118842601776,
	"learning_rate": 0.0015,
	"loss": 2.9033,
	"step": 1900
	},
	{
	"epoch": 0.011941539186858724,
	"grad_norm": 0.09878171980381012,
	"learning_rate": 0.0015,
	"loss": 2.8738,
	"step": 1925
	},
	{
	"epoch": 0.012096624111363382,
	"grad_norm": 0.09479096531867981,
	"learning_rate": 0.0015,
	"loss": 2.8775,
	"step": 1950
	},
	{
	"epoch": 0.01225170903586804,
	"grad_norm": 0.12434259057044983,
	"learning_rate": 0.0015,
	"loss": 2.8452,
	"step": 1975
	},
	{
	"epoch": 0.0124067939603727,
	"grad_norm": 0.09166444838047028,
	"learning_rate": 0.0015,
	"loss": 2.8546,
	"step": 2000
	},
	{
	"epoch": 0.0124067939603727,
	"eval_loss": 4.748600482940674,
	"perplexity": 115.42263793945312,
	"step": 2000
	},
	{
	"epoch": 0.01256187888487736,
	"grad_norm": 0.07793508470058441,
	"learning_rate": 0.0015,
	"loss": 2.8306,
	"step": 2025
	},
	{
	"epoch": 0.012716963809382018,
	"grad_norm": 0.1670406609773636,
	"learning_rate": 0.0015,
	"loss": 2.863,
	"step": 2050
	},
	{
	"epoch": 0.012872048733886676,
	"grad_norm": 0.20754718780517578,
	"learning_rate": 0.0015,
	"loss": 2.8871,
	"step": 2075
	},
	{
	"epoch": 0.013027133658391334,
	"grad_norm": 0.14225496351718903,
	"learning_rate": 0.0015,
	"loss": 2.8498,
	"step": 2100
	},
	{
	"epoch": 0.013182218582895994,
	"grad_norm": 0.11809197813272476,
	"learning_rate": 0.0015,
	"loss": 2.8206,
	"step": 2125
	},
	{
	"epoch": 0.013337303507400653,
	"grad_norm": 0.09541622549295425,
	"learning_rate": 0.0015,
	"loss": 2.8585,
	"step": 2150
	},
	{
	"epoch": 0.013492388431905311,
	"grad_norm": 0.1115843802690506,
	"learning_rate": 0.0015,
	"loss": 2.8533,
	"step": 2175
	},
	{
	"epoch": 0.01364747335640997,
	"grad_norm": 0.08517899364233017,
	"learning_rate": 0.0015,
	"loss": 2.8477,
	"step": 2200
	},
	{
	"epoch": 0.01364747335640997,
	"eval_loss": 4.753279685974121,
	"perplexity": 115.9639892578125,
	"step": 2200
	},
	{
	"epoch": 0.01380255828091463,
	"grad_norm": 0.13083544373512268,
	"learning_rate": 0.0015,
	"loss": 2.8518,
	"step": 2225
	},
	{
	"epoch": 0.013957643205419288,
	"grad_norm": 0.07403870671987534,
	"learning_rate": 0.0015,
	"loss": 2.8685,
	"step": 2250
	},
	{
	"epoch": 0.014112728129923946,
	"grad_norm": 0.16436311602592468,
	"learning_rate": 0.0015,
	"loss": 2.8601,
	"step": 2275
	},
	{
	"epoch": 0.014267813054428605,
	"grad_norm": 0.12990187108516693,
	"learning_rate": 0.0015,
	"loss": 2.8332,
	"step": 2300
	},
	{
	"epoch": 0.014422897978933263,
	"grad_norm": 0.0897112786769867,
	"learning_rate": 0.0015,
	"loss": 2.8578,
	"step": 2325
	},
	{
	"epoch": 0.014577982903437923,
	"grad_norm": 0.10096879303455353,
	"learning_rate": 0.0015,
	"loss": 2.802,
	"step": 2350
	},
	{
	"epoch": 0.014733067827942582,
	"grad_norm": 0.0850217416882515,
	"learning_rate": 0.0015,
	"loss": 2.8529,
	"step": 2375
	},
	{
	"epoch": 0.01488815275244724,
	"grad_norm": 0.11395123600959778,
	"learning_rate": 0.0015,
	"loss": 2.8655,
	"step": 2400
	},
	{
	"epoch": 0.01488815275244724,
	"eval_loss": 4.743602275848389,
	"perplexity": 114.84716796875,
	"step": 2400
	},
	{
	"epoch": 0.015043237676951898,
	"grad_norm": 0.1590801179409027,
	"learning_rate": 0.0015,
	"loss": 2.8227,
	"step": 2425
	},
	{
	"epoch": 0.015198322601456558,
	"grad_norm": 0.16819922626018524,
	"learning_rate": 0.0015,
	"loss": 2.8551,
	"step": 2450
	},
	{
	"epoch": 0.015353407525961217,
	"grad_norm": 0.15390118956565857,
	"learning_rate": 0.0015,
	"loss": 2.8691,
	"step": 2475
	},
	{
	"epoch": 0.015508492450465875,
	"grad_norm": 0.10976951569318771,
	"learning_rate": 0.0015,
	"loss": 2.8615,
	"step": 2500
	},
	{
	"epoch": 0.015663577374970535,
	"grad_norm": 0.09539350867271423,
	"learning_rate": 0.0015,
	"loss": 2.7755,
	"step": 2525
	},
	{
	"epoch": 0.015818662299475192,
	"grad_norm": 0.09798863530158997,
	"learning_rate": 0.0015,
	"loss": 2.7675,
	"step": 2550
	},
	{
	"epoch": 0.015973747223979852,
	"grad_norm": 0.10233014822006226,
	"learning_rate": 0.0015,
	"loss": 2.7905,
	"step": 2575
	},
	{
	"epoch": 0.01612883214848451,
	"grad_norm": 0.09607812017202377,
	"learning_rate": 0.0015,
	"loss": 2.779,
	"step": 2600
	},
	{
	"epoch": 0.01612883214848451,
	"eval_loss": 4.757762432098389,
	"perplexity": 116.48499298095703,
	"step": 2600
	},
	{
	"epoch": 0.01628391707298917,
	"grad_norm": 0.09782920032739639,
	"learning_rate": 0.0015,
	"loss": 2.8455,
	"step": 2625
	},
	{
	"epoch": 0.01643900199749383,
	"grad_norm": 0.08443335443735123,
	"learning_rate": 0.0015,
	"loss": 2.8537,
	"step": 2650
	},
	{
	"epoch": 0.016594086921998485,
	"grad_norm": 0.1567981094121933,
	"learning_rate": 0.0015,
	"loss": 2.8334,
	"step": 2675
	},
	{
	"epoch": 0.016749171846503146,
	"grad_norm": 0.1279255449771881,
	"learning_rate": 0.0015,
	"loss": 2.8733,
	"step": 2700
	},
	{
	"epoch": 0.016904256771007802,
	"grad_norm": 0.09086953848600388,
	"learning_rate": 0.0015,
	"loss": 2.7992,
	"step": 2725
	},
	{
	"epoch": 0.017059341695512462,
	"grad_norm": 0.15084481239318848,
	"learning_rate": 0.0015,
	"loss": 2.7891,
	"step": 2750
	},
	{
	"epoch": 0.017214426620017122,
	"grad_norm": 0.1059018149971962,
	"learning_rate": 0.0015,
	"loss": 2.8088,
	"step": 2775
	},
	{
	"epoch": 0.01736951154452178,
	"grad_norm": 0.08803548663854599,
	"learning_rate": 0.0015,
	"loss": 2.817,
	"step": 2800
	},
	{
	"epoch": 0.01736951154452178,
	"eval_loss": 4.730724334716797,
	"perplexity": 113.37765502929688,
	"step": 2800
	},
	{
	"epoch": 0.01752459646902644,
	"grad_norm": 0.0954984724521637,
	"learning_rate": 0.0015,
	"loss": 2.8528,
	"step": 2825
	},
	{
	"epoch": 0.0176796813935311,
	"grad_norm": 0.14015914499759674,
	"learning_rate": 0.0015,
	"loss": 2.8131,
	"step": 2850
	},
	{
	"epoch": 0.017834766318035756,
	"grad_norm": 0.07908599078655243,
	"learning_rate": 0.0015,
	"loss": 2.8371,
	"step": 2875
	},
	{
	"epoch": 0.017989851242540416,
	"grad_norm": 0.14578266441822052,
	"learning_rate": 0.0015,
	"loss": 2.8033,
	"step": 2900
	},
	{
	"epoch": 0.018144936167045073,
	"grad_norm": 0.10059946030378342,
	"learning_rate": 0.0015,
	"loss": 2.8165,
	"step": 2925
	},
	{
	"epoch": 0.018300021091549733,
	"grad_norm": 0.10238490998744965,
	"learning_rate": 0.0015,
	"loss": 2.7739,
	"step": 2950
	},
	{
	"epoch": 0.018455106016054393,
	"grad_norm": 0.12706336379051208,
	"learning_rate": 0.0015,
	"loss": 2.8018,
	"step": 2975
	},
	{
	"epoch": 0.01861019094055905,
	"grad_norm": 0.1252700239419937,
	"learning_rate": 0.0015,
	"loss": 2.8155,
	"step": 3000
	},
	{
	"epoch": 0.01861019094055905,
	"eval_loss": 4.707705020904541,
	"perplexity": 110.79759216308594,
	"step": 3000
	},
	{
	"epoch": 0.01876527586506371,
	"grad_norm": 0.13322588801383972,
	"learning_rate": 0.0015,
	"loss": 2.8201,
	"step": 3025
	},
	{
	"epoch": 0.018920360789568366,
	"grad_norm": 0.14152252674102783,
	"learning_rate": 0.0015,
	"loss": 2.7942,
	"step": 3050
	},
	{
	"epoch": 0.019075445714073026,
	"grad_norm": 0.1276037096977234,
	"learning_rate": 0.0015,
	"loss": 2.8065,
	"step": 3075
	},
	{
	"epoch": 0.019230530638577686,
	"grad_norm": 0.11600831896066666,
	"learning_rate": 0.0015,
	"loss": 2.8335,
	"step": 3100
	},
	{
	"epoch": 0.019385615563082343,
	"grad_norm": 0.11985427141189575,
	"learning_rate": 0.0015,
	"loss": 2.7993,
	"step": 3125
	},
	{
	"epoch": 0.019540700487587003,
	"grad_norm": 0.11630894988775253,
	"learning_rate": 0.0015,
	"loss": 2.7838,
	"step": 3150
	},
	{
	"epoch": 0.01969578541209166,
	"grad_norm": 0.08493560552597046,
	"learning_rate": 0.0015,
	"loss": 2.7884,
	"step": 3175
	},
	{
	"epoch": 0.01985087033659632,
	"grad_norm": 0.12671016156673431,
	"learning_rate": 0.0015,
	"loss": 2.7763,
	"step": 3200
	},
	{
	"epoch": 0.01985087033659632,
	"eval_loss": 4.7127766609191895,
	"perplexity": 111.3609390258789,
	"step": 3200
	},
	{
	"epoch": 0.02000595526110098,
	"grad_norm": 0.10381816327571869,
	"learning_rate": 0.0015,
	"loss": 2.7849,
	"step": 3225
	},
	{
	"epoch": 0.020161040185605637,
	"grad_norm": 0.12319795787334442,
	"learning_rate": 0.0015,
	"loss": 2.8325,
	"step": 3250
	},
	{
	"epoch": 0.020316125110110297,
	"grad_norm": 0.11378122121095657,
	"learning_rate": 0.0015,
	"loss": 2.7609,
	"step": 3275
	},
	{
	"epoch": 0.020471210034614957,
	"grad_norm": 0.08910433948040009,
	"learning_rate": 0.0015,
	"loss": 2.7886,
	"step": 3300
	},
	{
	"epoch": 0.020626294959119613,
	"grad_norm": 0.11803348362445831,
	"learning_rate": 0.0015,
	"loss": 2.7716,
	"step": 3325
	},
	{
	"epoch": 0.020781379883624274,
	"grad_norm": 0.10203807801008224,
	"learning_rate": 0.0015,
	"loss": 2.778,
	"step": 3350
	},
	{
	"epoch": 0.02093646480812893,
	"grad_norm": 0.07175683230161667,
	"learning_rate": 0.0015,
	"loss": 2.7844,
	"step": 3375
	},
	{
	"epoch": 0.02109154973263359,
	"grad_norm": 0.1556989699602127,
	"learning_rate": 0.0015,
	"loss": 2.748,
	"step": 3400
	},
	{
	"epoch": 0.02109154973263359,
	"eval_loss": 4.711516857147217,
	"perplexity": 111.22074127197266,
	"step": 3400
	},
	{
	"epoch": 0.02124663465713825,
	"grad_norm": 0.11983326822519302,
	"learning_rate": 0.0015,
	"loss": 2.7747,
	"step": 3425
	},
	{
	"epoch": 0.021401719581642907,
	"grad_norm": 0.09098344296216965,
	"learning_rate": 0.0015,
	"loss": 2.7609,
	"step": 3450
	},
	{
	"epoch": 0.021556804506147567,
	"grad_norm": 0.1238594651222229,
	"learning_rate": 0.0015,
	"loss": 2.7849,
	"step": 3475
	},
	{
	"epoch": 0.021711889430652224,
	"grad_norm": 0.10654041916131973,
	"learning_rate": 0.0015,
	"loss": 2.7742,
	"step": 3500
	},
	{
	"epoch": 0.021866974355156884,
	"grad_norm": 0.12955708801746368,
	"learning_rate": 0.0015,
	"loss": 2.7302,
	"step": 3525
	},
	{
	"epoch": 0.022022059279661544,
	"grad_norm": 0.0945751890540123,
	"learning_rate": 0.0015,
	"loss": 2.7366,
	"step": 3550
	},
	{
	"epoch": 0.0221771442041662,
	"grad_norm": 0.11322261393070221,
	"learning_rate": 0.0015,
	"loss": 2.7307,
	"step": 3575
	},
	{
	"epoch": 0.02233222912867086,
	"grad_norm": 0.14438313245773315,
	"learning_rate": 0.0015,
	"loss": 2.741,
	"step": 3600
	},
	{
	"epoch": 0.02233222912867086,
	"eval_loss": 4.7056427001953125,
	"perplexity": 110.56932830810547,
	"step": 3600
	},
	{
	"epoch": 0.022487314053175517,
	"grad_norm": 0.12101957201957703,
	"learning_rate": 0.0015,
	"loss": 2.7699,
	"step": 3625
	},
	{
	"epoch": 0.022642398977680177,
	"grad_norm": 0.13060438632965088,
	"learning_rate": 0.0015,
	"loss": 2.7534,
	"step": 3650
	},
	{
	"epoch": 0.022797483902184838,
	"grad_norm": 0.18028861284255981,
	"learning_rate": 0.0015,
	"loss": 2.7716,
	"step": 3675
	},
	{
	"epoch": 0.022952568826689494,
	"grad_norm": 0.2551407217979431,
	"learning_rate": 0.0015,
	"loss": 2.7505,
	"step": 3700
	},
	{
	"epoch": 0.023107653751194154,
	"grad_norm": 0.14461354911327362,
	"learning_rate": 0.0015,
	"loss": 2.762,
	"step": 3725
	},
	{
	"epoch": 0.02326273867569881,
	"grad_norm": 0.08960037678480148,
	"learning_rate": 0.0015,
	"loss": 2.7752,
	"step": 3750
	},
	{
	"epoch": 0.02341782360020347,
	"grad_norm": 0.12423495948314667,
	"learning_rate": 0.0015,
	"loss": 2.7649,
	"step": 3775
	},
	{
	"epoch": 0.02357290852470813,
	"grad_norm": 0.11889061331748962,
	"learning_rate": 0.0015,
	"loss": 2.7465,
	"step": 3800
	},
	{
	"epoch": 0.02357290852470813,
	"eval_loss": 4.709405422210693,
	"perplexity": 110.98615264892578,
	"step": 3800
	},
	{
	"epoch": 0.023727993449212788,
	"grad_norm": 0.1310662031173706,
	"learning_rate": 0.0015,
	"loss": 2.7739,
	"step": 3825
	},
	{
	"epoch": 0.023883078373717448,
	"grad_norm": 0.10841766744852066,
	"learning_rate": 0.0015,
	"loss": 2.7558,
	"step": 3850
	},
	{
	"epoch": 0.024038163298222108,
	"grad_norm": 0.11951743066310883,
	"learning_rate": 0.0015,
	"loss": 2.7574,
	"step": 3875
	},
	{
	"epoch": 0.024193248222726765,
	"grad_norm": 0.10914873331785202,
	"learning_rate": 0.0015,
	"loss": 2.7593,
	"step": 3900
	},
	{
	"epoch": 0.024348333147231425,
	"grad_norm": 0.12661431729793549,
	"learning_rate": 0.0015,
	"loss": 2.7405,
	"step": 3925
	},
	{
	"epoch": 0.02450341807173608,
	"grad_norm": 0.09351510554552078,
	"learning_rate": 0.0015,
	"loss": 2.7614,
	"step": 3950
	},
	{
	"epoch": 0.02465850299624074,
	"grad_norm": 0.10916408896446228,
	"learning_rate": 0.0015,
	"loss": 2.7348,
	"step": 3975
	},
	{
	"epoch": 0.0248135879207454,
	"grad_norm": 0.1506185084581375,
	"learning_rate": 0.0015,
	"loss": 2.7465,
	"step": 4000
	},
	{
	"epoch": 0.0248135879207454,
	"eval_loss": 4.691644191741943,
	"perplexity": 109.03230285644531,
	"step": 4000
	},
	{
	"epoch": 0.024968672845250058,
	"grad_norm": 0.16664201021194458,
	"learning_rate": 0.0015,
	"loss": 2.7099,
	"step": 4025
	},
	{
	"epoch": 0.02512375776975472,
	"grad_norm": 0.08793428540229797,
	"learning_rate": 0.0015,
	"loss": 2.7062,
	"step": 4050
	},
	{
	"epoch": 0.025278842694259375,
	"grad_norm": 0.10746140778064728,
	"learning_rate": 0.0015,
	"loss": 2.7013,
	"step": 4075
	},
	{
	"epoch": 0.025433927618764035,
	"grad_norm": 0.14466698467731476,
	"learning_rate": 0.0015,
	"loss": 2.7366,
	"step": 4100
	},
	{
	"epoch": 0.025589012543268695,
	"grad_norm": 0.12191653996706009,
	"learning_rate": 0.0015,
	"loss": 2.7042,
	"step": 4125
	},
	{
	"epoch": 0.025744097467773352,
	"grad_norm": 0.10167489945888519,
	"learning_rate": 0.0015,
	"loss": 2.7215,
	"step": 4150
	},
	{
	"epoch": 0.025899182392278012,
	"grad_norm": 0.11334148049354553,
	"learning_rate": 0.0015,
	"loss": 2.7365,
	"step": 4175
	},
	{
	"epoch": 0.02605426731678267,
	"grad_norm": 0.09303794056177139,
	"learning_rate": 0.0015,
	"loss": 2.7471,
	"step": 4200
	},
	{
	"epoch": 0.02605426731678267,
	"eval_loss": 4.692121505737305,
	"perplexity": 109.08435821533203,
	"step": 4200
	},
	{
	"epoch": 0.02620935224128733,
	"grad_norm": 0.09444712847471237,
	"learning_rate": 0.0015,
	"loss": 2.6965,
	"step": 4225
	},
	{
	"epoch": 0.02636443716579199,
	"grad_norm": 0.09560113400220871,
	"learning_rate": 0.0015,
	"loss": 2.7186,
	"step": 4250
	},
	{
	"epoch": 0.026519522090296645,
	"grad_norm": 0.10814715176820755,
	"learning_rate": 0.0015,
	"loss": 2.7,
	"step": 4275
	},
	{
	"epoch": 0.026674607014801305,
	"grad_norm": 0.12008251994848251,
	"learning_rate": 0.0015,
	"loss": 2.6827,
	"step": 4300
	},
	{
	"epoch": 0.026829691939305966,
	"grad_norm": 0.13892072439193726,
	"learning_rate": 0.0015,
	"loss": 2.7481,
	"step": 4325
	},
	{
	"epoch": 0.026984776863810622,
	"grad_norm": 0.10116352885961533,
	"learning_rate": 0.0015,
	"loss": 2.6839,
	"step": 4350
	},
	{
	"epoch": 0.027139861788315282,
	"grad_norm": 0.2541595697402954,
	"learning_rate": 0.0015,
	"loss": 2.6987,
	"step": 4375
	},
	{
	"epoch": 0.02729494671281994,
	"grad_norm": 0.11070574074983597,
	"learning_rate": 0.0015,
	"loss": 2.7102,
	"step": 4400
	},
	{
	"epoch": 0.02729494671281994,
	"eval_loss": 4.702114105224609,
	"perplexity": 110.17985534667969,
	"step": 4400
	},
	{
	"epoch": 0.0274500316373246,
	"grad_norm": 0.09290622174739838,
	"learning_rate": 0.0015,
	"loss": 2.744,
	"step": 4425
	},
	{
	"epoch": 0.02760511656182926,
	"grad_norm": 0.09867129474878311,
	"learning_rate": 0.0015,
	"loss": 2.6979,
	"step": 4450
	},
	{
	"epoch": 0.027760201486333916,
	"grad_norm": 0.08975850045681,
	"learning_rate": 0.0015,
	"loss": 2.7346,
	"step": 4475
	},
	{
	"epoch": 0.027915286410838576,
	"grad_norm": 0.1251811683177948,
	"learning_rate": 0.0015,
	"loss": 2.6901,
	"step": 4500
	},
	{
	"epoch": 0.028070371335343233,
	"grad_norm": 0.10718528181314468,
	"learning_rate": 0.0015,
	"loss": 2.6584,
	"step": 4525
	},
	{
	"epoch": 0.028225456259847893,
	"grad_norm": 0.1920158714056015,
	"learning_rate": 0.0015,
	"loss": 2.6776,
	"step": 4550
	},
	{
	"epoch": 0.028380541184352553,
	"grad_norm": 0.11409153789281845,
	"learning_rate": 0.0015,
	"loss": 2.7052,
	"step": 4575
	},
	{
	"epoch": 0.02853562610885721,
	"grad_norm": 0.12506772577762604,
	"learning_rate": 0.0015,
	"loss": 2.6954,
	"step": 4600
	},
	{
	"epoch": 0.02853562610885721,
	"eval_loss": 4.685390949249268,
	"perplexity": 108.35262298583984,
	"step": 4600
	},
	{
	"epoch": 0.02869071103336187,
	"grad_norm": 0.1093166172504425,
	"learning_rate": 0.0015,
	"loss": 2.7257,
	"step": 4625
	},
	{
	"epoch": 0.028845795957866526,
	"grad_norm": 0.16628532111644745,
	"learning_rate": 0.0015,
	"loss": 2.6782,
	"step": 4650
	},
	{
	"epoch": 0.029000880882371186,
	"grad_norm": 0.1638079136610031,
	"learning_rate": 0.0015,
	"loss": 2.6884,
	"step": 4675
	},
	{
	"epoch": 0.029155965806875846,
	"grad_norm": 0.11411619931459427,
	"learning_rate": 0.0015,
	"loss": 2.7054,
	"step": 4700
	},
	{
	"epoch": 0.029311050731380503,
	"grad_norm": 0.09292814135551453,
	"learning_rate": 0.0015,
	"loss": 2.6826,
	"step": 4725
	},
	{
	"epoch": 0.029466135655885163,
	"grad_norm": 0.09136354923248291,
	"learning_rate": 0.0015,
	"loss": 2.6936,
	"step": 4750
	},
	{
	"epoch": 0.029621220580389823,
	"grad_norm": 0.1188502386212349,
	"learning_rate": 0.0015,
	"loss": 2.6466,
	"step": 4775
	},
	{
	"epoch": 0.02977630550489448,
	"grad_norm": 0.09645655751228333,
	"learning_rate": 0.0015,
	"loss": 2.6092,
	"step": 4800
	},
	{
	"epoch": 0.02977630550489448,
	"eval_loss": 4.683995723724365,
	"perplexity": 108.20155334472656,
	"step": 4800
	},
	{
	"epoch": 0.02993139042939914,
	"grad_norm": 0.17193672060966492,
	"learning_rate": 0.0015,
	"loss": 2.6916,
	"step": 4825
	},
	{
	"epoch": 0.030086475353903797,
	"grad_norm": 0.14866988360881805,
	"learning_rate": 0.0015,
	"loss": 2.6776,
	"step": 4850
	},
	{
	"epoch": 0.030241560278408457,
	"grad_norm": 0.10588869452476501,
	"learning_rate": 0.0015,
	"loss": 2.6773,
	"step": 4875
	},
	{
	"epoch": 0.030396645202913117,
	"grad_norm": 0.12059559673070908,
	"learning_rate": 0.0015,
	"loss": 2.639,
	"step": 4900
	},
	{
	"epoch": 0.030551730127417773,
	"grad_norm": 0.13296598196029663,
	"learning_rate": 0.0015,
	"loss": 2.6359,
	"step": 4925
	},
	{
	"epoch": 0.030706815051922434,
	"grad_norm": 0.12300167232751846,
	"learning_rate": 0.0015,
	"loss": 2.668,
	"step": 4950
	},
	{
	"epoch": 0.03086189997642709,
	"grad_norm": 0.15900522470474243,
	"learning_rate": 0.0015,
	"loss": 2.6252,
	"step": 4975
	},
	{
	"epoch": 0.03101698490093175,
	"grad_norm": 0.138090580701828,
	"learning_rate": 0.0015,
	"loss": 2.659,
	"step": 5000
	},
	{
	"epoch": 0.03101698490093175,
	"eval_loss": 4.688181400299072,
	"perplexity": 108.65540313720703,
	"step": 5000
	},
	{
	"epoch": 0.03117206982543641,
	"grad_norm": 0.13720737397670746,
	"learning_rate": 0.0015,
	"loss": 2.6096,
	"step": 5025
	},
	{
	"epoch": 0.03132715474994107,
	"grad_norm": 0.13671600818634033,
	"learning_rate": 0.0015,
	"loss": 2.647,
	"step": 5050
	},
	{
	"epoch": 0.031482239674445724,
	"grad_norm": 0.12611277401447296,
	"learning_rate": 0.0015,
	"loss": 2.639,
	"step": 5075
	},
	{
	"epoch": 0.031637324598950384,
	"grad_norm": 0.12045291066169739,
	"learning_rate": 0.0015,
	"loss": 2.663,
	"step": 5100
	},
	{
	"epoch": 0.031792409523455044,
	"grad_norm": 0.10857657343149185,
	"learning_rate": 0.0015,
	"loss": 2.6677,
	"step": 5125
	},
	{
	"epoch": 0.031947494447959704,
	"grad_norm": 0.12052007764577866,
	"learning_rate": 0.0015,
	"loss": 2.6508,
	"step": 5150
	},
	{
	"epoch": 0.032102579372464364,
	"grad_norm": 0.10999467223882675,
	"learning_rate": 0.0015,
	"loss": 2.661,
	"step": 5175
	},
	{
	"epoch": 0.03225766429696902,
	"grad_norm": 0.11075185984373093,
	"learning_rate": 0.0015,
	"loss": 2.6645,
	"step": 5200
	},
	{
	"epoch": 0.03225766429696902,
	"eval_loss": 4.706582546234131,
	"perplexity": 110.67329406738281,
	"step": 5200
	},
	{
	"epoch": 0.03241274922147368,
	"grad_norm": 0.09703061729669571,
	"learning_rate": 0.0015,
	"loss": 2.6109,
	"step": 5225
	},
	{
	"epoch": 0.03256783414597834,
	"grad_norm": 0.13556119799613953,
	"learning_rate": 0.0015,
	"loss": 2.6621,
	"step": 5250
	},
	{
	"epoch": 0.032722919070483,
	"grad_norm": 0.09178316593170166,
	"learning_rate": 0.0015,
	"loss": 2.6263,
	"step": 5275
	},
	{
	"epoch": 0.03287800399498766,
	"grad_norm": 0.10839138180017471,
	"learning_rate": 0.0015,
	"loss": 2.5999,
	"step": 5300
	},
	{
	"epoch": 0.03303308891949231,
	"grad_norm": 0.12049377709627151,
	"learning_rate": 0.0015,
	"loss": 2.6085,
	"step": 5325
	},
	{
	"epoch": 0.03318817384399697,
	"grad_norm": 0.15260230004787445,
	"learning_rate": 0.0015,
	"loss": 2.664,
	"step": 5350
	},
	{
	"epoch": 0.03334325876850163,
	"grad_norm": 0.12393297255039215,
	"learning_rate": 0.0015,
	"loss": 2.6234,
	"step": 5375
	},
	{
	"epoch": 0.03349834369300629,
	"grad_norm": 0.1284521073102951,
	"learning_rate": 0.0015,
	"loss": 2.5624,
	"step": 5400
	},
	{
	"epoch": 0.03349834369300629,
	"eval_loss": 4.696901321411133,
	"perplexity": 109.60700988769531,
	"step": 5400
	},
	{
	"epoch": 0.03365342861751095,
	"grad_norm": 0.18052247166633606,
	"learning_rate": 0.0015,
	"loss": 2.5779,
	"step": 5425
	},
	{
	"epoch": 0.033808513542015604,
	"grad_norm": 0.11775010824203491,
	"learning_rate": 0.0015,
	"loss": 2.6167,
	"step": 5450
	},
	{
	"epoch": 0.033963598466520264,
	"grad_norm": 0.13769109547138214,
	"learning_rate": 0.0015,
	"loss": 2.6117,
	"step": 5475
	},
	{
	"epoch": 0.034118683391024925,
	"grad_norm": 0.09634970873594284,
	"learning_rate": 0.0015,
	"loss": 2.613,
	"step": 5500
	},
	{
	"epoch": 0.034273768315529585,
	"grad_norm": 0.14692488312721252,
	"learning_rate": 0.0015,
	"loss": 2.6176,
	"step": 5525
	},
	{
	"epoch": 0.034428853240034245,
	"grad_norm": 0.21920783817768097,
	"learning_rate": 0.0015,
	"loss": 2.6196,
	"step": 5550
	},
	{
	"epoch": 0.034583938164538905,
	"grad_norm": 0.1033003106713295,
	"learning_rate": 0.0015,
	"loss": 2.5872,
	"step": 5575
	},
	{
	"epoch": 0.03473902308904356,
	"grad_norm": 0.09867612272500992,
	"learning_rate": 0.0015,
	"loss": 2.5782,
	"step": 5600
	},
	{
	"epoch": 0.03473902308904356,
	"eval_loss": 4.704063892364502,
	"perplexity": 110.3948974609375,
	"step": 5600
	},
	{
	"epoch": 0.03489410801354822,
	"grad_norm": 0.1032184287905693,
	"learning_rate": 0.0015,
	"loss": 2.6187,
	"step": 5625
	},
	{
	"epoch": 0.03504919293805288,
	"grad_norm": 0.12661318480968475,
	"learning_rate": 0.0015,
	"loss": 2.5805,
	"step": 5650
	},
	{
	"epoch": 0.03520427786255754,
	"grad_norm": 0.28772449493408203,
	"learning_rate": 0.0015,
	"loss": 2.7518,
	"step": 5675
	},
	{
	"epoch": 0.0353593627870622,
	"grad_norm": 0.10005131363868713,
	"learning_rate": 0.0015,
	"loss": 2.8556,
	"step": 5700
	},
	{
	"epoch": 0.03551444771156685,
	"grad_norm": 0.10379570722579956,
	"learning_rate": 0.0015,
	"loss": 2.8648,
	"step": 5725
	},
	{
	"epoch": 0.03566953263607151,
	"grad_norm": 0.08921229094266891,
	"learning_rate": 0.0015,
	"loss": 2.8421,
	"step": 5750
	},
	{
	"epoch": 0.03582461756057617,
	"grad_norm": 0.15366144478321075,
	"learning_rate": 0.0015,
	"loss": 2.8162,
	"step": 5775
	},
	{
	"epoch": 0.03597970248508083,
	"grad_norm": 0.12743431329727173,
	"learning_rate": 0.0015,
	"loss": 2.8635,
	"step": 5800
	},
	{
	"epoch": 0.03597970248508083,
	"eval_loss": 4.674878120422363,
	"perplexity": 107.21949768066406,
	"step": 5800
	},
	{
	"epoch": 0.03613478740958549,
	"grad_norm": 0.08773666620254517,
	"learning_rate": 0.0015,
	"loss": 2.8787,
	"step": 5825
	},
	{
	"epoch": 0.036289872334090145,
	"grad_norm": 0.11721781641244888,
	"learning_rate": 0.0015,
	"loss": 2.853,
	"step": 5850
	},
	{
	"epoch": 0.036444957258594805,
	"grad_norm": 0.09957700222730637,
	"learning_rate": 0.0015,
	"loss": 2.8163,
	"step": 5875
	},
	{
	"epoch": 0.036600042183099465,
	"grad_norm": 0.09999966621398926,
	"learning_rate": 0.0015,
	"loss": 2.8206,
	"step": 5900
	},
	{
	"epoch": 0.036755127107604126,
	"grad_norm": 0.09899301081895828,
	"learning_rate": 0.0015,
	"loss": 2.8378,
	"step": 5925
	},
	{
	"epoch": 0.036910212032108786,
	"grad_norm": 0.09676779061555862,
	"learning_rate": 0.0015,
	"loss": 2.8385,
	"step": 5950
	},
	{
	"epoch": 0.03706529695661344,
	"grad_norm": 0.14397811889648438,
	"learning_rate": 0.0015,
	"loss": 2.8639,
	"step": 5975
	},
	{
	"epoch": 0.0372203818811181,
	"grad_norm": 0.08991026133298874,
	"learning_rate": 0.0015,
	"loss": 2.862,
	"step": 6000
	},
	{
	"epoch": 0.0372203818811181,
	"eval_loss": 4.649503707885742,
	"perplexity": 104.53309631347656,
	"step": 6000
	},
	{
	"epoch": 0.03737546680562276,
	"grad_norm": 0.11916879564523697,
	"learning_rate": 0.0015,
	"loss": 2.8336,
	"step": 6025
	},
	{
	"epoch": 0.03753055173012742,
	"grad_norm": 0.1533547192811966,
	"learning_rate": 0.0015,
	"loss": 2.8154,
	"step": 6050
	},
	{
	"epoch": 0.03768563665463208,
	"grad_norm": 0.10416785627603531,
	"learning_rate": 0.0015,
	"loss": 2.8073,
	"step": 6075
	},
	{
	"epoch": 0.03784072157913673,
	"grad_norm": 0.1307593733072281,
	"learning_rate": 0.0015,
	"loss": 2.8227,
	"step": 6100
	},
	{
	"epoch": 0.03799580650364139,
	"grad_norm": 0.11226139962673187,
	"learning_rate": 0.0015,
	"loss": 2.8316,
	"step": 6125
	},
	{
	"epoch": 0.03815089142814605,
	"grad_norm": 0.12050950527191162,
	"learning_rate": 0.0015,
	"loss": 2.8636,
	"step": 6150
	},
	{
	"epoch": 0.03830597635265071,
	"grad_norm": 0.14836955070495605,
	"learning_rate": 0.0015,
	"loss": 2.8433,
	"step": 6175
	},
	{
	"epoch": 0.03846106127715537,
	"grad_norm": 0.1240909993648529,
	"learning_rate": 0.0015,
	"loss": 2.885,
	"step": 6200
	},
	{
	"epoch": 0.03846106127715537,
	"eval_loss": 4.652696132659912,
	"perplexity": 104.86734008789062,
	"step": 6200
	},
	{
	"epoch": 0.038616146201660026,
	"grad_norm": 0.09549515694379807,
	"learning_rate": 0.0015,
	"loss": 2.822,
	"step": 6225
	},
	{
	"epoch": 0.038771231126164686,
	"grad_norm": 0.1386450082063675,
	"learning_rate": 0.0015,
	"loss": 2.8455,
	"step": 6250
	},
	{
	"epoch": 0.038926316050669346,
	"grad_norm": 0.10233025252819061,
	"learning_rate": 0.0015,
	"loss": 2.834,
	"step": 6275
	},
	{
	"epoch": 0.039081400975174006,
	"grad_norm": 0.09776704013347626,
	"learning_rate": 0.0015,
	"loss": 2.8114,
	"step": 6300
	},
	{
	"epoch": 0.039236485899678666,
	"grad_norm": 0.09631351381540298,
	"learning_rate": 0.0015,
	"loss": 2.8107,
	"step": 6325
	},
	{
	"epoch": 0.03939157082418332,
	"grad_norm": 0.08424117416143417,
	"learning_rate": 0.0015,
	"loss": 2.8373,
	"step": 6350
	},
	{
	"epoch": 0.03954665574868798,
	"grad_norm": 0.14171521365642548,
	"learning_rate": 0.0015,
	"loss": 2.8394,
	"step": 6375
	},
	{
	"epoch": 0.03970174067319264,
	"grad_norm": 0.11349046230316162,
	"learning_rate": 0.0015,
	"loss": 2.8131,
	"step": 6400
	},
	{
	"epoch": 0.03970174067319264,
	"eval_loss": 4.652514934539795,
	"perplexity": 104.84834289550781,
	"step": 6400
	},
	{
	"epoch": 0.0398568255976973,
	"grad_norm": 0.09066054224967957,
	"learning_rate": 0.0015,
	"loss": 2.8758,
	"step": 6425
	},
	{
	"epoch": 0.04001191052220196,
	"grad_norm": 0.09391192346811295,
	"learning_rate": 0.0015,
	"loss": 2.826,
	"step": 6450
	},
	{
	"epoch": 0.04016699544670661,
	"grad_norm": 0.17412593960762024,
	"learning_rate": 0.0015,
	"loss": 2.8487,
	"step": 6475
	},
	{
	"epoch": 0.04032208037121127,
	"grad_norm": 0.17672564089298248,
	"learning_rate": 0.0015,
	"loss": 2.8441,
	"step": 6500
	},
	{
	"epoch": 0.04047716529571593,
	"grad_norm": 0.11427825689315796,
	"learning_rate": 0.0015,
	"loss": 2.8843,
	"step": 6525
	},
	{
	"epoch": 0.04063225022022059,
	"grad_norm": 0.13745597004890442,
	"learning_rate": 0.0015,
	"loss": 2.8458,
	"step": 6550
	},
	{
	"epoch": 0.040787335144725254,
	"grad_norm": 0.12339327484369278,
	"learning_rate": 0.0015,
	"loss": 2.8299,
	"step": 6575
	},
	{
	"epoch": 0.040942420069229914,
	"grad_norm": 0.11045660078525543,
	"learning_rate": 0.0015,
	"loss": 2.8504,
	"step": 6600
	},
	{
	"epoch": 0.040942420069229914,
	"eval_loss": 4.645139217376709,
	"perplexity": 104.0778579711914,
	"step": 6600
	},
	{
	"epoch": 0.04109750499373457,
	"grad_norm": 0.14822149276733398,
	"learning_rate": 0.0015,
	"loss": 2.8438,
	"step": 6625
	},
	{
	"epoch": 0.04125258991823923,
	"grad_norm": 0.09271769225597382,
	"learning_rate": 0.0015,
	"loss": 2.8195,
	"step": 6650
	},
	{
	"epoch": 0.04140767484274389,
	"grad_norm": 0.12357133626937866,
	"learning_rate": 0.0015,
	"loss": 2.8434,
	"step": 6675
	},
	{
	"epoch": 0.04156275976724855,
	"grad_norm": 0.12669824063777924,
	"learning_rate": 0.0015,
	"loss": 2.8262,
	"step": 6700
	},
	{
	"epoch": 0.04171784469175321,
	"grad_norm": 0.10409893840551376,
	"learning_rate": 0.0015,
	"loss": 2.8164,
	"step": 6725
	},
	{
	"epoch": 0.04187292961625786,
	"grad_norm": 0.10687699913978577,
	"learning_rate": 0.0015,
	"loss": 2.83,
	"step": 6750
	},
	{
	"epoch": 0.04202801454076252,
	"grad_norm": 0.09924216568470001,
	"learning_rate": 0.0015,
	"loss": 2.8415,
	"step": 6775
	},
	{
	"epoch": 0.04218309946526718,
	"grad_norm": 0.11719833314418793,
	"learning_rate": 0.0015,
	"loss": 2.8368,
	"step": 6800
	},
	{
	"epoch": 0.04218309946526718,
	"eval_loss": 4.673882484436035,
	"perplexity": 107.11280059814453,
	"step": 6800
	},
	{
	"epoch": 0.04233818438977184,
	"grad_norm": 0.10162920504808426,
	"learning_rate": 0.0015,
	"loss": 2.8285,
	"step": 6825
	},
	{
	"epoch": 0.0424932693142765,
	"grad_norm": 0.10563603043556213,
	"learning_rate": 0.0015,
	"loss": 2.809,
	"step": 6850
	},
	{
	"epoch": 0.042648354238781154,
	"grad_norm": 0.079631008207798,
	"learning_rate": 0.0015,
	"loss": 2.8362,
	"step": 6875
	},
	{
	"epoch": 0.042803439163285814,
	"grad_norm": 0.11915802210569382,
	"learning_rate": 0.0015,
	"loss": 2.8211,
	"step": 6900
	},
	{
	"epoch": 0.042958524087790474,
	"grad_norm": 0.13783864676952362,
	"learning_rate": 0.0015,
	"loss": 2.8403,
	"step": 6925
	},
	{
	"epoch": 0.043113609012295134,
	"grad_norm": 0.17333541810512543,
	"learning_rate": 0.0015,
	"loss": 2.8699,
	"step": 6950
	},
	{
	"epoch": 0.043268693936799794,
	"grad_norm": 0.10923554003238678,
	"learning_rate": 0.0015,
	"loss": 2.8016,
	"step": 6975
	},
	{
	"epoch": 0.04342377886130445,
	"grad_norm": 0.10525023192167282,
	"learning_rate": 0.0015,
	"loss": 2.8302,
	"step": 7000
	},
	{
	"epoch": 0.04342377886130445,
	"eval_loss": 4.660215854644775,
	"perplexity": 105.65888977050781,
	"step": 7000
	},
	{
	"epoch": 0.04357886378580911,
	"grad_norm": 0.10499420017004013,
	"learning_rate": 0.0015,
	"loss": 2.8215,
	"step": 7025
	},
	{
	"epoch": 0.04373394871031377,
	"grad_norm": 0.09560755640268326,
	"learning_rate": 0.0015,
	"loss": 2.8279,
	"step": 7050
	},
	{
	"epoch": 0.04388903363481843,
	"grad_norm": 0.10454019159078598,
	"learning_rate": 0.0015,
	"loss": 2.8161,
	"step": 7075
	},
	{
	"epoch": 0.04404411855932309,
	"grad_norm": 0.0982690081000328,
	"learning_rate": 0.0015,
	"loss": 2.7895,
	"step": 7100
	},
	{
	"epoch": 0.04419920348382774,
	"grad_norm": 0.10405784100294113,
	"learning_rate": 0.0015,
	"loss": 2.7945,
	"step": 7125
	},
	{
	"epoch": 0.0443542884083324,
	"grad_norm": 0.09310988336801529,
	"learning_rate": 0.0015,
	"loss": 2.8535,
	"step": 7150
	},
	{
	"epoch": 0.04450937333283706,
	"grad_norm": 0.1031995639204979,
	"learning_rate": 0.0015,
	"loss": 2.8298,
	"step": 7175
	},
	{
	"epoch": 0.04466445825734172,
	"grad_norm": 0.09206147491931915,
	"learning_rate": 0.0015,
	"loss": 2.794,
	"step": 7200
	},
	{
	"epoch": 0.04466445825734172,
	"eval_loss": 4.642621994018555,
	"perplexity": 103.81619262695312,
	"step": 7200
	},
	{
	"epoch": 0.04481954318184638,
	"grad_norm": 0.1051359549164772,
	"learning_rate": 0.0015,
	"loss": 2.7996,
	"step": 7225
	},
	{
	"epoch": 0.044974628106351035,
	"grad_norm": 0.12941063940525055,
	"learning_rate": 0.0015,
	"loss": 2.792,
	"step": 7250
	},
	{
	"epoch": 0.045129713030855695,
	"grad_norm": 0.09297281503677368,
	"learning_rate": 0.0015,
	"loss": 2.7847,
	"step": 7275
	},
	{
	"epoch": 0.045284797955360355,
	"grad_norm": 0.11114951968193054,
	"learning_rate": 0.0015,
	"loss": 2.8164,
	"step": 7300
	},
	{
	"epoch": 0.045439882879865015,
	"grad_norm": 0.08519440144300461,
	"learning_rate": 0.0015,
	"loss": 2.8053,
	"step": 7325
	},
	{
	"epoch": 0.045594967804369675,
	"grad_norm": 0.11148552596569061,
	"learning_rate": 0.0015,
	"loss": 2.7871,
	"step": 7350
	},
	{
	"epoch": 0.04575005272887433,
	"grad_norm": 0.136012002825737,
	"learning_rate": 0.0015,
	"loss": 2.8457,
	"step": 7375
	},
	{
	"epoch": 0.04590513765337899,
	"grad_norm": 0.1037759929895401,
	"learning_rate": 0.0015,
	"loss": 2.748,
	"step": 7400
	},
	{
	"epoch": 0.04590513765337899,
	"eval_loss": 4.631537437438965,
	"perplexity": 102.67179107666016,
	"step": 7400
	},
	{
	"epoch": 0.04606022257788365,
	"grad_norm": 0.11162275820970535,
	"learning_rate": 0.0015,
	"loss": 2.8044,
	"step": 7425
	},
	{
	"epoch": 0.04621530750238831,
	"grad_norm": 0.11309058219194412,
	"learning_rate": 0.0015,
	"loss": 2.8198,
	"step": 7450
	},
	{
	"epoch": 0.04637039242689297,
	"grad_norm": 0.09359199553728104,
	"learning_rate": 0.0015,
	"loss": 2.8302,
	"step": 7475
	},
	{
	"epoch": 0.04652547735139762,
	"grad_norm": 0.09513767808675766,
	"learning_rate": 0.0015,
	"loss": 2.8325,
	"step": 7500
	},
	{
	"epoch": 0.04668056227590228,
	"grad_norm": 0.08243551850318909,
	"learning_rate": 0.0015,
	"loss": 2.7925,
	"step": 7525
	},
	{
	"epoch": 0.04683564720040694,
	"grad_norm": 0.08001349121332169,
	"learning_rate": 0.0015,
	"loss": 2.8406,
	"step": 7550
	},
	{
	"epoch": 0.0469907321249116,
	"grad_norm": 0.11749595403671265,
	"learning_rate": 0.0015,
	"loss": 2.7762,
	"step": 7575
	},
	{
	"epoch": 0.04714581704941626,
	"grad_norm": 0.15697765350341797,
	"learning_rate": 0.0015,
	"loss": 2.8137,
	"step": 7600
	},
	{
	"epoch": 0.04714581704941626,
	"eval_loss": 4.643322467803955,
	"perplexity": 103.8889389038086,
	"step": 7600
	},
	{
	"epoch": 0.04730090197392092,
	"grad_norm": 0.1004658117890358,
	"learning_rate": 0.0015,
	"loss": 2.7787,
	"step": 7625
	},
	{
	"epoch": 0.047455986898425576,
	"grad_norm": 0.11577022075653076,
	"learning_rate": 0.0015,
	"loss": 2.806,
	"step": 7650
	},
	{
	"epoch": 0.047611071822930236,
	"grad_norm": 0.10791046917438507,
	"learning_rate": 0.0015,
	"loss": 2.7637,
	"step": 7675
	},
	{
	"epoch": 0.047766156747434896,
	"grad_norm": 0.09490654617547989,
	"learning_rate": 0.0015,
	"loss": 2.8187,
	"step": 7700
	},
	{
	"epoch": 0.047921241671939556,
	"grad_norm": 0.10448817163705826,
	"learning_rate": 0.0015,
	"loss": 2.8335,
	"step": 7725
	},
	{
	"epoch": 0.048076326596444216,
	"grad_norm": 0.10800398141145706,
	"learning_rate": 0.0015,
	"loss": 2.8138,
	"step": 7750
	},
	{
	"epoch": 0.04823141152094887,
	"grad_norm": 0.10268035531044006,
	"learning_rate": 0.0015,
	"loss": 2.8074,
	"step": 7775
	},
	{
	"epoch": 0.04838649644545353,
	"grad_norm": 0.145925372838974,
	"learning_rate": 0.0015,
	"loss": 2.8161,
	"step": 7800
	},
	{
	"epoch": 0.04838649644545353,
	"eval_loss": 4.628528118133545,
	"perplexity": 102.36328887939453,
	"step": 7800
	},
	{
	"epoch": 0.04854158136995819,
	"grad_norm": 0.1422831267118454,
	"learning_rate": 0.0015,
	"loss": 2.8179,
	"step": 7825
	},
	{
	"epoch": 0.04869666629446285,
	"grad_norm": 0.10019826889038086,
	"learning_rate": 0.0015,
	"loss": 2.8228,
	"step": 7850
	},
	{
	"epoch": 0.04885175121896751,
	"grad_norm": 0.12028387933969498,
	"learning_rate": 0.0015,
	"loss": 2.8359,
	"step": 7875
	},
	{
	"epoch": 0.04900683614347216,
	"grad_norm": 0.08171118795871735,
	"learning_rate": 0.0015,
	"loss": 2.7829,
	"step": 7900
	},
	{
	"epoch": 0.04916192106797682,
	"grad_norm": 0.138522207736969,
	"learning_rate": 0.0015,
	"loss": 2.7992,
	"step": 7925
	},
	{
	"epoch": 0.04931700599248148,
	"grad_norm": 0.10419227927923203,
	"learning_rate": 0.0015,
	"loss": 2.8097,
	"step": 7950
	},
	{
	"epoch": 0.04947209091698614,
	"grad_norm": 0.1020691841840744,
	"learning_rate": 0.0015,
	"loss": 2.8152,
	"step": 7975
	},
	{
	"epoch": 0.0496271758414908,
	"grad_norm": 0.12423787266016006,
	"learning_rate": 0.0015,
	"loss": 2.7966,
	"step": 8000
	},
	{
	"epoch": 0.0496271758414908,
	"eval_loss": 4.6273722648620605,
	"perplexity": 102.24504089355469,
	"step": 8000
	},
	{
	"epoch": 0.049782260765995456,
	"grad_norm": 0.15230977535247803,
	"learning_rate": 0.0015,
	"loss": 2.7575,
	"step": 8025
	},
	{
	"epoch": 0.049937345690500116,
	"grad_norm": 0.12649676203727722,
	"learning_rate": 0.0015,
	"loss": 2.7897,
	"step": 8050
	},
	{
	"epoch": 0.05009243061500478,
	"grad_norm": 0.11257271468639374,
	"learning_rate": 0.0015,
	"loss": 2.8115,
	"step": 8075
	},
	{
	"epoch": 0.05024751553950944,
	"grad_norm": 0.09349871426820755,
	"learning_rate": 0.0015,
	"loss": 2.8041,
	"step": 8100
	},
	{
	"epoch": 0.0504026004640141,
	"grad_norm": 0.14108401536941528,
	"learning_rate": 0.0015,
	"loss": 2.7772,
	"step": 8125
	},
	{
	"epoch": 0.05055768538851875,
	"grad_norm": 0.17286863923072815,
	"learning_rate": 0.0015,
	"loss": 2.8197,
	"step": 8150
	},
	{
	"epoch": 0.05071277031302341,
	"grad_norm": 0.10759209096431732,
	"learning_rate": 0.0015,
	"loss": 2.8396,
	"step": 8175
	},
	{
	"epoch": 0.05086785523752807,
	"grad_norm": 0.10236554592847824,
	"learning_rate": 0.0015,
	"loss": 2.8175,
	"step": 8200
	},
	{
	"epoch": 0.05086785523752807,
	"eval_loss": 4.610519886016846,
	"perplexity": 100.5363998413086,
	"step": 8200
	},
	{
	"epoch": 0.05102294016203273,
	"grad_norm": 0.12348885089159012,
	"learning_rate": 0.0015,
	"loss": 2.8139,
	"step": 8225
	},
	{
	"epoch": 0.05117802508653739,
	"grad_norm": 0.10251584649085999,
	"learning_rate": 0.0015,
	"loss": 2.8436,
	"step": 8250
	},
	{
	"epoch": 0.051333110011042044,
	"grad_norm": 0.10069389641284943,
	"learning_rate": 0.0015,
	"loss": 2.8409,
	"step": 8275
	},
	{
	"epoch": 0.051488194935546704,
	"grad_norm": 0.1546829789876938,
	"learning_rate": 0.0015,
	"loss": 2.8199,
	"step": 8300
	},
	{
	"epoch": 0.051643279860051364,
	"grad_norm": 0.10704527795314789,
	"learning_rate": 0.0015,
	"loss": 2.7721,
	"step": 8325
	},
	{
	"epoch": 0.051798364784556024,
	"grad_norm": 0.12251198291778564,
	"learning_rate": 0.0015,
	"loss": 2.8175,
	"step": 8350
	},
	{
	"epoch": 0.051953449709060684,
	"grad_norm": 0.11113474518060684,
	"learning_rate": 0.0015,
	"loss": 2.8085,
	"step": 8375
	},
	{
	"epoch": 0.05210853463356534,
	"grad_norm": 0.1341187059879303,
	"learning_rate": 0.0015,
	"loss": 2.8169,
	"step": 8400
	},
	{
	"epoch": 0.05210853463356534,
	"eval_loss": 4.610434532165527,
	"perplexity": 100.52782440185547,
	"step": 8400
	},
	{
	"epoch": 0.05226361955807,
	"grad_norm": 0.16195224225521088,
	"learning_rate": 0.0015,
	"loss": 2.8266,
	"step": 8425
	},
	{
	"epoch": 0.05241870448257466,
	"grad_norm": 0.1637653261423111,
	"learning_rate": 0.0015,
	"loss": 2.8106,
	"step": 8450
	},
	{
	"epoch": 0.05257378940707932,
	"grad_norm": 0.10014921426773071,
	"learning_rate": 0.0015,
	"loss": 2.8103,
	"step": 8475
	},
	{
	"epoch": 0.05272887433158398,
	"grad_norm": 0.11419603228569031,
	"learning_rate": 0.0015,
	"loss": 2.7965,
	"step": 8500
	},
	{
	"epoch": 0.05288395925608863,
	"grad_norm": 0.08137035369873047,
	"learning_rate": 0.0015,
	"loss": 2.7802,
	"step": 8525
	},
	{
	"epoch": 0.05303904418059329,
	"grad_norm": 0.08078640699386597,
	"learning_rate": 0.0015,
	"loss": 2.7819,
	"step": 8550
	},
	{
	"epoch": 0.05319412910509795,
	"grad_norm": 0.13133442401885986,
	"learning_rate": 0.0015,
	"loss": 2.83,
	"step": 8575
	},
	{
	"epoch": 0.05334921402960261,
	"grad_norm": 0.08819993585348129,
	"learning_rate": 0.0015,
	"loss": 2.833,
	"step": 8600
	},
	{
	"epoch": 0.05334921402960261,
	"eval_loss": 4.603670120239258,
	"perplexity": 99.85010528564453,
	"step": 8600
	},
	{
	"epoch": 0.05350429895410727,
	"grad_norm": 0.14662431180477142,
	"learning_rate": 0.0015,
	"loss": 2.8201,
	"step": 8625
	},
	{
	"epoch": 0.05365938387861193,
	"grad_norm": 0.10400764644145966,
	"learning_rate": 0.0015,
	"loss": 2.7944,
	"step": 8650
	},
	{
	"epoch": 0.053814468803116584,
	"grad_norm": 0.2790142297744751,
	"learning_rate": 0.0015,
	"loss": 2.8307,
	"step": 8675
	},
	{
	"epoch": 0.053969553727621244,
	"grad_norm": 0.13645683228969574,
	"learning_rate": 0.0015,
	"loss": 2.7904,
	"step": 8700
	},
	{
	"epoch": 0.054124638652125905,
	"grad_norm": 0.09604925662279129,
	"learning_rate": 0.0015,
	"loss": 2.76,
	"step": 8725
	},
	{
	"epoch": 0.054279723576630565,
	"grad_norm": 0.07631650567054749,
	"learning_rate": 0.0015,
	"loss": 2.7955,
	"step": 8750
	},
	{
	"epoch": 0.054434808501135225,
	"grad_norm": 0.13132531940937042,
	"learning_rate": 0.0015,
	"loss": 2.8308,
	"step": 8775
	},
	{
	"epoch": 0.05458989342563988,
	"grad_norm": 0.08334681391716003,
	"learning_rate": 0.0015,
	"loss": 2.755,
	"step": 8800
	},
	{
	"epoch": 0.05458989342563988,
	"eval_loss": 4.597860336303711,
	"perplexity": 99.27168273925781,
	"step": 8800
	},
	{
	"epoch": 0.05474497835014454,
	"grad_norm": 0.10585317760705948,
	"learning_rate": 0.0015,
	"loss": 2.7708,
	"step": 8825
	},
	{
	"epoch": 0.0549000632746492,
	"grad_norm": 0.08953095227479935,
	"learning_rate": 0.0015,
	"loss": 2.7622,
	"step": 8850
	},
	{
	"epoch": 0.05505514819915386,
	"grad_norm": 0.10430523008108139,
	"learning_rate": 0.0015,
	"loss": 2.8255,
	"step": 8875
	},
	{
	"epoch": 0.05521023312365852,
	"grad_norm": 0.08961856365203857,
	"learning_rate": 0.0015,
	"loss": 2.7835,
	"step": 8900
	},
	{
	"epoch": 0.05536531804816317,
	"grad_norm": 0.13602201640605927,
	"learning_rate": 0.0015,
	"loss": 2.813,
	"step": 8925
	},
	{
	"epoch": 0.05552040297266783,
	"grad_norm": 0.1858643889427185,
	"learning_rate": 0.0015,
	"loss": 2.8296,
	"step": 8950
	},
	{
	"epoch": 0.05567548789717249,
	"grad_norm": 0.12873806059360504,
	"learning_rate": 0.0015,
	"loss": 2.7669,
	"step": 8975
	},
	{
	"epoch": 0.05583057282167715,
	"grad_norm": 0.09891733527183533,
	"learning_rate": 0.0015,
	"loss": 2.7829,
	"step": 9000
	},
	{
	"epoch": 0.05583057282167715,
	"eval_loss": 4.606179714202881,
	"perplexity": 100.10100555419922,
	"step": 9000
	},
	{
	"epoch": 0.05598565774618181,
	"grad_norm": 0.1619413048028946,
	"learning_rate": 0.0015,
	"loss": 2.7885,
	"step": 9025
	},
	{
	"epoch": 0.056140742670686465,
	"grad_norm": 0.1223379522562027,
	"learning_rate": 0.0015,
	"loss": 2.7829,
	"step": 9050
	},
	{
	"epoch": 0.056295827595191125,
	"grad_norm": 0.10872245579957962,
	"learning_rate": 0.0015,
	"loss": 2.7962,
	"step": 9075
	},
	{
	"epoch": 0.056450912519695785,
	"grad_norm": 0.11461862176656723,
	"learning_rate": 0.0015,
	"loss": 2.7476,
	"step": 9100
	},
	{
	"epoch": 0.056605997444200445,
	"grad_norm": 0.08933119475841522,
	"learning_rate": 0.0015,
	"loss": 2.7745,
	"step": 9125
	},
	{
	"epoch": 0.056761082368705106,
	"grad_norm": 0.12911683320999146,
	"learning_rate": 0.0015,
	"loss": 2.8029,
	"step": 9150
	},
	{
	"epoch": 0.05691616729320976,
	"grad_norm": 0.13963252305984497,
	"learning_rate": 0.0015,
	"loss": 2.7931,
	"step": 9175
	},
	{
	"epoch": 0.05707125221771442,
	"grad_norm": 0.13462606072425842,
	"learning_rate": 0.0015,
	"loss": 2.7771,
	"step": 9200
	},
	{
	"epoch": 0.05707125221771442,
	"eval_loss": 4.619841575622559,
	"perplexity": 101.47795104980469,
	"step": 9200
	},
	{
	"epoch": 0.05722633714221908,
	"grad_norm": 0.12551379203796387,
	"learning_rate": 0.0015,
	"loss": 2.7934,
	"step": 9225
	},
	{
	"epoch": 0.05738142206672374,
	"grad_norm": 0.12379872798919678,
	"learning_rate": 0.0015,
	"loss": 2.7882,
	"step": 9250
	},
	{
	"epoch": 0.0575365069912284,
	"grad_norm": 0.0940781831741333,
	"learning_rate": 0.0015,
	"loss": 2.7658,
	"step": 9275
	},
	{
	"epoch": 0.05769159191573305,
	"grad_norm": 0.14165829122066498,
	"learning_rate": 0.0015,
	"loss": 2.7973,
	"step": 9300
	},
	{
	"epoch": 0.05784667684023771,
	"grad_norm": 0.10727201402187347,
	"learning_rate": 0.0015,
	"loss": 2.815,
	"step": 9325
	},
	{
	"epoch": 0.05800176176474237,
	"grad_norm": 0.1628653109073639,
	"learning_rate": 0.0015,
	"loss": 2.7854,
	"step": 9350
	},
	{
	"epoch": 0.05815684668924703,
	"grad_norm": 0.09925588220357895,
	"learning_rate": 0.0015,
	"loss": 2.7578,
	"step": 9375
	},
	{
	"epoch": 0.05831193161375169,
	"grad_norm": 0.1587476134300232,
	"learning_rate": 0.0015,
	"loss": 2.7296,
	"step": 9400
	},
	{
	"epoch": 0.05831193161375169,
	"eval_loss": 4.604221343994141,
	"perplexity": 99.90515899658203,
	"step": 9400
	},
	{
	"epoch": 0.058467016538256346,
	"grad_norm": 0.10519708693027496,
	"learning_rate": 0.0015,
	"loss": 2.7712,
	"step": 9425
	},
	{
	"epoch": 0.058622101462761006,
	"grad_norm": 0.10321429371833801,
	"learning_rate": 0.0015,
	"loss": 2.7281,
	"step": 9450
	},
	{
	"epoch": 0.058777186387265666,
	"grad_norm": 0.20060209929943085,
	"learning_rate": 0.0015,
	"loss": 2.807,
	"step": 9475
	},
	{
	"epoch": 0.058932271311770326,
	"grad_norm": 0.10847010463476181,
	"learning_rate": 0.0015,
	"loss": 2.8078,
	"step": 9500
	},
	{
	"epoch": 0.059087356236274986,
	"grad_norm": 0.11248752474784851,
	"learning_rate": 0.0015,
	"loss": 2.796,
	"step": 9525
	},
	{
	"epoch": 0.059242441160779646,
	"grad_norm": 0.13171915709972382,
	"learning_rate": 0.0015,
	"loss": 2.7658,
	"step": 9550
	},
	{
	"epoch": 0.0593975260852843,
	"grad_norm": 0.12041529268026352,
	"learning_rate": 0.0015,
	"loss": 2.7507,
	"step": 9575
	},
	{
	"epoch": 0.05955261100978896,
	"grad_norm": 0.11275593191385269,
	"learning_rate": 0.0015,
	"loss": 2.8022,
	"step": 9600
	},
	{
	"epoch": 0.05955261100978896,
	"eval_loss": 4.5886077880859375,
	"perplexity": 98.3573989868164,
	"step": 9600
	},
	{
	"epoch": 0.05970769593429362,
	"grad_norm": 0.1715971678495407,
	"learning_rate": 0.0015,
	"loss": 2.8003,
	"step": 9625
	},
	{
	"epoch": 0.05986278085879828,
	"grad_norm": 0.1223614364862442,
	"learning_rate": 0.0015,
	"loss": 2.8012,
	"step": 9650
	},
	{
	"epoch": 0.06001786578330294,
	"grad_norm": 0.114704430103302,
	"learning_rate": 0.0015,
	"loss": 2.7963,
	"step": 9675
	},
	{
	"epoch": 0.06017295070780759,
	"grad_norm": 0.10282139480113983,
	"learning_rate": 0.0015,
	"loss": 2.7965,
	"step": 9700
	},
	{
	"epoch": 0.06032803563231225,
	"grad_norm": 0.10494767129421234,
	"learning_rate": 0.0015,
	"loss": 2.7698,
	"step": 9725
	},
	{
	"epoch": 0.06048312055681691,
	"grad_norm": 0.0908605083823204,
	"learning_rate": 0.0015,
	"loss": 2.749,
	"step": 9750
	},
	{
	"epoch": 0.06063820548132157,
	"grad_norm": 0.0847998857498169,
	"learning_rate": 0.0015,
	"loss": 2.838,
	"step": 9775
	},
	{
	"epoch": 0.060793290405826234,
	"grad_norm": 0.24615754187107086,
	"learning_rate": 0.0015,
	"loss": 2.8117,
	"step": 9800
	},
	{
	"epoch": 0.060793290405826234,
	"eval_loss": 4.593789100646973,
	"perplexity": 98.86833953857422,
	"step": 9800
	},
	{
	"epoch": 0.06094837533033089,
	"grad_norm": 0.0959208682179451,
	"learning_rate": 0.0015,
	"loss": 2.7845,
	"step": 9825
	},
	{
	"epoch": 0.06110346025483555,
	"grad_norm": 0.09963307529687881,
	"learning_rate": 0.0015,
	"loss": 2.8296,
	"step": 9850
	},
	{
	"epoch": 0.06125854517934021,
	"grad_norm": 0.1115136444568634,
	"learning_rate": 0.0015,
	"loss": 2.7586,
	"step": 9875
	},
	{
	"epoch": 0.06141363010384487,
	"grad_norm": 0.13883067667484283,
	"learning_rate": 0.0015,
	"loss": 2.7978,
	"step": 9900
	},
	{
	"epoch": 0.06156871502834953,
	"grad_norm": 0.2048570066690445,
	"learning_rate": 0.0015,
	"loss": 2.8397,
	"step": 9925
	},
	{
	"epoch": 0.06172379995285418,
	"grad_norm": 0.1306881606578827,
	"learning_rate": 0.0015,
	"loss": 2.8084,
	"step": 9950
	},
	{
	"epoch": 0.06187888487735884,
	"grad_norm": 0.18285603821277618,
	"learning_rate": 0.0015,
	"loss": 2.7989,
	"step": 9975
	},
	{
	"epoch": 0.0620339698018635,
	"grad_norm": 0.1109723299741745,
	"learning_rate": 0.0015,
	"loss": 2.8064,
	"step": 10000
	},
	{
	"epoch": 0.0620339698018635,
	"eval_loss": 4.5877556800842285,
	"perplexity": 98.27362823486328,
	"step": 10000
	},
	{
	"epoch": 0.06218905472636816,
	"grad_norm": 0.12350066751241684,
	"learning_rate": 0.0015,
	"loss": 2.7684,
	"step": 10025
	},
	{
	"epoch": 0.06234413965087282,
	"grad_norm": 0.11565285176038742,
	"learning_rate": 0.0015,
	"loss": 2.7748,
	"step": 10050
	},
	{
	"epoch": 0.062499224575377474,
	"grad_norm": 0.1117839589715004,
	"learning_rate": 0.0015,
	"loss": 2.8044,
	"step": 10075
	},
	{
	"epoch": 0.06265430949988214,
	"grad_norm": 0.1102209985256195,
	"learning_rate": 0.0015,
	"loss": 2.7844,
	"step": 10100
	},
	{
	"epoch": 0.0628093944243868,
	"grad_norm": 0.10270575433969498,
	"learning_rate": 0.0015,
	"loss": 2.7685,
	"step": 10125
	},
	{
	"epoch": 0.06296447934889145,
	"grad_norm": 0.09842963516712189,
	"learning_rate": 0.0015,
	"loss": 2.8048,
	"step": 10150
	},
	{
	"epoch": 0.06311956427339611,
	"grad_norm": 0.10446088761091232,
	"learning_rate": 0.0015,
	"loss": 2.8051,
	"step": 10175
	},
	{
	"epoch": 0.06327464919790077,
	"grad_norm": 0.14759957790374756,
	"learning_rate": 0.0015,
	"loss": 2.8089,
	"step": 10200
	},
	{
	"epoch": 0.06327464919790077,
	"eval_loss": 4.588883399963379,
	"perplexity": 98.38451385498047,
	"step": 10200
	},
	{
	"epoch": 0.06342973412240543,
	"grad_norm": 0.12910906970500946,
	"learning_rate": 0.0015,
	"loss": 2.8193,
	"step": 10225
	},
	{
	"epoch": 0.06358481904691009,
	"grad_norm": 0.13095402717590332,
	"learning_rate": 0.0015,
	"loss": 2.7509,
	"step": 10250
	},
	{
	"epoch": 0.06373990397141474,
	"grad_norm": 0.16069594025611877,
	"learning_rate": 0.0015,
	"loss": 2.7911,
	"step": 10275
	},
	{
	"epoch": 0.06389498889591941,
	"grad_norm": 0.08322907984256744,
	"learning_rate": 0.0015,
	"loss": 2.8025,
	"step": 10300
	},
	{
	"epoch": 0.06405007382042406,
	"grad_norm": 0.2328927367925644,
	"learning_rate": 0.0015,
	"loss": 2.7863,
	"step": 10325
	},
	{
	"epoch": 0.06420515874492873,
	"grad_norm": 0.09172859787940979,
	"learning_rate": 0.0015,
	"loss": 2.8101,
	"step": 10350
	},
	{
	"epoch": 0.06436024366943338,
	"grad_norm": 0.13464473187923431,
	"learning_rate": 0.0015,
	"loss": 2.7718,
	"step": 10375
	},
	{
	"epoch": 0.06451532859393803,
	"grad_norm": 0.1284090131521225,
	"learning_rate": 0.0015,
	"loss": 2.7667,
	"step": 10400
	},
	{
	"epoch": 0.06451532859393803,
	"eval_loss": 4.59510612487793,
	"perplexity": 98.99864196777344,
	"step": 10400
	},
	{
	"epoch": 0.0646704135184427,
	"grad_norm": 0.13565704226493835,
	"learning_rate": 0.0015,
	"loss": 2.7552,
	"step": 10425
	},
	{
	"epoch": 0.06482549844294735,
	"grad_norm": 0.1089024469256401,
	"learning_rate": 0.0015,
	"loss": 2.7838,
	"step": 10450
	},
	{
	"epoch": 0.06498058336745202,
	"grad_norm": 0.11035135388374329,
	"learning_rate": 0.0015,
	"loss": 2.7986,
	"step": 10475
	},
	{
	"epoch": 0.06513566829195667,
	"grad_norm": 0.08107917010784149,
	"learning_rate": 0.0015,
	"loss": 2.7791,
	"step": 10500
	},
	{
	"epoch": 0.06529075321646133,
	"grad_norm": 0.10200012475252151,
	"learning_rate": 0.0015,
	"loss": 2.7636,
	"step": 10525
	},
	{
	"epoch": 0.065445838140966,
	"grad_norm": 0.08427785336971283,
	"learning_rate": 0.0015,
	"loss": 2.794,
	"step": 10550
	},
	{
	"epoch": 0.06560092306547065,
	"grad_norm": 0.10828018933534622,
	"learning_rate": 0.0015,
	"loss": 2.7778,
	"step": 10575
	},
	{
	"epoch": 0.06575600798997532,
	"grad_norm": 0.12101134657859802,
	"learning_rate": 0.0015,
	"loss": 2.7469,
	"step": 10600
	},
	{
	"epoch": 0.06575600798997532,
	"eval_loss": 4.597805500030518,
	"perplexity": 99.2662353515625,
	"step": 10600
	},
	{
	"epoch": 0.06591109291447997,
	"grad_norm": 0.11220554262399673,
	"learning_rate": 0.0015,
	"loss": 2.7294,
	"step": 10625
	},
	{
	"epoch": 0.06606617783898462,
	"grad_norm": 0.13899332284927368,
	"learning_rate": 0.0015,
	"loss": 2.763,
	"step": 10650
	},
	{
	"epoch": 0.06622126276348929,
	"grad_norm": 0.11773937195539474,
	"learning_rate": 0.0015,
	"loss": 2.7866,
	"step": 10675
	},
	{
	"epoch": 0.06637634768799394,
	"grad_norm": 0.11059702187776566,
	"learning_rate": 0.0015,
	"loss": 2.8076,
	"step": 10700
	},
	{
	"epoch": 0.06653143261249861,
	"grad_norm": 0.1251254379749298,
	"learning_rate": 0.0015,
	"loss": 2.7674,
	"step": 10725
	},
	{
	"epoch": 0.06668651753700326,
	"grad_norm": 0.12195979803800583,
	"learning_rate": 0.0015,
	"loss": 2.768,
	"step": 10750
	},
	{
	"epoch": 0.06684160246150792,
	"grad_norm": 0.1487302929162979,
	"learning_rate": 0.0015,
	"loss": 2.762,
	"step": 10775
	},
	{
	"epoch": 0.06699668738601258,
	"grad_norm": 0.1315547525882721,
	"learning_rate": 0.0015,
	"loss": 2.7348,
	"step": 10800
	},
	{
	"epoch": 0.06699668738601258,
	"eval_loss": 4.566490650177002,
	"perplexity": 96.20589447021484,
	"step": 10800
	},
	{
	"epoch": 0.06715177231051724,
	"grad_norm": 0.13864025473594666,
	"learning_rate": 0.0015,
	"loss": 2.7517,
	"step": 10825
	},
	{
	"epoch": 0.0673068572350219,
	"grad_norm": 0.08808566629886627,
	"learning_rate": 0.0015,
	"loss": 2.7718,
	"step": 10850
	},
	{
	"epoch": 0.06746194215952656,
	"grad_norm": 0.115321584045887,
	"learning_rate": 0.0015,
	"loss": 2.7007,
	"step": 10875
	},
	{
	"epoch": 0.06761702708403121,
	"grad_norm": 0.10276370495557785,
	"learning_rate": 0.0015,
	"loss": 2.7692,
	"step": 10900
	},
	{
	"epoch": 0.06777211200853588,
	"grad_norm": 0.09534792602062225,
	"learning_rate": 0.0015,
	"loss": 2.8186,
	"step": 10925
	},
	{
	"epoch": 0.06792719693304053,
	"grad_norm": 0.14239507913589478,
	"learning_rate": 0.0015,
	"loss": 2.7801,
	"step": 10950
	},
	{
	"epoch": 0.0680822818575452,
	"grad_norm": 0.11848737299442291,
	"learning_rate": 0.0015,
	"loss": 2.7394,
	"step": 10975
	},
	{
	"epoch": 0.06823736678204985,
	"grad_norm": 0.09367898106575012,
	"learning_rate": 0.0015,
	"loss": 2.8043,
	"step": 11000
	},
	{
	"epoch": 0.06823736678204985,
	"eval_loss": 4.5800089836120605,
	"perplexity": 97.51527404785156,
	"step": 11000
	},
	{
	"epoch": 0.0683924517065545,
	"grad_norm": 0.1494915634393692,
	"learning_rate": 0.0015,
	"loss": 2.7841,
	"step": 11025
	},
	{
	"epoch": 0.06854753663105917,
	"grad_norm": 0.09982737898826599,
	"learning_rate": 0.0015,
	"loss": 2.7933,
	"step": 11050
	},
	{
	"epoch": 0.06870262155556382,
	"grad_norm": 0.12379477173089981,
	"learning_rate": 0.0015,
	"loss": 2.7419,
	"step": 11075
	},
	{
	"epoch": 0.06885770648006849,
	"grad_norm": 0.11405149102210999,
	"learning_rate": 0.0015,
	"loss": 2.763,
	"step": 11100
	},
	{
	"epoch": 0.06901279140457314,
	"grad_norm": 0.09574620425701141,
	"learning_rate": 0.0015,
	"loss": 2.7961,
	"step": 11125
	},
	{
	"epoch": 0.06916787632907781,
	"grad_norm": 0.2947874963283539,
	"learning_rate": 0.0015,
	"loss": 2.789,
	"step": 11150
	},
	{
	"epoch": 0.06932296125358246,
	"grad_norm": 0.09219149500131607,
	"learning_rate": 0.0015,
	"loss": 2.7951,
	"step": 11175
	},
	{
	"epoch": 0.06947804617808712,
	"grad_norm": 0.11840498447418213,
	"learning_rate": 0.0015,
	"loss": 2.7717,
	"step": 11200
	},
	{
	"epoch": 0.06947804617808712,
	"eval_loss": 4.564184188842773,
	"perplexity": 95.98426055908203,
	"step": 11200
	},
	{
	"epoch": 0.06963313110259178,
	"grad_norm": 0.09422053396701813,
	"learning_rate": 0.0015,
	"loss": 2.7976,
	"step": 11225
	},
	{
	"epoch": 0.06978821602709644,
	"grad_norm": 0.11220031976699829,
	"learning_rate": 0.0015,
	"loss": 2.7634,
	"step": 11250
	},
	{
	"epoch": 0.0699433009516011,
	"grad_norm": 0.10228817909955978,
	"learning_rate": 0.0015,
	"loss": 2.7256,
	"step": 11275
	},
	{
	"epoch": 0.07009838587610576,
	"grad_norm": 0.0929483100771904,
	"learning_rate": 0.0015,
	"loss": 2.8005,
	"step": 11300
	},
	{
	"epoch": 0.07025347080061041,
	"grad_norm": 0.11491668224334717,
	"learning_rate": 0.0015,
	"loss": 2.7504,
	"step": 11325
	},
	{
	"epoch": 0.07040855572511508,
	"grad_norm": 0.15256111323833466,
	"learning_rate": 0.0015,
	"loss": 2.7609,
	"step": 11350
	},
	{
	"epoch": 0.07056364064961973,
	"grad_norm": 0.11576159298419952,
	"learning_rate": 0.0015,
	"loss": 2.7742,
	"step": 11375
	},
	{
	"epoch": 0.0707187255741244,
	"grad_norm": 0.08809765428304672,
	"learning_rate": 0.0015,
	"loss": 2.7891,
	"step": 11400
	},
	{
	"epoch": 0.0707187255741244,
	"eval_loss": 4.568883895874023,
	"perplexity": 96.43641662597656,
	"step": 11400
	},
	{
	"epoch": 0.07087381049862905,
	"grad_norm": 0.08563827723264694,
	"learning_rate": 0.0015,
	"loss": 2.8066,
	"step": 11425
	},
	{
	"epoch": 0.0710288954231337,
	"grad_norm": 0.18896931409835815,
	"learning_rate": 0.0015,
	"loss": 2.8055,
	"step": 11450
	},
	{
	"epoch": 0.07118398034763837,
	"grad_norm": 0.13940319418907166,
	"learning_rate": 0.0015,
	"loss": 2.7766,
	"step": 11475
	},
	{
	"epoch": 0.07133906527214302,
	"grad_norm": 0.09737322479486465,
	"learning_rate": 0.0015,
	"loss": 2.7945,
	"step": 11500
	},
	{
	"epoch": 0.07149415019664769,
	"grad_norm": 0.11357785761356354,
	"learning_rate": 0.0015,
	"loss": 2.7799,
	"step": 11525
	},
	{
	"epoch": 0.07164923512115234,
	"grad_norm": 0.10513681918382645,
	"learning_rate": 0.0015,
	"loss": 2.7627,
	"step": 11550
	},
	{
	"epoch": 0.071804320045657,
	"grad_norm": 0.1434682458639145,
	"learning_rate": 0.0015,
	"loss": 2.8055,
	"step": 11575
	},
	{
	"epoch": 0.07195940497016166,
	"grad_norm": 0.10169105976819992,
	"learning_rate": 0.0015,
	"loss": 2.7832,
	"step": 11600
	},
	{
	"epoch": 0.07195940497016166,
	"eval_loss": 4.560365676879883,
	"perplexity": 95.61843872070312,
	"step": 11600
	},
	{
	"epoch": 0.07211448989466632,
	"grad_norm": 0.1385478526353836,
	"learning_rate": 0.0015,
	"loss": 2.7548,
	"step": 11625
	},
	{
	"epoch": 0.07226957481917098,
	"grad_norm": 0.1300746351480484,
	"learning_rate": 0.0015,
	"loss": 2.7553,
	"step": 11650
	},
	{
	"epoch": 0.07242465974367564,
	"grad_norm": 0.11596991866827011,
	"learning_rate": 0.0015,
	"loss": 2.8095,
	"step": 11675
	},
	{
	"epoch": 0.07257974466818029,
	"grad_norm": 0.11611347645521164,
	"learning_rate": 0.0015,
	"loss": 2.76,
	"step": 11700
	},
	{
	"epoch": 0.07273482959268496,
	"grad_norm": 0.11249697953462601,
	"learning_rate": 0.0015,
	"loss": 2.7827,
	"step": 11725
	},
	{
	"epoch": 0.07288991451718961,
	"grad_norm": 0.1243973895907402,
	"learning_rate": 0.0015,
	"loss": 2.7754,
	"step": 11750
	},
	{
	"epoch": 0.07304499944169428,
	"grad_norm": 0.08843350410461426,
	"learning_rate": 0.0015,
	"loss": 2.8079,
	"step": 11775
	},
	{
	"epoch": 0.07320008436619893,
	"grad_norm": 0.09881053864955902,
	"learning_rate": 0.0015,
	"loss": 2.7961,
	"step": 11800
	},
	{
	"epoch": 0.07320008436619893,
	"eval_loss": 4.567913055419922,
	"perplexity": 96.34283447265625,
	"step": 11800
	},
	{
	"epoch": 0.07335516929070358,
	"grad_norm": 0.08978071063756943,
	"learning_rate": 0.0015,
	"loss": 2.7786,
	"step": 11825
	},
	{
	"epoch": 0.07351025421520825,
	"grad_norm": 0.1376107782125473,
	"learning_rate": 0.0015,
	"loss": 2.7931,
	"step": 11850
	},
	{
	"epoch": 0.0736653391397129,
	"grad_norm": 0.09934777021408081,
	"learning_rate": 0.0015,
	"loss": 2.7787,
	"step": 11875
	},
	{
	"epoch": 0.07382042406421757,
	"grad_norm": 0.17031100392341614,
	"learning_rate": 0.0015,
	"loss": 2.7997,
	"step": 11900
	},
	{
	"epoch": 0.07397550898872222,
	"grad_norm": 0.13974526524543762,
	"learning_rate": 0.0015,
	"loss": 2.7975,
	"step": 11925
	},
	{
	"epoch": 0.07413059391322688,
	"grad_norm": 0.12611718475818634,
	"learning_rate": 0.0015,
	"loss": 2.792,
	"step": 11950
	},
	{
	"epoch": 0.07428567883773154,
	"grad_norm": 0.15177124738693237,
	"learning_rate": 0.0015,
	"loss": 2.7904,
	"step": 11975
	},
	{
	"epoch": 0.0744407637622362,
	"grad_norm": 0.1411113739013672,
	"learning_rate": 0.0015,
	"loss": 2.7677,
	"step": 12000
	},
	{
	"epoch": 0.0744407637622362,
	"eval_loss": 4.5571770668029785,
	"perplexity": 95.31403350830078,
	"step": 12000
	},
	{
	"epoch": 0.07459584868674086,
	"grad_norm": 0.08981940150260925,
	"learning_rate": 0.0015,
	"loss": 2.7765,
	"step": 12025
	},
	{
	"epoch": 0.07475093361124552,
	"grad_norm": 0.09796686470508575,
	"learning_rate": 0.0015,
	"loss": 2.7503,
	"step": 12050
	},
	{
	"epoch": 0.07490601853575017,
	"grad_norm": 0.1125386580824852,
	"learning_rate": 0.0015,
	"loss": 2.7263,
	"step": 12075
	},
	{
	"epoch": 0.07506110346025484,
	"grad_norm": 0.11394508183002472,
	"learning_rate": 0.0015,
	"loss": 2.7855,
	"step": 12100
	},
	{
	"epoch": 0.07521618838475949,
	"grad_norm": 0.11744117736816406,
	"learning_rate": 0.0015,
	"loss": 2.7698,
	"step": 12125
	},
	{
	"epoch": 0.07537127330926416,
	"grad_norm": 0.17264704406261444,
	"learning_rate": 0.0015,
	"loss": 2.7592,
	"step": 12150
	},
	{
	"epoch": 0.07552635823376881,
	"grad_norm": 0.10691671818494797,
	"learning_rate": 0.0015,
	"loss": 2.7519,
	"step": 12175
	},
	{
	"epoch": 0.07568144315827346,
	"grad_norm": 0.1205432191491127,
	"learning_rate": 0.0015,
	"loss": 2.7676,
	"step": 12200
	},
	{
	"epoch": 0.07568144315827346,
	"eval_loss": 4.544521808624268,
	"perplexity": 94.11540985107422,
	"step": 12200
	},
	{
	"epoch": 0.07583652808277813,
	"grad_norm": 0.1253867894411087,
	"learning_rate": 0.0015,
	"loss": 2.7698,
	"step": 12225
	},
	{
	"epoch": 0.07599161300728279,
	"grad_norm": 0.1450471729040146,
	"learning_rate": 0.0015,
	"loss": 2.77,
	"step": 12250
	},
	{
	"epoch": 0.07614669793178745,
	"grad_norm": 0.17055222392082214,
	"learning_rate": 0.0015,
	"loss": 2.7352,
	"step": 12275
	},
	{
	"epoch": 0.0763017828562921,
	"grad_norm": 0.10687011480331421,
	"learning_rate": 0.0015,
	"loss": 2.7988,
	"step": 12300
	},
	{
	"epoch": 0.07645686778079676,
	"grad_norm": 0.15520496666431427,
	"learning_rate": 0.0015,
	"loss": 2.7828,
	"step": 12325
	},
	{
	"epoch": 0.07661195270530143,
	"grad_norm": 0.09279755502939224,
	"learning_rate": 0.0015,
	"loss": 2.7222,
	"step": 12350
	},
	{
	"epoch": 0.07676703762980608,
	"grad_norm": 0.18024928867816925,
	"learning_rate": 0.0015,
	"loss": 2.7555,
	"step": 12375
	},
	{
	"epoch": 0.07692212255431075,
	"grad_norm": 0.13292630016803741,
	"learning_rate": 0.0015,
	"loss": 2.733,
	"step": 12400
	},
	{
	"epoch": 0.07692212255431075,
	"eval_loss": 4.538700103759766,
	"perplexity": 93.569091796875,
	"step": 12400
	},
	{
	"epoch": 0.0770772074788154,
	"grad_norm": 0.09353446960449219,
	"learning_rate": 0.0015,
	"loss": 2.7768,
	"step": 12425
	},
	{
	"epoch": 0.07723229240332005,
	"grad_norm": 0.0946316123008728,
	"learning_rate": 0.0015,
	"loss": 2.7321,
	"step": 12450
	},
	{
	"epoch": 0.07738737732782472,
	"grad_norm": 0.11109050363302231,
	"learning_rate": 0.0015,
	"loss": 2.7607,
	"step": 12475
	},
	{
	"epoch": 0.07754246225232937,
	"grad_norm": 0.10057735443115234,
	"learning_rate": 0.0015,
	"loss": 2.7707,
	"step": 12500
	},
	{
	"epoch": 0.07769754717683404,
	"grad_norm": 0.1466909795999527,
	"learning_rate": 0.0015,
	"loss": 2.7434,
	"step": 12525
	},
	{
	"epoch": 0.07785263210133869,
	"grad_norm": 0.09831534326076508,
	"learning_rate": 0.0015,
	"loss": 2.7858,
	"step": 12550
	},
	{
	"epoch": 0.07800771702584335,
	"grad_norm": 0.13202817738056183,
	"learning_rate": 0.0015,
	"loss": 2.7884,
	"step": 12575
	},
	{
	"epoch": 0.07816280195034801,
	"grad_norm": 0.10797799378633499,
	"learning_rate": 0.0015,
	"loss": 2.7788,
	"step": 12600
	},
	{
	"epoch": 0.07816280195034801,
	"eval_loss": 4.5452494621276855,
	"perplexity": 94.18392181396484,
	"step": 12600
	},
	{
	"epoch": 0.07831788687485267,
	"grad_norm": 0.10239394754171371,
	"learning_rate": 0.0015,
	"loss": 2.7803,
	"step": 12625
	},
	{
	"epoch": 0.07847297179935733,
	"grad_norm": 0.10468672215938568,
	"learning_rate": 0.0015,
	"loss": 2.7449,
	"step": 12650
	},
	{
	"epoch": 0.07862805672386199,
	"grad_norm": 0.13691146671772003,
	"learning_rate": 0.0015,
	"loss": 2.7837,
	"step": 12675
	},
	{
	"epoch": 0.07878314164836664,
	"grad_norm": 0.16976097226142883,
	"learning_rate": 0.0015,
	"loss": 2.7557,
	"step": 12700
	},
	{
	"epoch": 0.0789382265728713,
	"grad_norm": 0.09623986482620239,
	"learning_rate": 0.0015,
	"loss": 2.7576,
	"step": 12725
	},
	{
	"epoch": 0.07909331149737596,
	"grad_norm": 0.11203131079673767,
	"learning_rate": 0.0015,
	"loss": 2.7846,
	"step": 12750
	},
	{
	"epoch": 0.07924839642188063,
	"grad_norm": 0.12257611751556396,
	"learning_rate": 0.0015,
	"loss": 2.8015,
	"step": 12775
	},
	{
	"epoch": 0.07940348134638528,
	"grad_norm": 0.08369628340005875,
	"learning_rate": 0.0015,
	"loss": 2.7616,
	"step": 12800
	},
	{
	"epoch": 0.07940348134638528,
	"eval_loss": 4.548933506011963,
	"perplexity": 94.53153991699219,
	"step": 12800
	},
	{
	"epoch": 0.07955856627088993,
	"grad_norm": 0.12149519473314285,
	"learning_rate": 0.0015,
	"loss": 2.7651,
	"step": 12825
	},
	{
	"epoch": 0.0797136511953946,
	"grad_norm": 0.09911686927080154,
	"learning_rate": 0.0015,
	"loss": 2.7964,
	"step": 12850
	},
	{
	"epoch": 0.07986873611989925,
	"grad_norm": 0.09883631020784378,
	"learning_rate": 0.0015,
	"loss": 2.7461,
	"step": 12875
	},
	{
	"epoch": 0.08002382104440392,
	"grad_norm": 0.08828576654195786,
	"learning_rate": 0.0015,
	"loss": 2.7735,
	"step": 12900
	},
	{
	"epoch": 0.08017890596890857,
	"grad_norm": 0.18119321763515472,
	"learning_rate": 0.0015,
	"loss": 2.7863,
	"step": 12925
	},
	{
	"epoch": 0.08033399089341323,
	"grad_norm": 0.09123501181602478,
	"learning_rate": 0.0015,
	"loss": 2.7559,
	"step": 12950
	},
	{
	"epoch": 0.0804890758179179,
	"grad_norm": 0.18334759771823883,
	"learning_rate": 0.0015,
	"loss": 2.7357,
	"step": 12975
	},
	{
	"epoch": 0.08064416074242255,
	"grad_norm": 0.08934136480093002,
	"learning_rate": 0.0015,
	"loss": 2.8003,
	"step": 13000
	},
	{
	"epoch": 0.08064416074242255,
	"eval_loss": 4.537932395935059,
	"perplexity": 93.49728393554688,
	"step": 13000
	},
	{
	"epoch": 0.08079924566692721,
	"grad_norm": 0.117793008685112,
	"learning_rate": 0.0015,
	"loss": 2.738,
	"step": 13025
	},
	{
	"epoch": 0.08095433059143187,
	"grad_norm": 0.1012151837348938,
	"learning_rate": 0.0015,
	"loss": 2.767,
	"step": 13050
	},
	{
	"epoch": 0.08110941551593653,
	"grad_norm": 0.1099851131439209,
	"learning_rate": 0.0015,
	"loss": 2.7899,
	"step": 13075
	},
	{
	"epoch": 0.08126450044044119,
	"grad_norm": 0.105575330555439,
	"learning_rate": 0.0015,
	"loss": 2.7857,
	"step": 13100
	},
	{
	"epoch": 0.08141958536494584,
	"grad_norm": 0.11926279962062836,
	"learning_rate": 0.0015,
	"loss": 2.7821,
	"step": 13125
	},
	{
	"epoch": 0.08157467028945051,
	"grad_norm": 0.1669924259185791,
	"learning_rate": 0.0015,
	"loss": 2.7673,
	"step": 13150
	},
	{
	"epoch": 0.08172975521395516,
	"grad_norm": 0.11445988714694977,
	"learning_rate": 0.0015,
	"loss": 2.8081,
	"step": 13175
	},
	{
	"epoch": 0.08188484013845983,
	"grad_norm": 0.09700124710798264,
	"learning_rate": 0.0015,
	"loss": 2.7841,
	"step": 13200
	},
	{
	"epoch": 0.08188484013845983,
	"eval_loss": 4.540359973907471,
	"perplexity": 93.72453308105469,
	"step": 13200
	},
	{
	"epoch": 0.08203992506296448,
	"grad_norm": 0.11112058907747269,
	"learning_rate": 0.0015,
	"loss": 2.7471,
	"step": 13225
	},
	{
	"epoch": 0.08219500998746913,
	"grad_norm": 0.17890195548534393,
	"learning_rate": 0.0015,
	"loss": 2.7898,
	"step": 13250
	},
	{
	"epoch": 0.0823500949119738,
	"grad_norm": 0.12197751551866531,
	"learning_rate": 0.0015,
	"loss": 2.7328,
	"step": 13275
	},
	{
	"epoch": 0.08250517983647845,
	"grad_norm": 0.11677111685276031,
	"learning_rate": 0.0015,
	"loss": 2.7849,
	"step": 13300
	},
	{
	"epoch": 0.08266026476098312,
	"grad_norm": 0.15514017641544342,
	"learning_rate": 0.0015,
	"loss": 2.7561,
	"step": 13325
	},
	{
	"epoch": 0.08281534968548777,
	"grad_norm": 0.10389192402362823,
	"learning_rate": 0.0015,
	"loss": 2.7611,
	"step": 13350
	},
	{
	"epoch": 0.08297043460999243,
	"grad_norm": 0.10176412016153336,
	"learning_rate": 0.0015,
	"loss": 2.7793,
	"step": 13375
	},
	{
	"epoch": 0.0831255195344971,
	"grad_norm": 0.1043052077293396,
	"learning_rate": 0.0015,
	"loss": 2.7375,
	"step": 13400
	},
	{
	"epoch": 0.0831255195344971,
	"eval_loss": 4.5388336181640625,
	"perplexity": 93.58158111572266,
	"step": 13400
	},
	{
	"epoch": 0.08328060445900175,
	"grad_norm": 0.08918718248605728,
	"learning_rate": 0.0015,
	"loss": 2.7465,
	"step": 13425
	},
	{
	"epoch": 0.08343568938350641,
	"grad_norm": 0.10008233785629272,
	"learning_rate": 0.0015,
	"loss": 2.7776,
	"step": 13450
	},
	{
	"epoch": 0.08359077430801107,
	"grad_norm": 0.10228800773620605,
	"learning_rate": 0.0015,
	"loss": 2.756,
	"step": 13475
	},
	{
	"epoch": 0.08374585923251572,
	"grad_norm": 0.0868915542960167,
	"learning_rate": 0.0015,
	"loss": 2.7556,
	"step": 13500
	},
	{
	"epoch": 0.08390094415702039,
	"grad_norm": 0.11076166480779648,
	"learning_rate": 0.0015,
	"loss": 2.6975,
	"step": 13525
	},
	{
	"epoch": 0.08405602908152504,
	"grad_norm": 0.13617128133773804,
	"learning_rate": 0.0015,
	"loss": 2.7643,
	"step": 13550
	},
	{
	"epoch": 0.08421111400602971,
	"grad_norm": 0.15346932411193848,
	"learning_rate": 0.0015,
	"loss": 2.7966,
	"step": 13575
	},
	{
	"epoch": 0.08436619893053436,
	"grad_norm": 0.17080894112586975,
	"learning_rate": 0.0015,
	"loss": 2.7636,
	"step": 13600
	},
	{
	"epoch": 0.08436619893053436,
	"eval_loss": 4.513378620147705,
	"perplexity": 91.22953033447266,
	"step": 13600
	},
	{
	"epoch": 0.08452128385503901,
	"grad_norm": 0.11548548936843872,
	"learning_rate": 0.0015,
	"loss": 2.7729,
	"step": 13625
	},
	{
	"epoch": 0.08467636877954368,
	"grad_norm": 0.14650912582874298,
	"learning_rate": 0.0015,
	"loss": 2.7063,
	"step": 13650
	},
	{
	"epoch": 0.08483145370404833,
	"grad_norm": 0.09750749915838242,
	"learning_rate": 0.0015,
	"loss": 2.7648,
	"step": 13675
	},
	{
	"epoch": 0.084986538628553,
	"grad_norm": 0.18051239848136902,
	"learning_rate": 0.0015,
	"loss": 2.754,
	"step": 13700
	},
	{
	"epoch": 0.08514162355305765,
	"grad_norm": 0.21637938916683197,
	"learning_rate": 0.0015,
	"loss": 2.7529,
	"step": 13725
	},
	{
	"epoch": 0.08529670847756231,
	"grad_norm": 0.10037226974964142,
	"learning_rate": 0.0015,
	"loss": 2.7638,
	"step": 13750
	},
	{
	"epoch": 0.08545179340206698,
	"grad_norm": 0.1033267229795456,
	"learning_rate": 0.0015,
	"loss": 2.7713,
	"step": 13775
	},
	{
	"epoch": 0.08560687832657163,
	"grad_norm": 0.09179462492465973,
	"learning_rate": 0.0015,
	"loss": 2.8278,
	"step": 13800
	},
	{
	"epoch": 0.08560687832657163,
	"eval_loss": 4.508410453796387,
	"perplexity": 90.77741241455078,
	"step": 13800
	},
	{
	"epoch": 0.0857619632510763,
	"grad_norm": 0.09874552488327026,
	"learning_rate": 0.0015,
	"loss": 2.7544,
	"step": 13825
	},
	{
	"epoch": 0.08591704817558095,
	"grad_norm": 0.17807777225971222,
	"learning_rate": 0.0015,
	"loss": 2.7401,
	"step": 13850
	},
	{
	"epoch": 0.0860721331000856,
	"grad_norm": 0.14388497173786163,
	"learning_rate": 0.0015,
	"loss": 2.7879,
	"step": 13875
	},
	{
	"epoch": 0.08622721802459027,
	"grad_norm": 0.13081450760364532,
	"learning_rate": 0.0015,
	"loss": 2.7162,
	"step": 13900
	},
	{
	"epoch": 0.08638230294909492,
	"grad_norm": 0.15077342092990875,
	"learning_rate": 0.0015,
	"loss": 2.757,
	"step": 13925
	},
	{
	"epoch": 0.08653738787359959,
	"grad_norm": 0.11368410289287567,
	"learning_rate": 0.0015,
	"loss": 2.7546,
	"step": 13950
	},
	{
	"epoch": 0.08669247279810424,
	"grad_norm": 0.16447153687477112,
	"learning_rate": 0.0015,
	"loss": 2.7371,
	"step": 13975
	},
	{
	"epoch": 0.0868475577226089,
	"grad_norm": 0.20563559234142303,
	"learning_rate": 0.0015,
	"loss": 2.7474,
	"step": 14000
	},
	{
	"epoch": 0.0868475577226089,
	"eval_loss": 4.525671005249023,
	"perplexity": 92.35787963867188,
	"step": 14000
	},
	{
	"epoch": 0.08700264264711356,
	"grad_norm": 0.10695035755634308,
	"learning_rate": 0.0015,
	"loss": 2.7565,
	"step": 14025
	},
	{
	"epoch": 0.08715772757161822,
	"grad_norm": 0.12368099391460419,
	"learning_rate": 0.0015,
	"loss": 2.784,
	"step": 14050
	},
	{
	"epoch": 0.08731281249612288,
	"grad_norm": 0.11491699516773224,
	"learning_rate": 0.0015,
	"loss": 2.7477,
	"step": 14075
	},
	{
	"epoch": 0.08746789742062754,
	"grad_norm": 0.10570378601551056,
	"learning_rate": 0.0015,
	"loss": 2.7575,
	"step": 14100
	},
	{
	"epoch": 0.08762298234513219,
	"grad_norm": 0.09137633442878723,
	"learning_rate": 0.0015,
	"loss": 2.7517,
	"step": 14125
	},
	{
	"epoch": 0.08777806726963686,
	"grad_norm": 0.09999803453683853,
	"learning_rate": 0.0015,
	"loss": 2.7446,
	"step": 14150
	},
	{
	"epoch": 0.08793315219414151,
	"grad_norm": 0.15709616243839264,
	"learning_rate": 0.0015,
	"loss": 2.7606,
	"step": 14175
	},
	{
	"epoch": 0.08808823711864618,
	"grad_norm": 0.10327859222888947,
	"learning_rate": 0.0015,
	"loss": 2.7441,
	"step": 14200
	},
	{
	"epoch": 0.08808823711864618,
	"eval_loss": 4.521189212799072,
	"perplexity": 91.94487762451172,
	"step": 14200
	},
	{
	"epoch": 0.08824332204315083,
	"grad_norm": 0.1964125633239746,
	"learning_rate": 0.0015,
	"loss": 2.7109,
	"step": 14225
	},
	{
	"epoch": 0.08839840696765548,
	"grad_norm": 0.12792247533798218,
	"learning_rate": 0.0015,
	"loss": 2.7401,
	"step": 14250
	},
	{
	"epoch": 0.08855349189216015,
	"grad_norm": 0.17532923817634583,
	"learning_rate": 0.0015,
	"loss": 2.7609,
	"step": 14275
	},
	{
	"epoch": 0.0887085768166648,
	"grad_norm": 0.096143439412117,
	"learning_rate": 0.0015,
	"loss": 2.7749,
	"step": 14300
	},
	{
	"epoch": 0.08886366174116947,
	"grad_norm": 0.12778601050376892,
	"learning_rate": 0.0015,
	"loss": 2.6981,
	"step": 14325
	},
	{
	"epoch": 0.08901874666567412,
	"grad_norm": 0.1130848377943039,
	"learning_rate": 0.0015,
	"loss": 2.7255,
	"step": 14350
	},
	{
	"epoch": 0.08917383159017878,
	"grad_norm": 0.0818464607000351,
	"learning_rate": 0.0015,
	"loss": 2.7223,
	"step": 14375
	},
	{
	"epoch": 0.08932891651468344,
	"grad_norm": 0.10516222566366196,
	"learning_rate": 0.0015,
	"loss": 2.7672,
	"step": 14400
	},
	{
	"epoch": 0.08932891651468344,
	"eval_loss": 4.524067401885986,
	"perplexity": 92.20989227294922,
	"step": 14400
	},
	{
	"epoch": 0.0894840014391881,
	"grad_norm": 0.08912840485572815,
	"learning_rate": 0.0015,
	"loss": 2.7349,
	"step": 14425
	},
	{
	"epoch": 0.08963908636369276,
	"grad_norm": 0.11931388080120087,
	"learning_rate": 0.0015,
	"loss": 2.7326,
	"step": 14450
	},
	{
	"epoch": 0.08979417128819742,
	"grad_norm": 0.12271756678819656,
	"learning_rate": 0.0015,
	"loss": 2.7327,
	"step": 14475
	},
	{
	"epoch": 0.08994925621270207,
	"grad_norm": 0.1567191183567047,
	"learning_rate": 0.0015,
	"loss": 2.7573,
	"step": 14500
	},
	{
	"epoch": 0.09010434113720674,
	"grad_norm": 0.1841791719198227,
	"learning_rate": 0.0015,
	"loss": 2.7582,
	"step": 14525
	},
	{
	"epoch": 0.09025942606171139,
	"grad_norm": 0.12743189930915833,
	"learning_rate": 0.0015,
	"loss": 2.8061,
	"step": 14550
	},
	{
	"epoch": 0.09041451098621606,
	"grad_norm": 0.11932828277349472,
	"learning_rate": 0.0015,
	"loss": 2.7447,
	"step": 14575
	},
	{
	"epoch": 0.09056959591072071,
	"grad_norm": 0.18284690380096436,
	"learning_rate": 0.0015,
	"loss": 2.7436,
	"step": 14600
	},
	{
	"epoch": 0.09056959591072071,
	"eval_loss": 4.515897750854492,
	"perplexity": 91.45964050292969,
	"step": 14600
	},
	{
	"epoch": 0.09072468083522536,
	"grad_norm": 0.17987670004367828,
	"learning_rate": 0.0015,
	"loss": 2.7831,
	"step": 14625
	},
	{
	"epoch": 0.09087976575973003,
	"grad_norm": 0.10992395132780075,
	"learning_rate": 0.0015,
	"loss": 2.7516,
	"step": 14650
	},
	{
	"epoch": 0.09103485068423468,
	"grad_norm": 0.09343726187944412,
	"learning_rate": 0.0015,
	"loss": 2.7475,
	"step": 14675
	},
	{
	"epoch": 0.09118993560873935,
	"grad_norm": 0.10370751470327377,
	"learning_rate": 0.0015,
	"loss": 2.7518,
	"step": 14700
	},
	{
	"epoch": 0.091345020533244,
	"grad_norm": 0.11190348863601685,
	"learning_rate": 0.0015,
	"loss": 2.7482,
	"step": 14725
	},
	{
	"epoch": 0.09150010545774866,
	"grad_norm": 0.12450053542852402,
	"learning_rate": 0.0015,
	"loss": 2.7726,
	"step": 14750
	},
	{
	"epoch": 0.09165519038225332,
	"grad_norm": 0.11882703006267548,
	"learning_rate": 0.0015,
	"loss": 2.7318,
	"step": 14775
	},
	{
	"epoch": 0.09181027530675798,
	"grad_norm": 0.1315181404352188,
	"learning_rate": 0.0015,
	"loss": 2.757,
	"step": 14800
	},
	{
	"epoch": 0.09181027530675798,
	"eval_loss": 4.521557807922363,
	"perplexity": 91.97877502441406,
	"step": 14800
	},
	{
	"epoch": 0.09196536023126264,
	"grad_norm": 0.18574784696102142,
	"learning_rate": 0.0015,
	"loss": 2.7353,
	"step": 14825
	},
	{
	"epoch": 0.0921204451557673,
	"grad_norm": 0.17665444314479828,
	"learning_rate": 0.0015,
	"loss": 2.7687,
	"step": 14850
	},
	{
	"epoch": 0.09227553008027195,
	"grad_norm": 0.12507860362529755,
	"learning_rate": 0.0015,
	"loss": 2.7386,
	"step": 14875
	},
	{
	"epoch": 0.09243061500477662,
	"grad_norm": 0.10472691059112549,
	"learning_rate": 0.0015,
	"loss": 2.7716,
	"step": 14900
	},
	{
	"epoch": 0.09258569992928127,
	"grad_norm": 0.10282575339078903,
	"learning_rate": 0.0015,
	"loss": 2.7312,
	"step": 14925
	},
	{
	"epoch": 0.09274078485378594,
	"grad_norm": 0.12706094980239868,
	"learning_rate": 0.0015,
	"loss": 2.7995,
	"step": 14950
	},
	{
	"epoch": 0.09289586977829059,
	"grad_norm": 0.15283973515033722,
	"learning_rate": 0.0015,
	"loss": 2.7313,
	"step": 14975
	},
	{
	"epoch": 0.09305095470279524,
	"grad_norm": 0.12476324290037155,
	"learning_rate": 0.0015,
	"loss": 2.7727,
	"step": 15000
	},
	{
	"epoch": 0.09305095470279524,
	"eval_loss": 4.547565937042236,
	"perplexity": 94.40234375,
	"step": 15000
	},
	{
	"epoch": 0.09320603962729991,
	"grad_norm": 0.12369734048843384,
	"learning_rate": 0.0015,
	"loss": 2.7565,
	"step": 15025
	},
	{
	"epoch": 0.09336112455180456,
	"grad_norm": 0.1322038471698761,
	"learning_rate": 0.0015,
	"loss": 2.7588,
	"step": 15050
	},
	{
	"epoch": 0.09351620947630923,
	"grad_norm": 0.0926559790968895,
	"learning_rate": 0.0015,
	"loss": 2.7393,
	"step": 15075
	},
	{
	"epoch": 0.09367129440081388,
	"grad_norm": 0.17404210567474365,
	"learning_rate": 0.0015,
	"loss": 2.723,
	"step": 15100
	},
	{
	"epoch": 0.09382637932531855,
	"grad_norm": 0.10326647758483887,
	"learning_rate": 0.0015,
	"loss": 2.7853,
	"step": 15125
	},
	{
	"epoch": 0.0939814642498232,
	"grad_norm": 0.13869203627109528,
	"learning_rate": 0.0015,
	"loss": 2.7535,
	"step": 15150
	},
	{
	"epoch": 0.09413654917432786,
	"grad_norm": 0.14325955510139465,
	"learning_rate": 0.0015,
	"loss": 2.7597,
	"step": 15175
	},
	{
	"epoch": 0.09429163409883252,
	"grad_norm": 0.11783768236637115,
	"learning_rate": 0.0015,
	"loss": 2.7524,
	"step": 15200
	},
	{
	"epoch": 0.09429163409883252,
	"eval_loss": 4.5251593589782715,
	"perplexity": 92.31063842773438,
	"step": 15200
	},
	{
	"epoch": 0.09444671902333718,
	"grad_norm": 0.12261676043272018,
	"learning_rate": 0.0015,
	"loss": 2.7279,
	"step": 15225
	},
	{
	"epoch": 0.09460180394784184,
	"grad_norm": 0.09966279566287994,
	"learning_rate": 0.0015,
	"loss": 2.8119,
	"step": 15250
	},
	{
	"epoch": 0.0947568888723465,
	"grad_norm": 0.1052974984049797,
	"learning_rate": 0.0015,
	"loss": 2.7392,
	"step": 15275
	},
	{
	"epoch": 0.09491197379685115,
	"grad_norm": 0.11074663698673248,
	"learning_rate": 0.0015,
	"loss": 2.7319,
	"step": 15300
	},
	{
	"epoch": 0.09506705872135582,
	"grad_norm": 0.09762706607580185,
	"learning_rate": 0.0015,
	"loss": 2.7806,
	"step": 15325
	},
	{
	"epoch": 0.09522214364586047,
	"grad_norm": 0.08552476018667221,
	"learning_rate": 0.0015,
	"loss": 2.7351,
	"step": 15350
	},
	{
	"epoch": 0.09537722857036514,
	"grad_norm": 0.13211695849895477,
	"learning_rate": 0.0015,
	"loss": 2.7667,
	"step": 15375
	},
	{
	"epoch": 0.09553231349486979,
	"grad_norm": 0.12074939906597137,
	"learning_rate": 0.0015,
	"loss": 2.7614,
	"step": 15400
	},
	{
	"epoch": 0.09553231349486979,
	"eval_loss": 4.53213357925415,
	"perplexity": 92.95668029785156,
	"step": 15400
	},
	{
	"epoch": 0.09568739841937444,
	"grad_norm": 0.11755666136741638,
	"learning_rate": 0.0015,
	"loss": 2.7101,
	"step": 15425
	},
	{
	"epoch": 0.09584248334387911,
	"grad_norm": 0.10476246476173401,
	"learning_rate": 0.0015,
	"loss": 2.7391,
	"step": 15450
	},
	{
	"epoch": 0.09599756826838376,
	"grad_norm": 0.10921350121498108,
	"learning_rate": 0.0015,
	"loss": 2.7423,
	"step": 15475
	},
	{
	"epoch": 0.09615265319288843,
	"grad_norm": 0.11517275124788284,
	"learning_rate": 0.0015,
	"loss": 2.7374,
	"step": 15500
	},
	{
	"epoch": 0.09630773811739309,
	"grad_norm": 0.10500945895910263,
	"learning_rate": 0.0015,
	"loss": 2.73,
	"step": 15525
	},
	{
	"epoch": 0.09646282304189774,
	"grad_norm": 0.0962584912776947,
	"learning_rate": 0.0015,
	"loss": 2.7597,
	"step": 15550
	},
	{
	"epoch": 0.0966179079664024,
	"grad_norm": 0.1273050308227539,
	"learning_rate": 0.0015,
	"loss": 2.7306,
	"step": 15575
	},
	{
	"epoch": 0.09677299289090706,
	"grad_norm": 0.11249135434627533,
	"learning_rate": 0.0015,
	"loss": 2.7859,
	"step": 15600
	},
	{
	"epoch": 0.09677299289090706,
	"eval_loss": 4.537318706512451,
	"perplexity": 93.43992614746094,
	"step": 15600
	},
	{
	"epoch": 0.09692807781541173,
	"grad_norm": 0.19111056625843048,
	"learning_rate": 0.0015,
	"loss": 2.7386,
	"step": 15625
	},
	{
	"epoch": 0.09708316273991638,
	"grad_norm": 0.10486472398042679,
	"learning_rate": 0.0015,
	"loss": 2.7462,
	"step": 15650
	},
	{
	"epoch": 0.09723824766442103,
	"grad_norm": 0.1453208327293396,
	"learning_rate": 0.0015,
	"loss": 2.762,
	"step": 15675
	},
	{
	"epoch": 0.0973933325889257,
	"grad_norm": 0.08459452539682388,
	"learning_rate": 0.0015,
	"loss": 2.7353,
	"step": 15700
	},
	{
	"epoch": 0.09754841751343035,
	"grad_norm": 0.11150529980659485,
	"learning_rate": 0.0015,
	"loss": 2.7617,
	"step": 15725
	},
	{
	"epoch": 0.09770350243793502,
	"grad_norm": 0.11301703006029129,
	"learning_rate": 0.0015,
	"loss": 2.7623,
	"step": 15750
	},
	{
	"epoch": 0.09785858736243967,
	"grad_norm": 0.16564789414405823,
	"learning_rate": 0.0015,
	"loss": 2.7315,
	"step": 15775
	},
	{
	"epoch": 0.09801367228694433,
	"grad_norm": 0.08968822658061981,
	"learning_rate": 0.0015,
	"loss": 2.7842,
	"step": 15800
	},
	{
	"epoch": 0.09801367228694433,
	"eval_loss": 4.528219223022461,
	"perplexity": 92.5935287475586,
	"step": 15800
	},
	{
	"epoch": 0.09816875721144899,
	"grad_norm": 0.1233256533741951,
	"learning_rate": 0.0015,
	"loss": 2.7584,
	"step": 15825
	},
	{
	"epoch": 0.09832384213595365,
	"grad_norm": 0.18926863372325897,
	"learning_rate": 0.0015,
	"loss": 2.7651,
	"step": 15850
	},
	{
	"epoch": 0.09847892706045831,
	"grad_norm": 0.0912550836801529,
	"learning_rate": 0.0015,
	"loss": 2.7551,
	"step": 15875
	},
	{
	"epoch": 0.09863401198496297,
	"grad_norm": 0.1443813592195511,
	"learning_rate": 0.0015,
	"loss": 2.7378,
	"step": 15900
	},
	{
	"epoch": 0.09878909690946762,
	"grad_norm": 0.11620072275400162,
	"learning_rate": 0.0015,
	"loss": 2.7706,
	"step": 15925
	},
	{
	"epoch": 0.09894418183397229,
	"grad_norm": 0.10275860130786896,
	"learning_rate": 0.0015,
	"loss": 2.7502,
	"step": 15950
	},
	{
	"epoch": 0.09909926675847694,
	"grad_norm": 0.1417694240808487,
	"learning_rate": 0.0015,
	"loss": 2.706,
	"step": 15975
	},
	{
	"epoch": 0.0992543516829816,
	"grad_norm": 0.1121877133846283,
	"learning_rate": 0.0015,
	"loss": 2.7537,
	"step": 16000
	},
	{
	"epoch": 0.0992543516829816,
	"eval_loss": 4.520648956298828,
	"perplexity": 91.89521789550781,
	"step": 16000
	},
	{
	"epoch": 0.09940943660748626,
	"grad_norm": 0.10022582858800888,
	"learning_rate": 0.0015,
	"loss": 2.7213,
	"step": 16025
	},
	{
	"epoch": 0.09956452153199091,
	"grad_norm": 0.09722616523504257,
	"learning_rate": 0.0015,
	"loss": 2.7437,
	"step": 16050
	},
	{
	"epoch": 0.09971960645649558,
	"grad_norm": 0.11053729802370071,
	"learning_rate": 0.0015,
	"loss": 2.7495,
	"step": 16075
	},
	{
	"epoch": 0.09987469138100023,
	"grad_norm": 0.10231011360883713,
	"learning_rate": 0.0015,
	"loss": 2.7505,
	"step": 16100
	},
	{
	"epoch": 0.1000297763055049,
	"grad_norm": 0.135975643992424,
	"learning_rate": 0.0015,
	"loss": 2.7487,
	"step": 16125
	},
	{
	"epoch": 0.10018486123000955,
	"grad_norm": 0.11350739002227783,
	"learning_rate": 0.0015,
	"loss": 2.7484,
	"step": 16150
	},
	{
	"epoch": 0.1003399461545142,
	"grad_norm": 0.10639143735170364,
	"learning_rate": 0.0015,
	"loss": 2.7429,
	"step": 16175
	},
	{
	"epoch": 0.10049503107901887,
	"grad_norm": 0.09016221761703491,
	"learning_rate": 0.0015,
	"loss": 2.7891,
	"step": 16200
	},
	{
	"epoch": 0.10049503107901887,
	"eval_loss": 4.5112504959106445,
	"perplexity": 91.03558349609375,
	"step": 16200
	},
	{
	"epoch": 0.10065011600352353,
	"grad_norm": 0.11324500292539597,
	"learning_rate": 0.0015,
	"loss": 2.7678,
	"step": 16225
	},
	{
	"epoch": 0.1008052009280282,
	"grad_norm": 0.13268886506557465,
	"learning_rate": 0.0015,
	"loss": 2.723,
	"step": 16250
	},
	{
	"epoch": 0.10096028585253285,
	"grad_norm": 0.11448831856250763,
	"learning_rate": 0.0015,
	"loss": 2.7328,
	"step": 16275
	},
	{
	"epoch": 0.1011153707770375,
	"grad_norm": 0.10799309611320496,
	"learning_rate": 0.0015,
	"loss": 2.7478,
	"step": 16300
	},
	{
	"epoch": 0.10127045570154217,
	"grad_norm": 0.19559204578399658,
	"learning_rate": 0.0015,
	"loss": 2.7606,
	"step": 16325
	},
	{
	"epoch": 0.10142554062604682,
	"grad_norm": 0.14151975512504578,
	"learning_rate": 0.0015,
	"loss": 2.7279,
	"step": 16350
	},
	{
	"epoch": 0.10158062555055149,
	"grad_norm": 0.10044725239276886,
	"learning_rate": 0.0015,
	"loss": 2.7609,
	"step": 16375
	},
	{
	"epoch": 0.10173571047505614,
	"grad_norm": 0.10686340183019638,
	"learning_rate": 0.0015,
	"loss": 2.7295,
	"step": 16400
	},
	{
	"epoch": 0.10173571047505614,
	"eval_loss": 4.521287441253662,
	"perplexity": 91.95391082763672,
	"step": 16400
	},
	{
	"epoch": 0.1018907953995608,
	"grad_norm": 0.1561044305562973,
	"learning_rate": 0.0015,
	"loss": 2.7769,
	"step": 16425
	},
	{
	"epoch": 0.10204588032406546,
	"grad_norm": 0.12182148545980453,
	"learning_rate": 0.0015,
	"loss": 2.757,
	"step": 16450
	},
	{
	"epoch": 0.10220096524857011,
	"grad_norm": 0.20665724575519562,
	"learning_rate": 0.0015,
	"loss": 2.7349,
	"step": 16475
	},
	{
	"epoch": 0.10235605017307478,
	"grad_norm": 0.09160878509283066,
	"learning_rate": 0.0015,
	"loss": 2.7393,
	"step": 16500
	},
	{
	"epoch": 0.10251113509757943,
	"grad_norm": 0.16651533544063568,
	"learning_rate": 0.0015,
	"loss": 2.7441,
	"step": 16525
	},
	{
	"epoch": 0.10266622002208409,
	"grad_norm": 0.09358719736337662,
	"learning_rate": 0.0015,
	"loss": 2.7297,
	"step": 16550
	},
	{
	"epoch": 0.10282130494658875,
	"grad_norm": 0.20277003943920135,
	"learning_rate": 0.0015,
	"loss": 2.7506,
	"step": 16575
	},
	{
	"epoch": 0.10297638987109341,
	"grad_norm": 0.13382607698440552,
	"learning_rate": 0.0015,
	"loss": 2.7924,
	"step": 16600
	},
	{
	"epoch": 0.10297638987109341,
	"eval_loss": 4.525242328643799,
	"perplexity": 92.31829833984375,
	"step": 16600
	},
	{
	"epoch": 0.10313147479559807,
	"grad_norm": 0.09686290472745895,
	"learning_rate": 0.0015,
	"loss": 2.7417,
	"step": 16625
	},
	{
	"epoch": 0.10328655972010273,
	"grad_norm": 0.11446567624807358,
	"learning_rate": 0.0015,
	"loss": 2.7582,
	"step": 16650
	},
	{
	"epoch": 0.10344164464460738,
	"grad_norm": 0.15948985517024994,
	"learning_rate": 0.0015,
	"loss": 2.7254,
	"step": 16675
	},
	{
	"epoch": 0.10359672956911205,
	"grad_norm": 0.1254827231168747,
	"learning_rate": 0.0015,
	"loss": 2.7515,
	"step": 16700
	},
	{
	"epoch": 0.1037518144936167,
	"grad_norm": 0.11295375972986221,
	"learning_rate": 0.0015,
	"loss": 2.7058,
	"step": 16725
	},
	{
	"epoch": 0.10390689941812137,
	"grad_norm": 0.10659389197826385,
	"learning_rate": 0.0015,
	"loss": 2.7281,
	"step": 16750
	},
	{
	"epoch": 0.10406198434262602,
	"grad_norm": 0.1045156791806221,
	"learning_rate": 0.0015,
	"loss": 2.7131,
	"step": 16775
	},
	{
	"epoch": 0.10421706926713067,
	"grad_norm": 0.13835974037647247,
	"learning_rate": 0.0015,
	"loss": 2.744,
	"step": 16800
	},
	{
	"epoch": 0.10421706926713067,
	"eval_loss": 4.507747650146484,
	"perplexity": 90.7172622680664,
	"step": 16800
	},
	{
	"epoch": 0.10437215419163534,
	"grad_norm": 0.19872727990150452,
	"learning_rate": 0.0015,
	"loss": 2.7642,
	"step": 16825
	},
	{
	"epoch": 0.10452723911614,
	"grad_norm": 0.13754956424236298,
	"learning_rate": 0.0015,
	"loss": 2.7652,
	"step": 16850
	},
	{
	"epoch": 0.10468232404064466,
	"grad_norm": 0.1451335996389389,
	"learning_rate": 0.0015,
	"loss": 2.7561,
	"step": 16875
	},
	{
	"epoch": 0.10483740896514931,
	"grad_norm": 0.16750144958496094,
	"learning_rate": 0.0015,
	"loss": 2.7206,
	"step": 16900
	},
	{
	"epoch": 0.10499249388965397,
	"grad_norm": 0.12020619958639145,
	"learning_rate": 0.0015,
	"loss": 2.699,
	"step": 16925
	},
	{
	"epoch": 0.10514757881415863,
	"grad_norm": 0.16792155802249908,
	"learning_rate": 0.0015,
	"loss": 2.8062,
	"step": 16950
	},
	{
	"epoch": 0.10530266373866329,
	"grad_norm": 0.11066465824842453,
	"learning_rate": 0.0015,
	"loss": 2.6968,
	"step": 16975
	},
	{
	"epoch": 0.10545774866316796,
	"grad_norm": 0.11885298788547516,
	"learning_rate": 0.0015,
	"loss": 2.7699,
	"step": 17000
	},
	{
	"epoch": 0.10545774866316796,
	"eval_loss": 4.524214744567871,
	"perplexity": 92.22348022460938,
	"step": 17000
	},
	{
	"epoch": 0.10561283358767261,
	"grad_norm": 0.1298653483390808,
	"learning_rate": 0.0015,
	"loss": 2.7199,
	"step": 17025
	},
	{
	"epoch": 0.10576791851217726,
	"grad_norm": 0.11387672275304794,
	"learning_rate": 0.0015,
	"loss": 2.7528,
	"step": 17050
	},
	{
	"epoch": 0.10592300343668193,
	"grad_norm": 0.09852533042430878,
	"learning_rate": 0.0015,
	"loss": 2.7277,
	"step": 17075
	},
	{
	"epoch": 0.10607808836118658,
	"grad_norm": 0.11046476662158966,
	"learning_rate": 0.0015,
	"loss": 2.722,
	"step": 17100
	},
	{
	"epoch": 0.10623317328569125,
	"grad_norm": 0.11632421612739563,
	"learning_rate": 0.0015,
	"loss": 2.726,
	"step": 17125
	},
	{
	"epoch": 0.1063882582101959,
	"grad_norm": 0.11760540306568146,
	"learning_rate": 0.0015,
	"loss": 2.7267,
	"step": 17150
	},
	{
	"epoch": 0.10654334313470057,
	"grad_norm": 0.12264183163642883,
	"learning_rate": 0.0015,
	"loss": 2.8037,
	"step": 17175
	},
	{
	"epoch": 0.10669842805920522,
	"grad_norm": 0.15346336364746094,
	"learning_rate": 0.0015,
	"loss": 2.7668,
	"step": 17200
	},
	{
	"epoch": 0.10669842805920522,
	"eval_loss": 4.503612995147705,
	"perplexity": 90.34294891357422,
	"step": 17200
	},
	{
	"epoch": 0.10685351298370988,
	"grad_norm": 0.10642746090888977,
	"learning_rate": 0.0015,
	"loss": 2.7295,
	"step": 17225
	},
	{
	"epoch": 0.10700859790821454,
	"grad_norm": 0.10965430736541748,
	"learning_rate": 0.0015,
	"loss": 2.7113,
	"step": 17250
	},
	{
	"epoch": 0.1071636828327192,
	"grad_norm": 0.09912869334220886,
	"learning_rate": 0.0015,
	"loss": 2.7353,
	"step": 17275
	},
	{
	"epoch": 0.10731876775722386,
	"grad_norm": 0.14111942052841187,
	"learning_rate": 0.0015,
	"loss": 2.7064,
	"step": 17300
	},
	{
	"epoch": 0.10747385268172852,
	"grad_norm": 0.11583065241575241,
	"learning_rate": 0.0015,
	"loss": 2.722,
	"step": 17325
	},
	{
	"epoch": 0.10762893760623317,
	"grad_norm": 0.09374859184026718,
	"learning_rate": 0.0015,
	"loss": 2.6964,
	"step": 17350
	},
	{
	"epoch": 0.10778402253073784,
	"grad_norm": 0.11704573035240173,
	"learning_rate": 0.0015,
	"loss": 2.7518,
	"step": 17375
	},
	{
	"epoch": 0.10793910745524249,
	"grad_norm": 0.13960668444633484,
	"learning_rate": 0.0015,
	"loss": 2.7373,
	"step": 17400
	},
	{
	"epoch": 0.10793910745524249,
	"eval_loss": 4.514464378356934,
	"perplexity": 91.3286361694336,
	"step": 17400
	},
	{
	"epoch": 0.10809419237974716,
	"grad_norm": 0.1006089448928833,
	"learning_rate": 0.0015,
	"loss": 2.7199,
	"step": 17425
	},
	{
	"epoch": 0.10824927730425181,
	"grad_norm": 0.14851173758506775,
	"learning_rate": 0.0015,
	"loss": 2.7202,
	"step": 17450
	},
	{
	"epoch": 0.10840436222875646,
	"grad_norm": 0.11992091685533524,
	"learning_rate": 0.0015,
	"loss": 2.6932,
	"step": 17475
	},
	{
	"epoch": 0.10855944715326113,
	"grad_norm": 0.12420158833265305,
	"learning_rate": 0.0015,
	"loss": 2.7395,
	"step": 17500
	},
	{
	"epoch": 0.10871453207776578,
	"grad_norm": 0.09945713728666306,
	"learning_rate": 0.0015,
	"loss": 2.7323,
	"step": 17525
	},
	{
	"epoch": 0.10886961700227045,
	"grad_norm": 0.13007710874080658,
	"learning_rate": 0.0015,
	"loss": 2.7438,
	"step": 17550
	},
	{
	"epoch": 0.1090247019267751,
	"grad_norm": 0.10875315964221954,
	"learning_rate": 0.0015,
	"loss": 2.7656,
	"step": 17575
	},
	{
	"epoch": 0.10917978685127976,
	"grad_norm": 0.1075393334031105,
	"learning_rate": 0.0015,
	"loss": 2.7174,
	"step": 17600
	},
	{
	"epoch": 0.10917978685127976,
	"eval_loss": 4.4858293533325195,
	"perplexity": 88.75052642822266,
	"step": 17600
	},
	{
	"epoch": 0.10933487177578442,
	"grad_norm": 0.16400013864040375,
	"learning_rate": 0.0015,
	"loss": 2.7389,
	"step": 17625
	},
	{
	"epoch": 0.10948995670028908,
	"grad_norm": 0.1368722766637802,
	"learning_rate": 0.0015,
	"loss": 2.7198,
	"step": 17650
	},
	{
	"epoch": 0.10964504162479374,
	"grad_norm": 0.23104597628116608,
	"learning_rate": 0.0015,
	"loss": 2.7346,
	"step": 17675
	},
	{
	"epoch": 0.1098001265492984,
	"grad_norm": 0.12463794648647308,
	"learning_rate": 0.0015,
	"loss": 2.691,
	"step": 17700
	},
	{
	"epoch": 0.10995521147380305,
	"grad_norm": 0.19538962841033936,
	"learning_rate": 0.0015,
	"loss": 2.6917,
	"step": 17725
	},
	{
	"epoch": 0.11011029639830772,
	"grad_norm": 0.12000603973865509,
	"learning_rate": 0.0015,
	"loss": 2.7431,
	"step": 17750
	},
	{
	"epoch": 0.11026538132281237,
	"grad_norm": 0.15090298652648926,
	"learning_rate": 0.0015,
	"loss": 2.7493,
	"step": 17775
	},
	{
	"epoch": 0.11042046624731704,
	"grad_norm": 0.13190440833568573,
	"learning_rate": 0.0015,
	"loss": 2.7582,
	"step": 17800
	},
	{
	"epoch": 0.11042046624731704,
	"eval_loss": 4.493134021759033,
	"perplexity": 89.40119171142578,
	"step": 17800
	},
	{
	"epoch": 0.11057555117182169,
	"grad_norm": 0.12455850094556808,
	"learning_rate": 0.0015,
	"loss": 2.7574,
	"step": 17825
	},
	{
	"epoch": 0.11073063609632634,
	"grad_norm": 0.14911110699176788,
	"learning_rate": 0.0015,
	"loss": 2.7285,
	"step": 17850
	},
	{
	"epoch": 0.11088572102083101,
	"grad_norm": 0.16008728742599487,
	"learning_rate": 0.0015,
	"loss": 2.733,
	"step": 17875
	},
	{
	"epoch": 0.11104080594533566,
	"grad_norm": 0.1668420433998108,
	"learning_rate": 0.0015,
	"loss": 2.7259,
	"step": 17900
	},
	{
	"epoch": 0.11119589086984033,
	"grad_norm": 0.11736566573381424,
	"learning_rate": 0.0015,
	"loss": 2.7682,
	"step": 17925
	},
	{
	"epoch": 0.11135097579434498,
	"grad_norm": 0.11538700759410858,
	"learning_rate": 0.0015,
	"loss": 2.7656,
	"step": 17950
	},
	{
	"epoch": 0.11150606071884964,
	"grad_norm": 0.09440570324659348,
	"learning_rate": 0.0015,
	"loss": 2.7517,
	"step": 17975
	},
	{
	"epoch": 0.1116611456433543,
	"grad_norm": 0.20621652901172638,
	"learning_rate": 0.0015,
	"loss": 2.7292,
	"step": 18000
	},
	{
	"epoch": 0.1116611456433543,
	"eval_loss": 4.493429183959961,
	"perplexity": 89.42758178710938,
	"step": 18000
	},
	{
	"epoch": 0.11181623056785896,
	"grad_norm": 0.12027841061353683,
	"learning_rate": 0.0015,
	"loss": 2.7049,
	"step": 18025
	},
	{
	"epoch": 0.11197131549236362,
	"grad_norm": 0.08760379254817963,
	"learning_rate": 0.0015,
	"loss": 2.7291,
	"step": 18050
	},
	{
	"epoch": 0.11212640041686828,
	"grad_norm": 0.1251729428768158,
	"learning_rate": 0.0015,
	"loss": 2.7149,
	"step": 18075
	},
	{
	"epoch": 0.11228148534137293,
	"grad_norm": 0.10340214520692825,
	"learning_rate": 0.0015,
	"loss": 2.7437,
	"step": 18100
	},
	{
	"epoch": 0.1124365702658776,
	"grad_norm": 0.10546920448541641,
	"learning_rate": 0.0015,
	"loss": 2.7656,
	"step": 18125
	},
	{
	"epoch": 0.11259165519038225,
	"grad_norm": 0.12438227981328964,
	"learning_rate": 0.0015,
	"loss": 2.7171,
	"step": 18150
	},
	{
	"epoch": 0.11274674011488692,
	"grad_norm": 0.14557534456253052,
	"learning_rate": 0.0015,
	"loss": 2.7395,
	"step": 18175
	},
	{
	"epoch": 0.11290182503939157,
	"grad_norm": 0.13714823126792908,
	"learning_rate": 0.0015,
	"loss": 2.7066,
	"step": 18200
	},
	{
	"epoch": 0.11290182503939157,
	"eval_loss": 4.4876604080200195,
	"perplexity": 88.9131851196289,
	"step": 18200
	},
	{
	"epoch": 0.11305690996389622,
	"grad_norm": 0.12662547826766968,
	"learning_rate": 0.0015,
	"loss": 2.6665,
	"step": 18225
	},
	{
	"epoch": 0.11321199488840089,
	"grad_norm": 0.10047092288732529,
	"learning_rate": 0.0015,
	"loss": 2.7332,
	"step": 18250
	},
	{
	"epoch": 0.11336707981290554,
	"grad_norm": 0.11126455664634705,
	"learning_rate": 0.0015,
	"loss": 2.7154,
	"step": 18275
	},
	{
	"epoch": 0.11352216473741021,
	"grad_norm": 0.10023871064186096,
	"learning_rate": 0.0015,
	"loss": 2.7007,
	"step": 18300
	},
	{
	"epoch": 0.11367724966191486,
	"grad_norm": 0.11821885406970978,
	"learning_rate": 0.0015,
	"loss": 2.7081,
	"step": 18325
	},
	{
	"epoch": 0.11383233458641952,
	"grad_norm": 0.1216677874326706,
	"learning_rate": 0.0015,
	"loss": 2.74,
	"step": 18350
	},
	{
	"epoch": 0.11398741951092418,
	"grad_norm": 0.1125161275267601,
	"learning_rate": 0.0015,
	"loss": 2.733,
	"step": 18375
	},
	{
	"epoch": 0.11414250443542884,
	"grad_norm": 0.18253153562545776,
	"learning_rate": 0.0015,
	"loss": 2.7085,
	"step": 18400
	},
	{
	"epoch": 0.11414250443542884,
	"eval_loss": 4.501376628875732,
	"perplexity": 90.1411361694336,
	"step": 18400
	},
	{
	"epoch": 0.1142975893599335,
	"grad_norm": 0.13288918137550354,
	"learning_rate": 0.0015,
	"loss": 2.7033,
	"step": 18425
	},
	{
	"epoch": 0.11445267428443816,
	"grad_norm": 0.1069432720541954,
	"learning_rate": 0.0015,
	"loss": 2.7063,
	"step": 18450
	},
	{
	"epoch": 0.11460775920894281,
	"grad_norm": 0.1035354733467102,
	"learning_rate": 0.0015,
	"loss": 2.7174,
	"step": 18475
	},
	{
	"epoch": 0.11476284413344748,
	"grad_norm": 0.1121230348944664,
	"learning_rate": 0.0015,
	"loss": 2.7,
	"step": 18500
	},
	{
	"epoch": 0.11491792905795213,
	"grad_norm": 0.13324719667434692,
	"learning_rate": 0.0015,
	"loss": 2.7423,
	"step": 18525
	},
	{
	"epoch": 0.1150730139824568,
	"grad_norm": 0.0891190841794014,
	"learning_rate": 0.0015,
	"loss": 2.7418,
	"step": 18550
	},
	{
	"epoch": 0.11522809890696145,
	"grad_norm": 0.10579492896795273,
	"learning_rate": 0.0015,
	"loss": 2.7321,
	"step": 18575
	},
	{
	"epoch": 0.1153831838314661,
	"grad_norm": 0.1010003387928009,
	"learning_rate": 0.0015,
	"loss": 2.7071,
	"step": 18600
	},
	{
	"epoch": 0.1153831838314661,
	"eval_loss": 4.508904933929443,
	"perplexity": 90.82231140136719,
	"step": 18600
	},
	{
	"epoch": 0.11553826875597077,
	"grad_norm": 0.1599242389202118,
	"learning_rate": 0.0015,
	"loss": 2.7222,
	"step": 18625
	},
	{
	"epoch": 0.11569335368047542,
	"grad_norm": 0.09344537556171417,
	"learning_rate": 0.0015,
	"loss": 2.7424,
	"step": 18650
	},
	{
	"epoch": 0.11584843860498009,
	"grad_norm": 0.13959461450576782,
	"learning_rate": 0.0015,
	"loss": 2.7584,
	"step": 18675
	},
	{
	"epoch": 0.11600352352948474,
	"grad_norm": 0.11661764234304428,
	"learning_rate": 0.0015,
	"loss": 2.7363,
	"step": 18700
	},
	{
	"epoch": 0.1161586084539894,
	"grad_norm": 0.11968798190355301,
	"learning_rate": 0.0015,
	"loss": 2.7314,
	"step": 18725
	},
	{
	"epoch": 0.11631369337849407,
	"grad_norm": 0.22232107818126678,
	"learning_rate": 0.0015,
	"loss": 2.6992,
	"step": 18750
	},
	{
	"epoch": 0.11646877830299872,
	"grad_norm": 0.1387198567390442,
	"learning_rate": 0.0015,
	"loss": 2.7001,
	"step": 18775
	},
	{
	"epoch": 0.11662386322750339,
	"grad_norm": 0.17059509456157684,
	"learning_rate": 0.0015,
	"loss": 2.7002,
	"step": 18800
	},
	{
	"epoch": 0.11662386322750339,
	"eval_loss": 4.516000270843506,
	"perplexity": 91.4690170288086,
	"step": 18800
	},
	{
	"epoch": 0.11677894815200804,
	"grad_norm": 0.10877668112516403,
	"learning_rate": 0.0015,
	"loss": 2.7171,
	"step": 18825
	},
	{
	"epoch": 0.11693403307651269,
	"grad_norm": 0.11746638268232346,
	"learning_rate": 0.0015,
	"loss": 2.7006,
	"step": 18850
	},
	{
	"epoch": 0.11708911800101736,
	"grad_norm": 0.17617632448673248,
	"learning_rate": 0.0015,
	"loss": 2.7427,
	"step": 18875
	},
	{
	"epoch": 0.11724420292552201,
	"grad_norm": 0.09788820147514343,
	"learning_rate": 0.0015,
	"loss": 2.7507,
	"step": 18900
	},
	{
	"epoch": 0.11739928785002668,
	"grad_norm": 0.1285056471824646,
	"learning_rate": 0.0015,
	"loss": 2.7386,
	"step": 18925
	},
	{
	"epoch": 0.11755437277453133,
	"grad_norm": 0.11705992370843887,
	"learning_rate": 0.0015,
	"loss": 2.7234,
	"step": 18950
	},
	{
	"epoch": 0.11770945769903599,
	"grad_norm": 0.09166467934846878,
	"learning_rate": 0.0015,
	"loss": 2.7825,
	"step": 18975
	},
	{
	"epoch": 0.11786454262354065,
	"grad_norm": 0.11318054795265198,
	"learning_rate": 0.0015,
	"loss": 2.778,
	"step": 19000
	},
	{
	"epoch": 0.11786454262354065,
	"eval_loss": 4.499363422393799,
	"perplexity": 89.95984649658203,
	"step": 19000
	}
	],
	"logging_steps": 25,
	"max_steps": 161202,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": true,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 60,
	"trial_name": null,
	"trial_params": null
	}