Upload 11 files

fb8adf9 verified 5 months ago

61.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 8.0,
	"eval_steps": 500,
	"global_step": 376,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02127659574468085,
	"grad_norm": 0.78515625,
	"learning_rate": 2e-05,
	"loss": 3.872,
	"step": 1
	},
	{
	"epoch": 0.0425531914893617,
	"grad_norm": 0.83203125,
	"learning_rate": 4e-05,
	"loss": 3.9714,
	"step": 2
	},
	{
	"epoch": 0.06382978723404255,
	"grad_norm": 0.82421875,
	"learning_rate": 6e-05,
	"loss": 3.9503,
	"step": 3
	},
	{
	"epoch": 0.0851063829787234,
	"grad_norm": 0.94921875,
	"learning_rate": 8e-05,
	"loss": 4.0784,
	"step": 4
	},
	{
	"epoch": 0.10638297872340426,
	"grad_norm": 0.94921875,
	"learning_rate": 0.0001,
	"loss": 3.9539,
	"step": 5
	},
	{
	"epoch": 0.1276595744680851,
	"grad_norm": 0.66796875,
	"learning_rate": 0.00012,
	"loss": 3.8024,
	"step": 6
	},
	{
	"epoch": 0.14893617021276595,
	"grad_norm": 1.2109375,
	"learning_rate": 0.00014,
	"loss": 3.6005,
	"step": 7
	},
	{
	"epoch": 0.1702127659574468,
	"grad_norm": 0.96484375,
	"learning_rate": 0.00016,
	"loss": 3.8633,
	"step": 8
	},
	{
	"epoch": 0.19148936170212766,
	"grad_norm": 0.64453125,
	"learning_rate": 0.00018,
	"loss": 3.6551,
	"step": 9
	},
	{
	"epoch": 0.2127659574468085,
	"grad_norm": 0.34765625,
	"learning_rate": 0.0002,
	"loss": 3.6645,
	"step": 10
	},
	{
	"epoch": 0.23404255319148937,
	"grad_norm": 0.34375,
	"learning_rate": 0.000199996316124771,
	"loss": 3.7208,
	"step": 11
	},
	{
	"epoch": 0.2553191489361702,
	"grad_norm": 0.345703125,
	"learning_rate": 0.0001999852647705027,
	"loss": 3.6193,
	"step": 12
	},
	{
	"epoch": 0.2765957446808511,
	"grad_norm": 0.283203125,
	"learning_rate": 0.0001999668467514313,
	"loss": 3.7057,
	"step": 13
	},
	{
	"epoch": 0.2978723404255319,
	"grad_norm": 0.234375,
	"learning_rate": 0.00019994106342455053,
	"loss": 3.5714,
	"step": 14
	},
	{
	"epoch": 0.3191489361702128,
	"grad_norm": 0.189453125,
	"learning_rate": 0.00019990791668951155,
	"loss": 3.582,
	"step": 15
	},
	{
	"epoch": 0.3404255319148936,
	"grad_norm": 0.28515625,
	"learning_rate": 0.00019986740898848306,
	"loss": 3.5228,
	"step": 16
	},
	{
	"epoch": 0.3617021276595745,
	"grad_norm": 0.271484375,
	"learning_rate": 0.00019981954330597143,
	"loss": 3.5893,
	"step": 17
	},
	{
	"epoch": 0.3829787234042553,
	"grad_norm": 0.279296875,
	"learning_rate": 0.00019976432316860067,
	"loss": 3.5203,
	"step": 18
	},
	{
	"epoch": 0.40425531914893614,
	"grad_norm": 0.21484375,
	"learning_rate": 0.00019970175264485266,
	"loss": 3.5939,
	"step": 19
	},
	{
	"epoch": 0.425531914893617,
	"grad_norm": 0.1796875,
	"learning_rate": 0.00019963183634476756,
	"loss": 3.5296,
	"step": 20
	},
	{
	"epoch": 0.44680851063829785,
	"grad_norm": 0.2138671875,
	"learning_rate": 0.00019955457941960383,
	"loss": 3.6242,
	"step": 21
	},
	{
	"epoch": 0.46808510638297873,
	"grad_norm": 0.240234375,
	"learning_rate": 0.0001994699875614589,
	"loss": 3.517,
	"step": 22
	},
	{
	"epoch": 0.48936170212765956,
	"grad_norm": 0.2158203125,
	"learning_rate": 0.00019937806700284986,
	"loss": 3.5748,
	"step": 23
	},
	{
	"epoch": 0.5106382978723404,
	"grad_norm": 0.1982421875,
	"learning_rate": 0.00019927882451625402,
	"loss": 3.5263,
	"step": 24
	},
	{
	"epoch": 0.5319148936170213,
	"grad_norm": 0.27734375,
	"learning_rate": 0.00019917226741361015,
	"loss": 3.5638,
	"step": 25
	},
	{
	"epoch": 0.5531914893617021,
	"grad_norm": 0.1748046875,
	"learning_rate": 0.00019905840354577972,
	"loss": 3.5424,
	"step": 26
	},
	{
	"epoch": 0.574468085106383,
	"grad_norm": 0.1982421875,
	"learning_rate": 0.00019893724130196828,
	"loss": 3.5726,
	"step": 27
	},
	{
	"epoch": 0.5957446808510638,
	"grad_norm": 0.2275390625,
	"learning_rate": 0.00019880878960910772,
	"loss": 3.5656,
	"step": 28
	},
	{
	"epoch": 0.6170212765957447,
	"grad_norm": 0.1904296875,
	"learning_rate": 0.00019867305793119816,
	"loss": 3.6008,
	"step": 29
	},
	{
	"epoch": 0.6382978723404256,
	"grad_norm": 0.228515625,
	"learning_rate": 0.0001985300562686109,
	"loss": 3.5136,
	"step": 30
	},
	{
	"epoch": 0.6595744680851063,
	"grad_norm": 0.2255859375,
	"learning_rate": 0.00019837979515735166,
	"loss": 3.5632,
	"step": 31
	},
	{
	"epoch": 0.6808510638297872,
	"grad_norm": 0.1884765625,
	"learning_rate": 0.0001982222856682841,
	"loss": 3.6284,
	"step": 32
	},
	{
	"epoch": 0.7021276595744681,
	"grad_norm": 0.2890625,
	"learning_rate": 0.0001980575394063143,
	"loss": 3.4885,
	"step": 33
	},
	{
	"epoch": 0.723404255319149,
	"grad_norm": 0.232421875,
	"learning_rate": 0.0001978855685095358,
	"loss": 3.6102,
	"step": 34
	},
	{
	"epoch": 0.7446808510638298,
	"grad_norm": 0.328125,
	"learning_rate": 0.0001977063856483351,
	"loss": 3.5844,
	"step": 35
	},
	{
	"epoch": 0.7659574468085106,
	"grad_norm": 0.302734375,
	"learning_rate": 0.00019752000402445825,
	"loss": 3.5097,
	"step": 36
	},
	{
	"epoch": 0.7872340425531915,
	"grad_norm": 0.30078125,
	"learning_rate": 0.00019732643737003827,
	"loss": 3.492,
	"step": 37
	},
	{
	"epoch": 0.8085106382978723,
	"grad_norm": 0.216796875,
	"learning_rate": 0.00019712569994658315,
	"loss": 3.6192,
	"step": 38
	},
	{
	"epoch": 0.8297872340425532,
	"grad_norm": 0.2314453125,
	"learning_rate": 0.00019691780654392535,
	"loss": 3.6314,
	"step": 39
	},
	{
	"epoch": 0.851063829787234,
	"grad_norm": 0.2421875,
	"learning_rate": 0.00019670277247913205,
	"loss": 3.6429,
	"step": 40
	},
	{
	"epoch": 0.8723404255319149,
	"grad_norm": 0.208984375,
	"learning_rate": 0.00019648061359537646,
	"loss": 3.5714,
	"step": 41
	},
	{
	"epoch": 0.8936170212765957,
	"grad_norm": 0.259765625,
	"learning_rate": 0.00019625134626077083,
	"loss": 3.574,
	"step": 42
	},
	{
	"epoch": 0.9148936170212766,
	"grad_norm": 0.224609375,
	"learning_rate": 0.00019601498736716017,
	"loss": 3.6269,
	"step": 43
	},
	{
	"epoch": 0.9361702127659575,
	"grad_norm": 0.349609375,
	"learning_rate": 0.00019577155432887804,
	"loss": 3.659,
	"step": 44
	},
	{
	"epoch": 0.9574468085106383,
	"grad_norm": 0.291015625,
	"learning_rate": 0.00019552106508146318,
	"loss": 3.6223,
	"step": 45
	},
	{
	"epoch": 0.9787234042553191,
	"grad_norm": 0.3828125,
	"learning_rate": 0.00019526353808033825,
	"loss": 3.6389,
	"step": 46
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.5703125,
	"learning_rate": 0.00019499899229945012,
	"loss": 3.4551,
	"step": 47
	},
	{
	"epoch": 1.0212765957446808,
	"grad_norm": 1.203125,
	"learning_rate": 0.0001947274472298717,
	"loss": 3.2727,
	"step": 48
	},
	{
	"epoch": 1.0425531914893618,
	"grad_norm": 0.6015625,
	"learning_rate": 0.00019444892287836613,
	"loss": 3.3136,
	"step": 49
	},
	{
	"epoch": 1.0638297872340425,
	"grad_norm": 0.8125,
	"learning_rate": 0.00019416343976591261,
	"loss": 3.3188,
	"step": 50
	},
	{
	"epoch": 1.0851063829787233,
	"grad_norm": 1.09375,
	"learning_rate": 0.00019387101892619443,
	"loss": 3.424,
	"step": 51
	},
	{
	"epoch": 1.1063829787234043,
	"grad_norm": 0.28515625,
	"learning_rate": 0.00019357168190404936,
	"loss": 3.3676,
	"step": 52
	},
	{
	"epoch": 1.127659574468085,
	"grad_norm": 0.73828125,
	"learning_rate": 0.00019326545075388225,
	"loss": 3.3535,
	"step": 53
	},
	{
	"epoch": 1.148936170212766,
	"grad_norm": 0.73046875,
	"learning_rate": 0.00019295234803804004,
	"loss": 3.1686,
	"step": 54
	},
	{
	"epoch": 1.1702127659574468,
	"grad_norm": 0.234375,
	"learning_rate": 0.00019263239682514952,
	"loss": 3.3986,
	"step": 55
	},
	{
	"epoch": 1.1914893617021276,
	"grad_norm": 0.56640625,
	"learning_rate": 0.0001923056206884176,
	"loss": 3.2916,
	"step": 56
	},
	{
	"epoch": 1.2127659574468086,
	"grad_norm": 0.53515625,
	"learning_rate": 0.00019197204370389467,
	"loss": 3.3444,
	"step": 57
	},
	{
	"epoch": 1.2340425531914894,
	"grad_norm": 0.375,
	"learning_rate": 0.0001916316904487005,
	"loss": 3.3603,
	"step": 58
	},
	{
	"epoch": 1.2553191489361701,
	"grad_norm": 0.44140625,
	"learning_rate": 0.00019128458599921357,
	"loss": 3.308,
	"step": 59
	},
	{
	"epoch": 1.2765957446808511,
	"grad_norm": 0.7265625,
	"learning_rate": 0.00019093075592922358,
	"loss": 3.4154,
	"step": 60
	},
	{
	"epoch": 1.297872340425532,
	"grad_norm": 0.37890625,
	"learning_rate": 0.00019057022630804716,
	"loss": 3.3095,
	"step": 61
	},
	{
	"epoch": 1.3191489361702127,
	"grad_norm": 0.212890625,
	"learning_rate": 0.00019020302369860708,
	"loss": 3.3266,
	"step": 62
	},
	{
	"epoch": 1.3404255319148937,
	"grad_norm": 0.53125,
	"learning_rate": 0.0001898291751554753,
	"loss": 3.276,
	"step": 63
	},
	{
	"epoch": 1.3617021276595744,
	"grad_norm": 0.462890625,
	"learning_rate": 0.00018944870822287956,
	"loss": 3.3428,
	"step": 64
	},
	{
	"epoch": 1.3829787234042552,
	"grad_norm": 0.3125,
	"learning_rate": 0.00018906165093267405,
	"loss": 3.2515,
	"step": 65
	},
	{
	"epoch": 1.4042553191489362,
	"grad_norm": 0.232421875,
	"learning_rate": 0.00018866803180227402,
	"loss": 3.3125,
	"step": 66
	},
	{
	"epoch": 1.425531914893617,
	"grad_norm": 0.443359375,
	"learning_rate": 0.00018826787983255473,
	"loss": 3.2968,
	"step": 67
	},
	{
	"epoch": 1.4468085106382977,
	"grad_norm": 0.380859375,
	"learning_rate": 0.00018786122450571485,
	"loss": 3.3705,
	"step": 68
	},
	{
	"epoch": 1.4680851063829787,
	"grad_norm": 0.220703125,
	"learning_rate": 0.00018744809578310397,
	"loss": 3.2878,
	"step": 69
	},
	{
	"epoch": 1.4893617021276595,
	"grad_norm": 0.287109375,
	"learning_rate": 0.00018702852410301554,
	"loss": 3.3214,
	"step": 70
	},
	{
	"epoch": 1.5106382978723403,
	"grad_norm": 0.41796875,
	"learning_rate": 0.00018660254037844388,
	"loss": 3.2708,
	"step": 71
	},
	{
	"epoch": 1.5319148936170213,
	"grad_norm": 0.255859375,
	"learning_rate": 0.00018617017599480682,
	"loss": 3.3087,
	"step": 72
	},
	{
	"epoch": 1.5531914893617023,
	"grad_norm": 0.2431640625,
	"learning_rate": 0.00018573146280763324,
	"loss": 3.3227,
	"step": 73
	},
	{
	"epoch": 1.574468085106383,
	"grad_norm": 0.4375,
	"learning_rate": 0.000185286433140216,
	"loss": 3.3296,
	"step": 74
	},
	{
	"epoch": 1.5957446808510638,
	"grad_norm": 0.36328125,
	"learning_rate": 0.0001848351197812304,
	"loss": 3.3282,
	"step": 75
	},
	{
	"epoch": 1.6170212765957448,
	"grad_norm": 0.2294921875,
	"learning_rate": 0.00018437755598231856,
	"loss": 3.3421,
	"step": 76
	},
	{
	"epoch": 1.6382978723404256,
	"grad_norm": 0.345703125,
	"learning_rate": 0.00018391377545563938,
	"loss": 3.3002,
	"step": 77
	},
	{
	"epoch": 1.6595744680851063,
	"grad_norm": 0.349609375,
	"learning_rate": 0.00018344381237138472,
	"loss": 3.3293,
	"step": 78
	},
	{
	"epoch": 1.6808510638297873,
	"grad_norm": 0.255859375,
	"learning_rate": 0.0001829677013552619,
	"loss": 3.3688,
	"step": 79
	},
	{
	"epoch": 1.702127659574468,
	"grad_norm": 0.2431640625,
	"learning_rate": 0.00018248547748594244,
	"loss": 3.2586,
	"step": 80
	},
	{
	"epoch": 1.7234042553191489,
	"grad_norm": 0.2734375,
	"learning_rate": 0.00018199717629247773,
	"loss": 3.3783,
	"step": 81
	},
	{
	"epoch": 1.7446808510638299,
	"grad_norm": 0.326171875,
	"learning_rate": 0.00018150283375168114,
	"loss": 3.3503,
	"step": 82
	},
	{
	"epoch": 1.7659574468085106,
	"grad_norm": 0.28515625,
	"learning_rate": 0.0001810024862854775,
	"loss": 3.2862,
	"step": 83
	},
	{
	"epoch": 1.7872340425531914,
	"grad_norm": 0.337890625,
	"learning_rate": 0.00018049617075821962,
	"loss": 3.2503,
	"step": 84
	},
	{
	"epoch": 1.8085106382978724,
	"grad_norm": 0.28125,
	"learning_rate": 0.00017998392447397197,
	"loss": 3.3987,
	"step": 85
	},
	{
	"epoch": 1.8297872340425532,
	"grad_norm": 0.279296875,
	"learning_rate": 0.0001794657851737625,
	"loss": 3.3948,
	"step": 86
	},
	{
	"epoch": 1.851063829787234,
	"grad_norm": 0.29296875,
	"learning_rate": 0.00017894179103280198,
	"loss": 3.414,
	"step": 87
	},
	{
	"epoch": 1.872340425531915,
	"grad_norm": 0.267578125,
	"learning_rate": 0.00017841198065767107,
	"loss": 3.3495,
	"step": 88
	},
	{
	"epoch": 1.8936170212765957,
	"grad_norm": 0.28515625,
	"learning_rate": 0.00017787639308347608,
	"loss": 3.3357,
	"step": 89
	},
	{
	"epoch": 1.9148936170212765,
	"grad_norm": 0.359375,
	"learning_rate": 0.000177335067770973,
	"loss": 3.3956,
	"step": 90
	},
	{
	"epoch": 1.9361702127659575,
	"grad_norm": 0.2890625,
	"learning_rate": 0.00017678804460366,
	"loss": 3.4261,
	"step": 91
	},
	{
	"epoch": 1.9574468085106385,
	"grad_norm": 0.318359375,
	"learning_rate": 0.00017623536388483905,
	"loss": 3.3929,
	"step": 92
	},
	{
	"epoch": 1.978723404255319,
	"grad_norm": 0.33984375,
	"learning_rate": 0.00017567706633464628,
	"loss": 3.4055,
	"step": 93
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.73046875,
	"learning_rate": 0.00017511319308705198,
	"loss": 3.0576,
	"step": 94
	},
	{
	"epoch": 2.021276595744681,
	"grad_norm": 0.6953125,
	"learning_rate": 0.00017454378568683003,
	"loss": 3.1095,
	"step": 95
	},
	{
	"epoch": 2.0425531914893615,
	"grad_norm": 0.68359375,
	"learning_rate": 0.0001739688860864967,
	"loss": 3.1669,
	"step": 96
	},
	{
	"epoch": 2.0638297872340425,
	"grad_norm": 0.306640625,
	"learning_rate": 0.00017338853664321992,
	"loss": 3.1293,
	"step": 97
	},
	{
	"epoch": 2.0851063829787235,
	"grad_norm": 0.86328125,
	"learning_rate": 0.00017280278011569847,
	"loss": 3.2461,
	"step": 98
	},
	{
	"epoch": 2.106382978723404,
	"grad_norm": 0.58203125,
	"learning_rate": 0.00017221165966101163,
	"loss": 3.2222,
	"step": 99
	},
	{
	"epoch": 2.127659574468085,
	"grad_norm": 0.298828125,
	"learning_rate": 0.00017161521883143934,
	"loss": 3.1956,
	"step": 100
	},
	{
	"epoch": 2.148936170212766,
	"grad_norm": 0.73046875,
	"learning_rate": 0.0001710135015712536,
	"loss": 3.0099,
	"step": 101
	},
	{
	"epoch": 2.1702127659574466,
	"grad_norm": 0.53515625,
	"learning_rate": 0.00017040655221348057,
	"loss": 3.2425,
	"step": 102
	},
	{
	"epoch": 2.1914893617021276,
	"grad_norm": 0.353515625,
	"learning_rate": 0.00016979441547663435,
	"loss": 3.1365,
	"step": 103
	},
	{
	"epoch": 2.2127659574468086,
	"grad_norm": 0.55859375,
	"learning_rate": 0.00016917713646142222,
	"loss": 3.1903,
	"step": 104
	},
	{
	"epoch": 2.2340425531914896,
	"grad_norm": 0.6328125,
	"learning_rate": 0.00016855476064742155,
	"loss": 3.1938,
	"step": 105
	},
	{
	"epoch": 2.25531914893617,
	"grad_norm": 0.310546875,
	"learning_rate": 0.00016792733388972932,
	"loss": 3.1561,
	"step": 106
	},
	{
	"epoch": 2.276595744680851,
	"grad_norm": 0.7421875,
	"learning_rate": 0.0001672949024155833,
	"loss": 3.259,
	"step": 107
	},
	{
	"epoch": 2.297872340425532,
	"grad_norm": 0.47265625,
	"learning_rate": 0.00016665751282095634,
	"loss": 3.1575,
	"step": 108
	},
	{
	"epoch": 2.3191489361702127,
	"grad_norm": 0.2578125,
	"learning_rate": 0.00016601521206712318,
	"loss": 3.1849,
	"step": 109
	},
	{
	"epoch": 2.3404255319148937,
	"grad_norm": 0.5703125,
	"learning_rate": 0.0001653680474772006,
	"loss": 3.1254,
	"step": 110
	},
	{
	"epoch": 2.3617021276595747,
	"grad_norm": 0.427734375,
	"learning_rate": 0.00016471606673266066,
	"loss": 3.1994,
	"step": 111
	},
	{
	"epoch": 2.382978723404255,
	"grad_norm": 0.283203125,
	"learning_rate": 0.00016405931786981755,
	"loss": 3.101,
	"step": 112
	},
	{
	"epoch": 2.404255319148936,
	"grad_norm": 0.3984375,
	"learning_rate": 0.00016339784927628867,
	"loss": 3.1611,
	"step": 113
	},
	{
	"epoch": 2.425531914893617,
	"grad_norm": 0.51171875,
	"learning_rate": 0.0001627317096874294,
	"loss": 3.1622,
	"step": 114
	},
	{
	"epoch": 2.4468085106382977,
	"grad_norm": 0.302734375,
	"learning_rate": 0.00016206094818274229,
	"loss": 3.2131,
	"step": 115
	},
	{
	"epoch": 2.4680851063829787,
	"grad_norm": 0.35546875,
	"learning_rate": 0.0001613856141822612,
	"loss": 3.1511,
	"step": 116
	},
	{
	"epoch": 2.4893617021276597,
	"grad_norm": 0.478515625,
	"learning_rate": 0.00016070575744291004,
	"loss": 3.1662,
	"step": 117
	},
	{
	"epoch": 2.5106382978723403,
	"grad_norm": 0.4140625,
	"learning_rate": 0.00016002142805483685,
	"loss": 3.1092,
	"step": 118
	},
	{
	"epoch": 2.5319148936170213,
	"grad_norm": 0.376953125,
	"learning_rate": 0.0001593326764377232,
	"loss": 3.1444,
	"step": 119
	},
	{
	"epoch": 2.5531914893617023,
	"grad_norm": 0.443359375,
	"learning_rate": 0.00015863955333706957,
	"loss": 3.1738,
	"step": 120
	},
	{
	"epoch": 2.574468085106383,
	"grad_norm": 0.470703125,
	"learning_rate": 0.00015794210982045636,
	"loss": 3.1766,
	"step": 121
	},
	{
	"epoch": 2.595744680851064,
	"grad_norm": 0.294921875,
	"learning_rate": 0.00015724039727378148,
	"loss": 3.166,
	"step": 122
	},
	{
	"epoch": 2.617021276595745,
	"grad_norm": 0.50390625,
	"learning_rate": 0.00015653446739747427,
	"loss": 3.1837,
	"step": 123
	},
	{
	"epoch": 2.6382978723404253,
	"grad_norm": 0.484375,
	"learning_rate": 0.00015582437220268647,
	"loss": 3.1519,
	"step": 124
	},
	{
	"epoch": 2.6595744680851063,
	"grad_norm": 0.326171875,
	"learning_rate": 0.00015511016400746,
	"loss": 3.165,
	"step": 125
	},
	{
	"epoch": 2.6808510638297873,
	"grad_norm": 0.431640625,
	"learning_rate": 0.00015439189543287247,
	"loss": 3.2062,
	"step": 126
	},
	{
	"epoch": 2.702127659574468,
	"grad_norm": 0.400390625,
	"learning_rate": 0.00015366961939916008,
	"loss": 3.0979,
	"step": 127
	},
	{
	"epoch": 2.723404255319149,
	"grad_norm": 0.359375,
	"learning_rate": 0.0001529433891218185,
	"loss": 3.217,
	"step": 128
	},
	{
	"epoch": 2.74468085106383,
	"grad_norm": 0.349609375,
	"learning_rate": 0.0001522132581076825,
	"loss": 3.1789,
	"step": 129
	},
	{
	"epoch": 2.7659574468085104,
	"grad_norm": 0.3984375,
	"learning_rate": 0.0001514792801509831,
	"loss": 3.1253,
	"step": 130
	},
	{
	"epoch": 2.7872340425531914,
	"grad_norm": 0.369140625,
	"learning_rate": 0.00015074150932938455,
	"loss": 3.0813,
	"step": 131
	},
	{
	"epoch": 2.8085106382978724,
	"grad_norm": 0.380859375,
	"learning_rate": 0.00015000000000000001,
	"loss": 3.2233,
	"step": 132
	},
	{
	"epoch": 2.829787234042553,
	"grad_norm": 0.404296875,
	"learning_rate": 0.00014925480679538647,
	"loss": 3.2241,
	"step": 133
	},
	{
	"epoch": 2.851063829787234,
	"grad_norm": 0.33984375,
	"learning_rate": 0.00014850598461951963,
	"loss": 3.2428,
	"step": 134
	},
	{
	"epoch": 2.872340425531915,
	"grad_norm": 0.404296875,
	"learning_rate": 0.00014775358864374885,
	"loss": 3.1833,
	"step": 135
	},
	{
	"epoch": 2.8936170212765955,
	"grad_norm": 0.412109375,
	"learning_rate": 0.000146997674302732,
	"loss": 3.162,
	"step": 136
	},
	{
	"epoch": 2.9148936170212765,
	"grad_norm": 0.3828125,
	"learning_rate": 0.0001462382972903515,
	"loss": 3.2095,
	"step": 137
	},
	{
	"epoch": 2.9361702127659575,
	"grad_norm": 0.51171875,
	"learning_rate": 0.0001454755135556106,
	"loss": 3.2355,
	"step": 138
	},
	{
	"epoch": 2.9574468085106385,
	"grad_norm": 0.466796875,
	"learning_rate": 0.0001447093792985114,
	"loss": 3.1969,
	"step": 139
	},
	{
	"epoch": 2.978723404255319,
	"grad_norm": 0.5703125,
	"learning_rate": 0.00014393995096591416,
	"loss": 3.2092,
	"step": 140
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.984375,
	"learning_rate": 0.0001431672852473784,
	"loss": 2.7442,
	"step": 141
	},
	{
	"epoch": 3.021276595744681,
	"grad_norm": 0.8671875,
	"learning_rate": 0.0001423914390709861,
	"loss": 2.9817,
	"step": 142
	},
	{
	"epoch": 3.0425531914893615,
	"grad_norm": 1.03125,
	"learning_rate": 0.00014161246959914744,
	"loss": 3.0423,
	"step": 143
	},
	{
	"epoch": 3.0638297872340425,
	"grad_norm": 0.49609375,
	"learning_rate": 0.00014083043422438935,
	"loss": 2.9844,
	"step": 144
	},
	{
	"epoch": 3.0851063829787235,
	"grad_norm": 0.87890625,
	"learning_rate": 0.00014004539056512667,
	"loss": 3.0951,
	"step": 145
	},
	{
	"epoch": 3.106382978723404,
	"grad_norm": 0.8359375,
	"learning_rate": 0.0001392573964614172,
	"loss": 3.089,
	"step": 146
	},
	{
	"epoch": 3.127659574468085,
	"grad_norm": 0.44140625,
	"learning_rate": 0.00013846650997070012,
	"loss": 3.0649,
	"step": 147
	},
	{
	"epoch": 3.148936170212766,
	"grad_norm": 0.6328125,
	"learning_rate": 0.00013767278936351854,
	"loss": 2.8683,
	"step": 148
	},
	{
	"epoch": 3.1702127659574466,
	"grad_norm": 0.81640625,
	"learning_rate": 0.00013687629311922602,
	"loss": 3.1071,
	"step": 149
	},
	{
	"epoch": 3.1914893617021276,
	"grad_norm": 0.40234375,
	"learning_rate": 0.00013607707992167834,
	"loss": 3.0015,
	"step": 150
	},
	{
	"epoch": 3.2127659574468086,
	"grad_norm": 0.515625,
	"learning_rate": 0.0001352752086549095,
	"loss": 3.0506,
	"step": 151
	},
	{
	"epoch": 3.2340425531914896,
	"grad_norm": 0.80859375,
	"learning_rate": 0.0001344707383987934,
	"loss": 3.0533,
	"step": 152
	},
	{
	"epoch": 3.25531914893617,
	"grad_norm": 0.44140625,
	"learning_rate": 0.00013366372842469105,
	"loss": 3.0211,
	"step": 153
	},
	{
	"epoch": 3.276595744680851,
	"grad_norm": 0.478515625,
	"learning_rate": 0.0001328542381910835,
	"loss": 3.1129,
	"step": 154
	},
	{
	"epoch": 3.297872340425532,
	"grad_norm": 0.6171875,
	"learning_rate": 0.00013204232733919112,
	"loss": 3.0158,
	"step": 155
	},
	{
	"epoch": 3.3191489361702127,
	"grad_norm": 0.482421875,
	"learning_rate": 0.00013122805568857948,
	"loss": 3.0605,
	"step": 156
	},
	{
	"epoch": 3.3404255319148937,
	"grad_norm": 0.400390625,
	"learning_rate": 0.0001304114832327518,
	"loss": 2.9792,
	"step": 157
	},
	{
	"epoch": 3.3617021276595747,
	"grad_norm": 0.439453125,
	"learning_rate": 0.00012959267013472892,
	"loss": 3.0647,
	"step": 158
	},
	{
	"epoch": 3.382978723404255,
	"grad_norm": 0.48046875,
	"learning_rate": 0.0001287716767226167,
	"loss": 2.9722,
	"step": 159
	},
	{
	"epoch": 3.404255319148936,
	"grad_norm": 0.431640625,
	"learning_rate": 0.00012794856348516095,
	"loss": 3.0233,
	"step": 160
	},
	{
	"epoch": 3.425531914893617,
	"grad_norm": 0.458984375,
	"learning_rate": 0.000127123391067291,
	"loss": 3.0216,
	"step": 161
	},
	{
	"epoch": 3.4468085106382977,
	"grad_norm": 0.4921875,
	"learning_rate": 0.00012629622026565147,
	"loss": 3.0703,
	"step": 162
	},
	{
	"epoch": 3.4680851063829787,
	"grad_norm": 0.39453125,
	"learning_rate": 0.00012546711202412287,
	"loss": 3.0121,
	"step": 163
	},
	{
	"epoch": 3.4893617021276597,
	"grad_norm": 0.443359375,
	"learning_rate": 0.00012463612742933148,
	"loss": 3.0189,
	"step": 164
	},
	{
	"epoch": 3.5106382978723403,
	"grad_norm": 0.57421875,
	"learning_rate": 0.00012380332770614856,
	"loss": 2.9589,
	"step": 165
	},
	{
	"epoch": 3.5319148936170213,
	"grad_norm": 0.41015625,
	"learning_rate": 0.0001229687742131796,
	"loss": 2.9954,
	"step": 166
	},
	{
	"epoch": 3.5531914893617023,
	"grad_norm": 0.40234375,
	"learning_rate": 0.00012213252843824325,
	"loss": 3.0266,
	"step": 167
	},
	{
	"epoch": 3.574468085106383,
	"grad_norm": 0.54296875,
	"learning_rate": 0.00012129465199384157,
	"loss": 3.0273,
	"step": 168
	},
	{
	"epoch": 3.595744680851064,
	"grad_norm": 0.5234375,
	"learning_rate": 0.0001204552066126201,
	"loss": 3.0214,
	"step": 169
	},
	{
	"epoch": 3.617021276595745,
	"grad_norm": 0.400390625,
	"learning_rate": 0.0001196142541428197,
	"loss": 3.0232,
	"step": 170
	},
	{
	"epoch": 3.6382978723404253,
	"grad_norm": 0.49609375,
	"learning_rate": 0.00011877185654371987,
	"loss": 3.0004,
	"step": 171
	},
	{
	"epoch": 3.6595744680851063,
	"grad_norm": 0.515625,
	"learning_rate": 0.00011792807588107357,
	"loss": 3.0165,
	"step": 172
	},
	{
	"epoch": 3.6808510638297873,
	"grad_norm": 0.44921875,
	"learning_rate": 0.00011708297432253444,
	"loss": 3.0491,
	"step": 173
	},
	{
	"epoch": 3.702127659574468,
	"grad_norm": 0.41796875,
	"learning_rate": 0.00011623661413307639,
	"loss": 2.9456,
	"step": 174
	},
	{
	"epoch": 3.723404255319149,
	"grad_norm": 0.4921875,
	"learning_rate": 0.0001153890576704062,
	"loss": 3.0586,
	"step": 175
	},
	{
	"epoch": 3.74468085106383,
	"grad_norm": 0.4921875,
	"learning_rate": 0.00011454036738036899,
	"loss": 3.0125,
	"step": 176
	},
	{
	"epoch": 3.7659574468085104,
	"grad_norm": 0.427734375,
	"learning_rate": 0.00011369060579234754,
	"loss": 2.9722,
	"step": 177
	},
	{
	"epoch": 3.7872340425531914,
	"grad_norm": 0.498046875,
	"learning_rate": 0.00011283983551465511,
	"loss": 2.9201,
	"step": 178
	},
	{
	"epoch": 3.8085106382978724,
	"grad_norm": 0.4765625,
	"learning_rate": 0.00011198811922992274,
	"loss": 3.0565,
	"step": 179
	},
	{
	"epoch": 3.829787234042553,
	"grad_norm": 0.462890625,
	"learning_rate": 0.00011113551969048089,
	"loss": 3.0615,
	"step": 180
	},
	{
	"epoch": 3.851063829787234,
	"grad_norm": 0.474609375,
	"learning_rate": 0.00011028209971373605,
	"loss": 3.0731,
	"step": 181
	},
	{
	"epoch": 3.872340425531915,
	"grad_norm": 0.46484375,
	"learning_rate": 0.00010942792217754245,
	"loss": 3.0144,
	"step": 182
	},
	{
	"epoch": 3.8936170212765955,
	"grad_norm": 0.50390625,
	"learning_rate": 0.00010857305001556944,
	"loss": 2.9905,
	"step": 183
	},
	{
	"epoch": 3.9148936170212765,
	"grad_norm": 0.546875,
	"learning_rate": 0.00010771754621266466,
	"loss": 3.0232,
	"step": 184
	},
	{
	"epoch": 3.9361702127659575,
	"grad_norm": 0.53515625,
	"learning_rate": 0.00010686147380021342,
	"loss": 3.0408,
	"step": 185
	},
	{
	"epoch": 3.9574468085106385,
	"grad_norm": 0.609375,
	"learning_rate": 0.00010600489585149484,
	"loss": 2.9963,
	"step": 186
	},
	{
	"epoch": 3.978723404255319,
	"grad_norm": 0.6875,
	"learning_rate": 0.00010514787547703466,
	"loss": 3.0049,
	"step": 187
	},
	{
	"epoch": 4.0,
	"grad_norm": 1.1015625,
	"learning_rate": 0.00010429047581995546,
	"loss": 2.4433,
	"step": 188
	},
	{
	"epoch": 4.0212765957446805,
	"grad_norm": 0.5859375,
	"learning_rate": 0.00010343276005132436,
	"loss": 2.8295,
	"step": 189
	},
	{
	"epoch": 4.042553191489362,
	"grad_norm": 0.8359375,
	"learning_rate": 0.00010257479136549889,
	"loss": 2.8904,
	"step": 190
	},
	{
	"epoch": 4.0638297872340425,
	"grad_norm": 0.796875,
	"learning_rate": 0.00010171663297547076,
	"loss": 2.834,
	"step": 191
	},
	{
	"epoch": 4.085106382978723,
	"grad_norm": 0.498046875,
	"learning_rate": 0.00010085834810820871,
	"loss": 2.9309,
	"step": 192
	},
	{
	"epoch": 4.1063829787234045,
	"grad_norm": 0.5703125,
	"learning_rate": 0.0001,
	"loss": 2.9461,
	"step": 193
	},
	{
	"epoch": 4.127659574468085,
	"grad_norm": 0.65625,
	"learning_rate": 9.914165189179131e-05,
	"loss": 2.9405,
	"step": 194
	},
	{
	"epoch": 4.148936170212766,
	"grad_norm": 0.546875,
	"learning_rate": 9.828336702452927e-05,
	"loss": 2.7445,
	"step": 195
	},
	{
	"epoch": 4.170212765957447,
	"grad_norm": 0.50390625,
	"learning_rate": 9.742520863450115e-05,
	"loss": 2.963,
	"step": 196
	},
	{
	"epoch": 4.191489361702128,
	"grad_norm": 0.59375,
	"learning_rate": 9.656723994867566e-05,
	"loss": 2.8778,
	"step": 197
	},
	{
	"epoch": 4.212765957446808,
	"grad_norm": 0.58984375,
	"learning_rate": 9.570952418004455e-05,
	"loss": 2.9148,
	"step": 198
	},
	{
	"epoch": 4.23404255319149,
	"grad_norm": 0.5546875,
	"learning_rate": 9.485212452296535e-05,
	"loss": 2.9028,
	"step": 199
	},
	{
	"epoch": 4.25531914893617,
	"grad_norm": 0.62109375,
	"learning_rate": 9.399510414850518e-05,
	"loss": 2.898,
	"step": 200
	},
	{
	"epoch": 4.276595744680851,
	"grad_norm": 0.61328125,
	"learning_rate": 9.313852619978659e-05,
	"loss": 2.9883,
	"step": 201
	},
	{
	"epoch": 4.297872340425532,
	"grad_norm": 0.51171875,
	"learning_rate": 9.228245378733537e-05,
	"loss": 2.886,
	"step": 202
	},
	{
	"epoch": 4.319148936170213,
	"grad_norm": 0.5546875,
	"learning_rate": 9.142694998443056e-05,
	"loss": 2.9453,
	"step": 203
	},
	{
	"epoch": 4.340425531914893,
	"grad_norm": 0.58984375,
	"learning_rate": 9.057207782245757e-05,
	"loss": 2.8555,
	"step": 204
	},
	{
	"epoch": 4.361702127659575,
	"grad_norm": 0.56640625,
	"learning_rate": 8.971790028626395e-05,
	"loss": 2.9359,
	"step": 205
	},
	{
	"epoch": 4.382978723404255,
	"grad_norm": 0.45703125,
	"learning_rate": 8.886448030951912e-05,
	"loss": 2.8469,
	"step": 206
	},
	{
	"epoch": 4.404255319148936,
	"grad_norm": 0.6015625,
	"learning_rate": 8.801188077007728e-05,
	"loss": 2.8963,
	"step": 207
	},
	{
	"epoch": 4.425531914893617,
	"grad_norm": 0.54296875,
	"learning_rate": 8.71601644853449e-05,
	"loss": 2.8965,
	"step": 208
	},
	{
	"epoch": 4.446808510638298,
	"grad_norm": 0.57421875,
	"learning_rate": 8.630939420765247e-05,
	"loss": 2.9457,
	"step": 209
	},
	{
	"epoch": 4.468085106382979,
	"grad_norm": 0.5234375,
	"learning_rate": 8.545963261963102e-05,
	"loss": 2.8918,
	"step": 210
	},
	{
	"epoch": 4.48936170212766,
	"grad_norm": 0.60546875,
	"learning_rate": 8.461094232959381e-05,
	"loss": 2.8957,
	"step": 211
	},
	{
	"epoch": 4.51063829787234,
	"grad_norm": 0.6484375,
	"learning_rate": 8.376338586692366e-05,
	"loss": 2.8224,
	"step": 212
	},
	{
	"epoch": 4.531914893617021,
	"grad_norm": 0.5703125,
	"learning_rate": 8.29170256774656e-05,
	"loss": 2.859,
	"step": 213
	},
	{
	"epoch": 4.553191489361702,
	"grad_norm": 0.58203125,
	"learning_rate": 8.207192411892646e-05,
	"loss": 2.8896,
	"step": 214
	},
	{
	"epoch": 4.574468085106383,
	"grad_norm": 0.58203125,
	"learning_rate": 8.122814345628016e-05,
	"loss": 2.8874,
	"step": 215
	},
	{
	"epoch": 4.595744680851064,
	"grad_norm": 0.56640625,
	"learning_rate": 8.038574585718032e-05,
	"loss": 2.8869,
	"step": 216
	},
	{
	"epoch": 4.617021276595745,
	"grad_norm": 0.5703125,
	"learning_rate": 7.954479338737995e-05,
	"loss": 2.8923,
	"step": 217
	},
	{
	"epoch": 4.638297872340425,
	"grad_norm": 0.59765625,
	"learning_rate": 7.870534800615845e-05,
	"loss": 2.868,
	"step": 218
	},
	{
	"epoch": 4.659574468085106,
	"grad_norm": 0.625,
	"learning_rate": 7.786747156175676e-05,
	"loss": 2.8831,
	"step": 219
	},
	{
	"epoch": 4.680851063829787,
	"grad_norm": 0.578125,
	"learning_rate": 7.703122578682046e-05,
	"loss": 2.9084,
	"step": 220
	},
	{
	"epoch": 4.702127659574468,
	"grad_norm": 0.546875,
	"learning_rate": 7.619667229385146e-05,
	"loss": 2.8085,
	"step": 221
	},
	{
	"epoch": 4.723404255319149,
	"grad_norm": 0.6875,
	"learning_rate": 7.536387257066854e-05,
	"loss": 2.92,
	"step": 222
	},
	{
	"epoch": 4.74468085106383,
	"grad_norm": 0.65234375,
	"learning_rate": 7.453288797587714e-05,
	"loss": 2.8661,
	"step": 223
	},
	{
	"epoch": 4.76595744680851,
	"grad_norm": 0.55859375,
	"learning_rate": 7.370377973434855e-05,
	"loss": 2.8322,
	"step": 224
	},
	{
	"epoch": 4.787234042553192,
	"grad_norm": 0.5859375,
	"learning_rate": 7.2876608932709e-05,
	"loss": 2.772,
	"step": 225
	},
	{
	"epoch": 4.808510638297872,
	"grad_norm": 0.71875,
	"learning_rate": 7.205143651483906e-05,
	"loss": 2.905,
	"step": 226
	},
	{
	"epoch": 4.829787234042553,
	"grad_norm": 0.703125,
	"learning_rate": 7.122832327738331e-05,
	"loss": 2.9116,
	"step": 227
	},
	{
	"epoch": 4.851063829787234,
	"grad_norm": 0.61328125,
	"learning_rate": 7.040732986527108e-05,
	"loss": 2.9203,
	"step": 228
	},
	{
	"epoch": 4.872340425531915,
	"grad_norm": 0.6328125,
	"learning_rate": 6.958851676724823e-05,
	"loss": 2.8646,
	"step": 229
	},
	{
	"epoch": 4.8936170212765955,
	"grad_norm": 0.69140625,
	"learning_rate": 6.877194431142055e-05,
	"loss": 2.844,
	"step": 230
	},
	{
	"epoch": 4.914893617021277,
	"grad_norm": 0.73828125,
	"learning_rate": 6.79576726608089e-05,
	"loss": 2.8604,
	"step": 231
	},
	{
	"epoch": 4.9361702127659575,
	"grad_norm": 0.703125,
	"learning_rate": 6.714576180891654e-05,
	"loss": 2.8686,
	"step": 232
	},
	{
	"epoch": 4.957446808510638,
	"grad_norm": 0.72265625,
	"learning_rate": 6.633627157530899e-05,
	"loss": 2.8085,
	"step": 233
	},
	{
	"epoch": 4.9787234042553195,
	"grad_norm": 0.75390625,
	"learning_rate": 6.552926160120663e-05,
	"loss": 2.8017,
	"step": 234
	},
	{
	"epoch": 5.0,
	"grad_norm": 1.328125,
	"learning_rate": 6.472479134509052e-05,
	"loss": 2.189,
	"step": 235
	},
	{
	"epoch": 5.0212765957446805,
	"grad_norm": 0.8125,
	"learning_rate": 6.392292007832168e-05,
	"loss": 2.7068,
	"step": 236
	},
	{
	"epoch": 5.042553191489362,
	"grad_norm": 0.85546875,
	"learning_rate": 6.312370688077399e-05,
	"loss": 2.7591,
	"step": 237
	},
	{
	"epoch": 5.0638297872340425,
	"grad_norm": 0.984375,
	"learning_rate": 6.232721063648148e-05,
	"loss": 2.7161,
	"step": 238
	},
	{
	"epoch": 5.085106382978723,
	"grad_norm": 0.78515625,
	"learning_rate": 6.153349002929987e-05,
	"loss": 2.8126,
	"step": 239
	},
	{
	"epoch": 5.1063829787234045,
	"grad_norm": 0.7265625,
	"learning_rate": 6.0742603538582835e-05,
	"loss": 2.8485,
	"step": 240
	},
	{
	"epoch": 5.127659574468085,
	"grad_norm": 0.578125,
	"learning_rate": 5.9954609434873344e-05,
	"loss": 2.8336,
	"step": 241
	},
	{
	"epoch": 5.148936170212766,
	"grad_norm": 0.6171875,
	"learning_rate": 5.9169565775610656e-05,
	"loss": 2.6482,
	"step": 242
	},
	{
	"epoch": 5.170212765957447,
	"grad_norm": 0.66015625,
	"learning_rate": 5.838753040085256e-05,
	"loss": 2.8597,
	"step": 243
	},
	{
	"epoch": 5.191489361702128,
	"grad_norm": 0.6015625,
	"learning_rate": 5.7608560929013946e-05,
	"loss": 2.7875,
	"step": 244
	},
	{
	"epoch": 5.212765957446808,
	"grad_norm": 0.6015625,
	"learning_rate": 5.683271475262164e-05,
	"loss": 2.822,
	"step": 245
	},
	{
	"epoch": 5.23404255319149,
	"grad_norm": 0.7109375,
	"learning_rate": 5.6060049034085815e-05,
	"loss": 2.8034,
	"step": 246
	},
	{
	"epoch": 5.25531914893617,
	"grad_norm": 0.5859375,
	"learning_rate": 5.5290620701488594e-05,
	"loss": 2.7899,
	"step": 247
	},
	{
	"epoch": 5.276595744680851,
	"grad_norm": 0.65625,
	"learning_rate": 5.452448644438946e-05,
	"loss": 2.8848,
	"step": 248
	},
	{
	"epoch": 5.297872340425532,
	"grad_norm": 0.63671875,
	"learning_rate": 5.3761702709648556e-05,
	"loss": 2.7907,
	"step": 249
	},
	{
	"epoch": 5.319148936170213,
	"grad_norm": 0.65625,
	"learning_rate": 5.300232569726804e-05,
	"loss": 2.8616,
	"step": 250
	},
	{
	"epoch": 5.340425531914893,
	"grad_norm": 0.6953125,
	"learning_rate": 5.224641135625119e-05,
	"loss": 2.7745,
	"step": 251
	},
	{
	"epoch": 5.361702127659575,
	"grad_norm": 0.671875,
	"learning_rate": 5.1494015380480396e-05,
	"loss": 2.8555,
	"step": 252
	},
	{
	"epoch": 5.382978723404255,
	"grad_norm": 0.63671875,
	"learning_rate": 5.074519320461357e-05,
	"loss": 2.7636,
	"step": 253
	},
	{
	"epoch": 5.404255319148936,
	"grad_norm": 0.625,
	"learning_rate": 5.000000000000002e-05,
	"loss": 2.8076,
	"step": 254
	},
	{
	"epoch": 5.425531914893617,
	"grad_norm": 0.56640625,
	"learning_rate": 4.9258490670615475e-05,
	"loss": 2.8087,
	"step": 255
	},
	{
	"epoch": 5.446808510638298,
	"grad_norm": 0.55859375,
	"learning_rate": 4.852071984901696e-05,
	"loss": 2.8507,
	"step": 256
	},
	{
	"epoch": 5.468085106382979,
	"grad_norm": 0.5546875,
	"learning_rate": 4.778674189231751e-05,
	"loss": 2.7981,
	"step": 257
	},
	{
	"epoch": 5.48936170212766,
	"grad_norm": 0.58984375,
	"learning_rate": 4.7056610878181486e-05,
	"loss": 2.8039,
	"step": 258
	},
	{
	"epoch": 5.51063829787234,
	"grad_norm": 0.65234375,
	"learning_rate": 4.633038060083996e-05,
	"loss": 2.7239,
	"step": 259
	},
	{
	"epoch": 5.531914893617021,
	"grad_norm": 0.609375,
	"learning_rate": 4.560810456712754e-05,
	"loss": 2.7612,
	"step": 260
	},
	{
	"epoch": 5.553191489361702,
	"grad_norm": 0.58203125,
	"learning_rate": 4.488983599254001e-05,
	"loss": 2.7895,
	"step": 261
	},
	{
	"epoch": 5.574468085106383,
	"grad_norm": 0.63671875,
	"learning_rate": 4.417562779731355e-05,
	"loss": 2.7883,
	"step": 262
	},
	{
	"epoch": 5.595744680851064,
	"grad_norm": 0.69140625,
	"learning_rate": 4.346553260252574e-05,
	"loss": 2.7913,
	"step": 263
	},
	{
	"epoch": 5.617021276595745,
	"grad_norm": 0.7109375,
	"learning_rate": 4.275960272621852e-05,
	"loss": 2.7905,
	"step": 264
	},
	{
	"epoch": 5.638297872340425,
	"grad_norm": 0.703125,
	"learning_rate": 4.205789017954364e-05,
	"loss": 2.7663,
	"step": 265
	},
	{
	"epoch": 5.659574468085106,
	"grad_norm": 0.69140625,
	"learning_rate": 4.136044666293044e-05,
	"loss": 2.7839,
	"step": 266
	},
	{
	"epoch": 5.680851063829787,
	"grad_norm": 0.6640625,
	"learning_rate": 4.0667323562276814e-05,
	"loss": 2.7986,
	"step": 267
	},
	{
	"epoch": 5.702127659574468,
	"grad_norm": 0.6484375,
	"learning_rate": 3.997857194516319e-05,
	"loss": 2.7071,
	"step": 268
	},
	{
	"epoch": 5.723404255319149,
	"grad_norm": 0.64453125,
	"learning_rate": 3.929424255708999e-05,
	"loss": 2.8141,
	"step": 269
	},
	{
	"epoch": 5.74468085106383,
	"grad_norm": 0.69140625,
	"learning_rate": 3.8614385817738794e-05,
	"loss": 2.7508,
	"step": 270
	},
	{
	"epoch": 5.76595744680851,
	"grad_norm": 0.6484375,
	"learning_rate": 3.793905181725772e-05,
	"loss": 2.7273,
	"step": 271
	},
	{
	"epoch": 5.787234042553192,
	"grad_norm": 0.68359375,
	"learning_rate": 3.726829031257062e-05,
	"loss": 2.6695,
	"step": 272
	},
	{
	"epoch": 5.808510638297872,
	"grad_norm": 0.6796875,
	"learning_rate": 3.660215072371135e-05,
	"loss": 2.7872,
	"step": 273
	},
	{
	"epoch": 5.829787234042553,
	"grad_norm": 0.6875,
	"learning_rate": 3.594068213018249e-05,
	"loss": 2.7969,
	"step": 274
	},
	{
	"epoch": 5.851063829787234,
	"grad_norm": 0.703125,
	"learning_rate": 3.528393326733941e-05,
	"loss": 2.8035,
	"step": 275
	},
	{
	"epoch": 5.872340425531915,
	"grad_norm": 0.71484375,
	"learning_rate": 3.463195252279939e-05,
	"loss": 2.7496,
	"step": 276
	},
	{
	"epoch": 5.8936170212765955,
	"grad_norm": 0.796875,
	"learning_rate": 3.3984787932876814e-05,
	"loss": 2.7365,
	"step": 277
	},
	{
	"epoch": 5.914893617021277,
	"grad_norm": 0.8046875,
	"learning_rate": 3.334248717904368e-05,
	"loss": 2.7371,
	"step": 278
	},
	{
	"epoch": 5.9361702127659575,
	"grad_norm": 0.81640625,
	"learning_rate": 3.270509758441671e-05,
	"loss": 2.7465,
	"step": 279
	},
	{
	"epoch": 5.957446808510638,
	"grad_norm": 0.8828125,
	"learning_rate": 3.207266611027069e-05,
	"loss": 2.6859,
	"step": 280
	},
	{
	"epoch": 5.9787234042553195,
	"grad_norm": 0.9375,
	"learning_rate": 3.144523935257846e-05,
	"loss": 2.6722,
	"step": 281
	},
	{
	"epoch": 6.0,
	"grad_norm": 1.375,
	"learning_rate": 3.082286353857782e-05,
	"loss": 2.0584,
	"step": 282
	},
	{
	"epoch": 6.0212765957446805,
	"grad_norm": 0.69921875,
	"learning_rate": 3.0205584523365626e-05,
	"loss": 2.6076,
	"step": 283
	},
	{
	"epoch": 6.042553191489362,
	"grad_norm": 0.73046875,
	"learning_rate": 2.9593447786519425e-05,
	"loss": 2.6513,
	"step": 284
	},
	{
	"epoch": 6.0638297872340425,
	"grad_norm": 0.859375,
	"learning_rate": 2.8986498428746444e-05,
	"loss": 2.6075,
	"step": 285
	},
	{
	"epoch": 6.085106382978723,
	"grad_norm": 0.94140625,
	"learning_rate": 2.8384781168560693e-05,
	"loss": 2.7151,
	"step": 286
	},
	{
	"epoch": 6.1063829787234045,
	"grad_norm": 1.0390625,
	"learning_rate": 2.7788340338988385e-05,
	"loss": 2.7812,
	"step": 287
	},
	{
	"epoch": 6.127659574468085,
	"grad_norm": 1.1015625,
	"learning_rate": 2.719721988430153e-05,
	"loss": 2.7936,
	"step": 288
	},
	{
	"epoch": 6.148936170212766,
	"grad_norm": 1.0,
	"learning_rate": 2.6611463356780096e-05,
	"loss": 2.6086,
	"step": 289
	},
	{
	"epoch": 6.170212765957447,
	"grad_norm": 0.984375,
	"learning_rate": 2.6031113913503337e-05,
	"loss": 2.8151,
	"step": 290
	},
	{
	"epoch": 6.191489361702128,
	"grad_norm": 0.734375,
	"learning_rate": 2.5456214313170002e-05,
	"loss": 2.7246,
	"step": 291
	},
	{
	"epoch": 6.212765957446808,
	"grad_norm": 0.69140625,
	"learning_rate": 2.4886806912948035e-05,
	"loss": 2.7524,
	"step": 292
	},
	{
	"epoch": 6.23404255319149,
	"grad_norm": 0.75390625,
	"learning_rate": 2.4322933665353776e-05,
	"loss": 2.7285,
	"step": 293
	},
	{
	"epoch": 6.25531914893617,
	"grad_norm": 0.66015625,
	"learning_rate": 2.3764636115160978e-05,
	"loss": 2.7237,
	"step": 294
	},
	{
	"epoch": 6.276595744680851,
	"grad_norm": 0.734375,
	"learning_rate": 2.3211955396340002e-05,
	"loss": 2.818,
	"step": 295
	},
	{
	"epoch": 6.297872340425532,
	"grad_norm": 0.6796875,
	"learning_rate": 2.2664932229027024e-05,
	"loss": 2.7163,
	"step": 296
	},
	{
	"epoch": 6.319148936170213,
	"grad_norm": 0.609375,
	"learning_rate": 2.2123606916523953e-05,
	"loss": 2.7859,
	"step": 297
	},
	{
	"epoch": 6.340425531914893,
	"grad_norm": 0.64453125,
	"learning_rate": 2.1588019342328968e-05,
	"loss": 2.6892,
	"step": 298
	},
	{
	"epoch": 6.361702127659575,
	"grad_norm": 0.6328125,
	"learning_rate": 2.1058208967198045e-05,
	"loss": 2.767,
	"step": 299
	},
	{
	"epoch": 6.382978723404255,
	"grad_norm": 0.62109375,
	"learning_rate": 2.0534214826237484e-05,
	"loss": 2.6933,
	"step": 300
	},
	{
	"epoch": 6.404255319148936,
	"grad_norm": 0.62890625,
	"learning_rate": 2.0016075526028065e-05,
	"loss": 2.7303,
	"step": 301
	},
	{
	"epoch": 6.425531914893617,
	"grad_norm": 0.5703125,
	"learning_rate": 1.9503829241780412e-05,
	"loss": 2.7377,
	"step": 302
	},
	{
	"epoch": 6.446808510638298,
	"grad_norm": 0.6171875,
	"learning_rate": 1.8997513714522487e-05,
	"loss": 2.7818,
	"step": 303
	},
	{
	"epoch": 6.468085106382979,
	"grad_norm": 0.59765625,
	"learning_rate": 1.8497166248318876e-05,
	"loss": 2.7335,
	"step": 304
	},
	{
	"epoch": 6.48936170212766,
	"grad_norm": 0.60546875,
	"learning_rate": 1.8002823707522297e-05,
	"loss": 2.733,
	"step": 305
	},
	{
	"epoch": 6.51063829787234,
	"grad_norm": 0.66796875,
	"learning_rate": 1.7514522514057553e-05,
	"loss": 2.6446,
	"step": 306
	},
	{
	"epoch": 6.531914893617021,
	"grad_norm": 0.6484375,
	"learning_rate": 1.703229864473811e-05,
	"loss": 2.6907,
	"step": 307
	},
	{
	"epoch": 6.553191489361702,
	"grad_norm": 0.609375,
	"learning_rate": 1.6556187628615273e-05,
	"loss": 2.7176,
	"step": 308
	},
	{
	"epoch": 6.574468085106383,
	"grad_norm": 0.6484375,
	"learning_rate": 1.608622454436062e-05,
	"loss": 2.7109,
	"step": 309
	},
	{
	"epoch": 6.595744680851064,
	"grad_norm": 0.65625,
	"learning_rate": 1.562244401768144e-05,
	"loss": 2.7085,
	"step": 310
	},
	{
	"epoch": 6.617021276595745,
	"grad_norm": 0.65625,
	"learning_rate": 1.5164880218769618e-05,
	"loss": 2.6987,
	"step": 311
	},
	{
	"epoch": 6.638297872340425,
	"grad_norm": 0.62890625,
	"learning_rate": 1.4713566859784045e-05,
	"loss": 2.6835,
	"step": 312
	},
	{
	"epoch": 6.659574468085106,
	"grad_norm": 0.6328125,
	"learning_rate": 1.426853719236676e-05,
	"loss": 2.6981,
	"step": 313
	},
	{
	"epoch": 6.680851063829787,
	"grad_norm": 0.640625,
	"learning_rate": 1.3829824005193181e-05,
	"loss": 2.7132,
	"step": 314
	},
	{
	"epoch": 6.702127659574468,
	"grad_norm": 0.62890625,
	"learning_rate": 1.339745962155613e-05,
	"loss": 2.6319,
	"step": 315
	},
	{
	"epoch": 6.723404255319149,
	"grad_norm": 0.63671875,
	"learning_rate": 1.2971475896984475e-05,
	"loss": 2.7332,
	"step": 316
	},
	{
	"epoch": 6.74468085106383,
	"grad_norm": 0.68359375,
	"learning_rate": 1.2551904216896037e-05,
	"loss": 2.6649,
	"step": 317
	},
	{
	"epoch": 6.76595744680851,
	"grad_norm": 0.6484375,
	"learning_rate": 1.2138775494285182e-05,
	"loss": 2.6486,
	"step": 318
	},
	{
	"epoch": 6.787234042553192,
	"grad_norm": 0.69140625,
	"learning_rate": 1.1732120167445248e-05,
	"loss": 2.5875,
	"step": 319
	},
	{
	"epoch": 6.808510638297872,
	"grad_norm": 0.7109375,
	"learning_rate": 1.1331968197725984e-05,
	"loss": 2.7079,
	"step": 320
	},
	{
	"epoch": 6.829787234042553,
	"grad_norm": 0.70703125,
	"learning_rate": 1.0938349067325959e-05,
	"loss": 2.7134,
	"step": 321
	},
	{
	"epoch": 6.851063829787234,
	"grad_norm": 0.71875,
	"learning_rate": 1.0551291777120464e-05,
	"loss": 2.7199,
	"step": 322
	},
	{
	"epoch": 6.872340425531915,
	"grad_norm": 0.703125,
	"learning_rate": 1.0170824844524728e-05,
	"loss": 2.6655,
	"step": 323
	},
	{
	"epoch": 6.8936170212765955,
	"grad_norm": 0.73046875,
	"learning_rate": 9.796976301392934e-06,
	"loss": 2.6519,
	"step": 324
	},
	{
	"epoch": 6.914893617021277,
	"grad_norm": 0.75390625,
	"learning_rate": 9.429773691952858e-06,
	"loss": 2.6443,
	"step": 325
	},
	{
	"epoch": 6.9361702127659575,
	"grad_norm": 0.79296875,
	"learning_rate": 9.069244070776428e-06,
	"loss": 2.6531,
	"step": 326
	},
	{
	"epoch": 6.957446808510638,
	"grad_norm": 0.86328125,
	"learning_rate": 8.715414000786448e-06,
	"loss": 2.5897,
	"step": 327
	},
	{
	"epoch": 6.9787234042553195,
	"grad_norm": 1.03125,
	"learning_rate": 8.368309551299536e-06,
	"loss": 2.5772,
	"step": 328
	},
	{
	"epoch": 7.0,
	"grad_norm": 1.296875,
	"learning_rate": 8.027956296105354e-06,
	"loss": 1.9731,
	"step": 329
	},
	{
	"epoch": 7.0212765957446805,
	"grad_norm": 0.75,
	"learning_rate": 7.6943793115824e-06,
	"loss": 2.5669,
	"step": 330
	},
	{
	"epoch": 7.042553191489362,
	"grad_norm": 0.703125,
	"learning_rate": 7.367603174850502e-06,
	"loss": 2.6154,
	"step": 331
	},
	{
	"epoch": 7.0638297872340425,
	"grad_norm": 0.72265625,
	"learning_rate": 7.047651961959978e-06,
	"loss": 2.5542,
	"step": 332
	},
	{
	"epoch": 7.085106382978723,
	"grad_norm": 0.74609375,
	"learning_rate": 6.73454924611776e-06,
	"loss": 2.6428,
	"step": 333
	},
	{
	"epoch": 7.1063829787234045,
	"grad_norm": 0.64453125,
	"learning_rate": 6.428318095950647e-06,
	"loss": 2.6929,
	"step": 334
	},
	{
	"epoch": 7.127659574468085,
	"grad_norm": 0.63671875,
	"learning_rate": 6.128981073805584e-06,
	"loss": 2.6994,
	"step": 335
	},
	{
	"epoch": 7.148936170212766,
	"grad_norm": 0.67578125,
	"learning_rate": 5.836560234087418e-06,
	"loss": 2.5162,
	"step": 336
	},
	{
	"epoch": 7.170212765957447,
	"grad_norm": 0.76953125,
	"learning_rate": 5.551077121633874e-06,
	"loss": 2.7308,
	"step": 337
	},
	{
	"epoch": 7.191489361702128,
	"grad_norm": 0.734375,
	"learning_rate": 5.272552770128314e-06,
	"loss": 2.6655,
	"step": 338
	},
	{
	"epoch": 7.212765957446808,
	"grad_norm": 0.7578125,
	"learning_rate": 5.001007700549898e-06,
	"loss": 2.7014,
	"step": 339
	},
	{
	"epoch": 7.23404255319149,
	"grad_norm": 0.80078125,
	"learning_rate": 4.7364619196617495e-06,
	"loss": 2.6704,
	"step": 340
	},
	{
	"epoch": 7.25531914893617,
	"grad_norm": 0.734375,
	"learning_rate": 4.478934918536837e-06,
	"loss": 2.6756,
	"step": 341
	},
	{
	"epoch": 7.276595744680851,
	"grad_norm": 0.7578125,
	"learning_rate": 4.228445671121972e-06,
	"loss": 2.7574,
	"step": 342
	},
	{
	"epoch": 7.297872340425532,
	"grad_norm": 0.6640625,
	"learning_rate": 3.985012632839824e-06,
	"loss": 2.6565,
	"step": 343
	},
	{
	"epoch": 7.319148936170213,
	"grad_norm": 0.69140625,
	"learning_rate": 3.748653739229191e-06,
	"loss": 2.7389,
	"step": 344
	},
	{
	"epoch": 7.340425531914893,
	"grad_norm": 0.68359375,
	"learning_rate": 3.519386404623537e-06,
	"loss": 2.6382,
	"step": 345
	},
	{
	"epoch": 7.361702127659575,
	"grad_norm": 0.73828125,
	"learning_rate": 3.2972275208679625e-06,
	"loss": 2.7147,
	"step": 346
	},
	{
	"epoch": 7.382978723404255,
	"grad_norm": 0.7421875,
	"learning_rate": 3.0821934560746447e-06,
	"loss": 2.6497,
	"step": 347
	},
	{
	"epoch": 7.404255319148936,
	"grad_norm": 0.76171875,
	"learning_rate": 2.8743000534168675e-06,
	"loss": 2.6844,
	"step": 348
	},
	{
	"epoch": 7.425531914893617,
	"grad_norm": 0.72265625,
	"learning_rate": 2.6735626299617457e-06,
	"loss": 2.6961,
	"step": 349
	},
	{
	"epoch": 7.446808510638298,
	"grad_norm": 0.7109375,
	"learning_rate": 2.479995975541749e-06,
	"loss": 2.7341,
	"step": 350
	},
	{
	"epoch": 7.468085106382979,
	"grad_norm": 0.7109375,
	"learning_rate": 2.2936143516649188e-06,
	"loss": 2.6872,
	"step": 351
	},
	{
	"epoch": 7.48936170212766,
	"grad_norm": 0.69921875,
	"learning_rate": 2.1144314904642195e-06,
	"loss": 2.6879,
	"step": 352
	},
	{
	"epoch": 7.51063829787234,
	"grad_norm": 0.7109375,
	"learning_rate": 1.942460593685713e-06,
	"loss": 2.5916,
	"step": 353
	},
	{
	"epoch": 7.531914893617021,
	"grad_norm": 0.72265625,
	"learning_rate": 1.7777143317159406e-06,
	"loss": 2.643,
	"step": 354
	},
	{
	"epoch": 7.553191489361702,
	"grad_norm": 0.671875,
	"learning_rate": 1.6202048426483651e-06,
	"loss": 2.6724,
	"step": 355
	},
	{
	"epoch": 7.574468085106383,
	"grad_norm": 0.6875,
	"learning_rate": 1.4699437313891007e-06,
	"loss": 2.6634,
	"step": 356
	},
	{
	"epoch": 7.595744680851064,
	"grad_norm": 0.7265625,
	"learning_rate": 1.3269420688018508e-06,
	"loss": 2.6651,
	"step": 357
	},
	{
	"epoch": 7.617021276595745,
	"grad_norm": 0.70703125,
	"learning_rate": 1.1912103908922945e-06,
	"loss": 2.6545,
	"step": 358
	},
	{
	"epoch": 7.638297872340425,
	"grad_norm": 0.69921875,
	"learning_rate": 1.0627586980317073e-06,
	"loss": 2.6455,
	"step": 359
	},
	{
	"epoch": 7.659574468085106,
	"grad_norm": 0.69921875,
	"learning_rate": 9.415964542203059e-07,
	"loss": 2.6622,
	"step": 360
	},
	{
	"epoch": 7.680851063829787,
	"grad_norm": 0.7265625,
	"learning_rate": 8.277325863898511e-07,
	"loss": 2.6787,
	"step": 361
	},
	{
	"epoch": 7.702127659574468,
	"grad_norm": 0.7109375,
	"learning_rate": 7.21175483745995e-07,
	"loss": 2.6004,
	"step": 362
	},
	{
	"epoch": 7.723404255319149,
	"grad_norm": 0.7265625,
	"learning_rate": 6.219329971501653e-07,
	"loss": 2.7023,
	"step": 363
	},
	{
	"epoch": 7.74468085106383,
	"grad_norm": 0.73828125,
	"learning_rate": 5.300124385410943e-07,
	"loss": 2.6309,
	"step": 364
	},
	{
	"epoch": 7.76595744680851,
	"grad_norm": 0.6953125,
	"learning_rate": 4.4542058039619417e-07,
	"loss": 2.6197,
	"step": 365
	},
	{
	"epoch": 7.787234042553192,
	"grad_norm": 0.75,
	"learning_rate": 3.681636552324452e-07,
	"loss": 2.5579,
	"step": 366
	},
	{
	"epoch": 7.808510638297872,
	"grad_norm": 0.78515625,
	"learning_rate": 2.9824735514732974e-07,
	"loss": 2.6765,
	"step": 367
	},
	{
	"epoch": 7.829787234042553,
	"grad_norm": 0.8203125,
	"learning_rate": 2.3567683139936735e-07,
	"loss": 2.687,
	"step": 368
	},
	{
	"epoch": 7.851063829787234,
	"grad_norm": 0.796875,
	"learning_rate": 1.8045669402859677e-07,
	"loss": 2.6924,
	"step": 369
	},
	{
	"epoch": 7.872340425531915,
	"grad_norm": 0.79296875,
	"learning_rate": 1.3259101151694708e-07,
	"loss": 2.6409,
	"step": 370
	},
	{
	"epoch": 7.8936170212765955,
	"grad_norm": 0.78125,
	"learning_rate": 9.208331048846663e-08,
	"loss": 2.6251,
	"step": 371
	},
	{
	"epoch": 7.914893617021277,
	"grad_norm": 0.77734375,
	"learning_rate": 5.893657544947528e-08,
	"loss": 2.616,
	"step": 372
	},
	{
	"epoch": 7.9361702127659575,
	"grad_norm": 0.8515625,
	"learning_rate": 3.3153248568695835e-08,
	"loss": 2.626,
	"step": 373
	},
	{
	"epoch": 7.957446808510638,
	"grad_norm": 0.81640625,
	"learning_rate": 1.47352294973091e-08,
	"loss": 2.5585,
	"step": 374
	},
	{
	"epoch": 7.9787234042553195,
	"grad_norm": 0.89453125,
	"learning_rate": 3.6838752290102585e-09,
	"loss": 2.543,
	"step": 375
	},
	{
	"epoch": 8.0,
	"grad_norm": 1.046875,
	"learning_rate": 0.0,
	"loss": 1.9425,
	"step": 376
	}
	],
	"logging_steps": 1,
	"max_steps": 376,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 8,
	"save_steps": 47,
	"total_flos": 5.59507839123456e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}