Model save

9e6a07c verified 26 days ago

101 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.9965217391304346,
	"eval_steps": 500,
	"global_step": 574,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0034782608695652175,
	"grad_norm": 0.1545655359230834,
	"learning_rate": 3.448275862068966e-06,
	"loss": 0.1804,
	"step": 1
	},
	{
	"epoch": 0.006956521739130435,
	"grad_norm": 0.15798307731453395,
	"learning_rate": 6.896551724137932e-06,
	"loss": 0.1443,
	"step": 2
	},
	{
	"epoch": 0.010434782608695653,
	"grad_norm": 0.14372383095748037,
	"learning_rate": 1.0344827586206897e-05,
	"loss": 0.1414,
	"step": 3
	},
	{
	"epoch": 0.01391304347826087,
	"grad_norm": 0.2420744995778043,
	"learning_rate": 1.3793103448275863e-05,
	"loss": 0.1926,
	"step": 4
	},
	{
	"epoch": 0.017391304347826087,
	"grad_norm": 0.1463366912249852,
	"learning_rate": 1.7241379310344828e-05,
	"loss": 0.1598,
	"step": 5
	},
	{
	"epoch": 0.020869565217391306,
	"grad_norm": 0.2742107559459329,
	"learning_rate": 2.0689655172413793e-05,
	"loss": 0.2451,
	"step": 6
	},
	{
	"epoch": 0.02434782608695652,
	"grad_norm": 0.1545956455873269,
	"learning_rate": 2.413793103448276e-05,
	"loss": 0.1467,
	"step": 7
	},
	{
	"epoch": 0.02782608695652174,
	"grad_norm": 0.11833712816221738,
	"learning_rate": 2.7586206896551727e-05,
	"loss": 0.1146,
	"step": 8
	},
	{
	"epoch": 0.03130434782608696,
	"grad_norm": 0.1636683202816951,
	"learning_rate": 3.103448275862069e-05,
	"loss": 0.1511,
	"step": 9
	},
	{
	"epoch": 0.034782608695652174,
	"grad_norm": 0.12096851431359755,
	"learning_rate": 3.4482758620689657e-05,
	"loss": 0.1392,
	"step": 10
	},
	{
	"epoch": 0.03826086956521739,
	"grad_norm": 0.20113450226273455,
	"learning_rate": 3.793103448275862e-05,
	"loss": 0.1829,
	"step": 11
	},
	{
	"epoch": 0.04173913043478261,
	"grad_norm": 0.1724183342324261,
	"learning_rate": 4.1379310344827587e-05,
	"loss": 0.1393,
	"step": 12
	},
	{
	"epoch": 0.04521739130434783,
	"grad_norm": 0.16317141755627293,
	"learning_rate": 4.482758620689655e-05,
	"loss": 0.1569,
	"step": 13
	},
	{
	"epoch": 0.04869565217391304,
	"grad_norm": 0.20158026184467487,
	"learning_rate": 4.827586206896552e-05,
	"loss": 0.1719,
	"step": 14
	},
	{
	"epoch": 0.05217391304347826,
	"grad_norm": 0.19268086804807166,
	"learning_rate": 5.172413793103449e-05,
	"loss": 0.1783,
	"step": 15
	},
	{
	"epoch": 0.05565217391304348,
	"grad_norm": 0.15367624679456215,
	"learning_rate": 5.517241379310345e-05,
	"loss": 0.1457,
	"step": 16
	},
	{
	"epoch": 0.059130434782608696,
	"grad_norm": 0.16131163703415627,
	"learning_rate": 5.862068965517241e-05,
	"loss": 0.1741,
	"step": 17
	},
	{
	"epoch": 0.06260869565217392,
	"grad_norm": 0.1513439967052575,
	"learning_rate": 6.206896551724138e-05,
	"loss": 0.1567,
	"step": 18
	},
	{
	"epoch": 0.06608695652173913,
	"grad_norm": 0.11397034244477378,
	"learning_rate": 6.551724137931034e-05,
	"loss": 0.1448,
	"step": 19
	},
	{
	"epoch": 0.06956521739130435,
	"grad_norm": 0.18890710907597627,
	"learning_rate": 6.896551724137931e-05,
	"loss": 0.1576,
	"step": 20
	},
	{
	"epoch": 0.07304347826086957,
	"grad_norm": 0.17148715059837027,
	"learning_rate": 7.241379310344828e-05,
	"loss": 0.1531,
	"step": 21
	},
	{
	"epoch": 0.07652173913043478,
	"grad_norm": 0.15845773761518642,
	"learning_rate": 7.586206896551724e-05,
	"loss": 0.1795,
	"step": 22
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.16432205778499775,
	"learning_rate": 7.931034482758621e-05,
	"loss": 0.1455,
	"step": 23
	},
	{
	"epoch": 0.08347826086956522,
	"grad_norm": 0.18507516537799124,
	"learning_rate": 8.275862068965517e-05,
	"loss": 0.1792,
	"step": 24
	},
	{
	"epoch": 0.08695652173913043,
	"grad_norm": 0.1489906198108428,
	"learning_rate": 8.620689655172413e-05,
	"loss": 0.1575,
	"step": 25
	},
	{
	"epoch": 0.09043478260869565,
	"grad_norm": 0.19257597111889158,
	"learning_rate": 8.96551724137931e-05,
	"loss": 0.1977,
	"step": 26
	},
	{
	"epoch": 0.09391304347826086,
	"grad_norm": 0.15869513580726594,
	"learning_rate": 9.310344827586207e-05,
	"loss": 0.1491,
	"step": 27
	},
	{
	"epoch": 0.09739130434782609,
	"grad_norm": 0.23763138206897608,
	"learning_rate": 9.655172413793105e-05,
	"loss": 0.2305,
	"step": 28
	},
	{
	"epoch": 0.10086956521739131,
	"grad_norm": 0.19313130092481448,
	"learning_rate": 0.0001,
	"loss": 0.1991,
	"step": 29
	},
	{
	"epoch": 0.10434782608695652,
	"grad_norm": 0.15957163254805692,
	"learning_rate": 0.00010344827586206898,
	"loss": 0.1494,
	"step": 30
	},
	{
	"epoch": 0.10782608695652174,
	"grad_norm": 0.15175494387195537,
	"learning_rate": 0.00010689655172413792,
	"loss": 0.1539,
	"step": 31
	},
	{
	"epoch": 0.11130434782608696,
	"grad_norm": 0.1577067484050021,
	"learning_rate": 0.0001103448275862069,
	"loss": 0.1481,
	"step": 32
	},
	{
	"epoch": 0.11478260869565217,
	"grad_norm": 0.09295501667856695,
	"learning_rate": 0.00011379310344827588,
	"loss": 0.1018,
	"step": 33
	},
	{
	"epoch": 0.11826086956521739,
	"grad_norm": 0.13149067291539926,
	"learning_rate": 0.00011724137931034482,
	"loss": 0.1176,
	"step": 34
	},
	{
	"epoch": 0.12173913043478261,
	"grad_norm": 0.15815867098069847,
	"learning_rate": 0.0001206896551724138,
	"loss": 0.1315,
	"step": 35
	},
	{
	"epoch": 0.12521739130434784,
	"grad_norm": 0.1228801998135233,
	"learning_rate": 0.00012413793103448277,
	"loss": 0.1226,
	"step": 36
	},
	{
	"epoch": 0.12869565217391304,
	"grad_norm": 0.14615808183921733,
	"learning_rate": 0.00012758620689655174,
	"loss": 0.1351,
	"step": 37
	},
	{
	"epoch": 0.13217391304347825,
	"grad_norm": 0.13959696283916806,
	"learning_rate": 0.00013103448275862068,
	"loss": 0.1265,
	"step": 38
	},
	{
	"epoch": 0.1356521739130435,
	"grad_norm": 0.1674438071444559,
	"learning_rate": 0.00013448275862068965,
	"loss": 0.1763,
	"step": 39
	},
	{
	"epoch": 0.1391304347826087,
	"grad_norm": 0.14248711889055726,
	"learning_rate": 0.00013793103448275863,
	"loss": 0.1273,
	"step": 40
	},
	{
	"epoch": 0.1426086956521739,
	"grad_norm": 0.12483278168498144,
	"learning_rate": 0.0001413793103448276,
	"loss": 0.1158,
	"step": 41
	},
	{
	"epoch": 0.14608695652173914,
	"grad_norm": 0.12252417486446492,
	"learning_rate": 0.00014482758620689657,
	"loss": 0.0978,
	"step": 42
	},
	{
	"epoch": 0.14956521739130435,
	"grad_norm": 0.1379518468653693,
	"learning_rate": 0.00014827586206896554,
	"loss": 0.1265,
	"step": 43
	},
	{
	"epoch": 0.15304347826086956,
	"grad_norm": 0.1523565561366162,
	"learning_rate": 0.00015172413793103449,
	"loss": 0.1823,
	"step": 44
	},
	{
	"epoch": 0.1565217391304348,
	"grad_norm": 0.1801898533175253,
	"learning_rate": 0.00015517241379310346,
	"loss": 0.1999,
	"step": 45
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.13012748020707876,
	"learning_rate": 0.00015862068965517243,
	"loss": 0.1409,
	"step": 46
	},
	{
	"epoch": 0.1634782608695652,
	"grad_norm": 0.1413893808116691,
	"learning_rate": 0.00016206896551724137,
	"loss": 0.1262,
	"step": 47
	},
	{
	"epoch": 0.16695652173913045,
	"grad_norm": 0.16233434268275468,
	"learning_rate": 0.00016551724137931035,
	"loss": 0.1467,
	"step": 48
	},
	{
	"epoch": 0.17043478260869566,
	"grad_norm": 0.15079503853002107,
	"learning_rate": 0.00016896551724137932,
	"loss": 0.1058,
	"step": 49
	},
	{
	"epoch": 0.17391304347826086,
	"grad_norm": 0.15412291289995766,
	"learning_rate": 0.00017241379310344826,
	"loss": 0.168,
	"step": 50
	},
	{
	"epoch": 0.17739130434782607,
	"grad_norm": 0.1722020517750421,
	"learning_rate": 0.00017586206896551723,
	"loss": 0.1183,
	"step": 51
	},
	{
	"epoch": 0.1808695652173913,
	"grad_norm": 0.10905711916480021,
	"learning_rate": 0.0001793103448275862,
	"loss": 0.1093,
	"step": 52
	},
	{
	"epoch": 0.18434782608695652,
	"grad_norm": 0.16963364557672264,
	"learning_rate": 0.00018275862068965518,
	"loss": 0.1557,
	"step": 53
	},
	{
	"epoch": 0.18782608695652173,
	"grad_norm": 0.15154120729033607,
	"learning_rate": 0.00018620689655172415,
	"loss": 0.1594,
	"step": 54
	},
	{
	"epoch": 0.19130434782608696,
	"grad_norm": 0.13757866713331232,
	"learning_rate": 0.00018965517241379312,
	"loss": 0.1407,
	"step": 55
	},
	{
	"epoch": 0.19478260869565217,
	"grad_norm": 0.08797746875562075,
	"learning_rate": 0.0001931034482758621,
	"loss": 0.0941,
	"step": 56
	},
	{
	"epoch": 0.19826086956521738,
	"grad_norm": 0.18086221573643768,
	"learning_rate": 0.00019655172413793104,
	"loss": 0.1781,
	"step": 57
	},
	{
	"epoch": 0.20173913043478262,
	"grad_norm": 0.17700454857957337,
	"learning_rate": 0.0002,
	"loss": 0.1879,
	"step": 58
	},
	{
	"epoch": 0.20521739130434782,
	"grad_norm": 0.1558083475840659,
	"learning_rate": 0.00019999814660065618,
	"loss": 0.1831,
	"step": 59
	},
	{
	"epoch": 0.20869565217391303,
	"grad_norm": 0.1032213761254349,
	"learning_rate": 0.00019999258647132646,
	"loss": 0.1188,
	"step": 60
	},
	{
	"epoch": 0.21217391304347827,
	"grad_norm": 0.14893393244118194,
	"learning_rate": 0.00019998331981811366,
	"loss": 0.1554,
	"step": 61
	},
	{
	"epoch": 0.21565217391304348,
	"grad_norm": 0.14353596472572114,
	"learning_rate": 0.00019997034698451395,
	"loss": 0.1807,
	"step": 62
	},
	{
	"epoch": 0.21913043478260869,
	"grad_norm": 0.1051492618618541,
	"learning_rate": 0.00019995366845140415,
	"loss": 0.1278,
	"step": 63
	},
	{
	"epoch": 0.22260869565217392,
	"grad_norm": 0.15519178380797527,
	"learning_rate": 0.00019993328483702393,
	"loss": 0.1718,
	"step": 64
	},
	{
	"epoch": 0.22608695652173913,
	"grad_norm": 0.16979535445201727,
	"learning_rate": 0.00019990919689695286,
	"loss": 0.1759,
	"step": 65
	},
	{
	"epoch": 0.22956521739130434,
	"grad_norm": 0.19955078650794816,
	"learning_rate": 0.0001998814055240823,
	"loss": 0.1659,
	"step": 66
	},
	{
	"epoch": 0.23304347826086957,
	"grad_norm": 0.21069141049146595,
	"learning_rate": 0.00019984991174858257,
	"loss": 0.1591,
	"step": 67
	},
	{
	"epoch": 0.23652173913043478,
	"grad_norm": 0.10858740428706376,
	"learning_rate": 0.00019981471673786452,
	"loss": 0.1143,
	"step": 68
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.12877038648097636,
	"learning_rate": 0.00019977582179653633,
	"loss": 0.113,
	"step": 69
	},
	{
	"epoch": 0.24347826086956523,
	"grad_norm": 0.15092333453545853,
	"learning_rate": 0.00019973322836635518,
	"loss": 0.183,
	"step": 70
	},
	{
	"epoch": 0.24695652173913044,
	"grad_norm": 0.12997966260226232,
	"learning_rate": 0.00019968693802617374,
	"loss": 0.144,
	"step": 71
	},
	{
	"epoch": 0.25043478260869567,
	"grad_norm": 0.12761141406209162,
	"learning_rate": 0.00019963695249188183,
	"loss": 0.1292,
	"step": 72
	},
	{
	"epoch": 0.2539130434782609,
	"grad_norm": 0.16597376098252953,
	"learning_rate": 0.00019958327361634248,
	"loss": 0.1645,
	"step": 73
	},
	{
	"epoch": 0.2573913043478261,
	"grad_norm": 0.10098015772720864,
	"learning_rate": 0.00019952590338932356,
	"loss": 0.1067,
	"step": 74
	},
	{
	"epoch": 0.2608695652173913,
	"grad_norm": 0.15925018221087978,
	"learning_rate": 0.00019946484393742399,
	"loss": 0.1554,
	"step": 75
	},
	{
	"epoch": 0.2643478260869565,
	"grad_norm": 0.1532302933171606,
	"learning_rate": 0.0001994000975239946,
	"loss": 0.1817,
	"step": 76
	},
	{
	"epoch": 0.2678260869565217,
	"grad_norm": 0.15154786378403498,
	"learning_rate": 0.00019933166654905466,
	"loss": 0.1467,
	"step": 77
	},
	{
	"epoch": 0.271304347826087,
	"grad_norm": 0.15690138906152937,
	"learning_rate": 0.00019925955354920265,
	"loss": 0.1373,
	"step": 78
	},
	{
	"epoch": 0.2747826086956522,
	"grad_norm": 0.1859438689490505,
	"learning_rate": 0.0001991837611975223,
	"loss": 0.1932,
	"step": 79
	},
	{
	"epoch": 0.2782608695652174,
	"grad_norm": 0.14861843675913228,
	"learning_rate": 0.00019910429230348347,
	"loss": 0.1675,
	"step": 80
	},
	{
	"epoch": 0.2817391304347826,
	"grad_norm": 0.14218774514095903,
	"learning_rate": 0.00019902114981283812,
	"loss": 0.1283,
	"step": 81
	},
	{
	"epoch": 0.2852173913043478,
	"grad_norm": 0.15988803314683084,
	"learning_rate": 0.00019893433680751103,
	"loss": 0.1336,
	"step": 82
	},
	{
	"epoch": 0.288695652173913,
	"grad_norm": 0.15975061567872123,
	"learning_rate": 0.0001988438565054855,
	"loss": 0.1676,
	"step": 83
	},
	{
	"epoch": 0.2921739130434783,
	"grad_norm": 0.0903484060539206,
	"learning_rate": 0.00019874971226068415,
	"loss": 0.0909,
	"step": 84
	},
	{
	"epoch": 0.2956521739130435,
	"grad_norm": 0.12570120193815287,
	"learning_rate": 0.00019865190756284467,
	"loss": 0.1333,
	"step": 85
	},
	{
	"epoch": 0.2991304347826087,
	"grad_norm": 0.12595056424947598,
	"learning_rate": 0.0001985504460373903,
	"loss": 0.1092,
	"step": 86
	},
	{
	"epoch": 0.3026086956521739,
	"grad_norm": 0.13479356357232541,
	"learning_rate": 0.0001984453314452955,
	"loss": 0.1478,
	"step": 87
	},
	{
	"epoch": 0.3060869565217391,
	"grad_norm": 0.13307683198992498,
	"learning_rate": 0.00019833656768294662,
	"loss": 0.146,
	"step": 88
	},
	{
	"epoch": 0.3095652173913043,
	"grad_norm": 0.14686125301552883,
	"learning_rate": 0.0001982241587819974,
	"loss": 0.1285,
	"step": 89
	},
	{
	"epoch": 0.3130434782608696,
	"grad_norm": 0.12720833595582368,
	"learning_rate": 0.00019810810890921943,
	"loss": 0.1437,
	"step": 90
	},
	{
	"epoch": 0.3165217391304348,
	"grad_norm": 0.13968930311918126,
	"learning_rate": 0.00019798842236634797,
	"loss": 0.1291,
	"step": 91
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.16133982393912974,
	"learning_rate": 0.00019786510358992213,
	"loss": 0.2008,
	"step": 92
	},
	{
	"epoch": 0.3234782608695652,
	"grad_norm": 0.1266301495042648,
	"learning_rate": 0.00019773815715112074,
	"loss": 0.1372,
	"step": 93
	},
	{
	"epoch": 0.3269565217391304,
	"grad_norm": 0.12427333520991247,
	"learning_rate": 0.00019760758775559274,
	"loss": 0.1432,
	"step": 94
	},
	{
	"epoch": 0.33043478260869563,
	"grad_norm": 0.13028439018276217,
	"learning_rate": 0.0001974734002432827,
	"loss": 0.1354,
	"step": 95
	},
	{
	"epoch": 0.3339130434782609,
	"grad_norm": 0.13268075146491365,
	"learning_rate": 0.00019733559958825167,
	"loss": 0.1189,
	"step": 96
	},
	{
	"epoch": 0.3373913043478261,
	"grad_norm": 0.2048660606818272,
	"learning_rate": 0.00019719419089849247,
	"loss": 0.1566,
	"step": 97
	},
	{
	"epoch": 0.3408695652173913,
	"grad_norm": 0.11124284248033606,
	"learning_rate": 0.00019704917941574051,
	"loss": 0.1299,
	"step": 98
	},
	{
	"epoch": 0.3443478260869565,
	"grad_norm": 0.1415128364022893,
	"learning_rate": 0.00019690057051527965,
	"loss": 0.1396,
	"step": 99
	},
	{
	"epoch": 0.34782608695652173,
	"grad_norm": 0.10665529705089029,
	"learning_rate": 0.00019674836970574254,
	"loss": 0.1314,
	"step": 100
	},
	{
	"epoch": 0.35130434782608694,
	"grad_norm": 0.14169554362167064,
	"learning_rate": 0.00019659258262890683,
	"loss": 0.1281,
	"step": 101
	},
	{
	"epoch": 0.35478260869565215,
	"grad_norm": 0.16648182361835823,
	"learning_rate": 0.00019643321505948585,
	"loss": 0.1511,
	"step": 102
	},
	{
	"epoch": 0.3582608695652174,
	"grad_norm": 0.15512935363008726,
	"learning_rate": 0.00019627027290491458,
	"loss": 0.1362,
	"step": 103
	},
	{
	"epoch": 0.3617391304347826,
	"grad_norm": 0.14829391492240007,
	"learning_rate": 0.00019610376220513068,
	"loss": 0.16,
	"step": 104
	},
	{
	"epoch": 0.3652173913043478,
	"grad_norm": 0.1721382097621375,
	"learning_rate": 0.00019593368913235052,
	"loss": 0.1927,
	"step": 105
	},
	{
	"epoch": 0.36869565217391304,
	"grad_norm": 0.1073039991014123,
	"learning_rate": 0.0001957600599908406,
	"loss": 0.1077,
	"step": 106
	},
	{
	"epoch": 0.37217391304347824,
	"grad_norm": 0.1765959958499992,
	"learning_rate": 0.00019558288121668363,
	"loss": 0.1679,
	"step": 107
	},
	{
	"epoch": 0.37565217391304345,
	"grad_norm": 0.13247232361226763,
	"learning_rate": 0.00019540215937754007,
	"loss": 0.1201,
	"step": 108
	},
	{
	"epoch": 0.3791304347826087,
	"grad_norm": 0.13402863250728775,
	"learning_rate": 0.0001952179011724047,
	"loss": 0.1331,
	"step": 109
	},
	{
	"epoch": 0.3826086956521739,
	"grad_norm": 0.15379139900705738,
	"learning_rate": 0.00019503011343135825,
	"loss": 0.1507,
	"step": 110
	},
	{
	"epoch": 0.38608695652173913,
	"grad_norm": 0.12569941197730944,
	"learning_rate": 0.00019483880311531424,
	"loss": 0.1245,
	"step": 111
	},
	{
	"epoch": 0.38956521739130434,
	"grad_norm": 0.13176534371798201,
	"learning_rate": 0.00019464397731576094,
	"loss": 0.1346,
	"step": 112
	},
	{
	"epoch": 0.39304347826086955,
	"grad_norm": 0.1308496741778078,
	"learning_rate": 0.00019444564325449853,
	"loss": 0.1528,
	"step": 113
	},
	{
	"epoch": 0.39652173913043476,
	"grad_norm": 0.11662685828907265,
	"learning_rate": 0.00019424380828337144,
	"loss": 0.1042,
	"step": 114
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.15311025163121064,
	"learning_rate": 0.0001940384798839957,
	"loss": 0.124,
	"step": 115
	},
	{
	"epoch": 0.40347826086956523,
	"grad_norm": 0.14271720010282954,
	"learning_rate": 0.00019382966566748168,
	"loss": 0.1385,
	"step": 116
	},
	{
	"epoch": 0.40695652173913044,
	"grad_norm": 0.21076081706460564,
	"learning_rate": 0.00019361737337415206,
	"loss": 0.2177,
	"step": 117
	},
	{
	"epoch": 0.41043478260869565,
	"grad_norm": 0.1326954013355056,
	"learning_rate": 0.0001934016108732548,
	"loss": 0.1491,
	"step": 118
	},
	{
	"epoch": 0.41391304347826086,
	"grad_norm": 0.10972822431140547,
	"learning_rate": 0.00019318238616267141,
	"loss": 0.1135,
	"step": 119
	},
	{
	"epoch": 0.41739130434782606,
	"grad_norm": 0.11664553001228962,
	"learning_rate": 0.00019295970736862064,
	"loss": 0.1335,
	"step": 120
	},
	{
	"epoch": 0.42086956521739133,
	"grad_norm": 0.12037673410124465,
	"learning_rate": 0.00019273358274535704,
	"loss": 0.0989,
	"step": 121
	},
	{
	"epoch": 0.42434782608695654,
	"grad_norm": 0.13278062849114713,
	"learning_rate": 0.00019250402067486522,
	"loss": 0.1328,
	"step": 122
	},
	{
	"epoch": 0.42782608695652175,
	"grad_norm": 0.13381559738712595,
	"learning_rate": 0.00019227102966654896,
	"loss": 0.1296,
	"step": 123
	},
	{
	"epoch": 0.43130434782608695,
	"grad_norm": 0.1646662488521753,
	"learning_rate": 0.00019203461835691594,
	"loss": 0.1581,
	"step": 124
	},
	{
	"epoch": 0.43478260869565216,
	"grad_norm": 0.15934887298251812,
	"learning_rate": 0.00019179479550925747,
	"loss": 0.1627,
	"step": 125
	},
	{
	"epoch": 0.43826086956521737,
	"grad_norm": 0.1410826901549644,
	"learning_rate": 0.00019155157001332374,
	"loss": 0.1789,
	"step": 126
	},
	{
	"epoch": 0.44173913043478263,
	"grad_norm": 0.16699816673214457,
	"learning_rate": 0.0001913049508849942,
	"loss": 0.1608,
	"step": 127
	},
	{
	"epoch": 0.44521739130434784,
	"grad_norm": 0.11736817608666682,
	"learning_rate": 0.00019105494726594344,
	"loss": 0.1387,
	"step": 128
	},
	{
	"epoch": 0.44869565217391305,
	"grad_norm": 0.13490354839004873,
	"learning_rate": 0.00019080156842330242,
	"loss": 0.1355,
	"step": 129
	},
	{
	"epoch": 0.45217391304347826,
	"grad_norm": 0.166052611822799,
	"learning_rate": 0.00019054482374931467,
	"loss": 0.1628,
	"step": 130
	},
	{
	"epoch": 0.45565217391304347,
	"grad_norm": 0.10962794054522577,
	"learning_rate": 0.00019028472276098844,
	"loss": 0.1109,
	"step": 131
	},
	{
	"epoch": 0.4591304347826087,
	"grad_norm": 0.10757925577294936,
	"learning_rate": 0.00019002127509974376,
	"loss": 0.1124,
	"step": 132
	},
	{
	"epoch": 0.46260869565217394,
	"grad_norm": 0.14061789137211347,
	"learning_rate": 0.00018975449053105505,
	"loss": 0.1445,
	"step": 133
	},
	{
	"epoch": 0.46608695652173915,
	"grad_norm": 0.1096963245848753,
	"learning_rate": 0.00018948437894408918,
	"loss": 0.1265,
	"step": 134
	},
	{
	"epoch": 0.46956521739130436,
	"grad_norm": 0.12314690150275322,
	"learning_rate": 0.00018921095035133898,
	"loss": 0.1202,
	"step": 135
	},
	{
	"epoch": 0.47304347826086957,
	"grad_norm": 0.1779920573282376,
	"learning_rate": 0.0001889342148882519,
	"loss": 0.1997,
	"step": 136
	},
	{
	"epoch": 0.4765217391304348,
	"grad_norm": 0.13319522745287313,
	"learning_rate": 0.00018865418281285444,
	"loss": 0.1402,
	"step": 137
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.12083080356885761,
	"learning_rate": 0.00018837086450537193,
	"loss": 0.1238,
	"step": 138
	},
	{
	"epoch": 0.4834782608695652,
	"grad_norm": 0.1582932839712108,
	"learning_rate": 0.00018808427046784366,
	"loss": 0.1499,
	"step": 139
	},
	{
	"epoch": 0.48695652173913045,
	"grad_norm": 0.14876994205070418,
	"learning_rate": 0.00018779441132373362,
	"loss": 0.1557,
	"step": 140
	},
	{
	"epoch": 0.49043478260869566,
	"grad_norm": 0.17699025587530975,
	"learning_rate": 0.0001875012978175368,
	"loss": 0.1967,
	"step": 141
	},
	{
	"epoch": 0.49391304347826087,
	"grad_norm": 0.14037478538346934,
	"learning_rate": 0.00018720494081438078,
	"loss": 0.1596,
	"step": 142
	},
	{
	"epoch": 0.4973913043478261,
	"grad_norm": 0.11128336848068965,
	"learning_rate": 0.00018690535129962306,
	"loss": 0.1013,
	"step": 143
	},
	{
	"epoch": 0.5008695652173913,
	"grad_norm": 0.15354451724868373,
	"learning_rate": 0.00018660254037844388,
	"loss": 0.1812,
	"step": 144
	},
	{
	"epoch": 0.5043478260869565,
	"grad_norm": 0.17621002427736646,
	"learning_rate": 0.00018629651927543447,
	"loss": 0.22,
	"step": 145
	},
	{
	"epoch": 0.5078260869565218,
	"grad_norm": 0.11412894846283952,
	"learning_rate": 0.000185987299334181,
	"loss": 0.1277,
	"step": 146
	},
	{
	"epoch": 0.5113043478260869,
	"grad_norm": 0.10330685267150483,
	"learning_rate": 0.0001856748920168443,
	"loss": 0.1149,
	"step": 147
	},
	{
	"epoch": 0.5147826086956522,
	"grad_norm": 0.16038774046228474,
	"learning_rate": 0.00018535930890373466,
	"loss": 0.1614,
	"step": 148
	},
	{
	"epoch": 0.5182608695652174,
	"grad_norm": 0.12341631086149,
	"learning_rate": 0.00018504056169288275,
	"loss": 0.1243,
	"step": 149
	},
	{
	"epoch": 0.5217391304347826,
	"grad_norm": 0.14222035267405325,
	"learning_rate": 0.00018471866219960602,
	"loss": 0.1591,
	"step": 150
	},
	{
	"epoch": 0.5252173913043479,
	"grad_norm": 0.15381954436682013,
	"learning_rate": 0.0001843936223560707,
	"loss": 0.1411,
	"step": 151
	},
	{
	"epoch": 0.528695652173913,
	"grad_norm": 0.16749949682456056,
	"learning_rate": 0.0001840654542108494,
	"loss": 0.173,
	"step": 152
	},
	{
	"epoch": 0.5321739130434783,
	"grad_norm": 0.16138212597769477,
	"learning_rate": 0.0001837341699284746,
	"loss": 0.1378,
	"step": 153
	},
	{
	"epoch": 0.5356521739130434,
	"grad_norm": 0.11820972909841256,
	"learning_rate": 0.0001833997817889878,
	"loss": 0.1415,
	"step": 154
	},
	{
	"epoch": 0.5391304347826087,
	"grad_norm": 0.1732254350869074,
	"learning_rate": 0.00018306230218748413,
	"loss": 0.1565,
	"step": 155
	},
	{
	"epoch": 0.542608695652174,
	"grad_norm": 0.12134029048709205,
	"learning_rate": 0.000182721743633653,
	"loss": 0.1354,
	"step": 156
	},
	{
	"epoch": 0.5460869565217391,
	"grad_norm": 0.15757519533817987,
	"learning_rate": 0.00018237811875131444,
	"loss": 0.1783,
	"step": 157
	},
	{
	"epoch": 0.5495652173913044,
	"grad_norm": 0.1389328342147638,
	"learning_rate": 0.0001820314402779511,
	"loss": 0.1373,
	"step": 158
	},
	{
	"epoch": 0.5530434782608695,
	"grad_norm": 0.13113073991864377,
	"learning_rate": 0.00018168172106423607,
	"loss": 0.1272,
	"step": 159
	},
	{
	"epoch": 0.5565217391304348,
	"grad_norm": 0.14093537485863689,
	"learning_rate": 0.00018132897407355657,
	"loss": 0.1364,
	"step": 160
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.1407116914405213,
	"learning_rate": 0.00018097321238153338,
	"loss": 0.1329,
	"step": 161
	},
	{
	"epoch": 0.5634782608695652,
	"grad_norm": 0.14535376492750982,
	"learning_rate": 0.00018061444917553629,
	"loss": 0.1692,
	"step": 162
	},
	{
	"epoch": 0.5669565217391305,
	"grad_norm": 0.14031883322639,
	"learning_rate": 0.00018025269775419507,
	"loss": 0.1356,
	"step": 163
	},
	{
	"epoch": 0.5704347826086956,
	"grad_norm": 0.1551541472991319,
	"learning_rate": 0.00017988797152690671,
	"loss": 0.148,
	"step": 164
	},
	{
	"epoch": 0.5739130434782609,
	"grad_norm": 0.16740550198996068,
	"learning_rate": 0.00017952028401333817,
	"loss": 0.1643,
	"step": 165
	},
	{
	"epoch": 0.577391304347826,
	"grad_norm": 0.11979937989365573,
	"learning_rate": 0.00017914964884292544,
	"loss": 0.1282,
	"step": 166
	},
	{
	"epoch": 0.5808695652173913,
	"grad_norm": 0.11342656946095574,
	"learning_rate": 0.00017877607975436805,
	"loss": 0.1192,
	"step": 167
	},
	{
	"epoch": 0.5843478260869566,
	"grad_norm": 0.12812233079916055,
	"learning_rate": 0.00017839959059512016,
	"loss": 0.1513,
	"step": 168
	},
	{
	"epoch": 0.5878260869565217,
	"grad_norm": 0.12442713946144991,
	"learning_rate": 0.00017802019532087694,
	"loss": 0.1456,
	"step": 169
	},
	{
	"epoch": 0.591304347826087,
	"grad_norm": 0.13585627394105457,
	"learning_rate": 0.00017763790799505747,
	"loss": 0.155,
	"step": 170
	},
	{
	"epoch": 0.5947826086956521,
	"grad_norm": 0.10995274239294903,
	"learning_rate": 0.00017725274278828325,
	"loss": 0.1008,
	"step": 171
	},
	{
	"epoch": 0.5982608695652174,
	"grad_norm": 0.13574783390341455,
	"learning_rate": 0.0001768647139778532,
	"loss": 0.1766,
	"step": 172
	},
	{
	"epoch": 0.6017391304347826,
	"grad_norm": 0.12560446559496083,
	"learning_rate": 0.00017647383594721416,
	"loss": 0.1378,
	"step": 173
	},
	{
	"epoch": 0.6052173913043478,
	"grad_norm": 0.24726328454376442,
	"learning_rate": 0.0001760801231854278,
	"loss": 0.2,
	"step": 174
	},
	{
	"epoch": 0.6086956521739131,
	"grad_norm": 0.1300492912908485,
	"learning_rate": 0.00017568359028663364,
	"loss": 0.1353,
	"step": 175
	},
	{
	"epoch": 0.6121739130434782,
	"grad_norm": 0.12024702168048951,
	"learning_rate": 0.00017528425194950794,
	"loss": 0.1346,
	"step": 176
	},
	{
	"epoch": 0.6156521739130435,
	"grad_norm": 0.13400618019089086,
	"learning_rate": 0.000174882122976719,
	"loss": 0.147,
	"step": 177
	},
	{
	"epoch": 0.6191304347826087,
	"grad_norm": 0.10665251622268654,
	"learning_rate": 0.0001744772182743782,
	"loss": 0.1269,
	"step": 178
	},
	{
	"epoch": 0.6226086956521739,
	"grad_norm": 0.12190300959390951,
	"learning_rate": 0.00017406955285148782,
	"loss": 0.1263,
	"step": 179
	},
	{
	"epoch": 0.6260869565217392,
	"grad_norm": 0.08623960123094311,
	"learning_rate": 0.0001736591418193844,
	"loss": 0.1075,
	"step": 180
	},
	{
	"epoch": 0.6295652173913043,
	"grad_norm": 0.15899695178173323,
	"learning_rate": 0.00017324600039117863,
	"loss": 0.1335,
	"step": 181
	},
	{
	"epoch": 0.6330434782608696,
	"grad_norm": 0.12405567103892874,
	"learning_rate": 0.00017283014388119159,
	"loss": 0.1261,
	"step": 182
	},
	{
	"epoch": 0.6365217391304347,
	"grad_norm": 0.12227415658908525,
	"learning_rate": 0.000172411587704387,
	"loss": 0.1394,
	"step": 183
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.10299259784769293,
	"learning_rate": 0.0001719903473757996,
	"loss": 0.1179,
	"step": 184
	},
	{
	"epoch": 0.6434782608695652,
	"grad_norm": 0.18072288336432377,
	"learning_rate": 0.00017156643850996047,
	"loss": 0.1678,
	"step": 185
	},
	{
	"epoch": 0.6469565217391304,
	"grad_norm": 0.13931470098249313,
	"learning_rate": 0.0001711398768203178,
	"loss": 0.1468,
	"step": 186
	},
	{
	"epoch": 0.6504347826086957,
	"grad_norm": 0.142891653601056,
	"learning_rate": 0.00017071067811865476,
	"loss": 0.1699,
	"step": 187
	},
	{
	"epoch": 0.6539130434782608,
	"grad_norm": 0.1543203031358245,
	"learning_rate": 0.00017027885831450318,
	"loss": 0.163,
	"step": 188
	},
	{
	"epoch": 0.6573913043478261,
	"grad_norm": 0.08881257657108957,
	"learning_rate": 0.0001698444334145539,
	"loss": 0.0956,
	"step": 189
	},
	{
	"epoch": 0.6608695652173913,
	"grad_norm": 0.1437015724786564,
	"learning_rate": 0.0001694074195220634,
	"loss": 0.1531,
	"step": 190
	},
	{
	"epoch": 0.6643478260869565,
	"grad_norm": 0.15239548568770145,
	"learning_rate": 0.0001689678328362569,
	"loss": 0.1583,
	"step": 191
	},
	{
	"epoch": 0.6678260869565218,
	"grad_norm": 0.12999990256807817,
	"learning_rate": 0.00016852568965172791,
	"loss": 0.1241,
	"step": 192
	},
	{
	"epoch": 0.671304347826087,
	"grad_norm": 0.16058602233359284,
	"learning_rate": 0.00016808100635783423,
	"loss": 0.1901,
	"step": 193
	},
	{
	"epoch": 0.6747826086956522,
	"grad_norm": 0.09752013699351626,
	"learning_rate": 0.00016763379943809028,
	"loss": 0.1104,
	"step": 194
	},
	{
	"epoch": 0.6782608695652174,
	"grad_norm": 0.1171558354901818,
	"learning_rate": 0.00016718408546955636,
	"loss": 0.1393,
	"step": 195
	},
	{
	"epoch": 0.6817391304347826,
	"grad_norm": 0.12541030208785753,
	"learning_rate": 0.00016673188112222394,
	"loss": 0.1339,
	"step": 196
	},
	{
	"epoch": 0.6852173913043478,
	"grad_norm": 0.16378504667963803,
	"learning_rate": 0.00016627720315839784,
	"loss": 0.1896,
	"step": 197
	},
	{
	"epoch": 0.688695652173913,
	"grad_norm": 0.1254436356043883,
	"learning_rate": 0.0001658200684320748,
	"loss": 0.155,
	"step": 198
	},
	{
	"epoch": 0.6921739130434783,
	"grad_norm": 0.10926424609512125,
	"learning_rate": 0.00016536049388831894,
	"loss": 0.1333,
	"step": 199
	},
	{
	"epoch": 0.6956521739130435,
	"grad_norm": 0.12166335086653808,
	"learning_rate": 0.00016489849656263337,
	"loss": 0.1307,
	"step": 200
	},
	{
	"epoch": 0.6991304347826087,
	"grad_norm": 0.09726778569787221,
	"learning_rate": 0.00016443409358032887,
	"loss": 0.1093,
	"step": 201
	},
	{
	"epoch": 0.7026086956521739,
	"grad_norm": 0.18623972301385774,
	"learning_rate": 0.00016396730215588915,
	"loss": 0.1329,
	"step": 202
	},
	{
	"epoch": 0.7060869565217391,
	"grad_norm": 0.1036420764487769,
	"learning_rate": 0.00016349813959233255,
	"loss": 0.1066,
	"step": 203
	},
	{
	"epoch": 0.7095652173913043,
	"grad_norm": 0.15859483282291995,
	"learning_rate": 0.00016302662328057088,
	"loss": 0.1236,
	"step": 204
	},
	{
	"epoch": 0.7130434782608696,
	"grad_norm": 0.1352010399451213,
	"learning_rate": 0.00016255277069876454,
	"loss": 0.1556,
	"step": 205
	},
	{
	"epoch": 0.7165217391304348,
	"grad_norm": 0.0847816136200446,
	"learning_rate": 0.00016207659941167485,
	"loss": 0.1033,
	"step": 206
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.13868944339810388,
	"learning_rate": 0.00016159812707001282,
	"loss": 0.1583,
	"step": 207
	},
	{
	"epoch": 0.7234782608695652,
	"grad_norm": 0.11403894766591344,
	"learning_rate": 0.00016111737140978494,
	"loss": 0.1193,
	"step": 208
	},
	{
	"epoch": 0.7269565217391304,
	"grad_norm": 0.11921529189670015,
	"learning_rate": 0.00016063435025163569,
	"loss": 0.1272,
	"step": 209
	},
	{
	"epoch": 0.7304347826086957,
	"grad_norm": 0.16113792796352755,
	"learning_rate": 0.00016014908150018703,
	"loss": 0.1972,
	"step": 210
	},
	{
	"epoch": 0.7339130434782609,
	"grad_norm": 0.12349845734675136,
	"learning_rate": 0.00015966158314337472,
	"loss": 0.1462,
	"step": 211
	},
	{
	"epoch": 0.7373913043478261,
	"grad_norm": 0.1502644739489071,
	"learning_rate": 0.00015917187325178138,
	"loss": 0.1626,
	"step": 212
	},
	{
	"epoch": 0.7408695652173913,
	"grad_norm": 0.14447398546355603,
	"learning_rate": 0.00015867996997796685,
	"loss": 0.1653,
	"step": 213
	},
	{
	"epoch": 0.7443478260869565,
	"grad_norm": 0.13747896173823398,
	"learning_rate": 0.0001581858915557953,
	"loss": 0.1436,
	"step": 214
	},
	{
	"epoch": 0.7478260869565218,
	"grad_norm": 0.14978167508747187,
	"learning_rate": 0.00015768965629975914,
	"loss": 0.146,
	"step": 215
	},
	{
	"epoch": 0.7513043478260869,
	"grad_norm": 0.10530370902507546,
	"learning_rate": 0.0001571912826043003,
	"loss": 0.1067,
	"step": 216
	},
	{
	"epoch": 0.7547826086956522,
	"grad_norm": 0.15065236331393017,
	"learning_rate": 0.00015669078894312848,
	"loss": 0.1278,
	"step": 217
	},
	{
	"epoch": 0.7582608695652174,
	"grad_norm": 0.13038147931466645,
	"learning_rate": 0.00015618819386853606,
	"loss": 0.1363,
	"step": 218
	},
	{
	"epoch": 0.7617391304347826,
	"grad_norm": 0.12241560985671367,
	"learning_rate": 0.0001556835160107107,
	"loss": 0.1381,
	"step": 219
	},
	{
	"epoch": 0.7652173913043478,
	"grad_norm": 0.1032079433563102,
	"learning_rate": 0.0001551767740770446,
	"loss": 0.1329,
	"step": 220
	},
	{
	"epoch": 0.768695652173913,
	"grad_norm": 0.10420850780658172,
	"learning_rate": 0.00015466798685144113,
	"loss": 0.108,
	"step": 221
	},
	{
	"epoch": 0.7721739130434783,
	"grad_norm": 0.12440213702363168,
	"learning_rate": 0.00015415717319361847,
	"loss": 0.1378,
	"step": 222
	},
	{
	"epoch": 0.7756521739130435,
	"grad_norm": 0.1441063665454779,
	"learning_rate": 0.00015364435203841058,
	"loss": 0.1546,
	"step": 223
	},
	{
	"epoch": 0.7791304347826087,
	"grad_norm": 0.10283016985275265,
	"learning_rate": 0.00015312954239506533,
	"loss": 0.1398,
	"step": 224
	},
	{
	"epoch": 0.782608695652174,
	"grad_norm": 0.11879627421875508,
	"learning_rate": 0.0001526127633465398,
	"loss": 0.1394,
	"step": 225
	},
	{
	"epoch": 0.7860869565217391,
	"grad_norm": 0.1340444040194527,
	"learning_rate": 0.00015209403404879303,
	"loss": 0.1371,
	"step": 226
	},
	{
	"epoch": 0.7895652173913044,
	"grad_norm": 0.15078724481486633,
	"learning_rate": 0.00015157337373007578,
	"loss": 0.1626,
	"step": 227
	},
	{
	"epoch": 0.7930434782608695,
	"grad_norm": 0.14991040307874806,
	"learning_rate": 0.0001510508016902179,
	"loss": 0.1563,
	"step": 228
	},
	{
	"epoch": 0.7965217391304348,
	"grad_norm": 0.11713195212511589,
	"learning_rate": 0.00015052633729991294,
	"loss": 0.1372,
	"step": 229
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.10665559275288661,
	"learning_rate": 0.00015000000000000001,
	"loss": 0.1174,
	"step": 230
	},
	{
	"epoch": 0.8034782608695652,
	"grad_norm": 0.15701030356110557,
	"learning_rate": 0.00014947180930074326,
	"loss": 0.1575,
	"step": 231
	},
	{
	"epoch": 0.8069565217391305,
	"grad_norm": 0.11847918443040721,
	"learning_rate": 0.00014894178478110857,
	"loss": 0.1203,
	"step": 232
	},
	{
	"epoch": 0.8104347826086956,
	"grad_norm": 0.1285162400608025,
	"learning_rate": 0.0001484099460880379,
	"loss": 0.133,
	"step": 233
	},
	{
	"epoch": 0.8139130434782609,
	"grad_norm": 0.1512166257756219,
	"learning_rate": 0.00014787631293572092,
	"loss": 0.1584,
	"step": 234
	},
	{
	"epoch": 0.8173913043478261,
	"grad_norm": 0.1584657384276377,
	"learning_rate": 0.00014734090510486433,
	"loss": 0.176,
	"step": 235
	},
	{
	"epoch": 0.8208695652173913,
	"grad_norm": 0.10354148249587801,
	"learning_rate": 0.0001468037424419586,
	"loss": 0.1288,
	"step": 236
	},
	{
	"epoch": 0.8243478260869566,
	"grad_norm": 0.11214117311491091,
	"learning_rate": 0.0001462648448585423,
	"loss": 0.1221,
	"step": 237
	},
	{
	"epoch": 0.8278260869565217,
	"grad_norm": 0.14772445459512365,
	"learning_rate": 0.00014572423233046386,
	"loss": 0.1329,
	"step": 238
	},
	{
	"epoch": 0.831304347826087,
	"grad_norm": 0.14615479240284515,
	"learning_rate": 0.0001451819248971415,
	"loss": 0.1643,
	"step": 239
	},
	{
	"epoch": 0.8347826086956521,
	"grad_norm": 0.12753795686628652,
	"learning_rate": 0.00014463794266081993,
	"loss": 0.1557,
	"step": 240
	},
	{
	"epoch": 0.8382608695652174,
	"grad_norm": 0.13887522594093168,
	"learning_rate": 0.00014409230578582566,
	"loss": 0.1639,
	"step": 241
	},
	{
	"epoch": 0.8417391304347827,
	"grad_norm": 0.16912324583465613,
	"learning_rate": 0.00014354503449781912,
	"loss": 0.1688,
	"step": 242
	},
	{
	"epoch": 0.8452173913043478,
	"grad_norm": 0.09449246440948272,
	"learning_rate": 0.0001429961490830453,
	"loss": 0.0993,
	"step": 243
	},
	{
	"epoch": 0.8486956521739131,
	"grad_norm": 0.10550648117339549,
	"learning_rate": 0.00014244566988758152,
	"loss": 0.1356,
	"step": 244
	},
	{
	"epoch": 0.8521739130434782,
	"grad_norm": 0.10969662638776663,
	"learning_rate": 0.00014189361731658338,
	"loss": 0.1239,
	"step": 245
	},
	{
	"epoch": 0.8556521739130435,
	"grad_norm": 0.14808204518572862,
	"learning_rate": 0.00014134001183352832,
	"loss": 0.1579,
	"step": 246
	},
	{
	"epoch": 0.8591304347826086,
	"grad_norm": 0.13859857433183218,
	"learning_rate": 0.00014078487395945713,
	"loss": 0.1747,
	"step": 247
	},
	{
	"epoch": 0.8626086956521739,
	"grad_norm": 0.13502318508676295,
	"learning_rate": 0.00014022822427221324,
	"loss": 0.1558,
	"step": 248
	},
	{
	"epoch": 0.8660869565217392,
	"grad_norm": 0.11993193249652914,
	"learning_rate": 0.00013967008340567998,
	"loss": 0.1318,
	"step": 249
	},
	{
	"epoch": 0.8695652173913043,
	"grad_norm": 0.14432862128479182,
	"learning_rate": 0.0001391104720490156,
	"loss": 0.1718,
	"step": 250
	},
	{
	"epoch": 0.8730434782608696,
	"grad_norm": 0.10960589296514184,
	"learning_rate": 0.0001385494109458866,
	"loss": 0.1216,
	"step": 251
	},
	{
	"epoch": 0.8765217391304347,
	"grad_norm": 0.1444495982064661,
	"learning_rate": 0.00013798692089369855,
	"loss": 0.1511,
	"step": 252
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.14195714442676055,
	"learning_rate": 0.00013742302274282533,
	"loss": 0.164,
	"step": 253
	},
	{
	"epoch": 0.8834782608695653,
	"grad_norm": 0.15939971031248268,
	"learning_rate": 0.00013685773739583617,
	"loss": 0.1589,
	"step": 254
	},
	{
	"epoch": 0.8869565217391304,
	"grad_norm": 0.10567415705517683,
	"learning_rate": 0.00013629108580672094,
	"loss": 0.1006,
	"step": 255
	},
	{
	"epoch": 0.8904347826086957,
	"grad_norm": 0.12878257656430525,
	"learning_rate": 0.0001357230889801133,
	"loss": 0.1267,
	"step": 256
	},
	{
	"epoch": 0.8939130434782608,
	"grad_norm": 0.11395046485825466,
	"learning_rate": 0.0001351537679705121,
	"loss": 0.134,
	"step": 257
	},
	{
	"epoch": 0.8973913043478261,
	"grad_norm": 0.13632342342499126,
	"learning_rate": 0.00013458314388150114,
	"loss": 0.1598,
	"step": 258
	},
	{
	"epoch": 0.9008695652173913,
	"grad_norm": 0.16308025278021065,
	"learning_rate": 0.00013401123786496664,
	"loss": 0.2041,
	"step": 259
	},
	{
	"epoch": 0.9043478260869565,
	"grad_norm": 0.10241355755764081,
	"learning_rate": 0.00013343807112031327,
	"loss": 0.1081,
	"step": 260
	},
	{
	"epoch": 0.9078260869565218,
	"grad_norm": 0.1310395387251736,
	"learning_rate": 0.00013286366489367846,
	"loss": 0.158,
	"step": 261
	},
	{
	"epoch": 0.9113043478260869,
	"grad_norm": 0.13100096116141785,
	"learning_rate": 0.00013228804047714463,
	"loss": 0.1607,
	"step": 262
	},
	{
	"epoch": 0.9147826086956522,
	"grad_norm": 0.11969415969012737,
	"learning_rate": 0.00013171121920795014,
	"loss": 0.1308,
	"step": 263
	},
	{
	"epoch": 0.9182608695652174,
	"grad_norm": 0.1295097570140744,
	"learning_rate": 0.00013113322246769817,
	"loss": 0.1502,
	"step": 264
	},
	{
	"epoch": 0.9217391304347826,
	"grad_norm": 0.11814028103328439,
	"learning_rate": 0.00013055407168156437,
	"loss": 0.1241,
	"step": 265
	},
	{
	"epoch": 0.9252173913043479,
	"grad_norm": 0.11218111509954955,
	"learning_rate": 0.00012997378831750242,
	"loss": 0.1381,
	"step": 266
	},
	{
	"epoch": 0.928695652173913,
	"grad_norm": 0.12021997514568723,
	"learning_rate": 0.00012939239388544852,
	"loss": 0.1395,
	"step": 267
	},
	{
	"epoch": 0.9321739130434783,
	"grad_norm": 0.12114779793419364,
	"learning_rate": 0.00012880990993652377,
	"loss": 0.117,
	"step": 268
	},
	{
	"epoch": 0.9356521739130435,
	"grad_norm": 0.1690185626815269,
	"learning_rate": 0.00012822635806223557,
	"loss": 0.2055,
	"step": 269
	},
	{
	"epoch": 0.9391304347826087,
	"grad_norm": 0.10540099318141671,
	"learning_rate": 0.00012764175989367718,
	"loss": 0.1292,
	"step": 270
	},
	{
	"epoch": 0.9426086956521739,
	"grad_norm": 0.1123676795677547,
	"learning_rate": 0.00012705613710072575,
	"loss": 0.1401,
	"step": 271
	},
	{
	"epoch": 0.9460869565217391,
	"grad_norm": 0.12163076229024251,
	"learning_rate": 0.00012646951139123934,
	"loss": 0.1393,
	"step": 272
	},
	{
	"epoch": 0.9495652173913044,
	"grad_norm": 0.10635388207764115,
	"learning_rate": 0.00012588190451025207,
	"loss": 0.1192,
	"step": 273
	},
	{
	"epoch": 0.9530434782608695,
	"grad_norm": 0.1324746367162532,
	"learning_rate": 0.00012529333823916807,
	"loss": 0.1674,
	"step": 274
	},
	{
	"epoch": 0.9565217391304348,
	"grad_norm": 0.12690900530317173,
	"learning_rate": 0.00012470383439495416,
	"loss": 0.164,
	"step": 275
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.12178811089584775,
	"learning_rate": 0.0001241134148293311,
	"loss": 0.1472,
	"step": 276
	},
	{
	"epoch": 0.9634782608695652,
	"grad_norm": 0.09558226725121408,
	"learning_rate": 0.0001235221014279636,
	"loss": 0.1107,
	"step": 277
	},
	{
	"epoch": 0.9669565217391304,
	"grad_norm": 0.11947361537383715,
	"learning_rate": 0.00012292991610964903,
	"loss": 0.1454,
	"step": 278
	},
	{
	"epoch": 0.9704347826086956,
	"grad_norm": 0.09245448807939725,
	"learning_rate": 0.000122336880825505,
	"loss": 0.1063,
	"step": 279
	},
	{
	"epoch": 0.9739130434782609,
	"grad_norm": 0.12313564570662155,
	"learning_rate": 0.00012174301755815571,
	"loss": 0.1482,
	"step": 280
	},
	{
	"epoch": 0.9773913043478261,
	"grad_norm": 0.14222809451041388,
	"learning_rate": 0.00012114834832091691,
	"loss": 0.1905,
	"step": 281
	},
	{
	"epoch": 0.9808695652173913,
	"grad_norm": 0.10079732072591296,
	"learning_rate": 0.00012055289515698007,
	"loss": 0.1114,
	"step": 282
	},
	{
	"epoch": 0.9843478260869565,
	"grad_norm": 0.0893949612581931,
	"learning_rate": 0.00011995668013859529,
	"loss": 0.1057,
	"step": 283
	},
	{
	"epoch": 0.9878260869565217,
	"grad_norm": 0.0986410641315097,
	"learning_rate": 0.00011935972536625302,
	"loss": 0.111,
	"step": 284
	},
	{
	"epoch": 0.991304347826087,
	"grad_norm": 0.10054024829355615,
	"learning_rate": 0.00011876205296786493,
	"loss": 0.0972,
	"step": 285
	},
	{
	"epoch": 0.9947826086956522,
	"grad_norm": 0.12467802363495945,
	"learning_rate": 0.00011816368509794364,
	"loss": 0.147,
	"step": 286
	},
	{
	"epoch": 0.9982608695652174,
	"grad_norm": 0.08424816142149656,
	"learning_rate": 0.00011756464393678153,
	"loss": 0.103,
	"step": 287
	},
	{
	"epoch": 0.9982608695652174,
	"eval_loss": 0.1444740742444992,
	"eval_runtime": 52.3252,
	"eval_samples_per_second": 4.568,
	"eval_steps_per_second": 0.573,
	"step": 287
	},
	{
	"epoch": 1.0017391304347827,
	"grad_norm": 0.11878547881930412,
	"learning_rate": 0.00011696495168962847,
	"loss": 0.1385,
	"step": 288
	},
	{
	"epoch": 1.0052173913043478,
	"grad_norm": 0.09391887138015648,
	"learning_rate": 0.00011636463058586881,
	"loss": 0.0826,
	"step": 289
	},
	{
	"epoch": 1.008695652173913,
	"grad_norm": 0.1221171087699073,
	"learning_rate": 0.00011576370287819736,
	"loss": 0.1305,
	"step": 290
	},
	{
	"epoch": 1.0121739130434784,
	"grad_norm": 0.08852002687146088,
	"learning_rate": 0.0001151621908417945,
	"loss": 0.0893,
	"step": 291
	},
	{
	"epoch": 1.0156521739130435,
	"grad_norm": 0.11159916956566551,
	"learning_rate": 0.00011456011677350051,
	"loss": 0.1112,
	"step": 292
	},
	{
	"epoch": 1.0191304347826087,
	"grad_norm": 0.10003818148322566,
	"learning_rate": 0.000113957502990989,
	"loss": 0.091,
	"step": 293
	},
	{
	"epoch": 1.0226086956521738,
	"grad_norm": 0.16412668815167833,
	"learning_rate": 0.0001133543718319398,
	"loss": 0.0684,
	"step": 294
	},
	{
	"epoch": 1.0260869565217392,
	"grad_norm": 0.12591860799015855,
	"learning_rate": 0.0001127507456532108,
	"loss": 0.1155,
	"step": 295
	},
	{
	"epoch": 1.0295652173913044,
	"grad_norm": 0.09691052326677896,
	"learning_rate": 0.00011214664683000927,
	"loss": 0.0655,
	"step": 296
	},
	{
	"epoch": 1.0330434782608695,
	"grad_norm": 0.11401647857375072,
	"learning_rate": 0.00011154209775506241,
	"loss": 0.0819,
	"step": 297
	},
	{
	"epoch": 1.0365217391304349,
	"grad_norm": 0.12069848422212905,
	"learning_rate": 0.00011093712083778746,
	"loss": 0.0827,
	"step": 298
	},
	{
	"epoch": 1.04,
	"grad_norm": 0.11216573920077354,
	"learning_rate": 0.00011033173850346082,
	"loss": 0.0754,
	"step": 299
	},
	{
	"epoch": 1.0434782608695652,
	"grad_norm": 0.14906810717855873,
	"learning_rate": 0.0001097259731923869,
	"loss": 0.0888,
	"step": 300
	},
	{
	"epoch": 1.0469565217391303,
	"grad_norm": 0.17640102936065463,
	"learning_rate": 0.00010911984735906635,
	"loss": 0.0987,
	"step": 301
	},
	{
	"epoch": 1.0504347826086957,
	"grad_norm": 0.10731016230700624,
	"learning_rate": 0.00010851338347136357,
	"loss": 0.0654,
	"step": 302
	},
	{
	"epoch": 1.0539130434782609,
	"grad_norm": 0.13955232812110846,
	"learning_rate": 0.000107906604009674,
	"loss": 0.0766,
	"step": 303
	},
	{
	"epoch": 1.057391304347826,
	"grad_norm": 0.13869916502517549,
	"learning_rate": 0.00010729953146609076,
	"loss": 0.0905,
	"step": 304
	},
	{
	"epoch": 1.0608695652173914,
	"grad_norm": 0.16180614723177286,
	"learning_rate": 0.00010669218834357091,
	"loss": 0.1025,
	"step": 305
	},
	{
	"epoch": 1.0643478260869565,
	"grad_norm": 0.09389888673848854,
	"learning_rate": 0.00010608459715510139,
	"loss": 0.0613,
	"step": 306
	},
	{
	"epoch": 1.0678260869565217,
	"grad_norm": 0.11083339472481404,
	"learning_rate": 0.00010547678042286436,
	"loss": 0.0705,
	"step": 307
	},
	{
	"epoch": 1.0713043478260869,
	"grad_norm": 0.15345557779758465,
	"learning_rate": 0.00010486876067740252,
	"loss": 0.0878,
	"step": 308
	},
	{
	"epoch": 1.0747826086956522,
	"grad_norm": 0.12649607806775048,
	"learning_rate": 0.00010426056045678376,
	"loss": 0.0879,
	"step": 309
	},
	{
	"epoch": 1.0782608695652174,
	"grad_norm": 0.14680466140336335,
	"learning_rate": 0.0001036522023057659,
	"loss": 0.0958,
	"step": 310
	},
	{
	"epoch": 1.0817391304347825,
	"grad_norm": 0.11612953696390602,
	"learning_rate": 0.0001030437087749609,
	"loss": 0.0736,
	"step": 311
	},
	{
	"epoch": 1.085217391304348,
	"grad_norm": 0.11879942840457153,
	"learning_rate": 0.00010243510241999899,
	"loss": 0.0723,
	"step": 312
	},
	{
	"epoch": 1.088695652173913,
	"grad_norm": 0.13060110667263794,
	"learning_rate": 0.0001018264058006925,
	"loss": 0.0935,
	"step": 313
	},
	{
	"epoch": 1.0921739130434782,
	"grad_norm": 0.14907408553806142,
	"learning_rate": 0.00010121764148019976,
	"loss": 0.1067,
	"step": 314
	},
	{
	"epoch": 1.0956521739130434,
	"grad_norm": 0.09945695753413593,
	"learning_rate": 0.00010060883202418862,
	"loss": 0.0717,
	"step": 315
	},
	{
	"epoch": 1.0991304347826087,
	"grad_norm": 0.14172732221333895,
	"learning_rate": 0.0001,
	"loss": 0.0965,
	"step": 316
	},
	{
	"epoch": 1.102608695652174,
	"grad_norm": 0.1308399790176956,
	"learning_rate": 9.93911679758114e-05,
	"loss": 0.1035,
	"step": 317
	},
	{
	"epoch": 1.106086956521739,
	"grad_norm": 0.11697945837103665,
	"learning_rate": 9.878235851980025e-05,
	"loss": 0.0904,
	"step": 318
	},
	{
	"epoch": 1.1095652173913044,
	"grad_norm": 0.12653991847887303,
	"learning_rate": 9.817359419930751e-05,
	"loss": 0.0856,
	"step": 319
	},
	{
	"epoch": 1.1130434782608696,
	"grad_norm": 0.1217289403364997,
	"learning_rate": 9.756489758000105e-05,
	"loss": 0.0868,
	"step": 320
	},
	{
	"epoch": 1.1165217391304347,
	"grad_norm": 0.11310356101526439,
	"learning_rate": 9.69562912250391e-05,
	"loss": 0.0866,
	"step": 321
	},
	{
	"epoch": 1.12,
	"grad_norm": 0.10719359269477195,
	"learning_rate": 9.63477976942341e-05,
	"loss": 0.0716,
	"step": 322
	},
	{
	"epoch": 1.1234782608695653,
	"grad_norm": 0.1512816323423573,
	"learning_rate": 9.573943954321626e-05,
	"loss": 0.104,
	"step": 323
	},
	{
	"epoch": 1.1269565217391304,
	"grad_norm": 0.09749679838740939,
	"learning_rate": 9.513123932259751e-05,
	"loss": 0.0767,
	"step": 324
	},
	{
	"epoch": 1.1304347826086956,
	"grad_norm": 0.12636925131896773,
	"learning_rate": 9.452321957713564e-05,
	"loss": 0.0874,
	"step": 325
	},
	{
	"epoch": 1.133913043478261,
	"grad_norm": 0.08724868085956655,
	"learning_rate": 9.391540284489862e-05,
	"loss": 0.0675,
	"step": 326
	},
	{
	"epoch": 1.137391304347826,
	"grad_norm": 0.09917562166921519,
	"learning_rate": 9.330781165642907e-05,
	"loss": 0.0835,
	"step": 327
	},
	{
	"epoch": 1.1408695652173912,
	"grad_norm": 0.11005238071063954,
	"learning_rate": 9.270046853390925e-05,
	"loss": 0.0926,
	"step": 328
	},
	{
	"epoch": 1.1443478260869564,
	"grad_norm": 0.13592915315342272,
	"learning_rate": 9.209339599032601e-05,
	"loss": 0.0921,
	"step": 329
	},
	{
	"epoch": 1.1478260869565218,
	"grad_norm": 0.09959026553962852,
	"learning_rate": 9.148661652863642e-05,
	"loss": 0.0669,
	"step": 330
	},
	{
	"epoch": 1.151304347826087,
	"grad_norm": 0.12926733392574546,
	"learning_rate": 9.088015264093365e-05,
	"loss": 0.0882,
	"step": 331
	},
	{
	"epoch": 1.154782608695652,
	"grad_norm": 0.12554624045521445,
	"learning_rate": 9.027402680761309e-05,
	"loss": 0.0988,
	"step": 332
	},
	{
	"epoch": 1.1582608695652175,
	"grad_norm": 0.1672440454873292,
	"learning_rate": 8.966826149653923e-05,
	"loss": 0.1213,
	"step": 333
	},
	{
	"epoch": 1.1617391304347826,
	"grad_norm": 0.11985957465820539,
	"learning_rate": 8.906287916221259e-05,
	"loss": 0.0868,
	"step": 334
	},
	{
	"epoch": 1.1652173913043478,
	"grad_norm": 0.1272151243776101,
	"learning_rate": 8.845790224493763e-05,
	"loss": 0.0936,
	"step": 335
	},
	{
	"epoch": 1.1686956521739131,
	"grad_norm": 0.1328045736153317,
	"learning_rate": 8.785335316999078e-05,
	"loss": 0.1051,
	"step": 336
	},
	{
	"epoch": 1.1721739130434783,
	"grad_norm": 0.09448312790900673,
	"learning_rate": 8.724925434678923e-05,
	"loss": 0.0735,
	"step": 337
	},
	{
	"epoch": 1.1756521739130434,
	"grad_norm": 0.13775516158820159,
	"learning_rate": 8.664562816806022e-05,
	"loss": 0.0826,
	"step": 338
	},
	{
	"epoch": 1.1791304347826088,
	"grad_norm": 0.095050504784669,
	"learning_rate": 8.604249700901101e-05,
	"loss": 0.0606,
	"step": 339
	},
	{
	"epoch": 1.182608695652174,
	"grad_norm": 0.10883208791380891,
	"learning_rate": 8.543988322649954e-05,
	"loss": 0.0776,
	"step": 340
	},
	{
	"epoch": 1.1860869565217391,
	"grad_norm": 0.1432959854298642,
	"learning_rate": 8.483780915820553e-05,
	"loss": 0.105,
	"step": 341
	},
	{
	"epoch": 1.1895652173913043,
	"grad_norm": 0.1934560716364753,
	"learning_rate": 8.423629712180265e-05,
	"loss": 0.1167,
	"step": 342
	},
	{
	"epoch": 1.1930434782608696,
	"grad_norm": 0.14737287305329302,
	"learning_rate": 8.363536941413121e-05,
	"loss": 0.0952,
	"step": 343
	},
	{
	"epoch": 1.1965217391304348,
	"grad_norm": 0.1535547643880873,
	"learning_rate": 8.303504831037154e-05,
	"loss": 0.1146,
	"step": 344
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.15481576726903015,
	"learning_rate": 8.243535606321848e-05,
	"loss": 0.1088,
	"step": 345
	},
	{
	"epoch": 1.203478260869565,
	"grad_norm": 0.1589929120048658,
	"learning_rate": 8.183631490205637e-05,
	"loss": 0.1288,
	"step": 346
	},
	{
	"epoch": 1.2069565217391305,
	"grad_norm": 0.12926833828040588,
	"learning_rate": 8.12379470321351e-05,
	"loss": 0.0779,
	"step": 347
	},
	{
	"epoch": 1.2104347826086956,
	"grad_norm": 0.10432967192535712,
	"learning_rate": 8.064027463374702e-05,
	"loss": 0.0733,
	"step": 348
	},
	{
	"epoch": 1.2139130434782608,
	"grad_norm": 0.1423904166119135,
	"learning_rate": 8.004331986140474e-05,
	"loss": 0.097,
	"step": 349
	},
	{
	"epoch": 1.2173913043478262,
	"grad_norm": 0.16415634432026194,
	"learning_rate": 7.944710484301995e-05,
	"loss": 0.1044,
	"step": 350
	},
	{
	"epoch": 1.2208695652173913,
	"grad_norm": 0.14367056293640723,
	"learning_rate": 7.88516516790831e-05,
	"loss": 0.108,
	"step": 351
	},
	{
	"epoch": 1.2243478260869565,
	"grad_norm": 0.09627642646890802,
	"learning_rate": 7.825698244184431e-05,
	"loss": 0.0716,
	"step": 352
	},
	{
	"epoch": 1.2278260869565218,
	"grad_norm": 0.12349504031653168,
	"learning_rate": 7.766311917449501e-05,
	"loss": 0.0846,
	"step": 353
	},
	{
	"epoch": 1.231304347826087,
	"grad_norm": 0.11917707968673376,
	"learning_rate": 7.707008389035101e-05,
	"loss": 0.0893,
	"step": 354
	},
	{
	"epoch": 1.2347826086956522,
	"grad_norm": 0.14958731827081473,
	"learning_rate": 7.647789857203645e-05,
	"loss": 0.1005,
	"step": 355
	},
	{
	"epoch": 1.2382608695652173,
	"grad_norm": 0.09807418540274827,
	"learning_rate": 7.588658517066892e-05,
	"loss": 0.0777,
	"step": 356
	},
	{
	"epoch": 1.2417391304347827,
	"grad_norm": 0.13031128610452009,
	"learning_rate": 7.529616560504585e-05,
	"loss": 0.0877,
	"step": 357
	},
	{
	"epoch": 1.2452173913043478,
	"grad_norm": 0.15458552977098033,
	"learning_rate": 7.470666176083192e-05,
	"loss": 0.1006,
	"step": 358
	},
	{
	"epoch": 1.248695652173913,
	"grad_norm": 0.10086297540969145,
	"learning_rate": 7.411809548974792e-05,
	"loss": 0.0771,
	"step": 359
	},
	{
	"epoch": 1.2521739130434781,
	"grad_norm": 0.10503599360725659,
	"learning_rate": 7.353048860876064e-05,
	"loss": 0.0699,
	"step": 360
	},
	{
	"epoch": 1.2556521739130435,
	"grad_norm": 0.11445411107296893,
	"learning_rate": 7.294386289927425e-05,
	"loss": 0.0878,
	"step": 361
	},
	{
	"epoch": 1.2591304347826087,
	"grad_norm": 0.09163778675554561,
	"learning_rate": 7.235824010632283e-05,
	"loss": 0.0774,
	"step": 362
	},
	{
	"epoch": 1.2626086956521738,
	"grad_norm": 0.12753545759992949,
	"learning_rate": 7.177364193776441e-05,
	"loss": 0.0891,
	"step": 363
	},
	{
	"epoch": 1.2660869565217392,
	"grad_norm": 0.10783034916975004,
	"learning_rate": 7.119009006347625e-05,
	"loss": 0.0727,
	"step": 364
	},
	{
	"epoch": 1.2695652173913043,
	"grad_norm": 0.12242485363979573,
	"learning_rate": 7.060760611455152e-05,
	"loss": 0.0628,
	"step": 365
	},
	{
	"epoch": 1.2730434782608695,
	"grad_norm": 0.0974356463850898,
	"learning_rate": 7.002621168249759e-05,
	"loss": 0.0791,
	"step": 366
	},
	{
	"epoch": 1.2765217391304349,
	"grad_norm": 0.11983018538507342,
	"learning_rate": 6.944592831843566e-05,
	"loss": 0.067,
	"step": 367
	},
	{
	"epoch": 1.28,
	"grad_norm": 0.1364747598273945,
	"learning_rate": 6.886677753230184e-05,
	"loss": 0.0905,
	"step": 368
	},
	{
	"epoch": 1.2834782608695652,
	"grad_norm": 0.13965549240604952,
	"learning_rate": 6.82887807920499e-05,
	"loss": 0.0965,
	"step": 369
	},
	{
	"epoch": 1.2869565217391306,
	"grad_norm": 0.1361838338173524,
	"learning_rate": 6.77119595228554e-05,
	"loss": 0.0884,
	"step": 370
	},
	{
	"epoch": 1.2904347826086957,
	"grad_norm": 0.1554086553741736,
	"learning_rate": 6.713633510632157e-05,
	"loss": 0.1058,
	"step": 371
	},
	{
	"epoch": 1.2939130434782609,
	"grad_norm": 0.13154153458769796,
	"learning_rate": 6.656192887968675e-05,
	"loss": 0.1069,
	"step": 372
	},
	{
	"epoch": 1.297391304347826,
	"grad_norm": 0.12317336873376321,
	"learning_rate": 6.598876213503339e-05,
	"loss": 0.0855,
	"step": 373
	},
	{
	"epoch": 1.3008695652173912,
	"grad_norm": 0.12111523304638382,
	"learning_rate": 6.541685611849887e-05,
	"loss": 0.0796,
	"step": 374
	},
	{
	"epoch": 1.3043478260869565,
	"grad_norm": 0.11822393281008113,
	"learning_rate": 6.484623202948789e-05,
	"loss": 0.0678,
	"step": 375
	},
	{
	"epoch": 1.3078260869565217,
	"grad_norm": 0.14902345594338023,
	"learning_rate": 6.427691101988673e-05,
	"loss": 0.095,
	"step": 376
	},
	{
	"epoch": 1.3113043478260868,
	"grad_norm": 0.1804018948634972,
	"learning_rate": 6.370891419327907e-05,
	"loss": 0.1282,
	"step": 377
	},
	{
	"epoch": 1.3147826086956522,
	"grad_norm": 0.11547994985396455,
	"learning_rate": 6.314226260416382e-05,
	"loss": 0.0794,
	"step": 378
	},
	{
	"epoch": 1.3182608695652174,
	"grad_norm": 0.13442398839445116,
	"learning_rate": 6.257697725717468e-05,
	"loss": 0.0828,
	"step": 379
	},
	{
	"epoch": 1.3217391304347825,
	"grad_norm": 0.16157920308299395,
	"learning_rate": 6.201307910630146e-05,
	"loss": 0.0862,
	"step": 380
	},
	{
	"epoch": 1.325217391304348,
	"grad_norm": 0.09483163105782791,
	"learning_rate": 6.145058905411343e-05,
	"loss": 0.0602,
	"step": 381
	},
	{
	"epoch": 1.328695652173913,
	"grad_norm": 0.1326696358587778,
	"learning_rate": 6.0889527950984416e-05,
	"loss": 0.081,
	"step": 382
	},
	{
	"epoch": 1.3321739130434782,
	"grad_norm": 0.09578653192083227,
	"learning_rate": 6.0329916594320054e-05,
	"loss": 0.0632,
	"step": 383
	},
	{
	"epoch": 1.3356521739130436,
	"grad_norm": 0.1445496359915367,
	"learning_rate": 5.977177572778678e-05,
	"loss": 0.1043,
	"step": 384
	},
	{
	"epoch": 1.3391304347826087,
	"grad_norm": 0.11696872605657838,
	"learning_rate": 5.921512604054289e-05,
	"loss": 0.075,
	"step": 385
	},
	{
	"epoch": 1.342608695652174,
	"grad_norm": 0.10474941138685831,
	"learning_rate": 5.865998816647171e-05,
	"loss": 0.0808,
	"step": 386
	},
	{
	"epoch": 1.3460869565217393,
	"grad_norm": 0.12195030923899196,
	"learning_rate": 5.8106382683416635e-05,
	"loss": 0.0906,
	"step": 387
	},
	{
	"epoch": 1.3495652173913044,
	"grad_norm": 0.1247261310171403,
	"learning_rate": 5.755433011241851e-05,
	"loss": 0.0799,
	"step": 388
	},
	{
	"epoch": 1.3530434782608696,
	"grad_norm": 0.12001527150963033,
	"learning_rate": 5.7003850916954705e-05,
	"loss": 0.0737,
	"step": 389
	},
	{
	"epoch": 1.3565217391304347,
	"grad_norm": 0.12921970865724472,
	"learning_rate": 5.645496550218089e-05,
	"loss": 0.0802,
	"step": 390
	},
	{
	"epoch": 1.3599999999999999,
	"grad_norm": 0.14148810186262428,
	"learning_rate": 5.5907694214174344e-05,
	"loss": 0.0998,
	"step": 391
	},
	{
	"epoch": 1.3634782608695653,
	"grad_norm": 0.1822115264684952,
	"learning_rate": 5.536205733918007e-05,
	"loss": 0.1139,
	"step": 392
	},
	{
	"epoch": 1.3669565217391304,
	"grad_norm": 0.11275316954836014,
	"learning_rate": 5.4818075102858526e-05,
	"loss": 0.0839,
	"step": 393
	},
	{
	"epoch": 1.3704347826086956,
	"grad_norm": 0.1049274592340904,
	"learning_rate": 5.4275767669536146e-05,
	"loss": 0.078,
	"step": 394
	},
	{
	"epoch": 1.373913043478261,
	"grad_norm": 0.1275403647919897,
	"learning_rate": 5.373515514145772e-05,
	"loss": 0.0882,
	"step": 395
	},
	{
	"epoch": 1.377391304347826,
	"grad_norm": 0.1414442736987841,
	"learning_rate": 5.3196257558041386e-05,
	"loss": 0.0905,
	"step": 396
	},
	{
	"epoch": 1.3808695652173912,
	"grad_norm": 0.1647573834843455,
	"learning_rate": 5.265909489513567e-05,
	"loss": 0.0868,
	"step": 397
	},
	{
	"epoch": 1.3843478260869566,
	"grad_norm": 0.14978728162298646,
	"learning_rate": 5.212368706427912e-05,
	"loss": 0.0967,
	"step": 398
	},
	{
	"epoch": 1.3878260869565218,
	"grad_norm": 0.13582863247078658,
	"learning_rate": 5.159005391196213e-05,
	"loss": 0.0888,
	"step": 399
	},
	{
	"epoch": 1.391304347826087,
	"grad_norm": 0.11281045642311609,
	"learning_rate": 5.105821521889147e-05,
	"loss": 0.0899,
	"step": 400
	},
	{
	"epoch": 1.3947826086956523,
	"grad_norm": 0.1525391794429011,
	"learning_rate": 5.052819069925676e-05,
	"loss": 0.1121,
	"step": 401
	},
	{
	"epoch": 1.3982608695652174,
	"grad_norm": 0.10553540876961562,
	"learning_rate": 5.000000000000002e-05,
	"loss": 0.0667,
	"step": 402
	},
	{
	"epoch": 1.4017391304347826,
	"grad_norm": 0.14272542918507544,
	"learning_rate": 4.947366270008707e-05,
	"loss": 0.1049,
	"step": 403
	},
	{
	"epoch": 1.4052173913043478,
	"grad_norm": 0.11523131534313182,
	"learning_rate": 4.894919830978212e-05,
	"loss": 0.083,
	"step": 404
	},
	{
	"epoch": 1.4086956521739131,
	"grad_norm": 0.11250758245733375,
	"learning_rate": 4.8426626269924266e-05,
	"loss": 0.0822,
	"step": 405
	},
	{
	"epoch": 1.4121739130434783,
	"grad_norm": 0.13451779717959741,
	"learning_rate": 4.790596595120699e-05,
	"loss": 0.0967,
	"step": 406
	},
	{
	"epoch": 1.4156521739130434,
	"grad_norm": 0.17014026695649226,
	"learning_rate": 4.738723665346021e-05,
	"loss": 0.0952,
	"step": 407
	},
	{
	"epoch": 1.4191304347826086,
	"grad_norm": 0.11335400231382785,
	"learning_rate": 4.687045760493468e-05,
	"loss": 0.0765,
	"step": 408
	},
	{
	"epoch": 1.422608695652174,
	"grad_norm": 0.13153029025610707,
	"learning_rate": 4.635564796158945e-05,
	"loss": 0.0942,
	"step": 409
	},
	{
	"epoch": 1.4260869565217391,
	"grad_norm": 0.14072727769903307,
	"learning_rate": 4.5842826806381544e-05,
	"loss": 0.1033,
	"step": 410
	},
	{
	"epoch": 1.4295652173913043,
	"grad_norm": 0.19021079673592267,
	"learning_rate": 4.533201314855891e-05,
	"loss": 0.0908,
	"step": 411
	},
	{
	"epoch": 1.4330434782608696,
	"grad_norm": 0.1282315437032552,
	"learning_rate": 4.48232259229554e-05,
	"loss": 0.0923,
	"step": 412
	},
	{
	"epoch": 1.4365217391304348,
	"grad_norm": 0.10482566251391306,
	"learning_rate": 4.431648398928933e-05,
	"loss": 0.0769,
	"step": 413
	},
	{
	"epoch": 1.44,
	"grad_norm": 0.0989285401022153,
	"learning_rate": 4.381180613146395e-05,
	"loss": 0.0627,
	"step": 414
	},
	{
	"epoch": 1.4434782608695653,
	"grad_norm": 0.15004726013623923,
	"learning_rate": 4.3309211056871546e-05,
	"loss": 0.107,
	"step": 415
	},
	{
	"epoch": 1.4469565217391305,
	"grad_norm": 0.10917064763259954,
	"learning_rate": 4.280871739569972e-05,
	"loss": 0.0723,
	"step": 416
	},
	{
	"epoch": 1.4504347826086956,
	"grad_norm": 0.14217337210991582,
	"learning_rate": 4.231034370024088e-05,
	"loss": 0.0876,
	"step": 417
	},
	{
	"epoch": 1.453913043478261,
	"grad_norm": 0.12259499737310682,
	"learning_rate": 4.181410844420474e-05,
	"loss": 0.072,
	"step": 418
	},
	{
	"epoch": 1.4573913043478262,
	"grad_norm": 0.1383064965783125,
	"learning_rate": 4.132003002203314e-05,
	"loss": 0.1001,
	"step": 419
	},
	{
	"epoch": 1.4608695652173913,
	"grad_norm": 0.15628614353703477,
	"learning_rate": 4.0828126748218654e-05,
	"loss": 0.1024,
	"step": 420
	},
	{
	"epoch": 1.4643478260869565,
	"grad_norm": 0.15540806197515133,
	"learning_rate": 4.0338416856625294e-05,
	"loss": 0.1064,
	"step": 421
	},
	{
	"epoch": 1.4678260869565216,
	"grad_norm": 0.12867401972303838,
	"learning_rate": 3.985091849981297e-05,
	"loss": 0.0814,
	"step": 422
	},
	{
	"epoch": 1.471304347826087,
	"grad_norm": 0.10461015345788115,
	"learning_rate": 3.936564974836431e-05,
	"loss": 0.0551,
	"step": 423
	},
	{
	"epoch": 1.4747826086956521,
	"grad_norm": 0.17422707198524348,
	"learning_rate": 3.8882628590215074e-05,
	"loss": 0.1068,
	"step": 424
	},
	{
	"epoch": 1.4782608695652173,
	"grad_norm": 0.11823762504382565,
	"learning_rate": 3.840187292998717e-05,
	"loss": 0.0847,
	"step": 425
	},
	{
	"epoch": 1.4817391304347827,
	"grad_norm": 0.14190454091036495,
	"learning_rate": 3.7923400588325155e-05,
	"loss": 0.0985,
	"step": 426
	},
	{
	"epoch": 1.4852173913043478,
	"grad_norm": 0.1487917306625744,
	"learning_rate": 3.7447229301235445e-05,
	"loss": 0.0972,
	"step": 427
	},
	{
	"epoch": 1.488695652173913,
	"grad_norm": 0.11307811508469943,
	"learning_rate": 3.697337671942913e-05,
	"loss": 0.0769,
	"step": 428
	},
	{
	"epoch": 1.4921739130434784,
	"grad_norm": 0.12456291954504964,
	"learning_rate": 3.6501860407667465e-05,
	"loss": 0.0757,
	"step": 429
	},
	{
	"epoch": 1.4956521739130435,
	"grad_norm": 0.14812964550659216,
	"learning_rate": 3.60326978441109e-05,
	"loss": 0.1029,
	"step": 430
	},
	{
	"epoch": 1.4991304347826087,
	"grad_norm": 0.1681784734853534,
	"learning_rate": 3.556590641967115e-05,
	"loss": 0.1252,
	"step": 431
	},
	{
	"epoch": 1.502608695652174,
	"grad_norm": 0.14613030602008723,
	"learning_rate": 3.510150343736668e-05,
	"loss": 0.0912,
	"step": 432
	},
	{
	"epoch": 1.5060869565217392,
	"grad_norm": 0.15179818766879094,
	"learning_rate": 3.463950611168111e-05,
	"loss": 0.0858,
	"step": 433
	},
	{
	"epoch": 1.5095652173913043,
	"grad_norm": 0.12461414121764455,
	"learning_rate": 3.4179931567925216e-05,
	"loss": 0.0824,
	"step": 434
	},
	{
	"epoch": 1.5130434782608697,
	"grad_norm": 0.11765068168074926,
	"learning_rate": 3.372279684160221e-05,
	"loss": 0.0862,
	"step": 435
	},
	{
	"epoch": 1.5165217391304346,
	"grad_norm": 0.14280556708472175,
	"learning_rate": 3.3268118877776066e-05,
	"loss": 0.0954,
	"step": 436
	},
	{
	"epoch": 1.52,
	"grad_norm": 0.11285620318100742,
	"learning_rate": 3.281591453044366e-05,
	"loss": 0.0735,
	"step": 437
	},
	{
	"epoch": 1.5234782608695652,
	"grad_norm": 0.10694921241597416,
	"learning_rate": 3.236620056190972e-05,
	"loss": 0.069,
	"step": 438
	},
	{
	"epoch": 1.5269565217391303,
	"grad_norm": 0.12484188708941266,
	"learning_rate": 3.191899364216581e-05,
	"loss": 0.083,
	"step": 439
	},
	{
	"epoch": 1.5304347826086957,
	"grad_norm": 0.15429288005492145,
	"learning_rate": 3.147431034827208e-05,
	"loss": 0.1033,
	"step": 440
	},
	{
	"epoch": 1.5339130434782609,
	"grad_norm": 0.1253058317602747,
	"learning_rate": 3.103216716374312e-05,
	"loss": 0.0751,
	"step": 441
	},
	{
	"epoch": 1.537391304347826,
	"grad_norm": 0.11203979862187523,
	"learning_rate": 3.059258047793661e-05,
	"loss": 0.0804,
	"step": 442
	},
	{
	"epoch": 1.5408695652173914,
	"grad_norm": 0.13184136276253297,
	"learning_rate": 3.0155566585446117e-05,
	"loss": 0.0892,
	"step": 443
	},
	{
	"epoch": 1.5443478260869565,
	"grad_norm": 0.10496670695439927,
	"learning_rate": 2.9721141685496823e-05,
	"loss": 0.08,
	"step": 444
	},
	{
	"epoch": 1.5478260869565217,
	"grad_norm": 0.11136343180704414,
	"learning_rate": 2.9289321881345254e-05,
	"loss": 0.0764,
	"step": 445
	},
	{
	"epoch": 1.551304347826087,
	"grad_norm": 0.14576709922104164,
	"learning_rate": 2.8860123179682242e-05,
	"loss": 0.1061,
	"step": 446
	},
	{
	"epoch": 1.5547826086956522,
	"grad_norm": 0.09499364976886815,
	"learning_rate": 2.8433561490039573e-05,
	"loss": 0.0745,
	"step": 447
	},
	{
	"epoch": 1.5582608695652174,
	"grad_norm": 0.12469651410155881,
	"learning_rate": 2.800965262420043e-05,
	"loss": 0.086,
	"step": 448
	},
	{
	"epoch": 1.5617391304347827,
	"grad_norm": 0.0950193427692519,
	"learning_rate": 2.7588412295613043e-05,
	"loss": 0.0548,
	"step": 449
	},
	{
	"epoch": 1.5652173913043477,
	"grad_norm": 0.1436085195291988,
	"learning_rate": 2.716985611880841e-05,
	"loss": 0.0923,
	"step": 450
	},
	{
	"epoch": 1.568695652173913,
	"grad_norm": 0.1220012073528301,
	"learning_rate": 2.675399960882138e-05,
	"loss": 0.0835,
	"step": 451
	},
	{
	"epoch": 1.5721739130434784,
	"grad_norm": 0.14250023280956398,
	"learning_rate": 2.6340858180615646e-05,
	"loss": 0.0817,
	"step": 452
	},
	{
	"epoch": 1.5756521739130434,
	"grad_norm": 0.14016261789642684,
	"learning_rate": 2.593044714851218e-05,
	"loss": 0.1009,
	"step": 453
	},
	{
	"epoch": 1.5791304347826087,
	"grad_norm": 0.1519687009324273,
	"learning_rate": 2.5522781725621813e-05,
	"loss": 0.0936,
	"step": 454
	},
	{
	"epoch": 1.5826086956521739,
	"grad_norm": 0.10018240850657148,
	"learning_rate": 2.511787702328102e-05,
	"loss": 0.0695,
	"step": 455
	},
	{
	"epoch": 1.586086956521739,
	"grad_norm": 0.15832897678113741,
	"learning_rate": 2.471574805049206e-05,
	"loss": 0.103,
	"step": 456
	},
	{
	"epoch": 1.5895652173913044,
	"grad_norm": 0.09635042116603919,
	"learning_rate": 2.4316409713366352e-05,
	"loss": 0.0713,
	"step": 457
	},
	{
	"epoch": 1.5930434782608696,
	"grad_norm": 0.16551038949811617,
	"learning_rate": 2.3919876814572194e-05,
	"loss": 0.1165,
	"step": 458
	},
	{
	"epoch": 1.5965217391304347,
	"grad_norm": 0.1591761285439053,
	"learning_rate": 2.352616405278586e-05,
	"loss": 0.1065,
	"step": 459
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.1257794232379624,
	"learning_rate": 2.3135286022146785e-05,
	"loss": 0.0878,
	"step": 460
	},
	{
	"epoch": 1.6034782608695652,
	"grad_norm": 0.13064370809940834,
	"learning_rate": 2.2747257211716757e-05,
	"loss": 0.0878,
	"step": 461
	},
	{
	"epoch": 1.6069565217391304,
	"grad_norm": 0.1373673611302553,
	"learning_rate": 2.236209200494258e-05,
	"loss": 0.08,
	"step": 462
	},
	{
	"epoch": 1.6104347826086958,
	"grad_norm": 0.15683223957755238,
	"learning_rate": 2.1979804679123106e-05,
	"loss": 0.097,
	"step": 463
	},
	{
	"epoch": 1.613913043478261,
	"grad_norm": 0.11215372603755155,
	"learning_rate": 2.1600409404879874e-05,
	"loss": 0.0759,
	"step": 464
	},
	{
	"epoch": 1.617391304347826,
	"grad_norm": 0.12472859826284394,
	"learning_rate": 2.122392024563199e-05,
	"loss": 0.0798,
	"step": 465
	},
	{
	"epoch": 1.6208695652173915,
	"grad_norm": 0.14167323311602448,
	"learning_rate": 2.0850351157074598e-05,
	"loss": 0.1025,
	"step": 466
	},
	{
	"epoch": 1.6243478260869564,
	"grad_norm": 0.13106838058233283,
	"learning_rate": 2.047971598666184e-05,
	"loss": 0.0966,
	"step": 467
	},
	{
	"epoch": 1.6278260869565218,
	"grad_norm": 0.12245656492036927,
	"learning_rate": 2.011202847309329e-05,
	"loss": 0.0858,
	"step": 468
	},
	{
	"epoch": 1.631304347826087,
	"grad_norm": 0.15076412437271922,
	"learning_rate": 1.9747302245804945e-05,
	"loss": 0.0988,
	"step": 469
	},
	{
	"epoch": 1.634782608695652,
	"grad_norm": 0.1890224571658569,
	"learning_rate": 1.9385550824463727e-05,
	"loss": 0.141,
	"step": 470
	},
	{
	"epoch": 1.6382608695652174,
	"grad_norm": 0.12643818292640252,
	"learning_rate": 1.9026787618466646e-05,
	"loss": 0.0821,
	"step": 471
	},
	{
	"epoch": 1.6417391304347826,
	"grad_norm": 0.11974342973177961,
	"learning_rate": 1.8671025926443465e-05,
	"loss": 0.0852,
	"step": 472
	},
	{
	"epoch": 1.6452173913043477,
	"grad_norm": 0.11053773314022491,
	"learning_rate": 1.8318278935763955e-05,
	"loss": 0.0693,
	"step": 473
	},
	{
	"epoch": 1.6486956521739131,
	"grad_norm": 0.12718860708539992,
	"learning_rate": 1.7968559722048906e-05,
	"loss": 0.0759,
	"step": 474
	},
	{
	"epoch": 1.6521739130434783,
	"grad_norm": 0.11472304774066805,
	"learning_rate": 1.762188124868557e-05,
	"loss": 0.0822,
	"step": 475
	},
	{
	"epoch": 1.6556521739130434,
	"grad_norm": 0.1586172339858714,
	"learning_rate": 1.7278256366347035e-05,
	"loss": 0.1156,
	"step": 476
	},
	{
	"epoch": 1.6591304347826088,
	"grad_norm": 0.16408772559550205,
	"learning_rate": 1.6937697812515894e-05,
	"loss": 0.0918,
	"step": 477
	},
	{
	"epoch": 1.662608695652174,
	"grad_norm": 0.12800527362364758,
	"learning_rate": 1.660021821101222e-05,
	"loss": 0.0789,
	"step": 478
	},
	{
	"epoch": 1.666086956521739,
	"grad_norm": 0.15521778399290198,
	"learning_rate": 1.626583007152539e-05,
	"loss": 0.0987,
	"step": 479
	},
	{
	"epoch": 1.6695652173913045,
	"grad_norm": 0.14944005207844402,
	"learning_rate": 1.5934545789150623e-05,
	"loss": 0.1133,
	"step": 480
	},
	{
	"epoch": 1.6730434782608694,
	"grad_norm": 0.12173810785220801,
	"learning_rate": 1.5606377643929304e-05,
	"loss": 0.0794,
	"step": 481
	},
	{
	"epoch": 1.6765217391304348,
	"grad_norm": 0.12290655885053603,
	"learning_rate": 1.5281337800393968e-05,
	"loss": 0.0717,
	"step": 482
	},
	{
	"epoch": 1.6800000000000002,
	"grad_norm": 0.13763340851307898,
	"learning_rate": 1.4959438307117247e-05,
	"loss": 0.095,
	"step": 483
	},
	{
	"epoch": 1.683478260869565,
	"grad_norm": 0.10678789082393463,
	"learning_rate": 1.4640691096265358e-05,
	"loss": 0.0838,
	"step": 484
	},
	{
	"epoch": 1.6869565217391305,
	"grad_norm": 0.12694424997511286,
	"learning_rate": 1.4325107983155694e-05,
	"loss": 0.0884,
	"step": 485
	},
	{
	"epoch": 1.6904347826086956,
	"grad_norm": 0.13805939087384794,
	"learning_rate": 1.401270066581899e-05,
	"loss": 0.0884,
	"step": 486
	},
	{
	"epoch": 1.6939130434782608,
	"grad_norm": 0.1116542985760522,
	"learning_rate": 1.3703480724565577e-05,
	"loss": 0.0819,
	"step": 487
	},
	{
	"epoch": 1.6973913043478261,
	"grad_norm": 0.130701148914566,
	"learning_rate": 1.339745962155613e-05,
	"loss": 0.0942,
	"step": 488
	},
	{
	"epoch": 1.7008695652173913,
	"grad_norm": 0.12303229923584438,
	"learning_rate": 1.3094648700376954e-05,
	"loss": 0.0968,
	"step": 489
	},
	{
	"epoch": 1.7043478260869565,
	"grad_norm": 0.10050903994662669,
	"learning_rate": 1.2795059185619229e-05,
	"loss": 0.064,
	"step": 490
	},
	{
	"epoch": 1.7078260869565218,
	"grad_norm": 0.13529518412698788,
	"learning_rate": 1.249870218246323e-05,
	"loss": 0.0891,
	"step": 491
	},
	{
	"epoch": 1.711304347826087,
	"grad_norm": 0.11568064512791533,
	"learning_rate": 1.2205588676266388e-05,
	"loss": 0.0841,
	"step": 492
	},
	{
	"epoch": 1.7147826086956521,
	"grad_norm": 0.11324213029173631,
	"learning_rate": 1.1915729532156372e-05,
	"loss": 0.0693,
	"step": 493
	},
	{
	"epoch": 1.7182608695652175,
	"grad_norm": 0.12078490458473878,
	"learning_rate": 1.1629135494628096e-05,
	"loss": 0.0809,
	"step": 494
	},
	{
	"epoch": 1.7217391304347827,
	"grad_norm": 0.15619885447728415,
	"learning_rate": 1.134581718714558e-05,
	"loss": 0.0982,
	"step": 495
	},
	{
	"epoch": 1.7252173913043478,
	"grad_norm": 0.13958396553029748,
	"learning_rate": 1.1065785111748117e-05,
	"loss": 0.1006,
	"step": 496
	},
	{
	"epoch": 1.7286956521739132,
	"grad_norm": 0.11936287781907709,
	"learning_rate": 1.0789049648661043e-05,
	"loss": 0.0778,
	"step": 497
	},
	{
	"epoch": 1.7321739130434781,
	"grad_norm": 0.13994107260501892,
	"learning_rate": 1.0515621055910817e-05,
	"loss": 0.0994,
	"step": 498
	},
	{
	"epoch": 1.7356521739130435,
	"grad_norm": 0.10069177741815626,
	"learning_rate": 1.0245509468944992e-05,
	"loss": 0.0798,
	"step": 499
	},
	{
	"epoch": 1.7391304347826086,
	"grad_norm": 0.1520239032704441,
	"learning_rate": 9.978724900256265e-06,
	"loss": 0.0936,
	"step": 500
	},
	{
	"epoch": 1.7426086956521738,
	"grad_norm": 0.12537489299552443,
	"learning_rate": 9.715277239011578e-06,
	"loss": 0.0759,
	"step": 501
	},
	{
	"epoch": 1.7460869565217392,
	"grad_norm": 0.16914167358101417,
	"learning_rate": 9.455176250685338e-06,
	"loss": 0.1159,
	"step": 502
	},
	{
	"epoch": 1.7495652173913043,
	"grad_norm": 0.12340433382499669,
	"learning_rate": 9.198431576697608e-06,
	"loss": 0.0809,
	"step": 503
	},
	{
	"epoch": 1.7530434782608695,
	"grad_norm": 0.16038700994407892,
	"learning_rate": 8.945052734056581e-06,
	"loss": 0.0927,
	"step": 504
	},
	{
	"epoch": 1.7565217391304349,
	"grad_norm": 0.18736397280927972,
	"learning_rate": 8.695049115005837e-06,
	"loss": 0.1138,
	"step": 505
	},
	{
	"epoch": 1.76,
	"grad_norm": 0.11455094890434803,
	"learning_rate": 8.448429986676298e-06,
	"loss": 0.0876,
	"step": 506
	},
	{
	"epoch": 1.7634782608695652,
	"grad_norm": 0.13381829396413253,
	"learning_rate": 8.205204490742536e-06,
	"loss": 0.0932,
	"step": 507
	},
	{
	"epoch": 1.7669565217391305,
	"grad_norm": 0.10231732967595585,
	"learning_rate": 7.96538164308407e-06,
	"loss": 0.0702,
	"step": 508
	},
	{
	"epoch": 1.7704347826086957,
	"grad_norm": 0.0947188798552471,
	"learning_rate": 7.728970333451035e-06,
	"loss": 0.0706,
	"step": 509
	},
	{
	"epoch": 1.7739130434782608,
	"grad_norm": 0.09733737409054823,
	"learning_rate": 7.4959793251348055e-06,
	"loss": 0.0644,
	"step": 510
	},
	{
	"epoch": 1.7773913043478262,
	"grad_norm": 0.11169634637379897,
	"learning_rate": 7.2664172546429655e-06,
	"loss": 0.0709,
	"step": 511
	},
	{
	"epoch": 1.7808695652173911,
	"grad_norm": 0.12974806998277916,
	"learning_rate": 7.040292631379386e-06,
	"loss": 0.0856,
	"step": 512
	},
	{
	"epoch": 1.7843478260869565,
	"grad_norm": 0.13011819014873824,
	"learning_rate": 6.817613837328573e-06,
	"loss": 0.0924,
	"step": 513
	},
	{
	"epoch": 1.787826086956522,
	"grad_norm": 0.1508887480796253,
	"learning_rate": 6.598389126745208e-06,
	"loss": 0.1101,
	"step": 514
	},
	{
	"epoch": 1.7913043478260868,
	"grad_norm": 0.1528558553271661,
	"learning_rate": 6.382626625847921e-06,
	"loss": 0.1014,
	"step": 515
	},
	{
	"epoch": 1.7947826086956522,
	"grad_norm": 0.13295695013628608,
	"learning_rate": 6.170334332518324e-06,
	"loss": 0.0866,
	"step": 516
	},
	{
	"epoch": 1.7982608695652174,
	"grad_norm": 0.16036744040311404,
	"learning_rate": 5.961520116004327e-06,
	"loss": 0.1076,
	"step": 517
	},
	{
	"epoch": 1.8017391304347825,
	"grad_norm": 0.11717096876409042,
	"learning_rate": 5.756191716628556e-06,
	"loss": 0.0688,
	"step": 518
	},
	{
	"epoch": 1.8052173913043479,
	"grad_norm": 0.11484830279438352,
	"learning_rate": 5.554356745501454e-06,
	"loss": 0.0694,
	"step": 519
	},
	{
	"epoch": 1.808695652173913,
	"grad_norm": 0.17176181086966022,
	"learning_rate": 5.3560226842390596e-06,
	"loss": 0.1032,
	"step": 520
	},
	{
	"epoch": 1.8121739130434782,
	"grad_norm": 0.11739088349195866,
	"learning_rate": 5.1611968846857815e-06,
	"loss": 0.0732,
	"step": 521
	},
	{
	"epoch": 1.8156521739130436,
	"grad_norm": 0.13709017479262753,
	"learning_rate": 4.969886568641757e-06,
	"loss": 0.0918,
	"step": 522
	},
	{
	"epoch": 1.8191304347826087,
	"grad_norm": 0.1280476174629274,
	"learning_rate": 4.7820988275953045e-06,
	"loss": 0.0938,
	"step": 523
	},
	{
	"epoch": 1.8226086956521739,
	"grad_norm": 0.11201422652339658,
	"learning_rate": 4.597840622459937e-06,
	"loss": 0.0814,
	"step": 524
	},
	{
	"epoch": 1.8260869565217392,
	"grad_norm": 0.09871056879272744,
	"learning_rate": 4.417118783316388e-06,
	"loss": 0.072,
	"step": 525
	},
	{
	"epoch": 1.8295652173913044,
	"grad_norm": 0.10542472286239411,
	"learning_rate": 4.2399400091594154e-06,
	"loss": 0.068,
	"step": 526
	},
	{
	"epoch": 1.8330434782608696,
	"grad_norm": 0.14017893040374907,
	"learning_rate": 4.066310867649481e-06,
	"loss": 0.1032,
	"step": 527
	},
	{
	"epoch": 1.836521739130435,
	"grad_norm": 0.11855048113345314,
	"learning_rate": 3.896237794869339e-06,
	"loss": 0.0783,
	"step": 528
	},
	{
	"epoch": 1.8399999999999999,
	"grad_norm": 0.1244102175680237,
	"learning_rate": 3.729727095085422e-06,
	"loss": 0.0922,
	"step": 529
	},
	{
	"epoch": 1.8434782608695652,
	"grad_norm": 0.12180644294551433,
	"learning_rate": 3.566784940514145e-06,
	"loss": 0.0807,
	"step": 530
	},
	{
	"epoch": 1.8469565217391304,
	"grad_norm": 0.09761026100653182,
	"learning_rate": 3.40741737109318e-06,
	"loss": 0.0641,
	"step": 531
	},
	{
	"epoch": 1.8504347826086955,
	"grad_norm": 0.09710029722289329,
	"learning_rate": 3.2516302942574793e-06,
	"loss": 0.067,
	"step": 532
	},
	{
	"epoch": 1.853913043478261,
	"grad_norm": 0.10724535703528021,
	"learning_rate": 3.0994294847203733e-06,
	"loss": 0.0743,
	"step": 533
	},
	{
	"epoch": 1.857391304347826,
	"grad_norm": 0.13083100814230067,
	"learning_rate": 2.9508205842594728e-06,
	"loss": 0.0754,
	"step": 534
	},
	{
	"epoch": 1.8608695652173912,
	"grad_norm": 0.12672158607204304,
	"learning_rate": 2.8058091015075394e-06,
	"loss": 0.078,
	"step": 535
	},
	{
	"epoch": 1.8643478260869566,
	"grad_norm": 0.17103224377006737,
	"learning_rate": 2.6644004117483356e-06,
	"loss": 0.0922,
	"step": 536
	},
	{
	"epoch": 1.8678260869565217,
	"grad_norm": 0.134150142101436,
	"learning_rate": 2.526599756717285e-06,
	"loss": 0.1002,
	"step": 537
	},
	{
	"epoch": 1.871304347826087,
	"grad_norm": 0.129521169878982,
	"learning_rate": 2.392412244407294e-06,
	"loss": 0.0836,
	"step": 538
	},
	{
	"epoch": 1.8747826086956523,
	"grad_norm": 0.10885289790789841,
	"learning_rate": 2.26184284887927e-06,
	"loss": 0.0774,
	"step": 539
	},
	{
	"epoch": 1.8782608695652174,
	"grad_norm": 0.10488094490283079,
	"learning_rate": 2.134896410077891e-06,
	"loss": 0.0789,
	"step": 540
	},
	{
	"epoch": 1.8817391304347826,
	"grad_norm": 0.11889491296378912,
	"learning_rate": 2.011577633652062e-06,
	"loss": 0.0782,
	"step": 541
	},
	{
	"epoch": 1.885217391304348,
	"grad_norm": 0.12096235669049085,
	"learning_rate": 1.8918910907805732e-06,
	"loss": 0.0881,
	"step": 542
	},
	{
	"epoch": 1.8886956521739129,
	"grad_norm": 0.1106479394276716,
	"learning_rate": 1.7758412180026273e-06,
	"loss": 0.0802,
	"step": 543
	},
	{
	"epoch": 1.8921739130434783,
	"grad_norm": 0.12821924742613686,
	"learning_rate": 1.6634323170533928e-06,
	"loss": 0.0911,
	"step": 544
	},
	{
	"epoch": 1.8956521739130436,
	"grad_norm": 0.15604807612172736,
	"learning_rate": 1.5546685547045192e-06,
	"loss": 0.1,
	"step": 545
	},
	{
	"epoch": 1.8991304347826086,
	"grad_norm": 0.1478681396223387,
	"learning_rate": 1.4495539626097288e-06,
	"loss": 0.0804,
	"step": 546
	},
	{
	"epoch": 1.902608695652174,
	"grad_norm": 0.13421748048136942,
	"learning_rate": 1.348092437155346e-06,
	"loss": 0.089,
	"step": 547
	},
	{
	"epoch": 1.906086956521739,
	"grad_norm": 0.11687932254739727,
	"learning_rate": 1.2502877393158586e-06,
	"loss": 0.0871,
	"step": 548
	},
	{
	"epoch": 1.9095652173913042,
	"grad_norm": 0.15643926713744022,
	"learning_rate": 1.1561434945145277e-06,
	"loss": 0.104,
	"step": 549
	},
	{
	"epoch": 1.9130434782608696,
	"grad_norm": 0.10696169647909613,
	"learning_rate": 1.0656631924889749e-06,
	"loss": 0.0716,
	"step": 550
	},
	{
	"epoch": 1.9165217391304348,
	"grad_norm": 0.14019705935951768,
	"learning_rate": 9.788501871618728e-07,
	"loss": 0.0898,
	"step": 551
	},
	{
	"epoch": 1.92,
	"grad_norm": 0.15767772433554056,
	"learning_rate": 8.957076965165235e-07,
	"loss": 0.1015,
	"step": 552
	},
	{
	"epoch": 1.9234782608695653,
	"grad_norm": 0.12202925229447881,
	"learning_rate": 8.162388024777201e-07,
	"loss": 0.0889,
	"step": 553
	},
	{
	"epoch": 1.9269565217391305,
	"grad_norm": 0.14213284579860058,
	"learning_rate": 7.404464507973608e-07,
	"loss": 0.1061,
	"step": 554
	},
	{
	"epoch": 1.9304347826086956,
	"grad_norm": 0.11946138428666646,
	"learning_rate": 6.683334509453465e-07,
	"loss": 0.0756,
	"step": 555
	},
	{
	"epoch": 1.933913043478261,
	"grad_norm": 0.1776730484619494,
	"learning_rate": 5.999024760054095e-07,
	"loss": 0.1156,
	"step": 556
	},
	{
	"epoch": 1.9373913043478261,
	"grad_norm": 0.15552558119011417,
	"learning_rate": 5.351560625760254e-07,
	"loss": 0.1111,
	"step": 557
	},
	{
	"epoch": 1.9408695652173913,
	"grad_norm": 0.1269110866764246,
	"learning_rate": 4.7409661067642217e-07,
	"loss": 0.0929,
	"step": 558
	},
	{
	"epoch": 1.9443478260869567,
	"grad_norm": 0.10309350272790443,
	"learning_rate": 4.167263836575286e-07,
	"loss": 0.0547,
	"step": 559
	},
	{
	"epoch": 1.9478260869565216,
	"grad_norm": 0.12377918248036159,
	"learning_rate": 3.630475081181861e-07,
	"loss": 0.0808,
	"step": 560
	},
	{
	"epoch": 1.951304347826087,
	"grad_norm": 0.12729430798666608,
	"learning_rate": 3.1306197382624526e-07,
	"loss": 0.077,
	"step": 561
	},
	{
	"epoch": 1.9547826086956521,
	"grad_norm": 0.11766868772742071,
	"learning_rate": 2.667716336448356e-07,
	"loss": 0.0871,
	"step": 562
	},
	{
	"epoch": 1.9582608695652173,
	"grad_norm": 0.12138412723458143,
	"learning_rate": 2.2417820346367635e-07,
	"loss": 0.0983,
	"step": 563
	},
	{
	"epoch": 1.9617391304347827,
	"grad_norm": 0.12163696179721654,
	"learning_rate": 1.8528326213548274e-07,
	"loss": 0.0855,
	"step": 564
	},
	{
	"epoch": 1.9652173913043478,
	"grad_norm": 0.1569270166290431,
	"learning_rate": 1.50088251417424e-07,
	"loss": 0.1015,
	"step": 565
	},
	{
	"epoch": 1.968695652173913,
	"grad_norm": 0.12730784199491677,
	"learning_rate": 1.1859447591769934e-07,
	"loss": 0.0878,
	"step": 566
	},
	{
	"epoch": 1.9721739130434783,
	"grad_norm": 0.12648022636737355,
	"learning_rate": 9.080310304716567e-08,
	"loss": 0.0842,
	"step": 567
	},
	{
	"epoch": 1.9756521739130435,
	"grad_norm": 0.11283992913356376,
	"learning_rate": 6.671516297606095e-08,
	"loss": 0.0834,
	"step": 568
	},
	{
	"epoch": 1.9791304347826086,
	"grad_norm": 0.10119868305303333,
	"learning_rate": 4.6331548595845984e-08,
	"loss": 0.0667,
	"step": 569
	},
	{
	"epoch": 1.982608695652174,
	"grad_norm": 0.1227080883131745,
	"learning_rate": 2.965301548606414e-08,
	"loss": 0.0873,
	"step": 570
	},
	{
	"epoch": 1.9860869565217392,
	"grad_norm": 0.158380237566967,
	"learning_rate": 1.6680181886352676e-08,
	"loss": 0.1049,
	"step": 571
	},
	{
	"epoch": 1.9895652173913043,
	"grad_norm": 0.17246726825049064,
	"learning_rate": 7.413528673549941e-09,
	"loss": 0.0969,
	"step": 572
	},
	{
	"epoch": 1.9930434782608697,
	"grad_norm": 0.15178078485673158,
	"learning_rate": 1.8533993438318852e-09,
	"loss": 0.0884,
	"step": 573
	},
	{
	"epoch": 1.9965217391304346,
	"grad_norm": 0.1411963796704214,
	"learning_rate": 0.0,
	"loss": 0.0874,
	"step": 574
	},
	{
	"epoch": 1.9965217391304346,
	"eval_loss": 0.14970487356185913,
	"eval_runtime": 49.8439,
	"eval_samples_per_second": 4.795,
	"eval_steps_per_second": 0.602,
	"step": 574
	},
	{
	"epoch": 1.9965217391304346,
	"step": 574,
	"total_flos": 465841769250816.0,
	"train_loss": 0.11642231966144947,
	"train_runtime": 5186.3709,
	"train_samples_per_second": 1.772,
	"train_steps_per_second": 0.111
	}
	],
	"logging_steps": 1,
	"max_steps": 574,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 465841769250816.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}