Upload folder using huggingface_hub

d449291 verified 6 months ago

45.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.9739884393063583,
	"eval_steps": 129,
	"global_step": 258,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.007707129094412331,
	"grad_norm": 27.94101905822754,
	"learning_rate": 2.0000000000000002e-07,
	"loss": 2.3083,
	"step": 1
	},
	{
	"epoch": 0.007707129094412331,
	"eval_loss": 2.273209810256958,
	"eval_runtime": 27.5737,
	"eval_samples_per_second": 1.813,
	"eval_steps_per_second": 0.471,
	"step": 1
	},
	{
	"epoch": 0.015414258188824663,
	"grad_norm": 27.76470184326172,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 2.2483,
	"step": 2
	},
	{
	"epoch": 0.023121387283236993,
	"grad_norm": 28.12770652770996,
	"learning_rate": 6.000000000000001e-07,
	"loss": 2.29,
	"step": 3
	},
	{
	"epoch": 0.030828516377649325,
	"grad_norm": 29.105730056762695,
	"learning_rate": 8.000000000000001e-07,
	"loss": 2.3396,
	"step": 4
	},
	{
	"epoch": 0.038535645472061654,
	"grad_norm": 28.90327262878418,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 2.2654,
	"step": 5
	},
	{
	"epoch": 0.046242774566473986,
	"grad_norm": 30.192190170288086,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 2.2205,
	"step": 6
	},
	{
	"epoch": 0.05394990366088632,
	"grad_norm": 27.94385528564453,
	"learning_rate": 1.4000000000000001e-06,
	"loss": 2.2161,
	"step": 7
	},
	{
	"epoch": 0.06165703275529865,
	"grad_norm": 17.948062896728516,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 2.0695,
	"step": 8
	},
	{
	"epoch": 0.06936416184971098,
	"grad_norm": 17.047054290771484,
	"learning_rate": 1.8000000000000001e-06,
	"loss": 2.0742,
	"step": 9
	},
	{
	"epoch": 0.07707129094412331,
	"grad_norm": 15.427838325500488,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1.9962,
	"step": 10
	},
	{
	"epoch": 0.08477842003853564,
	"grad_norm": 6.273721694946289,
	"learning_rate": 2.2e-06,
	"loss": 1.859,
	"step": 11
	},
	{
	"epoch": 0.09248554913294797,
	"grad_norm": 5.851183891296387,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 1.8696,
	"step": 12
	},
	{
	"epoch": 0.1001926782273603,
	"grad_norm": 4.672307968139648,
	"learning_rate": 2.6e-06,
	"loss": 1.8348,
	"step": 13
	},
	{
	"epoch": 0.10789980732177264,
	"grad_norm": 2.6562161445617676,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 1.7719,
	"step": 14
	},
	{
	"epoch": 0.11560693641618497,
	"grad_norm": 4.172055721282959,
	"learning_rate": 3e-06,
	"loss": 1.7984,
	"step": 15
	},
	{
	"epoch": 0.1233140655105973,
	"grad_norm": 4.055249214172363,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 1.8025,
	"step": 16
	},
	{
	"epoch": 0.13102119460500963,
	"grad_norm": 3.3719887733459473,
	"learning_rate": 3.4000000000000005e-06,
	"loss": 1.739,
	"step": 17
	},
	{
	"epoch": 0.13872832369942195,
	"grad_norm": 2.81038498878479,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 1.7478,
	"step": 18
	},
	{
	"epoch": 0.1464354527938343,
	"grad_norm": 2.2064859867095947,
	"learning_rate": 3.8000000000000005e-06,
	"loss": 1.7384,
	"step": 19
	},
	{
	"epoch": 0.15414258188824662,
	"grad_norm": 1.940885305404663,
	"learning_rate": 4.000000000000001e-06,
	"loss": 1.7135,
	"step": 20
	},
	{
	"epoch": 0.16184971098265896,
	"grad_norm": 1.9488122463226318,
	"learning_rate": 4.2000000000000004e-06,
	"loss": 1.7108,
	"step": 21
	},
	{
	"epoch": 0.16955684007707128,
	"grad_norm": 1.7049647569656372,
	"learning_rate": 4.4e-06,
	"loss": 1.6868,
	"step": 22
	},
	{
	"epoch": 0.17726396917148363,
	"grad_norm": 1.5429236888885498,
	"learning_rate": 4.600000000000001e-06,
	"loss": 1.6947,
	"step": 23
	},
	{
	"epoch": 0.18497109826589594,
	"grad_norm": 1.5304620265960693,
	"learning_rate": 4.800000000000001e-06,
	"loss": 1.6846,
	"step": 24
	},
	{
	"epoch": 0.1926782273603083,
	"grad_norm": 1.5696897506713867,
	"learning_rate": 5e-06,
	"loss": 1.6844,
	"step": 25
	},
	{
	"epoch": 0.2003853564547206,
	"grad_norm": 1.4362632036209106,
	"learning_rate": 5.2e-06,
	"loss": 1.6732,
	"step": 26
	},
	{
	"epoch": 0.20809248554913296,
	"grad_norm": 1.3416928052902222,
	"learning_rate": 5.400000000000001e-06,
	"loss": 1.6424,
	"step": 27
	},
	{
	"epoch": 0.21579961464354527,
	"grad_norm": 1.3142507076263428,
	"learning_rate": 5.600000000000001e-06,
	"loss": 1.677,
	"step": 28
	},
	{
	"epoch": 0.22350674373795762,
	"grad_norm": 1.342984676361084,
	"learning_rate": 5.8e-06,
	"loss": 1.6762,
	"step": 29
	},
	{
	"epoch": 0.23121387283236994,
	"grad_norm": 1.2972025871276855,
	"learning_rate": 6e-06,
	"loss": 1.6716,
	"step": 30
	},
	{
	"epoch": 0.23892100192678228,
	"grad_norm": 1.2904590368270874,
	"learning_rate": 6.200000000000001e-06,
	"loss": 1.6234,
	"step": 31
	},
	{
	"epoch": 0.2466281310211946,
	"grad_norm": 1.1942962408065796,
	"learning_rate": 6.4000000000000006e-06,
	"loss": 1.6533,
	"step": 32
	},
	{
	"epoch": 0.2543352601156069,
	"grad_norm": 1.124014973640442,
	"learning_rate": 6.600000000000001e-06,
	"loss": 1.6604,
	"step": 33
	},
	{
	"epoch": 0.26204238921001927,
	"grad_norm": 1.2125813961029053,
	"learning_rate": 6.800000000000001e-06,
	"loss": 1.6335,
	"step": 34
	},
	{
	"epoch": 0.2697495183044316,
	"grad_norm": 1.2104367017745972,
	"learning_rate": 7e-06,
	"loss": 1.6356,
	"step": 35
	},
	{
	"epoch": 0.2774566473988439,
	"grad_norm": 1.1877591609954834,
	"learning_rate": 7.2000000000000005e-06,
	"loss": 1.6349,
	"step": 36
	},
	{
	"epoch": 0.28516377649325625,
	"grad_norm": 1.2402458190917969,
	"learning_rate": 7.4e-06,
	"loss": 1.6463,
	"step": 37
	},
	{
	"epoch": 0.2928709055876686,
	"grad_norm": 1.1922346353530884,
	"learning_rate": 7.600000000000001e-06,
	"loss": 1.5998,
	"step": 38
	},
	{
	"epoch": 0.30057803468208094,
	"grad_norm": 1.197464942932129,
	"learning_rate": 7.800000000000002e-06,
	"loss": 1.6265,
	"step": 39
	},
	{
	"epoch": 0.30828516377649323,
	"grad_norm": 1.291739821434021,
	"learning_rate": 8.000000000000001e-06,
	"loss": 1.6077,
	"step": 40
	},
	{
	"epoch": 0.3159922928709056,
	"grad_norm": 1.145663857460022,
	"learning_rate": 8.2e-06,
	"loss": 1.6152,
	"step": 41
	},
	{
	"epoch": 0.3236994219653179,
	"grad_norm": 1.1572788953781128,
	"learning_rate": 8.400000000000001e-06,
	"loss": 1.6058,
	"step": 42
	},
	{
	"epoch": 0.33140655105973027,
	"grad_norm": 1.3273899555206299,
	"learning_rate": 8.6e-06,
	"loss": 1.6223,
	"step": 43
	},
	{
	"epoch": 0.33911368015414256,
	"grad_norm": 1.1160943508148193,
	"learning_rate": 8.8e-06,
	"loss": 1.5969,
	"step": 44
	},
	{
	"epoch": 0.3468208092485549,
	"grad_norm": 1.3087902069091797,
	"learning_rate": 9e-06,
	"loss": 1.6464,
	"step": 45
	},
	{
	"epoch": 0.35452793834296725,
	"grad_norm": 1.1589637994766235,
	"learning_rate": 9.200000000000002e-06,
	"loss": 1.5799,
	"step": 46
	},
	{
	"epoch": 0.3622350674373796,
	"grad_norm": 1.159191370010376,
	"learning_rate": 9.4e-06,
	"loss": 1.6153,
	"step": 47
	},
	{
	"epoch": 0.3699421965317919,
	"grad_norm": 1.206766128540039,
	"learning_rate": 9.600000000000001e-06,
	"loss": 1.5982,
	"step": 48
	},
	{
	"epoch": 0.37764932562620424,
	"grad_norm": 1.1924678087234497,
	"learning_rate": 9.800000000000001e-06,
	"loss": 1.6054,
	"step": 49
	},
	{
	"epoch": 0.3853564547206166,
	"grad_norm": 1.2029445171356201,
	"learning_rate": 1e-05,
	"loss": 1.6205,
	"step": 50
	},
	{
	"epoch": 0.3930635838150289,
	"grad_norm": 1.1406632661819458,
	"learning_rate": 1.02e-05,
	"loss": 1.6158,
	"step": 51
	},
	{
	"epoch": 0.4007707129094412,
	"grad_norm": 1.1437443494796753,
	"learning_rate": 1.04e-05,
	"loss": 1.6045,
	"step": 52
	},
	{
	"epoch": 0.40847784200385356,
	"grad_norm": 1.127734661102295,
	"learning_rate": 1.0600000000000002e-05,
	"loss": 1.5968,
	"step": 53
	},
	{
	"epoch": 0.4161849710982659,
	"grad_norm": 1.1851099729537964,
	"learning_rate": 1.0800000000000002e-05,
	"loss": 1.6045,
	"step": 54
	},
	{
	"epoch": 0.4238921001926782,
	"grad_norm": 1.1298301219940186,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 1.5908,
	"step": 55
	},
	{
	"epoch": 0.43159922928709055,
	"grad_norm": 1.095090627670288,
	"learning_rate": 1.1200000000000001e-05,
	"loss": 1.5901,
	"step": 56
	},
	{
	"epoch": 0.4393063583815029,
	"grad_norm": 1.1739152669906616,
	"learning_rate": 1.14e-05,
	"loss": 1.6275,
	"step": 57
	},
	{
	"epoch": 0.44701348747591524,
	"grad_norm": 1.1687606573104858,
	"learning_rate": 1.16e-05,
	"loss": 1.5938,
	"step": 58
	},
	{
	"epoch": 0.45472061657032753,
	"grad_norm": 1.1895908117294312,
	"learning_rate": 1.18e-05,
	"loss": 1.6016,
	"step": 59
	},
	{
	"epoch": 0.4624277456647399,
	"grad_norm": 1.199129581451416,
	"learning_rate": 1.2e-05,
	"loss": 1.6317,
	"step": 60
	},
	{
	"epoch": 0.4701348747591522,
	"grad_norm": 1.2785886526107788,
	"learning_rate": 1.22e-05,
	"loss": 1.5672,
	"step": 61
	},
	{
	"epoch": 0.47784200385356457,
	"grad_norm": 1.2036688327789307,
	"learning_rate": 1.2400000000000002e-05,
	"loss": 1.5636,
	"step": 62
	},
	{
	"epoch": 0.48554913294797686,
	"grad_norm": 1.2586396932601929,
	"learning_rate": 1.2600000000000001e-05,
	"loss": 1.5806,
	"step": 63
	},
	{
	"epoch": 0.4932562620423892,
	"grad_norm": 1.1760581731796265,
	"learning_rate": 1.2800000000000001e-05,
	"loss": 1.5724,
	"step": 64
	},
	{
	"epoch": 0.5009633911368016,
	"grad_norm": 1.1171916723251343,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 1.5982,
	"step": 65
	},
	{
	"epoch": 0.5086705202312138,
	"grad_norm": 1.234012484550476,
	"learning_rate": 1.3200000000000002e-05,
	"loss": 1.597,
	"step": 66
	},
	{
	"epoch": 0.5163776493256262,
	"grad_norm": 1.1812013387680054,
	"learning_rate": 1.3400000000000002e-05,
	"loss": 1.6064,
	"step": 67
	},
	{
	"epoch": 0.5240847784200385,
	"grad_norm": 1.1740922927856445,
	"learning_rate": 1.3600000000000002e-05,
	"loss": 1.5915,
	"step": 68
	},
	{
	"epoch": 0.5317919075144508,
	"grad_norm": 1.277176856994629,
	"learning_rate": 1.38e-05,
	"loss": 1.5711,
	"step": 69
	},
	{
	"epoch": 0.5394990366088632,
	"grad_norm": 1.1419289112091064,
	"learning_rate": 1.4e-05,
	"loss": 1.5934,
	"step": 70
	},
	{
	"epoch": 0.5472061657032755,
	"grad_norm": 1.2002787590026855,
	"learning_rate": 1.4200000000000001e-05,
	"loss": 1.6021,
	"step": 71
	},
	{
	"epoch": 0.5549132947976878,
	"grad_norm": 1.1920689344406128,
	"learning_rate": 1.4400000000000001e-05,
	"loss": 1.5893,
	"step": 72
	},
	{
	"epoch": 0.5626204238921002,
	"grad_norm": 1.2546113729476929,
	"learning_rate": 1.46e-05,
	"loss": 1.558,
	"step": 73
	},
	{
	"epoch": 0.5703275529865125,
	"grad_norm": 1.2610082626342773,
	"learning_rate": 1.48e-05,
	"loss": 1.5842,
	"step": 74
	},
	{
	"epoch": 0.5780346820809249,
	"grad_norm": 1.1725729703903198,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 1.5746,
	"step": 75
	},
	{
	"epoch": 0.5857418111753372,
	"grad_norm": 1.1732540130615234,
	"learning_rate": 1.5200000000000002e-05,
	"loss": 1.5804,
	"step": 76
	},
	{
	"epoch": 0.5934489402697495,
	"grad_norm": 1.281145691871643,
	"learning_rate": 1.54e-05,
	"loss": 1.5884,
	"step": 77
	},
	{
	"epoch": 0.6011560693641619,
	"grad_norm": 1.1668535470962524,
	"learning_rate": 1.5600000000000003e-05,
	"loss": 1.6048,
	"step": 78
	},
	{
	"epoch": 0.6088631984585742,
	"grad_norm": 1.2680914402008057,
	"learning_rate": 1.58e-05,
	"loss": 1.5893,
	"step": 79
	},
	{
	"epoch": 0.6165703275529865,
	"grad_norm": 1.1659042835235596,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 1.5791,
	"step": 80
	},
	{
	"epoch": 0.6242774566473989,
	"grad_norm": 1.2156031131744385,
	"learning_rate": 1.62e-05,
	"loss": 1.5916,
	"step": 81
	},
	{
	"epoch": 0.6319845857418112,
	"grad_norm": 1.1217319965362549,
	"learning_rate": 1.64e-05,
	"loss": 1.5725,
	"step": 82
	},
	{
	"epoch": 0.6396917148362236,
	"grad_norm": 1.307479977607727,
	"learning_rate": 1.66e-05,
	"loss": 1.5723,
	"step": 83
	},
	{
	"epoch": 0.6473988439306358,
	"grad_norm": 1.1636345386505127,
	"learning_rate": 1.6800000000000002e-05,
	"loss": 1.5906,
	"step": 84
	},
	{
	"epoch": 0.6551059730250481,
	"grad_norm": 1.3260914087295532,
	"learning_rate": 1.7e-05,
	"loss": 1.5972,
	"step": 85
	},
	{
	"epoch": 0.6628131021194605,
	"grad_norm": 1.14360511302948,
	"learning_rate": 1.72e-05,
	"loss": 1.5621,
	"step": 86
	},
	{
	"epoch": 0.6705202312138728,
	"grad_norm": 1.4284840822219849,
	"learning_rate": 1.7400000000000003e-05,
	"loss": 1.571,
	"step": 87
	},
	{
	"epoch": 0.6782273603082851,
	"grad_norm": 1.1513473987579346,
	"learning_rate": 1.76e-05,
	"loss": 1.6015,
	"step": 88
	},
	{
	"epoch": 0.6859344894026975,
	"grad_norm": 1.3102519512176514,
	"learning_rate": 1.7800000000000002e-05,
	"loss": 1.576,
	"step": 89
	},
	{
	"epoch": 0.6936416184971098,
	"grad_norm": 1.2329882383346558,
	"learning_rate": 1.8e-05,
	"loss": 1.5759,
	"step": 90
	},
	{
	"epoch": 0.7013487475915221,
	"grad_norm": 1.1875412464141846,
	"learning_rate": 1.8200000000000002e-05,
	"loss": 1.555,
	"step": 91
	},
	{
	"epoch": 0.7090558766859345,
	"grad_norm": 1.1887799501419067,
	"learning_rate": 1.8400000000000003e-05,
	"loss": 1.5926,
	"step": 92
	},
	{
	"epoch": 0.7167630057803468,
	"grad_norm": 1.3002405166625977,
	"learning_rate": 1.86e-05,
	"loss": 1.5849,
	"step": 93
	},
	{
	"epoch": 0.7244701348747592,
	"grad_norm": 1.194841980934143,
	"learning_rate": 1.88e-05,
	"loss": 1.5724,
	"step": 94
	},
	{
	"epoch": 0.7321772639691715,
	"grad_norm": 1.315577745437622,
	"learning_rate": 1.9e-05,
	"loss": 1.5296,
	"step": 95
	},
	{
	"epoch": 0.7398843930635838,
	"grad_norm": 1.239837884902954,
	"learning_rate": 1.9200000000000003e-05,
	"loss": 1.5845,
	"step": 96
	},
	{
	"epoch": 0.7475915221579962,
	"grad_norm": 1.3335014581680298,
	"learning_rate": 1.94e-05,
	"loss": 1.5843,
	"step": 97
	},
	{
	"epoch": 0.7552986512524085,
	"grad_norm": 1.2278801202774048,
	"learning_rate": 1.9600000000000002e-05,
	"loss": 1.588,
	"step": 98
	},
	{
	"epoch": 0.7630057803468208,
	"grad_norm": 1.3168463706970215,
	"learning_rate": 1.98e-05,
	"loss": 1.5758,
	"step": 99
	},
	{
	"epoch": 0.7707129094412332,
	"grad_norm": 1.3854187726974487,
	"learning_rate": 2e-05,
	"loss": 1.5489,
	"step": 100
	},
	{
	"epoch": 0.7784200385356455,
	"grad_norm": 1.1883262395858765,
	"learning_rate": 1.9998023297700656e-05,
	"loss": 1.5707,
	"step": 101
	},
	{
	"epoch": 0.7861271676300579,
	"grad_norm": 1.3683229684829712,
	"learning_rate": 1.999209397227302e-05,
	"loss": 1.5916,
	"step": 102
	},
	{
	"epoch": 0.7938342967244701,
	"grad_norm": 1.2290884256362915,
	"learning_rate": 1.998221436781933e-05,
	"loss": 1.6028,
	"step": 103
	},
	{
	"epoch": 0.8015414258188824,
	"grad_norm": 1.422328233718872,
	"learning_rate": 1.996838839014696e-05,
	"loss": 1.5753,
	"step": 104
	},
	{
	"epoch": 0.8092485549132948,
	"grad_norm": 1.2604609727859497,
	"learning_rate": 1.9950621505224276e-05,
	"loss": 1.5537,
	"step": 105
	},
	{
	"epoch": 0.8169556840077071,
	"grad_norm": 1.1725685596466064,
	"learning_rate": 1.9928920737019735e-05,
	"loss": 1.5745,
	"step": 106
	},
	{
	"epoch": 0.8246628131021194,
	"grad_norm": 1.284792423248291,
	"learning_rate": 1.9903294664725023e-05,
	"loss": 1.5868,
	"step": 107
	},
	{
	"epoch": 0.8323699421965318,
	"grad_norm": 1.1779919862747192,
	"learning_rate": 1.9873753419363336e-05,
	"loss": 1.5824,
	"step": 108
	},
	{
	"epoch": 0.8400770712909441,
	"grad_norm": 1.1214483976364136,
	"learning_rate": 1.9840308679784207e-05,
	"loss": 1.5486,
	"step": 109
	},
	{
	"epoch": 0.8477842003853564,
	"grad_norm": 1.2342500686645508,
	"learning_rate": 1.9802973668046364e-05,
	"loss": 1.5867,
	"step": 110
	},
	{
	"epoch": 0.8554913294797688,
	"grad_norm": 1.1915156841278076,
	"learning_rate": 1.976176314419051e-05,
	"loss": 1.579,
	"step": 111
	},
	{
	"epoch": 0.8631984585741811,
	"grad_norm": 1.215820550918579,
	"learning_rate": 1.97166934004041e-05,
	"loss": 1.6014,
	"step": 112
	},
	{
	"epoch": 0.8709055876685935,
	"grad_norm": 1.2331247329711914,
	"learning_rate": 1.9667782254580373e-05,
	"loss": 1.5653,
	"step": 113
	},
	{
	"epoch": 0.8786127167630058,
	"grad_norm": 1.1282511949539185,
	"learning_rate": 1.9615049043274207e-05,
	"loss": 1.5584,
	"step": 114
	},
	{
	"epoch": 0.8863198458574181,
	"grad_norm": 1.2783879041671753,
	"learning_rate": 1.955851461405761e-05,
	"loss": 1.5956,
	"step": 115
	},
	{
	"epoch": 0.8940269749518305,
	"grad_norm": 1.2387332916259766,
	"learning_rate": 1.949820131727783e-05,
	"loss": 1.5604,
	"step": 116
	},
	{
	"epoch": 0.9017341040462428,
	"grad_norm": 1.3010255098342896,
	"learning_rate": 1.9434132997221347e-05,
	"loss": 1.5557,
	"step": 117
	},
	{
	"epoch": 0.9094412331406551,
	"grad_norm": 1.3249139785766602,
	"learning_rate": 1.936633498268728e-05,
	"loss": 1.561,
	"step": 118
	},
	{
	"epoch": 0.9171483622350675,
	"grad_norm": 1.2389734983444214,
	"learning_rate": 1.9294834076973872e-05,
	"loss": 1.5726,
	"step": 119
	},
	{
	"epoch": 0.9248554913294798,
	"grad_norm": 1.258575677871704,
	"learning_rate": 1.921965854728207e-05,
	"loss": 1.5504,
	"step": 120
	},
	{
	"epoch": 0.9325626204238922,
	"grad_norm": 1.2949562072753906,
	"learning_rate": 1.9140838113540347e-05,
	"loss": 1.576,
	"step": 121
	},
	{
	"epoch": 0.9402697495183044,
	"grad_norm": 1.2721818685531616,
	"learning_rate": 1.9058403936655235e-05,
	"loss": 1.5697,
	"step": 122
	},
	{
	"epoch": 0.9479768786127167,
	"grad_norm": 1.198541522026062,
	"learning_rate": 1.8972388606192124e-05,
	"loss": 1.5672,
	"step": 123
	},
	{
	"epoch": 0.9556840077071291,
	"grad_norm": 1.2318319082260132,
	"learning_rate": 1.888282612749132e-05,
	"loss": 1.5511,
	"step": 124
	},
	{
	"epoch": 0.9633911368015414,
	"grad_norm": 1.3235722780227661,
	"learning_rate": 1.878975190822434e-05,
	"loss": 1.5972,
	"step": 125
	},
	{
	"epoch": 0.9710982658959537,
	"grad_norm": 1.2950528860092163,
	"learning_rate": 1.869320274439583e-05,
	"loss": 1.5696,
	"step": 126
	},
	{
	"epoch": 0.9788053949903661,
	"grad_norm": 1.2997064590454102,
	"learning_rate": 1.8593216805796612e-05,
	"loss": 1.5751,
	"step": 127
	},
	{
	"epoch": 0.9865125240847784,
	"grad_norm": 1.429874062538147,
	"learning_rate": 1.8489833620913644e-05,
	"loss": 1.5706,
	"step": 128
	},
	{
	"epoch": 0.9942196531791907,
	"grad_norm": 1.2658491134643555,
	"learning_rate": 1.8383094061302767e-05,
	"loss": 1.5681,
	"step": 129
	},
	{
	"epoch": 0.9942196531791907,
	"eval_loss": 1.590910792350769,
	"eval_runtime": 27.4214,
	"eval_samples_per_second": 1.823,
	"eval_steps_per_second": 0.474,
	"step": 129
	},
	{
	"epoch": 1.001926782273603,
	"grad_norm": 1.3823826313018799,
	"learning_rate": 1.8273040325430575e-05,
	"loss": 1.5453,
	"step": 130
	},
	{
	"epoch": 1.0096339113680155,
	"grad_norm": 1.174560546875,
	"learning_rate": 1.8159715921991612e-05,
	"loss": 1.5485,
	"step": 131
	},
	{
	"epoch": 1.0028901734104045,
	"grad_norm": 1.3361918926239014,
	"learning_rate": 1.804316565270765e-05,
	"loss": 1.511,
	"step": 132
	},
	{
	"epoch": 1.010597302504817,
	"grad_norm": 1.5681639909744263,
	"learning_rate": 1.7923435594615744e-05,
	"loss": 1.3985,
	"step": 133
	},
	{
	"epoch": 1.0183044315992293,
	"grad_norm": 1.3742421865463257,
	"learning_rate": 1.7800573081852124e-05,
	"loss": 1.4214,
	"step": 134
	},
	{
	"epoch": 1.0260115606936415,
	"grad_norm": 1.375709056854248,
	"learning_rate": 1.767462668693908e-05,
	"loss": 1.3857,
	"step": 135
	},
	{
	"epoch": 1.033718689788054,
	"grad_norm": 1.5805290937423706,
	"learning_rate": 1.7545646201582304e-05,
	"loss": 1.3975,
	"step": 136
	},
	{
	"epoch": 1.0414258188824663,
	"grad_norm": 1.4905924797058105,
	"learning_rate": 1.7413682616986185e-05,
	"loss": 1.3663,
	"step": 137
	},
	{
	"epoch": 1.0491329479768785,
	"grad_norm": 1.4072234630584717,
	"learning_rate": 1.7278788103694944e-05,
	"loss": 1.3969,
	"step": 138
	},
	{
	"epoch": 1.056840077071291,
	"grad_norm": 1.3707107305526733,
	"learning_rate": 1.71410159909675e-05,
	"loss": 1.3932,
	"step": 139
	},
	{
	"epoch": 1.0645472061657033,
	"grad_norm": 1.376590609550476,
	"learning_rate": 1.7000420745694256e-05,
	"loss": 1.3656,
	"step": 140
	},
	{
	"epoch": 1.0722543352601157,
	"grad_norm": 1.2771958112716675,
	"learning_rate": 1.6857057950864134e-05,
	"loss": 1.3694,
	"step": 141
	},
	{
	"epoch": 1.079961464354528,
	"grad_norm": 1.4592013359069824,
	"learning_rate": 1.671098428359037e-05,
	"loss": 1.3913,
	"step": 142
	},
	{
	"epoch": 1.0876685934489403,
	"grad_norm": 1.3110437393188477,
	"learning_rate": 1.6562257492703756e-05,
	"loss": 1.3768,
	"step": 143
	},
	{
	"epoch": 1.0953757225433527,
	"grad_norm": 1.344575047492981,
	"learning_rate": 1.64109363759222e-05,
	"loss": 1.3778,
	"step": 144
	},
	{
	"epoch": 1.1030828516377649,
	"grad_norm": 1.277384638786316,
	"learning_rate": 1.62570807566056e-05,
	"loss": 1.3499,
	"step": 145
	},
	{
	"epoch": 1.1107899807321773,
	"grad_norm": 1.2886083126068115,
	"learning_rate": 1.6100751460105244e-05,
	"loss": 1.3669,
	"step": 146
	},
	{
	"epoch": 1.1184971098265897,
	"grad_norm": 1.3069369792938232,
	"learning_rate": 1.5942010289717108e-05,
	"loss": 1.3918,
	"step": 147
	},
	{
	"epoch": 1.1262042389210019,
	"grad_norm": 1.2955520153045654,
	"learning_rate": 1.5780920002248484e-05,
	"loss": 1.3645,
	"step": 148
	},
	{
	"epoch": 1.1339113680154143,
	"grad_norm": 1.3005629777908325,
	"learning_rate": 1.561754428320771e-05,
	"loss": 1.3522,
	"step": 149
	},
	{
	"epoch": 1.1416184971098267,
	"grad_norm": 1.413831114768982,
	"learning_rate": 1.5451947721626676e-05,
	"loss": 1.4064,
	"step": 150
	},
	{
	"epoch": 1.1493256262042388,
	"grad_norm": 1.2129186391830444,
	"learning_rate": 1.5284195784526196e-05,
	"loss": 1.3576,
	"step": 151
	},
	{
	"epoch": 1.1570327552986512,
	"grad_norm": 1.3991036415100098,
	"learning_rate": 1.5114354791034225e-05,
	"loss": 1.3735,
	"step": 152
	},
	{
	"epoch": 1.1647398843930636,
	"grad_norm": 1.2813304662704468,
	"learning_rate": 1.494249188616723e-05,
	"loss": 1.3689,
	"step": 153
	},
	{
	"epoch": 1.1724470134874758,
	"grad_norm": 1.3265056610107422,
	"learning_rate": 1.4768675014285063e-05,
	"loss": 1.3714,
	"step": 154
	},
	{
	"epoch": 1.1801541425818882,
	"grad_norm": 1.244061827659607,
	"learning_rate": 1.4592972892229779e-05,
	"loss": 1.371,
	"step": 155
	},
	{
	"epoch": 1.1878612716763006,
	"grad_norm": 1.2477822303771973,
	"learning_rate": 1.4415454982159121e-05,
	"loss": 1.3705,
	"step": 156
	},
	{
	"epoch": 1.1955684007707128,
	"grad_norm": 1.3200701475143433,
	"learning_rate": 1.4236191464085286e-05,
	"loss": 1.3657,
	"step": 157
	},
	{
	"epoch": 1.2032755298651252,
	"grad_norm": 1.237042784690857,
	"learning_rate": 1.405525320812994e-05,
	"loss": 1.3602,
	"step": 158
	},
	{
	"epoch": 1.2109826589595376,
	"grad_norm": 1.30637526512146,
	"learning_rate": 1.3872711746506413e-05,
	"loss": 1.3758,
	"step": 159
	},
	{
	"epoch": 1.21868978805395,
	"grad_norm": 1.3186436891555786,
	"learning_rate": 1.3688639245240078e-05,
	"loss": 1.3907,
	"step": 160
	},
	{
	"epoch": 1.2263969171483622,
	"grad_norm": 1.2071219682693481,
	"learning_rate": 1.3503108475638244e-05,
	"loss": 1.3698,
	"step": 161
	},
	{
	"epoch": 1.2341040462427746,
	"grad_norm": 1.1885581016540527,
	"learning_rate": 1.331619278552068e-05,
	"loss": 1.3774,
	"step": 162
	},
	{
	"epoch": 1.241811175337187,
	"grad_norm": 1.1943105459213257,
	"learning_rate": 1.3127966070222273e-05,
	"loss": 1.3538,
	"step": 163
	},
	{
	"epoch": 1.2495183044315992,
	"grad_norm": 1.1982208490371704,
	"learning_rate": 1.2938502743379212e-05,
	"loss": 1.3797,
	"step": 164
	},
	{
	"epoch": 1.2572254335260116,
	"grad_norm": 1.191636562347412,
	"learning_rate": 1.2747877707510252e-05,
	"loss": 1.371,
	"step": 165
	},
	{
	"epoch": 1.264932562620424,
	"grad_norm": 1.2649930715560913,
	"learning_rate": 1.2556166324404747e-05,
	"loss": 1.3789,
	"step": 166
	},
	{
	"epoch": 1.2726396917148362,
	"grad_norm": 1.206629753112793,
	"learning_rate": 1.2363444385329052e-05,
	"loss": 1.4232,
	"step": 167
	},
	{
	"epoch": 1.2803468208092486,
	"grad_norm": 1.3122280836105347,
	"learning_rate": 1.2169788081063181e-05,
	"loss": 1.3871,
	"step": 168
	},
	{
	"epoch": 1.288053949903661,
	"grad_norm": 1.1735293865203857,
	"learning_rate": 1.1975273971779528e-05,
	"loss": 1.3741,
	"step": 169
	},
	{
	"epoch": 1.2957610789980731,
	"grad_norm": 1.3187175989151,
	"learning_rate": 1.1779978956775507e-05,
	"loss": 1.3644,
	"step": 170
	},
	{
	"epoch": 1.3034682080924855,
	"grad_norm": 1.2720284461975098,
	"learning_rate": 1.158398024407215e-05,
	"loss": 1.3661,
	"step": 171
	},
	{
	"epoch": 1.311175337186898,
	"grad_norm": 1.3094247579574585,
	"learning_rate": 1.1387355319890685e-05,
	"loss": 1.3617,
	"step": 172
	},
	{
	"epoch": 1.3188824662813103,
	"grad_norm": 1.2710013389587402,
	"learning_rate": 1.119018191801905e-05,
	"loss": 1.373,
	"step": 173
	},
	{
	"epoch": 1.3265895953757225,
	"grad_norm": 1.2845216989517212,
	"learning_rate": 1.0992537989080618e-05,
	"loss": 1.3712,
	"step": 174
	},
	{
	"epoch": 1.334296724470135,
	"grad_norm": 1.277942419052124,
	"learning_rate": 1.0794501669717146e-05,
	"loss": 1.3676,
	"step": 175
	},
	{
	"epoch": 1.342003853564547,
	"grad_norm": 1.190983533859253,
	"learning_rate": 1.05961512516982e-05,
	"loss": 1.3906,
	"step": 176
	},
	{
	"epoch": 1.3497109826589595,
	"grad_norm": 1.3649415969848633,
	"learning_rate": 1.039756515096926e-05,
	"loss": 1.3883,
	"step": 177
	},
	{
	"epoch": 1.357418111753372,
	"grad_norm": 1.2454570531845093,
	"learning_rate": 1.0198821876650702e-05,
	"loss": 1.3581,
	"step": 178
	},
	{
	"epoch": 1.3651252408477843,
	"grad_norm": 1.2593861818313599,
	"learning_rate": 1e-05,
	"loss": 1.3726,
	"step": 179
	},
	{
	"epoch": 1.3728323699421965,
	"grad_norm": 1.2473970651626587,
	"learning_rate": 9.801178123349298e-06,
	"loss": 1.4003,
	"step": 180
	},
	{
	"epoch": 1.3805394990366089,
	"grad_norm": 1.210317611694336,
	"learning_rate": 9.602434849030747e-06,
	"loss": 1.3875,
	"step": 181
	},
	{
	"epoch": 1.388246628131021,
	"grad_norm": 1.2112162113189697,
	"learning_rate": 9.403848748301802e-06,
	"loss": 1.3769,
	"step": 182
	},
	{
	"epoch": 1.3959537572254335,
	"grad_norm": 1.1812710762023926,
	"learning_rate": 9.205498330282857e-06,
	"loss": 1.3521,
	"step": 183
	},
	{
	"epoch": 1.4036608863198459,
	"grad_norm": 1.2227439880371094,
	"learning_rate": 9.007462010919387e-06,
	"loss": 1.3781,
	"step": 184
	},
	{
	"epoch": 1.4113680154142583,
	"grad_norm": 1.2190202474594116,
	"learning_rate": 8.809818081980954e-06,
	"loss": 1.3529,
	"step": 185
	},
	{
	"epoch": 1.4190751445086704,
	"grad_norm": 1.1302087306976318,
	"learning_rate": 8.61264468010932e-06,
	"loss": 1.3937,
	"step": 186
	},
	{
	"epoch": 1.4267822736030829,
	"grad_norm": 1.1406745910644531,
	"learning_rate": 8.416019755927851e-06,
	"loss": 1.3715,
	"step": 187
	},
	{
	"epoch": 1.4344894026974953,
	"grad_norm": 1.1421207189559937,
	"learning_rate": 8.2200210432245e-06,
	"loss": 1.3441,
	"step": 188
	},
	{
	"epoch": 1.4421965317919074,
	"grad_norm": 1.1282238960266113,
	"learning_rate": 8.024726028220474e-06,
	"loss": 1.3484,
	"step": 189
	},
	{
	"epoch": 1.4499036608863198,
	"grad_norm": 1.1182270050048828,
	"learning_rate": 7.83021191893682e-06,
	"loss": 1.3736,
	"step": 190
	},
	{
	"epoch": 1.4576107899807322,
	"grad_norm": 1.1618040800094604,
	"learning_rate": 7.636555614670953e-06,
	"loss": 1.3481,
	"step": 191
	},
	{
	"epoch": 1.4653179190751446,
	"grad_norm": 1.1137522459030151,
	"learning_rate": 7.443833675595254e-06,
	"loss": 1.3523,
	"step": 192
	},
	{
	"epoch": 1.4730250481695568,
	"grad_norm": 1.2066893577575684,
	"learning_rate": 7.252122292489747e-06,
	"loss": 1.3616,
	"step": 193
	},
	{
	"epoch": 1.4807321772639692,
	"grad_norm": 1.1276185512542725,
	"learning_rate": 7.061497256620793e-06,
	"loss": 1.353,
	"step": 194
	},
	{
	"epoch": 1.4884393063583814,
	"grad_norm": 1.1631989479064941,
	"learning_rate": 6.872033929777731e-06,
	"loss": 1.3483,
	"step": 195
	},
	{
	"epoch": 1.4961464354527938,
	"grad_norm": 1.1466474533081055,
	"learning_rate": 6.683807214479323e-06,
	"loss": 1.3678,
	"step": 196
	},
	{
	"epoch": 1.5038535645472062,
	"grad_norm": 1.132791519165039,
	"learning_rate": 6.496891524361757e-06,
	"loss": 1.3576,
	"step": 197
	},
	{
	"epoch": 1.5115606936416186,
	"grad_norm": 1.1244217157363892,
	"learning_rate": 6.311360754759923e-06,
	"loss": 1.3832,
	"step": 198
	},
	{
	"epoch": 1.5192678227360308,
	"grad_norm": 1.1384022235870361,
	"learning_rate": 6.127288253493591e-06,
	"loss": 1.3578,
	"step": 199
	},
	{
	"epoch": 1.5269749518304432,
	"grad_norm": 1.1305923461914062,
	"learning_rate": 5.944746791870062e-06,
	"loss": 1.368,
	"step": 200
	},
	{
	"epoch": 1.5346820809248554,
	"grad_norm": 1.1514254808425903,
	"learning_rate": 5.7638085359147235e-06,
	"loss": 1.3533,
	"step": 201
	},
	{
	"epoch": 1.5423892100192678,
	"grad_norm": 1.1174412965774536,
	"learning_rate": 5.584545017840886e-06,
	"loss": 1.3729,
	"step": 202
	},
	{
	"epoch": 1.5500963391136802,
	"grad_norm": 1.0917550325393677,
	"learning_rate": 5.40702710777022e-06,
	"loss": 1.3539,
	"step": 203
	},
	{
	"epoch": 1.5578034682080926,
	"grad_norm": 1.0902245044708252,
	"learning_rate": 5.231324985714942e-06,
	"loss": 1.3711,
	"step": 204
	},
	{
	"epoch": 1.565510597302505,
	"grad_norm": 1.1163016557693481,
	"learning_rate": 5.057508113832772e-06,
	"loss": 1.3782,
	"step": 205
	},
	{
	"epoch": 1.5732177263969171,
	"grad_norm": 1.1419026851654053,
	"learning_rate": 4.885645208965779e-06,
	"loss": 1.3825,
	"step": 206
	},
	{
	"epoch": 1.5809248554913293,
	"grad_norm": 1.1543022394180298,
	"learning_rate": 4.7158042154738094e-06,
	"loss": 1.3551,
	"step": 207
	},
	{
	"epoch": 1.5886319845857417,
	"grad_norm": 1.0950229167938232,
	"learning_rate": 4.548052278373327e-06,
	"loss": 1.3375,
	"step": 208
	},
	{
	"epoch": 1.5963391136801541,
	"grad_norm": 1.1293272972106934,
	"learning_rate": 4.382455716792291e-06,
	"loss": 1.3498,
	"step": 209
	},
	{
	"epoch": 1.6040462427745665,
	"grad_norm": 1.123294472694397,
	"learning_rate": 4.219079997751515e-06,
	"loss": 1.3519,
	"step": 210
	},
	{
	"epoch": 1.611753371868979,
	"grad_norm": 1.114963412284851,
	"learning_rate": 4.057989710282897e-06,
	"loss": 1.3597,
	"step": 211
	},
	{
	"epoch": 1.6194605009633911,
	"grad_norm": 1.0550687313079834,
	"learning_rate": 3.899248539894756e-06,
	"loss": 1.3594,
	"step": 212
	},
	{
	"epoch": 1.6271676300578035,
	"grad_norm": 1.0849530696868896,
	"learning_rate": 3.7429192433944016e-06,
	"loss": 1.3585,
	"step": 213
	},
	{
	"epoch": 1.6348747591522157,
	"grad_norm": 1.0992666482925415,
	"learning_rate": 3.589063624077802e-06,
	"loss": 1.3765,
	"step": 214
	},
	{
	"epoch": 1.642581888246628,
	"grad_norm": 1.1028841733932495,
	"learning_rate": 3.4377425072962467e-06,
	"loss": 1.3551,
	"step": 215
	},
	{
	"epoch": 1.6502890173410405,
	"grad_norm": 1.0943406820297241,
	"learning_rate": 3.2890157164096315e-06,
	"loss": 1.3426,
	"step": 216
	},
	{
	"epoch": 1.657996146435453,
	"grad_norm": 1.0819505453109741,
	"learning_rate": 3.1429420491358696e-06,
	"loss": 1.37,
	"step": 217
	},
	{
	"epoch": 1.665703275529865,
	"grad_norm": 1.0802693367004395,
	"learning_rate": 2.999579254305748e-06,
	"loss": 1.363,
	"step": 218
	},
	{
	"epoch": 1.6734104046242775,
	"grad_norm": 1.0993719100952148,
	"learning_rate": 2.8589840090325028e-06,
	"loss": 1.373,
	"step": 219
	},
	{
	"epoch": 1.6811175337186897,
	"grad_norm": 1.1456190347671509,
	"learning_rate": 2.721211896305059e-06,
	"loss": 1.337,
	"step": 220
	},
	{
	"epoch": 1.688824662813102,
	"grad_norm": 1.1663914918899536,
	"learning_rate": 2.5863173830138212e-06,
	"loss": 1.3695,
	"step": 221
	},
	{
	"epoch": 1.6965317919075145,
	"grad_norm": 1.10584557056427,
	"learning_rate": 2.454353798417698e-06,
	"loss": 1.336,
	"step": 222
	},
	{
	"epoch": 1.7042389210019269,
	"grad_norm": 1.0759963989257812,
	"learning_rate": 2.325373313060919e-06,
	"loss": 1.3436,
	"step": 223
	},
	{
	"epoch": 1.7119460500963393,
	"grad_norm": 1.0870240926742554,
	"learning_rate": 2.19942691814788e-06,
	"loss": 1.3458,
	"step": 224
	},
	{
	"epoch": 1.7196531791907514,
	"grad_norm": 1.101758360862732,
	"learning_rate": 2.0765644053842583e-06,
	"loss": 1.3562,
	"step": 225
	},
	{
	"epoch": 1.7273603082851636,
	"grad_norm": 1.0890095233917236,
	"learning_rate": 1.9568343472923524e-06,
	"loss": 1.3717,
	"step": 226
	},
	{
	"epoch": 1.735067437379576,
	"grad_norm": 1.0680255889892578,
	"learning_rate": 1.840284078008393e-06,
	"loss": 1.3402,
	"step": 227
	},
	{
	"epoch": 1.7427745664739884,
	"grad_norm": 1.0939226150512695,
	"learning_rate": 1.7269596745694295e-06,
	"loss": 1.3688,
	"step": 228
	},
	{
	"epoch": 1.7504816955684008,
	"grad_norm": 1.0921400785446167,
	"learning_rate": 1.6169059386972342e-06,
	"loss": 1.3316,
	"step": 229
	},
	{
	"epoch": 1.7581888246628132,
	"grad_norm": 1.048248529434204,
	"learning_rate": 1.5101663790863597e-06,
	"loss": 1.3347,
	"step": 230
	},
	{
	"epoch": 1.7658959537572254,
	"grad_norm": 1.080112338066101,
	"learning_rate": 1.4067831942033904e-06,
	"loss": 1.3476,
	"step": 231
	},
	{
	"epoch": 1.7736030828516378,
	"grad_norm": 1.0681742429733276,
	"learning_rate": 1.3067972556041753e-06,
	"loss": 1.3833,
	"step": 232
	},
	{
	"epoch": 1.78131021194605,
	"grad_norm": 1.070648431777954,
	"learning_rate": 1.2102480917756632e-06,
	"loss": 1.3601,
	"step": 233
	},
	{
	"epoch": 1.7890173410404624,
	"grad_norm": 1.0644824504852295,
	"learning_rate": 1.1171738725086833e-06,
	"loss": 1.3503,
	"step": 234
	},
	{
	"epoch": 1.7967244701348748,
	"grad_norm": 1.0739105939865112,
	"learning_rate": 1.0276113938078768e-06,
	"loss": 1.3686,
	"step": 235
	},
	{
	"epoch": 1.8044315992292872,
	"grad_norm": 1.0678924322128296,
	"learning_rate": 9.415960633447674e-07,
	"loss": 1.348,
	"step": 236
	},
	{
	"epoch": 1.8121387283236994,
	"grad_norm": 1.0799516439437866,
	"learning_rate": 8.591618864596541e-07,
	"loss": 1.3571,
	"step": 237
	},
	{
	"epoch": 1.8198458574181118,
	"grad_norm": 1.0634883642196655,
	"learning_rate": 7.803414527179343e-07,
	"loss": 1.3383,
	"step": 238
	},
	{
	"epoch": 1.827552986512524,
	"grad_norm": 1.0771961212158203,
	"learning_rate": 7.051659230261299e-07,
	"loss": 1.363,
	"step": 239
	},
	{
	"epoch": 1.8352601156069364,
	"grad_norm": 1.0874431133270264,
	"learning_rate": 6.336650173127224e-07,
	"loss": 1.3617,
	"step": 240
	},
	{
	"epoch": 1.8429672447013488,
	"grad_norm": 1.0974795818328857,
	"learning_rate": 5.658670027786561e-07,
	"loss": 1.3685,
	"step": 241
	},
	{
	"epoch": 1.8506743737957612,
	"grad_norm": 1.0479196310043335,
	"learning_rate": 5.017986827221733e-07,
	"loss": 1.3502,
	"step": 242
	},
	{
	"epoch": 1.8583815028901736,
	"grad_norm": 1.0492548942565918,
	"learning_rate": 4.4148538594239176e-07,
	"loss": 1.335,
	"step": 243
	},
	{
	"epoch": 1.8660886319845857,
	"grad_norm": 1.0853266716003418,
	"learning_rate": 3.8495095672579584e-07,
	"loss": 1.374,
	"step": 244
	},
	{
	"epoch": 1.873795761078998,
	"grad_norm": 1.0355820655822754,
	"learning_rate": 3.322177454196285e-07,
	"loss": 1.3624,
	"step": 245
	},
	{
	"epoch": 1.8815028901734103,
	"grad_norm": 1.0834838151931763,
	"learning_rate": 2.8330659959589944e-07,
	"loss": 1.3798,
	"step": 246
	},
	{
	"epoch": 1.8892100192678227,
	"grad_norm": 1.0652782917022705,
	"learning_rate": 2.3823685580949273e-07,
	"loss": 1.3659,
	"step": 247
	},
	{
	"epoch": 1.8969171483622351,
	"grad_norm": 1.0404101610183716,
	"learning_rate": 1.9702633195363918e-07,
	"loss": 1.3512,
	"step": 248
	},
	{
	"epoch": 1.9046242774566475,
	"grad_norm": 1.0568671226501465,
	"learning_rate": 1.5969132021579347e-07,
	"loss": 1.3674,
	"step": 249
	},
	{
	"epoch": 1.9123314065510597,
	"grad_norm": 1.0594927072525024,
	"learning_rate": 1.262465806366664e-07,
	"loss": 1.3562,
	"step": 250
	},
	{
	"epoch": 1.920038535645472,
	"grad_norm": 1.0357680320739746,
	"learning_rate": 9.670533527498139e-08,
	"loss": 1.3609,
	"step": 251
	},
	{
	"epoch": 1.9277456647398843,
	"grad_norm": 1.043979525566101,
	"learning_rate": 7.10792629802659e-08,
	"loss": 1.3224,
	"step": 252
	},
	{
	"epoch": 1.9354527938342967,
	"grad_norm": 1.045696496963501,
	"learning_rate": 4.937849477572587e-08,
	"loss": 1.3764,
	"step": 253
	},
	{
	"epoch": 1.943159922928709,
	"grad_norm": 1.0686546564102173,
	"learning_rate": 3.161160985304168e-08,
	"loss": 1.3563,
	"step": 254
	},
	{
	"epoch": 1.9508670520231215,
	"grad_norm": 1.0238714218139648,
	"learning_rate": 1.77856321806702e-08,
	"loss": 1.3303,
	"step": 255
	},
	{
	"epoch": 1.9585741811175337,
	"grad_norm": 1.0332682132720947,
	"learning_rate": 7.906027726981568e-09,
	"loss": 1.3412,
	"step": 256
	},
	{
	"epoch": 1.966281310211946,
	"grad_norm": 1.079695224761963,
	"learning_rate": 1.9767022993444353e-09,
	"loss": 1.3787,
	"step": 257
	},
	{
	"epoch": 1.9739884393063583,
	"grad_norm": 1.0400174856185913,
	"learning_rate": 0.0,
	"loss": 1.3201,
	"step": 258
	},
	{
	"epoch": 1.9739884393063583,
	"eval_loss": 1.5724855661392212,
	"eval_runtime": 27.4882,
	"eval_samples_per_second": 1.819,
	"eval_steps_per_second": 0.473,
	"step": 258
	}
	],
	"logging_steps": 1,
	"max_steps": 258,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 43,
	"total_flos": 3.045490266539557e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}