gemma-2-9b-4bit-magpie / trainer_state.json

Upload folder using huggingface_hub

d740e35 verified 17 days ago

30 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.821256038647343,
	"eval_steps": 500,
	"global_step": 170,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004830917874396135,
	"grad_norm": 0.7645118236541748,
	"learning_rate": 5e-06,
	"loss": 1.259,
	"step": 1
	},
	{
	"epoch": 0.00966183574879227,
	"grad_norm": 0.9345910549163818,
	"learning_rate": 1e-05,
	"loss": 1.4787,
	"step": 2
	},
	{
	"epoch": 0.014492753623188406,
	"grad_norm": 0.9917318224906921,
	"learning_rate": 1.5e-05,
	"loss": 1.5453,
	"step": 3
	},
	{
	"epoch": 0.01932367149758454,
	"grad_norm": 1.0239824056625366,
	"learning_rate": 2e-05,
	"loss": 1.5964,
	"step": 4
	},
	{
	"epoch": 0.024154589371980676,
	"grad_norm": 0.9726951718330383,
	"learning_rate": 2.5e-05,
	"loss": 1.5687,
	"step": 5
	},
	{
	"epoch": 0.028985507246376812,
	"grad_norm": 0.7599917650222778,
	"learning_rate": 3e-05,
	"loss": 1.5249,
	"step": 6
	},
	{
	"epoch": 0.033816425120772944,
	"grad_norm": 0.5268093347549438,
	"learning_rate": 3.5e-05,
	"loss": 1.4637,
	"step": 7
	},
	{
	"epoch": 0.03864734299516908,
	"grad_norm": 0.5739946365356445,
	"learning_rate": 4e-05,
	"loss": 1.4514,
	"step": 8
	},
	{
	"epoch": 0.043478260869565216,
	"grad_norm": 0.6630675792694092,
	"learning_rate": 4.5e-05,
	"loss": 1.442,
	"step": 9
	},
	{
	"epoch": 0.04830917874396135,
	"grad_norm": 0.5699703097343445,
	"learning_rate": 5e-05,
	"loss": 1.4091,
	"step": 10
	},
	{
	"epoch": 0.05314009661835749,
	"grad_norm": 0.4952673017978668,
	"learning_rate": 5.500000000000001e-05,
	"loss": 1.3877,
	"step": 11
	},
	{
	"epoch": 0.057971014492753624,
	"grad_norm": 0.5180989503860474,
	"learning_rate": 6e-05,
	"loss": 1.3707,
	"step": 12
	},
	{
	"epoch": 0.06280193236714976,
	"grad_norm": 0.41192442178726196,
	"learning_rate": 6.500000000000001e-05,
	"loss": 1.3599,
	"step": 13
	},
	{
	"epoch": 0.06763285024154589,
	"grad_norm": 0.28801196813583374,
	"learning_rate": 7e-05,
	"loss": 1.3484,
	"step": 14
	},
	{
	"epoch": 0.07246376811594203,
	"grad_norm": 0.2618640959262848,
	"learning_rate": 7.500000000000001e-05,
	"loss": 1.3382,
	"step": 15
	},
	{
	"epoch": 0.07729468599033816,
	"grad_norm": 0.2657703161239624,
	"learning_rate": 8e-05,
	"loss": 1.335,
	"step": 16
	},
	{
	"epoch": 0.0821256038647343,
	"grad_norm": 0.2432931512594223,
	"learning_rate": 8.5e-05,
	"loss": 1.323,
	"step": 17
	},
	{
	"epoch": 0.08695652173913043,
	"grad_norm": 0.24172987043857574,
	"learning_rate": 9e-05,
	"loss": 1.3317,
	"step": 18
	},
	{
	"epoch": 0.09178743961352658,
	"grad_norm": 0.26086804270744324,
	"learning_rate": 9.5e-05,
	"loss": 1.3163,
	"step": 19
	},
	{
	"epoch": 0.0966183574879227,
	"grad_norm": 0.2007642686367035,
	"learning_rate": 0.0001,
	"loss": 1.2877,
	"step": 20
	},
	{
	"epoch": 0.10144927536231885,
	"grad_norm": 0.2327784299850464,
	"learning_rate": 9.946524064171123e-05,
	"loss": 1.2899,
	"step": 21
	},
	{
	"epoch": 0.10628019323671498,
	"grad_norm": 0.20648740231990814,
	"learning_rate": 9.893048128342246e-05,
	"loss": 1.287,
	"step": 22
	},
	{
	"epoch": 0.1111111111111111,
	"grad_norm": 0.22094646096229553,
	"learning_rate": 9.83957219251337e-05,
	"loss": 1.2873,
	"step": 23
	},
	{
	"epoch": 0.11594202898550725,
	"grad_norm": 0.18131175637245178,
	"learning_rate": 9.786096256684493e-05,
	"loss": 1.2594,
	"step": 24
	},
	{
	"epoch": 0.12077294685990338,
	"grad_norm": 0.16657911241054535,
	"learning_rate": 9.732620320855615e-05,
	"loss": 1.2639,
	"step": 25
	},
	{
	"epoch": 0.12560386473429952,
	"grad_norm": 0.1740303933620453,
	"learning_rate": 9.679144385026739e-05,
	"loss": 1.2603,
	"step": 26
	},
	{
	"epoch": 0.13043478260869565,
	"grad_norm": 0.15640808641910553,
	"learning_rate": 9.625668449197861e-05,
	"loss": 1.274,
	"step": 27
	},
	{
	"epoch": 0.13526570048309178,
	"grad_norm": 0.16680403053760529,
	"learning_rate": 9.572192513368984e-05,
	"loss": 1.2724,
	"step": 28
	},
	{
	"epoch": 0.14009661835748793,
	"grad_norm": 0.15997755527496338,
	"learning_rate": 9.518716577540108e-05,
	"loss": 1.2672,
	"step": 29
	},
	{
	"epoch": 0.14492753623188406,
	"grad_norm": 0.15305301547050476,
	"learning_rate": 9.46524064171123e-05,
	"loss": 1.2718,
	"step": 30
	},
	{
	"epoch": 0.1497584541062802,
	"grad_norm": 0.14839769899845123,
	"learning_rate": 9.411764705882353e-05,
	"loss": 1.2707,
	"step": 31
	},
	{
	"epoch": 0.15458937198067632,
	"grad_norm": 0.14878958463668823,
	"learning_rate": 9.358288770053476e-05,
	"loss": 1.2648,
	"step": 32
	},
	{
	"epoch": 0.15942028985507245,
	"grad_norm": 0.17154482007026672,
	"learning_rate": 9.3048128342246e-05,
	"loss": 1.2641,
	"step": 33
	},
	{
	"epoch": 0.1642512077294686,
	"grad_norm": 0.1447138488292694,
	"learning_rate": 9.251336898395723e-05,
	"loss": 1.27,
	"step": 34
	},
	{
	"epoch": 0.16908212560386474,
	"grad_norm": 0.1631896197795868,
	"learning_rate": 9.197860962566846e-05,
	"loss": 1.276,
	"step": 35
	},
	{
	"epoch": 0.17391304347826086,
	"grad_norm": 0.14892889559268951,
	"learning_rate": 9.144385026737968e-05,
	"loss": 1.2747,
	"step": 36
	},
	{
	"epoch": 0.178743961352657,
	"grad_norm": 0.1588708907365799,
	"learning_rate": 9.090909090909092e-05,
	"loss": 1.276,
	"step": 37
	},
	{
	"epoch": 0.18357487922705315,
	"grad_norm": 0.151743546128273,
	"learning_rate": 9.037433155080214e-05,
	"loss": 1.2788,
	"step": 38
	},
	{
	"epoch": 0.18840579710144928,
	"grad_norm": 0.15703994035720825,
	"learning_rate": 8.983957219251337e-05,
	"loss": 1.2936,
	"step": 39
	},
	{
	"epoch": 0.1932367149758454,
	"grad_norm": 0.1660437434911728,
	"learning_rate": 8.930481283422461e-05,
	"loss": 1.2824,
	"step": 40
	},
	{
	"epoch": 0.19806763285024154,
	"grad_norm": 0.15268553793430328,
	"learning_rate": 8.877005347593583e-05,
	"loss": 1.3056,
	"step": 41
	},
	{
	"epoch": 0.2028985507246377,
	"grad_norm": 0.1577601134777069,
	"learning_rate": 8.823529411764706e-05,
	"loss": 1.3142,
	"step": 42
	},
	{
	"epoch": 0.20772946859903382,
	"grad_norm": 0.16757714748382568,
	"learning_rate": 8.770053475935829e-05,
	"loss": 1.3389,
	"step": 43
	},
	{
	"epoch": 0.21256038647342995,
	"grad_norm": 0.1712018847465515,
	"learning_rate": 8.716577540106952e-05,
	"loss": 1.3437,
	"step": 44
	},
	{
	"epoch": 0.21739130434782608,
	"grad_norm": 0.1829441487789154,
	"learning_rate": 8.663101604278076e-05,
	"loss": 1.358,
	"step": 45
	},
	{
	"epoch": 0.2222222222222222,
	"grad_norm": 0.20615732669830322,
	"learning_rate": 8.609625668449198e-05,
	"loss": 1.3878,
	"step": 46
	},
	{
	"epoch": 0.22705314009661837,
	"grad_norm": 0.23940807580947876,
	"learning_rate": 8.556149732620321e-05,
	"loss": 1.4699,
	"step": 47
	},
	{
	"epoch": 0.2318840579710145,
	"grad_norm": 0.41468575596809387,
	"learning_rate": 8.502673796791443e-05,
	"loss": 1.4893,
	"step": 48
	},
	{
	"epoch": 0.23671497584541062,
	"grad_norm": 0.5656126737594604,
	"learning_rate": 8.449197860962568e-05,
	"loss": 1.4967,
	"step": 49
	},
	{
	"epoch": 0.24154589371980675,
	"grad_norm": 4.2125325202941895,
	"learning_rate": 8.39572192513369e-05,
	"loss": 1.6295,
	"step": 50
	},
	{
	"epoch": 0.2463768115942029,
	"grad_norm": 1.100631833076477,
	"learning_rate": 8.342245989304814e-05,
	"loss": 1.0523,
	"step": 51
	},
	{
	"epoch": 0.25120772946859904,
	"grad_norm": 0.44898825883865356,
	"learning_rate": 8.288770053475936e-05,
	"loss": 1.106,
	"step": 52
	},
	{
	"epoch": 0.2560386473429952,
	"grad_norm": 0.2860921025276184,
	"learning_rate": 8.23529411764706e-05,
	"loss": 1.1398,
	"step": 53
	},
	{
	"epoch": 0.2608695652173913,
	"grad_norm": 0.28824105858802795,
	"learning_rate": 8.181818181818183e-05,
	"loss": 1.1547,
	"step": 54
	},
	{
	"epoch": 0.26570048309178745,
	"grad_norm": 0.32123416662216187,
	"learning_rate": 8.128342245989305e-05,
	"loss": 1.1646,
	"step": 55
	},
	{
	"epoch": 0.27053140096618356,
	"grad_norm": 0.2752850353717804,
	"learning_rate": 8.074866310160429e-05,
	"loss": 1.1752,
	"step": 56
	},
	{
	"epoch": 0.2753623188405797,
	"grad_norm": 0.22371803224086761,
	"learning_rate": 8.021390374331551e-05,
	"loss": 1.1934,
	"step": 57
	},
	{
	"epoch": 0.28019323671497587,
	"grad_norm": 0.23126192390918732,
	"learning_rate": 7.967914438502674e-05,
	"loss": 1.2057,
	"step": 58
	},
	{
	"epoch": 0.28502415458937197,
	"grad_norm": 0.24694480001926422,
	"learning_rate": 7.914438502673798e-05,
	"loss": 1.1858,
	"step": 59
	},
	{
	"epoch": 0.2898550724637681,
	"grad_norm": 0.20105589926242828,
	"learning_rate": 7.86096256684492e-05,
	"loss": 1.202,
	"step": 60
	},
	{
	"epoch": 0.2946859903381642,
	"grad_norm": 0.15975232422351837,
	"learning_rate": 7.807486631016043e-05,
	"loss": 1.2014,
	"step": 61
	},
	{
	"epoch": 0.2995169082125604,
	"grad_norm": 0.17269295454025269,
	"learning_rate": 7.754010695187165e-05,
	"loss": 1.1878,
	"step": 62
	},
	{
	"epoch": 0.30434782608695654,
	"grad_norm": 0.1990584284067154,
	"learning_rate": 7.700534759358289e-05,
	"loss": 1.1951,
	"step": 63
	},
	{
	"epoch": 0.30917874396135264,
	"grad_norm": 0.18062998354434967,
	"learning_rate": 7.647058823529411e-05,
	"loss": 1.1978,
	"step": 64
	},
	{
	"epoch": 0.3140096618357488,
	"grad_norm": 0.15606802701950073,
	"learning_rate": 7.593582887700536e-05,
	"loss": 1.2153,
	"step": 65
	},
	{
	"epoch": 0.3188405797101449,
	"grad_norm": 0.1434660404920578,
	"learning_rate": 7.540106951871658e-05,
	"loss": 1.2074,
	"step": 66
	},
	{
	"epoch": 0.32367149758454106,
	"grad_norm": 0.1473468840122223,
	"learning_rate": 7.486631016042782e-05,
	"loss": 1.1962,
	"step": 67
	},
	{
	"epoch": 0.3285024154589372,
	"grad_norm": 0.1452961415052414,
	"learning_rate": 7.433155080213904e-05,
	"loss": 1.209,
	"step": 68
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.14672888815402985,
	"learning_rate": 7.379679144385027e-05,
	"loss": 1.2126,
	"step": 69
	},
	{
	"epoch": 0.33816425120772947,
	"grad_norm": 0.14124266803264618,
	"learning_rate": 7.326203208556151e-05,
	"loss": 1.2111,
	"step": 70
	},
	{
	"epoch": 0.34299516908212563,
	"grad_norm": 0.13139352202415466,
	"learning_rate": 7.272727272727273e-05,
	"loss": 1.216,
	"step": 71
	},
	{
	"epoch": 0.34782608695652173,
	"grad_norm": 0.1385214626789093,
	"learning_rate": 7.219251336898396e-05,
	"loss": 1.2199,
	"step": 72
	},
	{
	"epoch": 0.3526570048309179,
	"grad_norm": 0.1288975179195404,
	"learning_rate": 7.165775401069518e-05,
	"loss": 1.201,
	"step": 73
	},
	{
	"epoch": 0.357487922705314,
	"grad_norm": 0.13003361225128174,
	"learning_rate": 7.112299465240642e-05,
	"loss": 1.2186,
	"step": 74
	},
	{
	"epoch": 0.36231884057971014,
	"grad_norm": 0.13762855529785156,
	"learning_rate": 7.058823529411765e-05,
	"loss": 1.2209,
	"step": 75
	},
	{
	"epoch": 0.3671497584541063,
	"grad_norm": 0.13935087621212006,
	"learning_rate": 7.005347593582889e-05,
	"loss": 1.2219,
	"step": 76
	},
	{
	"epoch": 0.3719806763285024,
	"grad_norm": 0.13384683430194855,
	"learning_rate": 6.951871657754011e-05,
	"loss": 1.2419,
	"step": 77
	},
	{
	"epoch": 0.37681159420289856,
	"grad_norm": 0.12453139573335648,
	"learning_rate": 6.898395721925133e-05,
	"loss": 1.2154,
	"step": 78
	},
	{
	"epoch": 0.38164251207729466,
	"grad_norm": 0.13903535902500153,
	"learning_rate": 6.844919786096257e-05,
	"loss": 1.2378,
	"step": 79
	},
	{
	"epoch": 0.3864734299516908,
	"grad_norm": 0.13833968341350555,
	"learning_rate": 6.79144385026738e-05,
	"loss": 1.2244,
	"step": 80
	},
	{
	"epoch": 0.391304347826087,
	"grad_norm": 0.13052114844322205,
	"learning_rate": 6.737967914438504e-05,
	"loss": 1.226,
	"step": 81
	},
	{
	"epoch": 0.3961352657004831,
	"grad_norm": 0.13437196612358093,
	"learning_rate": 6.684491978609626e-05,
	"loss": 1.2457,
	"step": 82
	},
	{
	"epoch": 0.40096618357487923,
	"grad_norm": 0.13693881034851074,
	"learning_rate": 6.631016042780749e-05,
	"loss": 1.2384,
	"step": 83
	},
	{
	"epoch": 0.4057971014492754,
	"grad_norm": 0.13426737487316132,
	"learning_rate": 6.577540106951871e-05,
	"loss": 1.2427,
	"step": 84
	},
	{
	"epoch": 0.4106280193236715,
	"grad_norm": 0.13844414055347443,
	"learning_rate": 6.524064171122995e-05,
	"loss": 1.2661,
	"step": 85
	},
	{
	"epoch": 0.41545893719806765,
	"grad_norm": 0.13957887887954712,
	"learning_rate": 6.470588235294118e-05,
	"loss": 1.2696,
	"step": 86
	},
	{
	"epoch": 0.42028985507246375,
	"grad_norm": 0.13465899229049683,
	"learning_rate": 6.41711229946524e-05,
	"loss": 1.2591,
	"step": 87
	},
	{
	"epoch": 0.4251207729468599,
	"grad_norm": 0.1441555917263031,
	"learning_rate": 6.363636363636364e-05,
	"loss": 1.2766,
	"step": 88
	},
	{
	"epoch": 0.42995169082125606,
	"grad_norm": 0.1500505656003952,
	"learning_rate": 6.310160427807486e-05,
	"loss": 1.2887,
	"step": 89
	},
	{
	"epoch": 0.43478260869565216,
	"grad_norm": 0.15137352049350739,
	"learning_rate": 6.25668449197861e-05,
	"loss": 1.2792,
	"step": 90
	},
	{
	"epoch": 0.4396135265700483,
	"grad_norm": 0.15071454644203186,
	"learning_rate": 6.203208556149733e-05,
	"loss": 1.2876,
	"step": 91
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 0.1570783108472824,
	"learning_rate": 6.149732620320857e-05,
	"loss": 1.3223,
	"step": 92
	},
	{
	"epoch": 0.4492753623188406,
	"grad_norm": 0.16483648121356964,
	"learning_rate": 6.096256684491979e-05,
	"loss": 1.3285,
	"step": 93
	},
	{
	"epoch": 0.45410628019323673,
	"grad_norm": 0.1700102537870407,
	"learning_rate": 6.0427807486631016e-05,
	"loss": 1.3349,
	"step": 94
	},
	{
	"epoch": 0.45893719806763283,
	"grad_norm": 0.1778935194015503,
	"learning_rate": 5.9893048128342244e-05,
	"loss": 1.3644,
	"step": 95
	},
	{
	"epoch": 0.463768115942029,
	"grad_norm": 0.19471201300621033,
	"learning_rate": 5.9358288770053486e-05,
	"loss": 1.4028,
	"step": 96
	},
	{
	"epoch": 0.46859903381642515,
	"grad_norm": 0.25646305084228516,
	"learning_rate": 5.882352941176471e-05,
	"loss": 1.4694,
	"step": 97
	},
	{
	"epoch": 0.47342995169082125,
	"grad_norm": 0.277474045753479,
	"learning_rate": 5.8288770053475936e-05,
	"loss": 1.5052,
	"step": 98
	},
	{
	"epoch": 0.4782608695652174,
	"grad_norm": 0.33792170882225037,
	"learning_rate": 5.7754010695187164e-05,
	"loss": 1.5414,
	"step": 99
	},
	{
	"epoch": 0.4830917874396135,
	"grad_norm": 0.6432341933250427,
	"learning_rate": 5.721925133689839e-05,
	"loss": 1.6046,
	"step": 100
	},
	{
	"epoch": 0.48792270531400966,
	"grad_norm": 0.5846565365791321,
	"learning_rate": 5.6684491978609634e-05,
	"loss": 0.9549,
	"step": 101
	},
	{
	"epoch": 0.4927536231884058,
	"grad_norm": 0.49914559721946716,
	"learning_rate": 5.614973262032086e-05,
	"loss": 1.0978,
	"step": 102
	},
	{
	"epoch": 0.4975845410628019,
	"grad_norm": 0.33365777134895325,
	"learning_rate": 5.561497326203209e-05,
	"loss": 1.1242,
	"step": 103
	},
	{
	"epoch": 0.5024154589371981,
	"grad_norm": 0.7763075828552246,
	"learning_rate": 5.508021390374332e-05,
	"loss": 1.1525,
	"step": 104
	},
	{
	"epoch": 0.5072463768115942,
	"grad_norm": 0.2733679413795471,
	"learning_rate": 5.4545454545454546e-05,
	"loss": 1.1607,
	"step": 105
	},
	{
	"epoch": 0.5120772946859904,
	"grad_norm": 0.26070019602775574,
	"learning_rate": 5.401069518716578e-05,
	"loss": 1.1609,
	"step": 106
	},
	{
	"epoch": 0.5169082125603864,
	"grad_norm": 0.2708110809326172,
	"learning_rate": 5.347593582887701e-05,
	"loss": 1.1815,
	"step": 107
	},
	{
	"epoch": 0.5217391304347826,
	"grad_norm": 0.26362475752830505,
	"learning_rate": 5.294117647058824e-05,
	"loss": 1.1943,
	"step": 108
	},
	{
	"epoch": 0.5265700483091788,
	"grad_norm": 0.21209686994552612,
	"learning_rate": 5.2406417112299466e-05,
	"loss": 1.1944,
	"step": 109
	},
	{
	"epoch": 0.5314009661835749,
	"grad_norm": 0.21895644068717957,
	"learning_rate": 5.1871657754010694e-05,
	"loss": 1.192,
	"step": 110
	},
	{
	"epoch": 0.5362318840579711,
	"grad_norm": 0.20762521028518677,
	"learning_rate": 5.1336898395721935e-05,
	"loss": 1.1987,
	"step": 111
	},
	{
	"epoch": 0.5410628019323671,
	"grad_norm": 0.18395845592021942,
	"learning_rate": 5.0802139037433164e-05,
	"loss": 1.1925,
	"step": 112
	},
	{
	"epoch": 0.5458937198067633,
	"grad_norm": 0.1653558313846588,
	"learning_rate": 5.026737967914439e-05,
	"loss": 1.1961,
	"step": 113
	},
	{
	"epoch": 0.5507246376811594,
	"grad_norm": 0.1628160923719406,
	"learning_rate": 4.973262032085561e-05,
	"loss": 1.1993,
	"step": 114
	},
	{
	"epoch": 0.5555555555555556,
	"grad_norm": 0.17022235691547394,
	"learning_rate": 4.919786096256685e-05,
	"loss": 1.2101,
	"step": 115
	},
	{
	"epoch": 0.5603864734299517,
	"grad_norm": 0.1710771918296814,
	"learning_rate": 4.8663101604278076e-05,
	"loss": 1.2059,
	"step": 116
	},
	{
	"epoch": 0.5652173913043478,
	"grad_norm": 0.17160499095916748,
	"learning_rate": 4.8128342245989304e-05,
	"loss": 1.206,
	"step": 117
	},
	{
	"epoch": 0.5700483091787439,
	"grad_norm": 0.15871083736419678,
	"learning_rate": 4.759358288770054e-05,
	"loss": 1.2067,
	"step": 118
	},
	{
	"epoch": 0.5748792270531401,
	"grad_norm": 0.14880803227424622,
	"learning_rate": 4.705882352941177e-05,
	"loss": 1.218,
	"step": 119
	},
	{
	"epoch": 0.5797101449275363,
	"grad_norm": 0.14413942396640778,
	"learning_rate": 4.6524064171123e-05,
	"loss": 1.1958,
	"step": 120
	},
	{
	"epoch": 0.5845410628019324,
	"grad_norm": 0.14965958893299103,
	"learning_rate": 4.598930481283423e-05,
	"loss": 1.2206,
	"step": 121
	},
	{
	"epoch": 0.5893719806763285,
	"grad_norm": 0.14546802639961243,
	"learning_rate": 4.545454545454546e-05,
	"loss": 1.2107,
	"step": 122
	},
	{
	"epoch": 0.5942028985507246,
	"grad_norm": 0.14043672382831573,
	"learning_rate": 4.491978609625669e-05,
	"loss": 1.2059,
	"step": 123
	},
	{
	"epoch": 0.5990338164251208,
	"grad_norm": 0.1403893083333969,
	"learning_rate": 4.4385026737967915e-05,
	"loss": 1.2327,
	"step": 124
	},
	{
	"epoch": 0.6038647342995169,
	"grad_norm": 0.13266952335834503,
	"learning_rate": 4.385026737967914e-05,
	"loss": 1.194,
	"step": 125
	},
	{
	"epoch": 0.6086956521739131,
	"grad_norm": 0.1347023993730545,
	"learning_rate": 4.331550802139038e-05,
	"loss": 1.1951,
	"step": 126
	},
	{
	"epoch": 0.6135265700483091,
	"grad_norm": 0.13116984069347382,
	"learning_rate": 4.2780748663101606e-05,
	"loss": 1.2206,
	"step": 127
	},
	{
	"epoch": 0.6183574879227053,
	"grad_norm": 0.14027127623558044,
	"learning_rate": 4.224598930481284e-05,
	"loss": 1.2304,
	"step": 128
	},
	{
	"epoch": 0.6231884057971014,
	"grad_norm": 0.13990454375743866,
	"learning_rate": 4.171122994652407e-05,
	"loss": 1.2229,
	"step": 129
	},
	{
	"epoch": 0.6280193236714976,
	"grad_norm": 0.13515028357505798,
	"learning_rate": 4.11764705882353e-05,
	"loss": 1.2191,
	"step": 130
	},
	{
	"epoch": 0.6328502415458938,
	"grad_norm": 0.1329352706670761,
	"learning_rate": 4.0641711229946525e-05,
	"loss": 1.2308,
	"step": 131
	},
	{
	"epoch": 0.6376811594202898,
	"grad_norm": 0.13061358034610748,
	"learning_rate": 4.0106951871657754e-05,
	"loss": 1.2446,
	"step": 132
	},
	{
	"epoch": 0.642512077294686,
	"grad_norm": 0.13514551520347595,
	"learning_rate": 3.957219251336899e-05,
	"loss": 1.2425,
	"step": 133
	},
	{
	"epoch": 0.6473429951690821,
	"grad_norm": 0.13962285220623016,
	"learning_rate": 3.903743315508022e-05,
	"loss": 1.2574,
	"step": 134
	},
	{
	"epoch": 0.6521739130434783,
	"grad_norm": 0.14081381261348724,
	"learning_rate": 3.8502673796791445e-05,
	"loss": 1.247,
	"step": 135
	},
	{
	"epoch": 0.6570048309178744,
	"grad_norm": 0.1396479606628418,
	"learning_rate": 3.796791443850268e-05,
	"loss": 1.2379,
	"step": 136
	},
	{
	"epoch": 0.6618357487922706,
	"grad_norm": 0.13990682363510132,
	"learning_rate": 3.743315508021391e-05,
	"loss": 1.2637,
	"step": 137
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.1405869573354721,
	"learning_rate": 3.6898395721925136e-05,
	"loss": 1.2458,
	"step": 138
	},
	{
	"epoch": 0.6714975845410628,
	"grad_norm": 0.14569957554340363,
	"learning_rate": 3.6363636363636364e-05,
	"loss": 1.2755,
	"step": 139
	},
	{
	"epoch": 0.6763285024154589,
	"grad_norm": 0.14868015050888062,
	"learning_rate": 3.582887700534759e-05,
	"loss": 1.2836,
	"step": 140
	},
	{
	"epoch": 0.6811594202898551,
	"grad_norm": 0.1531868726015091,
	"learning_rate": 3.529411764705883e-05,
	"loss": 1.295,
	"step": 141
	},
	{
	"epoch": 0.6859903381642513,
	"grad_norm": 0.16108393669128418,
	"learning_rate": 3.4759358288770055e-05,
	"loss": 1.3239,
	"step": 142
	},
	{
	"epoch": 0.6908212560386473,
	"grad_norm": 0.1609143316745758,
	"learning_rate": 3.4224598930481284e-05,
	"loss": 1.3301,
	"step": 143
	},
	{
	"epoch": 0.6956521739130435,
	"grad_norm": 0.16705213487148285,
	"learning_rate": 3.368983957219252e-05,
	"loss": 1.3484,
	"step": 144
	},
	{
	"epoch": 0.7004830917874396,
	"grad_norm": 0.18058659136295319,
	"learning_rate": 3.3155080213903747e-05,
	"loss": 1.3794,
	"step": 145
	},
	{
	"epoch": 0.7053140096618358,
	"grad_norm": 0.20221418142318726,
	"learning_rate": 3.2620320855614975e-05,
	"loss": 1.4019,
	"step": 146
	},
	{
	"epoch": 0.7101449275362319,
	"grad_norm": 0.24968379735946655,
	"learning_rate": 3.20855614973262e-05,
	"loss": 1.4674,
	"step": 147
	},
	{
	"epoch": 0.714975845410628,
	"grad_norm": 0.3043461740016937,
	"learning_rate": 3.155080213903743e-05,
	"loss": 1.4972,
	"step": 148
	},
	{
	"epoch": 0.7198067632850241,
	"grad_norm": 0.33808770775794983,
	"learning_rate": 3.1016042780748666e-05,
	"loss": 1.5237,
	"step": 149
	},
	{
	"epoch": 0.7246376811594203,
	"grad_norm": 0.5125290155410767,
	"learning_rate": 3.0481283422459894e-05,
	"loss": 1.5533,
	"step": 150
	},
	{
	"epoch": 0.7294685990338164,
	"grad_norm": 0.25133025646209717,
	"learning_rate": 2.9946524064171122e-05,
	"loss": 0.8978,
	"step": 151
	},
	{
	"epoch": 0.7342995169082126,
	"grad_norm": 0.30135515332221985,
	"learning_rate": 2.9411764705882354e-05,
	"loss": 1.0278,
	"step": 152
	},
	{
	"epoch": 0.7391304347826086,
	"grad_norm": 0.2961145043373108,
	"learning_rate": 2.8877005347593582e-05,
	"loss": 1.1024,
	"step": 153
	},
	{
	"epoch": 0.7439613526570048,
	"grad_norm": 0.273294597864151,
	"learning_rate": 2.8342245989304817e-05,
	"loss": 1.1373,
	"step": 154
	},
	{
	"epoch": 0.748792270531401,
	"grad_norm": 0.23799936473369598,
	"learning_rate": 2.7807486631016045e-05,
	"loss": 1.1419,
	"step": 155
	},
	{
	"epoch": 0.7536231884057971,
	"grad_norm": 0.21061824262142181,
	"learning_rate": 2.7272727272727273e-05,
	"loss": 1.1512,
	"step": 156
	},
	{
	"epoch": 0.7584541062801933,
	"grad_norm": 0.21470795571804047,
	"learning_rate": 2.6737967914438505e-05,
	"loss": 1.1616,
	"step": 157
	},
	{
	"epoch": 0.7632850241545893,
	"grad_norm": 0.21231332421302795,
	"learning_rate": 2.6203208556149733e-05,
	"loss": 1.1662,
	"step": 158
	},
	{
	"epoch": 0.7681159420289855,
	"grad_norm": 0.20699279010295868,
	"learning_rate": 2.5668449197860968e-05,
	"loss": 1.1716,
	"step": 159
	},
	{
	"epoch": 0.7729468599033816,
	"grad_norm": 0.20150579512119293,
	"learning_rate": 2.5133689839572196e-05,
	"loss": 1.1836,
	"step": 160
	},
	{
	"epoch": 0.7777777777777778,
	"grad_norm": 0.1880892962217331,
	"learning_rate": 2.4598930481283424e-05,
	"loss": 1.1794,
	"step": 161
	},
	{
	"epoch": 0.782608695652174,
	"grad_norm": 0.17840184271335602,
	"learning_rate": 2.4064171122994652e-05,
	"loss": 1.1757,
	"step": 162
	},
	{
	"epoch": 0.7874396135265701,
	"grad_norm": 0.18409621715545654,
	"learning_rate": 2.3529411764705884e-05,
	"loss": 1.1935,
	"step": 163
	},
	{
	"epoch": 0.7922705314009661,
	"grad_norm": 0.18802137672901154,
	"learning_rate": 2.2994652406417115e-05,
	"loss": 1.1795,
	"step": 164
	},
	{
	"epoch": 0.7971014492753623,
	"grad_norm": 0.1941538006067276,
	"learning_rate": 2.2459893048128343e-05,
	"loss": 1.2069,
	"step": 165
	},
	{
	"epoch": 0.8019323671497585,
	"grad_norm": 0.18578243255615234,
	"learning_rate": 2.192513368983957e-05,
	"loss": 1.1965,
	"step": 166
	},
	{
	"epoch": 0.8067632850241546,
	"grad_norm": 0.17622320353984833,
	"learning_rate": 2.1390374331550803e-05,
	"loss": 1.1839,
	"step": 167
	},
	{
	"epoch": 0.8115942028985508,
	"grad_norm": 0.16080059111118317,
	"learning_rate": 2.0855614973262035e-05,
	"loss": 1.1926,
	"step": 168
	},
	{
	"epoch": 0.8164251207729468,
	"grad_norm": 0.14835765957832336,
	"learning_rate": 2.0320855614973263e-05,
	"loss": 1.1958,
	"step": 169
	},
	{
	"epoch": 0.821256038647343,
	"grad_norm": 0.14560697972774506,
	"learning_rate": 1.9786096256684494e-05,
	"loss": 1.2047,
	"step": 170
	}
	],
	"logging_steps": 1,
	"max_steps": 207,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 10,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.493930894749139e+18,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}