hp_ablations_qwen_bsz256 / trainer_state.json

End of training

3dfea0c verified 17 days ago

43.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9982905982905983,
	"eval_steps": 500,
	"global_step": 2631,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.011396011396011397,
	"grad_norm": 1.1062365284901086,
	"learning_rate": 5e-06,
	"loss": 0.7552,
	"step": 10
	},
	{
	"epoch": 0.022792022792022793,
	"grad_norm": 1.023752202077829,
	"learning_rate": 5e-06,
	"loss": 0.7051,
	"step": 20
	},
	{
	"epoch": 0.03418803418803419,
	"grad_norm": 1.0176219936883037,
	"learning_rate": 5e-06,
	"loss": 0.6821,
	"step": 30
	},
	{
	"epoch": 0.045584045584045586,
	"grad_norm": 0.7858042820189418,
	"learning_rate": 5e-06,
	"loss": 0.6856,
	"step": 40
	},
	{
	"epoch": 0.05698005698005698,
	"grad_norm": 0.7933715158385674,
	"learning_rate": 5e-06,
	"loss": 0.6637,
	"step": 50
	},
	{
	"epoch": 0.06837606837606838,
	"grad_norm": 0.8447246301495516,
	"learning_rate": 5e-06,
	"loss": 0.6622,
	"step": 60
	},
	{
	"epoch": 0.07977207977207977,
	"grad_norm": 0.5473425796189046,
	"learning_rate": 5e-06,
	"loss": 0.6663,
	"step": 70
	},
	{
	"epoch": 0.09116809116809117,
	"grad_norm": 0.4937146235526688,
	"learning_rate": 5e-06,
	"loss": 0.6571,
	"step": 80
	},
	{
	"epoch": 0.10256410256410256,
	"grad_norm": 0.44446776727990156,
	"learning_rate": 5e-06,
	"loss": 0.6638,
	"step": 90
	},
	{
	"epoch": 0.11396011396011396,
	"grad_norm": 0.41849443527281166,
	"learning_rate": 5e-06,
	"loss": 0.6579,
	"step": 100
	},
	{
	"epoch": 0.12535612535612536,
	"grad_norm": 0.45940085033829986,
	"learning_rate": 5e-06,
	"loss": 0.6526,
	"step": 110
	},
	{
	"epoch": 0.13675213675213677,
	"grad_norm": 0.45931809899313636,
	"learning_rate": 5e-06,
	"loss": 0.6369,
	"step": 120
	},
	{
	"epoch": 0.14814814814814814,
	"grad_norm": 0.40591863341923856,
	"learning_rate": 5e-06,
	"loss": 0.6341,
	"step": 130
	},
	{
	"epoch": 0.15954415954415954,
	"grad_norm": 0.42649491292164343,
	"learning_rate": 5e-06,
	"loss": 0.6573,
	"step": 140
	},
	{
	"epoch": 0.17094017094017094,
	"grad_norm": 0.42419739622977437,
	"learning_rate": 5e-06,
	"loss": 0.6449,
	"step": 150
	},
	{
	"epoch": 0.18233618233618235,
	"grad_norm": 0.41999442196069786,
	"learning_rate": 5e-06,
	"loss": 0.6558,
	"step": 160
	},
	{
	"epoch": 0.19373219373219372,
	"grad_norm": 0.4637200181201795,
	"learning_rate": 5e-06,
	"loss": 0.6287,
	"step": 170
	},
	{
	"epoch": 0.20512820512820512,
	"grad_norm": 0.41547705456707573,
	"learning_rate": 5e-06,
	"loss": 0.6439,
	"step": 180
	},
	{
	"epoch": 0.21652421652421652,
	"grad_norm": 0.43068607713697277,
	"learning_rate": 5e-06,
	"loss": 0.6396,
	"step": 190
	},
	{
	"epoch": 0.22792022792022792,
	"grad_norm": 0.4469322057262852,
	"learning_rate": 5e-06,
	"loss": 0.6356,
	"step": 200
	},
	{
	"epoch": 0.23931623931623933,
	"grad_norm": 0.4680911563203023,
	"learning_rate": 5e-06,
	"loss": 0.6306,
	"step": 210
	},
	{
	"epoch": 0.25071225071225073,
	"grad_norm": 0.4095294859092795,
	"learning_rate": 5e-06,
	"loss": 0.6277,
	"step": 220
	},
	{
	"epoch": 0.2621082621082621,
	"grad_norm": 0.45759740926828324,
	"learning_rate": 5e-06,
	"loss": 0.6339,
	"step": 230
	},
	{
	"epoch": 0.27350427350427353,
	"grad_norm": 0.4140379707131278,
	"learning_rate": 5e-06,
	"loss": 0.641,
	"step": 240
	},
	{
	"epoch": 0.2849002849002849,
	"grad_norm": 0.4150377896672994,
	"learning_rate": 5e-06,
	"loss": 0.6372,
	"step": 250
	},
	{
	"epoch": 0.2962962962962963,
	"grad_norm": 0.402341599576737,
	"learning_rate": 5e-06,
	"loss": 0.6403,
	"step": 260
	},
	{
	"epoch": 0.3076923076923077,
	"grad_norm": 0.42585340932157245,
	"learning_rate": 5e-06,
	"loss": 0.6415,
	"step": 270
	},
	{
	"epoch": 0.3190883190883191,
	"grad_norm": 0.45653778556147656,
	"learning_rate": 5e-06,
	"loss": 0.6399,
	"step": 280
	},
	{
	"epoch": 0.33048433048433046,
	"grad_norm": 0.4195393934267986,
	"learning_rate": 5e-06,
	"loss": 0.6336,
	"step": 290
	},
	{
	"epoch": 0.3418803418803419,
	"grad_norm": 0.46802670579447797,
	"learning_rate": 5e-06,
	"loss": 0.6337,
	"step": 300
	},
	{
	"epoch": 0.35327635327635326,
	"grad_norm": 0.4203687337846972,
	"learning_rate": 5e-06,
	"loss": 0.637,
	"step": 310
	},
	{
	"epoch": 0.3646723646723647,
	"grad_norm": 0.421822849143681,
	"learning_rate": 5e-06,
	"loss": 0.64,
	"step": 320
	},
	{
	"epoch": 0.37606837606837606,
	"grad_norm": 0.4283596513144174,
	"learning_rate": 5e-06,
	"loss": 0.6252,
	"step": 330
	},
	{
	"epoch": 0.38746438746438744,
	"grad_norm": 0.42324206057009117,
	"learning_rate": 5e-06,
	"loss": 0.636,
	"step": 340
	},
	{
	"epoch": 0.39886039886039887,
	"grad_norm": 0.4062746526152,
	"learning_rate": 5e-06,
	"loss": 0.6387,
	"step": 350
	},
	{
	"epoch": 0.41025641025641024,
	"grad_norm": 0.43787430045384385,
	"learning_rate": 5e-06,
	"loss": 0.6338,
	"step": 360
	},
	{
	"epoch": 0.42165242165242167,
	"grad_norm": 0.4067600081663935,
	"learning_rate": 5e-06,
	"loss": 0.6337,
	"step": 370
	},
	{
	"epoch": 0.43304843304843305,
	"grad_norm": 0.405651618692542,
	"learning_rate": 5e-06,
	"loss": 0.6235,
	"step": 380
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 0.39893273449497857,
	"learning_rate": 5e-06,
	"loss": 0.6305,
	"step": 390
	},
	{
	"epoch": 0.45584045584045585,
	"grad_norm": 0.4181843535226299,
	"learning_rate": 5e-06,
	"loss": 0.6424,
	"step": 400
	},
	{
	"epoch": 0.4672364672364672,
	"grad_norm": 0.42805555885189545,
	"learning_rate": 5e-06,
	"loss": 0.6319,
	"step": 410
	},
	{
	"epoch": 0.47863247863247865,
	"grad_norm": 0.44895050300003103,
	"learning_rate": 5e-06,
	"loss": 0.6332,
	"step": 420
	},
	{
	"epoch": 0.49002849002849,
	"grad_norm": 0.3919946319959885,
	"learning_rate": 5e-06,
	"loss": 0.6328,
	"step": 430
	},
	{
	"epoch": 0.5014245014245015,
	"grad_norm": 0.415410598131448,
	"learning_rate": 5e-06,
	"loss": 0.6402,
	"step": 440
	},
	{
	"epoch": 0.5128205128205128,
	"grad_norm": 0.4393590856709396,
	"learning_rate": 5e-06,
	"loss": 0.6306,
	"step": 450
	},
	{
	"epoch": 0.5242165242165242,
	"grad_norm": 0.43301735874135633,
	"learning_rate": 5e-06,
	"loss": 0.6344,
	"step": 460
	},
	{
	"epoch": 0.5356125356125356,
	"grad_norm": 0.44449051507968934,
	"learning_rate": 5e-06,
	"loss": 0.6231,
	"step": 470
	},
	{
	"epoch": 0.5470085470085471,
	"grad_norm": 0.41409814672813067,
	"learning_rate": 5e-06,
	"loss": 0.6341,
	"step": 480
	},
	{
	"epoch": 0.5584045584045584,
	"grad_norm": 0.404549684025027,
	"learning_rate": 5e-06,
	"loss": 0.6351,
	"step": 490
	},
	{
	"epoch": 0.5698005698005698,
	"grad_norm": 0.4180598818867765,
	"learning_rate": 5e-06,
	"loss": 0.6309,
	"step": 500
	},
	{
	"epoch": 0.5811965811965812,
	"grad_norm": 0.40656312646305987,
	"learning_rate": 5e-06,
	"loss": 0.6331,
	"step": 510
	},
	{
	"epoch": 0.5925925925925926,
	"grad_norm": 0.40247877044565616,
	"learning_rate": 5e-06,
	"loss": 0.6303,
	"step": 520
	},
	{
	"epoch": 0.603988603988604,
	"grad_norm": 0.4186724709073127,
	"learning_rate": 5e-06,
	"loss": 0.6295,
	"step": 530
	},
	{
	"epoch": 0.6153846153846154,
	"grad_norm": 0.3956067792496914,
	"learning_rate": 5e-06,
	"loss": 0.629,
	"step": 540
	},
	{
	"epoch": 0.6267806267806267,
	"grad_norm": 0.43010520803632213,
	"learning_rate": 5e-06,
	"loss": 0.6418,
	"step": 550
	},
	{
	"epoch": 0.6381766381766382,
	"grad_norm": 0.4242582783709579,
	"learning_rate": 5e-06,
	"loss": 0.6365,
	"step": 560
	},
	{
	"epoch": 0.6495726495726496,
	"grad_norm": 0.4574479642511814,
	"learning_rate": 5e-06,
	"loss": 0.6298,
	"step": 570
	},
	{
	"epoch": 0.6609686609686609,
	"grad_norm": 0.3999462091117723,
	"learning_rate": 5e-06,
	"loss": 0.6264,
	"step": 580
	},
	{
	"epoch": 0.6723646723646723,
	"grad_norm": 0.43650664891174007,
	"learning_rate": 5e-06,
	"loss": 0.6338,
	"step": 590
	},
	{
	"epoch": 0.6837606837606838,
	"grad_norm": 0.4209881207979195,
	"learning_rate": 5e-06,
	"loss": 0.6185,
	"step": 600
	},
	{
	"epoch": 0.6951566951566952,
	"grad_norm": 0.4356837089917804,
	"learning_rate": 5e-06,
	"loss": 0.6285,
	"step": 610
	},
	{
	"epoch": 0.7065527065527065,
	"grad_norm": 0.4267755900128707,
	"learning_rate": 5e-06,
	"loss": 0.6249,
	"step": 620
	},
	{
	"epoch": 0.717948717948718,
	"grad_norm": 0.4252749404036598,
	"learning_rate": 5e-06,
	"loss": 0.6297,
	"step": 630
	},
	{
	"epoch": 0.7293447293447294,
	"grad_norm": 0.43616986641525424,
	"learning_rate": 5e-06,
	"loss": 0.624,
	"step": 640
	},
	{
	"epoch": 0.7407407407407407,
	"grad_norm": 0.4164486549654651,
	"learning_rate": 5e-06,
	"loss": 0.629,
	"step": 650
	},
	{
	"epoch": 0.7521367521367521,
	"grad_norm": 0.476343190261518,
	"learning_rate": 5e-06,
	"loss": 0.6177,
	"step": 660
	},
	{
	"epoch": 0.7635327635327636,
	"grad_norm": 0.40486827396324065,
	"learning_rate": 5e-06,
	"loss": 0.6261,
	"step": 670
	},
	{
	"epoch": 0.7749287749287749,
	"grad_norm": 0.4212351136466915,
	"learning_rate": 5e-06,
	"loss": 0.6304,
	"step": 680
	},
	{
	"epoch": 0.7863247863247863,
	"grad_norm": 0.41575901401793347,
	"learning_rate": 5e-06,
	"loss": 0.6398,
	"step": 690
	},
	{
	"epoch": 0.7977207977207977,
	"grad_norm": 0.4285454155969582,
	"learning_rate": 5e-06,
	"loss": 0.6319,
	"step": 700
	},
	{
	"epoch": 0.8091168091168092,
	"grad_norm": 0.40726171067131095,
	"learning_rate": 5e-06,
	"loss": 0.6314,
	"step": 710
	},
	{
	"epoch": 0.8205128205128205,
	"grad_norm": 0.41168149111216795,
	"learning_rate": 5e-06,
	"loss": 0.6243,
	"step": 720
	},
	{
	"epoch": 0.8319088319088319,
	"grad_norm": 0.435567753751087,
	"learning_rate": 5e-06,
	"loss": 0.6226,
	"step": 730
	},
	{
	"epoch": 0.8433048433048433,
	"grad_norm": 0.43940850789677355,
	"learning_rate": 5e-06,
	"loss": 0.6208,
	"step": 740
	},
	{
	"epoch": 0.8547008547008547,
	"grad_norm": 0.4188384621992378,
	"learning_rate": 5e-06,
	"loss": 0.6338,
	"step": 750
	},
	{
	"epoch": 0.8660968660968661,
	"grad_norm": 0.3960108041735021,
	"learning_rate": 5e-06,
	"loss": 0.6337,
	"step": 760
	},
	{
	"epoch": 0.8774928774928775,
	"grad_norm": 0.40675640823017994,
	"learning_rate": 5e-06,
	"loss": 0.6296,
	"step": 770
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 0.43353876595216656,
	"learning_rate": 5e-06,
	"loss": 0.6357,
	"step": 780
	},
	{
	"epoch": 0.9002849002849003,
	"grad_norm": 0.43992543662793077,
	"learning_rate": 5e-06,
	"loss": 0.6333,
	"step": 790
	},
	{
	"epoch": 0.9116809116809117,
	"grad_norm": 0.41627535741522503,
	"learning_rate": 5e-06,
	"loss": 0.6384,
	"step": 800
	},
	{
	"epoch": 0.9230769230769231,
	"grad_norm": 0.4274496512159185,
	"learning_rate": 5e-06,
	"loss": 0.6309,
	"step": 810
	},
	{
	"epoch": 0.9344729344729344,
	"grad_norm": 0.5000942948514508,
	"learning_rate": 5e-06,
	"loss": 0.6323,
	"step": 820
	},
	{
	"epoch": 0.9458689458689459,
	"grad_norm": 0.39649163621370453,
	"learning_rate": 5e-06,
	"loss": 0.6117,
	"step": 830
	},
	{
	"epoch": 0.9572649572649573,
	"grad_norm": 0.45128894713654466,
	"learning_rate": 5e-06,
	"loss": 0.6258,
	"step": 840
	},
	{
	"epoch": 0.9686609686609686,
	"grad_norm": 0.4053334632337957,
	"learning_rate": 5e-06,
	"loss": 0.6334,
	"step": 850
	},
	{
	"epoch": 0.98005698005698,
	"grad_norm": 0.4570308695791834,
	"learning_rate": 5e-06,
	"loss": 0.6299,
	"step": 860
	},
	{
	"epoch": 0.9914529914529915,
	"grad_norm": 0.4142729888175128,
	"learning_rate": 5e-06,
	"loss": 0.6134,
	"step": 870
	},
	{
	"epoch": 0.9994301994301994,
	"eval_loss": 0.622437059879303,
	"eval_runtime": 442.3461,
	"eval_samples_per_second": 26.728,
	"eval_steps_per_second": 0.418,
	"step": 877
	},
	{
	"epoch": 1.002849002849003,
	"grad_norm": 0.467206811021719,
	"learning_rate": 5e-06,
	"loss": 0.6384,
	"step": 880
	},
	{
	"epoch": 1.0142450142450143,
	"grad_norm": 0.4575873633037112,
	"learning_rate": 5e-06,
	"loss": 0.5855,
	"step": 890
	},
	{
	"epoch": 1.0256410256410255,
	"grad_norm": 0.4094192073196508,
	"learning_rate": 5e-06,
	"loss": 0.5924,
	"step": 900
	},
	{
	"epoch": 1.037037037037037,
	"grad_norm": 0.41727147235729756,
	"learning_rate": 5e-06,
	"loss": 0.5882,
	"step": 910
	},
	{
	"epoch": 1.0484330484330484,
	"grad_norm": 0.40097390374474684,
	"learning_rate": 5e-06,
	"loss": 0.5834,
	"step": 920
	},
	{
	"epoch": 1.0598290598290598,
	"grad_norm": 0.3988722663272877,
	"learning_rate": 5e-06,
	"loss": 0.5875,
	"step": 930
	},
	{
	"epoch": 1.0712250712250713,
	"grad_norm": 0.409835543782938,
	"learning_rate": 5e-06,
	"loss": 0.578,
	"step": 940
	},
	{
	"epoch": 1.0826210826210827,
	"grad_norm": 0.4348656181993297,
	"learning_rate": 5e-06,
	"loss": 0.5945,
	"step": 950
	},
	{
	"epoch": 1.0940170940170941,
	"grad_norm": 0.4560769367527893,
	"learning_rate": 5e-06,
	"loss": 0.591,
	"step": 960
	},
	{
	"epoch": 1.1054131054131053,
	"grad_norm": 0.3987301391233058,
	"learning_rate": 5e-06,
	"loss": 0.5947,
	"step": 970
	},
	{
	"epoch": 1.1168091168091168,
	"grad_norm": 0.4310263093448157,
	"learning_rate": 5e-06,
	"loss": 0.5989,
	"step": 980
	},
	{
	"epoch": 1.1282051282051282,
	"grad_norm": 0.3988555704488419,
	"learning_rate": 5e-06,
	"loss": 0.5883,
	"step": 990
	},
	{
	"epoch": 1.1396011396011396,
	"grad_norm": 0.41694498325264395,
	"learning_rate": 5e-06,
	"loss": 0.5857,
	"step": 1000
	},
	{
	"epoch": 1.150997150997151,
	"grad_norm": 0.4261280155159663,
	"learning_rate": 5e-06,
	"loss": 0.5846,
	"step": 1010
	},
	{
	"epoch": 1.1623931623931625,
	"grad_norm": 0.4090258551630524,
	"learning_rate": 5e-06,
	"loss": 0.5862,
	"step": 1020
	},
	{
	"epoch": 1.173789173789174,
	"grad_norm": 0.39703392125897946,
	"learning_rate": 5e-06,
	"loss": 0.5828,
	"step": 1030
	},
	{
	"epoch": 1.1851851851851851,
	"grad_norm": 0.4171232168803472,
	"learning_rate": 5e-06,
	"loss": 0.5969,
	"step": 1040
	},
	{
	"epoch": 1.1965811965811965,
	"grad_norm": 0.3986677142839061,
	"learning_rate": 5e-06,
	"loss": 0.5849,
	"step": 1050
	},
	{
	"epoch": 1.207977207977208,
	"grad_norm": 0.4210046425391405,
	"learning_rate": 5e-06,
	"loss": 0.5866,
	"step": 1060
	},
	{
	"epoch": 1.2193732193732194,
	"grad_norm": 0.4497366233089093,
	"learning_rate": 5e-06,
	"loss": 0.5963,
	"step": 1070
	},
	{
	"epoch": 1.2307692307692308,
	"grad_norm": 0.43086405644231185,
	"learning_rate": 5e-06,
	"loss": 0.5872,
	"step": 1080
	},
	{
	"epoch": 1.242165242165242,
	"grad_norm": 0.4519037391850927,
	"learning_rate": 5e-06,
	"loss": 0.5952,
	"step": 1090
	},
	{
	"epoch": 1.2535612535612537,
	"grad_norm": 0.41349582244683747,
	"learning_rate": 5e-06,
	"loss": 0.5903,
	"step": 1100
	},
	{
	"epoch": 1.264957264957265,
	"grad_norm": 0.3837938001947666,
	"learning_rate": 5e-06,
	"loss": 0.5989,
	"step": 1110
	},
	{
	"epoch": 1.2763532763532763,
	"grad_norm": 0.38645298038964926,
	"learning_rate": 5e-06,
	"loss": 0.583,
	"step": 1120
	},
	{
	"epoch": 1.2877492877492878,
	"grad_norm": 0.39026828874261793,
	"learning_rate": 5e-06,
	"loss": 0.5938,
	"step": 1130
	},
	{
	"epoch": 1.2991452991452992,
	"grad_norm": 0.48601873116831096,
	"learning_rate": 5e-06,
	"loss": 0.5805,
	"step": 1140
	},
	{
	"epoch": 1.3105413105413106,
	"grad_norm": 0.4496341989317277,
	"learning_rate": 5e-06,
	"loss": 0.5862,
	"step": 1150
	},
	{
	"epoch": 1.3219373219373218,
	"grad_norm": 0.43314588815183497,
	"learning_rate": 5e-06,
	"loss": 0.5883,
	"step": 1160
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.4373497446033339,
	"learning_rate": 5e-06,
	"loss": 0.5833,
	"step": 1170
	},
	{
	"epoch": 1.3447293447293447,
	"grad_norm": 0.4061985333964508,
	"learning_rate": 5e-06,
	"loss": 0.5824,
	"step": 1180
	},
	{
	"epoch": 1.3561253561253561,
	"grad_norm": 0.4144234110159319,
	"learning_rate": 5e-06,
	"loss": 0.6004,
	"step": 1190
	},
	{
	"epoch": 1.3675213675213675,
	"grad_norm": 0.4373239103878606,
	"learning_rate": 5e-06,
	"loss": 0.5818,
	"step": 1200
	},
	{
	"epoch": 1.378917378917379,
	"grad_norm": 0.4210723366091624,
	"learning_rate": 5e-06,
	"loss": 0.5859,
	"step": 1210
	},
	{
	"epoch": 1.3903133903133904,
	"grad_norm": 0.4052006957338942,
	"learning_rate": 5e-06,
	"loss": 0.5906,
	"step": 1220
	},
	{
	"epoch": 1.4017094017094016,
	"grad_norm": 0.4292623892695985,
	"learning_rate": 5e-06,
	"loss": 0.5927,
	"step": 1230
	},
	{
	"epoch": 1.413105413105413,
	"grad_norm": 0.4232783608596394,
	"learning_rate": 5e-06,
	"loss": 0.5956,
	"step": 1240
	},
	{
	"epoch": 1.4245014245014245,
	"grad_norm": 0.43895695326546535,
	"learning_rate": 5e-06,
	"loss": 0.6033,
	"step": 1250
	},
	{
	"epoch": 1.435897435897436,
	"grad_norm": 0.4349281709940867,
	"learning_rate": 5e-06,
	"loss": 0.5825,
	"step": 1260
	},
	{
	"epoch": 1.4472934472934473,
	"grad_norm": 0.4124297881341476,
	"learning_rate": 5e-06,
	"loss": 0.5842,
	"step": 1270
	},
	{
	"epoch": 1.4586894586894588,
	"grad_norm": 0.4103899829789082,
	"learning_rate": 5e-06,
	"loss": 0.5851,
	"step": 1280
	},
	{
	"epoch": 1.4700854700854702,
	"grad_norm": 0.4187405725906187,
	"learning_rate": 5e-06,
	"loss": 0.5815,
	"step": 1290
	},
	{
	"epoch": 1.4814814814814814,
	"grad_norm": 0.4335514785672904,
	"learning_rate": 5e-06,
	"loss": 0.5893,
	"step": 1300
	},
	{
	"epoch": 1.4928774928774928,
	"grad_norm": 0.4095416189258966,
	"learning_rate": 5e-06,
	"loss": 0.5812,
	"step": 1310
	},
	{
	"epoch": 1.5042735042735043,
	"grad_norm": 0.4327159045023668,
	"learning_rate": 5e-06,
	"loss": 0.5872,
	"step": 1320
	},
	{
	"epoch": 1.5156695156695157,
	"grad_norm": 0.42071355477765043,
	"learning_rate": 5e-06,
	"loss": 0.5894,
	"step": 1330
	},
	{
	"epoch": 1.5270655270655271,
	"grad_norm": 0.41206489314047035,
	"learning_rate": 5e-06,
	"loss": 0.5948,
	"step": 1340
	},
	{
	"epoch": 1.5384615384615383,
	"grad_norm": 0.4743925797235051,
	"learning_rate": 5e-06,
	"loss": 0.5755,
	"step": 1350
	},
	{
	"epoch": 1.54985754985755,
	"grad_norm": 0.40595707601991954,
	"learning_rate": 5e-06,
	"loss": 0.5892,
	"step": 1360
	},
	{
	"epoch": 1.5612535612535612,
	"grad_norm": 0.3947481991815675,
	"learning_rate": 5e-06,
	"loss": 0.5784,
	"step": 1370
	},
	{
	"epoch": 1.5726495726495726,
	"grad_norm": 0.38785299206305784,
	"learning_rate": 5e-06,
	"loss": 0.5864,
	"step": 1380
	},
	{
	"epoch": 1.584045584045584,
	"grad_norm": 0.4149251097325744,
	"learning_rate": 5e-06,
	"loss": 0.6075,
	"step": 1390
	},
	{
	"epoch": 1.5954415954415955,
	"grad_norm": 0.43637706913229096,
	"learning_rate": 5e-06,
	"loss": 0.5944,
	"step": 1400
	},
	{
	"epoch": 1.606837606837607,
	"grad_norm": 0.4169030325172147,
	"learning_rate": 5e-06,
	"loss": 0.5915,
	"step": 1410
	},
	{
	"epoch": 1.618233618233618,
	"grad_norm": 0.40313516644365976,
	"learning_rate": 5e-06,
	"loss": 0.5817,
	"step": 1420
	},
	{
	"epoch": 1.6296296296296298,
	"grad_norm": 0.39503546583616356,
	"learning_rate": 5e-06,
	"loss": 0.5983,
	"step": 1430
	},
	{
	"epoch": 1.641025641025641,
	"grad_norm": 0.3985527253164314,
	"learning_rate": 5e-06,
	"loss": 0.5826,
	"step": 1440
	},
	{
	"epoch": 1.6524216524216524,
	"grad_norm": 0.4244488951950044,
	"learning_rate": 5e-06,
	"loss": 0.5889,
	"step": 1450
	},
	{
	"epoch": 1.6638176638176638,
	"grad_norm": 0.39693307887587553,
	"learning_rate": 5e-06,
	"loss": 0.5859,
	"step": 1460
	},
	{
	"epoch": 1.6752136752136753,
	"grad_norm": 0.3849679459506633,
	"learning_rate": 5e-06,
	"loss": 0.5806,
	"step": 1470
	},
	{
	"epoch": 1.6866096866096867,
	"grad_norm": 0.4201985578364686,
	"learning_rate": 5e-06,
	"loss": 0.5866,
	"step": 1480
	},
	{
	"epoch": 1.698005698005698,
	"grad_norm": 0.42432125023319545,
	"learning_rate": 5e-06,
	"loss": 0.5803,
	"step": 1490
	},
	{
	"epoch": 1.7094017094017095,
	"grad_norm": 0.40730542273295467,
	"learning_rate": 5e-06,
	"loss": 0.5913,
	"step": 1500
	},
	{
	"epoch": 1.7207977207977208,
	"grad_norm": 0.42837414750466624,
	"learning_rate": 5e-06,
	"loss": 0.5795,
	"step": 1510
	},
	{
	"epoch": 1.7321937321937322,
	"grad_norm": 0.44083872834956234,
	"learning_rate": 5e-06,
	"loss": 0.5888,
	"step": 1520
	},
	{
	"epoch": 1.7435897435897436,
	"grad_norm": 0.41133942102181764,
	"learning_rate": 5e-06,
	"loss": 0.5865,
	"step": 1530
	},
	{
	"epoch": 1.7549857549857548,
	"grad_norm": 0.40260223356507924,
	"learning_rate": 5e-06,
	"loss": 0.5816,
	"step": 1540
	},
	{
	"epoch": 1.7663817663817665,
	"grad_norm": 0.4054088563875919,
	"learning_rate": 5e-06,
	"loss": 0.5952,
	"step": 1550
	},
	{
	"epoch": 1.7777777777777777,
	"grad_norm": 0.4218451424068199,
	"learning_rate": 5e-06,
	"loss": 0.5879,
	"step": 1560
	},
	{
	"epoch": 1.7891737891737893,
	"grad_norm": 0.4423529568236007,
	"learning_rate": 5e-06,
	"loss": 0.5907,
	"step": 1570
	},
	{
	"epoch": 1.8005698005698005,
	"grad_norm": 0.41215301182035746,
	"learning_rate": 5e-06,
	"loss": 0.5841,
	"step": 1580
	},
	{
	"epoch": 1.811965811965812,
	"grad_norm": 0.4555696841177031,
	"learning_rate": 5e-06,
	"loss": 0.5849,
	"step": 1590
	},
	{
	"epoch": 1.8233618233618234,
	"grad_norm": 0.41997083905529,
	"learning_rate": 5e-06,
	"loss": 0.5712,
	"step": 1600
	},
	{
	"epoch": 1.8347578347578346,
	"grad_norm": 0.40350765403827904,
	"learning_rate": 5e-06,
	"loss": 0.5773,
	"step": 1610
	},
	{
	"epoch": 1.8461538461538463,
	"grad_norm": 0.41505233462990104,
	"learning_rate": 5e-06,
	"loss": 0.5828,
	"step": 1620
	},
	{
	"epoch": 1.8575498575498575,
	"grad_norm": 0.4094044224106121,
	"learning_rate": 5e-06,
	"loss": 0.577,
	"step": 1630
	},
	{
	"epoch": 1.868945868945869,
	"grad_norm": 0.3989458077194491,
	"learning_rate": 5e-06,
	"loss": 0.5852,
	"step": 1640
	},
	{
	"epoch": 1.8803418803418803,
	"grad_norm": 0.3968449176678109,
	"learning_rate": 5e-06,
	"loss": 0.5765,
	"step": 1650
	},
	{
	"epoch": 1.8917378917378918,
	"grad_norm": 0.3975827713442406,
	"learning_rate": 5e-06,
	"loss": 0.5941,
	"step": 1660
	},
	{
	"epoch": 1.9031339031339032,
	"grad_norm": 0.4591167052806216,
	"learning_rate": 5e-06,
	"loss": 0.5958,
	"step": 1670
	},
	{
	"epoch": 1.9145299145299144,
	"grad_norm": 0.4763985809192953,
	"learning_rate": 5e-06,
	"loss": 0.5822,
	"step": 1680
	},
	{
	"epoch": 1.925925925925926,
	"grad_norm": 0.40816873290685,
	"learning_rate": 5e-06,
	"loss": 0.591,
	"step": 1690
	},
	{
	"epoch": 1.9373219373219372,
	"grad_norm": 0.43451011164507114,
	"learning_rate": 5e-06,
	"loss": 0.5866,
	"step": 1700
	},
	{
	"epoch": 1.9487179487179487,
	"grad_norm": 0.42502005410583105,
	"learning_rate": 5e-06,
	"loss": 0.5812,
	"step": 1710
	},
	{
	"epoch": 1.96011396011396,
	"grad_norm": 0.3868140358085357,
	"learning_rate": 5e-06,
	"loss": 0.5952,
	"step": 1720
	},
	{
	"epoch": 1.9715099715099715,
	"grad_norm": 0.4233434645527226,
	"learning_rate": 5e-06,
	"loss": 0.5905,
	"step": 1730
	},
	{
	"epoch": 1.982905982905983,
	"grad_norm": 0.46128367957303146,
	"learning_rate": 5e-06,
	"loss": 0.5835,
	"step": 1740
	},
	{
	"epoch": 1.9943019943019942,
	"grad_norm": 0.41962900843595113,
	"learning_rate": 5e-06,
	"loss": 0.5823,
	"step": 1750
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.6174917817115784,
	"eval_runtime": 442.5819,
	"eval_samples_per_second": 26.714,
	"eval_steps_per_second": 0.418,
	"step": 1755
	},
	{
	"epoch": 2.005698005698006,
	"grad_norm": 0.43638289381677664,
	"learning_rate": 5e-06,
	"loss": 0.6003,
	"step": 1760
	},
	{
	"epoch": 2.017094017094017,
	"grad_norm": 0.4032954694771035,
	"learning_rate": 5e-06,
	"loss": 0.5295,
	"step": 1770
	},
	{
	"epoch": 2.0284900284900287,
	"grad_norm": 0.3978342138531873,
	"learning_rate": 5e-06,
	"loss": 0.5396,
	"step": 1780
	},
	{
	"epoch": 2.03988603988604,
	"grad_norm": 0.3941941742542143,
	"learning_rate": 5e-06,
	"loss": 0.5498,
	"step": 1790
	},
	{
	"epoch": 2.051282051282051,
	"grad_norm": 0.40614413388153375,
	"learning_rate": 5e-06,
	"loss": 0.5485,
	"step": 1800
	},
	{
	"epoch": 2.0626780626780628,
	"grad_norm": 0.4062005374187212,
	"learning_rate": 5e-06,
	"loss": 0.5443,
	"step": 1810
	},
	{
	"epoch": 2.074074074074074,
	"grad_norm": 0.38632662394247547,
	"learning_rate": 5e-06,
	"loss": 0.5499,
	"step": 1820
	},
	{
	"epoch": 2.0854700854700856,
	"grad_norm": 0.3877796238652637,
	"learning_rate": 5e-06,
	"loss": 0.5472,
	"step": 1830
	},
	{
	"epoch": 2.096866096866097,
	"grad_norm": 0.4031396151639763,
	"learning_rate": 5e-06,
	"loss": 0.5557,
	"step": 1840
	},
	{
	"epoch": 2.1082621082621085,
	"grad_norm": 0.3758020305089208,
	"learning_rate": 5e-06,
	"loss": 0.5423,
	"step": 1850
	},
	{
	"epoch": 2.1196581196581197,
	"grad_norm": 0.46333515136342907,
	"learning_rate": 5e-06,
	"loss": 0.5556,
	"step": 1860
	},
	{
	"epoch": 2.131054131054131,
	"grad_norm": 0.3990721210469113,
	"learning_rate": 5e-06,
	"loss": 0.5464,
	"step": 1870
	},
	{
	"epoch": 2.1424501424501425,
	"grad_norm": 0.41896529664740606,
	"learning_rate": 5e-06,
	"loss": 0.5459,
	"step": 1880
	},
	{
	"epoch": 2.1538461538461537,
	"grad_norm": 0.40224292638674486,
	"learning_rate": 5e-06,
	"loss": 0.5432,
	"step": 1890
	},
	{
	"epoch": 2.1652421652421654,
	"grad_norm": 0.3703829495333715,
	"learning_rate": 5e-06,
	"loss": 0.5434,
	"step": 1900
	},
	{
	"epoch": 2.1766381766381766,
	"grad_norm": 0.4195807512147461,
	"learning_rate": 5e-06,
	"loss": 0.548,
	"step": 1910
	},
	{
	"epoch": 2.1880341880341883,
	"grad_norm": 0.42078014349068604,
	"learning_rate": 5e-06,
	"loss": 0.551,
	"step": 1920
	},
	{
	"epoch": 2.1994301994301995,
	"grad_norm": 0.39550870444336733,
	"learning_rate": 5e-06,
	"loss": 0.5487,
	"step": 1930
	},
	{
	"epoch": 2.2108262108262107,
	"grad_norm": 0.403560752581769,
	"learning_rate": 5e-06,
	"loss": 0.5518,
	"step": 1940
	},
	{
	"epoch": 2.2222222222222223,
	"grad_norm": 0.4148295164570796,
	"learning_rate": 5e-06,
	"loss": 0.5455,
	"step": 1950
	},
	{
	"epoch": 2.2336182336182335,
	"grad_norm": 0.37681071283125916,
	"learning_rate": 5e-06,
	"loss": 0.5371,
	"step": 1960
	},
	{
	"epoch": 2.245014245014245,
	"grad_norm": 0.4085602540294654,
	"learning_rate": 5e-06,
	"loss": 0.548,
	"step": 1970
	},
	{
	"epoch": 2.2564102564102564,
	"grad_norm": 0.42666262080387535,
	"learning_rate": 5e-06,
	"loss": 0.5489,
	"step": 1980
	},
	{
	"epoch": 2.267806267806268,
	"grad_norm": 0.413370914720578,
	"learning_rate": 5e-06,
	"loss": 0.5452,
	"step": 1990
	},
	{
	"epoch": 2.2792022792022792,
	"grad_norm": 0.3924258676572947,
	"learning_rate": 5e-06,
	"loss": 0.5506,
	"step": 2000
	},
	{
	"epoch": 2.2905982905982905,
	"grad_norm": 0.4347195110430224,
	"learning_rate": 5e-06,
	"loss": 0.5495,
	"step": 2010
	},
	{
	"epoch": 2.301994301994302,
	"grad_norm": 0.40213883875930767,
	"learning_rate": 5e-06,
	"loss": 0.5447,
	"step": 2020
	},
	{
	"epoch": 2.3133903133903133,
	"grad_norm": 0.42546941310471453,
	"learning_rate": 5e-06,
	"loss": 0.5533,
	"step": 2030
	},
	{
	"epoch": 2.324786324786325,
	"grad_norm": 0.40042388002057316,
	"learning_rate": 5e-06,
	"loss": 0.5493,
	"step": 2040
	},
	{
	"epoch": 2.336182336182336,
	"grad_norm": 0.40985989196559397,
	"learning_rate": 5e-06,
	"loss": 0.5484,
	"step": 2050
	},
	{
	"epoch": 2.347578347578348,
	"grad_norm": 0.4262197347046128,
	"learning_rate": 5e-06,
	"loss": 0.5561,
	"step": 2060
	},
	{
	"epoch": 2.358974358974359,
	"grad_norm": 0.4079997903297647,
	"learning_rate": 5e-06,
	"loss": 0.5479,
	"step": 2070
	},
	{
	"epoch": 2.3703703703703702,
	"grad_norm": 0.4171995256710412,
	"learning_rate": 5e-06,
	"loss": 0.5482,
	"step": 2080
	},
	{
	"epoch": 2.381766381766382,
	"grad_norm": 0.4067288627883757,
	"learning_rate": 5e-06,
	"loss": 0.5495,
	"step": 2090
	},
	{
	"epoch": 2.393162393162393,
	"grad_norm": 0.39812759486187826,
	"learning_rate": 5e-06,
	"loss": 0.5475,
	"step": 2100
	},
	{
	"epoch": 2.4045584045584047,
	"grad_norm": 0.4252046487226247,
	"learning_rate": 5e-06,
	"loss": 0.564,
	"step": 2110
	},
	{
	"epoch": 2.415954415954416,
	"grad_norm": 0.385246050290494,
	"learning_rate": 5e-06,
	"loss": 0.5495,
	"step": 2120
	},
	{
	"epoch": 2.427350427350427,
	"grad_norm": 0.4086146276427414,
	"learning_rate": 5e-06,
	"loss": 0.56,
	"step": 2130
	},
	{
	"epoch": 2.438746438746439,
	"grad_norm": 0.40396684063143223,
	"learning_rate": 5e-06,
	"loss": 0.5592,
	"step": 2140
	},
	{
	"epoch": 2.45014245014245,
	"grad_norm": 0.40575491064321195,
	"learning_rate": 5e-06,
	"loss": 0.5633,
	"step": 2150
	},
	{
	"epoch": 2.4615384615384617,
	"grad_norm": 0.4073296395669543,
	"learning_rate": 5e-06,
	"loss": 0.5488,
	"step": 2160
	},
	{
	"epoch": 2.472934472934473,
	"grad_norm": 0.43882905338245753,
	"learning_rate": 5e-06,
	"loss": 0.5513,
	"step": 2170
	},
	{
	"epoch": 2.484330484330484,
	"grad_norm": 0.4031322481681622,
	"learning_rate": 5e-06,
	"loss": 0.5554,
	"step": 2180
	},
	{
	"epoch": 2.4957264957264957,
	"grad_norm": 0.42227630442588826,
	"learning_rate": 5e-06,
	"loss": 0.5574,
	"step": 2190
	},
	{
	"epoch": 2.5071225071225074,
	"grad_norm": 0.4277624308363176,
	"learning_rate": 5e-06,
	"loss": 0.5629,
	"step": 2200
	},
	{
	"epoch": 2.5185185185185186,
	"grad_norm": 0.40043500855114567,
	"learning_rate": 5e-06,
	"loss": 0.5444,
	"step": 2210
	},
	{
	"epoch": 2.52991452991453,
	"grad_norm": 0.427445344908136,
	"learning_rate": 5e-06,
	"loss": 0.5591,
	"step": 2220
	},
	{
	"epoch": 2.5413105413105415,
	"grad_norm": 0.4197028690010052,
	"learning_rate": 5e-06,
	"loss": 0.5513,
	"step": 2230
	},
	{
	"epoch": 2.5527065527065527,
	"grad_norm": 0.41806376493939207,
	"learning_rate": 5e-06,
	"loss": 0.5501,
	"step": 2240
	},
	{
	"epoch": 2.564102564102564,
	"grad_norm": 0.4080384204790527,
	"learning_rate": 5e-06,
	"loss": 0.5488,
	"step": 2250
	},
	{
	"epoch": 2.5754985754985755,
	"grad_norm": 0.4339972064470789,
	"learning_rate": 5e-06,
	"loss": 0.5534,
	"step": 2260
	},
	{
	"epoch": 2.5868945868945867,
	"grad_norm": 0.4139873128656014,
	"learning_rate": 5e-06,
	"loss": 0.5509,
	"step": 2270
	},
	{
	"epoch": 2.5982905982905984,
	"grad_norm": 0.39593523779791756,
	"learning_rate": 5e-06,
	"loss": 0.5515,
	"step": 2280
	},
	{
	"epoch": 2.6096866096866096,
	"grad_norm": 0.3887745966959367,
	"learning_rate": 5e-06,
	"loss": 0.5567,
	"step": 2290
	},
	{
	"epoch": 2.6210826210826212,
	"grad_norm": 0.3899940114191536,
	"learning_rate": 5e-06,
	"loss": 0.5429,
	"step": 2300
	},
	{
	"epoch": 2.6324786324786325,
	"grad_norm": 0.4176311832860518,
	"learning_rate": 5e-06,
	"loss": 0.553,
	"step": 2310
	},
	{
	"epoch": 2.6438746438746437,
	"grad_norm": 0.46727727994302587,
	"learning_rate": 5e-06,
	"loss": 0.5524,
	"step": 2320
	},
	{
	"epoch": 2.6552706552706553,
	"grad_norm": 0.4368321834367039,
	"learning_rate": 5e-06,
	"loss": 0.5552,
	"step": 2330
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 0.4479324367839254,
	"learning_rate": 5e-06,
	"loss": 0.5534,
	"step": 2340
	},
	{
	"epoch": 2.678062678062678,
	"grad_norm": 0.41411545835899133,
	"learning_rate": 5e-06,
	"loss": 0.5467,
	"step": 2350
	},
	{
	"epoch": 2.6894586894586894,
	"grad_norm": 0.4201299885965421,
	"learning_rate": 5e-06,
	"loss": 0.5565,
	"step": 2360
	},
	{
	"epoch": 2.700854700854701,
	"grad_norm": 0.40978702073303064,
	"learning_rate": 5e-06,
	"loss": 0.5444,
	"step": 2370
	},
	{
	"epoch": 2.7122507122507122,
	"grad_norm": 0.4233459449335634,
	"learning_rate": 5e-06,
	"loss": 0.5563,
	"step": 2380
	},
	{
	"epoch": 2.7236467236467234,
	"grad_norm": 0.4159458912952842,
	"learning_rate": 5e-06,
	"loss": 0.5551,
	"step": 2390
	},
	{
	"epoch": 2.735042735042735,
	"grad_norm": 0.41425606346483057,
	"learning_rate": 5e-06,
	"loss": 0.5539,
	"step": 2400
	},
	{
	"epoch": 2.7464387464387463,
	"grad_norm": 0.4166133827092343,
	"learning_rate": 5e-06,
	"loss": 0.5588,
	"step": 2410
	},
	{
	"epoch": 2.757834757834758,
	"grad_norm": 0.4263688845736852,
	"learning_rate": 5e-06,
	"loss": 0.5575,
	"step": 2420
	},
	{
	"epoch": 2.769230769230769,
	"grad_norm": 0.41269883049053624,
	"learning_rate": 5e-06,
	"loss": 0.5471,
	"step": 2430
	},
	{
	"epoch": 2.780626780626781,
	"grad_norm": 0.3894335667283599,
	"learning_rate": 5e-06,
	"loss": 0.5468,
	"step": 2440
	},
	{
	"epoch": 2.792022792022792,
	"grad_norm": 0.40933546113606567,
	"learning_rate": 5e-06,
	"loss": 0.5501,
	"step": 2450
	},
	{
	"epoch": 2.8034188034188032,
	"grad_norm": 0.39714648665213204,
	"learning_rate": 5e-06,
	"loss": 0.5444,
	"step": 2460
	},
	{
	"epoch": 2.814814814814815,
	"grad_norm": 0.40517136322070096,
	"learning_rate": 5e-06,
	"loss": 0.5601,
	"step": 2470
	},
	{
	"epoch": 2.826210826210826,
	"grad_norm": 0.44447910033491683,
	"learning_rate": 5e-06,
	"loss": 0.5623,
	"step": 2480
	},
	{
	"epoch": 2.8376068376068377,
	"grad_norm": 0.388103652560322,
	"learning_rate": 5e-06,
	"loss": 0.5543,
	"step": 2490
	},
	{
	"epoch": 2.849002849002849,
	"grad_norm": 0.40171877838716236,
	"learning_rate": 5e-06,
	"loss": 0.562,
	"step": 2500
	},
	{
	"epoch": 2.8603988603988606,
	"grad_norm": 0.41856657884436094,
	"learning_rate": 5e-06,
	"loss": 0.5536,
	"step": 2510
	},
	{
	"epoch": 2.871794871794872,
	"grad_norm": 0.4173395435456696,
	"learning_rate": 5e-06,
	"loss": 0.5539,
	"step": 2520
	},
	{
	"epoch": 2.883190883190883,
	"grad_norm": 0.39093712576995243,
	"learning_rate": 5e-06,
	"loss": 0.5601,
	"step": 2530
	},
	{
	"epoch": 2.8945868945868947,
	"grad_norm": 0.4255070470787294,
	"learning_rate": 5e-06,
	"loss": 0.5557,
	"step": 2540
	},
	{
	"epoch": 2.905982905982906,
	"grad_norm": 0.45247644117965885,
	"learning_rate": 5e-06,
	"loss": 0.5528,
	"step": 2550
	},
	{
	"epoch": 2.9173789173789175,
	"grad_norm": 0.41729192613775734,
	"learning_rate": 5e-06,
	"loss": 0.5416,
	"step": 2560
	},
	{
	"epoch": 2.9287749287749287,
	"grad_norm": 0.3959874387272076,
	"learning_rate": 5e-06,
	"loss": 0.5471,
	"step": 2570
	},
	{
	"epoch": 2.9401709401709404,
	"grad_norm": 0.40279780924522723,
	"learning_rate": 5e-06,
	"loss": 0.5438,
	"step": 2580
	},
	{
	"epoch": 2.9515669515669516,
	"grad_norm": 0.41492112649690777,
	"learning_rate": 5e-06,
	"loss": 0.5533,
	"step": 2590
	},
	{
	"epoch": 2.962962962962963,
	"grad_norm": 0.4072236941032463,
	"learning_rate": 5e-06,
	"loss": 0.5446,
	"step": 2600
	},
	{
	"epoch": 2.9743589743589745,
	"grad_norm": 0.3967690970697916,
	"learning_rate": 5e-06,
	"loss": 0.556,
	"step": 2610
	},
	{
	"epoch": 2.9857549857549857,
	"grad_norm": 0.4004788690287786,
	"learning_rate": 5e-06,
	"loss": 0.5571,
	"step": 2620
	},
	{
	"epoch": 2.9971509971509973,
	"grad_norm": 0.39905352277311656,
	"learning_rate": 5e-06,
	"loss": 0.5443,
	"step": 2630
	},
	{
	"epoch": 2.9982905982905983,
	"eval_loss": 0.6213015913963318,
	"eval_runtime": 442.3632,
	"eval_samples_per_second": 26.727,
	"eval_steps_per_second": 0.418,
	"step": 2631
	},
	{
	"epoch": 2.9982905982905983,
	"step": 2631,
	"total_flos": 2758364765356032.0,
	"train_loss": 0.5923774672614808,
	"train_runtime": 70850.8498,
	"train_samples_per_second": 9.511,
	"train_steps_per_second": 0.037
	}
	],
	"logging_steps": 10,
	"max_steps": 2631,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2758364765356032.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}