collective-v0.1-chinese-roleplay-8b / trainer_state.json

Upload folder using huggingface_hub

6b46a67 verified 6 months ago

49 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.7543859649122808,
	"eval_steps": 100,
	"global_step": 2500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.007017543859649123,
	"grad_norm": 0.0,
	"learning_rate": 1e-06,
	"loss": 1.3034,
	"step": 10
	},
	{
	"epoch": 0.014035087719298246,
	"grad_norm": 11.65329647064209,
	"learning_rate": 9.999987849060752e-07,
	"loss": 1.3006,
	"step": 20
	},
	{
	"epoch": 0.021052631578947368,
	"grad_norm": 8.014320373535156,
	"learning_rate": 9.999632438442366e-07,
	"loss": 1.233,
	"step": 30
	},
	{
	"epoch": 0.028070175438596492,
	"grad_norm": 7.890571594238281,
	"learning_rate": 9.998660418225644e-07,
	"loss": 1.1962,
	"step": 40
	},
	{
	"epoch": 0.03508771929824561,
	"grad_norm": 7.12827205657959,
	"learning_rate": 9.997081019722536e-07,
	"loss": 1.2213,
	"step": 50
	},
	{
	"epoch": 0.042105263157894736,
	"grad_norm": 7.200845718383789,
	"learning_rate": 9.99489443484293e-07,
	"loss": 1.1679,
	"step": 60
	},
	{
	"epoch": 0.04912280701754386,
	"grad_norm": 7.650635242462158,
	"learning_rate": 9.992100929274846e-07,
	"loss": 1.1699,
	"step": 70
	},
	{
	"epoch": 0.056140350877192984,
	"grad_norm": 7.227153778076172,
	"learning_rate": 9.988700842452145e-07,
	"loss": 1.1207,
	"step": 80
	},
	{
	"epoch": 0.06315789473684211,
	"grad_norm": 7.5115532875061035,
	"learning_rate": 9.984694587513297e-07,
	"loss": 1.1387,
	"step": 90
	},
	{
	"epoch": 0.07017543859649122,
	"grad_norm": 7.4819512367248535,
	"learning_rate": 9.980082651251174e-07,
	"loss": 1.1544,
	"step": 100
	},
	{
	"epoch": 0.07017543859649122,
	"eval_loss": 1.1328155994415283,
	"eval_runtime": 27.6835,
	"eval_samples_per_second": 173.388,
	"eval_steps_per_second": 2.709,
	"step": 100
	},
	{
	"epoch": 0.07719298245614035,
	"grad_norm": 7.3147759437561035,
	"learning_rate": 9.9748655940539e-07,
	"loss": 1.1726,
	"step": 110
	},
	{
	"epoch": 0.08421052631578947,
	"grad_norm": 7.672832489013672,
	"learning_rate": 9.969044049836765e-07,
	"loss": 1.115,
	"step": 120
	},
	{
	"epoch": 0.0912280701754386,
	"grad_norm": 7.895420551300049,
	"learning_rate": 9.962618725965194e-07,
	"loss": 1.1274,
	"step": 130
	},
	{
	"epoch": 0.09824561403508772,
	"grad_norm": 7.362156867980957,
	"learning_rate": 9.955590403168798e-07,
	"loss": 1.1401,
	"step": 140
	},
	{
	"epoch": 0.10526315789473684,
	"grad_norm": 7.586355209350586,
	"learning_rate": 9.947959935446506e-07,
	"loss": 1.1543,
	"step": 150
	},
	{
	"epoch": 0.11228070175438597,
	"grad_norm": 7.309718132019043,
	"learning_rate": 9.939728249962806e-07,
	"loss": 1.115,
	"step": 160
	},
	{
	"epoch": 0.11929824561403508,
	"grad_norm": 7.269148826599121,
	"learning_rate": 9.930896346935075e-07,
	"loss": 1.0933,
	"step": 170
	},
	{
	"epoch": 0.12631578947368421,
	"grad_norm": 7.365452766418457,
	"learning_rate": 9.921465299512052e-07,
	"loss": 1.0965,
	"step": 180
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 7.434603214263916,
	"learning_rate": 9.911436253643443e-07,
	"loss": 1.0972,
	"step": 190
	},
	{
	"epoch": 0.14035087719298245,
	"grad_norm": 7.557833194732666,
	"learning_rate": 9.900810427940668e-07,
	"loss": 1.1182,
	"step": 200
	},
	{
	"epoch": 0.14035087719298245,
	"eval_loss": 1.1001578569412231,
	"eval_runtime": 27.6607,
	"eval_samples_per_second": 173.531,
	"eval_steps_per_second": 2.711,
	"step": 200
	},
	{
	"epoch": 0.14736842105263157,
	"grad_norm": 7.197221279144287,
	"learning_rate": 9.889589113528808e-07,
	"loss": 1.0991,
	"step": 210
	},
	{
	"epoch": 0.1543859649122807,
	"grad_norm": 7.870287895202637,
	"learning_rate": 9.8777736738897e-07,
	"loss": 1.1135,
	"step": 220
	},
	{
	"epoch": 0.16140350877192983,
	"grad_norm": 7.257969379425049,
	"learning_rate": 9.865365544696286e-07,
	"loss": 1.1207,
	"step": 230
	},
	{
	"epoch": 0.16842105263157894,
	"grad_norm": 7.788718223571777,
	"learning_rate": 9.852366233638143e-07,
	"loss": 1.1084,
	"step": 240
	},
	{
	"epoch": 0.17543859649122806,
	"grad_norm": 7.723772048950195,
	"learning_rate": 9.838777320238312e-07,
	"loss": 1.0881,
	"step": 250
	},
	{
	"epoch": 0.1824561403508772,
	"grad_norm": 6.814189434051514,
	"learning_rate": 9.824600455661351e-07,
	"loss": 1.1118,
	"step": 260
	},
	{
	"epoch": 0.18947368421052632,
	"grad_norm": 7.434762477874756,
	"learning_rate": 9.809837362512718e-07,
	"loss": 1.0948,
	"step": 270
	},
	{
	"epoch": 0.19649122807017544,
	"grad_norm": 7.205653190612793,
	"learning_rate": 9.794489834629454e-07,
	"loss": 1.0837,
	"step": 280
	},
	{
	"epoch": 0.20350877192982456,
	"grad_norm": 7.118565559387207,
	"learning_rate": 9.77855973686222e-07,
	"loss": 1.092,
	"step": 290
	},
	{
	"epoch": 0.21052631578947367,
	"grad_norm": 7.293910503387451,
	"learning_rate": 9.762049004848705e-07,
	"loss": 1.1015,
	"step": 300
	},
	{
	"epoch": 0.21052631578947367,
	"eval_loss": 1.0845627784729004,
	"eval_runtime": 27.672,
	"eval_samples_per_second": 173.461,
	"eval_steps_per_second": 2.71,
	"step": 300
	},
	{
	"epoch": 0.21754385964912282,
	"grad_norm": 7.512034893035889,
	"learning_rate": 9.744959644778421e-07,
	"loss": 1.0836,
	"step": 310
	},
	{
	"epoch": 0.22456140350877193,
	"grad_norm": 7.277877330780029,
	"learning_rate": 9.727293733148942e-07,
	"loss": 1.0717,
	"step": 320
	},
	{
	"epoch": 0.23157894736842105,
	"grad_norm": 7.781631946563721,
	"learning_rate": 9.709053416513591e-07,
	"loss": 1.0391,
	"step": 330
	},
	{
	"epoch": 0.23859649122807017,
	"grad_norm": 7.217984199523926,
	"learning_rate": 9.690240911220617e-07,
	"loss": 1.1131,
	"step": 340
	},
	{
	"epoch": 0.24561403508771928,
	"grad_norm": 7.256911277770996,
	"learning_rate": 9.67085850314389e-07,
	"loss": 1.0628,
	"step": 350
	},
	{
	"epoch": 0.25263157894736843,
	"grad_norm": 7.053469657897949,
	"learning_rate": 9.650908547405143e-07,
	"loss": 1.0583,
	"step": 360
	},
	{
	"epoch": 0.2596491228070175,
	"grad_norm": 7.0806498527526855,
	"learning_rate": 9.630393468087817e-07,
	"loss": 1.0714,
	"step": 370
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 7.368037223815918,
	"learning_rate": 9.609315757942502e-07,
	"loss": 1.0629,
	"step": 380
	},
	{
	"epoch": 0.2736842105263158,
	"grad_norm": 7.083371639251709,
	"learning_rate": 9.58767797808406e-07,
	"loss": 1.0748,
	"step": 390
	},
	{
	"epoch": 0.2807017543859649,
	"grad_norm": 7.305485248565674,
	"learning_rate": 9.565482757680414e-07,
	"loss": 1.0736,
	"step": 400
	},
	{
	"epoch": 0.2807017543859649,
	"eval_loss": 1.072194218635559,
	"eval_runtime": 27.6671,
	"eval_samples_per_second": 173.491,
	"eval_steps_per_second": 2.711,
	"step": 400
	},
	{
	"epoch": 0.28771929824561404,
	"grad_norm": 7.741823196411133,
	"learning_rate": 9.542732793633097e-07,
	"loss": 1.0913,
	"step": 410
	},
	{
	"epoch": 0.29473684210526313,
	"grad_norm": 6.781225204467773,
	"learning_rate": 9.519430850249549e-07,
	"loss": 1.0826,
	"step": 420
	},
	{
	"epoch": 0.3017543859649123,
	"grad_norm": 6.993170738220215,
	"learning_rate": 9.495579758907229e-07,
	"loss": 1.0472,
	"step": 430
	},
	{
	"epoch": 0.3087719298245614,
	"grad_norm": 6.528597831726074,
	"learning_rate": 9.471182417709586e-07,
	"loss": 1.0795,
	"step": 440
	},
	{
	"epoch": 0.3157894736842105,
	"grad_norm": 7.972232341766357,
	"learning_rate": 9.446241791133907e-07,
	"loss": 1.0656,
	"step": 450
	},
	{
	"epoch": 0.32280701754385965,
	"grad_norm": 6.81664514541626,
	"learning_rate": 9.420760909671118e-07,
	"loss": 1.0888,
	"step": 460
	},
	{
	"epoch": 0.3298245614035088,
	"grad_norm": 6.822625160217285,
	"learning_rate": 9.394742869457546e-07,
	"loss": 1.0448,
	"step": 470
	},
	{
	"epoch": 0.3368421052631579,
	"grad_norm": 7.689866065979004,
	"learning_rate": 9.368190831898723e-07,
	"loss": 1.0705,
	"step": 480
	},
	{
	"epoch": 0.34385964912280703,
	"grad_norm": 6.757457256317139,
	"learning_rate": 9.341108023285237e-07,
	"loss": 1.0321,
	"step": 490
	},
	{
	"epoch": 0.3508771929824561,
	"grad_norm": 9.012947082519531,
	"learning_rate": 9.313497734400721e-07,
	"loss": 1.0783,
	"step": 500
	},
	{
	"epoch": 0.3508771929824561,
	"eval_loss": 1.060664415359497,
	"eval_runtime": 27.6699,
	"eval_samples_per_second": 173.474,
	"eval_steps_per_second": 2.711,
	"step": 500
	},
	{
	"epoch": 0.35789473684210527,
	"grad_norm": 6.598055362701416,
	"learning_rate": 9.28536332012199e-07,
	"loss": 1.0526,
	"step": 510
	},
	{
	"epoch": 0.3649122807017544,
	"grad_norm": 6.9514360427856445,
	"learning_rate": 9.2567081990114e-07,
	"loss": 1.055,
	"step": 520
	},
	{
	"epoch": 0.3719298245614035,
	"grad_norm": 7.644222259521484,
	"learning_rate": 9.227535852901462e-07,
	"loss": 1.0546,
	"step": 530
	},
	{
	"epoch": 0.37894736842105264,
	"grad_norm": 6.849003314971924,
	"learning_rate": 9.197849826471773e-07,
	"loss": 1.0819,
	"step": 540
	},
	{
	"epoch": 0.38596491228070173,
	"grad_norm": 7.057733535766602,
	"learning_rate": 9.167653726818304e-07,
	"loss": 1.0708,
	"step": 550
	},
	{
	"epoch": 0.3929824561403509,
	"grad_norm": 6.9738287925720215,
	"learning_rate": 9.136951223015112e-07,
	"loss": 1.0751,
	"step": 560
	},
	{
	"epoch": 0.4,
	"grad_norm": 7.2269511222839355,
	"learning_rate": 9.10574604566852e-07,
	"loss": 1.0437,
	"step": 570
	},
	{
	"epoch": 0.4070175438596491,
	"grad_norm": 7.4513654708862305,
	"learning_rate": 9.074041986463808e-07,
	"loss": 1.0553,
	"step": 580
	},
	{
	"epoch": 0.41403508771929826,
	"grad_norm": 7.455415725708008,
	"learning_rate": 9.041842897704501e-07,
	"loss": 1.0671,
	"step": 590
	},
	{
	"epoch": 0.42105263157894735,
	"grad_norm": 7.012011528015137,
	"learning_rate": 9.009152691844284e-07,
	"loss": 1.0663,
	"step": 600
	},
	{
	"epoch": 0.42105263157894735,
	"eval_loss": 1.051626205444336,
	"eval_runtime": 27.657,
	"eval_samples_per_second": 173.555,
	"eval_steps_per_second": 2.712,
	"step": 600
	},
	{
	"epoch": 0.4280701754385965,
	"grad_norm": 6.606391429901123,
	"learning_rate": 8.975975341011595e-07,
	"loss": 1.0385,
	"step": 610
	},
	{
	"epoch": 0.43508771929824563,
	"grad_norm": 7.090952396392822,
	"learning_rate": 8.942314876526991e-07,
	"loss": 1.0438,
	"step": 620
	},
	{
	"epoch": 0.4421052631578947,
	"grad_norm": 7.45530891418457,
	"learning_rate": 8.908175388413303e-07,
	"loss": 1.0519,
	"step": 630
	},
	{
	"epoch": 0.44912280701754387,
	"grad_norm": 7.6413960456848145,
	"learning_rate": 8.873561024898667e-07,
	"loss": 1.0705,
	"step": 640
	},
	{
	"epoch": 0.45614035087719296,
	"grad_norm": 7.025049209594727,
	"learning_rate": 8.838475991912481e-07,
	"loss": 1.0548,
	"step": 650
	},
	{
	"epoch": 0.4631578947368421,
	"grad_norm": 7.06046724319458,
	"learning_rate": 8.802924552574345e-07,
	"loss": 1.0465,
	"step": 660
	},
	{
	"epoch": 0.47017543859649125,
	"grad_norm": 7.351295471191406,
	"learning_rate": 8.766911026676063e-07,
	"loss": 1.0575,
	"step": 670
	},
	{
	"epoch": 0.47719298245614034,
	"grad_norm": 7.417140960693359,
	"learning_rate": 8.730439790156751e-07,
	"loss": 1.0686,
	"step": 680
	},
	{
	"epoch": 0.4842105263157895,
	"grad_norm": 7.903563499450684,
	"learning_rate": 8.693515274571121e-07,
	"loss": 1.0776,
	"step": 690
	},
	{
	"epoch": 0.49122807017543857,
	"grad_norm": 8.01221752166748,
	"learning_rate": 8.656141966551018e-07,
	"loss": 1.0621,
	"step": 700
	},
	{
	"epoch": 0.49122807017543857,
	"eval_loss": 1.043724775314331,
	"eval_runtime": 27.6712,
	"eval_samples_per_second": 173.466,
	"eval_steps_per_second": 2.71,
	"step": 700
	},
	{
	"epoch": 0.4982456140350877,
	"grad_norm": 7.052249431610107,
	"learning_rate": 8.618324407260249e-07,
	"loss": 1.0738,
	"step": 710
	},
	{
	"epoch": 0.5052631578947369,
	"grad_norm": 7.37591028213501,
	"learning_rate": 8.5800671918428e-07,
	"loss": 1.0607,
	"step": 720
	},
	{
	"epoch": 0.512280701754386,
	"grad_norm": 7.373082160949707,
	"learning_rate": 8.541374968864485e-07,
	"loss": 1.0602,
	"step": 730
	},
	{
	"epoch": 0.519298245614035,
	"grad_norm": 7.446669101715088,
	"learning_rate": 8.502252439748112e-07,
	"loss": 1.0462,
	"step": 740
	},
	{
	"epoch": 0.5263157894736842,
	"grad_norm": 6.634714603424072,
	"learning_rate": 8.462704358202216e-07,
	"loss": 1.0308,
	"step": 750
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 6.623584270477295,
	"learning_rate": 8.422735529643443e-07,
	"loss": 1.0462,
	"step": 760
	},
	{
	"epoch": 0.5403508771929825,
	"grad_norm": 7.110071659088135,
	"learning_rate": 8.382350810612663e-07,
	"loss": 1.0739,
	"step": 770
	},
	{
	"epoch": 0.5473684210526316,
	"grad_norm": 7.406259536743164,
	"learning_rate": 8.341555108184849e-07,
	"loss": 1.069,
	"step": 780
	},
	{
	"epoch": 0.5543859649122806,
	"grad_norm": 7.356163024902344,
	"learning_rate": 8.300353379372833e-07,
	"loss": 1.0542,
	"step": 790
	},
	{
	"epoch": 0.5614035087719298,
	"grad_norm": 7.522149562835693,
	"learning_rate": 8.258750630524983e-07,
	"loss": 1.0482,
	"step": 800
	},
	{
	"epoch": 0.5614035087719298,
	"eval_loss": 1.0357595682144165,
	"eval_runtime": 27.6785,
	"eval_samples_per_second": 173.42,
	"eval_steps_per_second": 2.71,
	"step": 800
	},
	{
	"epoch": 0.5684210526315789,
	"grad_norm": 6.716446399688721,
	"learning_rate": 8.216751916716899e-07,
	"loss": 1.0459,
	"step": 810
	},
	{
	"epoch": 0.5754385964912281,
	"grad_norm": 7.719761371612549,
	"learning_rate": 8.174362341137176e-07,
	"loss": 1.0271,
	"step": 820
	},
	{
	"epoch": 0.5824561403508772,
	"grad_norm": 7.073091983795166,
	"learning_rate": 8.13158705446732e-07,
	"loss": 1.0483,
	"step": 830
	},
	{
	"epoch": 0.5894736842105263,
	"grad_norm": 6.979051113128662,
	"learning_rate": 8.088431254255898e-07,
	"loss": 1.0293,
	"step": 840
	},
	{
	"epoch": 0.5964912280701754,
	"grad_norm": 7.095376014709473,
	"learning_rate": 8.044900184287006e-07,
	"loss": 1.0387,
	"step": 850
	},
	{
	"epoch": 0.6035087719298246,
	"grad_norm": 7.155153274536133,
	"learning_rate": 8.000999133943092e-07,
	"loss": 1.0448,
	"step": 860
	},
	{
	"epoch": 0.6105263157894737,
	"grad_norm": 7.818843841552734,
	"learning_rate": 7.956733437562258e-07,
	"loss": 1.047,
	"step": 870
	},
	{
	"epoch": 0.6175438596491228,
	"grad_norm": 7.174437046051025,
	"learning_rate": 7.912108473790091e-07,
	"loss": 1.0293,
	"step": 880
	},
	{
	"epoch": 0.624561403508772,
	"grad_norm": 7.124237060546875,
	"learning_rate": 7.867129664926123e-07,
	"loss": 1.0535,
	"step": 890
	},
	{
	"epoch": 0.631578947368421,
	"grad_norm": 7.362142562866211,
	"learning_rate": 7.821802476264965e-07,
	"loss": 1.0662,
	"step": 900
	},
	{
	"epoch": 0.631578947368421,
	"eval_loss": 1.0292896032333374,
	"eval_runtime": 27.6513,
	"eval_samples_per_second": 173.59,
	"eval_steps_per_second": 2.712,
	"step": 900
	},
	{
	"epoch": 0.6385964912280702,
	"grad_norm": 6.185942649841309,
	"learning_rate": 7.776132415432232e-07,
	"loss": 1.0311,
	"step": 910
	},
	{
	"epoch": 0.6456140350877193,
	"grad_norm": 7.229496955871582,
	"learning_rate": 7.73012503171533e-07,
	"loss": 1.0478,
	"step": 920
	},
	{
	"epoch": 0.6526315789473685,
	"grad_norm": 6.964082717895508,
	"learning_rate": 7.683785915389162e-07,
	"loss": 1.0355,
	"step": 930
	},
	{
	"epoch": 0.6596491228070176,
	"grad_norm": 7.6486077308654785,
	"learning_rate": 7.637120697036865e-07,
	"loss": 1.0078,
	"step": 940
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 7.581448554992676,
	"learning_rate": 7.590135046865651e-07,
	"loss": 1.0352,
	"step": 950
	},
	{
	"epoch": 0.6736842105263158,
	"grad_norm": 6.977712154388428,
	"learning_rate": 7.542834674017831e-07,
	"loss": 1.0352,
	"step": 960
	},
	{
	"epoch": 0.6807017543859649,
	"grad_norm": 7.210628986358643,
	"learning_rate": 7.495225325877103e-07,
	"loss": 1.0351,
	"step": 970
	},
	{
	"epoch": 0.6877192982456141,
	"grad_norm": 6.860006809234619,
	"learning_rate": 7.447312787370202e-07,
	"loss": 1.0244,
	"step": 980
	},
	{
	"epoch": 0.6947368421052632,
	"grad_norm": 7.080367088317871,
	"learning_rate": 7.399102880263983e-07,
	"loss": 1.0451,
	"step": 990
	},
	{
	"epoch": 0.7017543859649122,
	"grad_norm": 7.036980152130127,
	"learning_rate": 7.350601462458024e-07,
	"loss": 1.0727,
	"step": 1000
	},
	{
	"epoch": 0.7017543859649122,
	"eval_loss": 1.022666096687317,
	"eval_runtime": 27.6533,
	"eval_samples_per_second": 173.578,
	"eval_steps_per_second": 2.712,
	"step": 1000
	},
	{
	"epoch": 0.7087719298245614,
	"grad_norm": 6.67840576171875,
	"learning_rate": 7.301814427272848e-07,
	"loss": 1.0636,
	"step": 1010
	},
	{
	"epoch": 0.7157894736842105,
	"grad_norm": 7.1095452308654785,
	"learning_rate": 7.252747702733839e-07,
	"loss": 1.0088,
	"step": 1020
	},
	{
	"epoch": 0.7228070175438597,
	"grad_norm": 7.100186347961426,
	"learning_rate": 7.203407250850928e-07,
	"loss": 1.0245,
	"step": 1030
	},
	{
	"epoch": 0.7298245614035088,
	"grad_norm": 6.765640735626221,
	"learning_rate": 7.158771761692464e-07,
	"loss": 1.0095,
	"step": 1040
	},
	{
	"epoch": 0.7368421052631579,
	"grad_norm": 6.90313720703125,
	"learning_rate": 7.108927771727661e-07,
	"loss": 1.0188,
	"step": 1050
	},
	{
	"epoch": 0.743859649122807,
	"grad_norm": 6.8065948486328125,
	"learning_rate": 7.058827529721525e-07,
	"loss": 1.0339,
	"step": 1060
	},
	{
	"epoch": 0.7508771929824561,
	"grad_norm": 6.624533653259277,
	"learning_rate": 7.008477123264847e-07,
	"loss": 1.0346,
	"step": 1070
	},
	{
	"epoch": 0.7578947368421053,
	"grad_norm": 7.218606472015381,
	"learning_rate": 6.957882670345458e-07,
	"loss": 1.0379,
	"step": 1080
	},
	{
	"epoch": 0.7649122807017544,
	"grad_norm": 7.127339839935303,
	"learning_rate": 6.90705031860483e-07,
	"loss": 1.0205,
	"step": 1090
	},
	{
	"epoch": 0.7719298245614035,
	"grad_norm": 6.587140083312988,
	"learning_rate": 6.855986244591103e-07,
	"loss": 1.0263,
	"step": 1100
	},
	{
	"epoch": 0.7719298245614035,
	"eval_loss": 1.0174767971038818,
	"eval_runtime": 27.6964,
	"eval_samples_per_second": 173.308,
	"eval_steps_per_second": 2.708,
	"step": 1100
	},
	{
	"epoch": 0.7789473684210526,
	"grad_norm": 6.751448631286621,
	"learning_rate": 6.804696653008574e-07,
	"loss": 0.981,
	"step": 1110
	},
	{
	"epoch": 0.7859649122807018,
	"grad_norm": 7.036713600158691,
	"learning_rate": 6.753187775963772e-07,
	"loss": 1.0488,
	"step": 1120
	},
	{
	"epoch": 0.7929824561403509,
	"grad_norm": 6.959472179412842,
	"learning_rate": 6.701465872208216e-07,
	"loss": 1.0202,
	"step": 1130
	},
	{
	"epoch": 0.8,
	"grad_norm": 7.4908599853515625,
	"learning_rate": 6.649537226377914e-07,
	"loss": 1.0356,
	"step": 1140
	},
	{
	"epoch": 0.8070175438596491,
	"grad_norm": 8.565585136413574,
	"learning_rate": 6.597408148229741e-07,
	"loss": 1.0125,
	"step": 1150
	},
	{
	"epoch": 0.8140350877192982,
	"grad_norm": 7.0569167137146,
	"learning_rate": 6.545084971874736e-07,
	"loss": 1.0654,
	"step": 1160
	},
	{
	"epoch": 0.8210526315789474,
	"grad_norm": 6.795130252838135,
	"learning_rate": 6.492574055008473e-07,
	"loss": 1.046,
	"step": 1170
	},
	{
	"epoch": 0.8280701754385965,
	"grad_norm": 7.272831916809082,
	"learning_rate": 6.439881778138531e-07,
	"loss": 1.0238,
	"step": 1180
	},
	{
	"epoch": 0.8350877192982457,
	"grad_norm": 6.588538646697998,
	"learning_rate": 6.387014543809223e-07,
	"loss": 1.0155,
	"step": 1190
	},
	{
	"epoch": 0.8421052631578947,
	"grad_norm": 6.798887252807617,
	"learning_rate": 6.333978775823631e-07,
	"loss": 1.0187,
	"step": 1200
	},
	{
	"epoch": 0.8421052631578947,
	"eval_loss": 1.0141297578811646,
	"eval_runtime": 27.6602,
	"eval_samples_per_second": 173.534,
	"eval_steps_per_second": 2.711,
	"step": 1200
	},
	{
	"epoch": 0.8491228070175438,
	"grad_norm": 6.572112083435059,
	"learning_rate": 6.280780918463057e-07,
	"loss": 1.0355,
	"step": 1210
	},
	{
	"epoch": 0.856140350877193,
	"grad_norm": 7.28840970993042,
	"learning_rate": 6.227427435703995e-07,
	"loss": 1.0424,
	"step": 1220
	},
	{
	"epoch": 0.8631578947368421,
	"grad_norm": 8.068036079406738,
	"learning_rate": 6.173924810432704e-07,
	"loss": 1.0321,
	"step": 1230
	},
	{
	"epoch": 0.8701754385964913,
	"grad_norm": 6.726752281188965,
	"learning_rate": 6.12027954365748e-07,
	"loss": 1.0431,
	"step": 1240
	},
	{
	"epoch": 0.8771929824561403,
	"grad_norm": 6.742453098297119,
	"learning_rate": 6.066498153718734e-07,
	"loss": 1.0178,
	"step": 1250
	},
	{
	"epoch": 0.8842105263157894,
	"grad_norm": 6.598849296569824,
	"learning_rate": 6.01258717549696e-07,
	"loss": 1.0141,
	"step": 1260
	},
	{
	"epoch": 0.8912280701754386,
	"grad_norm": 6.771568775177002,
	"learning_rate": 5.958553159618692e-07,
	"loss": 0.9957,
	"step": 1270
	},
	{
	"epoch": 0.8982456140350877,
	"grad_norm": 7.0470380783081055,
	"learning_rate": 5.90440267166055e-07,
	"loss": 1.0387,
	"step": 1280
	},
	{
	"epoch": 0.9052631578947369,
	"grad_norm": 7.024428367614746,
	"learning_rate": 5.850142291351465e-07,
	"loss": 1.026,
	"step": 1290
	},
	{
	"epoch": 0.9122807017543859,
	"grad_norm": 7.074985027313232,
	"learning_rate": 5.795778611773197e-07,
	"loss": 1.0121,
	"step": 1300
	},
	{
	"epoch": 0.9122807017543859,
	"eval_loss": 1.0093048810958862,
	"eval_runtime": 27.6576,
	"eval_samples_per_second": 173.551,
	"eval_steps_per_second": 2.712,
	"step": 1300
	},
	{
	"epoch": 0.9192982456140351,
	"grad_norm": 7.012327194213867,
	"learning_rate": 5.741318238559209e-07,
	"loss": 1.0331,
	"step": 1310
	},
	{
	"epoch": 0.9263157894736842,
	"grad_norm": 6.710480690002441,
	"learning_rate": 5.686767789092041e-07,
	"loss": 1.012,
	"step": 1320
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 6.7387919425964355,
	"learning_rate": 5.632133891699231e-07,
	"loss": 0.9881,
	"step": 1330
	},
	{
	"epoch": 0.9403508771929825,
	"grad_norm": 6.965381145477295,
	"learning_rate": 5.577423184847931e-07,
	"loss": 1.0209,
	"step": 1340
	},
	{
	"epoch": 0.9473684210526315,
	"grad_norm": 7.125399589538574,
	"learning_rate": 5.522642316338268e-07,
	"loss": 1.0109,
	"step": 1350
	},
	{
	"epoch": 0.9543859649122807,
	"grad_norm": 7.273198127746582,
	"learning_rate": 5.467797942495589e-07,
	"loss": 1.0108,
	"step": 1360
	},
	{
	"epoch": 0.9614035087719298,
	"grad_norm": 6.802534580230713,
	"learning_rate": 5.412896727361662e-07,
	"loss": 1.025,
	"step": 1370
	},
	{
	"epoch": 0.968421052631579,
	"grad_norm": 7.282257080078125,
	"learning_rate": 5.357945341884935e-07,
	"loss": 1.0353,
	"step": 1380
	},
	{
	"epoch": 0.9754385964912281,
	"grad_norm": 6.752053260803223,
	"learning_rate": 5.302950463109969e-07,
	"loss": 1.0118,
	"step": 1390
	},
	{
	"epoch": 0.9824561403508771,
	"grad_norm": 6.847274303436279,
	"learning_rate": 5.247918773366111e-07,
	"loss": 1.0092,
	"step": 1400
	},
	{
	"epoch": 0.9824561403508771,
	"eval_loss": 1.003943681716919,
	"eval_runtime": 27.6644,
	"eval_samples_per_second": 173.508,
	"eval_steps_per_second": 2.711,
	"step": 1400
	},
	{
	"epoch": 0.9894736842105263,
	"grad_norm": 7.226211071014404,
	"learning_rate": 5.192856959455552e-07,
	"loss": 1.0278,
	"step": 1410
	},
	{
	"epoch": 0.9964912280701754,
	"grad_norm": 6.635247230529785,
	"learning_rate": 5.137771711840811e-07,
	"loss": 1.0163,
	"step": 1420
	},
	{
	"epoch": 1.0035087719298246,
	"grad_norm": 6.2100605964660645,
	"learning_rate": 5.082669723831793e-07,
	"loss": 0.928,
	"step": 1430
	},
	{
	"epoch": 1.0105263157894737,
	"grad_norm": 6.735259532928467,
	"learning_rate": 5.027557690772503e-07,
	"loss": 0.8903,
	"step": 1440
	},
	{
	"epoch": 1.0175438596491229,
	"grad_norm": 7.061236381530762,
	"learning_rate": 4.972442309227498e-07,
	"loss": 0.8721,
	"step": 1450
	},
	{
	"epoch": 1.024561403508772,
	"grad_norm": 6.729221820831299,
	"learning_rate": 4.917330276168208e-07,
	"loss": 0.8759,
	"step": 1460
	},
	{
	"epoch": 1.0315789473684212,
	"grad_norm": 6.925577640533447,
	"learning_rate": 4.86222828815919e-07,
	"loss": 0.866,
	"step": 1470
	},
	{
	"epoch": 1.03859649122807,
	"grad_norm": 6.847450256347656,
	"learning_rate": 4.807143040544446e-07,
	"loss": 0.8851,
	"step": 1480
	},
	{
	"epoch": 1.0456140350877192,
	"grad_norm": 7.24519157409668,
	"learning_rate": 4.752081226633888e-07,
	"loss": 0.8922,
	"step": 1490
	},
	{
	"epoch": 1.0526315789473684,
	"grad_norm": 6.8135085105896,
	"learning_rate": 4.697049536890033e-07,
	"loss": 0.8917,
	"step": 1500
	},
	{
	"epoch": 1.0526315789473684,
	"eval_loss": 1.0086382627487183,
	"eval_runtime": 27.6965,
	"eval_samples_per_second": 173.307,
	"eval_steps_per_second": 2.708,
	"step": 1500
	},
	{
	"epoch": 1.0596491228070175,
	"grad_norm": 6.774071216583252,
	"learning_rate": 4.6475522990138276e-07,
	"loss": 0.8773,
	"step": 1510
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 6.860315799713135,
	"learning_rate": 4.592596263646712e-07,
	"loss": 0.9042,
	"step": 1520
	},
	{
	"epoch": 1.0736842105263158,
	"grad_norm": 7.362914085388184,
	"learning_rate": 4.5376897311788825e-07,
	"loss": 0.8973,
	"step": 1530
	},
	{
	"epoch": 1.080701754385965,
	"grad_norm": 6.993128776550293,
	"learning_rate": 4.48283937320489e-07,
	"loss": 0.8533,
	"step": 1540
	},
	{
	"epoch": 1.087719298245614,
	"grad_norm": 7.575523853302002,
	"learning_rate": 4.4280518544936224e-07,
	"loss": 0.8896,
	"step": 1550
	},
	{
	"epoch": 1.0947368421052632,
	"grad_norm": 7.457510948181152,
	"learning_rate": 4.3733338321784777e-07,
	"loss": 0.873,
	"step": 1560
	},
	{
	"epoch": 1.1017543859649124,
	"grad_norm": 6.553786754608154,
	"learning_rate": 4.3186919549484777e-07,
	"loss": 0.8735,
	"step": 1570
	},
	{
	"epoch": 1.1087719298245613,
	"grad_norm": 7.161813259124756,
	"learning_rate": 4.264132862240387e-07,
	"loss": 0.8708,
	"step": 1580
	},
	{
	"epoch": 1.1157894736842104,
	"grad_norm": 7.342090129852295,
	"learning_rate": 4.2096631834319687e-07,
	"loss": 0.8627,
	"step": 1590
	},
	{
	"epoch": 1.1228070175438596,
	"grad_norm": 7.708263874053955,
	"learning_rate": 4.155289537036466e-07,
	"loss": 0.8916,
	"step": 1600
	},
	{
	"epoch": 1.1228070175438596,
	"eval_loss": 1.0080682039260864,
	"eval_runtime": 27.6601,
	"eval_samples_per_second": 173.535,
	"eval_steps_per_second": 2.711,
	"step": 1600
	},
	{
	"epoch": 1.1298245614035087,
	"grad_norm": 6.637975215911865,
	"learning_rate": 4.101018529898398e-07,
	"loss": 0.8598,
	"step": 1610
	},
	{
	"epoch": 1.1368421052631579,
	"grad_norm": 7.271252155303955,
	"learning_rate": 4.046856756390766e-07,
	"loss": 0.8632,
	"step": 1620
	},
	{
	"epoch": 1.143859649122807,
	"grad_norm": 6.89381742477417,
	"learning_rate": 3.99281079761379e-07,
	"loss": 0.8877,
	"step": 1630
	},
	{
	"epoch": 1.1508771929824562,
	"grad_norm": 7.032026290893555,
	"learning_rate": 3.938887220595252e-07,
	"loss": 0.879,
	"step": 1640
	},
	{
	"epoch": 1.1578947368421053,
	"grad_norm": 7.385174751281738,
	"learning_rate": 3.885092577492542e-07,
	"loss": 0.8893,
	"step": 1650
	},
	{
	"epoch": 1.1649122807017545,
	"grad_norm": 7.389017105102539,
	"learning_rate": 3.8314334047965207e-07,
	"loss": 0.8727,
	"step": 1660
	},
	{
	"epoch": 1.1719298245614036,
	"grad_norm": 6.653899192810059,
	"learning_rate": 3.7779162225372846e-07,
	"loss": 0.8941,
	"step": 1670
	},
	{
	"epoch": 1.1789473684210527,
	"grad_norm": 7.119126319885254,
	"learning_rate": 3.724547533491924e-07,
	"loss": 0.8676,
	"step": 1680
	},
	{
	"epoch": 1.1859649122807017,
	"grad_norm": 7.610691070556641,
	"learning_rate": 3.671333822394386e-07,
	"loss": 0.864,
	"step": 1690
	},
	{
	"epoch": 1.1929824561403508,
	"grad_norm": 6.851118564605713,
	"learning_rate": 3.6182815551475223e-07,
	"loss": 0.885,
	"step": 1700
	},
	{
	"epoch": 1.1929824561403508,
	"eval_loss": 1.0073468685150146,
	"eval_runtime": 27.66,
	"eval_samples_per_second": 173.536,
	"eval_steps_per_second": 2.712,
	"step": 1700
	},
	{
	"epoch": 1.2,
	"grad_norm": 7.08779764175415,
	"learning_rate": 3.565397178037429e-07,
	"loss": 0.875,
	"step": 1710
	},
	{
	"epoch": 1.207017543859649,
	"grad_norm": 6.938493728637695,
	"learning_rate": 3.5126871169501815e-07,
	"loss": 0.8823,
	"step": 1720
	},
	{
	"epoch": 1.2140350877192982,
	"grad_norm": 7.4112114906311035,
	"learning_rate": 3.4601577765910175e-07,
	"loss": 0.8428,
	"step": 1730
	},
	{
	"epoch": 1.2210526315789474,
	"grad_norm": 7.859072208404541,
	"learning_rate": 3.407815539706124e-07,
	"loss": 0.8659,
	"step": 1740
	},
	{
	"epoch": 1.2280701754385965,
	"grad_norm": 6.562801837921143,
	"learning_rate": 3.3556667663070835e-07,
	"loss": 0.8654,
	"step": 1750
	},
	{
	"epoch": 1.2350877192982457,
	"grad_norm": 7.658775806427002,
	"learning_rate": 3.303717792898073e-07,
	"loss": 0.8652,
	"step": 1760
	},
	{
	"epoch": 1.2421052631578948,
	"grad_norm": 7.275959491729736,
	"learning_rate": 3.2519749317059327e-07,
	"loss": 0.8957,
	"step": 1770
	},
	{
	"epoch": 1.2491228070175437,
	"grad_norm": 7.704782485961914,
	"learning_rate": 3.200444469913172e-07,
	"loss": 0.8737,
	"step": 1780
	},
	{
	"epoch": 1.256140350877193,
	"grad_norm": 7.395431995391846,
	"learning_rate": 3.1491326688940344e-07,
	"loss": 0.8542,
	"step": 1790
	},
	{
	"epoch": 1.263157894736842,
	"grad_norm": 6.88340425491333,
	"learning_rate": 3.0980457634536774e-07,
	"loss": 0.8843,
	"step": 1800
	},
	{
	"epoch": 1.263157894736842,
	"eval_loss": 1.0033657550811768,
	"eval_runtime": 27.6659,
	"eval_samples_per_second": 173.499,
	"eval_steps_per_second": 2.711,
	"step": 1800
	},
	{
	"epoch": 1.2701754385964912,
	"grad_norm": 6.7408766746521,
	"learning_rate": 3.0471899610706036e-07,
	"loss": 0.8331,
	"step": 1810
	},
	{
	"epoch": 1.2771929824561403,
	"grad_norm": 7.153403282165527,
	"learning_rate": 2.996571441142397e-07,
	"loss": 0.8465,
	"step": 1820
	},
	{
	"epoch": 1.2842105263157895,
	"grad_norm": 7.26017427444458,
	"learning_rate": 2.9461963542348733e-07,
	"loss": 0.8785,
	"step": 1830
	},
	{
	"epoch": 1.2912280701754386,
	"grad_norm": 7.271636486053467,
	"learning_rate": 2.896070821334736e-07,
	"loss": 0.8831,
	"step": 1840
	},
	{
	"epoch": 1.2982456140350878,
	"grad_norm": 6.8561201095581055,
	"learning_rate": 2.846200933105829e-07,
	"loss": 0.8578,
	"step": 1850
	},
	{
	"epoch": 1.305263157894737,
	"grad_norm": 7.387796878814697,
	"learning_rate": 2.7965927491490704e-07,
	"loss": 0.8439,
	"step": 1860
	},
	{
	"epoch": 1.312280701754386,
	"grad_norm": 7.401048183441162,
	"learning_rate": 2.747252297266162e-07,
	"loss": 0.8944,
	"step": 1870
	},
	{
	"epoch": 1.3192982456140352,
	"grad_norm": 7.2983527183532715,
	"learning_rate": 2.698185572727151e-07,
	"loss": 0.8689,
	"step": 1880
	},
	{
	"epoch": 1.3263157894736843,
	"grad_norm": 7.557769775390625,
	"learning_rate": 2.6493985375419775e-07,
	"loss": 0.885,
	"step": 1890
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 6.881629943847656,
	"learning_rate": 2.6008971197360175e-07,
	"loss": 0.8644,
	"step": 1900
	},
	{
	"epoch": 1.3333333333333333,
	"eval_loss": 1.0021144151687622,
	"eval_runtime": 27.6613,
	"eval_samples_per_second": 173.527,
	"eval_steps_per_second": 2.711,
	"step": 1900
	},
	{
	"epoch": 1.3403508771929824,
	"grad_norm": 7.333024978637695,
	"learning_rate": 2.5526872126297986e-07,
	"loss": 0.8912,
	"step": 1910
	},
	{
	"epoch": 1.3473684210526315,
	"grad_norm": 7.045767784118652,
	"learning_rate": 2.5047746741228977e-07,
	"loss": 0.8747,
	"step": 1920
	},
	{
	"epoch": 1.3543859649122807,
	"grad_norm": 7.227980613708496,
	"learning_rate": 2.457165325982169e-07,
	"loss": 0.8647,
	"step": 1930
	},
	{
	"epoch": 1.3614035087719298,
	"grad_norm": 7.303330898284912,
	"learning_rate": 2.4098649531343494e-07,
	"loss": 0.8657,
	"step": 1940
	},
	{
	"epoch": 1.368421052631579,
	"grad_norm": 7.276090621948242,
	"learning_rate": 2.362879302963135e-07,
	"loss": 0.8845,
	"step": 1950
	},
	{
	"epoch": 1.3754385964912281,
	"grad_norm": 7.321451663970947,
	"learning_rate": 2.3162140846108363e-07,
	"loss": 0.8487,
	"step": 1960
	},
	{
	"epoch": 1.3824561403508773,
	"grad_norm": 7.5262980461120605,
	"learning_rate": 2.2698749682846685e-07,
	"loss": 0.8762,
	"step": 1970
	},
	{
	"epoch": 1.3894736842105262,
	"grad_norm": 7.401157855987549,
	"learning_rate": 2.223867584567766e-07,
	"loss": 0.8748,
	"step": 1980
	},
	{
	"epoch": 1.3964912280701753,
	"grad_norm": 7.1058149337768555,
	"learning_rate": 2.1781975237350365e-07,
	"loss": 0.8641,
	"step": 1990
	},
	{
	"epoch": 1.4035087719298245,
	"grad_norm": 7.203502178192139,
	"learning_rate": 2.1328703350738765e-07,
	"loss": 0.8661,
	"step": 2000
	},
	{
	"epoch": 1.4035087719298245,
	"eval_loss": 1.000258445739746,
	"eval_runtime": 27.6622,
	"eval_samples_per_second": 173.522,
	"eval_steps_per_second": 2.711,
	"step": 2000
	},
	{
	"epoch": 1.4105263157894736,
	"grad_norm": 7.68574857711792,
	"learning_rate": 2.0878915262099096e-07,
	"loss": 0.8964,
	"step": 2010
	},
	{
	"epoch": 1.4175438596491228,
	"grad_norm": 7.339992523193359,
	"learning_rate": 2.0432665624377433e-07,
	"loss": 0.8779,
	"step": 2020
	},
	{
	"epoch": 1.424561403508772,
	"grad_norm": 7.711989879608154,
	"learning_rate": 1.999000866056908e-07,
	"loss": 0.8958,
	"step": 2030
	},
	{
	"epoch": 1.431578947368421,
	"grad_norm": 6.8218488693237305,
	"learning_rate": 1.9550998157129944e-07,
	"loss": 0.8848,
	"step": 2040
	},
	{
	"epoch": 1.4385964912280702,
	"grad_norm": 7.602545261383057,
	"learning_rate": 1.9115687457441022e-07,
	"loss": 0.8668,
	"step": 2050
	},
	{
	"epoch": 1.4456140350877194,
	"grad_norm": 7.199863433837891,
	"learning_rate": 1.8684129455326808e-07,
	"loss": 0.8705,
	"step": 2060
	},
	{
	"epoch": 1.4526315789473685,
	"grad_norm": 7.163413047790527,
	"learning_rate": 1.8256376588628235e-07,
	"loss": 0.8641,
	"step": 2070
	},
	{
	"epoch": 1.4596491228070176,
	"grad_norm": 7.178804397583008,
	"learning_rate": 1.7832480832830986e-07,
	"loss": 0.8526,
	"step": 2080
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 7.084789752960205,
	"learning_rate": 1.7412493694750173e-07,
	"loss": 0.8834,
	"step": 2090
	},
	{
	"epoch": 1.4736842105263157,
	"grad_norm": 7.647516250610352,
	"learning_rate": 1.6996466206271675e-07,
	"loss": 0.8712,
	"step": 2100
	},
	{
	"epoch": 1.4736842105263157,
	"eval_loss": 1.0002570152282715,
	"eval_runtime": 27.6725,
	"eval_samples_per_second": 173.457,
	"eval_steps_per_second": 2.71,
	"step": 2100
	},
	{
	"epoch": 1.4807017543859649,
	"grad_norm": 7.682786464691162,
	"learning_rate": 1.6584448918151518e-07,
	"loss": 0.8648,
	"step": 2110
	},
	{
	"epoch": 1.487719298245614,
	"grad_norm": 6.9408650398254395,
	"learning_rate": 1.6176491893873367e-07,
	"loss": 0.8775,
	"step": 2120
	},
	{
	"epoch": 1.4947368421052631,
	"grad_norm": 7.477031230926514,
	"learning_rate": 1.5772644703565564e-07,
	"loss": 0.8648,
	"step": 2130
	},
	{
	"epoch": 1.5017543859649123,
	"grad_norm": 7.054373741149902,
	"learning_rate": 1.537295641797785e-07,
	"loss": 0.8608,
	"step": 2140
	},
	{
	"epoch": 1.5087719298245614,
	"grad_norm": 6.98421049118042,
	"learning_rate": 1.4977475602518874e-07,
	"loss": 0.8653,
	"step": 2150
	},
	{
	"epoch": 1.5157894736842106,
	"grad_norm": 7.556164264678955,
	"learning_rate": 1.4586250311355132e-07,
	"loss": 0.8691,
	"step": 2160
	},
	{
	"epoch": 1.5228070175438595,
	"grad_norm": 7.721457004547119,
	"learning_rate": 1.4199328081572e-07,
	"loss": 0.8853,
	"step": 2170
	},
	{
	"epoch": 1.5298245614035086,
	"grad_norm": 7.5607428550720215,
	"learning_rate": 1.38167559273975e-07,
	"loss": 0.8647,
	"step": 2180
	},
	{
	"epoch": 1.5368421052631578,
	"grad_norm": 7.398414134979248,
	"learning_rate": 1.3438580334489818e-07,
	"loss": 0.8524,
	"step": 2190
	},
	{
	"epoch": 1.543859649122807,
	"grad_norm": 7.229887008666992,
	"learning_rate": 1.3064847254288796e-07,
	"loss": 0.8638,
	"step": 2200
	},
	{
	"epoch": 1.543859649122807,
	"eval_loss": 0.9979353547096252,
	"eval_runtime": 27.6809,
	"eval_samples_per_second": 173.405,
	"eval_steps_per_second": 2.709,
	"step": 2200
	},
	{
	"epoch": 1.550877192982456,
	"grad_norm": 7.479950428009033,
	"learning_rate": 1.26956020984325e-07,
	"loss": 0.8672,
	"step": 2210
	},
	{
	"epoch": 1.5578947368421052,
	"grad_norm": 7.526796340942383,
	"learning_rate": 1.2330889733239368e-07,
	"loss": 0.8882,
	"step": 2220
	},
	{
	"epoch": 1.5649122807017544,
	"grad_norm": 7.098681926727295,
	"learning_rate": 1.197075447425656e-07,
	"loss": 0.8564,
	"step": 2230
	},
	{
	"epoch": 1.5719298245614035,
	"grad_norm": 7.627535343170166,
	"learning_rate": 1.16152400808752e-07,
	"loss": 0.8778,
	"step": 2240
	},
	{
	"epoch": 1.5789473684210527,
	"grad_norm": 7.635378360748291,
	"learning_rate": 1.1264389751013325e-07,
	"loss": 0.8615,
	"step": 2250
	},
	{
	"epoch": 1.5859649122807018,
	"grad_norm": 7.256911754608154,
	"learning_rate": 1.0918246115866964e-07,
	"loss": 0.8828,
	"step": 2260
	},
	{
	"epoch": 1.592982456140351,
	"grad_norm": 7.054688453674316,
	"learning_rate": 1.0576851234730094e-07,
	"loss": 0.8602,
	"step": 2270
	},
	{
	"epoch": 1.6,
	"grad_norm": 7.2597479820251465,
	"learning_rate": 1.0240246589884045e-07,
	"loss": 0.8588,
	"step": 2280
	},
	{
	"epoch": 1.6070175438596492,
	"grad_norm": 7.462535381317139,
	"learning_rate": 9.90847308155715e-08,
	"loss": 0.8623,
	"step": 2290
	},
	{
	"epoch": 1.6140350877192984,
	"grad_norm": 7.354959487915039,
	"learning_rate": 9.581571022954987e-08,
	"loss": 0.8632,
	"step": 2300
	},
	{
	"epoch": 1.6140350877192984,
	"eval_loss": 0.9973437786102295,
	"eval_runtime": 27.6881,
	"eval_samples_per_second": 173.36,
	"eval_steps_per_second": 2.709,
	"step": 2300
	},
	{
	"epoch": 1.6210526315789475,
	"grad_norm": 7.283778667449951,
	"learning_rate": 9.259580135361927e-08,
	"loss": 0.8684,
	"step": 2310
	},
	{
	"epoch": 1.6280701754385964,
	"grad_norm": 7.570828914642334,
	"learning_rate": 8.942539543314798e-08,
	"loss": 0.8609,
	"step": 2320
	},
	{
	"epoch": 1.6350877192982456,
	"grad_norm": 7.366217613220215,
	"learning_rate": 8.630487769848876e-08,
	"loss": 0.8722,
	"step": 2330
	},
	{
	"epoch": 1.6421052631578947,
	"grad_norm": 7.667774200439453,
	"learning_rate": 8.32346273181696e-08,
	"loss": 0.8883,
	"step": 2340
	},
	{
	"epoch": 1.6491228070175439,
	"grad_norm": 8.111892700195312,
	"learning_rate": 8.021501735282266e-08,
	"loss": 0.8599,
	"step": 2350
	},
	{
	"epoch": 1.656140350877193,
	"grad_norm": 7.690216064453125,
	"learning_rate": 7.724641470985377e-08,
	"loss": 0.8951,
	"step": 2360
	},
	{
	"epoch": 1.663157894736842,
	"grad_norm": 7.080111980438232,
	"learning_rate": 7.432918009885996e-08,
	"loss": 0.865,
	"step": 2370
	},
	{
	"epoch": 1.670175438596491,
	"grad_norm": 7.580221176147461,
	"learning_rate": 7.146366798780096e-08,
	"loss": 0.8905,
	"step": 2380
	},
	{
	"epoch": 1.6771929824561402,
	"grad_norm": 6.910195827484131,
	"learning_rate": 6.865022655992798e-08,
	"loss": 0.8501,
	"step": 2390
	},
	{
	"epoch": 1.6842105263157894,
	"grad_norm": 7.176208972930908,
	"learning_rate": 6.588919767147638e-08,
	"loss": 0.8461,
	"step": 2400
	},
	{
	"epoch": 1.6842105263157894,
	"eval_loss": 0.9966626167297363,
	"eval_runtime": 27.668,
	"eval_samples_per_second": 173.486,
	"eval_steps_per_second": 2.711,
	"step": 2400
	},
	{
	"epoch": 1.6912280701754385,
	"grad_norm": 7.764338970184326,
	"learning_rate": 6.318091681012771e-08,
	"loss": 0.8711,
	"step": 2410
	},
	{
	"epoch": 1.6982456140350877,
	"grad_norm": 8.283316612243652,
	"learning_rate": 6.052571305424531e-08,
	"loss": 0.8738,
	"step": 2420
	},
	{
	"epoch": 1.7052631578947368,
	"grad_norm": 7.315950870513916,
	"learning_rate": 5.7923909032888295e-08,
	"loss": 0.8719,
	"step": 2430
	},
	{
	"epoch": 1.712280701754386,
	"grad_norm": 7.591914653778076,
	"learning_rate": 5.537582088660936e-08,
	"loss": 0.8708,
	"step": 2440
	},
	{
	"epoch": 1.719298245614035,
	"grad_norm": 7.378705978393555,
	"learning_rate": 5.2881758229041394e-08,
	"loss": 0.8722,
	"step": 2450
	},
	{
	"epoch": 1.7263157894736842,
	"grad_norm": 7.416294097900391,
	"learning_rate": 5.044202410927706e-08,
	"loss": 0.8586,
	"step": 2460
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 7.301969051361084,
	"learning_rate": 4.805691497504505e-08,
	"loss": 0.891,
	"step": 2470
	},
	{
	"epoch": 1.7403508771929825,
	"grad_norm": 6.946348190307617,
	"learning_rate": 4.5726720636690195e-08,
	"loss": 0.8871,
	"step": 2480
	},
	{
	"epoch": 1.7473684210526317,
	"grad_norm": 7.327394008636475,
	"learning_rate": 4.3451724231958645e-08,
	"loss": 0.8688,
	"step": 2490
	},
	{
	"epoch": 1.7543859649122808,
	"grad_norm": 7.17736291885376,
	"learning_rate": 4.123220219159418e-08,
	"loss": 0.8729,
	"step": 2500
	},
	{
	"epoch": 1.7543859649122808,
	"eval_loss": 0.9957481622695923,
	"eval_runtime": 27.665,
	"eval_samples_per_second": 173.504,
	"eval_steps_per_second": 2.711,
	"step": 2500
	}
	],
	"logging_steps": 10,
	"max_steps": 2850,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"total_flos": 6.354365204175782e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}