SallySun
/

llama2_chatdoctor_finetuned

Model card Files Files and versions Community

llama2_chatdoctor_finetuned / trainer_state.json

SallySun

Upload 11 files

265378d verified 3 months ago

raw

history blame contribute delete

No virus

96.8 kB

	{
	"best_metric": 0.6168031096458435,
	"best_model_checkpoint": "/Lora_models/checkpoint-5000",
	"epoch": 0.9752438109527382,
	"eval_steps": 200,
	"global_step": 5200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0018754688672168042,
	"grad_norm": 0.9346357583999634,
	"learning_rate": 2.7e-06,
	"loss": 2.5803,
	"step": 10
	},
	{
	"epoch": 0.0037509377344336083,
	"grad_norm": 1.251865267753601,
	"learning_rate": 5.7000000000000005e-06,
	"loss": 2.4539,
	"step": 20
	},
	{
	"epoch": 0.005626406601650412,
	"grad_norm": 1.055527687072754,
	"learning_rate": 8.7e-06,
	"loss": 2.5107,
	"step": 30
	},
	{
	"epoch": 0.007501875468867217,
	"grad_norm": 1.1238517761230469,
	"learning_rate": 1.1700000000000001e-05,
	"loss": 2.4512,
	"step": 40
	},
	{
	"epoch": 0.009377344336084021,
	"grad_norm": 1.20820152759552,
	"learning_rate": 1.47e-05,
	"loss": 2.4078,
	"step": 50
	},
	{
	"epoch": 0.011252813203300824,
	"grad_norm": 2.085667133331299,
	"learning_rate": 1.77e-05,
	"loss": 2.2828,
	"step": 60
	},
	{
	"epoch": 0.01312828207051763,
	"grad_norm": 1.357437252998352,
	"learning_rate": 2.07e-05,
	"loss": 2.0614,
	"step": 70
	},
	{
	"epoch": 0.015003750937734433,
	"grad_norm": 1.6979730129241943,
	"learning_rate": 2.37e-05,
	"loss": 1.9482,
	"step": 80
	},
	{
	"epoch": 0.01687921980495124,
	"grad_norm": 1.7537882328033447,
	"learning_rate": 2.6700000000000002e-05,
	"loss": 1.775,
	"step": 90
	},
	{
	"epoch": 0.018754688672168042,
	"grad_norm": 1.8001635074615479,
	"learning_rate": 2.97e-05,
	"loss": 1.6462,
	"step": 100
	},
	{
	"epoch": 0.020630157539384845,
	"grad_norm": 1.744318962097168,
	"learning_rate": 2.9948394495412847e-05,
	"loss": 1.3796,
	"step": 110
	},
	{
	"epoch": 0.02250562640660165,
	"grad_norm": 1.6778439283370972,
	"learning_rate": 2.989105504587156e-05,
	"loss": 1.2642,
	"step": 120
	},
	{
	"epoch": 0.024381095273818456,
	"grad_norm": 2.0165181159973145,
	"learning_rate": 2.9833715596330273e-05,
	"loss": 0.9405,
	"step": 130
	},
	{
	"epoch": 0.02625656414103526,
	"grad_norm": 1.1453020572662354,
	"learning_rate": 2.9776376146788993e-05,
	"loss": 0.8365,
	"step": 140
	},
	{
	"epoch": 0.028132033008252063,
	"grad_norm": 0.9237515330314636,
	"learning_rate": 2.9719036697247706e-05,
	"loss": 0.9324,
	"step": 150
	},
	{
	"epoch": 0.030007501875468866,
	"grad_norm": 1.1040199995040894,
	"learning_rate": 2.9661697247706423e-05,
	"loss": 0.8905,
	"step": 160
	},
	{
	"epoch": 0.03188297074268567,
	"grad_norm": 1.052095651626587,
	"learning_rate": 2.9604357798165136e-05,
	"loss": 0.7226,
	"step": 170
	},
	{
	"epoch": 0.03375843960990248,
	"grad_norm": 1.4509942531585693,
	"learning_rate": 2.9547018348623853e-05,
	"loss": 0.7401,
	"step": 180
	},
	{
	"epoch": 0.03563390847711928,
	"grad_norm": 1.3202496767044067,
	"learning_rate": 2.948967889908257e-05,
	"loss": 0.6498,
	"step": 190
	},
	{
	"epoch": 0.037509377344336084,
	"grad_norm": 1.257535457611084,
	"learning_rate": 2.9432339449541286e-05,
	"loss": 0.8931,
	"step": 200
	},
	{
	"epoch": 0.037509377344336084,
	"eval_loss": 0.8721055388450623,
	"eval_runtime": 5.4276,
	"eval_samples_per_second": 22.109,
	"eval_steps_per_second": 2.764,
	"step": 200
	},
	{
	"epoch": 0.03938484621155289,
	"grad_norm": 1.1922121047973633,
	"learning_rate": 2.9375e-05,
	"loss": 0.9556,
	"step": 210
	},
	{
	"epoch": 0.04126031507876969,
	"grad_norm": 1.1076873540878296,
	"learning_rate": 2.9317660550458716e-05,
	"loss": 0.8148,
	"step": 220
	},
	{
	"epoch": 0.043135783945986494,
	"grad_norm": 1.3961315155029297,
	"learning_rate": 2.9260321100917432e-05,
	"loss": 0.7225,
	"step": 230
	},
	{
	"epoch": 0.0450112528132033,
	"grad_norm": 1.3916189670562744,
	"learning_rate": 2.920298165137615e-05,
	"loss": 0.8899,
	"step": 240
	},
	{
	"epoch": 0.04688672168042011,
	"grad_norm": 1.4073107242584229,
	"learning_rate": 2.9145642201834862e-05,
	"loss": 0.7895,
	"step": 250
	},
	{
	"epoch": 0.04876219054763691,
	"grad_norm": 1.4054927825927734,
	"learning_rate": 2.908830275229358e-05,
	"loss": 0.8662,
	"step": 260
	},
	{
	"epoch": 0.050637659414853715,
	"grad_norm": 1.0531301498413086,
	"learning_rate": 2.9030963302752292e-05,
	"loss": 0.7619,
	"step": 270
	},
	{
	"epoch": 0.05251312828207052,
	"grad_norm": 1.3712563514709473,
	"learning_rate": 2.8973623853211012e-05,
	"loss": 0.8608,
	"step": 280
	},
	{
	"epoch": 0.05438859714928732,
	"grad_norm": 1.4002102613449097,
	"learning_rate": 2.8916284403669725e-05,
	"loss": 0.7368,
	"step": 290
	},
	{
	"epoch": 0.056264066016504126,
	"grad_norm": 1.381103754043579,
	"learning_rate": 2.8858944954128442e-05,
	"loss": 0.8059,
	"step": 300
	},
	{
	"epoch": 0.05813953488372093,
	"grad_norm": 1.9642342329025269,
	"learning_rate": 2.8801605504587155e-05,
	"loss": 0.8149,
	"step": 310
	},
	{
	"epoch": 0.06001500375093773,
	"grad_norm": 1.4538882970809937,
	"learning_rate": 2.8744266055045875e-05,
	"loss": 0.6891,
	"step": 320
	},
	{
	"epoch": 0.061890472618154536,
	"grad_norm": 1.47075617313385,
	"learning_rate": 2.8686926605504588e-05,
	"loss": 0.8458,
	"step": 330
	},
	{
	"epoch": 0.06376594148537135,
	"grad_norm": 1.1955201625823975,
	"learning_rate": 2.8629587155963305e-05,
	"loss": 0.7404,
	"step": 340
	},
	{
	"epoch": 0.06564141035258815,
	"grad_norm": 1.151567816734314,
	"learning_rate": 2.8572247706422018e-05,
	"loss": 0.6032,
	"step": 350
	},
	{
	"epoch": 0.06751687921980495,
	"grad_norm": 1.3864506483078003,
	"learning_rate": 2.8514908256880738e-05,
	"loss": 0.7951,
	"step": 360
	},
	{
	"epoch": 0.06939234808702176,
	"grad_norm": 1.3162195682525635,
	"learning_rate": 2.845756880733945e-05,
	"loss": 0.698,
	"step": 370
	},
	{
	"epoch": 0.07126781695423856,
	"grad_norm": 1.0740330219268799,
	"learning_rate": 2.8400229357798164e-05,
	"loss": 0.7008,
	"step": 380
	},
	{
	"epoch": 0.07314328582145536,
	"grad_norm": 1.4195873737335205,
	"learning_rate": 2.834288990825688e-05,
	"loss": 0.7324,
	"step": 390
	},
	{
	"epoch": 0.07501875468867217,
	"grad_norm": 1.6425796747207642,
	"learning_rate": 2.8285550458715594e-05,
	"loss": 0.6954,
	"step": 400
	},
	{
	"epoch": 0.07501875468867217,
	"eval_loss": 0.790172815322876,
	"eval_runtime": 5.5372,
	"eval_samples_per_second": 21.671,
	"eval_steps_per_second": 2.709,
	"step": 400
	},
	{
	"epoch": 0.07689422355588897,
	"grad_norm": 1.4094221591949463,
	"learning_rate": 2.8228211009174314e-05,
	"loss": 0.6533,
	"step": 410
	},
	{
	"epoch": 0.07876969242310577,
	"grad_norm": 1.7052984237670898,
	"learning_rate": 2.8170871559633027e-05,
	"loss": 0.8291,
	"step": 420
	},
	{
	"epoch": 0.08064516129032258,
	"grad_norm": 1.766396164894104,
	"learning_rate": 2.8113532110091744e-05,
	"loss": 0.5917,
	"step": 430
	},
	{
	"epoch": 0.08252063015753938,
	"grad_norm": 1.3280906677246094,
	"learning_rate": 2.8056192660550457e-05,
	"loss": 0.5834,
	"step": 440
	},
	{
	"epoch": 0.08439609902475619,
	"grad_norm": 1.472038984298706,
	"learning_rate": 2.7998853211009177e-05,
	"loss": 0.6189,
	"step": 450
	},
	{
	"epoch": 0.08627156789197299,
	"grad_norm": 2.434629440307617,
	"learning_rate": 2.794151376146789e-05,
	"loss": 0.6107,
	"step": 460
	},
	{
	"epoch": 0.08814703675918979,
	"grad_norm": 1.7748132944107056,
	"learning_rate": 2.7884174311926607e-05,
	"loss": 0.508,
	"step": 470
	},
	{
	"epoch": 0.0900225056264066,
	"grad_norm": 1.7380709648132324,
	"learning_rate": 2.782683486238532e-05,
	"loss": 0.6482,
	"step": 480
	},
	{
	"epoch": 0.0918979744936234,
	"grad_norm": 1.1493253707885742,
	"learning_rate": 2.7769495412844037e-05,
	"loss": 0.6531,
	"step": 490
	},
	{
	"epoch": 0.09377344336084022,
	"grad_norm": 1.384508728981018,
	"learning_rate": 2.7712155963302753e-05,
	"loss": 0.7061,
	"step": 500
	},
	{
	"epoch": 0.09564891222805702,
	"grad_norm": 1.792687177658081,
	"learning_rate": 2.765481651376147e-05,
	"loss": 0.6,
	"step": 510
	},
	{
	"epoch": 0.09752438109527382,
	"grad_norm": 1.657291054725647,
	"learning_rate": 2.7597477064220183e-05,
	"loss": 0.612,
	"step": 520
	},
	{
	"epoch": 0.09939984996249063,
	"grad_norm": 1.2928940057754517,
	"learning_rate": 2.75401376146789e-05,
	"loss": 0.7446,
	"step": 530
	},
	{
	"epoch": 0.10127531882970743,
	"grad_norm": 1.3647221326828003,
	"learning_rate": 2.7482798165137616e-05,
	"loss": 0.6422,
	"step": 540
	},
	{
	"epoch": 0.10315078769692423,
	"grad_norm": 1.7979224920272827,
	"learning_rate": 2.7425458715596333e-05,
	"loss": 0.5261,
	"step": 550
	},
	{
	"epoch": 0.10502625656414104,
	"grad_norm": 1.4330195188522339,
	"learning_rate": 2.7368119266055046e-05,
	"loss": 0.6801,
	"step": 560
	},
	{
	"epoch": 0.10690172543135784,
	"grad_norm": 1.4820642471313477,
	"learning_rate": 2.7310779816513763e-05,
	"loss": 0.6767,
	"step": 570
	},
	{
	"epoch": 0.10877719429857464,
	"grad_norm": 1.6445374488830566,
	"learning_rate": 2.7253440366972476e-05,
	"loss": 0.6727,
	"step": 580
	},
	{
	"epoch": 0.11065266316579145,
	"grad_norm": 1.5297715663909912,
	"learning_rate": 2.7196100917431196e-05,
	"loss": 0.5425,
	"step": 590
	},
	{
	"epoch": 0.11252813203300825,
	"grad_norm": 2.9595024585723877,
	"learning_rate": 2.713876146788991e-05,
	"loss": 0.5758,
	"step": 600
	},
	{
	"epoch": 0.11252813203300825,
	"eval_loss": 0.7191774249076843,
	"eval_runtime": 5.5393,
	"eval_samples_per_second": 21.663,
	"eval_steps_per_second": 2.708,
	"step": 600
	},
	{
	"epoch": 0.11440360090022506,
	"grad_norm": 1.300517201423645,
	"learning_rate": 2.7081422018348626e-05,
	"loss": 0.6598,
	"step": 610
	},
	{
	"epoch": 0.11627906976744186,
	"grad_norm": 1.4118940830230713,
	"learning_rate": 2.702408256880734e-05,
	"loss": 0.7422,
	"step": 620
	},
	{
	"epoch": 0.11815453863465866,
	"grad_norm": 1.1897056102752686,
	"learning_rate": 2.6966743119266055e-05,
	"loss": 0.6301,
	"step": 630
	},
	{
	"epoch": 0.12003000750187547,
	"grad_norm": 1.3802241086959839,
	"learning_rate": 2.6909403669724772e-05,
	"loss": 0.7331,
	"step": 640
	},
	{
	"epoch": 0.12190547636909227,
	"grad_norm": 1.3182717561721802,
	"learning_rate": 2.6852064220183485e-05,
	"loss": 0.6309,
	"step": 650
	},
	{
	"epoch": 0.12378094523630907,
	"grad_norm": 1.1293184757232666,
	"learning_rate": 2.6794724770642202e-05,
	"loss": 0.657,
	"step": 660
	},
	{
	"epoch": 0.12565641410352588,
	"grad_norm": 1.525172472000122,
	"learning_rate": 2.6737385321100915e-05,
	"loss": 0.7025,
	"step": 670
	},
	{
	"epoch": 0.1275318829707427,
	"grad_norm": 1.1699976921081543,
	"learning_rate": 2.6680045871559635e-05,
	"loss": 0.6213,
	"step": 680
	},
	{
	"epoch": 0.12940735183795948,
	"grad_norm": 1.5956225395202637,
	"learning_rate": 2.6622706422018348e-05,
	"loss": 0.6628,
	"step": 690
	},
	{
	"epoch": 0.1312828207051763,
	"grad_norm": 1.3606040477752686,
	"learning_rate": 2.6565366972477065e-05,
	"loss": 0.6042,
	"step": 700
	},
	{
	"epoch": 0.1331582895723931,
	"grad_norm": 1.310490369796753,
	"learning_rate": 2.6508027522935778e-05,
	"loss": 0.6976,
	"step": 710
	},
	{
	"epoch": 0.1350337584396099,
	"grad_norm": 1.0546784400939941,
	"learning_rate": 2.6450688073394498e-05,
	"loss": 0.6681,
	"step": 720
	},
	{
	"epoch": 0.1369092273068267,
	"grad_norm": 1.977148175239563,
	"learning_rate": 2.639334862385321e-05,
	"loss": 0.723,
	"step": 730
	},
	{
	"epoch": 0.13878469617404351,
	"grad_norm": 1.526698350906372,
	"learning_rate": 2.6336009174311928e-05,
	"loss": 0.6595,
	"step": 740
	},
	{
	"epoch": 0.1406601650412603,
	"grad_norm": 1.302213191986084,
	"learning_rate": 2.627866972477064e-05,
	"loss": 0.6826,
	"step": 750
	},
	{
	"epoch": 0.14253563390847712,
	"grad_norm": 1.4109597206115723,
	"learning_rate": 2.6221330275229358e-05,
	"loss": 0.679,
	"step": 760
	},
	{
	"epoch": 0.1444111027756939,
	"grad_norm": 1.390410304069519,
	"learning_rate": 2.6163990825688074e-05,
	"loss": 0.5305,
	"step": 770
	},
	{
	"epoch": 0.14628657164291073,
	"grad_norm": 1.778104543685913,
	"learning_rate": 2.610665137614679e-05,
	"loss": 0.5224,
	"step": 780
	},
	{
	"epoch": 0.14816204051012752,
	"grad_norm": 1.4633052349090576,
	"learning_rate": 2.6049311926605504e-05,
	"loss": 0.6479,
	"step": 790
	},
	{
	"epoch": 0.15003750937734434,
	"grad_norm": 1.4608770608901978,
	"learning_rate": 2.599197247706422e-05,
	"loss": 0.6688,
	"step": 800
	},
	{
	"epoch": 0.15003750937734434,
	"eval_loss": 0.7000935673713684,
	"eval_runtime": 5.5538,
	"eval_samples_per_second": 21.607,
	"eval_steps_per_second": 2.701,
	"step": 800
	},
	{
	"epoch": 0.15191297824456115,
	"grad_norm": 1.419257640838623,
	"learning_rate": 2.5934633027522937e-05,
	"loss": 0.4972,
	"step": 810
	},
	{
	"epoch": 0.15378844711177794,
	"grad_norm": 1.383324146270752,
	"learning_rate": 2.5877293577981654e-05,
	"loss": 0.6802,
	"step": 820
	},
	{
	"epoch": 0.15566391597899476,
	"grad_norm": 1.4699604511260986,
	"learning_rate": 2.5819954128440367e-05,
	"loss": 0.5997,
	"step": 830
	},
	{
	"epoch": 0.15753938484621155,
	"grad_norm": 1.7882672548294067,
	"learning_rate": 2.5762614678899084e-05,
	"loss": 0.5495,
	"step": 840
	},
	{
	"epoch": 0.15941485371342837,
	"grad_norm": 1.4856760501861572,
	"learning_rate": 2.57052752293578e-05,
	"loss": 0.6453,
	"step": 850
	},
	{
	"epoch": 0.16129032258064516,
	"grad_norm": 1.4340794086456299,
	"learning_rate": 2.5647935779816517e-05,
	"loss": 0.6263,
	"step": 860
	},
	{
	"epoch": 0.16316579144786197,
	"grad_norm": 1.7416778802871704,
	"learning_rate": 2.559059633027523e-05,
	"loss": 0.5994,
	"step": 870
	},
	{
	"epoch": 0.16504126031507876,
	"grad_norm": 1.2337450981140137,
	"learning_rate": 2.5533256880733947e-05,
	"loss": 0.6288,
	"step": 880
	},
	{
	"epoch": 0.16691672918229558,
	"grad_norm": 1.6339170932769775,
	"learning_rate": 2.547591743119266e-05,
	"loss": 0.6181,
	"step": 890
	},
	{
	"epoch": 0.16879219804951237,
	"grad_norm": 1.7602070569992065,
	"learning_rate": 2.5418577981651376e-05,
	"loss": 0.5742,
	"step": 900
	},
	{
	"epoch": 0.1706676669167292,
	"grad_norm": 1.3282010555267334,
	"learning_rate": 2.5361238532110093e-05,
	"loss": 0.6869,
	"step": 910
	},
	{
	"epoch": 0.17254313578394598,
	"grad_norm": 1.471281886100769,
	"learning_rate": 2.5303899082568806e-05,
	"loss": 0.6788,
	"step": 920
	},
	{
	"epoch": 0.1744186046511628,
	"grad_norm": 1.4900857210159302,
	"learning_rate": 2.5246559633027523e-05,
	"loss": 0.5706,
	"step": 930
	},
	{
	"epoch": 0.17629407351837958,
	"grad_norm": 1.903571605682373,
	"learning_rate": 2.518922018348624e-05,
	"loss": 0.7056,
	"step": 940
	},
	{
	"epoch": 0.1781695423855964,
	"grad_norm": 1.7407480478286743,
	"learning_rate": 2.5131880733944956e-05,
	"loss": 0.5102,
	"step": 950
	},
	{
	"epoch": 0.1800450112528132,
	"grad_norm": 1.6534910202026367,
	"learning_rate": 2.507454128440367e-05,
	"loss": 0.6654,
	"step": 960
	},
	{
	"epoch": 0.18192048012003,
	"grad_norm": 1.7608113288879395,
	"learning_rate": 2.5017201834862386e-05,
	"loss": 0.6793,
	"step": 970
	},
	{
	"epoch": 0.1837959489872468,
	"grad_norm": 1.737579107284546,
	"learning_rate": 2.49598623853211e-05,
	"loss": 0.5787,
	"step": 980
	},
	{
	"epoch": 0.18567141785446362,
	"grad_norm": 1.7096258401870728,
	"learning_rate": 2.490252293577982e-05,
	"loss": 0.7254,
	"step": 990
	},
	{
	"epoch": 0.18754688672168043,
	"grad_norm": 1.7333779335021973,
	"learning_rate": 2.4845183486238532e-05,
	"loss": 0.7332,
	"step": 1000
	},
	{
	"epoch": 0.18754688672168043,
	"eval_loss": 0.6944581270217896,
	"eval_runtime": 5.5505,
	"eval_samples_per_second": 21.62,
	"eval_steps_per_second": 2.702,
	"step": 1000
	},
	{
	"epoch": 0.18942235558889722,
	"grad_norm": 1.235772967338562,
	"learning_rate": 2.478784403669725e-05,
	"loss": 0.684,
	"step": 1010
	},
	{
	"epoch": 0.19129782445611404,
	"grad_norm": 1.3532825708389282,
	"learning_rate": 2.4730504587155962e-05,
	"loss": 0.5977,
	"step": 1020
	},
	{
	"epoch": 0.19317329332333083,
	"grad_norm": 1.7143605947494507,
	"learning_rate": 2.4673165137614682e-05,
	"loss": 0.6109,
	"step": 1030
	},
	{
	"epoch": 0.19504876219054765,
	"grad_norm": 1.4067035913467407,
	"learning_rate": 2.4615825688073395e-05,
	"loss": 0.6823,
	"step": 1040
	},
	{
	"epoch": 0.19692423105776444,
	"grad_norm": 1.713149070739746,
	"learning_rate": 2.4558486238532112e-05,
	"loss": 0.5852,
	"step": 1050
	},
	{
	"epoch": 0.19879969992498125,
	"grad_norm": 1.5876083374023438,
	"learning_rate": 2.4501146788990825e-05,
	"loss": 0.6451,
	"step": 1060
	},
	{
	"epoch": 0.20067516879219804,
	"grad_norm": 1.3769148588180542,
	"learning_rate": 2.444380733944954e-05,
	"loss": 0.5712,
	"step": 1070
	},
	{
	"epoch": 0.20255063765941486,
	"grad_norm": 1.408957839012146,
	"learning_rate": 2.4386467889908258e-05,
	"loss": 0.5704,
	"step": 1080
	},
	{
	"epoch": 0.20442610652663165,
	"grad_norm": 1.3725367784500122,
	"learning_rate": 2.4329128440366975e-05,
	"loss": 0.4405,
	"step": 1090
	},
	{
	"epoch": 0.20630157539384847,
	"grad_norm": 1.6715686321258545,
	"learning_rate": 2.4271788990825688e-05,
	"loss": 0.5433,
	"step": 1100
	},
	{
	"epoch": 0.20817704426106526,
	"grad_norm": 1.4740937948226929,
	"learning_rate": 2.4214449541284405e-05,
	"loss": 0.6363,
	"step": 1110
	},
	{
	"epoch": 0.21005251312828208,
	"grad_norm": 1.640724778175354,
	"learning_rate": 2.415711009174312e-05,
	"loss": 0.6302,
	"step": 1120
	},
	{
	"epoch": 0.21192798199549887,
	"grad_norm": 1.8040657043457031,
	"learning_rate": 2.4099770642201838e-05,
	"loss": 0.6726,
	"step": 1130
	},
	{
	"epoch": 0.21380345086271568,
	"grad_norm": 1.6836594343185425,
	"learning_rate": 2.404243119266055e-05,
	"loss": 0.6706,
	"step": 1140
	},
	{
	"epoch": 0.21567891972993247,
	"grad_norm": 1.9649243354797363,
	"learning_rate": 2.3985091743119264e-05,
	"loss": 0.5189,
	"step": 1150
	},
	{
	"epoch": 0.2175543885971493,
	"grad_norm": 1.5541070699691772,
	"learning_rate": 2.392775229357798e-05,
	"loss": 0.7497,
	"step": 1160
	},
	{
	"epoch": 0.21942985746436608,
	"grad_norm": 1.9473050832748413,
	"learning_rate": 2.3870412844036697e-05,
	"loss": 0.5373,
	"step": 1170
	},
	{
	"epoch": 0.2213053263315829,
	"grad_norm": 1.8983582258224487,
	"learning_rate": 2.3813073394495414e-05,
	"loss": 0.6523,
	"step": 1180
	},
	{
	"epoch": 0.2231807951987997,
	"grad_norm": 1.6753871440887451,
	"learning_rate": 2.3755733944954127e-05,
	"loss": 0.6294,
	"step": 1190
	},
	{
	"epoch": 0.2250562640660165,
	"grad_norm": 1.706829309463501,
	"learning_rate": 2.3698394495412844e-05,
	"loss": 0.6741,
	"step": 1200
	},
	{
	"epoch": 0.2250562640660165,
	"eval_loss": 0.6810731887817383,
	"eval_runtime": 5.4298,
	"eval_samples_per_second": 22.1,
	"eval_steps_per_second": 2.763,
	"step": 1200
	},
	{
	"epoch": 0.22693173293323332,
	"grad_norm": 1.6627461910247803,
	"learning_rate": 2.364105504587156e-05,
	"loss": 0.6354,
	"step": 1210
	},
	{
	"epoch": 0.2288072018004501,
	"grad_norm": 2.973555564880371,
	"learning_rate": 2.3583715596330277e-05,
	"loss": 0.5482,
	"step": 1220
	},
	{
	"epoch": 0.23068267066766693,
	"grad_norm": 1.9262856245040894,
	"learning_rate": 2.352637614678899e-05,
	"loss": 0.7558,
	"step": 1230
	},
	{
	"epoch": 0.23255813953488372,
	"grad_norm": 1.816595435142517,
	"learning_rate": 2.3469036697247707e-05,
	"loss": 0.6039,
	"step": 1240
	},
	{
	"epoch": 0.23443360840210054,
	"grad_norm": 1.9634557962417603,
	"learning_rate": 2.341169724770642e-05,
	"loss": 0.5126,
	"step": 1250
	},
	{
	"epoch": 0.23630907726931732,
	"grad_norm": 1.7136008739471436,
	"learning_rate": 2.335435779816514e-05,
	"loss": 0.6365,
	"step": 1260
	},
	{
	"epoch": 0.23818454613653414,
	"grad_norm": 1.4523965120315552,
	"learning_rate": 2.3297018348623853e-05,
	"loss": 0.5995,
	"step": 1270
	},
	{
	"epoch": 0.24006001500375093,
	"grad_norm": 1.6242806911468506,
	"learning_rate": 2.323967889908257e-05,
	"loss": 0.6412,
	"step": 1280
	},
	{
	"epoch": 0.24193548387096775,
	"grad_norm": 1.7888171672821045,
	"learning_rate": 2.3182339449541283e-05,
	"loss": 0.6565,
	"step": 1290
	},
	{
	"epoch": 0.24381095273818454,
	"grad_norm": 1.6343475580215454,
	"learning_rate": 2.3125000000000003e-05,
	"loss": 0.6212,
	"step": 1300
	},
	{
	"epoch": 0.24568642160540136,
	"grad_norm": 1.3897461891174316,
	"learning_rate": 2.3067660550458716e-05,
	"loss": 0.5839,
	"step": 1310
	},
	{
	"epoch": 0.24756189047261815,
	"grad_norm": 1.502485752105713,
	"learning_rate": 2.3010321100917433e-05,
	"loss": 0.6725,
	"step": 1320
	},
	{
	"epoch": 0.24943735933983496,
	"grad_norm": 1.3770966529846191,
	"learning_rate": 2.2952981651376146e-05,
	"loss": 0.5998,
	"step": 1330
	},
	{
	"epoch": 0.25131282820705175,
	"grad_norm": 1.7012661695480347,
	"learning_rate": 2.2895642201834863e-05,
	"loss": 0.6668,
	"step": 1340
	},
	{
	"epoch": 0.25318829707426854,
	"grad_norm": 1.747942566871643,
	"learning_rate": 2.283830275229358e-05,
	"loss": 0.6948,
	"step": 1350
	},
	{
	"epoch": 0.2550637659414854,
	"grad_norm": 1.4288934469223022,
	"learning_rate": 2.2780963302752296e-05,
	"loss": 0.6063,
	"step": 1360
	},
	{
	"epoch": 0.2569392348087022,
	"grad_norm": 1.6301014423370361,
	"learning_rate": 2.272362385321101e-05,
	"loss": 0.677,
	"step": 1370
	},
	{
	"epoch": 0.25881470367591897,
	"grad_norm": 1.3200469017028809,
	"learning_rate": 2.2666284403669726e-05,
	"loss": 0.653,
	"step": 1380
	},
	{
	"epoch": 0.26069017254313576,
	"grad_norm": 1.5794614553451538,
	"learning_rate": 2.2608944954128442e-05,
	"loss": 0.6477,
	"step": 1390
	},
	{
	"epoch": 0.2625656414103526,
	"grad_norm": 1.5092536211013794,
	"learning_rate": 2.2551605504587155e-05,
	"loss": 0.6202,
	"step": 1400
	},
	{
	"epoch": 0.2625656414103526,
	"eval_loss": 0.6741260290145874,
	"eval_runtime": 5.5003,
	"eval_samples_per_second": 21.817,
	"eval_steps_per_second": 2.727,
	"step": 1400
	},
	{
	"epoch": 0.2644411102775694,
	"grad_norm": 1.5101447105407715,
	"learning_rate": 2.2494266055045872e-05,
	"loss": 0.583,
	"step": 1410
	},
	{
	"epoch": 0.2663165791447862,
	"grad_norm": 1.5355420112609863,
	"learning_rate": 2.2436926605504585e-05,
	"loss": 0.5422,
	"step": 1420
	},
	{
	"epoch": 0.268192048012003,
	"grad_norm": 1.5322073698043823,
	"learning_rate": 2.2379587155963305e-05,
	"loss": 0.6067,
	"step": 1430
	},
	{
	"epoch": 0.2700675168792198,
	"grad_norm": 1.5003911256790161,
	"learning_rate": 2.232224770642202e-05,
	"loss": 0.5578,
	"step": 1440
	},
	{
	"epoch": 0.2719429857464366,
	"grad_norm": 1.4054975509643555,
	"learning_rate": 2.2264908256880735e-05,
	"loss": 0.5819,
	"step": 1450
	},
	{
	"epoch": 0.2738184546136534,
	"grad_norm": 1.7100839614868164,
	"learning_rate": 2.2207568807339448e-05,
	"loss": 0.7076,
	"step": 1460
	},
	{
	"epoch": 0.27569392348087024,
	"grad_norm": 1.6358684301376343,
	"learning_rate": 2.2150229357798165e-05,
	"loss": 0.5748,
	"step": 1470
	},
	{
	"epoch": 0.27756939234808703,
	"grad_norm": 1.8648029565811157,
	"learning_rate": 2.209288990825688e-05,
	"loss": 0.5488,
	"step": 1480
	},
	{
	"epoch": 0.2794448612153038,
	"grad_norm": 2.0715155601501465,
	"learning_rate": 2.2035550458715598e-05,
	"loss": 0.6121,
	"step": 1490
	},
	{
	"epoch": 0.2813203300825206,
	"grad_norm": 1.4680354595184326,
	"learning_rate": 2.197821100917431e-05,
	"loss": 0.5775,
	"step": 1500
	},
	{
	"epoch": 0.28319579894973745,
	"grad_norm": 1.646637201309204,
	"learning_rate": 2.1920871559633028e-05,
	"loss": 0.6433,
	"step": 1510
	},
	{
	"epoch": 0.28507126781695424,
	"grad_norm": 1.9596463441848755,
	"learning_rate": 2.1863532110091744e-05,
	"loss": 0.6534,
	"step": 1520
	},
	{
	"epoch": 0.28694673668417103,
	"grad_norm": 2.375546455383301,
	"learning_rate": 2.180619266055046e-05,
	"loss": 0.5802,
	"step": 1530
	},
	{
	"epoch": 0.2888222055513878,
	"grad_norm": 1.2877148389816284,
	"learning_rate": 2.1748853211009174e-05,
	"loss": 0.6626,
	"step": 1540
	},
	{
	"epoch": 0.29069767441860467,
	"grad_norm": 1.3704779148101807,
	"learning_rate": 2.169151376146789e-05,
	"loss": 0.7177,
	"step": 1550
	},
	{
	"epoch": 0.29257314328582146,
	"grad_norm": 1.9320201873779297,
	"learning_rate": 2.1634174311926604e-05,
	"loss": 0.6648,
	"step": 1560
	},
	{
	"epoch": 0.29444861215303825,
	"grad_norm": 2.351738452911377,
	"learning_rate": 2.1576834862385324e-05,
	"loss": 0.5823,
	"step": 1570
	},
	{
	"epoch": 0.29632408102025504,
	"grad_norm": 1.6075841188430786,
	"learning_rate": 2.1519495412844037e-05,
	"loss": 0.6363,
	"step": 1580
	},
	{
	"epoch": 0.2981995498874719,
	"grad_norm": 1.7780178785324097,
	"learning_rate": 2.1462155963302754e-05,
	"loss": 0.7098,
	"step": 1590
	},
	{
	"epoch": 0.30007501875468867,
	"grad_norm": 1.8664710521697998,
	"learning_rate": 2.1404816513761467e-05,
	"loss": 0.5582,
	"step": 1600
	},
	{
	"epoch": 0.30007501875468867,
	"eval_loss": 0.6711069345474243,
	"eval_runtime": 5.5099,
	"eval_samples_per_second": 21.779,
	"eval_steps_per_second": 2.722,
	"step": 1600
	},
	{
	"epoch": 0.30195048762190546,
	"grad_norm": 1.7083989381790161,
	"learning_rate": 2.1347477064220187e-05,
	"loss": 0.6628,
	"step": 1610
	},
	{
	"epoch": 0.3038259564891223,
	"grad_norm": 1.7052229642868042,
	"learning_rate": 2.12901376146789e-05,
	"loss": 0.5975,
	"step": 1620
	},
	{
	"epoch": 0.3057014253563391,
	"grad_norm": 1.5098538398742676,
	"learning_rate": 2.1232798165137617e-05,
	"loss": 0.5729,
	"step": 1630
	},
	{
	"epoch": 0.3075768942235559,
	"grad_norm": 1.6489193439483643,
	"learning_rate": 2.117545871559633e-05,
	"loss": 0.5064,
	"step": 1640
	},
	{
	"epoch": 0.3094523630907727,
	"grad_norm": 1.9127089977264404,
	"learning_rate": 2.1118119266055043e-05,
	"loss": 0.582,
	"step": 1650
	},
	{
	"epoch": 0.3113278319579895,
	"grad_norm": 1.801680326461792,
	"learning_rate": 2.1060779816513763e-05,
	"loss": 0.6894,
	"step": 1660
	},
	{
	"epoch": 0.3132033008252063,
	"grad_norm": 1.622673511505127,
	"learning_rate": 2.1003440366972476e-05,
	"loss": 0.6085,
	"step": 1670
	},
	{
	"epoch": 0.3150787696924231,
	"grad_norm": 1.9467750787734985,
	"learning_rate": 2.0946100917431193e-05,
	"loss": 0.6822,
	"step": 1680
	},
	{
	"epoch": 0.3169542385596399,
	"grad_norm": 1.5031330585479736,
	"learning_rate": 2.0888761467889906e-05,
	"loss": 0.6694,
	"step": 1690
	},
	{
	"epoch": 0.31882970742685673,
	"grad_norm": 1.68521249294281,
	"learning_rate": 2.0831422018348626e-05,
	"loss": 0.6556,
	"step": 1700
	},
	{
	"epoch": 0.3207051762940735,
	"grad_norm": 1.8257548809051514,
	"learning_rate": 2.077408256880734e-05,
	"loss": 0.5684,
	"step": 1710
	},
	{
	"epoch": 0.3225806451612903,
	"grad_norm": 1.6865085363388062,
	"learning_rate": 2.0716743119266056e-05,
	"loss": 0.6543,
	"step": 1720
	},
	{
	"epoch": 0.3244561140285071,
	"grad_norm": 1.7781134843826294,
	"learning_rate": 2.065940366972477e-05,
	"loss": 0.5249,
	"step": 1730
	},
	{
	"epoch": 0.32633158289572395,
	"grad_norm": 1.9172645807266235,
	"learning_rate": 2.0602064220183486e-05,
	"loss": 0.564,
	"step": 1740
	},
	{
	"epoch": 0.32820705176294074,
	"grad_norm": 1.9964970350265503,
	"learning_rate": 2.0544724770642202e-05,
	"loss": 0.5688,
	"step": 1750
	},
	{
	"epoch": 0.3300825206301575,
	"grad_norm": 2.0303592681884766,
	"learning_rate": 2.048738532110092e-05,
	"loss": 0.6081,
	"step": 1760
	},
	{
	"epoch": 0.3319579894973743,
	"grad_norm": 2.4410409927368164,
	"learning_rate": 2.0430045871559632e-05,
	"loss": 0.542,
	"step": 1770
	},
	{
	"epoch": 0.33383345836459116,
	"grad_norm": 1.7117453813552856,
	"learning_rate": 2.037270642201835e-05,
	"loss": 0.4778,
	"step": 1780
	},
	{
	"epoch": 0.33570892723180795,
	"grad_norm": 1.5781958103179932,
	"learning_rate": 2.0315366972477065e-05,
	"loss": 0.5451,
	"step": 1790
	},
	{
	"epoch": 0.33758439609902474,
	"grad_norm": 1.601178526878357,
	"learning_rate": 2.0258027522935782e-05,
	"loss": 0.5371,
	"step": 1800
	},
	{
	"epoch": 0.33758439609902474,
	"eval_loss": 0.667210042476654,
	"eval_runtime": 5.5955,
	"eval_samples_per_second": 21.446,
	"eval_steps_per_second": 2.681,
	"step": 1800
	},
	{
	"epoch": 0.3394598649662416,
	"grad_norm": 1.520401954650879,
	"learning_rate": 2.0200688073394495e-05,
	"loss": 0.7463,
	"step": 1810
	},
	{
	"epoch": 0.3413353338334584,
	"grad_norm": 1.5495413541793823,
	"learning_rate": 2.0143348623853212e-05,
	"loss": 0.5746,
	"step": 1820
	},
	{
	"epoch": 0.34321080270067517,
	"grad_norm": 1.656015157699585,
	"learning_rate": 2.0086009174311925e-05,
	"loss": 0.5587,
	"step": 1830
	},
	{
	"epoch": 0.34508627156789196,
	"grad_norm": 1.7179194688796997,
	"learning_rate": 2.0028669724770645e-05,
	"loss": 0.6316,
	"step": 1840
	},
	{
	"epoch": 0.3469617404351088,
	"grad_norm": 2.026876926422119,
	"learning_rate": 1.9971330275229358e-05,
	"loss": 0.5859,
	"step": 1850
	},
	{
	"epoch": 0.3488372093023256,
	"grad_norm": 1.675175428390503,
	"learning_rate": 1.9913990825688075e-05,
	"loss": 0.5499,
	"step": 1860
	},
	{
	"epoch": 0.3507126781695424,
	"grad_norm": 1.3794666528701782,
	"learning_rate": 1.9856651376146788e-05,
	"loss": 0.651,
	"step": 1870
	},
	{
	"epoch": 0.35258814703675917,
	"grad_norm": 1.6561700105667114,
	"learning_rate": 1.9799311926605508e-05,
	"loss": 0.52,
	"step": 1880
	},
	{
	"epoch": 0.354463615903976,
	"grad_norm": 1.9196125268936157,
	"learning_rate": 1.974197247706422e-05,
	"loss": 0.5643,
	"step": 1890
	},
	{
	"epoch": 0.3563390847711928,
	"grad_norm": 2.157627820968628,
	"learning_rate": 1.9684633027522934e-05,
	"loss": 0.5726,
	"step": 1900
	},
	{
	"epoch": 0.3582145536384096,
	"grad_norm": 1.8069156408309937,
	"learning_rate": 1.962729357798165e-05,
	"loss": 0.6398,
	"step": 1910
	},
	{
	"epoch": 0.3600900225056264,
	"grad_norm": 1.7318720817565918,
	"learning_rate": 1.9569954128440368e-05,
	"loss": 0.4835,
	"step": 1920
	},
	{
	"epoch": 0.36196549137284323,
	"grad_norm": 2.1636054515838623,
	"learning_rate": 1.9512614678899084e-05,
	"loss": 0.587,
	"step": 1930
	},
	{
	"epoch": 0.36384096024006,
	"grad_norm": 2.062150478363037,
	"learning_rate": 1.9455275229357797e-05,
	"loss": 0.763,
	"step": 1940
	},
	{
	"epoch": 0.3657164291072768,
	"grad_norm": 1.6775376796722412,
	"learning_rate": 1.9397935779816514e-05,
	"loss": 0.6575,
	"step": 1950
	},
	{
	"epoch": 0.3675918979744936,
	"grad_norm": 1.5422090291976929,
	"learning_rate": 1.9340596330275227e-05,
	"loss": 0.6128,
	"step": 1960
	},
	{
	"epoch": 0.36946736684171044,
	"grad_norm": 1.7209275960922241,
	"learning_rate": 1.9283256880733947e-05,
	"loss": 0.5796,
	"step": 1970
	},
	{
	"epoch": 0.37134283570892723,
	"grad_norm": 1.5626654624938965,
	"learning_rate": 1.922591743119266e-05,
	"loss": 0.5237,
	"step": 1980
	},
	{
	"epoch": 0.373218304576144,
	"grad_norm": 1.6950414180755615,
	"learning_rate": 1.9168577981651377e-05,
	"loss": 0.5983,
	"step": 1990
	},
	{
	"epoch": 0.37509377344336087,
	"grad_norm": 1.5081120729446411,
	"learning_rate": 1.911123853211009e-05,
	"loss": 0.5603,
	"step": 2000
	},
	{
	"epoch": 0.37509377344336087,
	"eval_loss": 0.6599423885345459,
	"eval_runtime": 5.5471,
	"eval_samples_per_second": 21.633,
	"eval_steps_per_second": 2.704,
	"step": 2000
	},
	{
	"epoch": 0.37696924231057766,
	"grad_norm": 1.7430557012557983,
	"learning_rate": 1.905389908256881e-05,
	"loss": 0.5582,
	"step": 2010
	},
	{
	"epoch": 0.37884471117779445,
	"grad_norm": 1.8989301919937134,
	"learning_rate": 1.8996559633027523e-05,
	"loss": 0.6411,
	"step": 2020
	},
	{
	"epoch": 0.38072018004501124,
	"grad_norm": 1.9164332151412964,
	"learning_rate": 1.893922018348624e-05,
	"loss": 0.5733,
	"step": 2030
	},
	{
	"epoch": 0.3825956489122281,
	"grad_norm": 1.9230120182037354,
	"learning_rate": 1.8881880733944953e-05,
	"loss": 0.6592,
	"step": 2040
	},
	{
	"epoch": 0.38447111777944487,
	"grad_norm": 1.9948559999465942,
	"learning_rate": 1.882454128440367e-05,
	"loss": 0.5918,
	"step": 2050
	},
	{
	"epoch": 0.38634658664666166,
	"grad_norm": 1.8086504936218262,
	"learning_rate": 1.8767201834862386e-05,
	"loss": 0.5939,
	"step": 2060
	},
	{
	"epoch": 0.38822205551387845,
	"grad_norm": 1.715736985206604,
	"learning_rate": 1.8709862385321103e-05,
	"loss": 0.6624,
	"step": 2070
	},
	{
	"epoch": 0.3900975243810953,
	"grad_norm": 2.9393413066864014,
	"learning_rate": 1.8652522935779816e-05,
	"loss": 0.5954,
	"step": 2080
	},
	{
	"epoch": 0.3919729932483121,
	"grad_norm": 2.3764209747314453,
	"learning_rate": 1.8595183486238533e-05,
	"loss": 0.6181,
	"step": 2090
	},
	{
	"epoch": 0.3938484621155289,
	"grad_norm": 1.7462408542633057,
	"learning_rate": 1.853784403669725e-05,
	"loss": 0.4992,
	"step": 2100
	},
	{
	"epoch": 0.39572393098274566,
	"grad_norm": 2.006526470184326,
	"learning_rate": 1.8480504587155966e-05,
	"loss": 0.5331,
	"step": 2110
	},
	{
	"epoch": 0.3975993998499625,
	"grad_norm": 2.453961133956909,
	"learning_rate": 1.842316513761468e-05,
	"loss": 0.5828,
	"step": 2120
	},
	{
	"epoch": 0.3994748687171793,
	"grad_norm": 1.9606050252914429,
	"learning_rate": 1.8365825688073396e-05,
	"loss": 0.596,
	"step": 2130
	},
	{
	"epoch": 0.4013503375843961,
	"grad_norm": 1.776755690574646,
	"learning_rate": 1.830848623853211e-05,
	"loss": 0.6688,
	"step": 2140
	},
	{
	"epoch": 0.4032258064516129,
	"grad_norm": 1.6970465183258057,
	"learning_rate": 1.8251146788990826e-05,
	"loss": 0.6403,
	"step": 2150
	},
	{
	"epoch": 0.4051012753188297,
	"grad_norm": 2.1834471225738525,
	"learning_rate": 1.8193807339449542e-05,
	"loss": 0.6169,
	"step": 2160
	},
	{
	"epoch": 0.4069767441860465,
	"grad_norm": 1.4596108198165894,
	"learning_rate": 1.8136467889908255e-05,
	"loss": 0.5783,
	"step": 2170
	},
	{
	"epoch": 0.4088522130532633,
	"grad_norm": 1.808875560760498,
	"learning_rate": 1.8079128440366972e-05,
	"loss": 0.6834,
	"step": 2180
	},
	{
	"epoch": 0.41072768192048015,
	"grad_norm": 2.0414464473724365,
	"learning_rate": 1.802178899082569e-05,
	"loss": 0.5546,
	"step": 2190
	},
	{
	"epoch": 0.41260315078769694,
	"grad_norm": 1.7231241464614868,
	"learning_rate": 1.7964449541284405e-05,
	"loss": 0.5875,
	"step": 2200
	},
	{
	"epoch": 0.41260315078769694,
	"eval_loss": 0.6564481258392334,
	"eval_runtime": 5.5564,
	"eval_samples_per_second": 21.597,
	"eval_steps_per_second": 2.7,
	"step": 2200
	},
	{
	"epoch": 0.4144786196549137,
	"grad_norm": 1.5646345615386963,
	"learning_rate": 1.790711009174312e-05,
	"loss": 0.4631,
	"step": 2210
	},
	{
	"epoch": 0.4163540885221305,
	"grad_norm": 2.1417741775512695,
	"learning_rate": 1.7849770642201835e-05,
	"loss": 0.5978,
	"step": 2220
	},
	{
	"epoch": 0.41822955738934736,
	"grad_norm": 1.5909672975540161,
	"learning_rate": 1.7792431192660548e-05,
	"loss": 0.6276,
	"step": 2230
	},
	{
	"epoch": 0.42010502625656415,
	"grad_norm": 1.5815021991729736,
	"learning_rate": 1.7735091743119268e-05,
	"loss": 0.5655,
	"step": 2240
	},
	{
	"epoch": 0.42198049512378094,
	"grad_norm": 2.173349618911743,
	"learning_rate": 1.767775229357798e-05,
	"loss": 0.5172,
	"step": 2250
	},
	{
	"epoch": 0.42385596399099773,
	"grad_norm": 1.611697793006897,
	"learning_rate": 1.7620412844036698e-05,
	"loss": 0.5828,
	"step": 2260
	},
	{
	"epoch": 0.4257314328582146,
	"grad_norm": 2.148935556411743,
	"learning_rate": 1.756307339449541e-05,
	"loss": 0.5796,
	"step": 2270
	},
	{
	"epoch": 0.42760690172543137,
	"grad_norm": 2.8221611976623535,
	"learning_rate": 1.750573394495413e-05,
	"loss": 0.6098,
	"step": 2280
	},
	{
	"epoch": 0.42948237059264815,
	"grad_norm": 1.8515477180480957,
	"learning_rate": 1.7448394495412844e-05,
	"loss": 0.6519,
	"step": 2290
	},
	{
	"epoch": 0.43135783945986494,
	"grad_norm": 1.9033889770507812,
	"learning_rate": 1.739105504587156e-05,
	"loss": 0.5771,
	"step": 2300
	},
	{
	"epoch": 0.4332333083270818,
	"grad_norm": 2.1629979610443115,
	"learning_rate": 1.7333715596330274e-05,
	"loss": 0.5308,
	"step": 2310
	},
	{
	"epoch": 0.4351087771942986,
	"grad_norm": 1.713036060333252,
	"learning_rate": 1.727637614678899e-05,
	"loss": 0.6036,
	"step": 2320
	},
	{
	"epoch": 0.43698424606151537,
	"grad_norm": 1.626887559890747,
	"learning_rate": 1.7219036697247707e-05,
	"loss": 0.5932,
	"step": 2330
	},
	{
	"epoch": 0.43885971492873216,
	"grad_norm": 2.026658535003662,
	"learning_rate": 1.7161697247706424e-05,
	"loss": 0.509,
	"step": 2340
	},
	{
	"epoch": 0.440735183795949,
	"grad_norm": 1.617053508758545,
	"learning_rate": 1.7104357798165137e-05,
	"loss": 0.5841,
	"step": 2350
	},
	{
	"epoch": 0.4426106526631658,
	"grad_norm": 1.8023245334625244,
	"learning_rate": 1.7047018348623854e-05,
	"loss": 0.5244,
	"step": 2360
	},
	{
	"epoch": 0.4444861215303826,
	"grad_norm": 2.0502309799194336,
	"learning_rate": 1.698967889908257e-05,
	"loss": 0.5936,
	"step": 2370
	},
	{
	"epoch": 0.4463615903975994,
	"grad_norm": 2.410144567489624,
	"learning_rate": 1.6932339449541287e-05,
	"loss": 0.6206,
	"step": 2380
	},
	{
	"epoch": 0.4482370592648162,
	"grad_norm": 2.0925815105438232,
	"learning_rate": 1.6875e-05,
	"loss": 0.5086,
	"step": 2390
	},
	{
	"epoch": 0.450112528132033,
	"grad_norm": 1.8199101686477661,
	"learning_rate": 1.6817660550458713e-05,
	"loss": 0.583,
	"step": 2400
	},
	{
	"epoch": 0.450112528132033,
	"eval_loss": 0.6492409110069275,
	"eval_runtime": 5.5179,
	"eval_samples_per_second": 21.747,
	"eval_steps_per_second": 2.718,
	"step": 2400
	},
	{
	"epoch": 0.4519879969992498,
	"grad_norm": 1.7940239906311035,
	"learning_rate": 1.6760321100917433e-05,
	"loss": 0.6154,
	"step": 2410
	},
	{
	"epoch": 0.45386346586646664,
	"grad_norm": 2.281325340270996,
	"learning_rate": 1.6702981651376147e-05,
	"loss": 0.5542,
	"step": 2420
	},
	{
	"epoch": 0.45573893473368343,
	"grad_norm": 1.8717613220214844,
	"learning_rate": 1.6645642201834863e-05,
	"loss": 0.5242,
	"step": 2430
	},
	{
	"epoch": 0.4576144036009002,
	"grad_norm": 2.2120072841644287,
	"learning_rate": 1.6588302752293576e-05,
	"loss": 0.63,
	"step": 2440
	},
	{
	"epoch": 0.459489872468117,
	"grad_norm": 2.10752272605896,
	"learning_rate": 1.6530963302752293e-05,
	"loss": 0.5712,
	"step": 2450
	},
	{
	"epoch": 0.46136534133533386,
	"grad_norm": 2.3129327297210693,
	"learning_rate": 1.647362385321101e-05,
	"loss": 0.7044,
	"step": 2460
	},
	{
	"epoch": 0.46324081020255065,
	"grad_norm": 1.424224853515625,
	"learning_rate": 1.6416284403669726e-05,
	"loss": 0.5588,
	"step": 2470
	},
	{
	"epoch": 0.46511627906976744,
	"grad_norm": 1.6627572774887085,
	"learning_rate": 1.635894495412844e-05,
	"loss": 0.4543,
	"step": 2480
	},
	{
	"epoch": 0.4669917479369842,
	"grad_norm": 1.6522067785263062,
	"learning_rate": 1.6301605504587156e-05,
	"loss": 0.6003,
	"step": 2490
	},
	{
	"epoch": 0.46886721680420107,
	"grad_norm": 2.2070651054382324,
	"learning_rate": 1.6244266055045873e-05,
	"loss": 0.6294,
	"step": 2500
	},
	{
	"epoch": 0.47074268567141786,
	"grad_norm": 2.1523821353912354,
	"learning_rate": 1.618692660550459e-05,
	"loss": 0.6067,
	"step": 2510
	},
	{
	"epoch": 0.47261815453863465,
	"grad_norm": 2.468892812728882,
	"learning_rate": 1.6129587155963302e-05,
	"loss": 0.6267,
	"step": 2520
	},
	{
	"epoch": 0.47449362340585144,
	"grad_norm": 1.9735854864120483,
	"learning_rate": 1.607224770642202e-05,
	"loss": 0.6124,
	"step": 2530
	},
	{
	"epoch": 0.4763690922730683,
	"grad_norm": 1.7900265455245972,
	"learning_rate": 1.6014908256880732e-05,
	"loss": 0.5845,
	"step": 2540
	},
	{
	"epoch": 0.4782445611402851,
	"grad_norm": 2.2069602012634277,
	"learning_rate": 1.5957568807339452e-05,
	"loss": 0.6071,
	"step": 2550
	},
	{
	"epoch": 0.48012003000750186,
	"grad_norm": 2.3752589225769043,
	"learning_rate": 1.5900229357798165e-05,
	"loss": 0.6074,
	"step": 2560
	},
	{
	"epoch": 0.48199549887471865,
	"grad_norm": 1.8114852905273438,
	"learning_rate": 1.5842889908256882e-05,
	"loss": 0.5358,
	"step": 2570
	},
	{
	"epoch": 0.4838709677419355,
	"grad_norm": 1.6503331661224365,
	"learning_rate": 1.5785550458715595e-05,
	"loss": 0.6664,
	"step": 2580
	},
	{
	"epoch": 0.4857464366091523,
	"grad_norm": 1.7421520948410034,
	"learning_rate": 1.5728211009174315e-05,
	"loss": 0.6137,
	"step": 2590
	},
	{
	"epoch": 0.4876219054763691,
	"grad_norm": 1.865038275718689,
	"learning_rate": 1.567087155963303e-05,
	"loss": 0.6328,
	"step": 2600
	},
	{
	"epoch": 0.4876219054763691,
	"eval_loss": 0.6427852511405945,
	"eval_runtime": 5.6723,
	"eval_samples_per_second": 21.155,
	"eval_steps_per_second": 2.644,
	"step": 2600
	},
	{
	"epoch": 0.4894973743435859,
	"grad_norm": 2.0670528411865234,
	"learning_rate": 1.5613532110091745e-05,
	"loss": 0.5686,
	"step": 2610
	},
	{
	"epoch": 0.4913728432108027,
	"grad_norm": 2.00549054145813,
	"learning_rate": 1.5556192660550458e-05,
	"loss": 0.5701,
	"step": 2620
	},
	{
	"epoch": 0.4932483120780195,
	"grad_norm": 2.3382251262664795,
	"learning_rate": 1.5498853211009175e-05,
	"loss": 0.6212,
	"step": 2630
	},
	{
	"epoch": 0.4951237809452363,
	"grad_norm": 1.849523901939392,
	"learning_rate": 1.544151376146789e-05,
	"loss": 0.5844,
	"step": 2640
	},
	{
	"epoch": 0.49699924981245314,
	"grad_norm": 2.0589709281921387,
	"learning_rate": 1.5384174311926605e-05,
	"loss": 0.5736,
	"step": 2650
	},
	{
	"epoch": 0.4988747186796699,
	"grad_norm": 2.3713736534118652,
	"learning_rate": 1.532683486238532e-05,
	"loss": 0.5543,
	"step": 2660
	},
	{
	"epoch": 0.5007501875468867,
	"grad_norm": 1.4133175611495972,
	"learning_rate": 1.5269495412844034e-05,
	"loss": 0.5916,
	"step": 2670
	},
	{
	"epoch": 0.5026256564141035,
	"grad_norm": 1.828869104385376,
	"learning_rate": 1.5212155963302753e-05,
	"loss": 0.6424,
	"step": 2680
	},
	{
	"epoch": 0.5045011252813203,
	"grad_norm": 1.8340333700180054,
	"learning_rate": 1.5154816513761468e-05,
	"loss": 0.5335,
	"step": 2690
	},
	{
	"epoch": 0.5063765941485371,
	"grad_norm": 2.287064790725708,
	"learning_rate": 1.5097477064220184e-05,
	"loss": 0.5604,
	"step": 2700
	},
	{
	"epoch": 0.508252063015754,
	"grad_norm": 2.0678904056549072,
	"learning_rate": 1.5040137614678897e-05,
	"loss": 0.6822,
	"step": 2710
	},
	{
	"epoch": 0.5101275318829708,
	"grad_norm": 1.848810076713562,
	"learning_rate": 1.4982798165137616e-05,
	"loss": 0.5741,
	"step": 2720
	},
	{
	"epoch": 0.5120030007501876,
	"grad_norm": 1.8436052799224854,
	"learning_rate": 1.492545871559633e-05,
	"loss": 0.592,
	"step": 2730
	},
	{
	"epoch": 0.5138784696174044,
	"grad_norm": 1.8554112911224365,
	"learning_rate": 1.4868119266055047e-05,
	"loss": 0.5372,
	"step": 2740
	},
	{
	"epoch": 0.5157539384846211,
	"grad_norm": 1.7678755521774292,
	"learning_rate": 1.4810779816513762e-05,
	"loss": 0.5748,
	"step": 2750
	},
	{
	"epoch": 0.5176294073518379,
	"grad_norm": 1.71146821975708,
	"learning_rate": 1.4753440366972479e-05,
	"loss": 0.6795,
	"step": 2760
	},
	{
	"epoch": 0.5195048762190547,
	"grad_norm": 1.6599249839782715,
	"learning_rate": 1.4696100917431192e-05,
	"loss": 0.5559,
	"step": 2770
	},
	{
	"epoch": 0.5213803450862715,
	"grad_norm": 2.273698568344116,
	"learning_rate": 1.4638761467889908e-05,
	"loss": 0.4864,
	"step": 2780
	},
	{
	"epoch": 0.5232558139534884,
	"grad_norm": 2.400425434112549,
	"learning_rate": 1.4581422018348623e-05,
	"loss": 0.6152,
	"step": 2790
	},
	{
	"epoch": 0.5251312828207052,
	"grad_norm": 2.1009607315063477,
	"learning_rate": 1.452408256880734e-05,
	"loss": 0.5518,
	"step": 2800
	},
	{
	"epoch": 0.5251312828207052,
	"eval_loss": 0.6440523266792297,
	"eval_runtime": 5.5215,
	"eval_samples_per_second": 21.733,
	"eval_steps_per_second": 2.717,
	"step": 2800
	},
	{
	"epoch": 0.527006751687922,
	"grad_norm": 1.724177360534668,
	"learning_rate": 1.4466743119266055e-05,
	"loss": 0.5635,
	"step": 2810
	},
	{
	"epoch": 0.5288822205551388,
	"grad_norm": 1.6806992292404175,
	"learning_rate": 1.440940366972477e-05,
	"loss": 0.6072,
	"step": 2820
	},
	{
	"epoch": 0.5307576894223556,
	"grad_norm": 1.914863109588623,
	"learning_rate": 1.4352064220183486e-05,
	"loss": 0.5919,
	"step": 2830
	},
	{
	"epoch": 0.5326331582895724,
	"grad_norm": 1.9246379137039185,
	"learning_rate": 1.4294724770642201e-05,
	"loss": 0.6282,
	"step": 2840
	},
	{
	"epoch": 0.5345086271567892,
	"grad_norm": 2.0513482093811035,
	"learning_rate": 1.4237385321100918e-05,
	"loss": 0.5117,
	"step": 2850
	},
	{
	"epoch": 0.536384096024006,
	"grad_norm": 2.160053253173828,
	"learning_rate": 1.4180045871559633e-05,
	"loss": 0.5916,
	"step": 2860
	},
	{
	"epoch": 0.5382595648912228,
	"grad_norm": 1.3989676237106323,
	"learning_rate": 1.412270642201835e-05,
	"loss": 0.6169,
	"step": 2870
	},
	{
	"epoch": 0.5401350337584396,
	"grad_norm": 1.9387221336364746,
	"learning_rate": 1.4065366972477064e-05,
	"loss": 0.6374,
	"step": 2880
	},
	{
	"epoch": 0.5420105026256564,
	"grad_norm": 2.054593563079834,
	"learning_rate": 1.4008027522935781e-05,
	"loss": 0.5947,
	"step": 2890
	},
	{
	"epoch": 0.5438859714928732,
	"grad_norm": 1.8106393814086914,
	"learning_rate": 1.3950688073394496e-05,
	"loss": 0.6232,
	"step": 2900
	},
	{
	"epoch": 0.54576144036009,
	"grad_norm": 2.042513132095337,
	"learning_rate": 1.389334862385321e-05,
	"loss": 0.481,
	"step": 2910
	},
	{
	"epoch": 0.5476369092273068,
	"grad_norm": 1.6872574090957642,
	"learning_rate": 1.3836009174311927e-05,
	"loss": 0.5128,
	"step": 2920
	},
	{
	"epoch": 0.5495123780945236,
	"grad_norm": 1.8918819427490234,
	"learning_rate": 1.3778669724770642e-05,
	"loss": 0.6205,
	"step": 2930
	},
	{
	"epoch": 0.5513878469617405,
	"grad_norm": 2.6372804641723633,
	"learning_rate": 1.3721330275229359e-05,
	"loss": 0.4981,
	"step": 2940
	},
	{
	"epoch": 0.5532633158289573,
	"grad_norm": 1.8915632963180542,
	"learning_rate": 1.3663990825688074e-05,
	"loss": 0.5481,
	"step": 2950
	},
	{
	"epoch": 0.5551387846961741,
	"grad_norm": 2.0230934619903564,
	"learning_rate": 1.360665137614679e-05,
	"loss": 0.5806,
	"step": 2960
	},
	{
	"epoch": 0.5570142535633908,
	"grad_norm": 2.1508560180664062,
	"learning_rate": 1.3549311926605505e-05,
	"loss": 0.6057,
	"step": 2970
	},
	{
	"epoch": 0.5588897224306076,
	"grad_norm": 1.7368062734603882,
	"learning_rate": 1.3491972477064222e-05,
	"loss": 0.5743,
	"step": 2980
	},
	{
	"epoch": 0.5607651912978244,
	"grad_norm": 1.9738160371780396,
	"learning_rate": 1.3434633027522937e-05,
	"loss": 0.6063,
	"step": 2990
	},
	{
	"epoch": 0.5626406601650412,
	"grad_norm": 1.9070963859558105,
	"learning_rate": 1.3377293577981652e-05,
	"loss": 0.5965,
	"step": 3000
	},
	{
	"epoch": 0.5626406601650412,
	"eval_loss": 0.637257993221283,
	"eval_runtime": 5.3838,
	"eval_samples_per_second": 22.289,
	"eval_steps_per_second": 2.786,
	"step": 3000
	},
	{
	"epoch": 0.5645161290322581,
	"grad_norm": 1.9798016548156738,
	"learning_rate": 1.3319954128440368e-05,
	"loss": 0.5758,
	"step": 3010
	},
	{
	"epoch": 0.5663915978994749,
	"grad_norm": 1.68988037109375,
	"learning_rate": 1.3262614678899081e-05,
	"loss": 0.5435,
	"step": 3020
	},
	{
	"epoch": 0.5682670667666917,
	"grad_norm": 1.9612882137298584,
	"learning_rate": 1.3205275229357798e-05,
	"loss": 0.7064,
	"step": 3030
	},
	{
	"epoch": 0.5701425356339085,
	"grad_norm": 1.9069509506225586,
	"learning_rate": 1.3147935779816513e-05,
	"loss": 0.6531,
	"step": 3040
	},
	{
	"epoch": 0.5720180045011253,
	"grad_norm": 2.185046434402466,
	"learning_rate": 1.309059633027523e-05,
	"loss": 0.548,
	"step": 3050
	},
	{
	"epoch": 0.5738934733683421,
	"grad_norm": 1.6375807523727417,
	"learning_rate": 1.3033256880733944e-05,
	"loss": 0.5555,
	"step": 3060
	},
	{
	"epoch": 0.5757689422355589,
	"grad_norm": 2.4809699058532715,
	"learning_rate": 1.2975917431192661e-05,
	"loss": 0.5071,
	"step": 3070
	},
	{
	"epoch": 0.5776444111027756,
	"grad_norm": 2.071410894393921,
	"learning_rate": 1.2918577981651376e-05,
	"loss": 0.6192,
	"step": 3080
	},
	{
	"epoch": 0.5795198799699925,
	"grad_norm": 1.9961457252502441,
	"learning_rate": 1.2861238532110092e-05,
	"loss": 0.6463,
	"step": 3090
	},
	{
	"epoch": 0.5813953488372093,
	"grad_norm": 1.7288352251052856,
	"learning_rate": 1.2803899082568807e-05,
	"loss": 0.5121,
	"step": 3100
	},
	{
	"epoch": 0.5832708177044261,
	"grad_norm": 2.855468988418579,
	"learning_rate": 1.2746559633027522e-05,
	"loss": 0.5797,
	"step": 3110
	},
	{
	"epoch": 0.5851462865716429,
	"grad_norm": 2.2987215518951416,
	"learning_rate": 1.2689220183486239e-05,
	"loss": 0.5607,
	"step": 3120
	},
	{
	"epoch": 0.5870217554388597,
	"grad_norm": 1.4077903032302856,
	"learning_rate": 1.2631880733944954e-05,
	"loss": 0.6127,
	"step": 3130
	},
	{
	"epoch": 0.5888972243060765,
	"grad_norm": 2.1426985263824463,
	"learning_rate": 1.257454128440367e-05,
	"loss": 0.5774,
	"step": 3140
	},
	{
	"epoch": 0.5907726931732933,
	"grad_norm": 1.681693196296692,
	"learning_rate": 1.2517201834862385e-05,
	"loss": 0.5311,
	"step": 3150
	},
	{
	"epoch": 0.5926481620405101,
	"grad_norm": 2.1285390853881836,
	"learning_rate": 1.2459862385321102e-05,
	"loss": 0.7334,
	"step": 3160
	},
	{
	"epoch": 0.594523630907727,
	"grad_norm": 1.7066893577575684,
	"learning_rate": 1.2402522935779817e-05,
	"loss": 0.4741,
	"step": 3170
	},
	{
	"epoch": 0.5963990997749438,
	"grad_norm": 2.3069071769714355,
	"learning_rate": 1.2345183486238533e-05,
	"loss": 0.6068,
	"step": 3180
	},
	{
	"epoch": 0.5982745686421606,
	"grad_norm": 1.898915410041809,
	"learning_rate": 1.2287844036697248e-05,
	"loss": 0.4881,
	"step": 3190
	},
	{
	"epoch": 0.6001500375093773,
	"grad_norm": 1.9187260866165161,
	"learning_rate": 1.2230504587155963e-05,
	"loss": 0.5603,
	"step": 3200
	},
	{
	"epoch": 0.6001500375093773,
	"eval_loss": 0.6345093250274658,
	"eval_runtime": 5.5367,
	"eval_samples_per_second": 21.674,
	"eval_steps_per_second": 2.709,
	"step": 3200
	},
	{
	"epoch": 0.6020255063765941,
	"grad_norm": 1.7056176662445068,
	"learning_rate": 1.217316513761468e-05,
	"loss": 0.4889,
	"step": 3210
	},
	{
	"epoch": 0.6039009752438109,
	"grad_norm": 1.7351319789886475,
	"learning_rate": 1.2115825688073395e-05,
	"loss": 0.5233,
	"step": 3220
	},
	{
	"epoch": 0.6057764441110277,
	"grad_norm": 3.0656421184539795,
	"learning_rate": 1.2058486238532111e-05,
	"loss": 0.5427,
	"step": 3230
	},
	{
	"epoch": 0.6076519129782446,
	"grad_norm": 2.4634621143341064,
	"learning_rate": 1.2001146788990826e-05,
	"loss": 0.5901,
	"step": 3240
	},
	{
	"epoch": 0.6095273818454614,
	"grad_norm": 1.7477375268936157,
	"learning_rate": 1.1943807339449543e-05,
	"loss": 0.6393,
	"step": 3250
	},
	{
	"epoch": 0.6114028507126782,
	"grad_norm": 2.034407377243042,
	"learning_rate": 1.1886467889908258e-05,
	"loss": 0.4688,
	"step": 3260
	},
	{
	"epoch": 0.613278319579895,
	"grad_norm": 1.604066014289856,
	"learning_rate": 1.1829128440366974e-05,
	"loss": 0.5928,
	"step": 3270
	},
	{
	"epoch": 0.6151537884471118,
	"grad_norm": 1.9047834873199463,
	"learning_rate": 1.1771788990825687e-05,
	"loss": 0.512,
	"step": 3280
	},
	{
	"epoch": 0.6170292573143286,
	"grad_norm": 2.166414737701416,
	"learning_rate": 1.1714449541284404e-05,
	"loss": 0.6807,
	"step": 3290
	},
	{
	"epoch": 0.6189047261815454,
	"grad_norm": 2.463648796081543,
	"learning_rate": 1.1657110091743119e-05,
	"loss": 0.7143,
	"step": 3300
	},
	{
	"epoch": 0.6207801950487621,
	"grad_norm": 1.8840951919555664,
	"learning_rate": 1.1599770642201834e-05,
	"loss": 0.6137,
	"step": 3310
	},
	{
	"epoch": 0.622655663915979,
	"grad_norm": 2.49739408493042,
	"learning_rate": 1.154243119266055e-05,
	"loss": 0.6415,
	"step": 3320
	},
	{
	"epoch": 0.6245311327831958,
	"grad_norm": 2.0638840198516846,
	"learning_rate": 1.1485091743119265e-05,
	"loss": 0.5118,
	"step": 3330
	},
	{
	"epoch": 0.6264066016504126,
	"grad_norm": 2.0733895301818848,
	"learning_rate": 1.1427752293577982e-05,
	"loss": 0.6573,
	"step": 3340
	},
	{
	"epoch": 0.6282820705176294,
	"grad_norm": 2.006185293197632,
	"learning_rate": 1.1370412844036697e-05,
	"loss": 0.4634,
	"step": 3350
	},
	{
	"epoch": 0.6301575393848462,
	"grad_norm": 2.2666101455688477,
	"learning_rate": 1.1313073394495413e-05,
	"loss": 0.6536,
	"step": 3360
	},
	{
	"epoch": 0.632033008252063,
	"grad_norm": 2.7148234844207764,
	"learning_rate": 1.1255733944954128e-05,
	"loss": 0.7032,
	"step": 3370
	},
	{
	"epoch": 0.6339084771192798,
	"grad_norm": 1.6289362907409668,
	"learning_rate": 1.1198394495412845e-05,
	"loss": 0.5175,
	"step": 3380
	},
	{
	"epoch": 0.6357839459864967,
	"grad_norm": 2.742385149002075,
	"learning_rate": 1.114105504587156e-05,
	"loss": 0.582,
	"step": 3390
	},
	{
	"epoch": 0.6376594148537135,
	"grad_norm": 2.092541217803955,
	"learning_rate": 1.1083715596330275e-05,
	"loss": 0.6501,
	"step": 3400
	},
	{
	"epoch": 0.6376594148537135,
	"eval_loss": 0.631032407283783,
	"eval_runtime": 5.5482,
	"eval_samples_per_second": 21.629,
	"eval_steps_per_second": 2.704,
	"step": 3400
	},
	{
	"epoch": 0.6395348837209303,
	"grad_norm": 1.8964581489562988,
	"learning_rate": 1.1026376146788991e-05,
	"loss": 0.5905,
	"step": 3410
	},
	{
	"epoch": 0.641410352588147,
	"grad_norm": 1.6054551601409912,
	"learning_rate": 1.0969036697247706e-05,
	"loss": 0.4636,
	"step": 3420
	},
	{
	"epoch": 0.6432858214553638,
	"grad_norm": 2.0726969242095947,
	"learning_rate": 1.0911697247706423e-05,
	"loss": 0.6542,
	"step": 3430
	},
	{
	"epoch": 0.6451612903225806,
	"grad_norm": 3.5420382022857666,
	"learning_rate": 1.0854357798165138e-05,
	"loss": 0.5573,
	"step": 3440
	},
	{
	"epoch": 0.6470367591897974,
	"grad_norm": 2.462528705596924,
	"learning_rate": 1.0797018348623854e-05,
	"loss": 0.5605,
	"step": 3450
	},
	{
	"epoch": 0.6489122280570142,
	"grad_norm": 2.0307133197784424,
	"learning_rate": 1.073967889908257e-05,
	"loss": 0.5594,
	"step": 3460
	},
	{
	"epoch": 0.6507876969242311,
	"grad_norm": 2.2088277339935303,
	"learning_rate": 1.0682339449541286e-05,
	"loss": 0.6143,
	"step": 3470
	},
	{
	"epoch": 0.6526631657914479,
	"grad_norm": 1.4962677955627441,
	"learning_rate": 1.0625e-05,
	"loss": 0.5801,
	"step": 3480
	},
	{
	"epoch": 0.6545386346586647,
	"grad_norm": 1.796766996383667,
	"learning_rate": 1.0567660550458716e-05,
	"loss": 0.6032,
	"step": 3490
	},
	{
	"epoch": 0.6564141035258815,
	"grad_norm": 2.6135787963867188,
	"learning_rate": 1.0510321100917432e-05,
	"loss": 0.5422,
	"step": 3500
	},
	{
	"epoch": 0.6582895723930983,
	"grad_norm": 2.0830154418945312,
	"learning_rate": 1.0452981651376147e-05,
	"loss": 0.5509,
	"step": 3510
	},
	{
	"epoch": 0.660165041260315,
	"grad_norm": 2.061523675918579,
	"learning_rate": 1.0395642201834864e-05,
	"loss": 0.5258,
	"step": 3520
	},
	{
	"epoch": 0.6620405101275318,
	"grad_norm": 1.8006651401519775,
	"learning_rate": 1.0338302752293577e-05,
	"loss": 0.5546,
	"step": 3530
	},
	{
	"epoch": 0.6639159789947486,
	"grad_norm": 2.187450647354126,
	"learning_rate": 1.0280963302752294e-05,
	"loss": 0.598,
	"step": 3540
	},
	{
	"epoch": 0.6657914478619655,
	"grad_norm": 1.984383463859558,
	"learning_rate": 1.0223623853211008e-05,
	"loss": 0.5181,
	"step": 3550
	},
	{
	"epoch": 0.6676669167291823,
	"grad_norm": 2.5804004669189453,
	"learning_rate": 1.0166284403669725e-05,
	"loss": 0.4769,
	"step": 3560
	},
	{
	"epoch": 0.6695423855963991,
	"grad_norm": 2.4561312198638916,
	"learning_rate": 1.010894495412844e-05,
	"loss": 0.5985,
	"step": 3570
	},
	{
	"epoch": 0.6714178544636159,
	"grad_norm": 2.456256866455078,
	"learning_rate": 1.0051605504587157e-05,
	"loss": 0.6127,
	"step": 3580
	},
	{
	"epoch": 0.6732933233308327,
	"grad_norm": 2.1540181636810303,
	"learning_rate": 9.994266055045871e-06,
	"loss": 0.6621,
	"step": 3590
	},
	{
	"epoch": 0.6751687921980495,
	"grad_norm": 2.0861988067626953,
	"learning_rate": 9.936926605504586e-06,
	"loss": 0.5981,
	"step": 3600
	},
	{
	"epoch": 0.6751687921980495,
	"eval_loss": 0.6278895735740662,
	"eval_runtime": 5.5329,
	"eval_samples_per_second": 21.688,
	"eval_steps_per_second": 2.711,
	"step": 3600
	},
	{
	"epoch": 0.6770442610652663,
	"grad_norm": 2.0881967544555664,
	"learning_rate": 9.879587155963303e-06,
	"loss": 0.5829,
	"step": 3610
	},
	{
	"epoch": 0.6789197299324832,
	"grad_norm": 1.6255912780761719,
	"learning_rate": 9.822247706422018e-06,
	"loss": 0.5327,
	"step": 3620
	},
	{
	"epoch": 0.6807951987997,
	"grad_norm": 1.970249891281128,
	"learning_rate": 9.764908256880734e-06,
	"loss": 0.5841,
	"step": 3630
	},
	{
	"epoch": 0.6826706676669168,
	"grad_norm": 2.4903528690338135,
	"learning_rate": 9.70756880733945e-06,
	"loss": 0.6067,
	"step": 3640
	},
	{
	"epoch": 0.6845461365341335,
	"grad_norm": 1.9478775262832642,
	"learning_rate": 9.650229357798166e-06,
	"loss": 0.5565,
	"step": 3650
	},
	{
	"epoch": 0.6864216054013503,
	"grad_norm": 1.8559181690216064,
	"learning_rate": 9.592889908256881e-06,
	"loss": 0.5934,
	"step": 3660
	},
	{
	"epoch": 0.6882970742685671,
	"grad_norm": 1.7717185020446777,
	"learning_rate": 9.535550458715597e-06,
	"loss": 0.5408,
	"step": 3670
	},
	{
	"epoch": 0.6901725431357839,
	"grad_norm": 2.0449588298797607,
	"learning_rate": 9.478211009174312e-06,
	"loss": 0.5795,
	"step": 3680
	},
	{
	"epoch": 0.6920480120030007,
	"grad_norm": 2.3706321716308594,
	"learning_rate": 9.420871559633027e-06,
	"loss": 0.5183,
	"step": 3690
	},
	{
	"epoch": 0.6939234808702176,
	"grad_norm": 1.7281607389450073,
	"learning_rate": 9.363532110091744e-06,
	"loss": 0.494,
	"step": 3700
	},
	{
	"epoch": 0.6957989497374344,
	"grad_norm": 3.5256292819976807,
	"learning_rate": 9.306192660550459e-06,
	"loss": 0.5757,
	"step": 3710
	},
	{
	"epoch": 0.6976744186046512,
	"grad_norm": 1.58797025680542,
	"learning_rate": 9.248853211009175e-06,
	"loss": 0.5399,
	"step": 3720
	},
	{
	"epoch": 0.699549887471868,
	"grad_norm": 1.9900200366973877,
	"learning_rate": 9.19151376146789e-06,
	"loss": 0.6236,
	"step": 3730
	},
	{
	"epoch": 0.7014253563390848,
	"grad_norm": 1.7843225002288818,
	"learning_rate": 9.134174311926607e-06,
	"loss": 0.549,
	"step": 3740
	},
	{
	"epoch": 0.7033008252063015,
	"grad_norm": 1.9925148487091064,
	"learning_rate": 9.076834862385322e-06,
	"loss": 0.49,
	"step": 3750
	},
	{
	"epoch": 0.7051762940735183,
	"grad_norm": 2.0657670497894287,
	"learning_rate": 9.019495412844038e-06,
	"loss": 0.5305,
	"step": 3760
	},
	{
	"epoch": 0.7070517629407351,
	"grad_norm": 2.2417612075805664,
	"learning_rate": 8.962155963302753e-06,
	"loss": 0.6312,
	"step": 3770
	},
	{
	"epoch": 0.708927231807952,
	"grad_norm": 2.196537733078003,
	"learning_rate": 8.904816513761468e-06,
	"loss": 0.6512,
	"step": 3780
	},
	{
	"epoch": 0.7108027006751688,
	"grad_norm": 1.830484390258789,
	"learning_rate": 8.847477064220183e-06,
	"loss": 0.5919,
	"step": 3790
	},
	{
	"epoch": 0.7126781695423856,
	"grad_norm": 2.0573606491088867,
	"learning_rate": 8.790137614678898e-06,
	"loss": 0.5749,
	"step": 3800
	},
	{
	"epoch": 0.7126781695423856,
	"eval_loss": 0.6254046559333801,
	"eval_runtime": 5.5087,
	"eval_samples_per_second": 21.784,
	"eval_steps_per_second": 2.723,
	"step": 3800
	},
	{
	"epoch": 0.7145536384096024,
	"grad_norm": 1.9237205982208252,
	"learning_rate": 8.732798165137615e-06,
	"loss": 0.5669,
	"step": 3810
	},
	{
	"epoch": 0.7164291072768192,
	"grad_norm": 1.9309799671173096,
	"learning_rate": 8.67545871559633e-06,
	"loss": 0.4759,
	"step": 3820
	},
	{
	"epoch": 0.718304576144036,
	"grad_norm": 1.7976388931274414,
	"learning_rate": 8.618119266055046e-06,
	"loss": 0.5962,
	"step": 3830
	},
	{
	"epoch": 0.7201800450112528,
	"grad_norm": 2.3641951084136963,
	"learning_rate": 8.560779816513761e-06,
	"loss": 0.627,
	"step": 3840
	},
	{
	"epoch": 0.7220555138784697,
	"grad_norm": 1.5216801166534424,
	"learning_rate": 8.503440366972478e-06,
	"loss": 0.6098,
	"step": 3850
	},
	{
	"epoch": 0.7239309827456865,
	"grad_norm": 1.8570992946624756,
	"learning_rate": 8.446100917431192e-06,
	"loss": 0.5813,
	"step": 3860
	},
	{
	"epoch": 0.7258064516129032,
	"grad_norm": 3.1294426918029785,
	"learning_rate": 8.388761467889909e-06,
	"loss": 0.5876,
	"step": 3870
	},
	{
	"epoch": 0.72768192048012,
	"grad_norm": 2.678264617919922,
	"learning_rate": 8.331422018348624e-06,
	"loss": 0.6336,
	"step": 3880
	},
	{
	"epoch": 0.7295573893473368,
	"grad_norm": 1.5208237171173096,
	"learning_rate": 8.274082568807339e-06,
	"loss": 0.5342,
	"step": 3890
	},
	{
	"epoch": 0.7314328582145536,
	"grad_norm": 2.246694326400757,
	"learning_rate": 8.216743119266055e-06,
	"loss": 0.58,
	"step": 3900
	},
	{
	"epoch": 0.7333083270817704,
	"grad_norm": 1.5300601720809937,
	"learning_rate": 8.15940366972477e-06,
	"loss": 0.5734,
	"step": 3910
	},
	{
	"epoch": 0.7351837959489872,
	"grad_norm": 2.032264471054077,
	"learning_rate": 8.102064220183487e-06,
	"loss": 0.5499,
	"step": 3920
	},
	{
	"epoch": 0.7370592648162041,
	"grad_norm": 2.2106308937072754,
	"learning_rate": 8.044724770642202e-06,
	"loss": 0.5158,
	"step": 3930
	},
	{
	"epoch": 0.7389347336834209,
	"grad_norm": 1.91170334815979,
	"learning_rate": 7.987385321100918e-06,
	"loss": 0.6973,
	"step": 3940
	},
	{
	"epoch": 0.7408102025506377,
	"grad_norm": 1.750429391860962,
	"learning_rate": 7.930045871559633e-06,
	"loss": 0.5268,
	"step": 3950
	},
	{
	"epoch": 0.7426856714178545,
	"grad_norm": 3.0469017028808594,
	"learning_rate": 7.87270642201835e-06,
	"loss": 0.6026,
	"step": 3960
	},
	{
	"epoch": 0.7445611402850713,
	"grad_norm": 1.8385506868362427,
	"learning_rate": 7.815366972477065e-06,
	"loss": 0.6316,
	"step": 3970
	},
	{
	"epoch": 0.746436609152288,
	"grad_norm": 2.0888671875,
	"learning_rate": 7.75802752293578e-06,
	"loss": 0.6271,
	"step": 3980
	},
	{
	"epoch": 0.7483120780195048,
	"grad_norm": 2.3192808628082275,
	"learning_rate": 7.700688073394496e-06,
	"loss": 0.5864,
	"step": 3990
	},
	{
	"epoch": 0.7501875468867217,
	"grad_norm": 1.7646706104278564,
	"learning_rate": 7.643348623853211e-06,
	"loss": 0.5462,
	"step": 4000
	},
	{
	"epoch": 0.7501875468867217,
	"eval_loss": 0.6223539710044861,
	"eval_runtime": 5.5777,
	"eval_samples_per_second": 21.514,
	"eval_steps_per_second": 2.689,
	"step": 4000
	},
	{
	"epoch": 0.7520630157539385,
	"grad_norm": 2.0803816318511963,
	"learning_rate": 7.586009174311928e-06,
	"loss": 0.7064,
	"step": 4010
	},
	{
	"epoch": 0.7539384846211553,
	"grad_norm": 2.42698073387146,
	"learning_rate": 7.528669724770644e-06,
	"loss": 0.5476,
	"step": 4020
	},
	{
	"epoch": 0.7558139534883721,
	"grad_norm": 2.320164442062378,
	"learning_rate": 7.471330275229358e-06,
	"loss": 0.6527,
	"step": 4030
	},
	{
	"epoch": 0.7576894223555889,
	"grad_norm": 2.235037088394165,
	"learning_rate": 7.413990825688073e-06,
	"loss": 0.6471,
	"step": 4040
	},
	{
	"epoch": 0.7595648912228057,
	"grad_norm": 2.3369674682617188,
	"learning_rate": 7.356651376146789e-06,
	"loss": 0.6455,
	"step": 4050
	},
	{
	"epoch": 0.7614403600900225,
	"grad_norm": 2.7365052700042725,
	"learning_rate": 7.299311926605505e-06,
	"loss": 0.6133,
	"step": 4060
	},
	{
	"epoch": 0.7633158289572393,
	"grad_norm": 1.987430453300476,
	"learning_rate": 7.241972477064221e-06,
	"loss": 0.5892,
	"step": 4070
	},
	{
	"epoch": 0.7651912978244562,
	"grad_norm": 2.2822089195251465,
	"learning_rate": 7.184633027522936e-06,
	"loss": 0.5558,
	"step": 4080
	},
	{
	"epoch": 0.767066766691673,
	"grad_norm": 2.1317837238311768,
	"learning_rate": 7.127293577981651e-06,
	"loss": 0.5939,
	"step": 4090
	},
	{
	"epoch": 0.7689422355588897,
	"grad_norm": 2.5483336448669434,
	"learning_rate": 7.069954128440367e-06,
	"loss": 0.6171,
	"step": 4100
	},
	{
	"epoch": 0.7708177044261065,
	"grad_norm": 1.9714287519454956,
	"learning_rate": 7.012614678899083e-06,
	"loss": 0.6518,
	"step": 4110
	},
	{
	"epoch": 0.7726931732933233,
	"grad_norm": 1.9111765623092651,
	"learning_rate": 6.9552752293577985e-06,
	"loss": 0.5786,
	"step": 4120
	},
	{
	"epoch": 0.7745686421605401,
	"grad_norm": 1.9817109107971191,
	"learning_rate": 6.8979357798165134e-06,
	"loss": 0.5463,
	"step": 4130
	},
	{
	"epoch": 0.7764441110277569,
	"grad_norm": 1.834665060043335,
	"learning_rate": 6.840596330275229e-06,
	"loss": 0.5541,
	"step": 4140
	},
	{
	"epoch": 0.7783195798949737,
	"grad_norm": 2.018120765686035,
	"learning_rate": 6.783256880733945e-06,
	"loss": 0.5399,
	"step": 4150
	},
	{
	"epoch": 0.7801950487621906,
	"grad_norm": 2.5197436809539795,
	"learning_rate": 6.725917431192661e-06,
	"loss": 0.5581,
	"step": 4160
	},
	{
	"epoch": 0.7820705176294074,
	"grad_norm": 2.2083163261413574,
	"learning_rate": 6.6685779816513764e-06,
	"loss": 0.5535,
	"step": 4170
	},
	{
	"epoch": 0.7839459864966242,
	"grad_norm": 2.2999789714813232,
	"learning_rate": 6.611238532110092e-06,
	"loss": 0.5212,
	"step": 4180
	},
	{
	"epoch": 0.785821455363841,
	"grad_norm": 2.2333500385284424,
	"learning_rate": 6.553899082568808e-06,
	"loss": 0.6867,
	"step": 4190
	},
	{
	"epoch": 0.7876969242310577,
	"grad_norm": 2.5943992137908936,
	"learning_rate": 6.496559633027524e-06,
	"loss": 0.4554,
	"step": 4200
	},
	{
	"epoch": 0.7876969242310577,
	"eval_loss": 0.6219611763954163,
	"eval_runtime": 5.5648,
	"eval_samples_per_second": 21.564,
	"eval_steps_per_second": 2.696,
	"step": 4200
	},
	{
	"epoch": 0.7895723930982745,
	"grad_norm": 2.9401698112487793,
	"learning_rate": 6.4392201834862394e-06,
	"loss": 0.6103,
	"step": 4210
	},
	{
	"epoch": 0.7914478619654913,
	"grad_norm": 2.275641679763794,
	"learning_rate": 6.381880733944954e-06,
	"loss": 0.5384,
	"step": 4220
	},
	{
	"epoch": 0.7933233308327082,
	"grad_norm": 1.5987143516540527,
	"learning_rate": 6.324541284403669e-06,
	"loss": 0.6324,
	"step": 4230
	},
	{
	"epoch": 0.795198799699925,
	"grad_norm": 1.6601738929748535,
	"learning_rate": 6.267201834862385e-06,
	"loss": 0.5049,
	"step": 4240
	},
	{
	"epoch": 0.7970742685671418,
	"grad_norm": 2.5912208557128906,
	"learning_rate": 6.209862385321101e-06,
	"loss": 0.6013,
	"step": 4250
	},
	{
	"epoch": 0.7989497374343586,
	"grad_norm": 2.051008701324463,
	"learning_rate": 6.1525229357798165e-06,
	"loss": 0.6521,
	"step": 4260
	},
	{
	"epoch": 0.8008252063015754,
	"grad_norm": 2.331805467605591,
	"learning_rate": 6.095183486238532e-06,
	"loss": 0.5396,
	"step": 4270
	},
	{
	"epoch": 0.8027006751687922,
	"grad_norm": 2.048785924911499,
	"learning_rate": 6.037844036697248e-06,
	"loss": 0.5918,
	"step": 4280
	},
	{
	"epoch": 0.804576144036009,
	"grad_norm": 2.387164354324341,
	"learning_rate": 5.980504587155964e-06,
	"loss": 0.624,
	"step": 4290
	},
	{
	"epoch": 0.8064516129032258,
	"grad_norm": 1.7921018600463867,
	"learning_rate": 5.9231651376146795e-06,
	"loss": 0.5066,
	"step": 4300
	},
	{
	"epoch": 0.8083270817704427,
	"grad_norm": 1.3692150115966797,
	"learning_rate": 5.865825688073395e-06,
	"loss": 0.509,
	"step": 4310
	},
	{
	"epoch": 0.8102025506376594,
	"grad_norm": 1.9718056917190552,
	"learning_rate": 5.80848623853211e-06,
	"loss": 0.6208,
	"step": 4320
	},
	{
	"epoch": 0.8120780195048762,
	"grad_norm": 1.9130088090896606,
	"learning_rate": 5.751146788990826e-06,
	"loss": 0.5508,
	"step": 4330
	},
	{
	"epoch": 0.813953488372093,
	"grad_norm": 2.5534584522247314,
	"learning_rate": 5.693807339449541e-06,
	"loss": 0.6473,
	"step": 4340
	},
	{
	"epoch": 0.8158289572393098,
	"grad_norm": 2.3137259483337402,
	"learning_rate": 5.6364678899082565e-06,
	"loss": 0.5723,
	"step": 4350
	},
	{
	"epoch": 0.8177044261065266,
	"grad_norm": 2.2267236709594727,
	"learning_rate": 5.579128440366972e-06,
	"loss": 0.516,
	"step": 4360
	},
	{
	"epoch": 0.8195798949737434,
	"grad_norm": 2.8468329906463623,
	"learning_rate": 5.521788990825688e-06,
	"loss": 0.6196,
	"step": 4370
	},
	{
	"epoch": 0.8214553638409603,
	"grad_norm": 1.7340741157531738,
	"learning_rate": 5.464449541284404e-06,
	"loss": 0.5489,
	"step": 4380
	},
	{
	"epoch": 0.8233308327081771,
	"grad_norm": 1.9742332696914673,
	"learning_rate": 5.4071100917431195e-06,
	"loss": 0.585,
	"step": 4390
	},
	{
	"epoch": 0.8252063015753939,
	"grad_norm": 2.408601999282837,
	"learning_rate": 5.349770642201835e-06,
	"loss": 0.5685,
	"step": 4400
	},
	{
	"epoch": 0.8252063015753939,
	"eval_loss": 0.6204274296760559,
	"eval_runtime": 5.5455,
	"eval_samples_per_second": 21.639,
	"eval_steps_per_second": 2.705,
	"step": 4400
	},
	{
	"epoch": 0.8270817704426107,
	"grad_norm": 2.1270008087158203,
	"learning_rate": 5.292431192660551e-06,
	"loss": 0.5759,
	"step": 4410
	},
	{
	"epoch": 0.8289572393098275,
	"grad_norm": 2.048781156539917,
	"learning_rate": 5.235091743119266e-06,
	"loss": 0.5268,
	"step": 4420
	},
	{
	"epoch": 0.8308327081770442,
	"grad_norm": 1.643114686012268,
	"learning_rate": 5.177752293577982e-06,
	"loss": 0.5481,
	"step": 4430
	},
	{
	"epoch": 0.832708177044261,
	"grad_norm": 1.9851353168487549,
	"learning_rate": 5.120412844036697e-06,
	"loss": 0.6492,
	"step": 4440
	},
	{
	"epoch": 0.8345836459114778,
	"grad_norm": 2.3454835414886475,
	"learning_rate": 5.063073394495413e-06,
	"loss": 0.5475,
	"step": 4450
	},
	{
	"epoch": 0.8364591147786947,
	"grad_norm": 2.1236870288848877,
	"learning_rate": 5.005733944954129e-06,
	"loss": 0.4889,
	"step": 4460
	},
	{
	"epoch": 0.8383345836459115,
	"grad_norm": 2.490607738494873,
	"learning_rate": 4.948394495412844e-06,
	"loss": 0.6648,
	"step": 4470
	},
	{
	"epoch": 0.8402100525131283,
	"grad_norm": 2.781184434890747,
	"learning_rate": 4.8910550458715596e-06,
	"loss": 0.6362,
	"step": 4480
	},
	{
	"epoch": 0.8420855213803451,
	"grad_norm": 1.488677740097046,
	"learning_rate": 4.833715596330275e-06,
	"loss": 0.6213,
	"step": 4490
	},
	{
	"epoch": 0.8439609902475619,
	"grad_norm": 1.9841208457946777,
	"learning_rate": 4.776376146788991e-06,
	"loss": 0.6166,
	"step": 4500
	},
	{
	"epoch": 0.8458364591147787,
	"grad_norm": 1.4909323453903198,
	"learning_rate": 4.719036697247707e-06,
	"loss": 0.4612,
	"step": 4510
	},
	{
	"epoch": 0.8477119279819955,
	"grad_norm": 1.927198886871338,
	"learning_rate": 4.661697247706422e-06,
	"loss": 0.5697,
	"step": 4520
	},
	{
	"epoch": 0.8495873968492123,
	"grad_norm": 2.1951193809509277,
	"learning_rate": 4.6043577981651375e-06,
	"loss": 0.6029,
	"step": 4530
	},
	{
	"epoch": 0.8514628657164292,
	"grad_norm": 1.6474297046661377,
	"learning_rate": 4.547018348623853e-06,
	"loss": 0.5997,
	"step": 4540
	},
	{
	"epoch": 0.8533383345836459,
	"grad_norm": 2.8692142963409424,
	"learning_rate": 4.489678899082569e-06,
	"loss": 0.5052,
	"step": 4550
	},
	{
	"epoch": 0.8552138034508627,
	"grad_norm": 2.2251393795013428,
	"learning_rate": 4.432339449541285e-06,
	"loss": 0.5406,
	"step": 4560
	},
	{
	"epoch": 0.8570892723180795,
	"grad_norm": 1.9672750234603882,
	"learning_rate": 4.3750000000000005e-06,
	"loss": 0.6556,
	"step": 4570
	},
	{
	"epoch": 0.8589647411852963,
	"grad_norm": 1.9112441539764404,
	"learning_rate": 4.317660550458716e-06,
	"loss": 0.6307,
	"step": 4580
	},
	{
	"epoch": 0.8608402100525131,
	"grad_norm": 2.0552773475646973,
	"learning_rate": 4.260321100917432e-06,
	"loss": 0.5682,
	"step": 4590
	},
	{
	"epoch": 0.8627156789197299,
	"grad_norm": 1.927811622619629,
	"learning_rate": 4.202981651376147e-06,
	"loss": 0.5006,
	"step": 4600
	},
	{
	"epoch": 0.8627156789197299,
	"eval_loss": 0.6183449625968933,
	"eval_runtime": 5.5214,
	"eval_samples_per_second": 21.734,
	"eval_steps_per_second": 2.717,
	"step": 4600
	},
	{
	"epoch": 0.8645911477869468,
	"grad_norm": 2.3974733352661133,
	"learning_rate": 4.145642201834863e-06,
	"loss": 0.6954,
	"step": 4610
	},
	{
	"epoch": 0.8664666166541636,
	"grad_norm": 2.214097738265991,
	"learning_rate": 4.0883027522935775e-06,
	"loss": 0.619,
	"step": 4620
	},
	{
	"epoch": 0.8683420855213804,
	"grad_norm": 2.094970464706421,
	"learning_rate": 4.030963302752293e-06,
	"loss": 0.5883,
	"step": 4630
	},
	{
	"epoch": 0.8702175543885972,
	"grad_norm": 1.908461570739746,
	"learning_rate": 3.973623853211009e-06,
	"loss": 0.4951,
	"step": 4640
	},
	{
	"epoch": 0.872093023255814,
	"grad_norm": 2.1103639602661133,
	"learning_rate": 3.916284403669725e-06,
	"loss": 0.5969,
	"step": 4650
	},
	{
	"epoch": 0.8739684921230307,
	"grad_norm": 1.8500175476074219,
	"learning_rate": 3.8589449541284405e-06,
	"loss": 0.5824,
	"step": 4660
	},
	{
	"epoch": 0.8758439609902475,
	"grad_norm": 2.222599506378174,
	"learning_rate": 3.8016055045871563e-06,
	"loss": 0.654,
	"step": 4670
	},
	{
	"epoch": 0.8777194298574643,
	"grad_norm": 2.0447375774383545,
	"learning_rate": 3.744266055045872e-06,
	"loss": 0.5774,
	"step": 4680
	},
	{
	"epoch": 0.8795948987246812,
	"grad_norm": 2.4672482013702393,
	"learning_rate": 3.686926605504587e-06,
	"loss": 0.6135,
	"step": 4690
	},
	{
	"epoch": 0.881470367591898,
	"grad_norm": 2.1856000423431396,
	"learning_rate": 3.6295871559633027e-06,
	"loss": 0.5876,
	"step": 4700
	},
	{
	"epoch": 0.8833458364591148,
	"grad_norm": 2.358637809753418,
	"learning_rate": 3.5722477064220184e-06,
	"loss": 0.5665,
	"step": 4710
	},
	{
	"epoch": 0.8852213053263316,
	"grad_norm": 1.8287360668182373,
	"learning_rate": 3.514908256880734e-06,
	"loss": 0.5067,
	"step": 4720
	},
	{
	"epoch": 0.8870967741935484,
	"grad_norm": 2.045971155166626,
	"learning_rate": 3.45756880733945e-06,
	"loss": 0.54,
	"step": 4730
	},
	{
	"epoch": 0.8889722430607652,
	"grad_norm": 2.5090229511260986,
	"learning_rate": 3.4002293577981652e-06,
	"loss": 0.6294,
	"step": 4740
	},
	{
	"epoch": 0.890847711927982,
	"grad_norm": 2.9200639724731445,
	"learning_rate": 3.3428899082568806e-06,
	"loss": 0.5443,
	"step": 4750
	},
	{
	"epoch": 0.8927231807951987,
	"grad_norm": 2.0221188068389893,
	"learning_rate": 3.2855504587155963e-06,
	"loss": 0.628,
	"step": 4760
	},
	{
	"epoch": 0.8945986496624156,
	"grad_norm": 2.6036345958709717,
	"learning_rate": 3.228211009174312e-06,
	"loss": 0.6387,
	"step": 4770
	},
	{
	"epoch": 0.8964741185296324,
	"grad_norm": 3.309267044067383,
	"learning_rate": 3.170871559633028e-06,
	"loss": 0.5863,
	"step": 4780
	},
	{
	"epoch": 0.8983495873968492,
	"grad_norm": 3.4704477787017822,
	"learning_rate": 3.113532110091743e-06,
	"loss": 0.5955,
	"step": 4790
	},
	{
	"epoch": 0.900225056264066,
	"grad_norm": 2.056976556777954,
	"learning_rate": 3.056192660550459e-06,
	"loss": 0.5984,
	"step": 4800
	},
	{
	"epoch": 0.900225056264066,
	"eval_loss": 0.6168529987335205,
	"eval_runtime": 5.5639,
	"eval_samples_per_second": 21.568,
	"eval_steps_per_second": 2.696,
	"step": 4800
	},
	{
	"epoch": 0.9021005251312828,
	"grad_norm": 2.358440399169922,
	"learning_rate": 2.9988532110091746e-06,
	"loss": 0.5657,
	"step": 4810
	},
	{
	"epoch": 0.9039759939984996,
	"grad_norm": 2.124436140060425,
	"learning_rate": 2.94151376146789e-06,
	"loss": 0.642,
	"step": 4820
	},
	{
	"epoch": 0.9058514628657164,
	"grad_norm": 1.5845674276351929,
	"learning_rate": 2.8841743119266057e-06,
	"loss": 0.5054,
	"step": 4830
	},
	{
	"epoch": 0.9077269317329333,
	"grad_norm": 2.296250820159912,
	"learning_rate": 2.8325688073394495e-06,
	"loss": 0.6108,
	"step": 4840
	},
	{
	"epoch": 0.9096024006001501,
	"grad_norm": 1.7618379592895508,
	"learning_rate": 2.7752293577981653e-06,
	"loss": 0.6623,
	"step": 4850
	},
	{
	"epoch": 0.9114778694673669,
	"grad_norm": 2.3502273559570312,
	"learning_rate": 2.7178899082568806e-06,
	"loss": 0.5688,
	"step": 4860
	},
	{
	"epoch": 0.9133533383345837,
	"grad_norm": 2.141451597213745,
	"learning_rate": 2.6605504587155964e-06,
	"loss": 0.6076,
	"step": 4870
	},
	{
	"epoch": 0.9152288072018004,
	"grad_norm": 2.2488343715667725,
	"learning_rate": 2.603211009174312e-06,
	"loss": 0.6399,
	"step": 4880
	},
	{
	"epoch": 0.9171042760690172,
	"grad_norm": 2.0450565814971924,
	"learning_rate": 2.545871559633028e-06,
	"loss": 0.5864,
	"step": 4890
	},
	{
	"epoch": 0.918979744936234,
	"grad_norm": 2.490226984024048,
	"learning_rate": 2.488532110091743e-06,
	"loss": 0.5644,
	"step": 4900
	},
	{
	"epoch": 0.9208552138034508,
	"grad_norm": 2.630089282989502,
	"learning_rate": 2.4311926605504585e-06,
	"loss": 0.6637,
	"step": 4910
	},
	{
	"epoch": 0.9227306826706677,
	"grad_norm": 2.2584402561187744,
	"learning_rate": 2.3738532110091743e-06,
	"loss": 0.5784,
	"step": 4920
	},
	{
	"epoch": 0.9246061515378845,
	"grad_norm": 2.9330437183380127,
	"learning_rate": 2.31651376146789e-06,
	"loss": 0.5286,
	"step": 4930
	},
	{
	"epoch": 0.9264816204051013,
	"grad_norm": 2.6167702674865723,
	"learning_rate": 2.2591743119266058e-06,
	"loss": 0.5273,
	"step": 4940
	},
	{
	"epoch": 0.9283570892723181,
	"grad_norm": 2.414607286453247,
	"learning_rate": 2.201834862385321e-06,
	"loss": 0.5177,
	"step": 4950
	},
	{
	"epoch": 0.9302325581395349,
	"grad_norm": 2.5905508995056152,
	"learning_rate": 2.144495412844037e-06,
	"loss": 0.5818,
	"step": 4960
	},
	{
	"epoch": 0.9321080270067517,
	"grad_norm": 2.9565694332122803,
	"learning_rate": 2.087155963302752e-06,
	"loss": 0.5307,
	"step": 4970
	},
	{
	"epoch": 0.9339834958739685,
	"grad_norm": 2.3778281211853027,
	"learning_rate": 2.029816513761468e-06,
	"loss": 0.5477,
	"step": 4980
	},
	{
	"epoch": 0.9358589647411854,
	"grad_norm": 2.004302978515625,
	"learning_rate": 1.9724770642201837e-06,
	"loss": 0.55,
	"step": 4990
	},
	{
	"epoch": 0.9377344336084021,
	"grad_norm": 2.098611354827881,
	"learning_rate": 1.915137614678899e-06,
	"loss": 0.6077,
	"step": 5000
	},
	{
	"epoch": 0.9377344336084021,
	"eval_loss": 0.6168031096458435,
	"eval_runtime": 5.423,
	"eval_samples_per_second": 22.128,
	"eval_steps_per_second": 2.766,
	"step": 5000
	},
	{
	"epoch": 0.9396099024756189,
	"grad_norm": 2.273273229598999,
	"learning_rate": 1.8577981651376147e-06,
	"loss": 0.5192,
	"step": 5010
	},
	{
	"epoch": 0.9414853713428357,
	"grad_norm": 2.40267276763916,
	"learning_rate": 1.8004587155963303e-06,
	"loss": 0.6307,
	"step": 5020
	},
	{
	"epoch": 0.9433608402100525,
	"grad_norm": 2.205829620361328,
	"learning_rate": 1.743119266055046e-06,
	"loss": 0.5307,
	"step": 5030
	},
	{
	"epoch": 0.9452363090772693,
	"grad_norm": 2.208779811859131,
	"learning_rate": 1.6857798165137616e-06,
	"loss": 0.5816,
	"step": 5040
	},
	{
	"epoch": 0.9471117779444861,
	"grad_norm": 2.550372838973999,
	"learning_rate": 1.628440366972477e-06,
	"loss": 0.588,
	"step": 5050
	},
	{
	"epoch": 0.9489872468117029,
	"grad_norm": 2.062358856201172,
	"learning_rate": 1.5711009174311926e-06,
	"loss": 0.6606,
	"step": 5060
	},
	{
	"epoch": 0.9508627156789198,
	"grad_norm": 2.3175814151763916,
	"learning_rate": 1.5137614678899084e-06,
	"loss": 0.4878,
	"step": 5070
	},
	{
	"epoch": 0.9527381845461366,
	"grad_norm": 3.7666046619415283,
	"learning_rate": 1.456422018348624e-06,
	"loss": 0.566,
	"step": 5080
	},
	{
	"epoch": 0.9546136534133534,
	"grad_norm": 2.467745304107666,
	"learning_rate": 1.3990825688073395e-06,
	"loss": 0.6029,
	"step": 5090
	},
	{
	"epoch": 0.9564891222805701,
	"grad_norm": 1.9065784215927124,
	"learning_rate": 1.3417431192660552e-06,
	"loss": 0.5577,
	"step": 5100
	},
	{
	"epoch": 0.9583645911477869,
	"grad_norm": 2.447404623031616,
	"learning_rate": 1.2844036697247705e-06,
	"loss": 0.513,
	"step": 5110
	},
	{
	"epoch": 0.9602400600150037,
	"grad_norm": 2.8181941509246826,
	"learning_rate": 1.2270642201834863e-06,
	"loss": 0.4997,
	"step": 5120
	},
	{
	"epoch": 0.9621155288822205,
	"grad_norm": 2.414186954498291,
	"learning_rate": 1.169724770642202e-06,
	"loss": 0.5174,
	"step": 5130
	},
	{
	"epoch": 0.9639909977494373,
	"grad_norm": 2.9557716846466064,
	"learning_rate": 1.1123853211009173e-06,
	"loss": 0.5591,
	"step": 5140
	},
	{
	"epoch": 0.9658664666166542,
	"grad_norm": 1.9689189195632935,
	"learning_rate": 1.055045871559633e-06,
	"loss": 0.5722,
	"step": 5150
	},
	{
	"epoch": 0.967741935483871,
	"grad_norm": 2.1190686225891113,
	"learning_rate": 9.977064220183486e-07,
	"loss": 0.558,
	"step": 5160
	},
	{
	"epoch": 0.9696174043510878,
	"grad_norm": 2.7399091720581055,
	"learning_rate": 9.403669724770642e-07,
	"loss": 0.5672,
	"step": 5170
	},
	{
	"epoch": 0.9714928732183046,
	"grad_norm": 2.2235541343688965,
	"learning_rate": 8.830275229357798e-07,
	"loss": 0.5904,
	"step": 5180
	},
	{
	"epoch": 0.9733683420855214,
	"grad_norm": 2.248394727706909,
	"learning_rate": 8.256880733944955e-07,
	"loss": 0.5505,
	"step": 5190
	},
	{
	"epoch": 0.9752438109527382,
	"grad_norm": 2.1956896781921387,
	"learning_rate": 7.68348623853211e-07,
	"loss": 0.596,
	"step": 5200
	},
	{
	"epoch": 0.9752438109527382,
	"eval_loss": 0.6171349287033081,
	"eval_runtime": 5.3961,
	"eval_samples_per_second": 22.238,
	"eval_steps_per_second": 2.78,
	"step": 5200
	}
	],
	"logging_steps": 10,
	"max_steps": 5332,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 200,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.618912552812544e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}