model_output / trainer_state.json
hshankar113's picture
hshankar113/multilingual-chat-slm
a7c7d05 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 1.0000333333333333,
"eval_steps": 500,
"global_step": 30001,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0033333333333333335,
"grad_norm": 2.432770013809204,
"learning_rate": 4.950000000000001e-06,
"loss": 4.4748,
"step": 100
},
{
"epoch": 0.006666666666666667,
"grad_norm": 3.0658187866210938,
"learning_rate": 9.950000000000001e-06,
"loss": 4.5848,
"step": 200
},
{
"epoch": 0.01,
"grad_norm": 3.668822765350342,
"learning_rate": 1.4950000000000001e-05,
"loss": 4.5434,
"step": 300
},
{
"epoch": 0.013333333333333334,
"grad_norm": 3.464035749435425,
"learning_rate": 1.995e-05,
"loss": 4.5642,
"step": 400
},
{
"epoch": 0.016666666666666666,
"grad_norm": 3.431352376937866,
"learning_rate": 2.495e-05,
"loss": 4.6208,
"step": 500
},
{
"epoch": 0.02,
"grad_norm": 3.2728869915008545,
"learning_rate": 2.995e-05,
"loss": 4.5531,
"step": 600
},
{
"epoch": 0.023333333333333334,
"grad_norm": 3.092519760131836,
"learning_rate": 3.495e-05,
"loss": 4.9349,
"step": 700
},
{
"epoch": 0.02666666666666667,
"grad_norm": 3.0196480751037598,
"learning_rate": 3.995e-05,
"loss": 4.98,
"step": 800
},
{
"epoch": 0.03,
"grad_norm": 3.531619071960449,
"learning_rate": 4.495e-05,
"loss": 4.963,
"step": 900
},
{
"epoch": 0.03333333333333333,
"grad_norm": 3.0364348888397217,
"learning_rate": 4.995e-05,
"loss": 4.9439,
"step": 1000
},
{
"epoch": 0.03666666666666667,
"grad_norm": 2.966171979904175,
"learning_rate": 4.982931034482759e-05,
"loss": 4.9424,
"step": 1100
},
{
"epoch": 0.04,
"grad_norm": 2.858612060546875,
"learning_rate": 4.9656896551724144e-05,
"loss": 4.9295,
"step": 1200
},
{
"epoch": 0.043333333333333335,
"grad_norm": 2.722503900527954,
"learning_rate": 4.948448275862069e-05,
"loss": 4.9062,
"step": 1300
},
{
"epoch": 0.04666666666666667,
"grad_norm": 2.561314344406128,
"learning_rate": 4.931206896551724e-05,
"loss": 4.8918,
"step": 1400
},
{
"epoch": 0.05,
"grad_norm": 3.596597671508789,
"learning_rate": 4.91396551724138e-05,
"loss": 4.9177,
"step": 1500
},
{
"epoch": 0.05333333333333334,
"grad_norm": 2.5951080322265625,
"learning_rate": 4.8967241379310346e-05,
"loss": 4.8658,
"step": 1600
},
{
"epoch": 0.056666666666666664,
"grad_norm": 2.546725034713745,
"learning_rate": 4.87948275862069e-05,
"loss": 4.847,
"step": 1700
},
{
"epoch": 0.06,
"grad_norm": 2.793475866317749,
"learning_rate": 4.862241379310345e-05,
"loss": 4.8603,
"step": 1800
},
{
"epoch": 0.06333333333333334,
"grad_norm": 2.6936521530151367,
"learning_rate": 4.845e-05,
"loss": 4.8574,
"step": 1900
},
{
"epoch": 0.06666666666666667,
"grad_norm": 2.6505532264709473,
"learning_rate": 4.8277586206896554e-05,
"loss": 4.8192,
"step": 2000
},
{
"epoch": 0.07,
"grad_norm": 2.7143611907958984,
"learning_rate": 4.81051724137931e-05,
"loss": 4.8301,
"step": 2100
},
{
"epoch": 0.07333333333333333,
"grad_norm": 2.251673460006714,
"learning_rate": 4.793275862068966e-05,
"loss": 4.8221,
"step": 2200
},
{
"epoch": 0.07666666666666666,
"grad_norm": 2.6628541946411133,
"learning_rate": 4.776034482758621e-05,
"loss": 4.8107,
"step": 2300
},
{
"epoch": 0.08,
"grad_norm": 2.4569995403289795,
"learning_rate": 4.758793103448276e-05,
"loss": 4.794,
"step": 2400
},
{
"epoch": 0.08333333333333333,
"grad_norm": 2.386894702911377,
"learning_rate": 4.741551724137932e-05,
"loss": 4.7992,
"step": 2500
},
{
"epoch": 0.08666666666666667,
"grad_norm": 2.4557945728302,
"learning_rate": 4.724310344827587e-05,
"loss": 4.7774,
"step": 2600
},
{
"epoch": 0.09,
"grad_norm": 2.6066713333129883,
"learning_rate": 4.7070689655172415e-05,
"loss": 4.7684,
"step": 2700
},
{
"epoch": 0.09333333333333334,
"grad_norm": 2.1568965911865234,
"learning_rate": 4.689827586206897e-05,
"loss": 4.8058,
"step": 2800
},
{
"epoch": 0.09666666666666666,
"grad_norm": 2.782592535018921,
"learning_rate": 4.672586206896552e-05,
"loss": 4.7507,
"step": 2900
},
{
"epoch": 0.1,
"grad_norm": 2.0947823524475098,
"learning_rate": 4.655344827586207e-05,
"loss": 4.7529,
"step": 3000
},
{
"epoch": 0.10333333333333333,
"grad_norm": 2.939363956451416,
"learning_rate": 4.6381034482758624e-05,
"loss": 4.7397,
"step": 3100
},
{
"epoch": 0.10666666666666667,
"grad_norm": 2.1280272006988525,
"learning_rate": 4.620862068965517e-05,
"loss": 4.7205,
"step": 3200
},
{
"epoch": 0.11,
"grad_norm": 2.5565991401672363,
"learning_rate": 4.603620689655173e-05,
"loss": 4.7345,
"step": 3300
},
{
"epoch": 0.11333333333333333,
"grad_norm": 2.393437147140503,
"learning_rate": 4.5863793103448277e-05,
"loss": 4.7259,
"step": 3400
},
{
"epoch": 0.11666666666666667,
"grad_norm": 2.3334264755249023,
"learning_rate": 4.5691379310344825e-05,
"loss": 4.7246,
"step": 3500
},
{
"epoch": 0.12,
"grad_norm": 2.3572139739990234,
"learning_rate": 4.551896551724138e-05,
"loss": 4.7418,
"step": 3600
},
{
"epoch": 0.12333333333333334,
"grad_norm": 2.216188907623291,
"learning_rate": 4.534655172413793e-05,
"loss": 4.7028,
"step": 3700
},
{
"epoch": 0.12666666666666668,
"grad_norm": 2.218505859375,
"learning_rate": 4.5174137931034485e-05,
"loss": 4.7195,
"step": 3800
},
{
"epoch": 0.13,
"grad_norm": 2.278543710708618,
"learning_rate": 4.5001724137931034e-05,
"loss": 4.713,
"step": 3900
},
{
"epoch": 0.13333333333333333,
"grad_norm": 2.791719913482666,
"learning_rate": 4.482931034482759e-05,
"loss": 4.7183,
"step": 4000
},
{
"epoch": 0.13666666666666666,
"grad_norm": 2.6032369136810303,
"learning_rate": 4.4656896551724145e-05,
"loss": 4.6735,
"step": 4100
},
{
"epoch": 0.14,
"grad_norm": 2.133446216583252,
"learning_rate": 4.448448275862069e-05,
"loss": 4.7103,
"step": 4200
},
{
"epoch": 0.14333333333333334,
"grad_norm": 2.0948398113250732,
"learning_rate": 4.431206896551724e-05,
"loss": 4.7108,
"step": 4300
},
{
"epoch": 0.14666666666666667,
"grad_norm": 2.1138408184051514,
"learning_rate": 4.41396551724138e-05,
"loss": 4.7027,
"step": 4400
},
{
"epoch": 0.15,
"grad_norm": 2.366734743118286,
"learning_rate": 4.3967241379310346e-05,
"loss": 4.6546,
"step": 4500
},
{
"epoch": 0.15333333333333332,
"grad_norm": 2.615391254425049,
"learning_rate": 4.37948275862069e-05,
"loss": 4.6963,
"step": 4600
},
{
"epoch": 0.15666666666666668,
"grad_norm": 2.0809595584869385,
"learning_rate": 4.362241379310345e-05,
"loss": 4.6004,
"step": 4700
},
{
"epoch": 0.16,
"grad_norm": 2.1302947998046875,
"learning_rate": 4.345e-05,
"loss": 4.6918,
"step": 4800
},
{
"epoch": 0.16333333333333333,
"grad_norm": 2.247417449951172,
"learning_rate": 4.3277586206896555e-05,
"loss": 4.6564,
"step": 4900
},
{
"epoch": 0.16666666666666666,
"grad_norm": 2.05452561378479,
"learning_rate": 4.31051724137931e-05,
"loss": 4.6742,
"step": 5000
},
{
"epoch": 0.17,
"grad_norm": 2.0982797145843506,
"learning_rate": 4.293275862068966e-05,
"loss": 4.6391,
"step": 5100
},
{
"epoch": 0.17333333333333334,
"grad_norm": 2.3988752365112305,
"learning_rate": 4.276034482758621e-05,
"loss": 4.6858,
"step": 5200
},
{
"epoch": 0.17666666666666667,
"grad_norm": 2.203742265701294,
"learning_rate": 4.2587931034482756e-05,
"loss": 4.6463,
"step": 5300
},
{
"epoch": 0.18,
"grad_norm": 2.1824591159820557,
"learning_rate": 4.241551724137931e-05,
"loss": 4.6393,
"step": 5400
},
{
"epoch": 0.18333333333333332,
"grad_norm": 2.5369467735290527,
"learning_rate": 4.224310344827586e-05,
"loss": 4.6091,
"step": 5500
},
{
"epoch": 0.18666666666666668,
"grad_norm": 2.1592929363250732,
"learning_rate": 4.2070689655172416e-05,
"loss": 4.6441,
"step": 5600
},
{
"epoch": 0.19,
"grad_norm": 2.350390672683716,
"learning_rate": 4.189827586206897e-05,
"loss": 4.604,
"step": 5700
},
{
"epoch": 0.19333333333333333,
"grad_norm": 2.2912168502807617,
"learning_rate": 4.172586206896552e-05,
"loss": 4.6515,
"step": 5800
},
{
"epoch": 0.19666666666666666,
"grad_norm": 2.186971664428711,
"learning_rate": 4.1553448275862075e-05,
"loss": 4.6237,
"step": 5900
},
{
"epoch": 0.2,
"grad_norm": 2.28682804107666,
"learning_rate": 4.1381034482758624e-05,
"loss": 4.6443,
"step": 6000
},
{
"epoch": 0.20333333333333334,
"grad_norm": 2.299591064453125,
"learning_rate": 4.120862068965517e-05,
"loss": 4.6224,
"step": 6100
},
{
"epoch": 0.20666666666666667,
"grad_norm": 2.407121181488037,
"learning_rate": 4.103620689655173e-05,
"loss": 4.6194,
"step": 6200
},
{
"epoch": 0.21,
"grad_norm": 2.0112767219543457,
"learning_rate": 4.086379310344828e-05,
"loss": 4.6089,
"step": 6300
},
{
"epoch": 0.21333333333333335,
"grad_norm": 2.166243076324463,
"learning_rate": 4.069137931034483e-05,
"loss": 4.6085,
"step": 6400
},
{
"epoch": 0.21666666666666667,
"grad_norm": 2.0218312740325928,
"learning_rate": 4.051896551724138e-05,
"loss": 4.6101,
"step": 6500
},
{
"epoch": 0.22,
"grad_norm": 2.7403626441955566,
"learning_rate": 4.034655172413793e-05,
"loss": 4.6245,
"step": 6600
},
{
"epoch": 0.22333333333333333,
"grad_norm": 2.2210118770599365,
"learning_rate": 4.0174137931034485e-05,
"loss": 4.5907,
"step": 6700
},
{
"epoch": 0.22666666666666666,
"grad_norm": 2.169027090072632,
"learning_rate": 4.0001724137931034e-05,
"loss": 4.5893,
"step": 6800
},
{
"epoch": 0.23,
"grad_norm": 2.4303510189056396,
"learning_rate": 3.982931034482759e-05,
"loss": 4.6107,
"step": 6900
},
{
"epoch": 0.23333333333333334,
"grad_norm": 2.163461446762085,
"learning_rate": 3.965689655172414e-05,
"loss": 4.5775,
"step": 7000
},
{
"epoch": 0.23666666666666666,
"grad_norm": 2.205695390701294,
"learning_rate": 3.948448275862069e-05,
"loss": 4.5853,
"step": 7100
},
{
"epoch": 0.24,
"grad_norm": 2.0187084674835205,
"learning_rate": 3.931206896551725e-05,
"loss": 4.5793,
"step": 7200
},
{
"epoch": 0.24333333333333335,
"grad_norm": 1.859401822090149,
"learning_rate": 3.91396551724138e-05,
"loss": 4.6034,
"step": 7300
},
{
"epoch": 0.24666666666666667,
"grad_norm": 2.290074586868286,
"learning_rate": 3.8967241379310347e-05,
"loss": 4.5672,
"step": 7400
},
{
"epoch": 0.25,
"grad_norm": 2.1642653942108154,
"learning_rate": 3.87948275862069e-05,
"loss": 4.5999,
"step": 7500
},
{
"epoch": 0.25333333333333335,
"grad_norm": 2.244406223297119,
"learning_rate": 3.862241379310345e-05,
"loss": 4.5578,
"step": 7600
},
{
"epoch": 0.25666666666666665,
"grad_norm": 1.9028890132904053,
"learning_rate": 3.845e-05,
"loss": 4.5886,
"step": 7700
},
{
"epoch": 0.26,
"grad_norm": 2.019014835357666,
"learning_rate": 3.8277586206896555e-05,
"loss": 4.5244,
"step": 7800
},
{
"epoch": 0.2633333333333333,
"grad_norm": 2.1580286026000977,
"learning_rate": 3.8105172413793104e-05,
"loss": 4.6004,
"step": 7900
},
{
"epoch": 0.26666666666666666,
"grad_norm": 2.341559410095215,
"learning_rate": 3.793275862068966e-05,
"loss": 4.5605,
"step": 8000
},
{
"epoch": 0.27,
"grad_norm": 2.279217481613159,
"learning_rate": 3.776034482758621e-05,
"loss": 4.5713,
"step": 8100
},
{
"epoch": 0.2733333333333333,
"grad_norm": 1.8367992639541626,
"learning_rate": 3.7587931034482757e-05,
"loss": 4.5318,
"step": 8200
},
{
"epoch": 0.27666666666666667,
"grad_norm": 2.3710546493530273,
"learning_rate": 3.741724137931035e-05,
"loss": 4.5687,
"step": 8300
},
{
"epoch": 0.28,
"grad_norm": 2.3335001468658447,
"learning_rate": 3.72448275862069e-05,
"loss": 4.5419,
"step": 8400
},
{
"epoch": 0.2833333333333333,
"grad_norm": 2.4355528354644775,
"learning_rate": 3.707241379310345e-05,
"loss": 4.5668,
"step": 8500
},
{
"epoch": 0.2866666666666667,
"grad_norm": 2.0626087188720703,
"learning_rate": 3.69e-05,
"loss": 4.5458,
"step": 8600
},
{
"epoch": 0.29,
"grad_norm": 2.086386203765869,
"learning_rate": 3.672758620689655e-05,
"loss": 4.5494,
"step": 8700
},
{
"epoch": 0.29333333333333333,
"grad_norm": 2.0059709548950195,
"learning_rate": 3.655517241379311e-05,
"loss": 4.5051,
"step": 8800
},
{
"epoch": 0.2966666666666667,
"grad_norm": 2.086092233657837,
"learning_rate": 3.6382758620689655e-05,
"loss": 4.5408,
"step": 8900
},
{
"epoch": 0.3,
"grad_norm": 2.6836307048797607,
"learning_rate": 3.6210344827586204e-05,
"loss": 4.5253,
"step": 9000
},
{
"epoch": 0.30333333333333334,
"grad_norm": 1.8528039455413818,
"learning_rate": 3.603793103448276e-05,
"loss": 4.5349,
"step": 9100
},
{
"epoch": 0.30666666666666664,
"grad_norm": 2.2291455268859863,
"learning_rate": 3.586551724137931e-05,
"loss": 4.5132,
"step": 9200
},
{
"epoch": 0.31,
"grad_norm": 1.973479151725769,
"learning_rate": 3.5693103448275864e-05,
"loss": 4.5369,
"step": 9300
},
{
"epoch": 0.31333333333333335,
"grad_norm": 2.169776201248169,
"learning_rate": 3.552068965517242e-05,
"loss": 4.5442,
"step": 9400
},
{
"epoch": 0.31666666666666665,
"grad_norm": 2.312795877456665,
"learning_rate": 3.534827586206897e-05,
"loss": 4.548,
"step": 9500
},
{
"epoch": 0.32,
"grad_norm": 1.946328043937683,
"learning_rate": 3.517586206896552e-05,
"loss": 4.512,
"step": 9600
},
{
"epoch": 0.3233333333333333,
"grad_norm": 2.379603147506714,
"learning_rate": 3.500344827586207e-05,
"loss": 4.5191,
"step": 9700
},
{
"epoch": 0.32666666666666666,
"grad_norm": 2.1291146278381348,
"learning_rate": 3.483103448275862e-05,
"loss": 4.5521,
"step": 9800
},
{
"epoch": 0.33,
"grad_norm": 2.242424488067627,
"learning_rate": 3.4658620689655176e-05,
"loss": 4.4897,
"step": 9900
},
{
"epoch": 0.3333333333333333,
"grad_norm": 2.0109705924987793,
"learning_rate": 3.448793103448276e-05,
"loss": 4.5254,
"step": 10000
},
{
"epoch": 0.33666666666666667,
"grad_norm": 2.0069398880004883,
"learning_rate": 3.431551724137931e-05,
"loss": 4.4718,
"step": 10100
},
{
"epoch": 0.34,
"grad_norm": 2.110619306564331,
"learning_rate": 3.414310344827587e-05,
"loss": 4.5204,
"step": 10200
},
{
"epoch": 0.3433333333333333,
"grad_norm": 2.287642478942871,
"learning_rate": 3.3970689655172415e-05,
"loss": 4.5132,
"step": 10300
},
{
"epoch": 0.3466666666666667,
"grad_norm": 2.430785655975342,
"learning_rate": 3.379827586206897e-05,
"loss": 4.5419,
"step": 10400
},
{
"epoch": 0.35,
"grad_norm": 2.0009684562683105,
"learning_rate": 3.362586206896552e-05,
"loss": 4.4966,
"step": 10500
},
{
"epoch": 0.35333333333333333,
"grad_norm": 2.163966417312622,
"learning_rate": 3.345344827586207e-05,
"loss": 4.5212,
"step": 10600
},
{
"epoch": 0.3566666666666667,
"grad_norm": 2.0159249305725098,
"learning_rate": 3.3281034482758624e-05,
"loss": 4.4934,
"step": 10700
},
{
"epoch": 0.36,
"grad_norm": 2.01526141166687,
"learning_rate": 3.310862068965517e-05,
"loss": 4.5503,
"step": 10800
},
{
"epoch": 0.36333333333333334,
"grad_norm": 2.336897850036621,
"learning_rate": 3.293620689655173e-05,
"loss": 4.4682,
"step": 10900
},
{
"epoch": 0.36666666666666664,
"grad_norm": 2.1598005294799805,
"learning_rate": 3.276379310344828e-05,
"loss": 4.5306,
"step": 11000
},
{
"epoch": 0.37,
"grad_norm": 2.5167276859283447,
"learning_rate": 3.2591379310344825e-05,
"loss": 4.4721,
"step": 11100
},
{
"epoch": 0.37333333333333335,
"grad_norm": 1.98994779586792,
"learning_rate": 3.241896551724138e-05,
"loss": 4.4932,
"step": 11200
},
{
"epoch": 0.37666666666666665,
"grad_norm": 2.22099232673645,
"learning_rate": 3.224655172413793e-05,
"loss": 4.475,
"step": 11300
},
{
"epoch": 0.38,
"grad_norm": 1.780299186706543,
"learning_rate": 3.2074137931034485e-05,
"loss": 4.5303,
"step": 11400
},
{
"epoch": 0.38333333333333336,
"grad_norm": 2.1039958000183105,
"learning_rate": 3.190172413793104e-05,
"loss": 4.4876,
"step": 11500
},
{
"epoch": 0.38666666666666666,
"grad_norm": 2.0175621509552,
"learning_rate": 3.172931034482759e-05,
"loss": 4.5166,
"step": 11600
},
{
"epoch": 0.39,
"grad_norm": 2.2640490531921387,
"learning_rate": 3.155689655172414e-05,
"loss": 4.4593,
"step": 11700
},
{
"epoch": 0.3933333333333333,
"grad_norm": 2.259965181350708,
"learning_rate": 3.138448275862069e-05,
"loss": 4.5223,
"step": 11800
},
{
"epoch": 0.39666666666666667,
"grad_norm": 2.384817600250244,
"learning_rate": 3.121206896551724e-05,
"loss": 4.493,
"step": 11900
},
{
"epoch": 0.4,
"grad_norm": 1.9847548007965088,
"learning_rate": 3.10396551724138e-05,
"loss": 4.4944,
"step": 12000
},
{
"epoch": 0.4033333333333333,
"grad_norm": 2.0270016193389893,
"learning_rate": 3.0867241379310346e-05,
"loss": 4.4925,
"step": 12100
},
{
"epoch": 0.4066666666666667,
"grad_norm": 2.279428482055664,
"learning_rate": 3.069655172413793e-05,
"loss": 4.4995,
"step": 12200
},
{
"epoch": 0.41,
"grad_norm": 2.1263952255249023,
"learning_rate": 3.052413793103449e-05,
"loss": 4.4687,
"step": 12300
},
{
"epoch": 0.41333333333333333,
"grad_norm": 2.1277477741241455,
"learning_rate": 3.0351724137931037e-05,
"loss": 4.4833,
"step": 12400
},
{
"epoch": 0.4166666666666667,
"grad_norm": 1.9847360849380493,
"learning_rate": 3.017931034482759e-05,
"loss": 4.4832,
"step": 12500
},
{
"epoch": 0.42,
"grad_norm": 1.7778632640838623,
"learning_rate": 3.000689655172414e-05,
"loss": 4.4682,
"step": 12600
},
{
"epoch": 0.42333333333333334,
"grad_norm": 2.1409926414489746,
"learning_rate": 2.983448275862069e-05,
"loss": 4.5006,
"step": 12700
},
{
"epoch": 0.4266666666666667,
"grad_norm": 2.5149056911468506,
"learning_rate": 2.966206896551724e-05,
"loss": 4.4466,
"step": 12800
},
{
"epoch": 0.43,
"grad_norm": 2.458773612976074,
"learning_rate": 2.9489655172413794e-05,
"loss": 4.4996,
"step": 12900
},
{
"epoch": 0.43333333333333335,
"grad_norm": 1.972216248512268,
"learning_rate": 2.9317241379310346e-05,
"loss": 4.4611,
"step": 13000
},
{
"epoch": 0.43666666666666665,
"grad_norm": 2.464979887008667,
"learning_rate": 2.9144827586206898e-05,
"loss": 4.5022,
"step": 13100
},
{
"epoch": 0.44,
"grad_norm": 2.4846181869506836,
"learning_rate": 2.8972413793103447e-05,
"loss": 4.4629,
"step": 13200
},
{
"epoch": 0.44333333333333336,
"grad_norm": 2.5245821475982666,
"learning_rate": 2.88e-05,
"loss": 4.4802,
"step": 13300
},
{
"epoch": 0.44666666666666666,
"grad_norm": 2.218487024307251,
"learning_rate": 2.862758620689655e-05,
"loss": 4.4598,
"step": 13400
},
{
"epoch": 0.45,
"grad_norm": 1.7457364797592163,
"learning_rate": 2.8455172413793106e-05,
"loss": 4.487,
"step": 13500
},
{
"epoch": 0.4533333333333333,
"grad_norm": 2.262539863586426,
"learning_rate": 2.828275862068966e-05,
"loss": 4.4315,
"step": 13600
},
{
"epoch": 0.45666666666666667,
"grad_norm": 2.005768299102783,
"learning_rate": 2.811034482758621e-05,
"loss": 4.4736,
"step": 13700
},
{
"epoch": 0.46,
"grad_norm": 1.9539450407028198,
"learning_rate": 2.7937931034482763e-05,
"loss": 4.4243,
"step": 13800
},
{
"epoch": 0.4633333333333333,
"grad_norm": 2.2052249908447266,
"learning_rate": 2.7765517241379315e-05,
"loss": 4.4758,
"step": 13900
},
{
"epoch": 0.4666666666666667,
"grad_norm": 2.210599184036255,
"learning_rate": 2.7593103448275863e-05,
"loss": 4.4682,
"step": 14000
},
{
"epoch": 0.47,
"grad_norm": 1.977975845336914,
"learning_rate": 2.7420689655172415e-05,
"loss": 4.4722,
"step": 14100
},
{
"epoch": 0.47333333333333333,
"grad_norm": 2.3111207485198975,
"learning_rate": 2.7248275862068968e-05,
"loss": 4.4341,
"step": 14200
},
{
"epoch": 0.4766666666666667,
"grad_norm": 2.1010982990264893,
"learning_rate": 2.707586206896552e-05,
"loss": 4.4488,
"step": 14300
},
{
"epoch": 0.48,
"grad_norm": 2.0630757808685303,
"learning_rate": 2.6903448275862068e-05,
"loss": 4.4477,
"step": 14400
},
{
"epoch": 0.48333333333333334,
"grad_norm": 1.975195288658142,
"learning_rate": 2.673103448275862e-05,
"loss": 4.4461,
"step": 14500
},
{
"epoch": 0.4866666666666667,
"grad_norm": 2.149717330932617,
"learning_rate": 2.6558620689655172e-05,
"loss": 4.46,
"step": 14600
},
{
"epoch": 0.49,
"grad_norm": 2.3318910598754883,
"learning_rate": 2.638793103448276e-05,
"loss": 4.433,
"step": 14700
},
{
"epoch": 0.49333333333333335,
"grad_norm": 2.138505220413208,
"learning_rate": 2.621551724137931e-05,
"loss": 4.4408,
"step": 14800
},
{
"epoch": 0.49666666666666665,
"grad_norm": 1.8805365562438965,
"learning_rate": 2.6043103448275863e-05,
"loss": 4.4495,
"step": 14900
},
{
"epoch": 0.5,
"grad_norm": 2.2338950634002686,
"learning_rate": 2.5870689655172415e-05,
"loss": 4.4754,
"step": 15000
},
{
"epoch": 0.5033333333333333,
"grad_norm": 2.114830255508423,
"learning_rate": 2.5698275862068967e-05,
"loss": 4.4402,
"step": 15100
},
{
"epoch": 0.5066666666666667,
"grad_norm": 2.1137115955352783,
"learning_rate": 2.5525862068965516e-05,
"loss": 4.4754,
"step": 15200
},
{
"epoch": 0.51,
"grad_norm": 2.3145370483398438,
"learning_rate": 2.5353448275862068e-05,
"loss": 4.4133,
"step": 15300
},
{
"epoch": 0.5133333333333333,
"grad_norm": 1.9466785192489624,
"learning_rate": 2.518103448275862e-05,
"loss": 4.4558,
"step": 15400
},
{
"epoch": 0.5166666666666667,
"grad_norm": 2.052103042602539,
"learning_rate": 2.5008620689655172e-05,
"loss": 4.4199,
"step": 15500
},
{
"epoch": 0.52,
"grad_norm": 2.0328545570373535,
"learning_rate": 2.4836206896551724e-05,
"loss": 4.4633,
"step": 15600
},
{
"epoch": 0.5233333333333333,
"grad_norm": 1.8531575202941895,
"learning_rate": 2.4665517241379314e-05,
"loss": 4.4161,
"step": 15700
},
{
"epoch": 0.5266666666666666,
"grad_norm": 2.1167118549346924,
"learning_rate": 2.4493103448275866e-05,
"loss": 4.4631,
"step": 15800
},
{
"epoch": 0.53,
"grad_norm": 2.288839101791382,
"learning_rate": 2.4320689655172415e-05,
"loss": 4.4275,
"step": 15900
},
{
"epoch": 0.5333333333333333,
"grad_norm": 2.267571449279785,
"learning_rate": 2.4148275862068967e-05,
"loss": 4.4367,
"step": 16000
},
{
"epoch": 0.5366666666666666,
"grad_norm": 2.238534927368164,
"learning_rate": 2.397586206896552e-05,
"loss": 4.4161,
"step": 16100
},
{
"epoch": 0.54,
"grad_norm": 1.891422986984253,
"learning_rate": 2.380344827586207e-05,
"loss": 4.4454,
"step": 16200
},
{
"epoch": 0.5433333333333333,
"grad_norm": 2.3173861503601074,
"learning_rate": 2.363103448275862e-05,
"loss": 4.4087,
"step": 16300
},
{
"epoch": 0.5466666666666666,
"grad_norm": 1.741228461265564,
"learning_rate": 2.345862068965517e-05,
"loss": 4.4441,
"step": 16400
},
{
"epoch": 0.55,
"grad_norm": 2.76397442817688,
"learning_rate": 2.3286206896551727e-05,
"loss": 4.4192,
"step": 16500
},
{
"epoch": 0.5533333333333333,
"grad_norm": 2.1828739643096924,
"learning_rate": 2.311379310344828e-05,
"loss": 4.4073,
"step": 16600
},
{
"epoch": 0.5566666666666666,
"grad_norm": 1.968559741973877,
"learning_rate": 2.2941379310344828e-05,
"loss": 4.4374,
"step": 16700
},
{
"epoch": 0.56,
"grad_norm": 2.170126438140869,
"learning_rate": 2.276896551724138e-05,
"loss": 4.4077,
"step": 16800
},
{
"epoch": 0.5633333333333334,
"grad_norm": 2.200995922088623,
"learning_rate": 2.2596551724137932e-05,
"loss": 4.4115,
"step": 16900
},
{
"epoch": 0.5666666666666667,
"grad_norm": 2.0842859745025635,
"learning_rate": 2.2424137931034484e-05,
"loss": 4.3951,
"step": 17000
},
{
"epoch": 0.57,
"grad_norm": 2.1672942638397217,
"learning_rate": 2.2251724137931036e-05,
"loss": 4.4495,
"step": 17100
},
{
"epoch": 0.5733333333333334,
"grad_norm": 2.1524171829223633,
"learning_rate": 2.2079310344827585e-05,
"loss": 4.4148,
"step": 17200
},
{
"epoch": 0.5766666666666667,
"grad_norm": 2.0464670658111572,
"learning_rate": 2.190689655172414e-05,
"loss": 4.4217,
"step": 17300
},
{
"epoch": 0.58,
"grad_norm": 2.345148801803589,
"learning_rate": 2.1734482758620693e-05,
"loss": 4.3839,
"step": 17400
},
{
"epoch": 0.5833333333333334,
"grad_norm": 2.089466094970703,
"learning_rate": 2.1562068965517245e-05,
"loss": 4.4422,
"step": 17500
},
{
"epoch": 0.5866666666666667,
"grad_norm": 2.0062997341156006,
"learning_rate": 2.1389655172413793e-05,
"loss": 4.383,
"step": 17600
},
{
"epoch": 0.59,
"grad_norm": 1.9194973707199097,
"learning_rate": 2.1217241379310345e-05,
"loss": 4.4357,
"step": 17700
},
{
"epoch": 0.5933333333333334,
"grad_norm": 2.143671989440918,
"learning_rate": 2.1044827586206898e-05,
"loss": 4.4016,
"step": 17800
},
{
"epoch": 0.5966666666666667,
"grad_norm": 2.0662789344787598,
"learning_rate": 2.087241379310345e-05,
"loss": 4.4194,
"step": 17900
},
{
"epoch": 0.6,
"grad_norm": 2.1098804473876953,
"learning_rate": 2.07e-05,
"loss": 4.3904,
"step": 18000
},
{
"epoch": 0.6033333333333334,
"grad_norm": 2.246016502380371,
"learning_rate": 2.0527586206896554e-05,
"loss": 4.407,
"step": 18100
},
{
"epoch": 0.6066666666666667,
"grad_norm": 2.139479637145996,
"learning_rate": 2.0355172413793106e-05,
"loss": 4.4069,
"step": 18200
},
{
"epoch": 0.61,
"grad_norm": 2.2395882606506348,
"learning_rate": 2.0182758620689658e-05,
"loss": 4.4317,
"step": 18300
},
{
"epoch": 0.6133333333333333,
"grad_norm": 2.2215514183044434,
"learning_rate": 2.0010344827586207e-05,
"loss": 4.4087,
"step": 18400
},
{
"epoch": 0.6166666666666667,
"grad_norm": 2.2115671634674072,
"learning_rate": 1.983793103448276e-05,
"loss": 4.4261,
"step": 18500
},
{
"epoch": 0.62,
"grad_norm": 2.1851704120635986,
"learning_rate": 1.966551724137931e-05,
"loss": 4.428,
"step": 18600
},
{
"epoch": 0.6233333333333333,
"grad_norm": 2.017883539199829,
"learning_rate": 1.9493103448275863e-05,
"loss": 4.3821,
"step": 18700
},
{
"epoch": 0.6266666666666667,
"grad_norm": 1.912879228591919,
"learning_rate": 1.9320689655172415e-05,
"loss": 4.4048,
"step": 18800
},
{
"epoch": 0.63,
"grad_norm": 2.136014699935913,
"learning_rate": 1.9148275862068964e-05,
"loss": 4.3849,
"step": 18900
},
{
"epoch": 0.6333333333333333,
"grad_norm": 1.9832309484481812,
"learning_rate": 1.897586206896552e-05,
"loss": 4.4062,
"step": 19000
},
{
"epoch": 0.6366666666666667,
"grad_norm": 1.8475227355957031,
"learning_rate": 1.880344827586207e-05,
"loss": 4.3949,
"step": 19100
},
{
"epoch": 0.64,
"grad_norm": 2.476745367050171,
"learning_rate": 1.8631034482758623e-05,
"loss": 4.416,
"step": 19200
},
{
"epoch": 0.6433333333333333,
"grad_norm": 2.201724052429199,
"learning_rate": 1.8458620689655172e-05,
"loss": 4.3844,
"step": 19300
},
{
"epoch": 0.6466666666666666,
"grad_norm": 1.9169152975082397,
"learning_rate": 1.8286206896551724e-05,
"loss": 4.4169,
"step": 19400
},
{
"epoch": 0.65,
"grad_norm": 1.8896160125732422,
"learning_rate": 1.8113793103448276e-05,
"loss": 4.4032,
"step": 19500
},
{
"epoch": 0.6533333333333333,
"grad_norm": 1.9147884845733643,
"learning_rate": 1.794137931034483e-05,
"loss": 4.4098,
"step": 19600
},
{
"epoch": 0.6566666666666666,
"grad_norm": 2.461538076400757,
"learning_rate": 1.776896551724138e-05,
"loss": 4.4274,
"step": 19700
},
{
"epoch": 0.66,
"grad_norm": 2.043869733810425,
"learning_rate": 1.7596551724137933e-05,
"loss": 4.3963,
"step": 19800
},
{
"epoch": 0.6633333333333333,
"grad_norm": 2.003953218460083,
"learning_rate": 1.7424137931034485e-05,
"loss": 4.4025,
"step": 19900
},
{
"epoch": 0.6666666666666666,
"grad_norm": 2.514071464538574,
"learning_rate": 1.7251724137931037e-05,
"loss": 4.3973,
"step": 20000
},
{
"epoch": 0.67,
"grad_norm": 2.3290865421295166,
"learning_rate": 1.7079310344827585e-05,
"loss": 4.3999,
"step": 20100
},
{
"epoch": 0.6733333333333333,
"grad_norm": 1.8519926071166992,
"learning_rate": 1.6906896551724138e-05,
"loss": 4.4046,
"step": 20200
},
{
"epoch": 0.6766666666666666,
"grad_norm": 2.53118896484375,
"learning_rate": 1.673448275862069e-05,
"loss": 4.3959,
"step": 20300
},
{
"epoch": 0.68,
"grad_norm": 1.9727709293365479,
"learning_rate": 1.6562068965517242e-05,
"loss": 4.4176,
"step": 20400
},
{
"epoch": 0.6833333333333333,
"grad_norm": 1.9265756607055664,
"learning_rate": 1.6389655172413794e-05,
"loss": 4.3849,
"step": 20500
},
{
"epoch": 0.6866666666666666,
"grad_norm": 2.2798376083374023,
"learning_rate": 1.6217241379310346e-05,
"loss": 4.4101,
"step": 20600
},
{
"epoch": 0.69,
"grad_norm": 2.1076509952545166,
"learning_rate": 1.6044827586206898e-05,
"loss": 4.3888,
"step": 20700
},
{
"epoch": 0.6933333333333334,
"grad_norm": 2.338351011276245,
"learning_rate": 1.587241379310345e-05,
"loss": 4.3772,
"step": 20800
},
{
"epoch": 0.6966666666666667,
"grad_norm": 2.0186917781829834,
"learning_rate": 1.5700000000000002e-05,
"loss": 4.4018,
"step": 20900
},
{
"epoch": 0.7,
"grad_norm": 2.1765296459198,
"learning_rate": 1.552758620689655e-05,
"loss": 4.4103,
"step": 21000
},
{
"epoch": 0.7033333333333334,
"grad_norm": 2.109718084335327,
"learning_rate": 1.5355172413793103e-05,
"loss": 4.3969,
"step": 21100
},
{
"epoch": 0.7066666666666667,
"grad_norm": 2.078711748123169,
"learning_rate": 1.5182758620689655e-05,
"loss": 4.4051,
"step": 21200
},
{
"epoch": 0.71,
"grad_norm": 2.2366254329681396,
"learning_rate": 1.5010344827586207e-05,
"loss": 4.377,
"step": 21300
},
{
"epoch": 0.7133333333333334,
"grad_norm": 2.2516391277313232,
"learning_rate": 1.4837931034482761e-05,
"loss": 4.4015,
"step": 21400
},
{
"epoch": 0.7166666666666667,
"grad_norm": 2.1501176357269287,
"learning_rate": 1.4665517241379311e-05,
"loss": 4.3737,
"step": 21500
},
{
"epoch": 0.72,
"grad_norm": 1.8726160526275635,
"learning_rate": 1.4493103448275863e-05,
"loss": 4.3776,
"step": 21600
},
{
"epoch": 0.7233333333333334,
"grad_norm": 2.260007381439209,
"learning_rate": 1.4320689655172414e-05,
"loss": 4.3961,
"step": 21700
},
{
"epoch": 0.7266666666666667,
"grad_norm": 1.9862884283065796,
"learning_rate": 1.415e-05,
"loss": 4.3974,
"step": 21800
},
{
"epoch": 0.73,
"grad_norm": 2.1817476749420166,
"learning_rate": 1.3977586206896554e-05,
"loss": 4.4077,
"step": 21900
},
{
"epoch": 0.7333333333333333,
"grad_norm": 2.2883946895599365,
"learning_rate": 1.3805172413793104e-05,
"loss": 4.3457,
"step": 22000
},
{
"epoch": 0.7366666666666667,
"grad_norm": 2.1526737213134766,
"learning_rate": 1.3632758620689656e-05,
"loss": 4.4059,
"step": 22100
},
{
"epoch": 0.74,
"grad_norm": 2.2343320846557617,
"learning_rate": 1.3460344827586208e-05,
"loss": 4.3799,
"step": 22200
},
{
"epoch": 0.7433333333333333,
"grad_norm": 2.1139650344848633,
"learning_rate": 1.3289655172413793e-05,
"loss": 4.3759,
"step": 22300
},
{
"epoch": 0.7466666666666667,
"grad_norm": 2.2490551471710205,
"learning_rate": 1.3117241379310347e-05,
"loss": 4.3726,
"step": 22400
},
{
"epoch": 0.75,
"grad_norm": 2.03560209274292,
"learning_rate": 1.2944827586206897e-05,
"loss": 4.3795,
"step": 22500
},
{
"epoch": 0.7533333333333333,
"grad_norm": 2.175682783126831,
"learning_rate": 1.277241379310345e-05,
"loss": 4.3911,
"step": 22600
},
{
"epoch": 0.7566666666666667,
"grad_norm": 2.171412467956543,
"learning_rate": 1.2600000000000001e-05,
"loss": 4.3755,
"step": 22700
},
{
"epoch": 0.76,
"grad_norm": 2.1491260528564453,
"learning_rate": 1.2427586206896552e-05,
"loss": 4.3995,
"step": 22800
},
{
"epoch": 0.7633333333333333,
"grad_norm": 2.0756146907806396,
"learning_rate": 1.2255172413793104e-05,
"loss": 4.3824,
"step": 22900
},
{
"epoch": 0.7666666666666667,
"grad_norm": 1.9129120111465454,
"learning_rate": 1.2082758620689656e-05,
"loss": 4.379,
"step": 23000
},
{
"epoch": 0.77,
"grad_norm": 2.1584272384643555,
"learning_rate": 1.1910344827586208e-05,
"loss": 4.393,
"step": 23100
},
{
"epoch": 0.7733333333333333,
"grad_norm": 2.1815624237060547,
"learning_rate": 1.1737931034482758e-05,
"loss": 4.3407,
"step": 23200
},
{
"epoch": 0.7766666666666666,
"grad_norm": 2.2393853664398193,
"learning_rate": 1.156551724137931e-05,
"loss": 4.3876,
"step": 23300
},
{
"epoch": 0.78,
"grad_norm": 2.191389560699463,
"learning_rate": 1.1393103448275863e-05,
"loss": 4.3888,
"step": 23400
},
{
"epoch": 0.7833333333333333,
"grad_norm": 1.861325740814209,
"learning_rate": 1.1220689655172415e-05,
"loss": 4.3659,
"step": 23500
},
{
"epoch": 0.7866666666666666,
"grad_norm": 2.1595823764801025,
"learning_rate": 1.1048275862068965e-05,
"loss": 4.374,
"step": 23600
},
{
"epoch": 0.79,
"grad_norm": 2.048743963241577,
"learning_rate": 1.0875862068965517e-05,
"loss": 4.3554,
"step": 23700
},
{
"epoch": 0.7933333333333333,
"grad_norm": 1.8800294399261475,
"learning_rate": 1.070344827586207e-05,
"loss": 4.3815,
"step": 23800
},
{
"epoch": 0.7966666666666666,
"grad_norm": 2.2559168338775635,
"learning_rate": 1.0531034482758621e-05,
"loss": 4.3809,
"step": 23900
},
{
"epoch": 0.8,
"grad_norm": 2.2554898262023926,
"learning_rate": 1.0358620689655173e-05,
"loss": 4.3688,
"step": 24000
},
{
"epoch": 0.8033333333333333,
"grad_norm": 2.4968557357788086,
"learning_rate": 1.0186206896551724e-05,
"loss": 4.3834,
"step": 24100
},
{
"epoch": 0.8066666666666666,
"grad_norm": 2.2546260356903076,
"learning_rate": 1.0013793103448278e-05,
"loss": 4.3671,
"step": 24200
},
{
"epoch": 0.81,
"grad_norm": 2.0959572792053223,
"learning_rate": 9.841379310344828e-06,
"loss": 4.4036,
"step": 24300
},
{
"epoch": 0.8133333333333334,
"grad_norm": 2.429842472076416,
"learning_rate": 9.66896551724138e-06,
"loss": 4.3778,
"step": 24400
},
{
"epoch": 0.8166666666666667,
"grad_norm": 1.9144500494003296,
"learning_rate": 9.49655172413793e-06,
"loss": 4.3597,
"step": 24500
},
{
"epoch": 0.82,
"grad_norm": 2.014716863632202,
"learning_rate": 9.324137931034484e-06,
"loss": 4.3398,
"step": 24600
},
{
"epoch": 0.8233333333333334,
"grad_norm": 2.0111021995544434,
"learning_rate": 9.151724137931035e-06,
"loss": 4.3688,
"step": 24700
},
{
"epoch": 0.8266666666666667,
"grad_norm": 2.206125259399414,
"learning_rate": 8.979310344827587e-06,
"loss": 4.4069,
"step": 24800
},
{
"epoch": 0.83,
"grad_norm": 1.9322938919067383,
"learning_rate": 8.806896551724137e-06,
"loss": 4.3585,
"step": 24900
},
{
"epoch": 0.8333333333333334,
"grad_norm": 2.382385492324829,
"learning_rate": 8.634482758620691e-06,
"loss": 4.379,
"step": 25000
},
{
"epoch": 0.8366666666666667,
"grad_norm": 2.0957460403442383,
"learning_rate": 8.462068965517241e-06,
"loss": 4.3633,
"step": 25100
},
{
"epoch": 0.84,
"grad_norm": 2.191102981567383,
"learning_rate": 8.289655172413793e-06,
"loss": 4.3723,
"step": 25200
},
{
"epoch": 0.8433333333333334,
"grad_norm": 2.186511993408203,
"learning_rate": 8.117241379310346e-06,
"loss": 4.396,
"step": 25300
},
{
"epoch": 0.8466666666666667,
"grad_norm": 2.2075576782226562,
"learning_rate": 7.944827586206898e-06,
"loss": 4.3534,
"step": 25400
},
{
"epoch": 0.85,
"grad_norm": 2.1940252780914307,
"learning_rate": 7.772413793103448e-06,
"loss": 4.3564,
"step": 25500
},
{
"epoch": 0.8533333333333334,
"grad_norm": 1.975804090499878,
"learning_rate": 7.6e-06,
"loss": 4.3497,
"step": 25600
},
{
"epoch": 0.8566666666666667,
"grad_norm": 2.2161664962768555,
"learning_rate": 7.427586206896551e-06,
"loss": 4.3383,
"step": 25700
},
{
"epoch": 0.86,
"grad_norm": 2.422048807144165,
"learning_rate": 7.255172413793104e-06,
"loss": 4.381,
"step": 25800
},
{
"epoch": 0.8633333333333333,
"grad_norm": 2.26328444480896,
"learning_rate": 7.0827586206896555e-06,
"loss": 4.337,
"step": 25900
},
{
"epoch": 0.8666666666666667,
"grad_norm": 2.0234344005584717,
"learning_rate": 6.912068965517242e-06,
"loss": 4.3614,
"step": 26000
},
{
"epoch": 0.87,
"grad_norm": 2.1131584644317627,
"learning_rate": 6.739655172413793e-06,
"loss": 4.3512,
"step": 26100
},
{
"epoch": 0.8733333333333333,
"grad_norm": 2.498945713043213,
"learning_rate": 6.567241379310344e-06,
"loss": 4.3559,
"step": 26200
},
{
"epoch": 0.8766666666666667,
"grad_norm": 2.271238327026367,
"learning_rate": 6.394827586206897e-06,
"loss": 4.3568,
"step": 26300
},
{
"epoch": 0.88,
"grad_norm": 2.2349765300750732,
"learning_rate": 6.2224137931034484e-06,
"loss": 4.3303,
"step": 26400
},
{
"epoch": 0.8833333333333333,
"grad_norm": 2.2044858932495117,
"learning_rate": 6.0500000000000005e-06,
"loss": 4.3573,
"step": 26500
},
{
"epoch": 0.8866666666666667,
"grad_norm": 2.143218994140625,
"learning_rate": 5.877586206896552e-06,
"loss": 4.3548,
"step": 26600
},
{
"epoch": 0.89,
"grad_norm": 2.3432939052581787,
"learning_rate": 5.705172413793104e-06,
"loss": 4.3687,
"step": 26700
},
{
"epoch": 0.8933333333333333,
"grad_norm": 1.8604556322097778,
"learning_rate": 5.532758620689656e-06,
"loss": 4.3866,
"step": 26800
},
{
"epoch": 0.8966666666666666,
"grad_norm": 2.41178560256958,
"learning_rate": 5.360344827586207e-06,
"loss": 4.3309,
"step": 26900
},
{
"epoch": 0.9,
"grad_norm": 2.5105397701263428,
"learning_rate": 5.187931034482759e-06,
"loss": 4.3829,
"step": 27000
},
{
"epoch": 0.9033333333333333,
"grad_norm": 2.303903102874756,
"learning_rate": 5.0155172413793105e-06,
"loss": 4.3343,
"step": 27100
},
{
"epoch": 0.9066666666666666,
"grad_norm": 2.1825873851776123,
"learning_rate": 4.843103448275863e-06,
"loss": 4.3467,
"step": 27200
},
{
"epoch": 0.91,
"grad_norm": 2.1242332458496094,
"learning_rate": 4.670689655172414e-06,
"loss": 4.3591,
"step": 27300
},
{
"epoch": 0.9133333333333333,
"grad_norm": 2.355365037918091,
"learning_rate": 4.498275862068966e-06,
"loss": 4.3175,
"step": 27400
},
{
"epoch": 0.9166666666666666,
"grad_norm": 2.075387954711914,
"learning_rate": 4.325862068965517e-06,
"loss": 4.3861,
"step": 27500
},
{
"epoch": 0.92,
"grad_norm": 2.1146600246429443,
"learning_rate": 4.153448275862069e-06,
"loss": 4.355,
"step": 27600
},
{
"epoch": 0.9233333333333333,
"grad_norm": 1.9889869689941406,
"learning_rate": 3.9810344827586205e-06,
"loss": 4.3627,
"step": 27700
},
{
"epoch": 0.9266666666666666,
"grad_norm": 2.166405200958252,
"learning_rate": 3.8086206896551726e-06,
"loss": 4.3459,
"step": 27800
},
{
"epoch": 0.93,
"grad_norm": 2.054823160171509,
"learning_rate": 3.6362068965517243e-06,
"loss": 4.3174,
"step": 27900
},
{
"epoch": 0.9333333333333333,
"grad_norm": 2.1031033992767334,
"learning_rate": 3.4637931034482764e-06,
"loss": 4.358,
"step": 28000
},
{
"epoch": 0.9366666666666666,
"grad_norm": 2.0477893352508545,
"learning_rate": 3.2913793103448276e-06,
"loss": 4.341,
"step": 28100
},
{
"epoch": 0.94,
"grad_norm": 2.4143428802490234,
"learning_rate": 3.1189655172413793e-06,
"loss": 4.355,
"step": 28200
},
{
"epoch": 0.9433333333333334,
"grad_norm": 1.8853615522384644,
"learning_rate": 2.946551724137931e-06,
"loss": 4.3365,
"step": 28300
},
{
"epoch": 0.9466666666666667,
"grad_norm": 2.3704171180725098,
"learning_rate": 2.7741379310344826e-06,
"loss": 4.3356,
"step": 28400
},
{
"epoch": 0.95,
"grad_norm": 2.3981566429138184,
"learning_rate": 2.6017241379310343e-06,
"loss": 4.3553,
"step": 28500
},
{
"epoch": 0.9533333333333334,
"grad_norm": 2.259207010269165,
"learning_rate": 2.4310344827586205e-06,
"loss": 4.3363,
"step": 28600
},
{
"epoch": 0.9566666666666667,
"grad_norm": 2.0507473945617676,
"learning_rate": 2.258620689655172e-06,
"loss": 4.3574,
"step": 28700
},
{
"epoch": 0.96,
"grad_norm": 2.1110222339630127,
"learning_rate": 2.0862068965517243e-06,
"loss": 4.3434,
"step": 28800
},
{
"epoch": 0.9633333333333334,
"grad_norm": 2.7897815704345703,
"learning_rate": 1.913793103448276e-06,
"loss": 4.3536,
"step": 28900
},
{
"epoch": 0.9666666666666667,
"grad_norm": 2.439835548400879,
"learning_rate": 1.7413793103448276e-06,
"loss": 4.353,
"step": 29000
},
{
"epoch": 0.97,
"grad_norm": 2.11780047416687,
"learning_rate": 1.5689655172413793e-06,
"loss": 4.3291,
"step": 29100
},
{
"epoch": 0.9733333333333334,
"grad_norm": 2.232104539871216,
"learning_rate": 1.3965517241379312e-06,
"loss": 4.3563,
"step": 29200
},
{
"epoch": 0.9766666666666667,
"grad_norm": 2.321014404296875,
"learning_rate": 1.2241379310344828e-06,
"loss": 4.3352,
"step": 29300
},
{
"epoch": 0.98,
"grad_norm": 2.1317617893218994,
"learning_rate": 1.0517241379310345e-06,
"loss": 4.3548,
"step": 29400
},
{
"epoch": 0.9833333333333333,
"grad_norm": 2.2252442836761475,
"learning_rate": 8.793103448275863e-07,
"loss": 4.3548,
"step": 29500
},
{
"epoch": 0.9866666666666667,
"grad_norm": 2.241938829421997,
"learning_rate": 7.068965517241379e-07,
"loss": 4.3312,
"step": 29600
},
{
"epoch": 0.99,
"grad_norm": 2.1634891033172607,
"learning_rate": 5.344827586206897e-07,
"loss": 4.3697,
"step": 29700
},
{
"epoch": 0.9933333333333333,
"grad_norm": 2.746436357498169,
"learning_rate": 3.6206896551724143e-07,
"loss": 4.3528,
"step": 29800
},
{
"epoch": 0.9966666666666667,
"grad_norm": 2.436894178390503,
"learning_rate": 1.8965517241379312e-07,
"loss": 4.34,
"step": 29900
},
{
"epoch": 1.0,
"grad_norm": 2.4377429485321045,
"learning_rate": 1.896551724137931e-08,
"loss": 4.3691,
"step": 30000
},
{
"epoch": 1.0000333333333333,
"step": 30001,
"total_flos": 4.0981544802503885e+17,
"train_loss": 0.00044824120156077804,
"train_runtime": 24.4073,
"train_samples_per_second": 19666.274,
"train_steps_per_second": 1229.142
}
],
"logging_steps": 100,
"max_steps": 30000,
"num_input_tokens_seen": 0,
"num_train_epochs": 9223372036854775807,
"save_steps": 2000,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 4.0981544802503885e+17,
"train_batch_size": 4,
"trial_name": null,
"trial_params": null
}